STATISTICA NOZIONI DI BASE Italo Nofroni Statistica medica - Sapienza - Roma Si definisce statistica la scienza cha ha per oggetto la raccolta, l analisi e l interpretazione dei dati (intensità e/o frequenze) riguardanti un determinato fenomeno in un collettivo prefissato Durante la raccolta dei dati, scelto il metodo di rilevazione, vengono individuate le unità statistiche che saranno prese in considerazione per portare a termine l indagine Unità statistica: è l unità elementare in grado di fornire dati e informazioni relativamente ai caratteri presi in esame L insieme delle unità statistiche costituisce il collettivo (popolazione o campione) oggetto di studio Scelta del fenomeno oggetto di studio Individuazione dei caratteri Caratteri aspetti del fenomeno oggetto di studio Modalità (x i ) modo di manifestarsi del carattere Definizione delle modalità 1
Classificazione dei caratteri Classificazione dei caratteri qualitativi Qualitativi (mutabili): con modalità individuate tramite nomi o qualità Quantitativi (variabili): con modalità che esprimono delle quantità e sono quindi identificate da numeri Ordinabili (o rettilinei): quando esiste un ordine prestabilito di presentazione Sconnessi: quando non esiste un ordine prestabilito di presentazione Classificazione dei caratteri quantitativi Continui: con modalità numeriche che prevedono l uso di decimali. Abitualmente tali valori vengono arrotondati o raggruppati in classi Discreti: con modalità espresse esclusivamente da numeri interi Il tipo di scala di misura adottata dipende strettamente dal tipo di carattere (variabile o mutabile) preso in considerazione, ma anche dalle finalità dell indagine, nonché dalla disponibilità di dati Scala nominale Utilizzabile per mutabili sconnesse Operazioni consentite: = Scala categorica Utilizzabile per mutabili ordinate Operazioni consentite: = > < 2
Scala quantitativa ordinale Utilizzabile per variabili discrete identificative di una posizione (rango) Operazioni consentite: = > < Scala ad intervalli (rapporti o cardinale) Per variabili per le quali esiste una unità di misura comune, quindi una distanza oggettiva tra le varie modalità Operazioni consentite: tutte Scala dicotomica Variabili espresse come presenza (1) assenza (0) del carattere (booleane, dummy, binarie ) Operazioni consentite: = Altre scale Adottate in genere nei questionari (Likert ) Operazioni consentite: dipende Le distribuzioni statistiche In ogni collettivo ogni modalità può presentarsi più volte Il numero delle volte che una modalità si presenta prende il nome di frequenza assoluta ( ) (o semplicemente frequenza) Le distribuzioni statistiche L insieme delle modalità e delle frequenze costituisce la distribuzione statistica Nel caso di un carattere qualitativo (mutabile) la distribuzione si chiamerà serie Nel caso di un carattere quantitativo (variabile) la distribuzione viene detta seriazione 3
Le distribuzioni statistiche Le distribuzioni con frequenze unitarie sono dette distribuzioni semplici Le distribuzioni con frequenze non unitarie sono dette distribuzioni di frequenza I dati raccolti abitualmente vengono riportati in apposite tabelle Si distinguono Tabelle semplici (singole): relative ad un unico carattere Tabelle doppie (a doppia entrata): relative a 2 caratteri incrociati Tabelle multiple: relative a 3 o più caratteri Esempio 1: tabella semplice, serie Stato civile Celibe/nubile Coniugato/a Divorziato/a Vedovo/a 34 51 12 18 115 Esempio 2: tabella semplice, seriazione, distribuzione semplice (le frequenze unitarie non vengono riportate) Voti in latino in un semestre 2 4 5 7 Esempio 3: Numero di figli ni tabella semplice, seriazione, distribuzione di frequenza 0 1 2 3 22 89 56 11 Aspirina Placebo 4 5 8 4 190 50 55 105 4
Aspirina Placebo Aspirina Placebo 50 55 105 Caratteri incrociati 50 55 105 Modalità Aspirina Placebo Aspirina Placebo 50 55 105 Celle contenenti le frequenze osservate 50 55 105 Totali marginali di riga e di colonna Aspirina Placebo 50 55 105 generale Esempio 5: tabella doppia, serie (sesso) e seriazione (età), distribuzione di frequenza Età (in anni compliuti) Maschi Sesso Femmine 18 22 26 48 19 45 48 93 20 18 20 38 21 6 11 17 91 105 196 5
Esempio 6: tabella doppia, due seriazioni, in classi Numero Classi di età di sigarette fumate 12-13 14-15 16-17 nessuna 90.0 81.2 76.4 1-5 5.1 10.8 12.8 6-10 4.9 6.7 8.8 oltre 10 0 1.3 2.0 100 100 100 Valori percentuali Distribuzione di frequenza (carattere quantitativo) Carattere Frequenza x 1 n 1 x 2 n 2 x 3 n 3 x i x K n k N Frequenze relative Carattere Frequenza R x 1 n 1 n 1 /N x 2 n 2 n 2 /N x 3 n 3 n 3 /N x i /N x K n k n k /N N 1 Frequenze percentuali Carattere Frequenza R % i x 1 n 1 n 1 /N n 1.100/N x 2 n 2 n 2 /N n 2.100/N x 3 n 3 n 3 /N n 3.100/N x i /N.100/N x K n k n k /N n k.100/n N 1 100 Frequenze cumulate Carattere Frequenza ni nir %i Ni x 1 n 1 n 1 /N n 1.100/N N 1 Unsieme di dati numerici è compiutamente descritto e sintetizzato da tre informazioni principali x 2 n 2 n 2 /N n 2.100/N N 2 x 3 n 3 n 3 /N n 3.100/N N 3 x i /N.100/N N i x K n k n k /N n k.100/n N La tendenza centrale o posizione centrale La variabilità o dispersione La forma della sua distribuzione N 1 100 6
La tendenza centrale Variabilità o dispersione Viene espressa tramite il calcolo delle medie Le medie sono molteplici, ma ciascuna di esse è adatta a particolari situazioni o esprime un diverso modo di sintetizzare i dati statistici Tramite opportuni indici viene espressa la diversità che sussiste fra i singoli valori fra i singoli valori ed il valore centrale di riferimento (media) Forma della distribuzione Per descriverla vengono utilizzati due indici che esprimono La simmetria La curtosi Forma della distribuzione In genere è fondamentale stabilire, sulla base dei valori ottenuti dai suddetti indici, se la distribuzione sia simile o meno alla distribuzione normale Forma della distribuzione Forma della distribuzione La maggior parte delle variabili biologiche (peso, statura, glicemia, pressione sistolica ) hanno una distribuzione normale, in cui media, mediana e moda coincidono Alcune variabili (tempi di reazione, durata di sopravvivenza, numero di linfonodi metastatici, reddito ) hanno una distribuzione asimmetrica, quindi non normale, in cui media, mediana e moda non coincidono 7
Le misure descrittive sintetiche, riassuntive dei dati tabellari, sono chiamate statistiche, quando sono calcolate su un campione di dati (si esprimono con lettere dell alfabeto latino) parametri, quando descrivono la popolazione od universo dei dati (si esprimono con lettere dell alfabeto greco) 8