Corso di Psicometria Progredito 43 I principali test statistici per la verifica di ipotesi: Il test del χ 2 per tavole di contingenza a 2 vie Gianmarco Altoè Dipartimento di Pedagogia, Psicologia e Filosofia Università di Cagliari, Anno Accademico 2013-2014
Sommario 1 Il Titanic 2 Il test del χ 2 per tavole di contingenza a 2 vie 3 Altri dati sul Titanic
Il disastro del Titanic Dopo il disastro del Titanic, una commissione d inchiesta del British Board of Trade compilò una lista di tutti i 1316 passeggeri con alcune informazioni aggiuntive riguardanti: l esito (salvato, non salvato), la classe (I, II, III) in cui viaggiavano, il genere, l età: Passeggero Classe Genere Età (anni) Esito nome1 III Maschio 34 non salvato nome2 I Femmina 28 salvato nome1316 II Maschio 10 non salvato
Una prima sintesi dei dati attraverso una tavola di contingenza a 2 vie Alcune domande Esito Classe I II III Totale sopravvissuto 203 118 178 499 non sopravvissuto 122 167 528 817 Totale 325 285 706 1316 Quanti sono i passeggeri sopravvissuti in seconda Classe? Quanti sono i passeggeri in terza Classe? Quanti passeggeri non sono sopravvissuti? Quanti passeggeri c erano sul Titanic? Quali prime interpretazioni si possono dare sui dati raccolti?
Tavole di contingenza a 2 vie: la struttura generale Una tavola (o tabella) di contingenza a 2 vie mostra la distribuzione delle unità statistiche classificate sulla base di 2 variabili Y e X: dove: Y X x 1 x j x c Totale y 1 f 11 f 1j f 1c f 1+ y i f i1 f ij f jc f i+ y r f r1 f rj f rc f r+ Totale f +1 f +j f +c n Y e X sono le due variabili rilevate r è il numero di modalità di Y e c è il numero di modalità di X r è il numero di righe della tavola e c il numero di colonne f ij è la frequenza associata alle unità statistiche che possiedono la modalità i di Y e j di X (riga i, colonnaj) f i+ è il totale della riga i e f +j è il totale della colonna j n è il numero totale di unità statistiche
Notazioni L ultima riga della tabella (indicata con totale) è detta distribuzione marginale di X Nel caso del Titanic essa mostra il numero totale di passeggeri per Classe indipendentemente dal fatto che siano sopravvissuti o meno (Y ) L ultima colonna della tabella (indicata con totale) è detta distribuzione marginale di Y Nel caso del Titanic essa mostra il numero totale di passeggeri sopravvissuti e non sopravvissuti indipendentemente dalla Classe di appartenenza (X) La prima colonna della tabella mostra la distribuzione condizionata di Y alla prima modalità di X La generica distribuzione condizionata di Y si indica con Y X = x j : distribuzione condizionata di Y dato che X = x j La prima riga della tabella mostra la distribuzione condizionata di X alla prima modalità di Y La generica distribuzione condizionata di X si indica con X Y = y i : distribuzione condizionata di X dato che Y = y i Domande: Cosa rappresenta Y X = x 2? e X Y = Y 2?
Frequenze relative globali Esito Classe I II III Totale sopravvissuto 16 09 13 38 non sopravvissuto 09 13 40 62 Totale 25 22 53 1 La generica frequenza relativa globale è: p ij = f ij n Osservando la tabella si può, ad esempio, affermare che il 40% dei passeggeri a bordo era di terza classe e non è sopravvissuto
Frequenze relative per riga Esito Classe I II III Totale sopravvissuto 41 23 36 1 non sopravvissuto 15 20 65 1 Totale 25 22 53 1 La generica frequenza relativa condizionata per riga: p x=j y=i = f ij f i+ Osservando la tabella si possono osservare le distribuzioni condizionate della Classe (X) rispetto all Esito (Y) Ad esempio si può affermare che tra tutti i passeggeri non sopravvissuti, il 15% appartiene alla prima Classe, il 20% alla seconda, e il 65% alla terza
Frequenze relative per colonna Esito Classe I II III Totale sopravvissuto 62 41 25 40 non sopravvissuto 38 59 75 60 Totale 1 1 1 1 La generica frequenza relativa condizionata per colonna: p y=i x=j = f ij f +j Osservando la tabella si possono osservare le distribuzioni condizionate dell esito (Y ) rispetto alla Classe (X) Ad esempio si può affermare che tra tutti i passeggeri di prima Classe il 62% è sopravvissuto
Alcune considerazioni Osservando i dati si può notare che mentre in prima Classe la proporzione di sopravvissuti è pari al 62%, in seconda Classe tale proporzione scende al 41%, e in terza Classe addirittura essa è pari al 25% Sembra quindi esistere una associazione tra la Classe di appartenenza e l Esito della tragedia Ma come verificare l esistenza di tale associazione da un punto di vista inferenziale? utilizzando il Test del χ 2 per tavole di contingenza ;-)
I concetti di dipendenza e indipendenza statistica Abbiamo visto che, nel caso del Titanic, la proporzione di sopravvissuti sembra essere associata alla Classe di appartenenza In altre parole, le distribuzioni condizionate relative di Y (Esito) non sono uguali tra loro, ma cambiano a seconda dei livelli di X (Classe) Dal punto di vista statistico ciò equivale a dire che Y dipende in distribuzione da X Se invece le distribuzioni condizionate relative di Y fossero uguali per tutti i tutti i livelli di X (nessuna associazione tra Esito e Classe), si potrebbe affermare dal punto di vista statistico che Y è indipendente in distribuzione da X Nota bene Data una tavola di contingenza sulle variabili Y e X: se Y è indipendente da X, allora anche X è indipendente da Y
Il test del χ 2 Data una tavola di contingenza che esprime la distribuzione campionaria congiunta di due variabili categoriali Y e X, il Test del χ 2 serve a: verificare l ipotesi che Y e X siano tra loro indipendenti
Il test del χ 2 : in sintesi H 0 :{Y e X sono indipendenti} vs H 1 :{Y e X non sono indipendenti} Calcolo delle frequenze attese se vale H 0 Calcolo, attraverso la statistica test del χ 2, della discrepanza tra le frequenze osservate e le frequenze attese Tale statistica assume il valore 0 se tutte le frequenze osservate sono uguali a quelle attese (indipendenza perfetta) e aumenta al crescere degli scarti tra frequenze osservate e attese Dalla teoria sappiamo che, se vale H 0, la statistica test si distribuisce come un χ 2 con gradi di libertà pari al prodotto tra il numero di modalità di Y meno 1 e il numero di modalità di X meno 1 Confronto tra il valore osservato della statistica test (χ 2 OSS ) e il valore critico (χ 2 CRIT )determinato per un livello di significatività α Se il χ 2 OSS è superiore al χ2 CRIT, rifiuto H 0
La distribuzione χ 2 Distribuzione del Chi-quadro al variare dei gradi di libertà Densità 00 02 04 06 08 10 gradi di libertà = 1 gradi di libertà = 2 gradi di libertà = 3 gradi di libertà = 5 gradi di libertà = 10 0 5 10 15 χ 2 Nota Bene: Come la distribuzione F anche la distribuzione χ 2 è definita solo per valori (quantili) positivi
Esempio: Riprendiamo i dati del Titanic Esito Classe I II III Totale sopravvissuto 203 118 178 499 non sopravvissuto 122 167 528 817 Totale 325 285 706 1316 Verificare ad un livello di significatività del 5% se esiste associazione tra il l Esito (Y ) e la Classe di appartenenza(x) Commentare i risultati ottenuti
1 La costruzione del sistema di Verifica di Ipotesi { H0 : Esito e Classe sono indipendenti in distribuzione H 1 : Esito e Classe non sono indipendenti in distribuzione
21 Il calcolo delle frequenze attese La generica frequenza attesa, nell ipotesi di indipendenza, f ij associata alla frequenza osservata f ij è data da: f ij = f i+f +j n Utilizzando tale formula si può costruire la tabella delle frequenze attese, nell ipotesi di indipendenza, tenendo fisse le distribuzioni marginali delle variabili Y e X
21 Il calcolo delle frequenze attese Nel caso del Titanic avremo: f11 499 325 = = 123 f 499 285 12 = = 108 f 499 706 13 = = 268 1316 1316 1316 f21 817 325 = = 202 f 817 285 22 = = 177 f 817 706 23 = = 438 1316 1316 1316
22 La tabella delle frequenze attese Esito Classe I II III Totale sopravvissuto 123 108 268 499 non sopravvissuto 202 177 438 817 Totale 325 285 706 1316 Piccolo esercizio Verificare che le distribuzioni condizionate relative dell Esito sono uguali per tutte le Classi Verificare che le distribuzioni condizionate relative della Classe sono uguali per tutti gli Esiti
3 Il calcolo del valore osservato della statistica test χ 2 OSS = r i=1 j=1 ( c f ij fij f ij ) 2 = (203 123)2 123 + + (528 438)2 438 = 133
3-4 Confronto tra valore osservato e valore critico e decisione finale Dall analisi condotta emerge che il valore osservato della statistica test è superiore al valore critico: χ 2 OSS = 133 > χ2 CRIT (2) = 5991 dove (2) indica i gradi di libertà L ipotesi nulla che prevede l indipendenza delle due variabili osservate deve essere rifiutata ad un livello di significatività del 5% in sostanza, esiste un associazione statisticamente significativa tra la Classe di appartenenza e l Esito della tragedia
La legge del mare: Prima le donne e i bambini Esercizio Potrebbe venire il dubbio che la preferenza accordata alla prima classe sia dipesa dal fatto che in prima classe viaggiava un numero più elevato di donne e di bambini e quindi che quello che abbiamo osservato era semplicemente una manifestazione del precetto, consueto in mare, prima le donne e i bambini La seguente tabella si riferisce solo alle donne e ai bimbi presenti a bordo del Titanic Esito Classe I II III sopravvissuto 146 105 103 non sopravvissuto 4 13 141 Calcolare le distribuzioni condizionate relative dell Esisto rispetto alla Classe e commentare i risultati Verificare per α = 05 se esiste associazione tra Esito e Classe Interpretare i risultati ottenuti!
Riferimenti bibliografici Masarotto, G (2001) Statistica Descrittiva (lucidi aa 2001-2002) Facoltà di Scienze Statistiche, Università di Padova