Anno Accademico 013-014 STATISTICA IX lezione 1 Il problema della verifica di un ipotesi statistica In termini generali, si studia la distribuzione T(X) di un opportuna grandezza X legata ai parametri in gioco. DOCENTI ANTONELLA AGODI e GIORGIO BELLIA Tanto più X è vicino al valore centrale della distribuzione tanto maggiore è la probabilità di verificarsi dell ipotesi nulla; tanto più X è lontano dal valore centrale tanto più bassa è la probabilità di verificarsi dell ipotesi nulla, indicando casi in cui questa può non essere presa in considerazione. Il problema della verifica di un ipotesi statistica Si possono configurare delle regioni, sulle code delle distribuzioni, per cui la probabilità cumulata della T(X) è troppo bassa per poter validare l ipotesi nulla. Tali regioni si definiscono come regioni di rigetto; le restanti regioni diventano allora regioni di accettazione dell ipotesi nulla. Una tale distribuzione costituisce una statistica test 3 Il problema della verifica di un ipotesi statistica In una distribuzione simmetrica la regione di rifiuto si distribuisce sulle due code; la parte centrale è chiamata regione di accettazione Regione di Rifiuto T(X) Regione di Accettazione Regione di Rifiuto 4 H 0 X
PROCEDIMENTO 5 PROCEDIMENTO 6 1. Formulare il sistema di ipotesi H 0 : x teo - x sp = 0 H A : x teo - x sp! 0. Individuare la statistica test appropriata 3. Studiare la distribuzione della statistica test 4. Stabilire il livello di significatività 5. Calcolare il valore della statistica test e la probabilità p di ottenere quel risultato p > 5 % la differenza non è significativa (accetto H 0 ) p " 5 % la differenza è significativa (rifiuto H 0 ) p " 1 % la differenza è altamente significativa test a una coda si individua un valore critico che lascia sulla coda una probabilità pari a p test a due code si individuano due valori critici che lasciano a sinistra e a destra una probabilità pari a p/ 5%.5%.5% H 0 H 0 t di student: test parametrico per campioni appaiati o dipendenti 7 t di student: test parametrico per d t = S d / n! t = m 1 -m!!!!" s 1(n 1-1) + s (n -1)# $ ( n 1 + n )!!! ( n 1 + n -)%n 1 %n d =! i x dopo prima ( i - x i ) n = n!! d i!! i n s = (d i - d) i=1 d n -1 s 1 e s le varianze dei due campioni; m 1 e m le medie; n 1 e n le numerosità gl (gradi di libertà) = n - 1 gl (gradi di libertà) = n 1 + n -
Valori della distribuzione t di Student Lezione IX 10 dai valori dati si ricava t = in corrispondenza dei gradi di libertà OBIETTIVI:! cosa è e come si opera con un test del " si ottiene il valore di p e lo si confronta con! 11 ALZHEIMER'S DISEASE 1 CONFRONTO DI PROPORZIONI IN CAMPIONI INDIPENDENTI E IL TEST DEL CHI-QUADRATO In uno studio di 307 soggetti con sindrome di Down la malattia di Alzheimer risulta pari all 11% nel gruppo d età compreso tra 40 4 anni ed al 77% nel gruppo d età compreso tra 60-6 anni Nella popolazione generale la malattia di Alzheimer risulta pari al % tra 65 e 70 anni Si può pensare ad una correlazione fra sindrome di Down e malattia di Alzheimer?
affezioni asmatica 13 TEST DEL CHI-QUADRATO 14 Su un campione di famiglie disagiate, si è trovato che il 6% dei bambini è affetto da asma Sulla scorta di questo ipotetico studio epidemiologico, è ragionevole ammettere una relazione di causalità fra acari e asma? Il test del chi-quadro è un test statistico non parametrico atto a verificare se i valori di frequenza ottenuti tramite rilevazione, sono diversi in maniera significativa dalle frequenze ottenute con la distribuzione teorica Questo test ci permette di accettare o rifiutare una data ipotesi nulla Esempio 15 16 Supponiamo che da uno studio epidemiologico effettuato su un campione di bambini appartenenti a famiglie disagiate, si sia trovato che il 6% (13) è affetto da asma Quando si lavora con dati nominali raggruppati in categorie, spesso le frequenze sono raggruppate in tabelle di contingenza Il gruppo di controllo, costituito da bambini mostra una percentuale di asmatici dell'% () Sulla scorta di questo ipotetico studio epidemiologico, è ragionevole ammettere una relazione di causalità fra acari e asma? Esse sono tabelle a doppia entrata dove in ogni casella si riporta la frequenza di presentazione di una combinazione delle categorie
Confronto di proporzioni in Confronto di proporzioni in 1 37 13 37 13 qui sono riportati i valori rilevati come frequenze di presentazione delle categorie sani, asmatici famiglie, controllo 1 1 1 in questa tabella sono state inserite le frequenze marginali di riga e di colonna Confronto di proporzioni in 1 L ipotesi nulla stabilisce che : 0 in assenza di una relazione di tipo causale fra le categorie la distribuzioni di sani o asmatici fra il gruppo di controllo e il gruppo delle famiglie deve essere nella stessa proporzione questa asserzione costituisce l ipotesi nulla H 0 : la proporzione di bambini con asma appartenenti a famiglie disagiate è uguale alla proporzione di bambini con asma appartenenti al gruppo di famiglie di controllo Se invece si ipotizza una relazione di tipo causale le distribuzioni devono essere differenti questa asserzione costituisce l ipotesi alternativa e l ipotesi alternativa H A : le proporzione di bambini con asma non sono uguali nei due campioni di famiglie
1 Ciò significa che per l ipotesi nulla in altre parole H 0 : si deve avere la stessa percentuale fra sani e asmatici, indipendentemente dall appartenenza a famiglie disagiate. 37 13 Se nel campione di 1 elementi in studio, si riscontrano 1/1 = 6% sani e 1/1 = 14% asmatici, le stesse percentuali si devono riscontrare fra i del controllo e i degli appartenenti a famiglie disagiate 1 1! i sani del gruppo di controllo devono essere lo 6% di mentre gli asmatici devono essere il 14% di! i sani del gruppo da famiglie disagiate devono essere l 6% di mentre gli asmatici devono essere il 14% di. 1 3 Situazione osservata 4 In generale la frequenza attesa per una determinata cella della tabella è calcolabile anche come il di riga moltiplicato il di colonna diviso il della tabella 37 13 Infatti l 6% di è 1/1* e così via x1/1 x1/1 1 x1/1 x1/1 1 1 1 1 Situazione attesa 43 6 7 14 1 1 1 1
5 6 In base all ipotesi nulla le proporzioni osservate e quelle attese devono essere uguali. Il fatto che si trovino differenti può essere imputato o al campionamento effettuato o al fatto che esista una correlazione fra disagio familiare e presenza di asma. La somma dei quadrati delle differenze fra il dato misurato e il dato previsto relativo al dato previsto fornisce l indicatore che permette di verificare l ipotesi nulla o quella alternativa La statistica seguente!(o -E) E dove si confrontano le frequenze O osservate in ciascuna categoria della tabella di contingenza, con le frequenze attese E permette di valutare se le differenze riscontrate sono dovute al caso, posto che l ipotesi nulla sia vera. Essa è utilizzata per stabilire se la differenza tra le frequenze osservate e quelle attese, O-E, siano troppo grandi per essere attribuite al caso Confronto di proporzioni in campioni indipendenti 7 Confronto di proporzioni in campioni indipendenti Tale statistica segue con buona approssimazione una distribuzione " con (r -1 ) (c -1) = 1 grado di libertà Tuttavia, per la validità di tale approssimazione, nessuna cella deve avere una frequenza attesa minore di 1 e non più del 0% delle celle deve avere una frequenza attesa minore di 5 Inoltre, per ridurre gli errori di approssimazione, si introduce la correzione per continuità; si dovrà valutare pertanto la statistica ' Tutte le celle! " # O -E - 1 $ % & E Tale correzione abbassa il valore della statistica aumentando la possibilità di validare l ipotesi nulla
Situazione osservata 37 1 13 1!!= ( Tutte le celle 1 " # $ 43 6 1 O -E - 1 % & ' E Situazione attesa 7 14 1 1 Confronto di proporzioni in campioni indipendenti In definitiva dalla tabella di contingenza in esame segue che:! = ( Tutte le celle " # $ O -E - 1 % & ' E 30 ( 37-43 - 1! = ) ( 13-7 - 1 + ) ( - 6-1 + ) ( - 14-1 + ) = 43 7 6 14 = 7,54 " = 7,54 gradi di libertà 31 Confronto di proporzioni in campioni indipendenti 3 Per una distribuzione " con un grado di libertà si ricava dalle tavole che la probabilità di ottenere 7,54 o un valore maggiore è minore di 0.006 Poiché p <! rifiutiamo l H 0 e concludiamo che le proporzioni di bambini con asma non sono uguali nei due campioni
" del Pearson test non parametrico per campioni indipendenti H 0 : le distribuzioni percentuali di una variabile in due o più popolazioni sono uguali Per verificare l ipotesi Nulla (H 0 ) 1. Si calcola il Chi Quadro nella situazione osservata!!= ( Tuttele celle " # $ O -E - 1 % & ' E 33. Si calcolano i gradi di libertà (gl) del " osservato: gl = (r-1)*(c-1) 3. Si sceglie il livello di significatività (!) ovvero la probabilità di compiere un errore rifiutando l ipotesi nulla quando essa fosse vera. 4. Si esamina la tavola che riporta il valore di soglia (critico) del Chi Quadro per il livello di significatività prescelto e per i gradi di libertà del valore osservato! gl;a 34 5. si confronta il p trovato con il livello prescelto e si stabilisce la significatività del test Se p > 5 % la differenza non è significativa (accetto H 0 ) Se 1 % < p < 5 % la differenza è significativa (rifiuto H 0 ) Se p < 1 % la differenza è altamente significativa (rifiuto H 0 ) 35 Confronto di molte proporzioni per Il test del " si può estendere in generale ad una tabella di contingenza r x c I valori attesi sono ottenuti come in precedenza moltiplicando i corrispondenti totali di riga e di colonna e quindi dividendo il prodotto per il dell intera tavola I gradi di libertà sono sempre (r-1) (c-1) La correzione per continuità non si effettua 36
Confronto di molte proporzioni per In questo caso i dati verranno presentati in una tabella x K, avente cioè colonne e K righe Ad esempio, un indagine campionaria ha fornito le seguenti osservazioni (0): Gruppo sanguigno A B AB 0 TOTALE Donne tromboembolitiche 3 6 55 Donne sane 51 1 5 70 145 3 7 11 7 00 37 Confronto di molte proporzioni per Per controllare se la probabilità di contrarre una malattia tromboembolitica dipende dal gruppo sanguigno o meno si calcolano le percentuali attese in base all ipotesi della indipendenza dall appartenenza ad un gruppo sanguigno. Così, ad esempio, fra le 145 donne sane quelle con gruppo sanguigno A dovrebbero essere nella proporzione di 3/00, ossia circa 60, mentre dovrebbero essere poco meno di 3 fra le donne malate. 3 Confronto di molte proporzioni per 3 Confronto di molte proporzioni per 40 Ipotesi nulla: uguale distribuzione (stessa proporzione) di donne tromboembolitiche e donne sane, all interno dei quattro gruppi sanguigni Possiamo pertanto costruire la tabella delle frequenze attese (E): Gruppo sanguigno A B AB 0 TOTALE Donne tromboembolitiche.5 7.45 3.05 1.75 55 Donne sane 60.5 1.575 7.75 57.75 145 3 7 11 7 00 Gruppo sanguigno A B AB 0 TOTALE Gruppo sanguigno A B AB 0 TOTALE Donne tromboembolitiche 3 6 55 Donne tromboembolitiche.5 7.45 3.05 1.75 55 Donne sane 51 1 5 70 145 Donne sane 60.5 1.575 7.75 57.75 145 3 7 11 7 00 3 7 11 7 00
Confronto di molte proporzioni per 41 gradi di libertà 4! = 3 ( O -E) " E = 3-.5.5 ( ) 51-60.5 + ( ) 60.5 +... = 3.6 + 1.40 +... +.3 =1.47 Valutando tale valore in base alle tavole di una distribuzione con 3 gradi di libertà si vede che la differenza nella distribuzione di donne tromboembolitiche e donne sane nei vari gruppi è statisticamente significativa ( " 3 = 16.7 @ p = 0.001) Esempio 43 44 La distribuzione per genere e stato nutrizionale (in base al Body Mass Index) di un campione di 6 bambini è rappresentata in questa tabella Sovrappeso Normopeso maschio 4 5 Genere femmina 5 1 6! Qual è il test di ipotesi più appropriato per verificare se esiste una associazione tra genere e stato nutrizionale? Spiegare la scelta! Formulate l ipotesi nulla e l ipotesi alternativa nel caso qui riportato! Quanti gradi di libertà bisogna considerare?! Descrivere brevemente i passi successivi per accettare o rifiutare l ipotesi nulla! Cosa si può concludere?
H 0 : la proporzione di soggetti sovrappeso tra i bambini di genere maschile è uguale alla proporzione di soggetti sovrappeso tra i bambini di genere femminile 45 Frequenze attese: di riga moltiplicato il di colonna diviso il della tabella Maschio Genere Femmina 46 H A : le proporzioni di soggetti sovrappeso non sono uguali nei due generi Sovrappeso Normopeso (x)/6 = 3.1 (x)/6 = 5. (x)/6 = 5. (x)/6 = 11.1 6 Frequenze attese: di riga moltiplicato il di colonna diviso il della tabella frequenze attese frequenze osservate Sovrappeso Normopeso Sovrappeso Normopeso Genere Maschio Femmina 3.1 5. 5. 11.1 Genere Maschio Femmina 4 5 5 1 6 6 47! = ( Tutte le celle " # $ O -E - 1 % & ' E ( 4-3.1-0.5) ( 5-5. - 0.5)! = + 3.1 5. ( 5-3.1-0.5) ( 1-11.1-0.5) + + = 0.7 3.1 11.1 4
4. Si calcolano i gradi di libertà (gl) del " osservato: gradi di libertà 3. Si sceglie il livello di significatività (a) ovvero la probabilità di compiere un errore rifiutando l ipotesi nulla quando essa fosse vera 4. Si esamina la tavola che riporta il valore soglia (critico) del Chi Quadro per il livello di significatività prescelto e per i gradi di libertà del valore osservato! 1;0.05 Significatività di un test 51 5 Essendo p > 0.1 p > 5 % la differenza non è significativa fine IX lezione FINE Quindi: la proporzione di soggetti sovrappeso tra i bambini di genere maschile è uguale alla proporzione di soggetti sovrappeso tra i bambini di genere femminile: Il genere non ha nessuna influenza sullo stato nutrizionale dei bambini