Slide Set #5 Tests delle Ipotesi Pietro Coretto pcoretto@unisa.it Università degli Studi di Salerno Corso di Statistica (0212700010) CDL in Economia e Management Curriculum in Management e Informatica a.a. 2018/2019 Versione: 19 novembre 2018 (h16:38) P. Coretto // Statistica Tests delle Ipotesi 1 / 68 Esempio: scritture contabili La GGK è un colosso della distribuzione. Ogni giorno si effettuano numerose scritture contabili soggette ad arrotondamenti. Le procedure contabili prevedono che il volume medio giornaliero degli arrotondamenti non può superare 0.5e. Allo scopo di tenere sotto controllo l effetto cumulato giornaliero, ogni trimestre si estraggono 15 giorni a caso sui quali si rileva l arrotondamento complessivo. La media campionaria nell ultimo trimestre è 0.49e. Il sistema contabile funziona se la media degli arrotondamenti giornalieri µ 0.5. Purtroppo µ non è noto. x = 0.49 non può essere l elemento decisivo. Perché? Per prendere decisioni è necessario: una regola di decisione che tenga conto dell incertezza circa (X µ) una valutazione oggettiva del rischio di commettere errori P. Coretto // Statistica Tests delle Ipotesi 2 / 68
Test delle ipotesi (parametrici) Abbiamo un fenomeno X f (θ), θ è un parametro (non noto) di f. θ Θ, e consideriamo la partizione Θ = Θ 0 Θ 1, con Θ 0 Θ 1 = Ipotesi nulla H 0 : θ Θ 0 Ipotesi alternativa H 1 : θ Θ 1 Esempio: scritture contabili X =arrotondamento giornaliero f, e E[X ] = µ Ipotesi nulla H 0 : µ 0.5 Ipotesi alternativa H 1 : µ > 0.5 θ = µ, Θ = R, Θ 0 = (, 0.5], Θ 1 = (0.5, + ) Perché l ipotesi nulla è µ 0.5?... dopo. P. Coretto // Statistica Tests delle Ipotesi 3 / 68 Regione critica e regola di decisione Sia C l insieme di tutti i possibili campioni di dimensione n. Consideriamo la partizione C = C 1 C 0, con C 0 C 1 =. C 0 = insieme di tutti i campioni coerenti con H 0. Sono i campioni generati da f quando θ Θ 0 C 1 = insieme di tutti i campioni coerenti con H 1. Sono i campioni generati da f quando θ Θ 1 P. Coretto // Statistica Tests delle Ipotesi 4 / 68
Il test consiste nell applicare una regola di decisione che stabilisce la provenienza del campione osservato campione osservato assegnato a C 1 = RIFIUTO H 0 Per questo motivo C 1 =regione critica di rifiuto. campione osservato assegnato a C 0 = NON RIFIUTO H 0 Vogliamo regole di decisione ottimali. Per definire l ottimo dobbiamo fissare i riferimenti: definizione del ruolo di H 0 vs H 1 definizione del rischio di decisioni sbagliate P. Coretto // Statistica Tests delle Ipotesi 5 / 68 Tests Neyman-Pearson ottimali Jerzy Neyman (1894 1981) Egon S. Pearson (1895 1980) P. Coretto // Statistica Tests delle Ipotesi 6 / 68
Ruolo di H 0 vs H 1 nel test á la Neyman-Pearson H 0 è l ipotesi che non vogliamo assolutamente rifiutare a favore di H 1 fino a quando è empiricamente sostenibile. H 0 è lo status quo, ovvero, l ipotesi considerata vera fino a prova contraria (asimmetria) H 1 concettualizza la violazione di H 0 che l osservatore si aspetta nei dati Esempio: scritture contabili H 0 : arrotondamenti corretti H 1 : arrotondamenti superiori al massimo consentito Processo penale H 0 : l imputato non è colpevole H 1 : l imputato è colpevole Test diagnostico medico H 0 : funzioni biologiche normali (esito negativo) H 1 : alterazioni delle funzioni biologiche (esito positivo) P. Coretto // Statistica Tests delle Ipotesi 7 / 68 Rischio di decisioni sbagliate NATURA TU H 0 è vera H 1 è vera Rifiuto H 0 E 1 OK Non rifiuto H 0 OK E 2 E 1 : errore del primo tipo (falso positivo) PrE 1 } = PrRifiuto H 0 H 0 è vera} = PrCampione assegnato a C 1 θ Θ 0 } = α E 2 : errore del secondo tipo (falso negativo) PrE 2 } = PrNon rifiuto H 0 H 1 è vera} = PrCampione assegnato a C 0 θ Θ 1 } = β P. Coretto // Statistica Tests delle Ipotesi 8 / 68
H 0 : l imputato non è colpevole H 1 : l imputato è colpevole E 1 E 2 Giudice: Andy Dufresne è un marito assassino Giudice: Aaron Stampler è assolto perché affetto da disturbo dissociativo dell identità P. Coretto // Statistica Tests delle Ipotesi 9 / 68 Relazione tra α e β, e regione critica ottimale Il sogno: α = β = 0 Brutte notizie (1): non è possibile azzerare il rischio di commettere errori Brutte notizie (2): α aumenta = β diminuisce, e viceversa. Al limite: α 0 = β 1, e viceversa. Soluzione ottimale di Neyman-Pearson: 1 in considerazione del ruolo svolto da H 0 vs H 1, fisso α al livello massimo sopportabile. PrE 1 } = α è detto livello di significatività del test. Solitamente α = 10%, 5%, 2%, %1}. 2 tra tutte le regioni critiche che danno α = PrE 1 }, prendo quella che comporta il minimo β = PrE 2 } P. Coretto // Statistica Tests delle Ipotesi 10 / 68
Potenza del test NATURA TU H 0 è vera H 1 è vera Rifiuto H 0 α π = (1 β) Non rifiuto H 0 (1 α) β PrCorretto rifiuto} = PrRifiuto H 0 H 1 è vera} α si controlla direttamente (viene fissato) = (1 β) = π = potenza del test π, in generale, non è direttamente controllabile. Per i test Neyman-Pearson ottimali sappiamo solo che π è massimo (β è minimo) per il fissato livello α TUTTI i test che vedremo in questo corso sono Neyman-Pearson ottimali P. Coretto // Statistica Tests delle Ipotesi 11 / 68 ATTENZIONE: Spesso si è ossessivi nel proteggersi rispetto ai falsi positivi (α piccolo), ma questo crea il rischio di falsi negativi (β grande). Se aumento α = β diminuisce = π aumenta. Quale è un valore ragionevole per α? La pratica standard di considerare α = 1%, 5% in alcuni casi potrebbe essere devastante. α dovrebbe essere fissato dopo un attenta valutazione delle implicazioni (pratiche) dei due errori. Si, ma quali sono le implicazioni pratiche? nella maggior parte dei casi, estraggo un campione ed effettuo la mia decisione. α, β, π sono probabilità come per gli intervalli di confidenza, è bene pensare a queste quantità nell ottica del campionamento ripetuto P. Coretto // Statistica Tests delle Ipotesi 12 / 68
Interpretazione pratica di α Supponiamo di poter estrarre K campioni indipendenti di dimensione n dalla popolazione X f (θ). K è sufficientemente grande Campione 1 decisione 1 Campione 2 decisione 2... Campione K decisione K Ogni volta che θ Θ 0 e quindi θ / Θ 1 (H 0 vera, H 1 falsa): (1 α)% decisioni saranno corrette α% decisioni saranno sbagliate P. Coretto // Statistica Tests delle Ipotesi 13 / 68 Cercare di interpretare β (e quindi π) dal punto di vista pratico non ha molto senso. Infatti, tranne che in casi didattici, non li possiamo quantificare. Sappiamo solo che β è al minimo possibile. Per un singolo campione? Quale è l interpretazione di α per la decisione presa sul nostro singolo campione osservato? α è una misura di rischio. Possiamo interpretare α come il livello di inaffidabilità del test che siamo disposti a sopportare nel caso in cui H 0 fosse vera P. Coretto // Statistica Tests delle Ipotesi 14 / 68
Costruzione di un test Esempio: media di una popolazione normale a varianza nota Supponiamo X Normale(µ, 64), consideriamo il test: H 0 : µ = 100 H 1 : µ > 100 In un campione di n = 16 osservazioni risulta x = 103. Trovare una regola di decisione al livello α = 5% Potrei rifiutare H 0 perché x > 100. Tuttavia, se H 0 è vera, allora ( X H 0 Normale 100, 64 ) n Quindi X varia casualmente intorno a 100. Consideriamo U = n X 100 8 H0 Normale(0, 1) P. Coretto // Statistica Tests delle Ipotesi 15 / 68 Valori osservati di U positivi ci fanno pensare che H 0 è falsa. Si, ma quanto dovrebbe essere più grande di zero? PrE 1 } = α (è fissato) = PrRifiuto H 0 H 0 è vera} = PrU > u µ = 100} Quando H 0 è vera U ha distribuzione Normale Standard, quindi u = z α, ovvero z 0.05 = 1.64 Ho trovato una regione critica ed una regola di decisione con il livello di significatività fissato: Regione critica C 1 : sono i campioni tali che U > z α = 1.64 : rifiuto H 0 se n( x 100)/8 > 1.64 Il valore osservato di U è 16(103 100)/8 = 1.5 < 1.64 = non rifiuto H 0 al livello del 5%. P. Coretto // Statistica Tests delle Ipotesi 16 / 68
Quanto vale π = 1 β? Il calcolo di β richiede H 1 vera. H 1 è vera per un numero infinito di possibili valori di µ Questa regola è Neyman-Pearson ottimale: per qualunque valore di µ, ceteris paribus, ottengo il miglior π possibile. Questo basterebbe, ma voglio capire in quale ordine di grandezza ci muoviamo. Supponiamo che H 1 è vera perché µ = 104. β = PrNon rifiuto H 0 H 1 è vera} = PrU < 1.64 µ = 104} U = n X 100 = 100 n n + 8 8 8 X E[U H 1 vera] = 100 n n n + 8 8 104 = 2 Var[U H 1 vera] = 1 P. Coretto // Statistica Tests delle Ipotesi 17 / 68 Quindi U = n X 100 8 β = PrU < 1.64 µ = 104} = Pr ( ) H1 n Normale 2, 1 Z < 1.64 } 16 = PrZ < 0.36} = Φ( 0.36) = 1 Φ(0.36) = 0.36 2 Da cui π = 1 β = 0.64 Interpretazione: se potessi ripetere il test un gran numero di volte, π = 64% = 64/100 decisioni corrette quando µ = 104. Vediamo cosa succede alla distribuzione di U sotto le due ipotesi P. Coretto // Statistica Tests delle Ipotesi 18 / 68
Distribuzione di U sotto le due ipotesi H 0 α=0.05 P. Coretto // Statistica Tests delle Ipotesi 19 / 68 Distribuzione di U sotto le due ipotesi H 0 H 1 α=0.05 P. Coretto // Statistica Tests delle Ipotesi 20 / 68
Distribuzione di U sotto le due ipotesi H 0 H 1 β α=0.05 P. Coretto // Statistica Tests delle Ipotesi 21 / 68 Distribuzione di U sotto le due ipotesi H 0 H 1 π β α=0.05 P. Coretto // Statistica Tests delle Ipotesi 22 / 68
al variare di µ > 100 avrò diversi valori di β e π se cambio α, n, σ avrò diversi valori di β e π Sebbene β e π non sono direttamente controllabili, spesso sarebbe utile fare un analisi di sensitività rispetto alle quantità controllabili. Uno statistico può controllare: α, a livello di procedura di test n, a livello di disegno di campionamento (non sempre) Nell Esempio: media di normale vediamo come variano β e π in funzione di µ sotto H 1 P. Coretto // Statistica Tests delle Ipotesi 23 / 68 π = (1 β) 0.2 0.4 0.6 0.8 1.0 Potenza del test con α = 5% n = 16 n = 50 n = 250 π = (1 β) 0.0 0.2 0.4 0.6 0.8 1.0 Potenza del test con α = 0.5% n = 16 n = 50 n = 250 100 102 104 106 108 110 µ 100 102 104 106 108 110 µ P. Coretto // Statistica Tests delle Ipotesi 24 / 68
β 0.0 0.2 0.4 0.6 0.8 Errore del II tipo con α = 5% n = 16 n = 50 n = 250 β 0.0 0.2 0.4 0.6 0.8 1.0 Errore del II tipo con α = 0.5% n = 16 n = 50 n = 250 100 102 104 106 108 110 µ 100 102 104 106 108 110 µ P. Coretto // Statistica Tests delle Ipotesi 25 / 68 Procedura di testing: routine Definizione: (Funzione test/statistica test) Sia X 1, X 2,..., X n } un campione. Una funzione test, anche detta statistica test, è una funzione T (X 1, X 2,..., X n, θ 0 ) che misura contemporaneamente la coerenza del campione all ipotesi nulla, e la non coerenza rispetto all ipotesi alternativa. La statistica test non dipende da altri parametri incogniti. Si noti che T dipende da H 0, ma non da H 1 T è una variabile casuale: popolazione + effetto del campionamento Esempi Esempio: media di normale : U è una statistica test Esempio: errori contabili : T 1 = (X 0.5) potrebbe essere una funzione test. Tuttavia, non sarebbe molto utile. Esempio: errori contabili : T 2 = (X 0.5) 2 non è una buona funzione test, perché? P. Coretto // Statistica Tests delle Ipotesi 26 / 68
Steps : 1 Parto dalla distribuzione della funzione test sotto H 0 Esempio: media di normale : U = n X 100 8 H0 Normale(0, 1) 2 dato α, calcolo qualche valore di coda della distribuzione della funzione test sotto H 0 Esempio: media di normale : α = 5%, zα = 1.64 3 determino la regione di rifiuto Esempio: media di normale : tutti i campioni per cui U > zα = 1.64 4 calcolo il valore osservato della funzione test Esempio: media di normale : 16(103 100)/8 = 1.5 5 decisione: rifiuto H 0 se il valore osservato delle funzione test è assegnato alla regione critica di rifiuto Esempio: media di normale : 1.5 < z0.05 = 1.64 = non rifiuto H 0 P. Coretto // Statistica Tests delle Ipotesi 27 / 68 Media di una popolazione Normale con varianza nota Assumo: X 1, X 2,..., X n } è un CCS da una popolazione X Normale(µ, σ 2 ), dove σ 2 è noto Ipotesi nulla: H 0 : µ = µ 0 Funzione test Z = n X µ 0 σ H0 Normale(0, 1) Valore osservato della funzione test z = n x µ 0 σ Coda z α : PrZ z α } = α P. Coretto // Statistica Tests delle Ipotesi 28 / 68
Ipotesi alternativa unilaterale a destra H 0 : µ = µ 0 H 1 : µ > µ 0 H 0 : µ µ 0 H 1 : µ > µ 0 campioni : Z > z α } rifiuto H 0 se z > z α z α Non rifiuto H 0 Rifiuto H 0 P. Coretto // Statistica Tests delle Ipotesi 29 / 68 Ipotesi alternativa unilaterale a sinistra H 0 : µ = µ 0 H 1 : µ < µ 0 H 0 : µ µ 0 H 1 : µ < µ 0 campioni : Z < z α } rifiuto H 0 se z < z α z α Rifiuto H 0 Non rifiuto H 0 P. Coretto // Statistica Tests delle Ipotesi 30 / 68
Ipotesi alternativa bilaterale H 0 : µ = µ 0 H 1 : µ µ 0 Regione critica di rifiuto } campioni: Z < z α oppure Z > z α 2 2 rifiuto H 0 se z < z α oppure z > z α 2 2 z α 2 z α 2 Rifiuto H0 Non rifiuto H0 Rifiuto H0 P. Coretto // Statistica Tests delle Ipotesi 31 / 68 Media di una popolazione Normale con varianza non nota Assumo: X 1, X 2,..., X n } è un CCS da una popolazione X Normale(µ, σ 2 ), dove σ 2 non è noto Ipotesi nulla: H 0 : µ = µ 0 Funzione test T = n X µ 0 S H0 t n 1 Valore osservato della funzione test t = n x µ 0 s Coda t n 1, α : PrT t n 1, α } = α P. Coretto // Statistica Tests delle Ipotesi 32 / 68
Ipotesi alternativa unilaterale a destra H 0 : µ = µ 0 H 1 : µ > µ 0 H 0 : µ µ 0 H 1 : µ > µ 0 campioni : T > t n 1, α } rifiuto H 0 se t > t n 1, α t n 1, α Non rifiuto H 0 Rifiuto H 0 P. Coretto // Statistica Tests delle Ipotesi 33 / 68 Ipotesi alternativa unilaterale a sinistra H 0 : µ = µ 0 H 1 : µ < µ 0 H 0 : µ µ 0 H 1 : µ < µ 0 campioni : T < t n 1, α } rifiuto H 0 se t < t n 1, α t n 1, α Rifiuto H 0 Non rifiuto H 0 P. Coretto // Statistica Tests delle Ipotesi 34 / 68
Ipotesi alternativa bilaterale H 0 : µ = µ 0 H 1 : µ µ 0 } campioni: T < t n 1, α oppure T > t n 1, α 2 2 rifiuto H 0 se t < t n 1, α 2 oppure t > t n 1, α 2 tn 1, α 2 tn 1, α 2 Rifiuto H0 Non rifiuto H0 Rifiuto H0 P. Coretto // Statistica Tests delle Ipotesi 35 / 68 Esercizio: 10.17 P. Coretto // Statistica Tests delle Ipotesi 36 / 68
Proporzione di una popolazione (grandi campioni) Assumo: X 1, X 2,..., X n } è un CCS da una popolazione X Bernoulli(p), inoltre n è sufficientemente grande e np(1 p) > 9 Ipotesi nulla: H 0 : p = p 0 Funzione test Z = ˆP p 0 p 0 (1 p 0 ) n H0 Normale(0, 1) Valore osservato della funzione test z = ˆp p 0 p 0 (1 p 0 ) n Coda z α : PrZ z α } = α P. Coretto // Statistica Tests delle Ipotesi 37 / 68 Ipotesi alternativa unilaterale a destra H 0 : p = p 0 H 1 : p > p 0 H 0 : p p 0 H 1 : p > p 0 campioni : Z > z α } rifiuto H 0 se z > z α z α Non rifiuto H 0 Rifiuto H 0 P. Coretto // Statistica Tests delle Ipotesi 38 / 68
Ipotesi alternativa unilaterale a sinistra H 0 : p = p 0 H 1 : p < p 0 H 0 : p p 0 H 1 : p < p 0 campioni : Z < z α } rifiuto H 0 se z < z α z α Rifiuto H 0 Non rifiuto H 0 P. Coretto // Statistica Tests delle Ipotesi 39 / 68 Ipotesi alternativa bilaterale H 0 : p = p 0 H 1 : p p 0 Regione critica di rifiuto } campioni: Z < z α oppure Z > z α 2 2 rifiuto H 0 se z < z α oppure z > z α 2 2 z α 2 z α 2 Rifiuto H0 Non rifiuto H0 Rifiuto H0 P. Coretto // Statistica Tests delle Ipotesi 40 / 68
Esercizio: 10.31 P. Coretto // Statistica Tests delle Ipotesi 41 / 68 Differenza tra medie di popolazioni normali dipendenti Assumo: (X 1, Y 1 ), (X 2, Y 2 ),..., (X n, Y n )} è un CCS da una popolazione congiuntamente normale dove X e Y sono dipendenti (correlate) Sia d i = x i y i, siano D e S 2 d media e varianza campionaria di d Ipotesi nulla: H 0 : µ X µ Y = d 0 Funzione test T = n (X Y ) d 0 S d H0 t n 1 Valore osservato della funzione test Coda t n 1, α : t = n d d 0 s d PrT t n 1, α } = α P. Coretto // Statistica Tests delle Ipotesi 42 / 68
Ipotesi alternativa unilaterale a destra H 0 : µ X µ Y = d 0 H 1 : µ X µ Y > d 0 H 0 : µ X µ Y d 0 H 1 : µ X µ Y > d 0 campioni : T > t n 1, α } rifiuto H 0 se t > t n 1, α t n 1, α Non rifiuto H 0 Rifiuto H 0 P. Coretto // Statistica Tests delle Ipotesi 43 / 68 Ipotesi alternativa unilaterale a sinistra H 0 : µ X µ Y = d 0 H 1 : µ X µ Y < d 0 H 0 : µ X µ Y d 0 H 1 : µ X µ Y < d 0 campioni : T < t n 1, α } rifiuto H 0 se t < t n 1, α t n 1, α Rifiuto H 0 Non rifiuto H 0 P. Coretto // Statistica Tests delle Ipotesi 44 / 68
Ipotesi alternativa bilaterale H 0 : µ X µ Y = d 0 H 1 : µ X µ Y d 0 } campioni: T < t n 1, α oppure T > t n 1, α 2 2 rifiuto H 0 se t < t n 1, α 2 oppure t > t n 1, α 2 tn 1, α 2 tn 1, α 2 Rifiuto H0 Non rifiuto H0 Rifiuto H0 P. Coretto // Statistica Tests delle Ipotesi 45 / 68 Esercizio: 11.3 P. Coretto // Statistica Tests delle Ipotesi 46 / 68
Pooling della devianza Siano X f e Y g due popolazioni. Siano X 1, X 2,..., X nx } e Y 1, Y 2,..., Y ny } due CCS indipendenti. Omoschedasticità: assumiamo Var[X ] = Var[Y ] = σ 2 X e Y hanno la stessa varianza, ma non necessariamente la stessa media. Quale statistica di varianza userebbe tutta l informazione campionaria? Varianza campionaria pooled nx Sp 2 = i=1 (X i X ) 2 + n Y i=1 (Y i Y ) 2 n X + n Y 2 = (n X 1)S 2 X + (n Y 1)S 2 Y n X + n Y 2 P. Coretto // Statistica Tests delle Ipotesi 47 / 68 Differenza tra medie di popolazioni normali indipendenti Assumo: X 1, X 2,..., X nx } e Y 1, Y 2,..., Y ny } sono due CCS indipendenti da popolazioni normali omoschedastiche, ovvero X Normale(µ X, σ 2 ) e Y Normale(µ Y, σ 2 ), dove σ 2 non è noto. Ipotesi nulla: H 0 : µ X µ Y = d 0 Funzione test S 2 p T = (X Y ) d 0 n X + S 2 p n Y H0 t nx +n Y 2 Valore osservato della funzione test Coda t nx +n Y 2, α: s 2 p n X t = (x y) d 0 + s2 p n Y PrT t nx +n Y 2, α} = α P. Coretto // Statistica Tests delle Ipotesi 48 / 68
Ipotesi alternativa unilaterale a destra H 0 : µ X µ Y = d 0 H 1 : µ X µ Y > d 0 H 0 : µ X µ Y d 0 H 1 : µ X µ Y > d 0 campioni : T > t nx +n Y 2, α} rifiuto H 0 se t > t nx +n Y 2, α t nx+ny 2, α Non rifiuto H 0 Rifiuto H 0 P. Coretto // Statistica Tests delle Ipotesi 49 / 68 Ipotesi alternativa unilaterale a sinistra H 0 : µ X µ Y = d 0 H 1 : µ X µ Y < d 0 H 0 : µ X µ Y d 0 H 1 : µ X µ Y < d 0 campioni : T < t nx +n Y 2, α} rifiuto H 0 se t < t nx +n Y 2, α t nx+ny 2, α Rifiuto H 0 Non rifiuto H 0 P. Coretto // Statistica Tests delle Ipotesi 50 / 68
Ipotesi alternativa bilaterale H 0 : µ X µ Y = d 0 H 1 : µ X µ Y d 0 } campioni: T < t nx +ny 2, α oppure T > t 2 nx +ny 2, α 2 rifiuto H 0 se t < t nx +ny 2, α 2 oppure t > t nx +ny 2, α 2 tnx+ny 2, α 2 tnx+ny 2, α 2 Rifiuto H0 Non rifiuto H0 Rifiuto H0 P. Coretto // Statistica Tests delle Ipotesi 51 / 68 Esercizio: 11.5 P. Coretto // Statistica Tests delle Ipotesi 52 / 68
Pooling di popolazioni Bernoulliane indipendenti Siano X Bernoulli(p X ) e Y Bernoulli(p Y ) due popolazioni Bernoulliane. Siano X 1, X 2,..., X nx }, e Y 1, Y 2,..., Y ny } due campioni indipendenti. Le proporzioni campionarie saranno ˆP X = 1 n X n X i=1 X i e ˆP Y = 1 n Y n Y Y i i=1 Assumiamo H 0 : p X = p Y. Quale statistica userebbe tutta l informazione campionaria? Proporzione campionaria pooled nx ˆP 0 = i=1 X i + n Y i=1 Y i n X + n Y = n X ˆP X + n Y ˆP Y n X + n Y P. Coretto // Statistica Tests delle Ipotesi 53 / 68 Differenza tra proporzioni (grandi campioni) Assumo: X 1, X 2,..., X nx } e Y 1, Y 2,..., Y ny } sono due CCS indipendenti da X Bernoulli(p X ), e Y Bernoulli(p Y ). n è sufficientemente grande. Ipotesi nulla: H 0 : p X p Y = 0 Funzione test Z = ˆP X ˆP Y ˆP 0 (1 ˆP 0 ) n X + ˆP 0 (1 ˆP 0 ) n Y H0 Normale(0, 1) Valore osservato della funzione test ˆp X ˆp Y z = ˆp0 (1 ˆp 0 ) n X + ˆp 0(1 ˆp 0 ) n Y Coda z α : PrZ z α } = α P. Coretto // Statistica Tests delle Ipotesi 54 / 68
Ipotesi alternativa unilaterale a destra H 0 : p X p Y = 0 H 1 : p X p Y > 0 H 0 : p X p Y 0 H 1 : p X p Y > 0 campioni : Z > z α } rifiuto H 0 se z > z α z α Non rifiuto H 0 Rifiuto H 0 P. Coretto // Statistica Tests delle Ipotesi 55 / 68 Ipotesi alternativa unilaterale a sinistra H 0 : p X p Y = 0 H 1 : p X p Y < 0 H 0 : p X p Y 0 H 1 : p X p Y < 0 campioni : Z < z α } rifiuto H 0 se z < z α z α Rifiuto H 0 Non rifiuto H 0 P. Coretto // Statistica Tests delle Ipotesi 56 / 68
Ipotesi alternativa bilaterale H 0 : p X p Y = 0 H 1 : p X p Y 0 Regione critica di rifiuto } campioni: Z < z α oppure Z > z α 2 2 rifiuto H 0 se z < z α oppure z > z α 2 2 z α 2 z α 2 Rifiuto H0 Non rifiuto H0 Rifiuto H0 P. Coretto // Statistica Tests delle Ipotesi 57 / 68 Esercizio: 11.15 P. Coretto // Statistica Tests delle Ipotesi 58 / 68
Varianza di una popolazione normale Assumo: X 1, X 2,..., X n } è un CCS da una popolazione X Normale(µ, σ 2 ) Ipotesi nulla: H 0 : σ 2 = σ 2 0 Funzione test χ = (n 1)S 2 σ 2 0 H0 χ 2 n 1 Valore osservato della funzione test c = (n 1)s2 σ 2 0 Coda χ 2 n 1, α : Pr χ χ 2 n 1, α} = α P. Coretto // Statistica Tests delle Ipotesi 59 / 68 Ipotesi alternativa unilaterale a destra H 0 : σ 2 = σ 2 0 H 1 : σ 2 > σ 2 0 H 0 : σ 2 σ 2 0 H 1 : σ 2 > σ 2 0 campioni : χ > χ 2 n 1, α } rifiuto H 0 se c > χ 2 n 1, α χ 2 n 1, α Non rifiuto H 0 Rifiuto H 0 P. Coretto // Statistica Tests delle Ipotesi 60 / 68
Ipotesi alternativa unilaterale a sinistra H 0 : σ 2 = σ 2 0 H 1 : σ 2 < σ 2 0 H 0 : σ 2 σ 2 0 H 1 : σ 2 < σ 2 0 campioni : χ < χ 2 n 1, 1 α } rifiuto H 0 se c < χ 2 n 1, 1 α χ 2 n 1, 1 α Rifiuto H 0 Non rifiuto H 0 P. Coretto // Statistica Tests delle Ipotesi 61 / 68 Ipotesi alternativa bilaterale H 0 : σ 2 = σ 2 0 H 1 : σ 2 σ 2 0 } campioni: χ < χ 2 n 1, 1 α oppure χ > χ 2 n 1, α 2 2 rifiuto H 0 se c < χ 2 n 1, 1 α 2 oppure c > χ 2 n 1, α 2 χ 2 n 1, 1 α 2 χ 2 n 1, α 2 Rifiuto H0 Non rifiuto H0 Rifiuto H0 P. Coretto // Statistica Tests delle Ipotesi 62 / 68
Esercizio: 11.21 P. Coretto // Statistica Tests delle Ipotesi 63 / 68 p-value Sia U la funzione test, e u il suo valore osservato. Il p-value si calcola: p-value = PrU è uguale o più estrema di u H 0 è vera} Si noti che il p-value [0, 1]. Questo è il calcolo. La sua interpretazione? Il p-value è una misura della plausibilità di H 0 per il campione osservato: p-value grande: il campione osservato mostra forte evidenza empirica a favore di H 0. p-value piccolo: il campione osservato mostra debole/nessuna evidenza empirica a favore di H 0. in questo senso il p-value è anche definito come livello di significatività osservato. P. Coretto // Statistica Tests delle Ipotesi 64 / 68
L interpretazione non può prescindere da α e H 1. Nell ottica Neyman-Pearson l uso del p-value deve dipendere dalla nozione di ottimalità sottostante. Definizione: (p-value nei tests Neyman-Pearson) Il p-value calcolato coincide il livello minimo di α al quale si rifiuta H 0 sulla base del campione osservato. Da questo punto di vista il p-value è uno strumento operativo per definire la regione critica senza usare alla funzione test: Rifiuto H 0 se p-value < α P. Coretto // Statistica Tests delle Ipotesi 65 / 68 Rifiuto H 0 Non rifiuto H 0 0 α 1 in termini di p-value P. Coretto // Statistica Tests delle Ipotesi 66 / 68
Uso del p-value Esempio: (Spray per insetti) Si usano sei diversi sprays (A, B, C, D, E, F ) in 12 diverse posizioni, e si rileva il numero di insetti presenti nel raggio di azione in ogni posizione. Le prove sono indipendenti. Ecco i dati campionari Numero di Insetti 0 5 10 15 20 25 A B C D E F Spray P. Coretto // Statistica Tests delle Ipotesi 67 / 68 Con riferimento ai dati dell Esempio 67 vogliamo testare H 0 : i sei gruppi sono omoschedastici H 1 : almeno un gruppo differisce per varianza Si tratta di effettuare un test di confronto delle varianze. Una possibilità è il test di confronto delle varianze per popolazioni Normali. Tuttavia, sostenere la normalità è assai dubbio. Una scelta appropriata in questo caso è il test di Bartlett. Fissiamo α = 5% p-value = 9.085 10 5 = 0.00009085 < α = Rifiuto H 0 P. Coretto // Statistica Tests delle Ipotesi 68 / 68