Z-test, T-test, χ 2 -test Francesco Corrias Chiara Todaro DIMA 13 febbraio 2012 Francesco Corrias Chiara Todaro (DIMA) Z-test, T-test, χ 2 -test 13 febbraio 2012 1 / 19
Verifica d ipotesi Definizione (Test statistico) Sia X un campione nel modello statistico parametrico F θ dove θ Θ = Θ 0 Θ 1 R p con Θ 0 Θ 1 = ; allora un test statistico consiste in: ipotesi H 0 : θ Θ 0 detta ipotesi nulla, contro H 1 : θ Θ 1 detta ipotesi alternativa può essere bilaterale o unilaterale statistica test V (X ) è una opportuna statistica con ν una sua realizzazione regione di rifiuto R α è l insieme dei valori assunti da V (X ) per i quali si rifiuta H 0 e viene scelta in modo che la probabilità di rifiuto, sotto l ipotesi H 0, non sia maggiore di un valore assegnato α, detto livello di singificatività del test. Francesco Corrias Chiara Todaro (DIMA) Z-test, T-test, χ 2 -test 13 febbraio 2012 2 / 19
Livello di significatività α Si noti che il rifiuto dell ipotesi nulla è un affermazione molto forte, in quanto implica che H 0 non è un ipotesi ragionevole per i dati di cui si dispone (contro esempio); al contrario accettare l ipotesi nulla significa solamente che essa è compatibile con i dati, non che sia vera. In quest ottica ha senso rifiutare l ipotesi nulla solo se i dati campionari fossero molto improbabili nel caso in cui H 0 sia vera; per questo si fissa il livello di significatività α. In genere il livello di significatività usato è α = 0.10, 0.05, 0.01; scegliere α molto piccolo significa voler essere molto certi prima di rifiutare l ipotesi nulla, nel caso che questa sia vera (ad esempio per evitare ingenti costi di produzione) [2]. Francesco Corrias Chiara Todaro (DIMA) Z-test, T-test, χ 2 -test 13 febbraio 2012 3 / 19
A causa dell asimmetria tra l ipotesi nulla e quella alternativa si ha che l unico caso in cui una delle ipotesi è provata dai dati avviene quando si rifiuta H 0, dimostrando quindi che H 1 è valida. In pratica per provare una certa congettura bisogna considerarla come ipotesi alternativa; allo stesso modo se si cerca di verificare la falsità di una affermazione la si considera come ipotesi nulla [2]. Francesco Corrias Chiara Todaro (DIMA) Z-test, T-test, χ 2 -test 13 febbraio 2012 4 / 19
Livello di significatività osservato Definizione (p-valore) Il p-valore del test è P θ0 {ν R}, cioè è il più piccolo livello di significatività per cui rifiuto H 0 quando essa è vera (per questo è detto anche livello di significatività osservato) In pratica spesso non si fissa α a priori poichè, calcolato ν e il p-valore, se questo è molto grande allora l ipotesi nulla è chiaramente compatibile con i dati; se invece è molto piccolo allora H 0 sarà un ipotesi non ragionevole. Francesco Corrias Chiara Todaro (DIMA) Z-test, T-test, χ 2 -test 13 febbraio 2012 5 / 19
Z-test: stima della media con varianza nota Sia X 1,..., X n un campione casuale t.c. X i N (µ, σ 2 ) i = 1,..., n, dove µ è incognita, mentre σ 2 è nota. ip H 0 : µ = µ 0 contro H 1 : µ µ 0 bilaterale st Z(X ) = X µ 0 σ N (0, 1) dove X = 1 n n n i=1 X σ i N (µ 0, n ) rr R α = { Z(X ) z α 2 } p-val 2P{Z ν } Francesco Corrias Chiara Todaro (DIMA) Z-test, T-test, χ 2 -test 13 febbraio 2012 6 / 19
Osservazioni In questo test si è interessati a verificare che la media del campione non si discosti troppo da un certo valore µ 0, ovvero X µ 0 c Z n σ c, da cui P µ 0 { X µ 0 c} = α P{ Z n σ c} = α 2P{Z n σ c} = α P{Z n σ c} = α 2. Francesco Corrias Chiara Todaro (DIMA) Z-test, T-test, χ 2 -test 13 febbraio 2012 7 / 19
Z-test in R Innanzi tutto bisogna installare il pacchetto BSDA(Basic Statistics and Data Analysis), quindi caricarlo e infine si può chiamare la function per lo Z-test. Di seguito sono riportati i comandi da usare dopo l installazione: library(bsda) z.test(data, alternative = two.sided, mu = mu0, sigma.x = sigmax) One-sample z-test data: data z = nu, p-value = p alternative hypothesis: true mean is not equal to mu0 95 percent confidence interval: a, b sample estimates: mean of x Xbar Francesco Corrias Chiara Todaro (DIMA) Z-test, T-test, χ 2 -test 13 febbraio 2012 8 / 19
Intervalli di confidenza e test Si possono costruire intervalli di confidenza a partire dalla regione di rifiuto di un test statistico: scelta R α il relativo intervallo a livello di fiducia 1 α è {θ : V (X ) / R α }[3]. Ad esempio l intervallo con confidenza 1 α per la media µ di una normale con varianza nota σ 2 è un intervallo tale che P{ a < X µ σ < a} = 1 α a = z α. n 2 L intervallo di confidenza risulta quindi µ ] z α 2 σ n + X, z α 2 σ n + X [. Francesco Corrias Chiara Todaro (DIMA) Z-test, T-test, χ 2 -test 13 febbraio 2012 9 / 19
Test T di Student in R Nella pubblicità di un certo modello di auto americane si sostiene che il consumo di benzina sia pari a 30 miglia per gallone. 9 auto di quel modello vengono guidate dalla stessa persona, sullo stesso percorso con un solo gallone di benzina nel serbatoio. La strada percorsa dalle 9 auto risulta, in miglia: 29.4 25.7 26.6 26.3 26.0 30.8 26.2 25.1 25.9 Oggi è l ultimo giorno di una promozione vantaggiosa su quel modello, ne acquistireste uno? Francesco Corrias Chiara Todaro (DIMA) Z-test, T-test, χ 2 -test 13 febbraio 2012 10 / 19
Supponiamo che la strada percorsa con 1 gallone per ciascuna auto sia una v.a. X i N (µ, σ 2 ) i = 1,..., 9(= n) e, tenendo conto che sia la media µ che la varianza σ 2 sono incognite, impostiamo il test come segue: ip H 0 : µ 30 contro H 1 : µ < 30 unilaterale st T (X ) = X 30 S T 8 n dove S(X ) = n i=1 (X i X ) 2 n 1 rr R α = {T (X ) t 8,α } p-val P{T 8 ν} è la varianza campionaria Francesco Corrias Chiara Todaro (DIMA) Z-test, T-test, χ 2 -test 13 febbraio 2012 11 / 19
Osservazioni f (t) = Γ( n+1 2 ) nπγ( n 2 ) ) n+1 (1 + t2 2 (], + [) n Francesco Corrias Chiara Todaro (DIMA) Z-test, T-test, χ 2 -test 13 febbraio 2012 12 / 19
in R > # Carichiamo i dati osservati > miglia=c( 29.4, 25.7, 26.6, 26.3, 26.0, 30.8, 26.2, 25.1, 25.9) > # Per fare la verifica d ipotesi usiamo il comando > t.test(miglia,alternative=c("less"),mu=30) > One Sample t-test data: miglia t = -4.9115, df = 8, p-value = 0.0005883 alternative hypothesis: true mean is less than 30 95 percent confidence interval: -Inf 28.06678 sample estimates: mean of x 26.88889 Francesco Corrias Chiara Todaro (DIMA) Z-test, T-test, χ 2 -test 13 febbraio 2012 13 / 19
T-test two sample Siano due campioni X 1..., X n e Y 1..., Y m rispettivamente, con media e varianza incognite µ x, µ y e σ 2 x, σ 2 y di numerosità n e m grande. Si vuole verificare se le medie dei due campioni coincidono. ip H 0 : µ x = µ y contro H 1 : µ x µ y bilaterale st T (X, Y ) = X Ȳ (µx µy ) T n+m 2 Sp 2 ( 1n + 1m ) dove S 2 p(x, Y ) = (n 1)S2 x +(m 1)S2 y n+m 2 rr R α = { T (X, Y ) t n+m 2, α 2 } p-val 2P{T n+m 2 ν } Francesco Corrias Chiara Todaro (DIMA) Z-test, T-test, χ 2 -test 13 febbraio 2012 14 / 19
χ 2 -test: buon adattamento Sia un campione t.c. X Mult(n, θ 1,..., θ k ), dove k è il numero di casi/categorie considerate. Siano date k probabilità p i tali che k i=1 p i = 1, allora scelto un livello di significatività α, si imposta il test nel seguente modo: ip H 0 : θ i = p i i = 1,..., k contro H 1 : j tale che θ j p j bilaterale st χ 2 (X ) = k (X i E[X i ]) 2 i=1 E[X i ] rr R α = {χ 2 (X ) >χ 2 k 1,α } p-val P{χ 2 k 1 ν} χ 2 k 1 (teorema di Pearson) Francesco Corrias Chiara Todaro (DIMA) Z-test, T-test, χ 2 -test 13 febbraio 2012 15 / 19
Osservazioni f (x) = 1 k 2 k 2 Γ( k 2 1 2 )x e x 2 (]0, + [) Francesco Corrias Chiara Todaro (DIMA) Z-test, T-test, χ 2 -test 13 febbraio 2012 16 / 19
Test χ 2 in R: buon adattamento per la uniforme Un dado viene lanciato n=120 volte ottenendo i seguenti risultati: 1 : 25 2 : 17 3 : 15 4 : 23 5 : 24 6 : 17 (k = 6 casi ). Eseguire il test χ 2 per vedere se il dado è bilanciato. Si può modellizzare questo problema pensando al dado come una v.a. discreta Y U({1, 2, 3, 4, 5, 6}) e impostando il test come segue: ip H 0 : X i Bin(n, p i ) con p i = 1 6 i = 1,..., 6 H 1 : j tale che p i p j bilaterale st χ 2 (X ) = 6 (X i 20) 2 i=1 20 rr R α = {χ 2 (X ) >χ 2 5, α } 2 p-val P{χ 2 5 ν} Francesco Corrias Chiara Todaro (DIMA) Z-test, T-test, χ 2 -test 13 febbraio 2012 17 / 19
in R > #Sia co il vettore dei conteggi osservati > co=c(25,17,15,23,24,17) > #Sia pt il vettore delle probabilità teoriche dell ipotesi nulla > pt=rep(1/6,6) > #il comando da usare è > chisq.test(co,p=pt) > #il cui output è data: co X-squared =5, df=5, p-value =0.4159 Francesco Corrias Chiara Todaro (DIMA) Z-test, T-test, χ 2 -test 13 febbraio 2012 18 / 19
Bibliografia Douglas C. Montgomery. Controllo statistico della qualità. McGraw-Hill, pp 86-98, 2000. Sheldon M. Ross. Introduzione alla statistica. Capitolo 9, pp 355-400. Apogeo, 2008. A. C. Davison. Statistical Models. Cambridge, pp 325-345, 2003. E. Riccomagno. Laboratorio 4, 2005. Francesco Corrias Chiara Todaro (DIMA) Z-test, T-test, χ 2 -test 13 febbraio 2012 19 / 19