6 Stima di media e varianza, e intervalli di confidenza

Si può mostrare che, per ogi fissato α, t,α z α, e t,α z α per + I pratica t,α e z α soo idistiguibili per 200. 6 Stima di media e variaza, e itervalli di cofideza Lo scopo esseziale della Statistica ifereziale è quello di ricavare da u campioe di dati sperimetali, iformazioi sulla distribuzioe di ua variabile. Ad esempio, el caso della Statistica parametrica, si suppoe che la distribuzioe di ua variabile sia ota a meo di uo o più parametri icogiti, ad esempio la media e/o la variaza. I questo caso l obiettivo è di stimare questi parametri sulla base di dati sperimetali. Stima della media per campioi ormali: il caso di variaza ota Sia X 1, X 2,..., X u campioe co distribuzioe N(µ, σ 2 ). Assumiamo che la variaza σ 2 sia ota, e che la media µ sia icogita. Lo scopo è quello di stimare µ sulla base di u campioe di dati x 1, x 2,..., x. La legge dei gradi umeri stabilisce che la media campioaria X assume, co probbilità elevata se è sufficietemete grade, u valore vicio a µ. È perciò aturale cosiderare x = 1 x i come stima di µ. La questioe rilevate è tuttavia stabilire l affidabilità di tale stima. A questo scopo osserviamo che Z := X µ σ/ i=1 da cui segue che, fissato 0 < α < 1 piccolo N(0, 1) P ( z α/2 Z z α/2 ) = Φ(z α/2 ) Φ( z α/2 ) Perciò 1 α = P = Φ(z α/2 ) [1 Φ(z α/2 )] = 2Φ(z α/2 ) 1 = 1 α ( z α/2 X µ ) σ/ z α/2 ) = P (X σ z α/2 µ X + σ ) z α/2 54

I altre parole, co probabilità 1 α, l itervallo aleatorio di estremi cotiee µ co probabilità 1 α. X ± Sulla base di questo, diciamo che σ z α/2 l itervallo [x σ z α/2, x + σ z α/2 ] è u itervallo di cofideza per µ co livello di cofideza 1 α. L itervallo di cofideza appea otteuto è della forma x±e, cioè è simmetrico rispetto a x. U tale itervallo viee detto itervallo di cofideza bilatero. La quatità e = σ z α/2 è detta semiampiezza dell itervallo. I alcui casi può essere sufficiete forire u itervallo di cofideza che abbia solo u limite superiore o u limite iferiore. A questo scopo osserviamo che, posto acora Z := X µ σ/ N(0, 1) si ha 1 α = P (Z z α ) = P Pertato l itervallo [ x σ ) z α, + ( X σ ) z α µ è detto itervallo di cofideza uilatero destro per µ di livello di cofideza 1 α. I modo del tutto aalogo, si mostra che (, x + σ z α ] è u itervallo di cofideza uilatero siistro per µ di livello di cofideza 1 α. Esempio. I u esperimeto i u cetro ricerche per l agricoltura, si vuole verificare gli effetti dell aggiuta di itrato iorgaico ella dieta di u gruppo di bovii, sulla quatità e qualità del latte prodotto. I particolare, si vuole stimare la produzioe auale di burro per idividuo. Si può riteere che la distribuzioe di questa quatità sia ormale; esperimeti precedeti hao portato ad ua valutazioe di σ 2 = 6400 (lb/ao) 2, che si assume o sia modificata i modo sigificativo dalla modifica della dieta. 55

I dati su 25 esemplari della popolazioe di bovii i esame dao ua media campioaria x = 465 lb/ao. Determiiamo u itervallo di cofideza bilatero per la media µ della distribuzioe, al 95%, cioè α = 0.05. Si ha z α/2 = 1.96. Pertato l itervallo di cofideza richiesto è ( ) ( ) 80 80 465 1.96 µ 465 + 1.96 5 5 Stima della media per campioi ormali: il caso di variaza igota I questo caso la statistica Z = X µ σ/ o può essere usata, essedo σ icogito. Usiamo ivece la statistica T := X µ S/ t 1 L argometo usato prima per la statistica Z, essedo basato solo sulla simmetria della distribuzioe di Z (usata ella forma Φ( x) = 1 Φ(x)), può essere ripetuto, co la sola modifica di rimpiazzare i quatili della distribuzioe ormale stadard co i quatili della distribuzioe t-di-studet. Pertato si trovao gli itervalli di cofideza di livello di cofideza 1 α: Bilatero [ x s t 1,α/2, x + s ] t 1,α/2 Uilatero destro [ x s ) t 1,α, + Uilatero siistro (, x + s ] t 1,α Esempio I u esperimeto rivolto a valutare alcui beefici fisici della pratica della corsa, viee misurato il massimo volume di assorbimeto di ossigeo (V O 2 ), la cui distribuzioe si può assumere ormale. I u gruppo di 25 ruers soo stati raccolti i segueti dati x = 47.5 ml/kg s = 4.8 ml/kg Si ottiee u itervallo di cofideza al 95% x ± s 25 t 24,0.025 = 47.5 ± 4.8 25 2.064 = [45.5, 49.5] 56

Per cofroto, ella stessa ricerca è stato misurato il V O 2 i 26 idividui che o praticao la corsa, otteedo x = 37.5 ml/kg s = 5.1 ml/kg otteedo u itervallo di cofideza al 95% x ± s t 25,0.025 = [35.4, 39.6] 25 OSSERVAZIONE IMPORTANTE: le formule appea viste per gli itervalli di cofideza per la media co variaza icogita, vegoo usate ache por campioi o ormali, purchè la umerosità del campioe sia sufficietemete elevata ( 30). Esse foriscoo u itervallo di livello di cofideza approssimativamete uguale ad 1 α. Questo è basato sul fatto che, per campioi ache o ormali ma sufficietemete umerosi, la distribuzioe della statistica T si discosta poco da quella di ua t-di-studet. Stima della variaza per campioi ormali Sia X 1, X 2,..., X u campioe co distribuzioe N(µ, σ 2 ), di cui assumiamo igota tato la media quato la variaza. Vediamo come sia possibile determiare u itervallo di cofideza per la variaza σ 2 della distribuzioe. cioè Il procedimeto è basato sul fatto che ( 1)S 2 χ 2 1 σ 2 Rispetto alla stima della media, dobbiamo qui teere coto che la distribuzioe χ 2 è cocetrata sui reali positivi; la distribuzioe χ 2 o è simmetrica. Fissato α (0, 1) ) 2 1,1 α/2 ( 1)S2 P (χ σ 2 χ 2 1,α/2 = 1 α Risolvedo per σ 2 P ( ( 1)S 2 χ 2 σ 2 1,α/2 l itervallo [ ) ( 1)S2 χ 2 = 1 α 1,1 α/2 ] ( 1)s 2 ( 1)s 2 χ 2, 1,α/2 χ 2 1,1 α/2 è u itervallo di cofideza bilatero di livello 1 α per σ 2. 57

I modo del tutto aalogo si determiao gli itervalli di cofideza uilateri. [ [ 0, ] ( 1)s2 χ 2 1,1 α ) ( 1)s 2 χ 2, + 1,α Esempio I ua città è di grade rilevaza avere iformazioi sulla distribuzioe del cosumo di eergia elettrica per uità abitativa. Nel caso di uità abitative di metratura cofrotabile, la variaza idica la variabilità ei livelli di efficieza eergetica, u dato di iteresse tato per l impresa erogatrice quato per l ammiistrazioe locale. I u campioe di 101 uità abitative omogeee si è osservata ua variaza campioaria s 2 = 1.21 migliaia di kw h 2 I questo caso può essere ragioevole essere iteressati solo ad u limite superiore per la variaza, e quidi cosiderare l itervallo uilatero [ ] ( 1)s2 0, χ 2 1,1 α Usado i dati e le tavole, scelto α = 0.05 ( 1)s 2 χ 2 1,1 α = 100(1.21) 77.929 = 1.5527 Possiamo perciò affermare, co ua cofideza del 95%, che la variaza della distribuzioe è iferiore a 1.5527. Stima di ua proporzioe, cioè il parametro di ua distribuzioe B(1, p) Cosideriamo u campioe aleatorio X 1, X 2,..., X co distribuzioe B(1, p), e cosideriamo il problema di stimare il parametro p, sulla base di u campioe di dati x 1, x 2,..., x. Essedo p la media della distribuzioe B(1, p), ache i questo caso x è la stima per p. Per otteere u itervallo di cofideza, possiamo cosiderare la statistica Z := X p p(1 p) 58

che, per il Teorema del limite cetrale, ha distribuzioe approssimativamete N(0, 1) se p 5 e (1 p) 5. Dall uguagliaza P ( z α/2 Z z α/2 ) 1 α si può evideziare p, e ricavare u itervallo di cofideza approssimato. Tuttavia No cooscedo p, le codizioi p 5 e (1 p) 5 o possoo essere verificate. Isolare p da z α/2 Z z α/2 coduce a disequazioi di secodo grado, co formule risolutive u po complicate Per risolvere queste complicazioi coviee modificare la statistica Z, sostituedola co Z := X p X(1 X) che si può dimostrare avere distribuzioe approssimativamete N(0, 1) per abbastaza grade. Questa approssimazioe è da cosiderarsi buoa se Pertato X 5 e (1 X) 5 1 α P ( z α/2 Z z α/2 ) da cui si ricava, sotto l ipotesi x 5 e (1 x) 5, Itervallo di cofideza bilatero per p di livello di cofideza approssimativamete 1 α: x(1 x) x ± z α/2 Notare che x(1 x) 1 4, da cui si ricava x(1 x) e := z α/2 z α/2 2 È duque possibile determiare a priori il umero di osservazioi sufficieti ad avere la semiampiezza dell itervallo di cofideza al di sotto di ua soglia prefissata. Come al solito si possoo determiare gli itervalli di cofideza uilateri di livello di cofideza approssimativamete 1 α: ( ] x(1 x), x + z α 59

[ ) x(1 x) x z α, + Esempio Ua ricerca vuole verificare l icideza del melaoma i doe di età compresa tra i 45 e i 54 ai. I u gruppo, selezioato casualmete, di 5000 doe, 28 hao la malattia. Determiiamo u itervallo di cofideza per la percetuale di doe che hao la malattia. Il campioe da cosiderare è 1 se l i-ma doa ha la malattia X i = 0 altrimeti I dati foriscoo x = 28 5000 = 0.0056 Notare che x = 28 > 5 (così come ovviamete, (1 x) > 5), pertato è lecito cosiderare l itervallo di cofideza approssimato al 95% x(1 x) x ± 5000 z 0.025 = 0.0056 ± (0.0011)(1.96) = (0.0034, 0.0078) 7 Verifica di ipotesi 7.1 Nozioi geerali Nella gra parte delle applicazioi, la statistica ifereziale viee usata per verificare ipotesi statistiche, cioè delle affermazioi sulla distribuzioe della variabile i esame. Nell ambito della statistica parametrica, queste affermazioi si riferiscoo ai parametri icogiti della distribuzioe, ad esempio media e variaza. esempi di ipotesi statistiche soo La media della distribuzioe è uguale a 2 (ipotesi bilatera) La media della distribuzioe è miore di 10 (ipotesi uilatera) U ipotesi statistica verrà deotata co H 0 e chiamata ipotesi ulla, metre chiameremo ipotesi alterativa la sua egazioe, deotata co H 1 (o H a ). Lo scopo di ua verifica di ipotesi è quello di determiare ua regola che coseta, sulla base u campioe di dati x 1, x 2,..., x, di propedere per l ipotesi ulla o quella alterativa. U test di verifica di ipotesi cosiste el determiare ua regioe C di valori del campioe x 1, x 2,..., x, detta regioe critica, tale che se (x 1, x 2,..., x ) C si rifiuta H 0, e quidi si accetta H 1 60

Due tipi di errori soo possibili. se (x 1, x 2,..., x ) C si accetta H 0 Errore di prima specie: rifiutare H 0 quado H 0 è vera. Errore di secoda specie: accettare H 0 quado H 0 è falsa. Ua regioe critica ideale dovrebbe redere piccole tato la probabilità di commettere u errore di prima specie, quato la probabilità di commettere u errore di secoda specie. Questo spesso o è possibile: restrigedo la regioe critica la probabilità di commettere u errore di prima specie dimiuisce, ma può aumetare quella di commettere u errore di secoda specie. Il cotrario accade allargado la regioe critica. La scelta usuale ella teoria della verifica di ipotesi è di teere sotto cotrollo la probabilità di errore di prima specie, a scapito, evetualmete, della probabilità di errore di secoda specie. Diciamo che u test per la verifica dell ipotesi H 0 co regioe critica C ha livello di sigificatività α se per ogi distribuzioe del campioe X 1, X 2,..., X che soddisfi H 0 si ha P ((X 1, X 2,..., X ) C) α La scelta di privilegiare il cotrollo dell errore di prima specie rede asimmetrici i ruoli dell ipotesi ulla e dell ipotesi alterativa. Cosideriamo u test per la verifica dell ipotesi H 0 co regioe critica C e livello di sigificatifità α 1 Se (x 1, x 2,..., x ) C, cioè si rifiuta H 0 (o equivaletemete, si accetta H 1 ), allora possiamo cocludere che i dati sperimetali soo i cotraddizioe sigificativa co l ipotesi H 0. Se (x 1, x 2,..., x ) C, cioè si accetta H 0, possiamo soltato cocludere che i dati sperimetali o soo i cotraddizioe sigificativa co l ipotesi H 0 : questo o sigifica affatto che essi siao i cotraddizioe co H 1, ma soltato che essi o escludoo i modo sigificativo che H 0 sia vera Questa asimmetria ha ua rilevate implicazioe: uo sperimetatore che desideri dimostrare co dati sperimetali ua certa ipotesi sulla distribuzioe di ua variabile, adotterà l ipotesi da dimostrare come ipotesi alterativa 7.2 Test per u campioe ormale z-test su ua media di u campioe ormale co variaza ota 61

Sia X 1, X 2,..., X u campioe co distribuzioe N(µ, σ 2 ), dove σ 2 è ota. Cosideriamo il problema di verificare l ipotesi bilatera dove µ 0 è u valore assegato. H 0 : µ = µ 0 Questo test è basato su ua particolare statistica campioaria, detta statisticatest, Z := X µ 0 σ/ L osservazioe chiave è la seguete: se H 0 è vera, allora Z N(0, 1). Pertato, se H 0 è vera P ( Z > z α/2 ) = α I altre parole, la scelta della regioe critica } C := (x 1, x 2,..., x ) tali che x µ 0 σ/ > z α/2 idividua u test per la verifica di H 0 co livello di sigificatività α. OSSERVAZIONE: otare che (x 1, x 2,..., x ) C se e solo se µ 0 ( x σ z α/2, x + σ z α/2 ) cioè l ipotesi µ = µ 0 viee rifiutata a livello di sigificatività α se e solo se µ 0 o appartiee all itervallo di cofideza per µ di livello di cofideza 1 α U altro fatto importate, è che l apparteeza di (x 1, x 2,..., x ) alla regioe critica, cioè x µ 0 σ/ > z α/2 dipede dalla scelta del livello di sigificatività α. Per cotiuità e mootoìa dei quatili della ormale stadard, esiste u uico α (0, 1) tale che x µ 0 σ/ = z α/2 e quidi se α > α allora H 0 viee rifiutata; se α α allora H 0 viee accettata. 62

α viee detto p-value (o p-dei-dati) del test. Tato più il p-value di u test è vicio a 0, tato più i dati soo i cotraddizioe co l ipotesi H 0. Nel caso del test appea visto, il p-value è caratterizzato dall uguagliaza x µ 0 σ/ = z α/2 che è equivalete a 1 α ( ) 2 = Φ x µ 0 σ/ che permette di calcolare esplicitamete α. Per verificare ipotesi uilatere della forma H 0 : µ µ 0 oppure H 0 : µ µ 0, si ragioa i modo aalogo, solo leggermete più complicato. Ci limitiamo a riportare i risultati. Per verificare µ µ 0 a livello di sigificatività α si usa come regioe critica C := (x 1, x 2,..., x ) tali che x µ } 0 σ/ > z α e il p-value è dato da 1 α = Φ ( ) x µ0 σ/ Per verificare µ µ 0 a livello di sigificatività α si usa come regioe critica C := (x 1, x 2,..., x ) tali che x µ } 0 σ/ < z α e il p-value è dato da α = Φ ( ) x µ0 σ/ Esempio Per ua variabile co distribuzioe ormale co media icogita e deviazioe stadard σ = 2, si raccoglie u campioe di 10 dati, che foriscoo x = 18.58. Si verifichi l ipotesi H 0 : µ = 20 al 5%, e si calcoli quidi il p-value del test. La regioe critica è data da 10 z := 2 x 20 > z 0.025 = 1.96. Essedo z = 2.2452, il campioe cade ella regioe critica, e quidi H 0 viee rifiutata. Il p-value si ottiee da da cui si ottiee α = 0.0248. 1 α 2 = Φ(2.2452) 63

t-test su ua media di u campioe ormale co variaza igota Nel caso di campioi ormali co media e variaza igota, i precedeti argometi vegoo modificati i completa aalogia co quato fatto per gli itervalli di cofideza: i altre parole, alla statistica Z si sostituisce la statistica T := X µ 0 S/ e ai quatili della ormale stadard i quatili della t 1. α Si ottegoo pertato le segueti regioi critiche, a livello di sigificatività H 0 : µ = µ 0 : H 0 : µ µ 0 : H 0 : µ µ 0 : C := C := C := (x 1, x 2,..., x ) tali che x µ 0 s/ } > t 1,α/2 (x 1, x 2,..., x ) tali che x µ } 0 s/ > t 1,α (x 1, x 2,..., x ) tali che x µ } 0 s/ < t 1,α Esempio I ragazzi di ua determiata età hao u peso medio di 42.5 Kg. I u sobborgo i cui si teme ci possao essere ragazzi malutriti, viee misurato il peso di 25 ragazzi, otteedo ua media campioaria x = 40.47 Kg, e ua deviazioe stadard campioaria s = 5.8 Kg. Si assume la ormalità della distribuzioe della variabile i esame. Quale coclusioe si può trarre? Sia H 0 : µ 42.5, cioè H 1 : µ < 42.5. H 0 viee rifiutata al 5% se t := x µ 0 s/ < t 1,0.05 I questo caso: t = 1.75, t 24,0.05 = 1.71. Pertato H 0 viee rifiutata: a questo livello di sigificatività si può cocludere che i ragazzi del sobborgo siao, i media, malutriti rispetto alla popolazioe complessiva. 64