VERIFICA DELLE IPOTESI

Похожие документы

Esercitazione #5 di Statistica. Test ed Intervalli di Confidenza (per una popolazione)

1) Si consideri un esperimento che consiste nel lancio di 5 dadi. Lo spazio campionario:

Metodi statistici per l economia (Prof. Capitanio) Slide n. 9. Materiale di supporto per le lezioni. Non sostituisce il libro di testo

1. Distribuzioni campionarie

Statistiche campionarie

Test d ipotesi. Statistica e biometria. D. Bertacchi. Test d ipotesi

Statistica. Esercitazione 15. Alfonso Iodice D Enza iodicede@unicas.it. Università degli studi di Cassino. Statistica. A. Iodice

Corso di Psicometria Progredito

Statistica. Lezione 6

Verifica di ipotesi

Inferenza statistica. Statistica medica 1

Metodi statistici per le ricerche di mercato

La variabile casuale Binomiale

VERIFICA DELLE IPOTESI

Potenza dello studio e dimensione campionaria. Laurea in Medicina e Chirurgia - Statistica medica 1

E naturale chiedersi alcune cose sulla media campionaria x n

Tema A Se due eventi A e B sono indipendenti e tali che P (A) = 1/2 e P (B) = 2/3, si può certamente concludere che

CAPITOLO 8 LA VERIFICA D IPOTESI. I FONDAMENTI

Esercitazioni di Statistica

Esercizio 1. Verifica di ipotesi sulla media (varianza nota), p-value del test

Esercizi test ipotesi. Prof. Raffaella Folgieri aa 2009/2010

LEZIONE n. 5 (a cura di Antonio Di Marco)

CORSO DI STATISTICA (parte 2) - ESERCITAZIONE 7

3. Confronto tra medie di due campioni indipendenti o appaiati

L analisi dei rischi: l aspetto statistico Ing. Pier Giorgio DELLA ROLE Six Sigma Master Black Belt

Facciamo qualche precisazione

Esercitazione n.1 (v.c. Binomiale, Poisson, Normale)

Elementi di Psicometria con Laboratorio di SPSS 1

Analisi di dati di frequenza

risulta (x) = 1 se x < 0.

STATISTICA IX lezione

1a) Calcolare gli estremi dell intervallo di confidenza per µ al 90% in corrispondenza del campione osservato.

LE FUNZIONI A DUE VARIABILI

Elementi di Psicometria con Laboratorio di SPSS 1

CORSO DI STATISTICA (parte 2) - ESERCITAZIONE 8

Corso di Laurea in Ingegneria Informatica e Automatica (A-O) Università di Roma La Sapienza

SPC e distribuzione normale con Access

PROBABILITÀ - SCHEDA N. 2 LE VARIABILI ALEATORIE

ELEMENTI DI STATISTICA

Inferenza statistica I Alcuni esercizi. Stefano Tonellato

Statistica Matematica A - Ing. Meccanica, Aerospaziale I prova in itinere - 19 novembre 2004

Temi di Esame a.a Statistica - CLEF

Statistica e biometria. D. Bertacchi. Variabili aleatorie. V.a. discrete e continue. La densità di una v.a. discreta. Esempi.

Università degli Studi di Milano Bicocca CdS ECOAMM Corso di Metodi Statistici per l Amministrazione delle Imprese CARTE DI CONTROLLO PER VARIABILI

Corso di Laurea in Ingegneria Informatica e Automatica (A-O) Università di Roma La Sapienza

L Analisi della Varianza ANOVA (ANalysis Of VAriance)

La distribuzione Normale. La distribuzione Normale

VARIABILI ALEATORIE CONTINUE

CORSO DI STATISTICA (parte 2) - ESERCITAZIONE 6

Istituzioni di Statistica e Statistica Economica

Dimensione di uno Spazio vettoriale

Esercitazione n.2 Inferenza su medie

Istituzioni di Statistica e Statistica Economica

Il confronto fra proporzioni

Corso di Laurea in Ingegneria Informatica Anno Accademico 2014/2015 Calcolo delle Probabilità e Statistica Matematica

f(x) = 1 x. Il dominio di questa funzione è il sottoinsieme proprio di R dato da

Siamo così arrivati all aritmetica modulare, ma anche a individuare alcuni aspetti di come funziona l aritmetica del calcolatore come vedremo.

2. Leggi finanziarie di capitalizzazione

Elementi di Psicometria con Laboratorio di SPSS 1

La distribuzione Gaussiana

Statistica inferenziale

Concetto di potenza statistica

Metodi statistici per le ricerche di mercato

Test statistici di verifica di ipotesi

Funzioni. Parte prima. Daniele Serra

11. Analisi statistica degli eventi idrologici estremi

1. Limite finito di una funzione in un punto

FUNZIONI ELEMENTARI - ESERCIZI SVOLTI

Statistica inferenziale, Varese, 18 novembre 2009 Prima parte - Modalità C

Università del Piemonte Orientale. Corso di laurea in biotecnologia. Corso di Statistica Medica. Intervalli di confidenza

Carte di controllo per attributi

APPUNTI DI MATEMATICA LE FRAZIONI ALGEBRICHE ALESSANDRO BOCCONI

Probabilità condizionata: p(a/b) che avvenga A, una volta accaduto B. Evento prodotto: Evento in cui si verifica sia A che B ; p(a&b) = p(a) x p(b/a)

Proof. Dimostrazione per assurdo. Consideriamo l insieme complementare di P nell insieme

1 Serie di Taylor di una funzione

Prova di autovalutazione Prof. Roberta Siciliano

Capitolo 2. Operazione di limite

Il concetto di valore medio in generale

b. Che cosa succede alla frazione di reddito nazionale che viene risparmiata?

T DI STUDENT Quando si vogliono confrontare solo due medie, si può utilizzare il test t di Student La formula per calcolare il t è la seguente:

SOLUZIONI ESERCITAZIONE NR. 6 Variabili casuali binomiale e normale

Esercitazione n.4 Inferenza su varianza

STATISTICA INFERENZIALE

Ottimizazione vincolata

ESERCIZI DI ALGEBRA LINEARE E GEOMETRIA

Capitolo 11 Test chi-quadro

Consideriamo due polinomi

Viene lanciata una moneta. Se esce testa vinco 100 euro, se esce croce non vinco niente. Quale è il valore della mia vincita?

Matematica 1 - Corso di Laurea in Ingegneria Meccanica

Università di Firenze - Corso di laurea in Statistica Seconda prova intermedia di Statistica. 18 dicembre 2008

Esercizi riassuntivi di probabilità

FUNZIONE ESPONENZIALE E FUNZIONE LOGARITMICA

Parte 3. Rango e teorema di Rouché-Capelli

4 3 4 = 4 x x x 10 0 aaa

Parte 2. Determinante e matrice inversa

Lineamenti di econometria 2

Macroeconomia, Esercitazione 2. 1 Esercizi. 1.1 Moneta/ Moneta/ Moneta/3. A cura di Giuseppe Gori (giuseppe.gori@unibo.

Università del Piemonte Orientale. Corso di laurea in biotecnologia. Corso di Statistica Medica. Analisi dei dati quantitativi :

Транскрипт:

VERIFICA DELLE IPOTESI Introduzione Livelli di significatività Verifica di ipotesi sulla media di una popolazione normale Verifica di ipotesi sulla varianza di una popolazione normale Verifica di ipotesi su una popolazione di Bernoulli Ipotesi sulla media di una distribuzione di Poisson 290

Introduzione Come in precedenza, supponiamo di disporre di un campione aleatorio proveniente da una distribuzione che ci è nota tranne che per uno o più parametri incogniti. La nuova chiave di lettura non prevede più di stimare direttamente questi parametri, ma piuttosto di usare il campione raccolto per verificare qualche ipotesi che li coinvolga. Una ipotesi statistica è normalmente un affermazione su uno o più parametri della distribuzione di popolazione. Si parla di ipotesi perché a priori non sappiamo se sia vera o meno: il problema primario è quello di sviluppare una procedura per determinare se i valori di un campione aleatorio e l ipotesi fatta siano compatibili oppure no. Se è compatibile diremo che l ipotesi è accettata, altrimenti è rifiutata. Si noti che quando accettiamo un ipotesi non stiamo affermando che sia necessariamente vera, ma solo che i dati raccolti sono accettabilmente in accordo con essa. 291

Livelli di significatività Consideriamo una popolazione avente distribuzione F θ che dipende da un parametro incognito θ e supponiamo di volere verificare una qualche ipotesi su θ, che chiameremo ipotesi nulla, e denoteremo con H 0. Se F θ è ad esempio una distribuzione normale con media θ e varianza 1, due possibili ipotesi nulle su θ sono: 1.H 0 : θ=1 2.H 0 : θ 1 La prima di queste ipotesi afferma che la popolazione ha distribuzione N(1,1), mentre la seconda sostiene che essa è normale con varianza 1 e media non superiore a 1. Si noti che l ipotesi nulla 1, quando è vera, caratterizza completamente la distribuzione della popolazione, mentre questo non è vero per l ipotesi 2. Nel primo caso si parla di ipotesi semplice, mentre nel secondo di ipotesi composta. 292

Livelli di significatività Supponiamo di disporre di un campione aleatorio X 1,..,X n proveniente da questa popolazione e di volerlo usare per eseguire un test di una certa ipotesi nulla H 0. Siccome dobbiamo decidere se accettare o meno H 0 basandoci esclusivamente sugli n valori dei dati, il test sarà definito da una regione C nello spazio a n dimensioni, con l intesa che se il vettore (X 1,..,X n ) cade all interno di C l ipotesi viene rifiutata, mentre viene accettata in caso contrario. Una regione C con queste caratteristiche viene detta regione critica del test. 293

Livelli di significatività Schematizzando quanto detto, il test statistico determinato dalla regione critica C è quello che accetta H se ( X, X,..., X ) C 0 1 2 e rifiuta H se ( X, X,..., X ) C 0 1 2 In qualunque test per verificare una ipotesi nulla, il risultato può essere sbagliato in due modi differenti. Si ha infatti: un errore di prima specie quando i dati ci portano a rifiutare una ipotesi H 0 che in realtà è corretta, un errore di seconda specie quando finiamo con l accettare H 0 ed essa è falsa. Non vi è simmetria tra i due tipi di errori. Ricordiamo infatti che l obiettivo di una verifica di H 0 non è quella di dire se questa ipotesi sia vera o falsa, ma piuttosto di dire se l ipotesi fatta sia anche solo compatibile con i dati raccolti. In effetti vi è un ampio livello di tolleranza nell accettare H 0, mentre per rifiutarla occorre che i dati campionari siano molto improbabili quando H 0 è soddisfatta. n n 294

Livelli di significatività Questo bilanciamento si ottiene specificando un valore α, detto livello di significatività, e imponendo che il test abbia la proprietà che quando l ipotesi H 0 è vera, la probabilità che venga rifiutata non possa superare α. Il livello di significatività del test viene normalmente fissato in anticipo, con valori tipici dell ordine di 0.1, 0.05 o 0.005. Detto in altri termini, un test con livello di significatività α deve avere una probabilità di errore di prima specie minore o uguale ad α. 295

Livelli di significatività Per chiarire come viene costruita la regione critica, immaginiamo di volere verificare l ipotesi nulla H0 : θ w dove con w stiamo indicando un insieme di valori possibili per il parametro. Un approccio naturale per formulare una verifica di H 0 ad un livello di significatività α prescritto consiste nell individuare uno stimatore puntuale di θ, che denotiamo con d(x), e quindi rifiutare l ipotesi quando d(x) è lontano dalla regione w. Per capire quanto lontano deve essere per giustificare un rifiuto di H 0 ad un livello di significatività pari a α occorre conoscere la distribuzione dello stimatore d(x) nel caso in cui H 0 sia vera. Ad esempio la verifica dell ipotesi che la media di una popolazione N(θ,1) sia pari a 1, impone di rifiutare l ipotesi quando lo stimatore puntuale di θ (ovvero la media campionaria) dista da 1 più di 1.96/ n. Come vedremo quest ultimo valore è stato scelto in modo da dare ai test un livello di significatività del 5%. 1 n 1.96 C = ( X1, X 2,..., X n) : 1 Xi > n i= 1 n 296

Verifica di ipotesi sulla media di una popolazione normale Varianza nota Supponiamo che X 1,..,X n sia un campione aleatorio proveniente da una popolazione normale di parametri µ e σ 2, con la varianza nota e media incognita. Fissata una costante µ 0, vogliamo verificare l ipotesi nulla contro l ipotesi alternativa H : µ = µ 0 0 H : µ µ 1 0 Siccome X =Σ i X i /n è lo stimatore puntuale per µ, sembra ragionevole accettare H 0 quando X non è troppo lontano da µ 0. Perciò la regione critica del test sarà del tipo C = ( X1, X 2,..., X n) : X µ 0 > c per una scelta opportuna della costante c. { } Se vogliamo che il test abbia livello di significatività α, dobbiamo individuare quel valore di c nell equazione precedente che rende pari ad α la probabilità di errore di prima specie. Ciò significa che c deve soddisfare la relazione seguente α = P(errore di I specie) = P ( X µ > c) µ 0 0 dove scriviamo con P µ0 per intendere che la probabilità precedente viene calcolata con l assunzione che µ=µ 0. 297 (*)

Verifica di ipotesi sulla media di una popolazione normale Varianza nota Quando però µ=µ 0 sappiamo che X ha distribuzione normale con media µ 0 e varianza σ 2 /n e quindi se Z denota una variabile aleatoria N(0,1) allora X σ / µ 0 n dove la relazione ~ è condizionata all ipotesi H 0 : µ=µ 0. Possiamo allora riscrivere (*) nella forma µ 0 Z e quindi P(Z>c n/σ)=α/2. Siccome però per definizione di z α/2 vale si deduce che X µ 0 c n c n c n α = Pµ 0 > = P( Z > ) = 2 P( Z > ) σ / n σ σ σ P( Z > z α ) = α / 2 /2 c n z c z σ = = α /2 α /2 σ n 298

Verifica di ipotesi sulla media di una popolazione normale Varianza nota Il test con livello di significatività α dovrà allora rifiutare H 0 se X -µ 0 > z α/2 σ/ n, cioè X µ si rifiuta H 0 0 se > zα /2 si accetta H se σ / X 0 0 zα /2 σ / La regione di accettazione per la statistica del test è un intervallo simmetrico rispetto allo zero, come è illustrato in figura, dove si è riportata in sovrapposizione la densità della distribuzione normale standard. n µ n (**) 299

Verifica di ipotesi sulla media di una popolazione normale Varianza nota 300

Verifica di ipotesi sulla media di una popolazione normale Varianza nota 301

Verifica di ipotesi sulla media di una popolazione normale La regola fornita dall equazione (**) può essere riformulata come segue. Varianza nota Dopo aver calcolato il valore assunto dalla statistica del test, n X -µ 0 /σ (che denotiamo con v), valutiamo la probabilità (condizionata alla validità di H 0 ) che la statistica stessa assumesse un valore come v o più estremo ancora. Se tale probabilità è minore del livello di α, rifiutiamo l ipotesi H 0, altrimenti l accettiamo. In altri termini dobbiamo calcolare prima il valore della statistica del test, poi la probabilità che una normale standard, in valore assoluto, superi tale quantità. Questa probabilità, detta il p-dei-dati del test, fornisce il livello di significatività critico, scendendo al di sotto del quale la decisione cambia da rifiuto ad accettazione. In pratica spesso non si fissa in anticipo il livello di significatività, ma si osservano i dati e si ricava il p-dei-dati corrispondente. Se esso risulta molto maggiore di quanto siamo disposti ad accettare come probabilità di un errore di prima specie, conviene accettare l ipotesi nulla; se invece esso è molto piccolo, possiamo rifiutarla. 302

Verifica di ipotesi sulla media di una popolazione normale Varianza nota 303

Verifica di ipotesi sulla media di una popolazione normale Per calcolare questa probabilità usiamo il fatto che X ~N(µ,σ 2 /n) e quindi da cui Varianza nota Non abbiamo ancora discusso la probabilità degli errori di seconda specie, cioè la probabilità di accettare H 0 quando in realtà essa non è valida. Tale probabilità dipende da µ e in particolare vale X µ 0 X µ ( ) P (accettare H 0 β µ = µ 0 ) = P µ z /2 P z /2 z /2 σ / n α = µ α σ / n α La funzione β(µ) è detta curva OC (curva operativa caratteristica) e rappresenta la probabilità di accettare H 0 quando la media reale è µ. Z X µ = σ / n N(0,1) X µ ( ) 0 µ 0 µ µ 0 µ X µ P z 0 µ 0 µ β µ = µ α /2 zα /2 = Pµ zα /2 + + zα /2 = σ / n σ / n σ / n σ / n σ / n µ 0 µ µ 0 µ µ P z 0 µ µ 0 µ = µ α /2 Z + zα /2 = Φ + zα /2 Φ zα /2 σ / n σ / n σ / n σ / n 304

Verifica di ipotesi sulla media di una popolazione normale Varianza nota Per un livello di significatività α fissato, la curva OC è simmetrica rispetto a µ 0 e dipende da µ solo tramite n µ-µ 0 /σ. In figura è rappresentata la curva OC per α=0.05, con l ascissa trasformata da µ a d= n µ-µ 0 /σ. N.B. La funzione 1-β(µ) è detta funzione di potenza del test. Per un valore di µ fissato, la potenza del test è la probabilità di rifiutare (correttamente) H 0 quando µ è il valore vero. 305

Verifica di ipotesi sulla media di una popolazione normale Varianza nota 306

Verifica di ipotesi sulla media di una popolazione normale Test unilaterali Nel verificare l ipotesi nulla µ=µ 0 abbiamo costruito un test che porta ad un rifiuto quando X è lontano da µ 0, ovvero valori di X troppo bassi o troppo alti rispetto a µ 0 sembrano smentire che µ sia proprio uguale a µ 0. Cosa accade se l ipotesi alternativa a H 0 : µ=µ 0 è H1: µ>µ 0? Nel verificare l ipotesi H : µ = µ contro H : µ > µ 0 0 1 0 Dovremmo rifiutare l ipotesi nulla quando X, lo stimatore di µ, è molto più grande di µ 0 e quindi la regione critica dovrebbe essere {( 1, 2,..., n) : µ 0 } C = X X X X > c per una scelta opportuna della costante c. Siccome la probabilità di rifiuto dovrebbe essere α quando H 0 è vera occorre che c soddisfi la relazione Pµ 0( X µ 0 > c) = α Poiché stiamo supponendo che µ=µ 0, X ha media µ 0 e quindi la statistica Z ha distribuzione normale standard X µ Z = 0 N(0,1) σ / n 307

Verifica di ipotesi sulla media di una popolazione normale Perciò la precedente è equivalente a P Z Test unilaterali che si risolve in funzione di c ricordando che P(Z>z α ) =α ottenendo quindi Il test con livello di significatività α dovrà allora rifiutare H 0 se X- µ 0 >z α σ/ n, cioè Quella trovata è detta regione critica unilaterale, o a una coda (a differenza delle regioni critiche trovate in precedenza che erano bilaterali o a due code). Anche il problema di verificare le ipotesi alternative si dice problema di test unilaterale. c = 0 0 c n > = α σ z α /2 si rifiuta H se si accetta H se H X σ n σ / X σ / µ 0 n µ : µ = µ contro H : µ > µ 0 0 1 0 0 n > z α z α (***) 308

Verifica di ipotesi sulla media di una popolazione normale Test unilaterali Per ottenere il p-dei-dati di questo tipo di test si calcola innanzitutto il valore della statistica del test X µ 0 σ / n in funzione dei dati raccolti; il p-dei-dati è quindi uguale alla probabilità che una normale standard superi questo valore. 309

Verifica di ipotesi sulla media di una popolazione normale Test unilaterali 310

Verifica di ipotesi sulla media di una popolazione normale La curva OC del test unilaterale (***) si può ricavare come segue. Test unilaterali Visto che per i=1,..,n si ha che X i ~N(µ,σ 2 /n) e quindi che X~N(µ,σ 2 /n) se poniamo Z= n( X-µ)/σ, questa statistica è normale standard per cui σ X µ µ ( ) P (accettare H 0 µ β µ = µ 0) = Pµ X µ 0 + zα = Pµ + zα = n σ / n σ / n µ 0 µ µ P Z z 0 µ = µ + α = Φ + zα σ / n σ / n Siccome Φ, in quanto funzione di ripartizione, è crescente è chiaro che β(µ) è una funzione decrescente. Questo risultato appare incoraggiante, visto che è ragionevole che, al crescere di µ, sia sempre meno facile concludere che µ<µ 0. Si noti anche che, siccome Φ(z α )=1-α, si ha che β ( µ ) = 1 α 0 311

Verifica di ipotesi sulla media di una popolazione normale Test unilaterali La regola fornita dalla (***) vale anche per verificare, ad un livello di significatività α, l ipotesi unilaterale H : µ µ contro H : µ > µ 0 0 1 0 Per accertarsi che il livello di significatività sia rimasto α, dobbiamo dimostrare che la probabilità di un errore di prima specie non superi mai questo valore. Al variare di µ, la probabilità di rifiuto è data da 1-β(µ). Siccome si commette un errore di prima specie se H 0 è vera e i dati ci impongono di rifiutarla, dobbiamo verificare che, per ogni µ compatibile con H 0, quindi per ogni µ µ 0, 1 β ( µ ) α per ogni µ µ β ( µ ) 1 α per ogni µ µ 0 0 N.B. E anche possibile verificare, ad un livello di significatività α, l ipotesi H 0 : µ=µ 0 contro l ipotesi alternativa H 1 :µ<µ 0 decidendo che si rifiuta H se 0 si accetta H se 0 X σ / X σ / µ 0 n µ 0 n < z α z α 312

Verifica di ipotesi sulla media di una popolazione normale Test unilaterali 313

Verifica di ipotesi sulla media di una popolazione normale Test unilaterali 314

Verifica di ipotesi sulla media di una popolazione normale Test unilaterali 315

Verifica di ipotesi sulla media di una popolazione normale Varianza non nota: test t Comunemente né la media né la varianza di una popolazione sono note. Supponiamo di essere in tale situazione e consideriamo di nuovo come si possa verificare l ipotesi nulla che µ sia uguale ad un valore assegnato µ 0, contro l ipotesi alternativa che µ µ 0. Come in precedenza, sembra ragionevole rifiutare l ipotesi nulla quando X cade lontano da µ 0 : tuttavia la distanza a cui deve essere da µ 0 per giustificare questo rifiuto dipende dalla deviazione standard che in quella sede era nota, ma qui non è conosciuta. Possiamo allora pensare di sostituirla con il suo stimatore, la deviazione standard campionaria S 1 n 2 S = ( Xi X ) n 1 i= 1 rifiutando l ipotesi nulla quando è troppo grande. H : µ = µ contro H : µ µ 0 0 1 0 X S µ / 0 n 316

Verifica di ipotesi sulla media di una popolazione normale Quanto grande è «troppo grande»? Sappiamo che la variabile aleatoria X µ S / n n 1 Varianza non nota: test t ha distribuzione t. Se si denota con T la statistica di questo test, cioè T = X S / t µ 0 n allora quando H 0 è vera, visto che µ=µ 0, T ha distribuzione t con n-1 gradi di libertà. Imponiamo ora che la probabilità di errore di prima specie sia α, ovvero passando agli eventi complementari, che sia 1-α la probabilità di accettare l ipotesi nulla quando µ=µ 0 : X µ P 0 µ 0 c c = 1 α S / n Per ricavare c, si noti che, siccome la densità della distribuzione t è simmetrica rispetto allo zero, α = 1 P( c < T < c) = P( T c) + P( T c) = 2 P( T c) 317

Verifica di ipotesi sulla media di una popolazione normale Varianza non nota: test t Per cui P(T>c)=α/2 e quindi deve valere c=t α/2,n-1 per definizione di t α,k. Concludendo diamo la regola per usare il test: si rifiuta H se si accetta H se 0 0 > tα /2, n 1 0 0 tα /2, n 1 Il test descritto è detto test t bilaterale ed è illustrato in figura. X S X S µ / / n µ n Se si denota con t il valore assunto da T, la statistica del test, calcolata in funzione dei dati del campione, il valore del p-dei-dati corrispondente è la probabilità che T superi t, quando H 0 è vera. Si tratta quindi della probabilità che una t di Student con n-1 gradi di libertà abbia valore assoluto maggiore di t. Come nei casi precedenti, si deve rifiutare l ipotesi nulla a tutti i livelli318 di significatività maggiori del p-dei-dati, mentre la si accetta a tutti i livelli inferiori.

Verifica di ipotesi sulla media di una popolazione normale Varianza non nota: test t 319

Verifica di ipotesi sulla media di una popolazione normale Varianza non nota: test t 320

Verifica di ipotesi sulla media di una popolazione normale Si può costruire un test t a una coda per verificare l ipotesi H : µ = µ (o H : µ µ ) contro H : µ > µ ad un livello di significatività α decidendo che Varianza non nota: test t X µ si accetta H 0 0 se tα, n 1 S / n Se il valore di n ( X-µ)/S realizzato dai dati è v, allora il p-dei-dati corrispondente è la probabilità che una t di Student con n-1 gradi di libertà sia maggiore o uguale a v. Analogamente la verifica ad un livello α dell ipotesi si ottiene decidendo che 0 0 0 0 1 0 X µ si rifiuta H se 0 0 > tα, n 1 S / n H : µ = µ (o H : µ µ ) contro H : µ < µ 0 0 0 0 1 0 X µ si rifiuta H se 0 0 < tα, n 1 S / n X µ si accetta H se 0 0 tα, n 1 S / n 321

Verifica di ipotesi sulla media di una popolazione normale Varianza non nota: test t 322

Verifica di ipotesi sulla media di una popolazione normale Varianza non nota: test t 323

Verifica di ipotesi sulla varianza di una popolazione normale Sia X 1,..,X n un campione proveniente da una popolazione normale con media incognita µ e varianza incognita σ 2 e supponiamo di volere verificare l ipotesi nulla H per un valore di σ 02 fissato. S σ 2 2 2 2 0: σ = σ 0 contro H1: σ σ 0 Per ottenere un test ricordiamo che (n-1)s 2 /σ 2 ha distribuzione chi-quadro con n-1 gradi di libertà così quando H 0 è vera 2 2 2 2 S 2 n 2 n 1 PH 0 1 α /2, n 1 n 2 α /2, n 1 0 σ 0 ( 1) χ ( χ ( 1) χ ) = 1 α Perciò la regola da adattare è la seguente 0 2 2 S 2 0 χ1 α /2, n 1 n χ 2 α /2, n 1 σ 0 si accetta H se ( 1) si rifiuta H negli altri casi 324

Verifica di ipotesi sulla varianza di una popolazione normale Il test precedente può anche essere implementato come segue: si osservano i dati; si calcola il valore c assunto dalla statistica del test, ovvero (n-1)s 2 /σ 02 ; si determina poi la probabilità che una chi-quadro con n-1 gradi di libertà sia (1) più piccola di c, (2) più grande di c. L ipotesi nulla viene rifiutata se una di queste due probabilità è inferiore ad α/2. Altrimenti detto, il p-dei-dati è 2 2 n 1 χn 1 p-dei-dati = 2min{ P( χ c),1 P( c)} Il p-dei-dati per un test a una coda si trova analogamente. 325

Verifica di ipotesi sulla varianza di una popolazione normale 326

Verifica di ipotesi su una popolazione di Bernoulli Una ipotesi di lavoro che spesso viene assunta è che ogni oggetto prodotto sia difettoso in maniera indipendente da tutti gli altri con probabilità p. In questo modo il numero di difetti in un campione di n pezzi ha distribuzione binomiale di parametri (n,p). Consideriamo allora la verifica dell ipotesi dove p 0 è un valore assegnato. H : p p contro H : p > p 0 0 1 0 Se denotiamo con X il numero di pezzi difettosi in un campione di n, dobbiamo certamente rifiutare H 0 quando X è troppo grande. Per calcolare poi quanto grande deve essere per giustificare un rifiuto dell ipotesi nulla ad un livello di significatività pari ad α, notiamo che n n n i P( X k) = P( X = i) = p (1 p) i= k i= k i E intuitivo che P(X k) è una funzione crescente di p; infatti la probabilità che un campione contenga k o più pezzi difettosi cresce con p. Usando questo fatto, quando H 0 è vera, quindi p p0 n n i n i PH 0( X k) p0 (1 p0) 327 i= k i n i

Verifica di ipotesi su una popolazione di Bernoulli Per verificare le ipotesi suddette ad un livello di significatività α, si deve rifiutare H 0 quando X k* dove con k* si è denotato il più piccolo numero intero k tale che n n i n i k* = min k : p0 (1 p0) α i= k i Un modo migliore per implementare il test consiste nel determinare prima il valore x della statistica del test, X, e poi calcolare il p-dei-dati come segue n n i p-dei-dati = p0 (1 p0) i= x i n i 328

Verifica di ipotesi su una popolazione di Bernoulli 329

Verifica di ipotesi su una popolazione di Bernoulli Quando la numerosità del campione è elevata, possiamo ottenere un test approssimativo con significatività α, usando la distribuzione normale. Poiché infatti quando n è molto grande X è approssimativamente normale, con media e varianza ne segue che E[ X ] = np Var( X ) = np(1 p) X np np(1 p) N(0,1) sarà approssimativamente normale standard e quindi per ottenete un test che confronti le ipotesi H 0 :p p 0 e H 1 : p>p 0 si deve rifiutare l ipotesi nulla quando X np np 0 (1 p ) 0 0 z α 330

Verifica di ipotesi su una popolazione di Bernoulli 331

Verifica di ipotesi su una popolazione di Bernoulli In questo contesto è più frequente imbattersi in test a una coda, comunque quelli bilaterali non presentano difficoltà ulteriori. Proviamo a verificare H : p = p contro H : p p 0 0 1 0 Se la variabile aleatoria X, che è binomiale con parametri n e p, viene osservata ed assume il valore x, sarà necessario rifiutare l ipotesi nulla quando x cadrà molto lontano da quello che è il valore atteso quando p è uguale a p 0. Più precisamente il test rifiuterà H 0 quando α α Pp 0( X x) oppure Pp 0( X x) 2 2 Il valore del p-dei-dati corrispondente è quindi p-dei-dati = 2min{ P ( X x), P ( X x)} p0 p0 332

Verifica di ipotesi su una popolazione di Bernoulli 333

Ipotesi sulla media di una distribuzione di Poisson Sia X una variabile aleatoria di Poisson con media λ e supponiamo di volere confrontare le ipotesi H dove con P λ0 intendiamo la probabilità calcolata assumendo che X abbia media λ 0. Di conseguenza il p-dei-dati è dato da : λ = λ contro H : λ λ 0 0 1 0 Se x è il valore osservato per X, un test con livello di significatività α deve rifiutare l ipotesi nulla se α α Pλ 0( X x) o se Pλ 0( X x) 2 2 p-dei-dati = 2min{ P ( X x), P ( X x)} λ0 λ0 N.B. Si tenga presente che una distribuzione di Poisson con media λ molto grande è approssimativamente normale con media e varianza entrambe pari a λ. 334

Ipotesi sulla media di una distribuzione di Poisson 335

Problemi 1. Una ditta fabbrica pneumatici asserendo che la loro durata media sia di 40200 km. In seguito all estrazione casuale di un campione di 20 pneumatici si riscontra X =40900 km e S=6000. Sottoporre a verifica, con un livello di significatività del 5%, l ipotesi che la durata media dei pneumatici sia maggiore di 40200 km. Svolgimento H : µ =40200 0 H : µ >40200 1 T X µ = S / n t n 1 T = 0.521 t α, n 1 essendo t α,n-1 >T si accetta l ipotesi H 0. = 1.729 336

Problemi 2. Una ditta fabbrica pneumatici asserendo che la loro durata media sia di 40200 km. In seguito all estrazione casuale di un campione di 100 pneumatici si riscontra X =40900 km e S=6500. Sottoporre a verifica, con un livello di significatività del 5%, l ipotesi che la durata media dei pneumatici sia maggiore di 40200 km. Svolgimento H : µ =40200 0 H : µ >40200 1 T X µ = t S / n In virtù del teorema del limite centrale, data l elevata numerosità del campione, T N(0,1). T 1.076123 z α == 1.645 n 1 essendo z α >T si accetta l ipotesi H 0. 337

Problemi 3. In passato, la lunghezza media delle pannocchie di grano era uguale a 27cm con σ 2 =24. Si vuole sottoporre a test l ipotesi che le pannocchie di un determinato anno abbiamo una lunghezza media diversa, sulla base di un campione di 20 elementi con α=0.04. Svolgimento 30, 29, 16, 19, 25, 23, 18, 17, 29, 30 29, 30, 23, 27, 22, 16, 28, 24, 26, 30 H : µ =27 0 H : µ 27 1 z α /2 x i X = = 24.55 n X µ Z = = 2.24 σ / n = ± 2.05375 siccome -2.24<-2.05375 si rifiuta H 0. 338

Problemi 4. Una società farmaceutica dichiara che dai test effettuati il 38% dei pazienti è intollerante ad un certo medicinale. Estratto un campione di 2500 pazienti con la stessa patologia, solo 900 sono risultati intolleranti. Si sottoponga a verifica l ipotesi della società. Svolgimento H : π =0.38 0 H : π 0.38 1 p Z 900 = = 0.36 2500 p π = = 2.06 π (1 π ) n Ponendo α=0.05 allora z α/2 =±1.96. siccome -2.06<-1.96 si rifiuta H 0. 339

Problemi 5. Una macchina produce sacchetti di patatine dal peso medio di 250g. In seguito ad un guasto elettrico si ritiene che il funzionamento della macchina sia stato alterato. Per verificare tale ipotesi vengono scelti a caso 7 sacchetti prodotti dopo il guasto e si misura il loro peso in grammi 220, 250, 210, 230, 240, 250, 210 Si può sostenere che il guasto abbia ridotto il peso medio? Svolgimento H : µ =250 0 H : µ < 250 1 Considerando α=0.05 allora t crit =-1.943. X = 230, S = 16.04, n = 7 X µ T = = 3.3 S / n Essendo T<t crit si rifiuta H 0 e si conclude che il peso medio dei sacchetti è diminuito. 340