Test d Ipotesi / TIPICI PROBLEMI DI VERIFICA DI IPOTESI SONO Test per la media Test per una proporzione Test per la varianza Test per due campioni indipendenti Test di indipendenza Contenuti Capitolo 4 del libro di testo
Test per la media (σ noto) Test per media Popolazione Normale Varianza nota Statistica test e sua distribuzione sotto l ipotesi nulla X µ Z = 0 ~ N( 0 ) σ n, con µ 0 che indica il valore della media ipotizzato in 0 Ipotesi alternativa Regione di rifiuto µ > µ < µ 0 µ 0 µ µ 0 Z z α Z z α Z z α
3 Interpretazione Nella statistica test precedente il numeratore ci dice di quanto la media (campionaria) osservata differisce dalla media ipotizzata µ 0 (quindi quando l ipotesi nulla è vera). Al denominatore troviamo l errore standard della media campionaria Z ci dice per quanti errori standard differisce da µ 0 ossia ci indica se lo scostamento osservato rientra nella variabilità media dello stimatore o se invece è troppo grande da poter essere giustificato dalla variabilità campionaria X
4 Test per la media Test per media Popolazione Normale Varianza ignota Statistica test e sua distribuzione sotto l ipotesi nulla X µ T = 0 ~ t Student( n ) S n con µ 0 che indica il valore della media ipotizzato in 0 e con S che indica la radice quadrata dello stimatore corretto della varianza σ Ipotesi alternativa Regione di rifiuto µ > µ < µ 0 µ 0 µ µ 0 T t α T t α T t α
5 Test per la media Test per media Popolazione non-normale Varianza ignota Statistica test e sua distribuzione sotto l ipotesi nulla, al tendere di n a infinito X µ Z = 0 ~ N ( 0 ) S n, con µ 0 che indica il valore della media ipotizzato in 0 e con S che indica la radice quadrata dello stimatore corretto della varianza σ Ipotesi alternativa Regione di rifiuto µ > µ < µ 0 µ 0 µ µ 0 Z z α Z z α Z z α
6 Test per la media - esempio Test sulla statura media in un collettivo 0 µ = 75 contro µ > 75 Si assume che la statura sia una variabile casuale con varianza ignota. Si estrae un campione di 0 giovani e si trova x = 8,5 S = 95, 5067 85, 5 75 t = =, 03 95, 5067 0 X ~ N ( µ,σ ) α = 0,05 Ponendo si ottiene dalla t-student con 9 gradi di libertà t 0, 05 = 833, e quindi si rifiuterà l ipotesi nulla poiché. t,833 Il p-value corrispondente al valore osservato della statistica test è P(T.03/ 0 è vera)= 0,034. forte evidenza empirica contro l ipotesi nulla la quale potrebbe essere accettata soltanto ad un livello di significatività α minore di 0.034
7 Test per la media dimensione campionaria Può essere d interesse determinare n in maniera tale da garantirsi un test che raggiunga una certa potenza sotto una specificata ipotesi alternativa. Si determina n in funzione di valori obiettivo degli errori α e β (oppure -β). Ipotizziamo comunque una n ampia del campione tale da garantire l applicazione dell approssimazione alla Normale. Sia La procedura segue i seguenti passi. specificare il livello di significatività. specificare il valore di µ e il corrispondente valore di 3. selezionare una stima iniziale di σ 4. calcolare la numerosità campionaria z α il valore per cui z β il valore per cui P ( Z z β ) = β o s s i a P ( Z < z β ) = allora µ µ 0 n = σ P ( z + ) α z β µ µ 0 α ( Z z ) µ > µ < α = µ 0 µ 0 α n = β β ( z + ) α z σ β µ µ 0
8 Per una ipotesi alternativa unidirezionale (vedi figura 4.. pag 347 del libro) I valori critici sono anche uguali rispettivamente nei due casi Consideriamo le distanze E quindi n. c = µ z σ / n e c = µ + z σ / n β 0 µ c = z σ / n e µ c = z σ/ n α β 0 da qui si ricava µ µ = ( z + z ) σ/ n 0 β α α
9 Esempio Sempre nel caso del problema dell altezza siano 0 µ = 75 contro µ > 75 In maniera tale che la potenza del test sia almeno (-β)=0.9 quando µ=78, con α=0.05. Sia una stima iniziale di σ=5.5. In tale caso z α =.645 z β =.8 ( + ) 5.5.645.8 n= = 8.7 78 75 per raggiungere la potenza voluta la dimensione campionaria non deve essere inferiore a 9!
0 Test per una proporzione Test per una proporzione Popolazione Bernoulliana Statistica test e sua distribuzione sotto l ipotesi nulla, al tendere di n a infinito X π Z = 0 ~ N ( 0, ) π0( π0) n con π 0 che indica il valore della proporzione ipotizzato in 0 Ipotesi alternativa Regione di rifiuto π > π < π 0 π 0 π π 0 Z z α Z z α Z z α
Test per una proporzione - esempio Si vuole verificare che nel 00 la percentuale degli occupati in Italia nel settore agricolo è la stessa del 99 pari a 8,4% 0 π = 0, 084 contro π > 0, 084 Si estrae un campione di 000 occupati. Dei mille estratti, 53 sono occupati nel settore agricolo, pertanto Il valore della statistica test è x = 0, 053 Ponendo z = α = 0,0 0, 053 0, 084 (0, 084)(0,96) si ottiene dalla normale standardizzata 000 = 3, 534 e quindi si rifiuterà l ipotesi nulla poiché. z <,36 z 0, 0 =, 36 Il p-value corrispondente al valore osservato della statistica test è 0,000. Tale valore mostra una forte evidenza contro l ipotesi nulla.
Test per la varianza Test per la varianza Popolazione Normale media ignota Statistica test e sua distribuzione sotto l ipotesi nulla ( ) n S ~ Chi-quadra to( n ) σ 0 con σ 0 che indica il valore della varianza ipotizzato in 0e con S che indica lo stimatore corretto della varianza. Ipotesi alternativa Regione di rifiuto σ > σ 0 ( n ) S σ0 χα σ < σ 0 ( n ) S σ0 χ α ( n ) S σ0 χ σ σ α 0 ( n ) S σ0 χ α
3 Test per la varianza - esempio Si ipotizzi che la spesa delle famiglie sia una variabile casuale Normale. Si vuole verificare 0 σ = 500 contro σ 500 Si estrae un campione di 6 famiglie. Dal campione, si osservano Il valore della statistica test è Ponendo libertà α = 0,05 975 χ 0, = 40, 48 x = 00 60 0000 500 S = 0000 = 53, 33 si ottiene dal Chi-quadrato con n-=60 gradi di 0, 05 =, 83 98 quindi il valore osservato non cade nella regione di rifiuto. χ Pertanto non si rifiuterà l ipotesi nulla, ossia i dati osservati non sono difformi all ipotesi che la varianza è pari a 500.
4 4 Il caso di due Popolazioni E il caso di due popolazioni diverse X ed X (Normali o Bernoulliane) ed il processo inferenziale si basa sui dati provenienti da due campioni (indipendenti) diversi di dimensione n ed n estratti dalle due popolazioni. Tre sono i casi.confronto tra le due medie.confronto tra le due proporzioni 3.Confronto tra le due varianze Questo ultimo caso è molto importante per le aziende impegnate a diminuire la variabilità di processi per assicurare elevata qualità per unita prodotta.
5 Test per due campioni indipendenti - medie Test per medie Popolazioni Normali varianze note Statistica test e distribuzione sotto l ipotesi nulla Z = X X ~ N, σ n + σ n ( 0 ) con e σ σ che indicano il valore delle varianze nelle due popolazioni e con n e n le dimensioni dei due campioni. µ = 0 µ Ipotesi alternativa Regione di rifiuto µ > µ µ < µ µ µ Z z α Z z α Z z α
6 E immediato comprendere la precedente statistica test perché si riconduce a quello per una media; infatti 0 µ =µ 0 µ δ =µ µ =0 Nel caso in cui le due varianze siano note, per stimare µ δ si utilizza il seguente stimatore caratterizzato dalla sua distribuzione sotto l ipotesi nulla Facile da verificare! σ σ X X N (0, + ) n n
7 Test per due campioni indipendenti - medie Test per medie Popolazioni Normali varianze ignote e uguali Statistica test e distribuzione sotto l ipotesi nulla 0 µ = µ T X X = ~ t-student n S p ( n + n ) ( n + ) con S p che indica lo stimatore congiunto della varianza, ossia S ( n -)S + ( n -)S p = n + n - Ipotesi alternativa Regione di rifiuto µ > µ µ < µ µ µ T t α T t α T t α
8 Test per due campioni indipendenti - medie Test per medie Popolazioni Normali var. ignote ma no uguali Statistica test e distribuzione sotto l ipotesi nulla 0 µ = µ, al tendere di e a infinito n n Z = S X X ~ N, n + S n ( 0 ) con S e S che indicano gli stimatori corretti delle varianze. Ipotesi alternativa Regione di rifiuto µ > µ µ < µ µ µ Z z α Z z α Z z α
9 9 Test per due campioni indipendenti - esempio Test sull efficacia di un trattamento per il controllo della pressione sanguigna. Due popolazioni la prima formata dagli individui trattati e la seconda formata da individui non trattati µ = µ contro µ < 0 µ Si suppone che la pressione in entrambe le popolazioni sia una variabile casuale Normale con varianza nota pari a 00 Due campioni n=5 individui trattati e n= individui non trattati Il valore della statistica test è Ponendo α = 0,0 x = 35, 87 x = 70, 58 si ottiene il valore della normale standardizzata z 0, 0 =, 36 quindi si deve rifiutare l ipotesi nulla. z = 35, 87 70, 58 ( 00 5) + ( 00 ) = 6, 34
0 0 Test per due campioni indipendenti - varianze Test per varianze Popolazioni Normali Statistica test e distribuzione sotto l ipotesi nulla S S ~ f - Fisher ( n, n ) 0 σ = σ con S e S che indicano gli stimatori corretti delle varianze. Ipotesi alternativa Regione di rifiuto σ > σ S S f α σ < σ S S f α S S f α σ σ S S fα
Anche la precedente statistica è di facile comprensione. Il test di uguaglianza tra varianze di due P indipendenti (ipotesi di omoschedasticità) può essere espresso come σ R > σ 0 = contro σ R = σ R < σ σ R ed è immediato che la statistica test corrispondente da utilizzare sarà S σ S σ S = F n n 0 S ( ; ) (sotto ed ipotesi di normalità)
Test per due campioni indipendenti - proporzioni Test per proporzioni Popolazioni Bernoulliane Statistica test e distribuzione sotto l ipotesi nulla 0 π = π, al tendere di e a infinito n n Z = X X X ~ N, ( X )( n n ) p p + ( 0 ) con X p lo stimatore congiunto della proporzione n X + n X p = n + n X Ipotesi alternativa Regione di rifiuto π > π π < π π π Z z α Z z α Z z α
3 3 Test per due campioni indipendenti - esempio Si vuole comparare il tasso di occupazione π dei laureati in Legge con il tasso di occupazione π dei laureati in Economia Sono estratti due campioni di persone laureate nell anno precedente n = 80 laureati in Legge π = π contro π < 0 π n =0 laureati in Economia risultano rispettivamente 59 occupati nel primo campione e 93 nel secondo. Pertanto x = 0, 738 x = 0, 775 x p = 0,76 z = 0, 76 0, 738 0, 775 ( 0, 76)( 80 + 0) = 0, 6 α = 0,05 Ponendo si ottiene il valore della normale standardizzata z 0, 05 =, 645 e l ipotesi nulla non può essere rifiutata.
4 Test di indipendenza (non parametrico) Il test di indipendenza permette di verificare se tra due variabili sussiste o meno associazione. Il test può essere applicato sia su variabili quantitative (suddivise in classi) sia su variabili qualitative. Date due variabili X e Y rispettivamente con e K modalità, nel caso di indipendenza la probabilità p ij di osservare congiuntamente la modalità i-esima della X e la modalità j-esima della Y è data da. n i. n. j p ij = p i p j ( s i ric o rd i c h e in a m b ito "d e s c rittiv o " e ra n ij = n e d iv id e n d o p e r n f = f f ) ij i j Quindi, l ipotesi nulla d indipendenza è contro l ipotesi alternativa La statistica test utilizzata è χ = i= j= p = ( n n ) che, sotto l ipotesi nulla, si distribuisce come un Chi-quadrato con (-)(K-) gradi di libertà. K 0 ij n Ipotesi alternativa Regione di rifiuto p ij p i p j χ χ α ij p ij ij ij p p i i p p j j
5 Test di indipendenza - esempio In un indagine di marketing (39 interviste) si è chiesto di indicare la preferenza tra 3 alimenti liquidi e 3 alimenti solidi da consumare al mattino a colazione Biscotti Merendina Fette biscottate Totale Caffelatte 45 8 5 58 Succo di frutta Tè 7 5 3 43 5 7 6 38 Totale 57 40 4 39 La statistica test vale χ = 0, 57 (calcolando l indice chiquadrato) α = 0,0 Ponendo il valore critico per la distribuzione Chi-quadrato con (3-)(3-)=4 gradi di libertà è 0, 0 =, 3 7 Si rifiuta quindi l ipotesi nulla di indipendenza tra i due caratteri. χ