Appunti: Teoria Dei Test Fulvio De Santis, Luca Tardella e Isabella Verdinelli Corsi di Laurea A + E + D + G + R 1. Introduzione. Il test d ipotesi è un area dell inferenza statistica in cui si valuta una congettura (ipotesi) riguardo un parametro θ della popolazione, sulla base di dati campionari. La congettura che si vuole valutare si chiama ipotesi nulla e viene indicata con H 0. I dati del campione sono raccolti ed analizzati per determinare l evidenza contro l ipotesi nulla. Se l evidenza solleva dubbi sulla plausibilità dell ipotesi nulla, questa viene rifiutata in favore dell ipotesi alternativa. L ipotesi alternativa è indicata con H 1 (o con H a ) e rappresenta quello che si pensa possa essere vero se l ipotesi nulla è falsa. L Inferenza Statistica considera due metodi principali per affrontare il problema: l approccio basato sulle regioni di accettazione e di rifiuto, trattato nel paragrafo 5, e l approccio basato sul valore-p, esaminato nei paragrafi 2, 3 e 4 qui di seguito. Si vedrà che i due metodi sono equivalenti ed utilizzano le distribuzione campionarie di appropriate Statistiche Test, quando si assume vera l ipotesi nulla (H 0 ) individuata dal problema in esame. 2. Concetti di base per il metodo del valore-p. Il valore-p è largamente usato nelle procedure di test d ipotesi, anche se il suo utilizzo è oggetto di critiche, dovute principalmente alle confusioni che possono sorgere nella sua interpretazione. In modo non rigoroso, la motivazione del metodo può essere giustificata attraverso la seguente affermazione: Se, sotto una data assunzione, la probabilità dell evento osservato, (o di un evento più estremo), è molto piccola, allora è plausibile che l assunzione fatta non sia corretta. L idea di base nell attivare una procedura di test d ipotesi è quella di raccogliere ed analizzare un campione, per poter distinguere tra risultati che si verificano facilmente e risultati che sono molto improbabili Esempio 1. Lancio di una Moneta. Affermazione 1: La moneta è bilanciata (H 0 ) Affermazione 2: La moneta favorisce testa (H 1 ) Si consideri un campione di 100 lanci della moneta in questione e si supponga di osservare il risultato: 96 teste e 4 croci. 1
Se L Affermazione 1 (H 0 ) fosse vera, sarebbe plausibile aver ottenuto questi dati? Se L Affermazione 2 (H 1 ) fosse vera, sarebbe plausibile aver ottenuto questi dati? Dopo aver osservato i dati vogliamo trarre una conclusione riguardo la moneta lanciata. Il parametro della popolazione è π = P(ottenere testa). Le ipotesi che consideriamo sono: H 0 : π = 1/2 H 0 : π > 1/2 Che conclusione si può trarre una volta visti i dati? H 0 oppure H 1? Se la moneta fosse bilanciata sarebbe plausibile ottenere il risultato: 96 teste su 100 lanci? Ovviamente No Conclusione: La moneta non è bilanciata perché i dati non sono compatibili con l ipotesi H 0 : π = 1/2 (moneta bilanciata). Queste considerazioni intuitive devono essere portate avanti attraverso una rigorosa procedura statistica. Innanzitutto è necessario scegliere una statistica test (in questo caso la proporzione di teste nel campione). Poi bisogna valutare la probabilità di osservare lo specifico valore ottenuto della statistica od un valore più estremo, nel caso in cui H 0 sia vera (Ammettendo, cioè, che π sia proprio uguale ad 1/2): P ( Ottenere 96 [o più] teste in 100 lanci ; la moneta è bilanciata ). Indicando con π oss la proporzione di teste osservate nel campione e con Π MLE lo stimatore di massima verosimiglianza per π ( Π MLE = 1 n Xi ), la precedente probabilità si può scrivere come: P ( ΠMLE π oss ; Ammettendo H 0 vera ) = P ( ΠMLE 0.96 ; H 0 vera ) = P ( ΠMLE 0.96 ; π = 1/2 ) ( 1 n ) = P X i 0.96 ; π = 1/2 = n i=1 ( 100 ) 100 ( )( ) nx ( ) 100 nx 100 1 1 P X i 96 ; π = 1/2 = = 3.225 10 26. nx 2 2 i=1 nx=96 E il valore trovato 3.225 10 26 è la corretta valutazione probabilistica che giustifica la conclusione tratta precedentemente in modo intuitivo. Condurre un test di ipotesi in statistica significa valutare probabilisticamente se, partendo dal campione osservato, sia sensato accettare o rifiutare una congettura riguardante un parametro della popolazione. Esempio 2. Cereali. Il peso dichiarato su una scatola di cereali è di 420 grammi. Questo valore è un peso di riferimento che il produttore certifica come peso dei cereali contenuti in ogni scatola messa in commercio. Dunque 420 è il peso medio (netto) di tutte la scatole di cereali di questa marca. È noto che il processo di produzione ha una certa variabilità, e si assume che 2
il peso dei cereali in ogni scatola, estratta in un campione casuale di scatole, sia una variabile aleatoria normale di media θ e di varianza considerata, per semplicità, nota, σ 2 = 25. Si assume quindi che la deviazione standard nella determinazione del peso alla produzione sia σ = 5 grammi. Con una procedura casuale, si sceglie un campione di n = 9 scatole di cereali x oss = (x 1, x 2,, x 9 ). In base al particolare campione osservato, vogliamo valutare se la dichiarazione del produttore θ = 420 sia vera o falsa. Vogliamo quindi verificare se sia vera l ipotesi nulla: H 0 : θ = 420 oppure se l ipotesi nulla è falsa ed il peso medio alla produzione è più basso del dichiarato, ed è vera l ipotesi alternativa: H 1 : θ < 420. La notazione statistica è: H 0 : θ = θ 0 contro H 1 : θ < θ 0 dove θ 0 = 420. Per condurre il test d ipotesi e scegliere tra H 0 ed H 1 è necessario: basare l analisi sul campione osservato; utilizzare la distribuzione campionaria dello stimatore θ di θ, quando si assume H 0 vera; valutare la probabilità che lo stimatore θ assuma un valore uguale o più estremo della stima di θ ottenuta con x oss. In questo esempio lo stimatore di θ è θmle = X. Consideriamo due diversi valori possibili di x, ottenuti da due diversi campioni osservati. (a) Supponiamo che si sia osservato x = 416 grammi: Se il peso alla produzione fosse effettivamente 420, si deve valutare se sia facile (molto probabile) o difficile (poco probabile) che il peso medio di 9 scatole sia uguale a 416, e che quindi la distanza tra x e θ 0 (da standardizzare con lo scarto quadratico medio) sia pari a 420 416 = 4σ X grammi. La procedura statistica richiede di calcolare la probabilità dell evento: P ( X 416 ; Ammettendo H 0 vera ) ( X θ0 = P ( X θ0 P σ/ n < 416 θ ) ( 0 σ/ n ; θ 0 = 420 = P Z < P ( Z < 12/5 ) = pnorm( 12/5) = 0.0082. σ X < 416 θ 0 σ X ; θ 0 = 420 416 420 5/3 ) = ) = (1) dove Z N(0, 1): Questa probabilità è piuttosto bassa e suggerisce di rifiutare H 0. 3
(b) Supponiamo, invece, che si sia osservato x = 419 grammi: Se il peso alla produzione fosse effettivamente 420 si deve valutare se sia facile (molto probabile) o difficile (poco probabile) che il peso medio di 9 scatole sia uguale a 419. Calcoliamo la probabilità di osservare questo valore x = 419 o un valore più piccolo (più estremo): P ( X 419 ; Ammettendo H 0 vera ) ( X θ0 = P ( X θ0 P σ/ n < 419 θ ) ( 0 σ/ n ; θ 0 = 420 = P Z < P ( Z < 3/5 ) = pnorm( 3/5) = 0.2742. σ X < 419 θ 0 σ X ; θ 0 = 420 419 420 5/3 ) = ) = (2) Questa probabilità non è elevata, ma è decisamente maggiore della probabilità calcolata supponendo x = 416. Potrebbe essere opportuno non rifiutare H 0. L affermazione a pagina 1 suggerisce di rifiutare H 0 nel caso del campione osservato con media x = 416 e di conservare H 0 nel caso del campione osservato con media x = 419. Chiaramente è necessario disporre di un valore di riferimento che permetta di valutare le probabilità calcolate come alte o basse. 3. Livello di significatività e valore-p. Il valore di riferimento per giudicare la dimensione delle probabilità che si valutano in una procedura di test d ipotesi è una probabilità α, detta livello di significatività che si utilizza come quantità di confronto. Il livello di significatività viene scelto pari ad un valore abbastanza piccolo. Valori tipici sono α = 0.05 oppure α = 0.01. I valori delle probabilità calcolate in (1) e in (2), devono quindi essere dichiarati grandi o piccoli rispetto ad α. La procedura di calcolo per valutare (1) o (2) è la stessa, cambia solamente il campione osservato nei due casi, e quindi cambia il valore della statistica x, media del campione. La probabilità calcolata nelle due formule è la probabilità che la variabile aleatoria X, media campionaria, assuma un valore uguale o più piccolo del valore osservato di x, ammettendo che l ipotesi nulla sia vera. In questo esempio, quando la media del campione è x = 416, la probabiilità dell evento E = X < x H 0 è vera} vale 0.0082. Se invece il la media del campione è x = 419, lo stesso evento E = X < x H 0 è vera} ha probabilità 0.2742. Supponiamo di aver fissato α = 0.05: se nel campione osservato la media x è = 416, la probabilità calcolata è < α; se invece nel campione osservato x = 419, la probabilità calcolata è > α. In questa procedura per condurre un test ipotesi, si devono calcolare i valori delle probabilità di eventi analoghi all evento E. Le probabilità in questione sono chiamate valori-p. Il valore-p è una probabilità che misura l evidenza dei dati contro l ipotesi nulla H 0. Valori-p piccoli (minori di α) indicano che l evidenza proveniente dai dati è contraria ad H 0. Si dice che c è evidenza statisticamente significativa contraria ad H 0. In questo caso l ipotesi nulla H 0 viene rifiutata. 4
Valori-p grandi (maggiori di α) indicano che l evidenza dei dati non è contraria ad H 0. Si dice che c è evidenza statisticamente significativa a favore di H 0. L ipotesi nulla viene quindi conservata o non rifiutata. Il livello di significatività α è una probabilità di riferimento che permette di decidere se il valore-p è grande o piccolo. La figura 1, qui di seguito, illustra l Esempio 2, nel caso x = 416 dove la valutazione della probabilità in (1) porta a rifiutare H 0. densita' della media campionaria 0.00 0.10 0.20 densita' della normale stanzardizz. 0.0 0.1 0.2 0.3 0.4 x.oss x* theta0=420 z.oss. z* 0 Peso delle scatole di cereali Peso standardizzato scatole cereali Fig. 1 Sinistra: Distribuzione campionaria di X ammettendo H 0 vera}. Si è osservato il valore x = 416, indicato nel grafico come x.oss. Destra: Distribuzione normale standardizzata. Il valore z.oss è x.oss θ ottenuto standardizzando x.oss: 0 σ/ = 416 420 = 2.4. n 5/3 A sinistra nella Fig 1 è riportato il grafico della distribuzione campionaria di X, sotto l ipotesi nulla, cioè assumendo che θ 0 sia vera e quindi che (X ; θ = θ 0 ) N(θ 0, 25/n), o, più esplicitamente (X ; θ = 420) N(420, 25/n). Nel calcolo in (1), infatti, si è utilizzata la distribuzione campionaria dello stimatore θ = X condizionata al fatto che H 0 è vera}, X N(θ 0, 25/n), perchè il processo di produzione che pesa ed inscatola i cereali segue una distribuzione normale con X N(θ, 25). I tre triangoli rossi in Fig 1 (sinistra) indicano, rispettivamente, il valore osservato della media, x = 416 (x.oss), il valore (indicato con x ) del quantile della distribuzione campionaria di X che lascia alla sua sinistra una probabilità pari ad α = 0.05: x = 417.26 ed il valore della media della distribuzione campionaria di X, condizionata all ipotesi H 0 è vera}. L area in verde al disotto della densità normale è proprio il valore-p, cioè la probabilità: P ( X 416 ; θ = 420 ), che viene calcolata formalmente nella (1) standardizzando la distribuzione normale di X. In questo modo, se necessario, si possono utilizzare le tavole della normale standardizzata Z. In pratica è spesso più immediato usufruire del comando R: dnorm(x.oss,theta0, sigma/sqrt(n)) = dnorm(416, 420, 5/3) = 0.0082. 5
Il grafico a destra in Fig 1 è la distribuzione della variabile normale standardizzata Z. Il valore z.oss. = x θ 0 σ/ n = 2.4 è il valore standardizzato (sotto l ipotesi H 0) corrispondente ad x.oss. Il valore-p, per la normale standardizzata è l area in verde nel grafico a destra, che è chiaramente identica all area in verde nel grafico a sinistra. Il valore α = 0.05 nei due grafici di Fig 1 è dato dall unione delle due aree in verde ed in rosso. Il valore-p (in verde) è, evidentemente, più piccolo di α. La figura 2, qui sotto, illustra l Esempio 2, nel caso x = 419 dove la valutazione della probabilità in (2) porta a non rifiutare (o conservare) H 0. densita' della media campionaria 0.00 0.10 0.20 densita' della normale stanzardizz. 0.0 0.1 0.2 0.3 0.4 x* 419 420 Peso delle scatole di cereali z* z.oss 0 Peso standardizzato scatole cereali Fig. 2 Sinistra: Distribuzione campionaria di X condizionata all evento H 0 è vera}. Si è osservato il valore x = 419. Destra: Distribuzione normale standardizzata. Il valore z.oss= 419 420 = 0.3. 5/3 Il calcolo della probabilità (2) per l Esempio 2 è simile al precedente. In figura 2, analogamente a figura 1, sono riportati i grafici della distribuzione campionaria di X, sotto l ipotesi nulla, e della distribuzione della variabile aleatoria normale standardizzata. In questo caso la media del campione x è 419 grammi ed il valore-p, calcolato in (2), è: P ( X 419 ; θ = 420 ) = 0.2742. Nei due grafici, il valore-p è l area a sinistra di x = 419 o di z.oss = 419 420 = 3/5 ed è 5/3 rappresentato dall unione dell area verde e di quella rossa. L area rossa, a sinistra di x = qnorm(0.05,θ 0, σ/ n) = 417.26 e di z = qnorm(0.05) = -1.64 è α = 0.05. In questo caso il valore-p è maggiore di α. 6
Alcuni Commenti sull uso del valore-p Nel confronto del valore-p con il livello di significatività α si possono ottenere due risultati: (a) l ipotesi nulla è rifiutata al livello scelto di α (b) l ipotesi nulla non può essere rifiutata al livello scelto di α (e viene quindi conservata). Non si può semplicemente accettare H 0 se il valore-p > α. Per l accettazione di H 0 è necessario accumulare ulteriore evidenza e considerare altri test come, per esempio, test sulla bontà di adattamento Il valore-p non misura la probabilità che H 0 sia vera. Ma misura la probabilità che la variabile aleatoria X assuma un valore uguale o più estremo di quello osservato. (e quindi misura la probabilità che l ipotesi nulla possa spiegare il risultato ottenuto con x oss ). Esercizi 1. Con riferimento all Esempio 2. Si ritiene possibile che la bilancia utilizzata nella produzione dei cereali sia stata mal tarata, dopo l ultima pulizia dei macchinari. Si estrae un campione casuale di 9 scatole di cereali. Il peso medio nel campione è: x = 423 grammi. Si vuole testare il seguente sistema di ipotesi: H 0 : θ = θ 0 = 420 contro H 1 : θ > θ 0 = 420. Calcolare il valore-p, cioè la probabilità che, se l ipotesi nulla è vera, la variabile aleatoria X assuma valore uguale o più grande di x. Effettuare il test d ipotesi fissando α = 0.05. 2. Sia noto che in Germania la proporzione media di giovani tra i 12 ed i 18 anni che utilizza regolarmente un computer si distribuisce normalmente con media θ = 3/4 = 0.75 e varianza σ 2 = 0.04. In un campione casuale di n = 144 ragazzi e ragazze italiani tra i 12 ed i 18 anni si è rilevato che la media campionaria è pari a x = 0.73. Condurre un test d ipotesi a livello α = 0.05 per verificare l affermazione che in Italia la proporzione di giovani tra i 12 e i 18 anni che usano il computer con regolarità è minore di quella tedesca. 4. Procedura di base per condurre un test d ipotesi Facendo riferimento all Esercizio 1 stabiliamo ora, con maggior precisione, quali sono i punti essenziali per condurre un Test d ipotesi o Test di Significatività. 7
1. Fissare le ipotesi: Ipotesi Nulla Ipotesi Alternativa H 0 : θ = 420 (θ 0 ) (Parametro d interesse = valore) H 1 : θ > 420 (Parametro d interesse > di valore) 2. Raccogliere i dati e calcolare il valore osservato della statistica test: Nell Esercizio 1, x = 423, n = 9. Si usa la media campionaria come statistica test (è una statistica sufficiente per θ) e la sua distribuzione campionaria. Per misurare la distanza tra i dati e l ipotesi nulla si standardizza X usando la sua deviazione standard. La variabile aleatoria che si ottiene è la quantità pivotale Q(X, θ 0 ) calcolata in θ = θ 0, la cui distribuzione non dipende dal parametro. Il valore osservato della quantità pivotale z.oss = q(x, θ 0 ) = è: z.oss = x θ 0 σ/ n = 423 420 5/ 9 = 1.8 3. Calcolare il valore-p : Il valore-p si calcola utilizzando la distribuzione campionaria della quantità pivotale Q(X, θ 0 ) valutata in θ 0. Si calcola cioè la probabilità di ottenere lo specifico valore osservato per la statistica test (z.oss = 1.8) oppure un valore più estremo, ammettendo che H 0 sia vera}. Se è vera H 0 : θ = θ 0, la distribuzione campionaria della media X è: ( ) σ X N θ 0, e la distribuzione di Z = Q(X, θ 0 ) = (X θ 0) n σ/ n N(0, 1). In questo caso l ipotesi alternativa è H 1 : θ > θ 0. Si calcola quindi la probabilità che la v.a. media campionaria sia uguale o maggiore del valore osservato nel campione, x = 423. valore-p = P ( X x ; Ammettendo H 0 vera ) = P ( X θ0 σ/ n x θ ) 0 σ/ = n ( ) X θ0 P σ/ n z.oss = P (Z 1.8) = 1 pnorm(1.8) = 1 0.964 = 0.036 Il valore-p risulta minore del livello di significatività scelto, α = 0.05. 4. Trarre Conclusioni. Relativamente al livello α scelto, i dati forniscono evidenza contro H 0, a favore dell ipotesi alternativa H 1. C è evidenza statisticamente significativa contraria ad H 0 a livello α = 0.05. Si conclude che La bilancia utilizzata nella produzione dei cereali è mal tarata con un livello di significatività pari a 0.05. 8
5. Regione di accettazione e regione di rifiuto. Un altro metodo per condurre un test ipotesi è quello di definire due regioni nello spazio dei campioni o, più semplicemente, nello spazio in cui varia la statistica test. Partendo dal livello di significatività fissato, si individuano una Regione di Rifiuto (RR) ed una Regione di Accettazione (RA). L ipotesi H 0 verrà rifiutata o conservata a livello di significatività α, controllando se il valore osservato della statistica test ottenuto con x oss appartiene alla regione di rifiuto, oppure a quella di accettazione. In figura 3 sono evidenziate la regione di accettazione (in blu) e di rifiuto (in rosso) per l Esempio 2 e per l Esercizio 1. densita' della media campionaria 0.00 0.10 0.20 416 x* Esempio 2 densita' della media campionaria 0.00 0.10 0.20 Esercizio 1 x* 423 Peso delle scatole di cereali Peso delle scatole di cereali Fig. 3 Sinistra: Regione di accettazione (in blu) e regione di rifiuto (in rosso) per il test d ipotesi: H 0 : θ = θ 0 = 420 H 1 : θ < θ 0 = 420 e nel campione si è osservato x = 416. Destra: Regione di accettazione (in blu) e regione di rifiuto (in rosso) per il test d ipotesi: H 0 : θ = θ 0 = 420 H 1 : θ > θ 0 = 420 e nel campione si è osservato nel campione x = 423. Nei due grafici il valore osservato di x cade nella regione di rifiuto. Le due regioni sono legate strettamente al valore scelto per α: La Regione di Rifiuto è l intervallo dei valori della statistica test che determinano il livello di significatività α. La Regione di Accettazione è l intervallo complementare alla regione di rifiuto. Dai grafici di figura 3 si vede che valori di x maggiori di x nel grafico a sinistra o minori di x nel grafico a destra appartengono alla regione di accettazione; valori di x minori di x nel grafico a sinistra o maggiori di x nel grafico a destra appartengono alla regione di rifiuto. Dal momento che il valore di x.bar = x (416 nell esempio 2 e 423 nell esercizio 1) è il valore del quantile che identifica il valore-p, questa procedura è equivalente a quella illustrata nei paragrafi precedenti. Alternativamente, le regioni di accettazione e di rifiuto possono essere identificate anche utilizzando la variabile aleatoria normale standardizzata Z, ovvero la quantità pivotale calcolata in θ 0 ed il valore osservato della quantità pivotale q(x oss, θ 0 ) = z.oss = x θ 0 σ/ n. 9
Esempio 3. Spesa Alimentare. Consideriamo, come in precedenza, un modello normale con varianza nota. Per un campione casuale di n = 100 famiglie con non più di quattro componenti, si consideri la variabile aleatoria X = spesa media alimentare per settimana. Il campione viene esaminato per verificare se la spesa media per alimenti sia diversa da θ 0 = 600 Euro, ad un livello di significatività α = 0.05 e si assume che il valore dello scarto quadratico medio sia σ 0 = 30 Euro. Supponiamo che la media del campione x oss sia x = 605.50. Il sistema di ipotesi da porre a confronto è bilaterale, e cioè: Ipotesi nulla H 0 : θ = θ 0 = 600 Ipotesi alternativa: H 1 : θ θ 0 = 600. (3) La distribuzione campionaria della statistica test θ MLE = X è N(θ, σ 2 0/n). Dato che il sistema di ipotesi in (3) è bilaterale, appare ragionevole scegliere come regione di rifiuto un insieme di valori di X che siano lontani da θ 0. Quindi la regione di rifiuto sarà del tipo: RR = X X n : X θ 0 > c } Il valore di c > 0 viene determinato richiedendo che α = P RR } = P X θ 0 > c } X θ 0 = P σ 0 / n > P (Z < k) (Z > k) } = k ϕ(z)dz + k } c σ 0 / = P Z > k } = n ϕ(z)dz k = z 1 α/2 dove ϕ( ) è la funzione di densità della normale standardizzata. Da (4) si ottengono la regione di rifiuto e quella di accettazione, e si ricava che c = z 1 α/2 σ 0 / n. } RR = X X n : X θ 0 σ 0 / n > z 1 α/2 ( X < z 1 α/2 σ 0 / ) ( n + θ 0 X > z1 α/2 σ 0 / )} n + θ 0 } RA = X X n : X θ 0 σ 0 / n z 1 α/2 z 1 α/2 σ 0 / n + θ 0 X z 1 α/2 σ 0 / } n + θ 0. Nell esempio RR = ( X < 1.96 (3) + 600 ) ( X > 1.96 (3) + 600 )} = ( X < 594.12 ) ( X > 605.90 ) } e dato che x = 605.50 l ipotesi nulla viene conservata. Nei due grafici della figura 4 sono rappresentate la regione di rifiuto e quella di accettazione, nel caso dell ipotesi bilaterale (3) e nel caso in cui, invece per lo stesso livello α = 0.05 fosse stato deciso di portare aventi un test unilaterale del tipo: H 0 : θ = θ 0 = 600 contro H 1 : θ > θ 0 = 600, (5) con la media del campione osservato x oss ancora uguale a 605.50. Come visto in precedenza, la regione di rifiuto per l ipotesi unilaterale (5) diventa: RR = X > z 1 α σ 0 / n + θ 0 } = X > 1.64 (3) + 600 } = X > 604.93 } E H 0 sarebbe rifiiutata a livello 0.05 in favore di H 1 : La spesa alimentare settimanale per famiglia è maggiore di 600 Euro. (4) 10
In figura 4 sono rappresentate le regioni di accettazione e di rifiuto dell esempio 3 per i due sistemi di ipotesi bilaterali e unilaterali fissate nelle equazioni (3) e (5). Il valore x.o corrisponde al valore osservato della media del campione x = 605.50. L ipotesi H 0 è conservata nel caso (3) e rifiutata nel caso (5). densita' della media campionaria 0.00 0.06 0.12 Esempio 3 594.12 x.o 605.9 Media campionaria: Spesa media settimanale per famiglia densita' della media campionaria 0.00 0.06 0.12 604.9 x.o Media campionaria: Spesa media settimanale per famiglia Fig. 4 In Alto: Regioni di accettazione di rifiuto (rosso) per il test d ipotesi bilaterale in (3). In Basso: Regioni di accettazione e di rifiuto per il test di ipotesi unilaterale in (5) Per il sistema di ipotesi in (3) l area α = 0.05 che determina la regione di accettazione è divisa a metà (α/2) tra le due code della distribuzione di X. Invece per il sistema di ipotesi in (5) l area α = 0.05 interessa solo la coda destra. La somiglianza tra un test d ipotesi bilaterale e la costruzione di un intervallo di confidenza è evidente dalla figura 4 in alto. L intervallo che rappresenta l area di accettazione corrisponde di fatto ad un intervallo di confidenza per θ a livello 1 α = 0.95. Ricordiamo che il valore-p è la probabilità che la variabile aleatoria (in questo caso la quantità pivotale Z ) assuma valore uguale o più estremo di quello osservato, ammettendo H 0 vera} (pag. 4). Allora il valore-p nel caso di ipotesi bilaterale, si calcola con la distribuzione della quantità pivotale e si valuta la probabilità che Z sia maggiore o uguale al valore pivotale osservato z.o = x θ 0 σ 0 / n = (605.50 600)/3 = 1.83 X θ 0 valore-p = P σ 0 / n x θ 0 σ 0 / n }= P } z.o Z z.o = ϕ(z)d(z) + = pnorm( z.o) + 1 pnorm(z.o) = 2 ( 1 pnorm(1.83) ) = 0.067 > α. z.o ϕ(z)d(z) 11
7. Errori di I e di II specie. Ogni volta che si prende una decisione in una procedura statistica di test d ipotesi si possono commettere due tipi di errore, che vengono indicati come errori di I e di II specie. Errore di Prima Specie: consiste nel rifiutare l ipotesi nulla quando, in realtà, è vera. (x oss RR, ma H o è vera). Errore di Seconda Specie: consiste nell accettare l ipotesi nulla che in realtà è falsa. (x oss RA, ma H 1 è vera). Questo è lo schema degli errori che si possono commettere in una procedura statistica di test d ipotesi: Ipotesi Vera H 0 H 1 Ipotesi H 0 Err. I specie Scelta H 1 Err. II specie Questi errori sono sempre possibili. L ideale sarebbe poter minimizzare le rispettive probabilità di commetterli. La procedura vista, però, permette solo di determinare RA e RR utilizzando il livello α scelto. Dato che per definizione α = PRR ; H 0 vera}, allora la probabilità dell errore di I specie è data proprio da α. La probabilità dell errore di II specie viene indicata con β. Si definiscono le seguenti probabilità: α = P x oss RR ; H 0 vera } = P Errore I specie } = Livello del test β = P x oss RA ; H 1 vera } = P Errore II specie } γ = 1 β = P x oss RR ; H 1 vera } = 1 P Errore II specie } = Potenza del test Il test migliore che si può condurre è quello che ha un livello basso ed una poternza alta, così da avere basse le probabilità di commettere un errore di prima o di seconda specie. Generalizzando quanto visto fino qui, i sistemi di ipotesi da porre a verifica statistica possono essere specificati introducendo una partizione dello spazio dei parametri Θ. Si considerano, cioè, due sottoinsiemi dello spazio dei parametri Θ 0 e Θ 1 tali che: θ 0 Θ 1 = Θ e che θ 0 Θ 1 =. Un sistema di ipotesi in generale si scrive come: Ipotesi Nulla. H 0 : θ Θ 0 Contro Ipotesi Alternativa. H 1 : θ Θ 1 Si parla di ipotesi semplici o puntuali se Θ 0 = θ 0 e Θ 1 = θ 1 ed il test riguarda due singoli valori possibili per il parametro: H 0 : θ = θ 0 H 1 : θ = θ 1. 12
Si parla di ipotesi composte quando Θ 0 e Θ 1 sono insiemi di più punti. composte si hanno: H 0 : θ > θ 0 H 0 : θ < θ 0 Ipotesi composte unilaterali: e H 1 : θ θ 0 Ipotesi unilaterali: semplice contro composta: Ipotesi bilaterali: semplice contro composta: H 1 : θ θ 0 H 0 : θ = θ 0 H 1 : θ θ 0 H 0 : θ = θ 0 H 1 : θ θ 0. e Tra le ipotesi H 0 : θ = θ 0 H 1 : θ θ 0 densita' 0.00 0.06 0.12 theta0 x* theta1 Media campionaria Fig. 5 Test di ipotesi semplici. L area in verde è β quella in rosso è α. La potenza del test è rappresentata dall area sottostante la curva verde a destra di x. Nel caso di un test di ipotesi semplici, sia β che la potenza del test dipendono solamente dal valore fissato per α, in tutti gli altri casi sono funzioni dei valori di θ Θ 1. In generale, allora, è necessario determinare procedure di test d ipotesi che permettano di ottenere valori bassi sia della probabilità α dell errore di I specie, che della probabilità β dell errore di II specie. Il grafico in figura 5 mostra α (area in rosso) e β (area in verde) per un caso di un sistema di test di ipotesi semplici per scegliere tra H 0 : θ = θ 0 contro H 1 : θ = θ 1 dove θ è la media di una variabile aleatoria normale con varianza nota. Il test statistico deve scegliere tra l ipotesi nulla che il campione osservato x oss provenga da X N(θ 0, σ 2 0) o l ipotesi alternativa che provenga da X N(θ 1, σ 2 1) con θ 0 < θ 1 ed entrambe le varianze note. Chiaramente se α fosse stato scelto più piccolo del valore 0.05, fissato in figura 5 il valore x sarebbe spostato verso destra aumentando il valore di β e diminuendo la potenza del test. 13
I grafici in figura 6 mostrano la probabilità dell errore di seconda specie e la potenza del test in funzione del valore di θ Θ 1, considerando, come nel caso precedente, un sistema di ipotesi unilaterali semplice contro composta: Θ 0 = θ 0 e Θ 1 = θ > θ 0 }, dove θ è la media di una distribuzione normale con varianza nota: H 0 : θ = θ 0 contro H 1 : θ > θ 0 densita' 0.00 0.06 0.12 θ 0 θ v.a. Media Campionaria Beta densita' 0.00 0.06 0.12 θ 0 θ v.a. Media Campionaria Potenza Fig. 6. Test di ipotesi unilaterali, semplice contro composta. Funzioni di densità di X. La funzione rossa rappresenta il caso H 0 vera, θ = θ 0. Le altre cinque funzioni colorate rappresentano cinque possibilità per H 1 vera e θ Θ 1 } θ > θ 0 }. Il grafico in alto mostra, in rosso, l area corrispondente ad α e in viola, verde e giallo le aree corrispondenti a β(θ), dove θ è la media delle tre rispettive distribuzioni. Analogamente, il grafico in basso mostra α e le aree corrispondenti alla potenza del test 1 β(θ), dove θ è la media delle due distribuzioni in viola e in giallo. Dalla figura si deduce chiaramente che per α fissato sia la probabilità dell errore di seconda specie, che la potenza del test sono funzioni del valore assunto da θ Θ 1. 14
8. Funzione di Potenza di un Test. Si consideri un test con regione di rifiuto RR per un sistema di ipotesi composte, che utilizza una partizione dello spazio dei parametri, per cui: Θ = Θ 0 Θ 1 e Θ 0 Θ 1 = Definizione 4. Funzione di Potenza. si definisce funzione di potenza del test la probabilità, dipendente da θ Θ: γ(θ) = 1 β(θ) = PX RR ; θ Θ}; (6) si definisce dimensione del test la probabilità α = sup θ Θ 0 1 β(θ)} = sup θ Θ 0 γ(θ); si dice che un test ha livello α se la sua dimensione α è minore od uguale ad α. Quindi un test di dimensione α = 0.01 può essere condotto a livello α = 0.05, ma non a livello α = 0.005 Il grafico in basso nella figura 6 mostra che la dimensione di quel test è α = 1 β(θ 0 ), e dato che in quel caso l ipotesi nulla è semplice (Θ 0 = θ 0 ) si ha che il livello del test è anche uguale alla sua dimensione (α = α). Se invece anche H 0 fosse un ipotesi composta, e Θ 0 fosse, per esempio, un insieme di valori minori o uguali di a θ 0, allora l ipotesi nulla sarebbe rappresentata con più di una curva rossa e l area in rosso sarebbe più grande o più piccole a seconda di quale valore di θ 0 Θ 0 si considera. La minima area in rosso rappresenterebbe la dimensione del test ed i test che si possono condurre dovranno avere livello α α La funzione di potenza di un test può essere valutata analiticamente per sistemi di ipotesi composte unilaterali o bilaterali. La forma analitica della funzione di potenza dipende dalla funzione di ripartizione della statistica test o della corrispondente quantità pivotale. Per illustrazione, consideriamo ancora il caso di un test d ipotesi composte per la media di un modello normale con varianza nota, σ 2. Per questo modello si consideri il seguente sistema di ipotesi: H 0 : Θ 0 θ 0 contro H 1 : Θ 1 > θ 0 (7) Come visto in precedenza, X è la statistica test e la regione di rifiuto di livello α è data da: RR = X X n : X θ } 0 σ/ n > z 1 α. Dalla (6) la funzione di potenza del test è quindi: γ(θ) = 1 β(θ) = P X RR ; θ Θ } = PX > σ/ n z 1 α + θ 0 ; θ Θ } = P X > σ/ } X θ n z 1 α + θ 0 = P σ/ n > z 1 α + θ 0 θ σ/ n ( θ0 θ = 1 Φ σ/ n + z 1 α } = P Zz 1 α + θ } 0 θ σ/ = n ) = 1 pnorm((theta-theta0)/(sigma/sqrt(n) + z 1 α ), 15
dove Φ( ) è la funzione di ripartizione di una variabile aleatoria normale standardizzata. Si vede immediatamente che la funzione di potenza dipende da θ Θ e dalla distribuzione (funzione di ripartizione) della quantità pivotale (in questo caso Φ( )). Il grafico in alto nella figura 7 mostra la funzione di potenza γ(θ) del test per il sistema di ipotesi composte unilaterali in (7). La funzione di potenza è rappresentata dalla curva verde; il valore della dimensione del test α si ottiene per θ = θ 0, il valore che separa i due insiemi Θ 0 e Θ 1 ed è infatti α = sup θ Θ0 γ(θ). Il test si conduce, in questo caso, a livello α = α. La regione in blu indica l insieme Θ 1 e quella in rosso l insieme Θ 0. Per θ = θ si raggiunge una potenza pari a 0.8. Potenza α ~ 0.8 Θ 0 θ 0 θ Θ 1 Potenza α ~ = α 0.8 θ 0 θ Θ 1 θ 0 Θ 1 θ 0 + θ Fig. 7 In alto: funzione di potenza di un test di ipotesi composte unilaterali per un modello normale con media θ e varianza nota σ 2. In basso: funzione di potenza di un test di ipotesi bilaterali per un modello normale con media θ e varianza nota σ 2. Per lo stesso modello normale, il grafico in basso mostra la funzione di potenza per il sistema di ipotesi bilaterali H 0 : θ = θ 0 contro H 1 : Θ θ 0. Un calcolo analogo a quello fatto alla fine di pagina 15 mostra che in questo caso la funzione di potenza del test è data da: γ(θ) = 1 β(θ) = P X RR ; θ Θ } ( ) ( ) θ0 θ = 1 Φ σ/ n + z θ0 θ 1 α/2 +Φ σ/ n z 1 α/2. 16
Nel grafico l insieme Θ 1 è in blu. Il valore θ 0 è il punto rosso, α = α si ottiene per θ = θ 0 e, data la simmetria della funzione di potenza, il valore 0.8 è raggiunto in due punti dell insieme Θ 1. 9. Lemma di Neyman e Pearson. È importante disporre di procedure di test ipotesi che, una volta scelto il valore di α, permettano di condurre un test con una potenza elevata (o con un valore di β piccolo). Si definisce ottimo un test che, per α fissato ha potenza maggiore o uguale a qualsiasi altro test che ha la stessa probabilità α di un errore di I specie. Teorema 5. (Lemma di Neyman e Pearson) Dato un modello statistico X n, f n (x ; θ), θ Θ } ed un sistema di ipotesi semplici: H 0 : θ = θ 0 contro H 1 : θ = θ 1 la regione di accettazione di un test ottimo è costituita dai campioni in corrispondenza dei quali il rapporto tra la verosimiglianza del parametro θ sotto l ipotesi nulla e quella del parametro θ sotto l ipotesi alternativa risulta elevato. RA = x X n : L } x(θ 0 ) L x (θ 1 ) k. (8) Si può notare che il test ottimo di Neyman Pearson risulta funzione di una statistica sufficiente, infatti, se esiste una statistica sufficiente T (X) per il modello, allora le due verosimiglianze nella (8) possono essere scritte: L x (θ 0 ) L x (θ 1 ) = h(x)g(t (x, θ 0) h(x)g(t (x, θ 1 ) = g(t (x, θ 0) g(t (x, θ 1 ) = λ(t (x)) e quindi, si può identificare la regione di accettazione attraverso una statistica sufficiente: RA = x X n : λ(t (x)) k}. A seconda del modello uniparametrico considerato, sarà necessario risolvere la disuguaglianza che definisce RA in modo che le regioni di accettazione e di rifiuto possano essere costruite considerando un valore soglia k per i valori assunti dalla statistica sufficiente. Fissando la probabilità dell errore di prima specie α, attraverso la distribuzione campionaria della statistica sufficiente T (X) è possibile determinare il valore soglia k che separa le regioni di accettazione e di rifiuto. Analogamente, fissando una soglia k che separa RA ed RR, attraverso la distribuzione campionaria di T (X) è possibile determinare i valori corrispondenti di α, di β e della potenza del test. Esempio 6. Test per un campione Bernoulliano Per un campione casuale di dimensione n proveniente da una popolazione bernoulliana di parametro incognito θ, con distribuzione di probabilità: f X (x; θ) = θ x (1 θ) 1 x, x = 0, 1. θ (0, 1), 17
si consideri il sistema di ipotesi: H 0 : θ = θ 0 contro H 1 : θ = θ 1, dove θ 0 < θ 1. Il test ottimo secondo la procedura di Neyman e Pearson si costruisce identificando la regione di accettazione definita in (8). In un modello Bernoulliano il rapporto delle verosimiglianze è: P n i=1 x i L x (θ 0 ) L x (θ 1 ) = θ 0 (1 θ 0 ) n P n i=1 x i P n = i=1 θ x i 1 (1 θ 1 ) n P n i=1 x i Quindi, da (8) si ottiene: ( θ0 θ 1 ) nx ( ) n(1 x) 1 θ0 = 1 θ 1 ( θ0 (1 θ 1 ) θ 1 (1 θ 0 ) ) nx ( ) n 1 θ0. 1 θ 1 L x (θ 0 ) L x (θ 1 ) k [ )] nx [ ] n θ0 (1 θ 1 ) 1 θ0 k θ 1 (1 θ 0 ) 1 θ [ 1 nx log θ ] 0 (1 θ 1 ) log k + n log 1 θ 1 θ 1 (1 θ 0 ) 1 θ 0 nx log k + n log 1 θ 1 1 θ 0 log θ 0 (1 θ 1 ) θ 1 (1 θ 0 ). dove si è invertito il verso della disequazione perché se θ 0 < θ 1 allora θ 0 (1 θ 1 ) θ 1 (1 θ 0 ) < 0. Allora la regione di accettazione per il test ottimo è definita da: RA = x X n : n x i k } dove k = i=1 log k + n log 1 θ 1 1 θ 0 log θ 0 (1 θ 1 ) θ 1 (1 θ 0 ) rapresenta la soglia per la statistica sufficiente n i=1 x i. Valori di n i=1 x i k appartengono alla regione di accettazione RA e valori di n i=1 x i > k appartengono a RR. Per un valore fissato di α è possibile identificare il valore di k e le regioni di accettazione e di rifiuto corrispondenti. Per valori piccoli di n, quando non è opportuno ricorrere ad approssimazioni, è necessario considerare la distribuzione campionaria della statistica S n = n i=1 X i. Quindi, utilizzando la distribuzione Binomiale di parametri n e θ: } α = P X RR ; H o vera = P n } X i > k ; θ = θ 0 = P Sn > k } = 1 F Sn (k ), i=1 cioè 1 α = F Sn (k ), dove F Sn ( ) è la funzione di ripartizione della variabile aleatoria S n Bin(n, θ 0 ) e k è il valore del quantile 1 α di tale distribuzione. Se, per esempio, n = 3, θ 0 = 1/2 e θ 1 = 3/4, allora il valore di k per α = 0.05 è il 95-mo quantile di una binomiale con parametri n = 3 e θ = 1/2: k = qbinom(1/2,3,0.95) = 3. 18
Viceversa, se si assume k = 2 si possono ricavare i valori di α e β, supponendo fissate le regioni di accettazione e di rifiuto. α = P ( ) } 3 1 S 3 > 2 ; θ = θ 0 = PS3 = 3 ; θ = 1/2} = 3 2 = 0.125 ( = dbinom(3,3,1/2) ). 3 β = P S 3 2 ; θ = θ 1 } = PS3 = 0 S 3 = 1 S 3 = 2 ; θ = 3/4} = [ 1 4 ] 3 +3 3 4 [ 1 4 ] 2 +3 1 4 [ 3 4 2 i=0 ( 3 i )[ 3 4 ] i [ ] 3 i 1 = 4 ] 2 = 0.578 ( = dbinom(0,3,3/4)+ dbinom(1,3,3/4)+ dbinom(2,3,3/4) ). Nel caso di ipotesi composte si considera il test del rapporto tra le verosimiglianze simile, in spirito, al test di Neyman e Pearson. Il test del rapporto tra le verosimiglianze per due ipotesi composte: H 0 ; θ Θ 0 contro H 1 : θ Θ 1 con Θ = Θ 0 Θ 1 ; ; Θ 0 Θ 1 =, definisce la regione di accettazione come: RA = X X n : λ(x) k} dove λ(x) = sup θ Θ 0 L x (θ) sup θ Θ L x (θ). (9) Ci si poteva aspettare che, in analogia con il test di Neyman Pearson, la quantità al denominatore in (9) fosse sup θ Θ1 L x (θ). In pratica, però, sostituire Θ 0 con Θ ha un effetto trascurabile sulla statistica test λ(x). Inoltre le proprietà teoriche di λ(x) sono più semplici se si definisce la statistica test come nella (9). 10. Test di Wald. Quando la numerosità campionaria è elevata, e si considera un modello uniparametrico, il cui parametro è θ, si può utilizzare la procedura di test ipotesi di Wald. Sia θ uno stimatore di θ, con varianza V [ θ ] della quale si possiede uno stimatore V[ θ ]. Definizione 7. Test di Wald. Dato un sistema di ipotesi: H 0 : θ = θ 0 contro H 1 : θ θ 0, se θ è asintoticamente normale, e quindi ( θ θ 0 ) V[ θ ] D N(0, 1). Il test di Wald di livello α rifiuta l ipotesi H 0 se W > z 1 α/2, dove W = ( θ θ 0 ) V[ θ ]. Si consideri, per esempio, lo stimatore di massima verosimiglianza θ MLE per θ che, quando n è elevato, può essere approssimato con una variabile aleatoria normale: θ MLE D N(θ, I 1 n (θ)), e quindi ( θ MLE θ) I 1 n (θ) D N(0, 1). 19
È allora possibile utilizzare i risultati dei test d ipotesi per modelli normali, considerando una delle due seguenti statistiche test di Wald: W 1 (X) = ( θ MLE θ 0 ) I 1 ( θ MLE ) oppure W 2 (X) = ( θ MLE θ 0 ) I 1 ( θ 0 ) che, sotto l ipotesi H 0, hanno una distribuzione asintotica normale standardizzata. Si noti che per stimare la varianza di θ MLE è equivalente utilizzare al posto dell inverso dell informazione attesa di Fisher I 1 (θ) sia l inverso dell informazione osservata I 1 ( θ MLE ) che l inverso dell informazione attesa, calcolato in θ = θ 0. Per i test d ipotesi composte esaminati fin ora si hanno le regioni di rifiuto e le funzioni di potenza approssimate nella tavola seguente: H 0 H 1 RR Funzione di potenza approssimata ( ) ( ) θ0 θ θ = θ 0 θ θ 0 W (X) > z 1 α/2 1 Φ I 1 (θ 0 ) + z θ0 θ 1 α/2 +Φ I 1 (θ 0 ) z 1 α/2 ( ) θ0 θ θ θ 0 θ > θ 0 W (X) < z 1 α Φ I 1 (θ 0 ) + z 1 α ( ) θ0 θ θ θ 0 θ < θ 0 W (X) > z 1 α 1 Φ I 1 (θ 0 ) z 1 α 20