Slide Set #5 Tests delle Ipotesi

Documenti analoghi
Stima Puntuale e per Intervallo. Stimatore e stima. Pietro Coretto Università degli Studi di Salerno

STATISTICA. Federico M. Stefanini. e.mail: a.a (3 CFU)

Fondamenti statistici : Test d Ipotesi (1)

Test per una media - varianza nota

Corso di Statistica Esercitazione 1.8

VERIFICA DELLE IPOTESI

Statistica Applicata all edilizia: Stime e stimatori

Richiami di inferenza statistica. Strumenti quantitativi per la gestione. Emanuele Taufer

Richiami di inferenza statistica Strumenti quantitativi per la gestione

Test d ipotesi Introduzione. Alessandra Nardi

Contenuti: Capitolo 14 del libro di testo

STATISTICA A K (60 ore)

Statistica inferenziale, Varese, 18 novembre 2009 Prima parte - Modalità B

Esercitazione 3 - Statistica II - Economia Aziendale Davide Passaretti 23/5/2017

Lezione 16. Statistica. Alfonso Iodice D Enza Università degli studi di Cassino. Lezione 16. A. Iodice. Ipotesi statistiche

Dipartimento di Fisica a.a. 2004/2005 Fisica Medica 2 Test di ipotesi 2/5/2005

Esercitazioni di Statistica Matematica A Esercitatori: Dott. Fabio Zucca - Dott. Maurizio U. Dini Lezioni del 7/1/2003 e del 14/1/2003

II Esonero - Testo B

per togliere l influenza di un fattore es.: quoziente di mortalità = morti / popolazione

La verifica delle ipotesi

Matematica II: Calcolo delle Probabilità e Statistica Matematica

UNIVERSITÀ DEGLI STUDI ROMA TRE Corso di Laurea in Matematica ST410 - Statistica 1 - A.A. 2014/2015 II Esonero - 15 Gennaio 2015

Il Test di Ipotesi Lezione 5

Esercitazione 8 del corso di Statistica 2

Capitolo 9 Verifica di ipotesi: test basati su un campione

Laboratorio di Probabilità e Statistica

Esercizi di statistica

STATISTICA A K (60 ore)

Occorre trovare la distribuzione di DM

LEZIONI DI STATISTICA MEDICA

IL CONFRONTO TRA LE VARIANZE DI DUE POPOLAZIONI

Capitolo 10 Test delle ipotesi

Intervalli di confidenza

Confronto tra due popolazioni Lezione 6

Dispensa di Statistica

Verifica di ipotesi. Parte VI. Verifica di ipotesi

Capitolo 9 Verifica di ipotesi: test basati su un campione

Intervalli di confidenza

Teoria della stima dei parametri:

Gli errori nella verifica delle ipotesi

Approssimazione normale alla distribuzione binomiale

Argomenti della lezione:

Verifica delle ipotesi

Statistica. Lauree Triennali in Biologia e Biologia Molecolare Nome: 13 luglio 2010 Matricola: Cognome: Tema C

INTERVALLI DI CONFIDENZA e TEST D IPOTESI 1 / 30

Analisi multivariata per osservazioni appaiate. Analisi multivariata per osservazioni appaiate

LEZIONI DI STATISTICA MEDICA

Capitolo 8. Intervalli di confidenza. Statistica. Levine, Krehbiel, Berenson. Casa editrice: Pearson. Insegnamento: Statistica

x ;x Soluzione Gli intervalli di confidenza possono essere ottenuti a partire dalla seguente identità: da cui si ricava: IC x ;x = +

05. Errore campionario e numerosità campionaria

Test per l omogeneità delle varianze

Cenni di statistica statistica

Teorema del Limite Centrale

I appello di calcolo delle probabilità e statistica

Statistica Inferenziale

La statistica è la scienza che permette di conoscere il mondo intorno a noi attraverso i dati.

Z-test, T-test, χ 2 -test

Test di ipotesi (a due code, σ nota)

Introduzione alla verifica d ipotesi

Esercizi di statistica inferenziale

Il processo inferenziale consente di generalizzare, con un certo grado di sicurezza, i risultati ottenuti osservando uno o più campioni

Intervalli di confidenza

Statistica Metodologica

Il campionamento e l inferenza. Il campionamento e l inferenza

PROVE (TEST) DI IPOTESI VERIFICA DI IPOTESI (TEST DI IPOTESI)

R - Esercitazione 5. Andrea Fasulo Venerdì 16 Dicembre Università Roma Tre

Statistica. Capitolo 13. Test sulla Bontà di Adattamento e Tabelle di Contingenza. Cap. 16-1

Problema 1. Cognome, Nome: Facoltà di Economia Statistica Esame 1-20/01/2010: A. Matricola: Corso:

STATISTICA. Esercitazione 5

Distribuzioni campionarie

Laboratorio di Didattica di elaborazione dati 5 STIMA PUNTUALE DEI PARAMETRI. x i. SE = n.

STATISTICA ESERCITAZIONE 13

SOLUZIONI ESERCITAZIONE NR. 8 Test statistici

Il test statistico e le ipotesi Regione di accettazione e rifiuto Test con ipotesi nulla semplice Il p-value Errori di I e II tipo Funzione di potenza

Ipotesi statistiche (caso uno-dimensionale) Ipotesi poste sulla (distribuzione di) popolazione per raggiungere una decisione sulla popolazione stessa

Metodi statistici per le ricerche di mercato

CORSO DI STATISTICA (parte 2) - ESERCITAZIONE 4

Gli intervalli di confidenza. Intervallo di confidenza per la media (σ 2 nota) nel caso di popolazione Gaussiana

Esercitazioni di Statistica Corsi di Laurea Infermiesristica Pediatrica e Ostetricia - I anno 1

Capitolo 10. Test basati su due campioni e ANOVA a una via. Statistica II ed. Levine, Krehbiel, Berenson. Casa editrice: Pearson

Capitolo 10. Test basati su due campioni e ANOVA a una via. Statistica II ed. Levine, Krehbiel, Berenson Apogeo

Analisi della varianza: I contrasti e il metodo di Bonferroni

Corso in Statistica Medica

Gli intervalli di Confidenza. Lezione 9- Inervalli di Confidenza 1

Casa dello Studente. Casa dello Studente

Analisi della regressione multipla

Parametri e statistiche. Parametri e statistiche. Distribuzioni campionarie. Popolazione Parametri Valori fissi, Statistiche o Stimatori.

Ulteriori Conoscenze di Informatica e Statistica. Popolazione. Campione. I risultati di un esperimento sono variabili aleatorie.

UNIVERSITÀ DEGLI STUDI ROMA TRE Corso di Laurea in Matematica ST410 - Statistica 1 - A.A. 2014/2015 Appello B - 5 Febbraio 2015

Distribuzioni e inferenza statistica

Quanti soggetti devono essere selezionati?

Esercitazione 8 maggio 2014

Statistica (parte II) Esercitazione 4

I modelli probabilistici

Statistica. V Scuola Estiva AISV La statistica come strumento di analisi nelle scienze umanistiche e comportamentali

Transcript:

Slide Set #5 Tests delle Ipotesi Pietro Coretto pcoretto@unisa.it Università degli Studi di Salerno Corso di Statistica (0212700010) CDL in Economia e Management Curriculum in Management e Informatica a.a. 2018/2019 Versione: 19 novembre 2018 (h16:38) P. Coretto // Statistica Tests delle Ipotesi 1 / 68 Esempio: scritture contabili La GGK è un colosso della distribuzione. Ogni giorno si effettuano numerose scritture contabili soggette ad arrotondamenti. Le procedure contabili prevedono che il volume medio giornaliero degli arrotondamenti non può superare 0.5e. Allo scopo di tenere sotto controllo l effetto cumulato giornaliero, ogni trimestre si estraggono 15 giorni a caso sui quali si rileva l arrotondamento complessivo. La media campionaria nell ultimo trimestre è 0.49e. Il sistema contabile funziona se la media degli arrotondamenti giornalieri µ 0.5. Purtroppo µ non è noto. x = 0.49 non può essere l elemento decisivo. Perché? Per prendere decisioni è necessario: una regola di decisione che tenga conto dell incertezza circa (X µ) una valutazione oggettiva del rischio di commettere errori P. Coretto // Statistica Tests delle Ipotesi 2 / 68

Test delle ipotesi (parametrici) Abbiamo un fenomeno X f (θ), θ è un parametro (non noto) di f. θ Θ, e consideriamo la partizione Θ = Θ 0 Θ 1, con Θ 0 Θ 1 = Ipotesi nulla H 0 : θ Θ 0 Ipotesi alternativa H 1 : θ Θ 1 Esempio: scritture contabili X =arrotondamento giornaliero f, e E[X ] = µ Ipotesi nulla H 0 : µ 0.5 Ipotesi alternativa H 1 : µ > 0.5 θ = µ, Θ = R, Θ 0 = (, 0.5], Θ 1 = (0.5, + ) Perché l ipotesi nulla è µ 0.5?... dopo. P. Coretto // Statistica Tests delle Ipotesi 3 / 68 Regione critica e regola di decisione Sia C l insieme di tutti i possibili campioni di dimensione n. Consideriamo la partizione C = C 1 C 0, con C 0 C 1 =. C 0 = insieme di tutti i campioni coerenti con H 0. Sono i campioni generati da f quando θ Θ 0 C 1 = insieme di tutti i campioni coerenti con H 1. Sono i campioni generati da f quando θ Θ 1 P. Coretto // Statistica Tests delle Ipotesi 4 / 68

Il test consiste nell applicare una regola di decisione che stabilisce la provenienza del campione osservato campione osservato assegnato a C 1 = RIFIUTO H 0 Per questo motivo C 1 =regione critica di rifiuto. campione osservato assegnato a C 0 = NON RIFIUTO H 0 Vogliamo regole di decisione ottimali. Per definire l ottimo dobbiamo fissare i riferimenti: definizione del ruolo di H 0 vs H 1 definizione del rischio di decisioni sbagliate P. Coretto // Statistica Tests delle Ipotesi 5 / 68 Tests Neyman-Pearson ottimali Jerzy Neyman (1894 1981) Egon S. Pearson (1895 1980) P. Coretto // Statistica Tests delle Ipotesi 6 / 68

Ruolo di H 0 vs H 1 nel test á la Neyman-Pearson H 0 è l ipotesi che non vogliamo assolutamente rifiutare a favore di H 1 fino a quando è empiricamente sostenibile. H 0 è lo status quo, ovvero, l ipotesi considerata vera fino a prova contraria (asimmetria) H 1 concettualizza la violazione di H 0 che l osservatore si aspetta nei dati Esempio: scritture contabili H 0 : arrotondamenti corretti H 1 : arrotondamenti superiori al massimo consentito Processo penale H 0 : l imputato non è colpevole H 1 : l imputato è colpevole Test diagnostico medico H 0 : funzioni biologiche normali (esito negativo) H 1 : alterazioni delle funzioni biologiche (esito positivo) P. Coretto // Statistica Tests delle Ipotesi 7 / 68 Rischio di decisioni sbagliate NATURA TU H 0 è vera H 1 è vera Rifiuto H 0 E 1 OK Non rifiuto H 0 OK E 2 E 1 : errore del primo tipo (falso positivo) PrE 1 } = PrRifiuto H 0 H 0 è vera} = PrCampione assegnato a C 1 θ Θ 0 } = α E 2 : errore del secondo tipo (falso negativo) PrE 2 } = PrNon rifiuto H 0 H 1 è vera} = PrCampione assegnato a C 0 θ Θ 1 } = β P. Coretto // Statistica Tests delle Ipotesi 8 / 68

H 0 : l imputato non è colpevole H 1 : l imputato è colpevole E 1 E 2 Giudice: Andy Dufresne è un marito assassino Giudice: Aaron Stampler è assolto perché affetto da disturbo dissociativo dell identità P. Coretto // Statistica Tests delle Ipotesi 9 / 68 Relazione tra α e β, e regione critica ottimale Il sogno: α = β = 0 Brutte notizie (1): non è possibile azzerare il rischio di commettere errori Brutte notizie (2): α aumenta = β diminuisce, e viceversa. Al limite: α 0 = β 1, e viceversa. Soluzione ottimale di Neyman-Pearson: 1 in considerazione del ruolo svolto da H 0 vs H 1, fisso α al livello massimo sopportabile. PrE 1 } = α è detto livello di significatività del test. Solitamente α = 10%, 5%, 2%, %1}. 2 tra tutte le regioni critiche che danno α = PrE 1 }, prendo quella che comporta il minimo β = PrE 2 } P. Coretto // Statistica Tests delle Ipotesi 10 / 68

Potenza del test NATURA TU H 0 è vera H 1 è vera Rifiuto H 0 α π = (1 β) Non rifiuto H 0 (1 α) β PrCorretto rifiuto} = PrRifiuto H 0 H 1 è vera} α si controlla direttamente (viene fissato) = (1 β) = π = potenza del test π, in generale, non è direttamente controllabile. Per i test Neyman-Pearson ottimali sappiamo solo che π è massimo (β è minimo) per il fissato livello α TUTTI i test che vedremo in questo corso sono Neyman-Pearson ottimali P. Coretto // Statistica Tests delle Ipotesi 11 / 68 ATTENZIONE: Spesso si è ossessivi nel proteggersi rispetto ai falsi positivi (α piccolo), ma questo crea il rischio di falsi negativi (β grande). Se aumento α = β diminuisce = π aumenta. Quale è un valore ragionevole per α? La pratica standard di considerare α = 1%, 5% in alcuni casi potrebbe essere devastante. α dovrebbe essere fissato dopo un attenta valutazione delle implicazioni (pratiche) dei due errori. Si, ma quali sono le implicazioni pratiche? nella maggior parte dei casi, estraggo un campione ed effettuo la mia decisione. α, β, π sono probabilità come per gli intervalli di confidenza, è bene pensare a queste quantità nell ottica del campionamento ripetuto P. Coretto // Statistica Tests delle Ipotesi 12 / 68

Interpretazione pratica di α Supponiamo di poter estrarre K campioni indipendenti di dimensione n dalla popolazione X f (θ). K è sufficientemente grande Campione 1 decisione 1 Campione 2 decisione 2... Campione K decisione K Ogni volta che θ Θ 0 e quindi θ / Θ 1 (H 0 vera, H 1 falsa): (1 α)% decisioni saranno corrette α% decisioni saranno sbagliate P. Coretto // Statistica Tests delle Ipotesi 13 / 68 Cercare di interpretare β (e quindi π) dal punto di vista pratico non ha molto senso. Infatti, tranne che in casi didattici, non li possiamo quantificare. Sappiamo solo che β è al minimo possibile. Per un singolo campione? Quale è l interpretazione di α per la decisione presa sul nostro singolo campione osservato? α è una misura di rischio. Possiamo interpretare α come il livello di inaffidabilità del test che siamo disposti a sopportare nel caso in cui H 0 fosse vera P. Coretto // Statistica Tests delle Ipotesi 14 / 68

Costruzione di un test Esempio: media di una popolazione normale a varianza nota Supponiamo X Normale(µ, 64), consideriamo il test: H 0 : µ = 100 H 1 : µ > 100 In un campione di n = 16 osservazioni risulta x = 103. Trovare una regola di decisione al livello α = 5% Potrei rifiutare H 0 perché x > 100. Tuttavia, se H 0 è vera, allora ( X H 0 Normale 100, 64 ) n Quindi X varia casualmente intorno a 100. Consideriamo U = n X 100 8 H0 Normale(0, 1) P. Coretto // Statistica Tests delle Ipotesi 15 / 68 Valori osservati di U positivi ci fanno pensare che H 0 è falsa. Si, ma quanto dovrebbe essere più grande di zero? PrE 1 } = α (è fissato) = PrRifiuto H 0 H 0 è vera} = PrU > u µ = 100} Quando H 0 è vera U ha distribuzione Normale Standard, quindi u = z α, ovvero z 0.05 = 1.64 Ho trovato una regione critica ed una regola di decisione con il livello di significatività fissato: Regione critica C 1 : sono i campioni tali che U > z α = 1.64 : rifiuto H 0 se n( x 100)/8 > 1.64 Il valore osservato di U è 16(103 100)/8 = 1.5 < 1.64 = non rifiuto H 0 al livello del 5%. P. Coretto // Statistica Tests delle Ipotesi 16 / 68

Quanto vale π = 1 β? Il calcolo di β richiede H 1 vera. H 1 è vera per un numero infinito di possibili valori di µ Questa regola è Neyman-Pearson ottimale: per qualunque valore di µ, ceteris paribus, ottengo il miglior π possibile. Questo basterebbe, ma voglio capire in quale ordine di grandezza ci muoviamo. Supponiamo che H 1 è vera perché µ = 104. β = PrNon rifiuto H 0 H 1 è vera} = PrU < 1.64 µ = 104} U = n X 100 = 100 n n + 8 8 8 X E[U H 1 vera] = 100 n n n + 8 8 104 = 2 Var[U H 1 vera] = 1 P. Coretto // Statistica Tests delle Ipotesi 17 / 68 Quindi U = n X 100 8 β = PrU < 1.64 µ = 104} = Pr ( ) H1 n Normale 2, 1 Z < 1.64 } 16 = PrZ < 0.36} = Φ( 0.36) = 1 Φ(0.36) = 0.36 2 Da cui π = 1 β = 0.64 Interpretazione: se potessi ripetere il test un gran numero di volte, π = 64% = 64/100 decisioni corrette quando µ = 104. Vediamo cosa succede alla distribuzione di U sotto le due ipotesi P. Coretto // Statistica Tests delle Ipotesi 18 / 68

Distribuzione di U sotto le due ipotesi H 0 α=0.05 P. Coretto // Statistica Tests delle Ipotesi 19 / 68 Distribuzione di U sotto le due ipotesi H 0 H 1 α=0.05 P. Coretto // Statistica Tests delle Ipotesi 20 / 68

Distribuzione di U sotto le due ipotesi H 0 H 1 β α=0.05 P. Coretto // Statistica Tests delle Ipotesi 21 / 68 Distribuzione di U sotto le due ipotesi H 0 H 1 π β α=0.05 P. Coretto // Statistica Tests delle Ipotesi 22 / 68

al variare di µ > 100 avrò diversi valori di β e π se cambio α, n, σ avrò diversi valori di β e π Sebbene β e π non sono direttamente controllabili, spesso sarebbe utile fare un analisi di sensitività rispetto alle quantità controllabili. Uno statistico può controllare: α, a livello di procedura di test n, a livello di disegno di campionamento (non sempre) Nell Esempio: media di normale vediamo come variano β e π in funzione di µ sotto H 1 P. Coretto // Statistica Tests delle Ipotesi 23 / 68 π = (1 β) 0.2 0.4 0.6 0.8 1.0 Potenza del test con α = 5% n = 16 n = 50 n = 250 π = (1 β) 0.0 0.2 0.4 0.6 0.8 1.0 Potenza del test con α = 0.5% n = 16 n = 50 n = 250 100 102 104 106 108 110 µ 100 102 104 106 108 110 µ P. Coretto // Statistica Tests delle Ipotesi 24 / 68

β 0.0 0.2 0.4 0.6 0.8 Errore del II tipo con α = 5% n = 16 n = 50 n = 250 β 0.0 0.2 0.4 0.6 0.8 1.0 Errore del II tipo con α = 0.5% n = 16 n = 50 n = 250 100 102 104 106 108 110 µ 100 102 104 106 108 110 µ P. Coretto // Statistica Tests delle Ipotesi 25 / 68 Procedura di testing: routine Definizione: (Funzione test/statistica test) Sia X 1, X 2,..., X n } un campione. Una funzione test, anche detta statistica test, è una funzione T (X 1, X 2,..., X n, θ 0 ) che misura contemporaneamente la coerenza del campione all ipotesi nulla, e la non coerenza rispetto all ipotesi alternativa. La statistica test non dipende da altri parametri incogniti. Si noti che T dipende da H 0, ma non da H 1 T è una variabile casuale: popolazione + effetto del campionamento Esempi Esempio: media di normale : U è una statistica test Esempio: errori contabili : T 1 = (X 0.5) potrebbe essere una funzione test. Tuttavia, non sarebbe molto utile. Esempio: errori contabili : T 2 = (X 0.5) 2 non è una buona funzione test, perché? P. Coretto // Statistica Tests delle Ipotesi 26 / 68

Steps : 1 Parto dalla distribuzione della funzione test sotto H 0 Esempio: media di normale : U = n X 100 8 H0 Normale(0, 1) 2 dato α, calcolo qualche valore di coda della distribuzione della funzione test sotto H 0 Esempio: media di normale : α = 5%, zα = 1.64 3 determino la regione di rifiuto Esempio: media di normale : tutti i campioni per cui U > zα = 1.64 4 calcolo il valore osservato della funzione test Esempio: media di normale : 16(103 100)/8 = 1.5 5 decisione: rifiuto H 0 se il valore osservato delle funzione test è assegnato alla regione critica di rifiuto Esempio: media di normale : 1.5 < z0.05 = 1.64 = non rifiuto H 0 P. Coretto // Statistica Tests delle Ipotesi 27 / 68 Media di una popolazione Normale con varianza nota Assumo: X 1, X 2,..., X n } è un CCS da una popolazione X Normale(µ, σ 2 ), dove σ 2 è noto Ipotesi nulla: H 0 : µ = µ 0 Funzione test Z = n X µ 0 σ H0 Normale(0, 1) Valore osservato della funzione test z = n x µ 0 σ Coda z α : PrZ z α } = α P. Coretto // Statistica Tests delle Ipotesi 28 / 68

Ipotesi alternativa unilaterale a destra H 0 : µ = µ 0 H 1 : µ > µ 0 H 0 : µ µ 0 H 1 : µ > µ 0 campioni : Z > z α } rifiuto H 0 se z > z α z α Non rifiuto H 0 Rifiuto H 0 P. Coretto // Statistica Tests delle Ipotesi 29 / 68 Ipotesi alternativa unilaterale a sinistra H 0 : µ = µ 0 H 1 : µ < µ 0 H 0 : µ µ 0 H 1 : µ < µ 0 campioni : Z < z α } rifiuto H 0 se z < z α z α Rifiuto H 0 Non rifiuto H 0 P. Coretto // Statistica Tests delle Ipotesi 30 / 68

Ipotesi alternativa bilaterale H 0 : µ = µ 0 H 1 : µ µ 0 Regione critica di rifiuto } campioni: Z < z α oppure Z > z α 2 2 rifiuto H 0 se z < z α oppure z > z α 2 2 z α 2 z α 2 Rifiuto H0 Non rifiuto H0 Rifiuto H0 P. Coretto // Statistica Tests delle Ipotesi 31 / 68 Media di una popolazione Normale con varianza non nota Assumo: X 1, X 2,..., X n } è un CCS da una popolazione X Normale(µ, σ 2 ), dove σ 2 non è noto Ipotesi nulla: H 0 : µ = µ 0 Funzione test T = n X µ 0 S H0 t n 1 Valore osservato della funzione test t = n x µ 0 s Coda t n 1, α : PrT t n 1, α } = α P. Coretto // Statistica Tests delle Ipotesi 32 / 68

Ipotesi alternativa unilaterale a destra H 0 : µ = µ 0 H 1 : µ > µ 0 H 0 : µ µ 0 H 1 : µ > µ 0 campioni : T > t n 1, α } rifiuto H 0 se t > t n 1, α t n 1, α Non rifiuto H 0 Rifiuto H 0 P. Coretto // Statistica Tests delle Ipotesi 33 / 68 Ipotesi alternativa unilaterale a sinistra H 0 : µ = µ 0 H 1 : µ < µ 0 H 0 : µ µ 0 H 1 : µ < µ 0 campioni : T < t n 1, α } rifiuto H 0 se t < t n 1, α t n 1, α Rifiuto H 0 Non rifiuto H 0 P. Coretto // Statistica Tests delle Ipotesi 34 / 68

Ipotesi alternativa bilaterale H 0 : µ = µ 0 H 1 : µ µ 0 } campioni: T < t n 1, α oppure T > t n 1, α 2 2 rifiuto H 0 se t < t n 1, α 2 oppure t > t n 1, α 2 tn 1, α 2 tn 1, α 2 Rifiuto H0 Non rifiuto H0 Rifiuto H0 P. Coretto // Statistica Tests delle Ipotesi 35 / 68 Esercizio: 10.17 P. Coretto // Statistica Tests delle Ipotesi 36 / 68

Proporzione di una popolazione (grandi campioni) Assumo: X 1, X 2,..., X n } è un CCS da una popolazione X Bernoulli(p), inoltre n è sufficientemente grande e np(1 p) > 9 Ipotesi nulla: H 0 : p = p 0 Funzione test Z = ˆP p 0 p 0 (1 p 0 ) n H0 Normale(0, 1) Valore osservato della funzione test z = ˆp p 0 p 0 (1 p 0 ) n Coda z α : PrZ z α } = α P. Coretto // Statistica Tests delle Ipotesi 37 / 68 Ipotesi alternativa unilaterale a destra H 0 : p = p 0 H 1 : p > p 0 H 0 : p p 0 H 1 : p > p 0 campioni : Z > z α } rifiuto H 0 se z > z α z α Non rifiuto H 0 Rifiuto H 0 P. Coretto // Statistica Tests delle Ipotesi 38 / 68

Ipotesi alternativa unilaterale a sinistra H 0 : p = p 0 H 1 : p < p 0 H 0 : p p 0 H 1 : p < p 0 campioni : Z < z α } rifiuto H 0 se z < z α z α Rifiuto H 0 Non rifiuto H 0 P. Coretto // Statistica Tests delle Ipotesi 39 / 68 Ipotesi alternativa bilaterale H 0 : p = p 0 H 1 : p p 0 Regione critica di rifiuto } campioni: Z < z α oppure Z > z α 2 2 rifiuto H 0 se z < z α oppure z > z α 2 2 z α 2 z α 2 Rifiuto H0 Non rifiuto H0 Rifiuto H0 P. Coretto // Statistica Tests delle Ipotesi 40 / 68

Esercizio: 10.31 P. Coretto // Statistica Tests delle Ipotesi 41 / 68 Differenza tra medie di popolazioni normali dipendenti Assumo: (X 1, Y 1 ), (X 2, Y 2 ),..., (X n, Y n )} è un CCS da una popolazione congiuntamente normale dove X e Y sono dipendenti (correlate) Sia d i = x i y i, siano D e S 2 d media e varianza campionaria di d Ipotesi nulla: H 0 : µ X µ Y = d 0 Funzione test T = n (X Y ) d 0 S d H0 t n 1 Valore osservato della funzione test Coda t n 1, α : t = n d d 0 s d PrT t n 1, α } = α P. Coretto // Statistica Tests delle Ipotesi 42 / 68

Ipotesi alternativa unilaterale a destra H 0 : µ X µ Y = d 0 H 1 : µ X µ Y > d 0 H 0 : µ X µ Y d 0 H 1 : µ X µ Y > d 0 campioni : T > t n 1, α } rifiuto H 0 se t > t n 1, α t n 1, α Non rifiuto H 0 Rifiuto H 0 P. Coretto // Statistica Tests delle Ipotesi 43 / 68 Ipotesi alternativa unilaterale a sinistra H 0 : µ X µ Y = d 0 H 1 : µ X µ Y < d 0 H 0 : µ X µ Y d 0 H 1 : µ X µ Y < d 0 campioni : T < t n 1, α } rifiuto H 0 se t < t n 1, α t n 1, α Rifiuto H 0 Non rifiuto H 0 P. Coretto // Statistica Tests delle Ipotesi 44 / 68

Ipotesi alternativa bilaterale H 0 : µ X µ Y = d 0 H 1 : µ X µ Y d 0 } campioni: T < t n 1, α oppure T > t n 1, α 2 2 rifiuto H 0 se t < t n 1, α 2 oppure t > t n 1, α 2 tn 1, α 2 tn 1, α 2 Rifiuto H0 Non rifiuto H0 Rifiuto H0 P. Coretto // Statistica Tests delle Ipotesi 45 / 68 Esercizio: 11.3 P. Coretto // Statistica Tests delle Ipotesi 46 / 68

Pooling della devianza Siano X f e Y g due popolazioni. Siano X 1, X 2,..., X nx } e Y 1, Y 2,..., Y ny } due CCS indipendenti. Omoschedasticità: assumiamo Var[X ] = Var[Y ] = σ 2 X e Y hanno la stessa varianza, ma non necessariamente la stessa media. Quale statistica di varianza userebbe tutta l informazione campionaria? Varianza campionaria pooled nx Sp 2 = i=1 (X i X ) 2 + n Y i=1 (Y i Y ) 2 n X + n Y 2 = (n X 1)S 2 X + (n Y 1)S 2 Y n X + n Y 2 P. Coretto // Statistica Tests delle Ipotesi 47 / 68 Differenza tra medie di popolazioni normali indipendenti Assumo: X 1, X 2,..., X nx } e Y 1, Y 2,..., Y ny } sono due CCS indipendenti da popolazioni normali omoschedastiche, ovvero X Normale(µ X, σ 2 ) e Y Normale(µ Y, σ 2 ), dove σ 2 non è noto. Ipotesi nulla: H 0 : µ X µ Y = d 0 Funzione test S 2 p T = (X Y ) d 0 n X + S 2 p n Y H0 t nx +n Y 2 Valore osservato della funzione test Coda t nx +n Y 2, α: s 2 p n X t = (x y) d 0 + s2 p n Y PrT t nx +n Y 2, α} = α P. Coretto // Statistica Tests delle Ipotesi 48 / 68

Ipotesi alternativa unilaterale a destra H 0 : µ X µ Y = d 0 H 1 : µ X µ Y > d 0 H 0 : µ X µ Y d 0 H 1 : µ X µ Y > d 0 campioni : T > t nx +n Y 2, α} rifiuto H 0 se t > t nx +n Y 2, α t nx+ny 2, α Non rifiuto H 0 Rifiuto H 0 P. Coretto // Statistica Tests delle Ipotesi 49 / 68 Ipotesi alternativa unilaterale a sinistra H 0 : µ X µ Y = d 0 H 1 : µ X µ Y < d 0 H 0 : µ X µ Y d 0 H 1 : µ X µ Y < d 0 campioni : T < t nx +n Y 2, α} rifiuto H 0 se t < t nx +n Y 2, α t nx+ny 2, α Rifiuto H 0 Non rifiuto H 0 P. Coretto // Statistica Tests delle Ipotesi 50 / 68

Ipotesi alternativa bilaterale H 0 : µ X µ Y = d 0 H 1 : µ X µ Y d 0 } campioni: T < t nx +ny 2, α oppure T > t 2 nx +ny 2, α 2 rifiuto H 0 se t < t nx +ny 2, α 2 oppure t > t nx +ny 2, α 2 tnx+ny 2, α 2 tnx+ny 2, α 2 Rifiuto H0 Non rifiuto H0 Rifiuto H0 P. Coretto // Statistica Tests delle Ipotesi 51 / 68 Esercizio: 11.5 P. Coretto // Statistica Tests delle Ipotesi 52 / 68

Pooling di popolazioni Bernoulliane indipendenti Siano X Bernoulli(p X ) e Y Bernoulli(p Y ) due popolazioni Bernoulliane. Siano X 1, X 2,..., X nx }, e Y 1, Y 2,..., Y ny } due campioni indipendenti. Le proporzioni campionarie saranno ˆP X = 1 n X n X i=1 X i e ˆP Y = 1 n Y n Y Y i i=1 Assumiamo H 0 : p X = p Y. Quale statistica userebbe tutta l informazione campionaria? Proporzione campionaria pooled nx ˆP 0 = i=1 X i + n Y i=1 Y i n X + n Y = n X ˆP X + n Y ˆP Y n X + n Y P. Coretto // Statistica Tests delle Ipotesi 53 / 68 Differenza tra proporzioni (grandi campioni) Assumo: X 1, X 2,..., X nx } e Y 1, Y 2,..., Y ny } sono due CCS indipendenti da X Bernoulli(p X ), e Y Bernoulli(p Y ). n è sufficientemente grande. Ipotesi nulla: H 0 : p X p Y = 0 Funzione test Z = ˆP X ˆP Y ˆP 0 (1 ˆP 0 ) n X + ˆP 0 (1 ˆP 0 ) n Y H0 Normale(0, 1) Valore osservato della funzione test ˆp X ˆp Y z = ˆp0 (1 ˆp 0 ) n X + ˆp 0(1 ˆp 0 ) n Y Coda z α : PrZ z α } = α P. Coretto // Statistica Tests delle Ipotesi 54 / 68

Ipotesi alternativa unilaterale a destra H 0 : p X p Y = 0 H 1 : p X p Y > 0 H 0 : p X p Y 0 H 1 : p X p Y > 0 campioni : Z > z α } rifiuto H 0 se z > z α z α Non rifiuto H 0 Rifiuto H 0 P. Coretto // Statistica Tests delle Ipotesi 55 / 68 Ipotesi alternativa unilaterale a sinistra H 0 : p X p Y = 0 H 1 : p X p Y < 0 H 0 : p X p Y 0 H 1 : p X p Y < 0 campioni : Z < z α } rifiuto H 0 se z < z α z α Rifiuto H 0 Non rifiuto H 0 P. Coretto // Statistica Tests delle Ipotesi 56 / 68

Ipotesi alternativa bilaterale H 0 : p X p Y = 0 H 1 : p X p Y 0 Regione critica di rifiuto } campioni: Z < z α oppure Z > z α 2 2 rifiuto H 0 se z < z α oppure z > z α 2 2 z α 2 z α 2 Rifiuto H0 Non rifiuto H0 Rifiuto H0 P. Coretto // Statistica Tests delle Ipotesi 57 / 68 Esercizio: 11.15 P. Coretto // Statistica Tests delle Ipotesi 58 / 68

Varianza di una popolazione normale Assumo: X 1, X 2,..., X n } è un CCS da una popolazione X Normale(µ, σ 2 ) Ipotesi nulla: H 0 : σ 2 = σ 2 0 Funzione test χ = (n 1)S 2 σ 2 0 H0 χ 2 n 1 Valore osservato della funzione test c = (n 1)s2 σ 2 0 Coda χ 2 n 1, α : Pr χ χ 2 n 1, α} = α P. Coretto // Statistica Tests delle Ipotesi 59 / 68 Ipotesi alternativa unilaterale a destra H 0 : σ 2 = σ 2 0 H 1 : σ 2 > σ 2 0 H 0 : σ 2 σ 2 0 H 1 : σ 2 > σ 2 0 campioni : χ > χ 2 n 1, α } rifiuto H 0 se c > χ 2 n 1, α χ 2 n 1, α Non rifiuto H 0 Rifiuto H 0 P. Coretto // Statistica Tests delle Ipotesi 60 / 68

Ipotesi alternativa unilaterale a sinistra H 0 : σ 2 = σ 2 0 H 1 : σ 2 < σ 2 0 H 0 : σ 2 σ 2 0 H 1 : σ 2 < σ 2 0 campioni : χ < χ 2 n 1, 1 α } rifiuto H 0 se c < χ 2 n 1, 1 α χ 2 n 1, 1 α Rifiuto H 0 Non rifiuto H 0 P. Coretto // Statistica Tests delle Ipotesi 61 / 68 Ipotesi alternativa bilaterale H 0 : σ 2 = σ 2 0 H 1 : σ 2 σ 2 0 } campioni: χ < χ 2 n 1, 1 α oppure χ > χ 2 n 1, α 2 2 rifiuto H 0 se c < χ 2 n 1, 1 α 2 oppure c > χ 2 n 1, α 2 χ 2 n 1, 1 α 2 χ 2 n 1, α 2 Rifiuto H0 Non rifiuto H0 Rifiuto H0 P. Coretto // Statistica Tests delle Ipotesi 62 / 68

Esercizio: 11.21 P. Coretto // Statistica Tests delle Ipotesi 63 / 68 p-value Sia U la funzione test, e u il suo valore osservato. Il p-value si calcola: p-value = PrU è uguale o più estrema di u H 0 è vera} Si noti che il p-value [0, 1]. Questo è il calcolo. La sua interpretazione? Il p-value è una misura della plausibilità di H 0 per il campione osservato: p-value grande: il campione osservato mostra forte evidenza empirica a favore di H 0. p-value piccolo: il campione osservato mostra debole/nessuna evidenza empirica a favore di H 0. in questo senso il p-value è anche definito come livello di significatività osservato. P. Coretto // Statistica Tests delle Ipotesi 64 / 68

L interpretazione non può prescindere da α e H 1. Nell ottica Neyman-Pearson l uso del p-value deve dipendere dalla nozione di ottimalità sottostante. Definizione: (p-value nei tests Neyman-Pearson) Il p-value calcolato coincide il livello minimo di α al quale si rifiuta H 0 sulla base del campione osservato. Da questo punto di vista il p-value è uno strumento operativo per definire la regione critica senza usare alla funzione test: Rifiuto H 0 se p-value < α P. Coretto // Statistica Tests delle Ipotesi 65 / 68 Rifiuto H 0 Non rifiuto H 0 0 α 1 in termini di p-value P. Coretto // Statistica Tests delle Ipotesi 66 / 68

Uso del p-value Esempio: (Spray per insetti) Si usano sei diversi sprays (A, B, C, D, E, F ) in 12 diverse posizioni, e si rileva il numero di insetti presenti nel raggio di azione in ogni posizione. Le prove sono indipendenti. Ecco i dati campionari Numero di Insetti 0 5 10 15 20 25 A B C D E F Spray P. Coretto // Statistica Tests delle Ipotesi 67 / 68 Con riferimento ai dati dell Esempio 67 vogliamo testare H 0 : i sei gruppi sono omoschedastici H 1 : almeno un gruppo differisce per varianza Si tratta di effettuare un test di confronto delle varianze. Una possibilità è il test di confronto delle varianze per popolazioni Normali. Tuttavia, sostenere la normalità è assai dubbio. Una scelta appropriata in questo caso è il test di Bartlett. Fissiamo α = 5% p-value = 9.085 10 5 = 0.00009085 < α = Rifiuto H 0 P. Coretto // Statistica Tests delle Ipotesi 68 / 68