Test d ipotesi Introduzione. Alessandra Nardi

Test d ipotesi Introduzione Alessandra Nardi alenardi@mat.uniroma2.it 1

Consideriamo il caso in cui la nostra variabile risposta sia continua Immaginiamo che obiettivo del nostro studio sia valutare il livello di espressione di un gene in pazienti affetti da leucemia mieloide acuta Assumiamo che in questi pazienti il livello di espressione del gene in esame segua un modello Normale di valore atteso µ e varianza σ 2 Vogliamo valutare il sistema d ipotesi H 0 : µ = 0 Ipotesi nulla: gene non espresso (curve di Andrews) H 1 : µ = 40 Ipotesi alternativa: gene sovraespresso Ipotizziamo di conoscere il valore di σ = 20 a priori L unico elemento incognito resta il valore atteso dell espressione genica (ma la nostra incertezza e limitata alle due possibili ipotesi) 2

Density 0.000 0.005 0.010 0.015 0.020 50 0 50 100 3

Ipotizziamo poi di aver estratto casualmente un campione di 10 pazienti su ciascuno dei quali è stato osservato il livello di espressione del gene In simboli (X 1,..., X 10 ) dove X i i.i.d. con X i N(µ, σ 2 ) Scegliamo come statistica test la media campionaria, stimatore naturale di µ Dall assunzione di un modello normale segue che la distribuzione campionaria della nostra statistica test sarà ancora normale, in simboli X N(µ, σ 2 /n) 4

Confrontiamo la distribuzione della singola osservazione (linea continua) e quella della media campionaria delle nostre 10 osservazioni (linea tratteggiata) sotto l ipotesi nulla Density 0.00 0.01 0.02 0.03 0.04 0.05 0.06 60 40 20 0 20 40 60 5

Le distribuzioni della statistica test sotto l ipotesi nulla e l ipotesi alternativa sono adesso ben separate... Density 0.00 0.01 0.02 0.03 0.04 0.05 0.06 20 0 20 40 60 6

Ricordiamo che un test d ipotesi è formalmente una regola di decisione che associa ad ogni possibile risultato la scelta di una delle due ipotesi. Dovremo pertanto individuare la regione di rifiuto del test, R, definita come l insieme dei valori osservabili della nostra statistica test per i quali andremo a rifiutare H 0. La determinazione di R è legata alle probabilità di errore associate al test: probabilità di un errore di prima specie o dimensione del test α = P rob{x ϵ R H 0 } probabilità di un errore di seconda specie è 1 β = P rob{x ϵ A H 1 } dove A è la regione di accettazione del test (complemento di R). NB la probabilità β = P rob{x ϵ R H 1 } è nota come potenza del test 7

La regione di rifiuto ottimale dovrebbe corrispondere a quella che rende minime la probabilità di entrambi gli errori. Tuttavia, fissato n, minimizzare contemporaneamente le due probabilità di errore non è possibile essendo legate da un una relazione inversa per cui al diminuire dell una aumenta l altra. L idea è quindi quella di fissare il livello di α e scegliere la regione R che rende minimo il valore di 1 β Nel nostro esempio, fissato α = 0.05 il test ottimale è quello la cui regione di rifiuto corrisponde ai valori di X > z α dove z α il percentile della densità N(0, 20 2 /10) che taglia un area pari a 0.05 sulla coda destra della distribuzione. Nel nostro esempio R = {x tali che x > 10.41} Quanto vale l errore di seconda specie? 8

Density 0.00 0.01 0.02 0.03 0.04 0.05 0.06 0 10 20 30 40 9

Nella realtà la situazione si complica in primo luogo perché l ipotesi alternativa è spesso composta H 0 : µ = 0 Ipotesi nulla: gene non espresso H 1 : µ > 0 Ipotesi alternativa: gene espresso Questo implica che avremo un insieme di distribuzioni campionarie per la nostra statistica test sotto l ipotesi alternativa, una per ogni possibile valore di µ > 0 e la potenza del test (e la probablità di errore di seconda specie) diventerà una funzione di µ Inoltre generalmente σ 2 non è noto e sarà necessario ricorrere al suo stimatore S 2 = (Xi X) 2 n 1 10

La costruzione della nostra statistica test partirà dalla media campionaria che andremo a standardizzare assumendo vera l ipotesi nulla Z = X 0 σ/ n per poi sotituire σ con il suo stimatore T = X 0 S/ n T dipende adesso da due quantità aleatorie e la sua distribuzione campionaria sarà la distribuzione t di Student con n-1 gradi di libertà 11

Il test ottimale sarà caratterizzato dalla regione di rifiuto R = {t tali che t > t α } dove t α si ricava dall uguaglianza + t α f T (t)dt = α Density 0.0 0.1 0.2 0.3 0.4 4 2 0 2 4 12