Statistica inferenziale per variabili quantitative

Lezione 7: - Z - test e intervalli di Confidenza - t-test per campioni indipendenti e dipendenti Cattedra di Biostatistica Dipartimento di Scienze scperimentali e cliniche, Università degli Studi G. d Annunzio di Chieti Pescara Prof. Enzo Ballone Statistica inferenziale per variabili quantitative Statistica inferenziale per variabili quantitative Glicemia 1

Un problema pratico Quesito: qual è la glicemia media della popolazione degli studenti iscritti al primo anno del corso di laurea in medicina? Procedura 1. dall'elenco dei 200 studenti estraggo un campione casualmente costituito da 10 unità; 2. calcolo la media aritmetica e la deviazione standard. 3. determino i livelli di glicemia in ciascun soggetto che costituisce il campioni Un problema pratico Un problema pratico x Posso affermare che = = µ? NO! perché l'estrazione del campione comporta necessariamente una perdita di informazione che si traduce nell'introduzione di un errore casuale Se il problema si esaurisse con questa affermazione tutte le osservazioni effettuate su base campionaria non servirebbero a nulla in quanto l'interesse è sempre rivolto alla popolazione! 2

Un breve salto nella teoria Popolazione costituita da N elementi Il carattere in esame ha media aritmetica=µ deviazione standard= σ Un breve salto nella teoria 1. si estraggano da tale popolazione infiniti campioni di numerosità n e per ognuno di essi si calcoli la media aritmetica = (= x i ) Un breve salto nella teoria 2. il risultato è un insieme infinito di medie aritmetiche = (= X i ) riferite a campioni di numerosità n; 3

Un breve salto nella teoria 3. se ciascuna = X i viene considerata come un'osservazione individuale è possibile costruire una distribuzione di frequenza definita: DISTRIBUZIONE DI CAMPIONAMENTO DELLE MEDIE DEI CAMPIONI DI NUMEROSITA' n. Un breve salto nella teoria 4. La distribuzione di campionamento ha le seguenti proprietà: A) la media aritmetica è uguale alla media aritmetica della popolazione B) la deviazione standard è uguale a: questo parametro viene definito errore standard (E.S.) ed è una misura della precisione della stima campionaria della media aritmetica della popolazione (misura dell'errore campionario delle medie aritmetiche). C) la forma è approssimativamente normale, a condizione che: il carattere sia distribuito normalmente nella po-polazione o; n sia sufficientemente grande (>30); Un breve salto nella teoria 4

Un breve salto nella teoria L'errore di campionamento è tanto più evidente quanto più piccolo è il campione: Un breve salto nella teoria Un breve salto nella teoria 5

Un breve salto nella teoria L'errore di campionamento è tanto più evidente quanto più è disperso è il fenomeno in esame: distribuzione della variabile x in due popolazioni con µ uguali e σ diverse Un breve salto nella teoria distribuzione di campionamento delle x ia e x ib Distribuzione di campionamento delle x ib Un breve salto nella teoria 5. il fatto che le = x i si distribuiscano secondo la legge normale consente di calcolare la proba-bilità che = x sia più o meno diversa da µ. 6

Un breve salto nella teoria 6. per calcolare questa probabilità si trasforma la distribuzione di campionamento nella distribuzione normale standardizzata: Un breve salto nella teoria Un breve salto nella teoria ad ogni valore di z corrisponde un preciso valore dell'area a destra del valore stesso ad esempio per Z= 1,96 7

Segue esempio: Segue esempio: Segue esempio: la media aritmetica della popolazione è compresa in questo intervallo con una probabilità del 95%. In generale: intervallo di confidenza al livello di probabilità (1- a ) : 9

Segue esempio: ovvero u è compreso nell'intervallo indicato con una probabilità (1-a); a è l'area delle code della gaussiana ed è definita dal valore di z. Questa tabella riporta le aree tratteggiate Problema: se è sconosciuta (come spesso accade) il discorso procede come prima con due differenze: si utilizza S a1 posto di σ (σ --S ) : si utilizza la-"distribuzione t anzichè quella -- normale ( Z -- t ); l'intervallo di confidenza al livello di probabilità (1-a)`diventa: 10

Tabella Percentili della distribuzione t (questa tabella dà i valori di t che,, per diversi g.1., staccano una specificata proporzione in una o nelle due code della distribuzione t) Esempio: Nell'esempio delle glicemie per una probabilità del 95%, con (10-1)= 9 gradi di libertà; t = 2,262 la glicemia media (= µ) della popolazione degli studenti iscritti al primo anno di medicina) è compresa tra: 85,47 ± 104.53 con una probabilità del 95% Riepilogo RIEPILOGO SUGLI INTERVALLI DI CONFIDENZADELLA MEDIA ARITMETICA CAMPIONARIA se σ è conosciuta: se σ è sconosciuta: 11

Un secondo problema La letteratura riporta che i pazienti affetti da cancro hanno una sopravvivenza media di 38,3 mesi e deviazione standard di 43,3 mesi: P: µ = 38,3 mesi σ = 43,3 mesi (la distribuzione dei tempi di sopravvivenza non è sicuramente gaussiana) Si saggia la capacità di un nuovo farmaco di allungare la sopravvivenza somministrandolo a 100 pazienti ottenendo una sopravvivenza media di 46,9 mesi: (La dimensione campionaria è sufficiente a garantire la normalità della distribuzione di campionamento) Un secondo problema Formalizzo il problema avanzando due ipotesi: Un secondo problema 12

Conclusione I test statistici saggiano la veridicità dell ipotesi nulla. Si torni alla teoria dei campioni: 1. dalla popolazione con media u e deviazione standard σ: Si estraggono infiniti campioni di numerosità n 13

2. se ciascuna x =i viene considerata come un'osservazione individuale è possibile costruire una distri-buzione di campionamento (distribuzione di campionamento delle medie dei campioni di numerosità n): 3. standardizzando: Si torni al problema: 14

si accetta l'ipotesi nulla (p>0.05) è la probabilità associata alla veridicità dell'ipotesi nulla il farmaco non può essere considerato efficace Un terzo problema: si considerino 2 campioni costituiti da soggetti caratterizzati da diverse abitudini alimentari si analizzano i livelli di glicemia di ciascun soggetto appartenente ai 2 campioni e si calcolano le medie aritmetiche e le deviazioni standard: l'alimentazione condiziona i livelli glicemici? le glicemie medie nei 2 campioni differiscono per le diverse abitudini alimentari o per effetto dello errore di campionamento? Un terzo problema: È possibile avanzare due ipotesi: 15

Si torni alla teoria dei campioni formalizzandola in modo diverso rispetto agli esempi precedenti: 1. si estraggono dalla popolazione infinite coppie di campioni di numerosità fissa n1 e n2) e per ogni coppia si calcoli la differenza tra le medie aritmetiche ( x =1 - x =2); 2. il risultato è un insieme infinito di differenze di medie ( x =1 - x=2) riferite a coppie di numerosità n1 e n2,: 3. se ciascuna differenza viene considerata come un'osservazione individuale è possibile costruire una distribuzione di frequenza definita: DISTRIBUZIONE DI CAMPIONAMENTO DELLE DIFFERENZE DELLE MEDIE CAMPIONARIE DI NUMEROSITA n 1 e n 2 4. se (n1 e n2 )>30 questa distribuzione sarà del tipo: 16

5. se σ 1 e σ2 sono sconosciute, si fa riferimento alla distribuzione t: l'errore standard diventa: è necessario tenere conto dei gradi di libertà: g.l.=(n 1-1)+(n 2-1) 6. pertanto: 7. dalla tavola della distribuzione t, in corrispondenza di un'area (delle due code)=0.05 e dei gradi di libertà (=n1+n2-2) trovo il valore teorico di t. Ad esempio per 50 gradi di libertà: 17

8. mediante la formula: si calcola il valore reale di t 9. si configurano due possibilità: 10. in generale (e ad esempio per 50 gradi di libertà): 18

se: t < 2.0086 si accetta l'ipotesi nulla (p>0.05) (le due medie non differiscono significativamente) se t > 2.0086 si respinge l'ipotesi nulla (p<0.05) (le due medie differiscono significativamente) se t > 2.0086 2.0086 <t< 2.4033 si respinge l'ipotesi nulla (0.02 < p < 0.05) 2.4033 <t< 2.6778 si respinge l'ipotesi nulla (0.01 < p < 0.02) t > 2.6778 si respinge l'ipotesi nulla (p < 0.01) Si torni al problema: Dalla tavola di distribuzione t per (41+51-2)=90 gradi di libertà t > 2.6316 19

quindi si respinge l'ipotesi nulla e si accetta quella alternativa (p<0.01) le due medie differiscono significativamente (ovvero è improbabile - probabilità inferiore all' 1% - che le due medie differiscano per il solo errore di campionamento) Nella formalizzazione delle due ipotesi (H o e H 1 ) ci si era chiesto: H o = le due medie campionarie differiscono per l'errore di campionamento o H 1 = le due medie campionarie sono riferite a due popolazioni con medie diverse? in questo caso si fa riferimento alle due code della distribuzione di campionamento: 20

tornando al problema, se l'ipotesi alternativa (H fosse: x=2 > x=1 in quanto µ2 > µ1 ricordando che t = -3.1696 dalla tavola di distribuzione t per (41+51-2=)90 gradi di libertà: quindi si respinge l'ipotesi nulla e si accetta quella alternativa (p<0.005) UN QUARTO PROBLEMA si consideri un campione di 10 pazienti ipertesi cui viene somministrato un farmaco antiipertensivo; a questi pazienti viene misurata la pressione sistolica prima della somministrazione del farmaco e alcune ore dopo la somministrazione stessa: 21

La pressione arteriosa è diminuita per l'errore di campionamento (H o ) o per effetto del farmaco (H 1 )? In questo caso i 2 campioni (PAS prima e PAS dopo la somministrazione) sono appaiati (ovvero ciascuna osservazione di un campione si accoppia con una osservazione dell'altro campione). Per saggiare l'ipotesi nulla si utilizza sempre il test del t di Student per campioni appaiati. 22

DUE ERRORI NEL SAGGIARE L'IPOTESI NULLA rifiuto l'ipotesi nulla l'ipotesi nulla è vera (p<0.05) accetto di commettere un errore (di I tipo=a) inferiore al 5% di rifiutare l'ipotesi nulla benchè nella realtà sia vera. 24

DUE ERRORI NEL SAGGIARE L'IPOTESI NULLA II: errore di II tipo (β) l'errore di II tipo (β) è la probabilità associata al rischio di accettare l'ipotesi nulla benché nella realtà non sia vera. Si definisce potenza di un test il complementare all'unità dell'errore di II tipo (1-B), La potenza è la capacità di un test di respingere Ho quando questa è falsa. 25