Inferenza statistica II parte Marcella Montico Servizio di epidemiologia e biostatistica Test statistici II parte Variabili quantitative
Caso 1 Variabile Dipendente = quantitativa Variabile Indipendente = qualitativa Esistono due categorie di test: Test parametrici: si applicano quando la distribuzione della variabile dipendente soddisfa alcuni requisiti Test non parametrici: : si applicano quando non esistono i presupposti per un test parametrico
Requisiti I. Distribuzione normale della variabile dipendente II. Omoschedasticità (VD con varianza omogenea tra i gruppi) Esempio Valutare l influenza l del sesso sul peso alla nascita nei bambini nati a termine. A tale scopo raccogliamo i dati alla nascita di 9062 bambini nati a termine in Friuli Venezia Giulia. M F Peso in gr 3452 3312
1. Verifica normalità La variabile dipendente (peso( alla nascita) è distribuita normalmente? Sì: : passo a verificare l omoschedasticitl omoschedasticità No: utilizzo un test non parametrico Density 0.001 M 2000 2500 3000 3500 4000 4500 5000 peso alla nascita Density 0.001 F 2000 2500 3000 3500 4000 4500 5000 peso alla nascita
10 Distribuzione M e F 9 8 7 6 5 4 M F 3 2 1 0 1,7 2 2,2 2,4 2,6 2,8 3 3,2 3,4 3,6 3,8 4 4,2 4,4 4,6 4,8 5 2. Omoschedasticità La varianza nei pz trattati con farmaco 1 è simile a quella dei pz trattati con farmaco 2? Sì:: ho omoschedasticità No: ho eteroschedasticità DS M = 440 DS F = 421
Distribuzione normale Omoschedasticità Caratteristiche VD No Sì Sì Test parametrico Test non parametrico No Ulteriore criterio: relazione tra i gruppi Dipendenza: più misurazioni sullo stesso paziente (es( es: pre-post post intervento, evoluzione nel tempo), appaiamento Test (parametrico o no) per dati appaiati Indipendenza: : gruppi di soggetti diversi Test (parametrico o no) per dati non appaiati
... ritorniamo all esempio Il peso alla nascita si distribisce normalmente Le varianze sono simili I gruppi sono indipendenti Uso il test t di student per dati non appaiati risultato Peso in g DS p-value M F 3452 3312 440 421 <0.001 Il test è significativo: la differenza di peso tra i maschi e le femmine non è dovuta al caso
T test per dati appaiati VD distribuita normalmente Omoschedasticità Osservazioni appaiati es: : livello della pressione arteriosa prima e dopo l inizio l di una cura es: : confronto del peso alla nascita in coppie di gemelli Equivalente non parametrico Test U di Mann Whitney se gruppi indipendenti Test dei ranghi segnati di Wilcoxon se i gruppi sono dipendenti
Analisi della varianza (anova) Vd: : quantitativa VI: categoriale in 3 o più gruppi Requisiti: gli stessi che per il test t di student I. Distribuzione normale della VD II. Stessa varianza tra i gruppi (omoschedasticit( omoschedasticità) III. Verifica dell indipendenza dei soggetti (altrimenti anova a misure ripetute) Esempio Confronto nei punteggi riportati a un test da gruppi di ragazzi: Soffrono di cefalea tensiva ricorrente Soffrono occasionalmente di cefalea Non soffrono di cefalea Cefalea ricorrente DS 2.7 Cefale occ. 7.6 2.9 0.027 No cefalea Media 8.6 1.5 2.9 p
VD: distribuzione normale + stessa varianza tra i gruppi (omoschedasticit omoschedasticità) V indipendente Gruppi Dipendenti Indipendenti Due classi t-test test per dati appaiati t-test test dati non appaiati Più classi Anova a misure ripetute Anova VD: non normale o non omoschedastica) V indipendente Due classi Più classi Gruppi Dipendenti Indipendenti Test dei ranghi segnati di Wilcoxon Test U di Mann Whitney Test di Friedman Test di Kruskal Wallis
Variabile dipendente = dicotomica Variabile indipendente = quantitativa Modello logistico Es: : probabilità di infarto del miocardio in funzione delle calorie assunte con la dieta Caso 3 Due variabili quantitative
Correlazione lineare Valuta il legame lineare tra due variabili senza ipotesi sulla relazione di causa effetto (nessuna ipotesi su qual è la variabile dipendente) variazione congiunta Correlazione di pearson (entrambe le variabili sono normali) Correlazione di spearman o di kendal (variabili almeno ordinali) Regressione lineare Valuta una relazione di tipo lineare tra una variabile dipendente (distribuita normalmente) e una indipendente quantitativa causa-effetto Utile per previsioni