Metodologia epidemiologica Verifica di ipotesi Quale test utilizzare? Statistica medica Alla fine di questa lezione dovreste essere in grado di: riconoscere i principali test utilizzati nel confronto di due gruppi riconoscere i principali test utilizzati nel confronto di più di due gruppi descrivere i criteri per la scelta del test statistico più appropriato interpretare I risultati della valutazione dell associazione fra due variabili Methods in epidemiology Medical statistics - Analysis 1
Qualche principio generale dell analisi statistica Le analisi devono essere preferibilmente poche e definite a priori Altre analisi possono essere suggerite dai dati. Hanno però carattere esplorativo e suggeriscono solo nuove ipotesi da sottoporre ad ulteriore verifica L analisi statistica è generalmente fatta al computer con software specifico Il computer vi darà la risposta giusta solo se voi gli farete la domanda giusta The good news is that statistical analysis is becoming easier and cheaper. The bad news is that statistical analysis is becoming easier and cheaper. Hofacker (1983) cited by Altman 1991 If you torture your data long enough, they will tell you whatever you want to hear JL Mills. NEJM 1993 Alcune domande L aggiunta di desametazione alla terapia antibiotica modifica la probabilità di lesioni neurologiche nei pazienti adulti con meningite batterica? Il gruppo sanguigno è associato al genere? C è associazione fra altezza e fattore Rh? I valori di 17-β-estradiolo sono diversi nei pazienti trattati con tamoxifen o letrozole? I nuovi farmaci antiipertensivi (amlodipina, lisinopril) sono migliori (o altrettanto buoni) dei diuretici nel ridurre le complicazioni cardiovascolari? I valori di 17-β-estradiolo dopo 6 e 1 mesi di trattamento sono significativamente ridotti con il tamoxifene o letrozole?
Nel confronto di gruppi Quanti sono i gruppi confrontati (, >)? I gruppi confrontati sono indipendenti (o appaiati)? Quale tipo di variabile è valutata (quantitativa, ordinale, nominale)? I dati sono distribuiti in maniera approssimativamente normale? L interpretazione dei risultati rimane comunque la stessa L aggiunta di desametazione alla terapia antibiotica modifica la probabilità di lesioni neurologiche nei pazienti adulti con meningite batterica? Quanti sono i gruppi confrontati (, >)? I gruppi confrontati sono indipendenti (o appaiati)? indipendenti Quale tipo di variabile è valutata (quantitativa, ordinale, nominale)? nominale I dati sono distribuiti in maniera approssimativamente normale? Outcome Dexamethasone Placebo Total Unfavorable 3 36 59 Favorable 134 108 4 Total 157 144 301 P = 0.03 3
Quale test? Metodologia clinica _Efficacia_I risultati dello studio Test chi-quadrato (χ ) Se non ci fosse alcun effetto del desametazone (cioè se la probabilità di lesione fosse la stessa nei pazienti con e senza il trattamento), quanti pazienti ci aspetteremmo di osservare per ogni combinazione di modalità solo per effetto del caso? Frequenze osservate Outcome Dexamethasone Placebo Total Unfavorable 3 36 59 Favorable 134 108 4 Total 157 144 301 Frequenze attese Outcome Dexamethasone Placebo Total Unfavorable 30.8 8. 59 Favorable 16. 115.8 4 Total 157 144 301 e.g. P (unfav outcome e Dexa) = (157/301)* (59/301)*301 = 30.8 ( O E) χ = = 5. 11 g.l. = 1 E 4
In realtà i gruppi sono stati confrontati con il test esatto di Fisher 5
Il gruppo sanguigno è associato al genere? Quanti sono i gruppi confrontati (, >)? I gruppi confrontati sono indipendenti (o appaiati)? indipendenti Quale tipo di variabile è valutata (quantitativa, ordinale, nominale)? nominale I dati sono distribuiti in maniera approssimativamente normale? Gruppo sanguigno Tabella di contingenza x4 Donna Uomo Totale 0 5 49 101 A 30 0 50 B 5 4 9 AB 16 1 8 Totale 103 85 188 Quale test? Metodologia clinica _Efficacia_I risultati dello studio 6
Test chi-quadrato (χ ) Se non ci fosse associazione fra genere e gruppo sanguigno, quanti pazienti ci aspetteremmo di osservare per ogni combinazione di modalità solo per effetto del caso? Frequenze osservate Gruppo sanguigno Donna Uomo Totale 0 5 49 101 A 30 0 50 B 5 4 9 AB 16 1 8 Total 103 85 188 Gruppo sanguigno Frequenze attese Donna Uomo Totale 0 55.3 45.7 101 A 7.4.6 50 B 4.9 4.1 9 AB 15.3 1.7 8 Total 103 85 188 e.g. P (donna and B) = (103/188)* (9/188)*188 = 4.9 ( O E) χ = = 1. 06 g.l. = 3 E 7
Test chi-quadrato (χ ) Se non ci fosse associazione fra genere e gruppo sanguigno, quanti pazienti ci aspetteremmo per ogni combinazione di modalità solo per effetto del caso? Frequenze osservate Gruppo sanguigno e.g. P (donna and B) = (103/188)* (9/188)*188 = 4.9 Donna Uomo Totale 0 5 49 101 A 30 0 50 B 5 4 9 AB 16 1 8 Total 103 85 188 ( O E) χ = = 1. 06 g.l. = 3 E Gruppo sanguigno Frequenze attese Donna Uomo Totale 0 55.3 45.7 101 A 7.4.6 50 B 4.9 4.1 9 AB 15.3 1.7 8 Total 103 85 188 0,70 < P < 0,90 Non ci sono prove sufficienti per confutare l ipotesi nulla che le due variabili siano indipendenti C è associazione fra altezza e fattore Rh? Quanti sono i gruppi confrontati (, >)? I gruppi confrontati sono indipendenti (o appaiati)? indipendenti Quale tipo di variabile è valutata (quantitativa, ordinale, nominale)? quantitativa Numerosità = 0 n + = 15 n - = 5 µˆ+ µˆ = 171.3 = 166.6 ˆ δ = ˆ µ ˆ µ = 4.7 + I dati sono distribuiti in maniera approssimativamente normale? sì 8
Quale test? Metodologia clinica _Efficacia_I risultati dello studio C è associazione fra altezza e fattore Rh? Quanti sono i gruppi confrontati (, >)? I gruppi confrontati sono indipendenti (o appaiati)? indipendenti Quale tipo di variabile è valutata (quantitativa, ordinale, nominale)? nominale I dati sono distribuiti in maniera approssimativamente normale? sì Numerosità = 0 n + = 15 n - = 5 µˆ+ µˆ = 171.3 = 166.6 ˆ δ = ˆ µ ˆ µ = 4.7 + Test t di Student g.l.= 18 α = 0.05 9
Distribuzione t di Student PROBABILITA' ( code) PROBABILITA' (1 coda) GL 0,1 0,05 0,0 0,01 0,05 0,05 0,01 0,00 5 1 6,31 1,71 31,8 63,66 6,31 1,71 31,8 63,66,9 4,30 6,96 9,9,9 4,30 6,96 9,9 3,35 3,18 4,54 5,84,35 3,18 4,54 5,84 4,13,78 3,75 4,60,13,78 3,75 4,60 5,0,57 3,36 4,03,0,57 3,36 4,03 6 1,94,45 3,14 3,71 1,94,45 3,14 3,71 7 1,89,36 3,00 3,50 1,89,36 3,00 3,50 8 1,86,31,90 3,36 1,86,31,90 3,36 9 1,83,6,8 3,5 1,83,6,8 3,5 10 1,81,3,76 3,17 1,81,3,76 3,17 11 1,80,0,7 3,11 1,80,0,7 3,11 1 1,78,18,68 3,05 1,78,18,68 3,05 13 1,77,16,65 3,01 1,77,16,65 3,01 14 1,76,14,6,98 1,76,14,6,98 15 1,75,13,60,95 1,75,13,60,95 16 1,75,1,58,9 1,75,1,58,9 17 1,74,11,57,90 1,74,11,57,90 18 1,73,10,55,88 1,73,10,55,88 19 1,73,09,54,86 1,73,09,54,86 0 1,7,09,53,85 1,7,09,53,85 1 1,7,08,5,83 1,7,08,5,83 1,7,07,51,8 1,7,07,51,8 3 1,71,07,50,81 1,71,07,50,81 4 1,71,06,49,80 1,71,06,49,80 5 1,71,06,49,79 1,71,06,49,79 6 1,71,06,48,78 1,71,06,48,78 7 1,70,05,47,77 1,70,05,47,77 8 1,70,05,47,76 1,70,05,47,76 9 1,70,05,46,76 1,70,05,46,76 30 1,70,04,46,75 1,70,04,46,75 1,64 1,96,05,33 1,64 1,96,05,33 0,5 0,4 0,3 0, 0,1 0,0 Area nelle due code -4,0-3,0 -,0-1,0 0,0 1,0,0 3,0 4,0 t Se t < -.10 si rifiuta H 0 Se t < -.10 si rifiuta H 0 Se -.10 < t <.10 non si rifiuta H 0 P = 0.34 I valori di 17-β-estradiolo sono diversi nei pazienti trattati con tamoxifen o letrozole? Quanti sono i gruppi confrontati (, >)? I gruppi confrontati sono indipendenti (o appaiati)? indipendenti Quale tipo di variabile è valutata (quantitativa, ordinale, nominale)? (quantitativa) ordinata Mediana e intervallo interquartile di 17-β-estradiol (pg/ml) dopo 6 mesi di trattamento Tamoxifen: 7.95 (<5 to 43.9) Letrozole: <5 (<5 to 4.5) P = 0.0008 I dati sono distribuiti in maniera approssimativamente normale? no 10
Quale test? Metodologia clinica _Efficacia_I risultati dello studio I nuovi farmaci antiipertensivi (amlodipina, lisinopril) sono migliori (o altrettanto buoni) dei diuretici nel ridurre le complicazioni cardiovascolari? Quanti sono i gruppi confrontati (,>)? 3 I gruppi confrontati sono indipendenti (o appaiati)? indipendenti Quale tipo di variabile è valutata (quantitativa, ordinale, nominale)? Tempo all evento I dati sono distribuiti in maniera approssimativamente normale? Due confronti principali previsti: 1. Amlodipine vs chlortalidone. Lisinopril vs chlortalidone Metodologia clinica _Efficacia_I risultati dello studio 11
I valori di 17-β-estradiolo dopo 6 e 1 mesi di trattamento sono significativamente ridotti con il tamoxifene o letrozole? Quanti sono i gruppi confrontati (,>)? 3 I gruppi confrontati sono indipendenti (o appaiati)? appaiati Quale tipo di variabile è valutata (quantitativa, ordinale, nominale)? (quantitativa) ordinata I dati sono distribuiti in maniera approssimativamente normale? no Metodologia clinica _Efficacia_I risultati dello studio Ordinale Nominale appaiata Test di Friedman 1
Valutare la relazione fra due variabili quantitative 1) Come si può misurare la relazione fra due variabili quantitative continue (cioè i valori di una variabile sono più alti quando anche quelli dell altra sono più alti (o viceversa)? correlazione ) Si può predire il valore di una variabile conoscendo i valori dell altra? regressione Valutare la relazione fra due variabili quantitative 1) Come si può misurare la relazione fra due variabili quantitative continue (cioè i valori di una variabile sono più alti quando anche quelli dell altra sono più alti (o viceversa)? correlazione ) Si può predire il valore di una variabile conoscendo i valori dell altra? regressione 13
Coefficiente di correlazione (r) Misura il grado di accostamento lineare tra i valori di due variabili Altezza (cm) 160 170 180 190 Assume tutti i valori fra 1 e +1 Gli estremi si ottengono solo quando i punti sono tutti su una linea retta I segni e + si riferiscono al verso dell associazione Una correlazione vicina allo zero indica che non c è una relazione lineare fra le due variabili 4 6 8 30 3 34 Avambraccio(cm) Il coefficiente di correlazione di Spearman (non parametrico, r s ) si calcola sui ranghi delle osservazioni Alcuni esempi 15 0 5 30 35 40 45 50 r = 1 r = 0.65 15 0 5 30 35 40 45 50 15 0 5 30 35 40 45 50 r = -0.57 15 0 5 30 35 40 45 50 15 0 5 30 35 40 45 50 15 0 5 30 35 40 45 50 15 0 5 30 35 40 45 50 r = 0 0 4 6 8 10 1 r = 0 0 10 0 30 40 50 r > 0? 15 0 5 30 35 40 45 50 0 4 6 8 10 1 0 10 0 30 40 50 14
Valutare la relazione fra due variabili quantitative 1) Come si può misurare la relazione fra due variabili quantitative continue (cioè i valori di una variabile sono più alti quando anche quelli dell altra sono più alti (o viceversa)? correlazione ) Si può predire il valore di una variabile conoscendo i valori dell altra? regressione Regressione lineare Altezza (cm) Si stima una retta a partire dai dati osservati che permette di stimare il valore atteso della variabile dipendente (y) conoscendo il valore della variabile indipendente (x) 160 170 180 190 y = α + βx ) ) yi = α + β xi + e ) ) ) y = α + β e i x i ) y i y i = (obs exp) 4 6 8 30 3 34 Avambraccio (cm) 15
Regressione lineare La migliore retta di regressione è quella che rende minimi gli scarti osservati dalla retta stimata Altezza (cm) 160 170 180 190 ) µ, ) ) ( x µ y 4 6 8 30 3 34 Avambraccio (cm) y = α + βx ) ) yi = α + β xi + e ) ) ) y = α + β e i x i ) y i y i = (obs exp) n ( ) y i yˆ i i= 1 yˆ = 98.1+. 7 i x i Glicemia in funzione dell età in 106 soggetti con ridotta tolleranza al glucosio Glicemia 10 110 100 90 80 La domanda è Possiamo predire i valori di glicemia a partire dall età nelle persone con ridotta tolleranza al glucosio? 70 0 0 40 60 80 Età glicemia = 86.0 + 0,1 (età) 16
Inferenza sulla retta di regressione L inferenza è generalmente limitata al coefficiente di regressione β ) L ipotesi nulla è generalmente che non vi sia relazione lineare fra x e y H o = β = 0 Intervallo di confidenza 95% di ) ) β ±1. 96* SE( β ) β ) Altezza (cm) 165 170 175 180 185 190 Intervallo di confidenza della retta di regressione 4 6 8 30 3 Avambraccio (cm) 17