STATISTICA BIVARIATA: ALCUNI STIMOLI DI APPROFONDIMENTO (Tecn. Lab. Biomedico e Tecn. Fisiop. e Perfus. Cardiovascolare 3 Anno) 1) ASSOCIAZIONE TRA DUE CARATTERI RISCHIO RELATIVO E ODDS RATIO In uno studio retrospettivo 1, mirato a verificare se il consumo di caffè influenzi il rischio di infarto del miocardio, sono stati raccolti i dati su pazienti residenti in una cittadina. Il consumo di caffè è stato classificato come basso ( 3 tazzine al giorno) o alto (> 3 tazzine al giorno). I risultati sono mostrati in tabella. infarto si infarto no consumo di caffè consumo di caffè basso alto basso alto 48 78 135 13 Si vuole valutare l incidenza di infarto nei consumatori di caffè (alto/basso) e se l alto consumo di caffè aumenti il rischio di infarto rispetto al basso consumo. Si costruisce anzitutto la tabella x: caffè alto 78 13 1400 caffè basso 48 135 1400 totale 16 674 800 Si possono condurre, quindi, i seguenti passi di analisi. A) Esame delle proporzioni di infarto nei due gruppi (alto/basso): p a = 78/1400 = 5.6% p b = 48/135 = 3.4%. Differenza = p a p b =.% : nel gruppo caffè alto c è il.% in più di eventi rispetto al gruppo caffè basso. Rischio relativo = RR = p a /p b = 1.65: nel gruppo caffè alto c è un rischio di circa 1.6 volte superiore di avere l infarto rispetto all altro gruppo; il rischio relativo è una misura del grado di associazione tra evento e gruppo e risulta tanto più elevato (superiore a 1) quanto più l evento è associato al gruppo. Variazione percentuale = RR 1 = (p a p b )/p b = 65%: nel gruppo caffè alto si rileva un 65% in più di rischio di infarto rispetto all altro gruppo. B) Test χ per l analisi di associazione tra infarto e consumo caffè: si sottopone a verifica l'ipotesi che non esista associazione tra consumo di caffè ed insorgenza dell infarto. 1 In questi tipi di studio lo sperimentatore inizia raccogliendo i cosiddetti casi, ossia gli individui che presentano la malattia in studio, e sceglie un adatto gruppo di paragone o di controllo che comprenderà individui sani. 1
H 0 : non esiste associazione (la proporzione di persone che si sono ammalate nel gruppo caffè alto è uguale alla proporzione di coloro che si sono ammalati nel gruppo caffè basso). H 1 : esiste un'associazione (la proporzione di persone che si sono ammalate nel gruppo caffè alto è diverso da quella di coloro che si sono ammalati nell altro gruppo). La tabella delle frequenze teoriche è la seguente: Si ottiene: caffè alto 63 1337 1400 caffè basso 63 1337 1400 totale 16 674 800 χ = (78 63) /63 + (13 1337) /1337 + (48 63) /63 + (135 1337) /1337 = 7.48 p-value = 0.006 <0.01. Si rifiuta allora l ipotesi H 0 che le proporzioni di persone che hanno avuto l infarto sono uguali nei due gruppi caffè alto e caffè basso e si è portati a concludere per un associazione statisticamente significativa tra infarto e consumo di caffè. C) Odds Ratio Considerato un evento di probabilità p, l Odds dell evento è definito dalla quantità: Nel caso di tabelle x: Odds = p/(1 p). si definisce l Odds Ratio come: evento si evento no totale gruppo 1 a b a+b gruppo c d c+d totale a+c b+d n Poiché il rischio relativo RR è dato da: p1 (1 p1) p1(1 p ) ad OR = = =. p (1 p ) p (1 p ) bc 1 P robab(even to nel gruppo RR = P robab(even to nel gruppo Risulta (nel caso di evento raro): 1) ) a (a + b) = c (c + d a b ad Probab(eve nto nel gruppo 1) OR = =. c d bc Probab(eve nto nel gruppo )
L OR è una misura di associazione tra caratteri qualitativi dicotomici e si usa negli studi retrospettivi (caso-controllo) per una stima del rischio di evento tra due gruppi. Così, in situazioni reali, si è spesso in presenza di un evento (ad es. malattia) e di un fattore di rischio (o un trattamento) dicotomizzato in gruppi e si intende misurare il rischio di evento di uno dei due gruppi rispetto all altro. Una valore dell OR maggiore di 1 indica un aumento di rischio, un valore vicino a 1 si riferisce a nessuna differenza, mentre per un valore inferiore a 1 c è diminuzione di rischio. Si può determinare anche l intervallo di confidenza (IC) per l OR (ad es. al livello di confidenza del 95%), partendo 1 1 1 1 dal fatto che il suo errore standard è dato da: SE(ln(OR)) = + + +. Calcolate le quantità : a b c d inf = ln(or) 1.96 SE(ln(OR)) e sup = ln(or)+1.96 SE(ln(OR)), l estremo inferiore e quello superiore dell intervallo di confidenza sono dati da: estremo inferiore IC 95% = exp(inf) e estremo superiore IC 95% = exp(sup) Nel problema inizialmente posto: caffè alto 78 13 1400 caffè basso 48 135 1400 totale 16 674 800 OR = (78 135)/(48 13) = 1.66. E si determina, poi, l intervallo di confidenza al 95%: ln(or)=ln(1.66)=0.508 SE(ln(OR))= 1 / 78 + 1/13 + 1/ 48 + 1/135 = 0. 187 inf = ln(or) 1.96 SE(ln(OR)=0.508 1.96 0.187=0.140 sup = ln(or)+1.96 SE(ln(=R)=0.508+1.96 0.187=0.875 estremo inferiore IC = exp(inf) = exp(0.140)=1.15 estremo superiore IC = exp(sup) = exp(0.875)=.40 OR=1.66, IC 95%: [1.15;.40]. Pertanto il consumo di caffè risulta associato con il rischio di sviluppare infarto del miocardio; l OR=1.66 indica che chi fa un alto consumo di caffè ha un rischio 1.66 volte più alto di avere l infarto rispetto a chi fa un basso consumo di caffè. L intervallo di confidenza [1.15;.40] non contiene l unità e quindi, anche con l analisi dell OR, si può dire che l associazione risulta statisticamente significativa. Il simbolo ln che compare nelle formule indica il logaritmo in base il numero di Nepero. 3
) ASSOCIAZIONE TRA DUE CARATTERI FATTORI CONFONDENTI Quando si analizza la relazione tra un fattore di esposizione (o un trattamento) ed una malattia, un fattore confondente è un terzo carattere che è indipendentemente associato all esposizione ed è anche un fattore di rischio per la malattia. La presenza di un fattore confondente può alterare l associazione osservata tra esposizione ed evento. Ad esempio, nel caso del problema analizzato in 1), si supponga che il ricercatore abbia stratificato i soggetti in fumatori e non fumatori, ottenendo i seguenti risultati: infarto si infarto no consumo caffè consumo caffè basso alto basso alto fumatori 8 70 37 930 non fumatori 0 8 980 39 Calcolando l incidenza di infarto e l OR nei i gruppi (fumatori e non) per valutare l impatto dell alto consumo di caffè sul rischio di infarto, si ottiene: fumatori caffè alto 70 930 1000 caffè basso 8 37 400 totale 98 130 1400 incidenza infarto = 98/1400 = 7% OR F = 1 IC 95%: [0.63; 1.58] non fumatori caffè alto 8 39 400 caffè basso 0 980 1000 totale 8 137 1400 incidenza infarto = 8/1400 = % OR NF = 1 IC 95%: [0.43;.9] Pertanto, il fumo è un fattore confondente per l infarto in relazione al consumo di caffè: chi fuma tende anche a bere più caffè di chi non fuma e il fumo è un fattore di rischio per l infarto. Il caffè non ha influenza sull infarto e l associazione che si osserva è solo dovuta al confondimento del fumo. Tale conclusione viene rafforzata attraverso l analisi di associazione tra infarto e fumo: fumatori 98 130 1400 non fumatori 8 137 1400 totale 16 674 800 χ = 40.7 p=1.7 10-10 (altamente significativo) OR = 3.69 IC 95%: [.41; 5.65]. 4
3) SIGNIFICATIVITÀ DELLA RETTA DI REGRESSIONE Esempio 1 In tabella sono riportati i valori assunti dai due caratteri quantitativi età (ETÀ) e pressione sistolica (PAS) misurati in un campione di 8 soggetti: soggetto ETÀ (anni) PAS (mmhg) 1 131 8 114 3 35 11 4 47 111 5 51 130 6 56 145 7 67 176 8 81 17 La semplice rappresentazione grafica dei valori osservati e della retta di regressione fornisce alcune indicazioni importanti per l'interpretazione delle relazioni esistenti tra i due caratteri PAS (variabile Y) ed ETÀ (variabile X). I parametri a e b della retta di regressione Y = b X + a si stimano attraverso il principio dei minimi quadrati e risulta: b = CODEV(X, Y) DEV(X) DEV(X)= (x i x) n i= 1 i= 1 e a = y b x, CODEV(X,Y) = (x i x)(yi y). Pertanto: Interpretando i valori dei coefficienti della retta di regressione si può dire: n b= 1.54 e a = 68.75 l aumento medio della pressione è di circa b=1.5 mmhg per l aumento di un anno di età. alla nascita il valore della pressione sarebbe (!) di a=68.75 mmhg, ma questa è una indicazione teorica perché non è possibile stimare il valore della pressione arteriosa per età fuori del range considerato ( 81 aa). Il valore del coefficiente di regressione b indica di quanto aumenta in media la variabile dipendente Y all'aumento di una unità della variabile indipendente X. Con il metodo dei minimi quadrati è sempre possibile ottenere la retta che meglio si adatta ai dati rilevati, indipendentemente dalla dispersione dei punti intorno alla retta. Tuttavia il semplice calcolo della retta non è affatto sufficiente ai fini dell analisi statistica. 5
La retta potrebbe indicare: una relazione reale tra le due variabili, se il valore di b è alto e la dispersione dei punti intorno alla retta è ridotta; relazione casuale o non significativa, quando la dispersione dei punti intorno alla retta è aprossimativamente uguale a quella intorno alla media. La figura che segue esprime alcune situazioni di dipendenza o meno. Il coefficiente b della retta di regressione, che determina appunto la quantità di variazione di Y per ogni unità aggiuntiva di X, è calcolato da osservazioni sperimentali. Ciò che tuttavia interessa al ricercatore è la relazione esistente nella popolazione, e sebbene il valore di b sia differente da zero, non è detto che nella popolazione al variare di X si abbia una variazione di Y. La significatività del coefficiente di regressione nella popolazione (β) può essere saggiata mediante la verifica dell ipotesi nulla: H 0 : β= 0. Accettando H 0 si assume che il valore reale del coefficiente angolare sia β= 0, dunque al variare di X, Y resta costante e uguale al valore dell'intercetta a, pertanto non esiste alcun legame tra X e Y. Rifiutando H 0, si accetta l ipotesi alternativa H 1 : β 0. Dunque al variare di X si ha una corrispondente variazione sistematica di Y. Un metodo per la verifica della significatività della retta calcolata è il test F di Fisher-Snedecor, che si basa sulla scomposizione delle devianze. La somma dei quadrati delle distanze tra i tre punti y i, ŷ i e y definiscono le tre devianze: devianza totale, devianza della regressione o devianza dovuta alla regressione, devianza d'errore o devianza residua: n devianza totale = (y y) i= 1 i n devianza di regressione = ( ŷ y) i= 1 i n devianza residua = (y i= 1 i ŷ ) i devianza totale = devianza di regressione + devianza residua 6
Dividendo la devianza di regressione e quella residua per i relativi gradi di libertà (1 ed n 1 gdl rispettivamente) si stimano la varianza di regressione e la varianza residua. Il rapporto: Varianza di Regression e Varianza Residua determina il valore del test F di Fisher con 1 e n gdl (indicato con F (1,n-) ). Senza entrare nel merito della trattazione della distribuzione di tale statistica, si tenga semplicemente presente che per applicare la metodologia del test F si può far riferimento alle Tavole della F : Se l F calcolato sui dati campionari è inferiore a quello tabulato (per il prefissato valore di probabilità e i gradi di libertà corrispondenti) l ipotesi nulla H 0 non può essere rifiutata (non esiste regressione lineare statisticamente significativa). Se l F calcolato supera quello tabulato si rifiuta l'h 0 e si accetta H 1 (la regressione lineare tra le due variabili è significativa). Se β=0, la varianza dovuta alla regressione e quella residua sono stime indipendenti e non viziate della variabilità dei dati. Se β 0, la varianza residua è una stima non viziata della variabilità dei dati, mentre la varianza dovuta alla regressione è stima di una grandezza maggiore della varianza residua. Di conseguenza. il rapporto tra le due varianze è da ritenersi utile alla verifica dell'ipotesi β=0. Si tenga comunque presente che rifiutare H 0 : non significa che non esiste relazione tra le due variabili, ma solamente che non esiste una relazione di tipo lineare; significa che potrebbe esistere una relazione di tipo differente, come quella curvilinea di secondo grado o di grado superiore. La trasformazione di uno o di entrambi gli assi è spesso sufficiente per ricondurre una relazione di tipo curvilineo a quella lineare: la crescita esponenziale di una popolazione nel tempo, generata da tassi costanti, diviene lineare con la trasformazione logaritmica del tempo, usualmente riportato sull'asse delle ascisse; la relazione curvilinea tra lunghezza e peso di individui della stessa specie diviene lineare con la trasformazione mediante radice cubica del peso, correlato linearmente al volume; l'analisi statistica permette qualsiasi tipo di trasformazione che determini una relazione lineare tra due variabili Tornando all esempio 1, supposto che il campione estratto dalla popolazione oggetto di studio sia significativo, con le tecniche dell inferenza statistica occorre verificare: se la retta può essere assunta come rappresentativa di una relazione lineare tre le due variabili; se è corretto affermare che, nella popolazione di riferimento, ad una variazione di età corrisponde un cambiamento lineare della pressione sistolica; se, mediante il test F, β=0 (ipotesi H 0 ) oppure β 0 (ipotesi H 1 ). Si calcola la seguente tabella: Devianza gdl Varianza Regressione 6543.1 1 6543.1 Residua 687.8 6 447.9 Totale 930.9 7 7
F (1,6) = In merito alla valutazione del risultato si può dire: 6543.1 =14.61 447.9 il valore critico riportato nelle tavole di F per 1 e 6 gdl e per un livello di significatività α=0.01 è pari a 13.75; il valore calcolato di F è superiore a quello critico; si rifiuta H 0 : si può supporre un rapporto lineare tra le variazioni di età e pressione sistolica. La stima della significatività della retta (verifica dell'esistenza di una relazione lineare tra le variabili) può essere condotta anche con il test t di Student, con risultati equivalenti al test F. Il test t è : fondato su calcoli didatticamente meno evidenti di quelli del test F, ma offre il vantaggio di poter essere applicato sia in test unilaterali (β>0 oppure β<0) che in test bilaterali (β 0); basato sul rapporto tra il valore del coefficiente di regressione b (che rappresenta la risposta media di Y ai diversi valori di X entro il suo intervallo di variazione) ed il suo errore standard SE(b) dato da: SE(b) = Varianza Residua DEV(X) e utilizza la statistica: b β t (n-) = = F (1,n ) SE(b) dove β è il valore atteso e i gdl sono n. Coefficiente Errore Standard t Significatività Constante 68.748 0.850 3.97.016 ETÀ 1.538.40 3.8.009 Si evidenzia anche in tal modo un rapporto lineare significativo tra le variazioni di età e pressione sistolica. Utilizzando il software R, dopo aver introdotto i caratteri ETA e PAS e costruito il modello lineare: > ETA=c(,8,35,47,51,56,67,81) > PAS=c(131,114,11,111,130,145,176,17) > mod=lm(pas~eta) attraverso il comando: anova(mod) si ottiene: Df Sum Sq Mean Sq F value Pr(>F) ETA 1 6543.0 6543.0 14.606 0.008743 ** Residuals 6 687.8 448.0 dove Df indica i gdl, Sum Sq le devianze, Mean Sq le varianze e Pr(>F) il p-value, essendo quest ultimo minore di 0.01 si rifiuta l H 0. Col comando summary(mod) si ottengono i coefficienti del modello regressivo ma anche valori del coefficiente di determinazione R-squared, che, per i dati in esame, permette di propendere per la bontà del modello. 8
Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) 68.7481 0.8504 3.97 0.01647 * ETA 1.5375 0.403 3.8 0.00874 ** Multiple R-squared: 0.7088, Adjusted R-squared: 0.6603 In ogni caso va osservato che l esempio proposto ha una funzione esclusivamente didattica e che senza dubbio una inferenza con un numero di dati così eseguo ha scarso significato applicativo. Di seguito sono proposte altre due applicazioni della regressione, con alcuni risultati, lasciando al lettore l opportunità di commentare i risultati. Esercizio n. X = Consumo pro-capite di tabacco per sigarette (kg/anno), Y = Quoziente di mortalità per tumore maligno della laringe, trachea, bronchi e polmoni (per 100.000 abitanti) Anni 1985 1986 1987 1988 1989 1990 1991 199 1993 1994 X 0.81 0.417 0.485 0.604 0.648 0.657 0.660 0.719 0.761 0.790 Y 5.05 5.07 5.81 6.50 7.16 8.38 8.14 8.05 8.56 9.00 Sempre attraverso l utilizzo di R si ottengono i risultati del test F ed i coefficienti b ed a: Df Sum Sq Mean Sq F value Pr(>F) X 1 17.4051 17.4051 61.658 4.993e-05 *** Residuals 8.583 0.83 Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) 1.9759 0.687.894 0.001 * X 8.685 1.0989 7.85 4.99e-05 *** Multiple R-squared: 0.885, Adjusted R-squared: 0.8708. Si può dire che qualora il consumo annuo di tabacco pro-capite aumenti di 1 kg si avrà, mediamente, un aumento di circa 9/100.000 della mortalità nella popolazione analizzata. 10 Analisi dei residui 9, Decessi per 100.000 ab. 8 7 6 5 4 3 1 0,1, Y = 1.98 + 8.63 X,3,4,5,6 R = 0.94 Rsq = 0.88,7,8 Residui relativi (residui/decessi osservati),1 0,0 -,1 -, 4 5 6 7 8 9 Consumo tabacco (kg/anno) Decessi stimati dal modello 9
Esempio 3 Studio della relazione tra Capacità Vitale CV (=volume massimo di aria che è possibile contenere nei polmoni dopo un inspirazione profonda) di un campione di fumatori rispetto al numero di sigarette fumate giornalmente dagli stessi. Soggetto N Sigarette (X) CV (l aria) (Y) 1 6.5 4 6.5 3 5 6.0 4 6 5.9 5 7 5.5 6 8 5.5 7 9 5.0 8 10 4.0 9 11 4.0 10 1 4.4 11 13 4.1 1 14 3.5 13 15 3.4 14 16 3. 15 0.8 16.5 Ecco i risultati in R: Df Sum Sq Mean Sq F value Pr(>F) Sigarette 1 4.1889 4.1889 00.5 1.097e-09 *** Residuals 14 1.6911 0.108 Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) 6.9970 0.1935 36.16 3.16e-15 *** Sigarette -0.50 0.0159-14.15 1.10e-09 *** Multiple R-squared: 0.9347, Adjusted R-squared: 0.93 Il valore b = 0.5 indica che ogni sigaretta in più fumata comporta in media una diminuzione di capacità vitale pari a 0.5 l. L intercetta a = 6.99 rappresenta il valore medio di CV per i non fumatori. 10