ANALISI MULTIVARIATA Marcella Montico Servizio di epidemiologia e biostatistica... ancora sulla relazione tra due variabili: la regressione lineare semplice VD: quantitativa VI: quantitativa Misura la forza della relazione lineare tra la VD e la VI ES: influenza dell et età sulla pressione sistolica VD = pressione sistolica VI = età
ES: influenza dell et età sulla pressione sistolica VD = pressione sistolica VI = età PS media 50 100 150 200 250 20 40 60 80 100 eta Per riassumere questa relazione si può utilizzare una retta (RETTA( DI REGRESSIONE) PS media 50 100 150 200 250 0 20 40 60 80 100 eta PS media rettareg
Come si costruisce la retta La pressione varia in funzione dell et età (all aumentare aumentare dell et età aumenta la pressione) Pressione ~ età Come quantifico questa relazione? Con un coefficiente che rappresenti la pendenza della retta (che indichiamo con β) L equazione della retta Pressione ~ β X età Manca un termine costante (α) che funzioni da punto di partenza per la retta Pressione ~ α + β X età La pressione adesso è espressa in funzione dell et età,, ma non è ancora una formula matematica
Per poter passare da ~ a = inseriamo un errore: : la pressione non è determinata solamente dall et età! L equazione diventa: Pressione = α + β X età + errore Gli errori rappresentano quella parte di pressione che non è spiegata dall et età e vengono detti RESIDUI Nel nostro esempio α = 90.9 β = 0.8 Risultato Pressione = 90.9 + 0.8 X età + errore
Metodo dei minimi quadrati I parametri α e β vengono calcolati in modo che rendano minimo l errore l di approssimazione Si minimizza il quadrato della somma degli scarti dalla retta, ovvero il quadrato della distanza di ogni osservazione dalla retta: metodo dei minimi quadrati. Alcuni dati età 46 65 20 42 64 60 65 66 38 71 PS misurata 150 141 116 143 160 150 140 142 110 127 PS stimata 90.9+0.8x46 46= 90.9+0.8x65 90.9+0.8x20 90.9+0.8x42 90.9+0.8x64 90.9+0.8x60 90.9+0.8x65 90.9+0.8x66 90.9+0.8x38 90.9+0.8x71 127.4 142.7 107.1 124.9 142.5 138.7 143.3 143.5 121.3 147.4 Differenza 22.6-2.7 8.9 18.4 17.5 11.3-3.3-1.8-11.3 20.1
Alcune domande Che direzione ha la relazione età pressione? La relazione tra pressione ed età è significativa? La variabile età fino a che punto spiega la variabilità della pressione? β: : coefficiente angolare β>0 : relazione diretta, al crescere dell et età cresce la pressione β<0: relazione inversa, al crescere dell et età diminuisce la pressione β=0: indipendenza Es.
R 2 = coefficiente di determinazione β Significatività di β Coefficiente di determinazione R 2 Proporzione di varianza spiegata dalla regressione Più si avvicina a 1, migliore è il modello
Generalizzando: VD = α + β X VI + errore y= α + βx + ε Dove siamo Come verificare se l associazione l tra due variabili non è dovuta al caso (test e IC) Altre variabili possono influire su questa associazione Come misurare la forza di una relazione tra due variabili indipendentemente da potenziali variabili confondenti??
ANALISI MULTIVARIATA Insieme di metodi per considerare diverse variabili indipendenti simultaneamente Descrive la relazione tra una variabile di outcome (VD) e i suoi diversi determinanti, con lo scopo di valutare la forza delle associazioni o di predire l outcomel in condizioni diverse L analisi bivariata fornisce una visione parziale, l analisi multivariata una visione più complessa e che si avvicina di più alla realtà Il principale vantaggio dell analisi multivariata consiste nel poter apprezzare, simultaneamente ed indipendentemente, gli effetti di tutte le variabili considerate, depurandoli delle reciproche interferenze
Spiegazione non matematica ES: vogliamo fare uno studio sulla prognosi di 1 determinata malattia che non ha ancora una cura. La lunghezza della sopravvivenza di un paziente potrebbe dipendere da: Età del paziente Stadio della malattia Presenza di altre malattie (comorbilit( comorbilità) Sintomi (es( es: : dimagrimento) prognosi comorbilità stadio età sintomi
Un po di matematica Prognosi ~ età + stadio + comorbidità + sintomi Queste 4 variabili non hanno tutte necessariamente la stessa importanza, miglioriamo l espressione l dando un peso ad ognuna Prognosi ~ p1xet età + p2xstadio + p3xcomorbidit comorbidità + p4xsintomi Per passare dal circa all uguale inseriamo un termine di errore e una costante che ci serve da ancoraggio Prognosi = costante +p1 x età + p2 x stadio + p3 x comorbidità + p4 x sintomi + errore
Ricorda la regressione lineare, ma non è più semplice, è multipla VD = α + β 1 X VI 1 + β 2 X VI 2 +.. + errore y= α + β 1 x 1 + β 2 x 2 + β 3 x 3 + + ε Modelli L equazione rappresenta un modello lineare (generalizzato) A seconda del tipo di variabili, dipendente/i e indipendenti cambia l analisi l regressione lineare multipla Anova Ancova Regressione logistica Regressione di cox Ecc.
Esempio: pressione sistolica Possibili variabili influenzanti: Età (significativa) BMI (body mass index) Sesso (M o F) 0 50 100 200 PS media 150 100 100 50 eta 0 50 bmi 40 30 20 100 150 200 20 30 40 50
Relazione PS - bmi α = 90.5 β = 1.5 p<0.001 R 2 = 0.13 Relazione bmi - età α = 21.8 β = 0.1 p<0.001
Regressione lineare multipla risultati PS = f(età) Età PS = f(bmi) BMI PS = f(età,, BMI) Età BMI β 0.8 1.5 0.7 0.6 R 2 0.41 0.13 0.43
..inseriamo.inseriamo anche il sesso (1=F 2=M) PS = f(età,, BMI, sesso) Età BMI 0.6 0.44 Sesso β 0.7 2.7 R 2 PS = 74 + 0.7età + 0.6BMI + 2.7 sesso + errore Interpretazione La PS aumenta di 0.7 per ogni anno di età in più (indipendentemente da BMI e sesso) La PS aumenta di 0.6 per ogni punto di BMI in più (indipendentemente da età e sesso) La PS aumenta di 2.7 per i maschi rispetto alle femmine (indipendentemente da età e BMI)
Scopi dell analisi multivariata Spiegare le relazioni tra variabili (indipendentemente dalle altre) Prevedere in base alle variabili indipendenti (esplicative) come sarà la variabile dipendente Controllare l effetto di alcune variabili per verificare l effetto l di altre sulla VD Previsione Date le variabili dipendenti, si prevede il valore che ha la variabile dipendente Es: : 74 + 0.7età +0.6 BMI + 2.7 sesso=? età 40 45 42 bmi 25 30 20 sesso 1 2 2 PS STIMATA 119,7 128,9 120,8
Esempio: previsione della probabilità di evento cardiovascolare in funzione di sesso, età,, diabete, fumo, pressione arteriosa, colesterolemia
Controllo Si vuole verificare qual è la differenza di pressione tra maschi e femmine Maschi e femmine del campione sono però diversi per età e BMI Ho fatto l analisi l multivariata ma vorrei quantificare la differenza tra maschi e femmine Calcolo i valori corretti (o aggiustati) per sesso ed età M F Pressione media aggiustata* 125 124 P-value 0.006 *per età e bmi