Correlazione e regressione

SMID a.a. 2004/2005 Corso di Metodi Statistici in Biomedicina Correlazione e regressione 28/1/2005

Relazioni Che rapporto c'è tra la pressione arteriosa e il peso corporeo? relazione tra due variabili continue C'è un legame tra peso corporeo e complicanze cardiovascolari? una variabile continua (il peso) e una variabile nominale (incidente cerebro-vascolare: si/no) Che rapporto c'è tra sesso e rischio cardiovascolare? due variabili nominali (sesso: maschio/femmina, complicanza cardiovascolare: si/no)

y Variabili continue rapporto tra x e y descritto dall equazione y = a + bx la retta che x meglio interpola i a è l'intercetta (y per x = 0) dati (best fit) b la pendenza (slope) della retta operazione su un campione di dati della popolazione

Interpolazione Il campione fornisce una stima (non una certezza) dei parametri della popolazione per ogni valore della x esistono molti possibili valori della y che hanno una distribuzione Gaussiana il problema è trovare una intercetta e una pendenza della retta tali da minimizzare la distanza di ciascuno dei punti dalla retta Come per la varianza è conveniente elevare al quadrato le deviazioni dei punti rispetto alla retta e minimizzare la somma dei quadrati delle deviazioni metodo dei minimi quadrati o least squares method

y Residui Sono le deviazioni dei singoli punti dalla retta y x le deviazioni dovute alla regressione distanza delle singole y i dalla y media (cioè dalla linea orizzontale) x

Stima variabilità dei dati residui residui 2 dev. regr. (dev. regr.) 2-1,5 2,25-3,2 10,24 1,3 1,69 0,0 0,00-0,7 0,49-1,3 1,69 0,8 0,64 1,5 2,25-0,8 0,64 0,5 0,25 1,3 1,69 3,0 9,00 i punti possono essere più o meno distanti dalla retta residui2 = 7,40 regressione2 = 23,43 se i punti sono molto vicini esiste un rapporto stretto

Coefficiente di correlazione r = regressione 2 residui2 + regressione 2 detto anche coefficiente di Pearson residui = 7,40 regressione = 23,43 r = 23,24 / 30,83 = 0,76 I rapporti tra due variabili possono essere, oltre che consensuali e ascendenti rapporto diretto oppure discordanti e discendenti rapporto inverso

Relazione funzionale 69 67 y = 10 + 0,3 x peso (Kg) 65 63 61 59 57 peso = 10 + 0,3 altezza 55 150 160 170 180 190 200 r = 0,9750 R 2 = 0,9507 altezza (cm) Utilizzo di pacchetti statistici!

Minimi quadrati 95 90 85 80 75 Peso (kg) 70 65 60 55 50 45 40 150 155 160 165 170 175 180 185 190 Altezze (cm) valore che minimizza la distanza (al quadrato) tra il valore y i sperimentale ed il valore y i teorico r = 0.7624 y = 1,1039 x 125.75 R 2 = 0.5812

Variabili ordinali Stadi di malattia, numero di individui affetti, ecc.) uso approccio diverso dal metodo dei minimi quadrati le variabili x e y vengono ordinate in serie crescenti per testare il loro accordo gerarchico (ranghi) L accordo è ideale quando al più basso valore di x corrisponde il più basso valore di y e così via fino ad arrivare ai valori massimi Coefficiente di correlazione di Spearman coincide con il coefficiente di correlazione per serie di dati >20

195 185 175 165 155 145 Esempio ambiguo Date le altezze (cm) di studenti verso il tipo di diploma acquisito qual è il tipo di correlazione? Altezza (cm) 0 1 2 3 4 5 6 Correlazione nulla?! Tipo di diploma Tipo di calcolo identico sia per effettuare un'analisi di correlazione o un'analisi di regressione dei dati

Altra espressione Coefficiente di Pearson indica grado di correlazione r = (x i m x )(y i m y ) / (x i m x ) 2 (y i m y ) 2 Il valore di r assume tutti i numeri reali tra -1 r 1 Valori positivi di r indicano correlazione positiva Valori negativi di r indicano correlazione negativa r = 0 indica assenza di correlazione r = 1 si ha correlazione diretta completa (funzionale) r = 1 correlazione inversa completa (funzionale) Correlazione non implica relazione causale!

Covarianza Come si è definita la varianza di una variabile x Var(x) = (x i m x ) 2 / N si definisce covarianza di due variabili x ed y come: Cov(x, y) = (x i m x )(y i m y ) / N Varianza non è altro che la covarianza di x con x stesso Il coefficiente di correlazione r = (x i m x )(y i m y ) / (x i m x ) 2 (y i m y ) 2 Può essere quindi visto come r(x,y) = Cov(x, y) / Var(x) Var(y)

18000 16000 14000 12000 10000 8000 6000 4000 2000 0 Validità della correlazione Pensione annua ( ) rispetto agli anni di contributi 20000 r = 0,773627 0 5 10 15 20 R = 0,773622 R buono e valido cresce costantemente all aumentare degli anni di contributi 25000 20000 15000 10000 5000 0 R buono ma ingannevole cresce rapidamente, ha un massimo e poi tende a decrescere 0 5 10 15 20

Correlazione Si calcola quando siamo interessati a quantificare la forza dell'associazione tra due variabili continue e la direzione del loro accordo R 2 detto coefficiente di determinazione, esprime in che misura la variabilità di una certa variabile y si associa a quella di un'altra variabile x Se r = 0.70 R 2 = 0.70 0.70 = 0.49 Questo vuol dire che il 49% della variabilità di y è spiegato dalla concomitante variabilità di x stime valide solo se i valori di x sono casuali

Regressione In un problema di regressione le due variabili non svolgono più un ruolo simmetrico (associazione) Nella regressione lo studio consiste nella ricerca della relazione funzionale tra i valori della variabile x ed i valori medi della variabile y non è tanto la forza dell'associazione tra le due variabili quanto la stima di una variabile essendo nota l'altra che sarà ovviamente più o meno precisa in dipendenza della forza della loro correlazione

Uso della regressione peso = 10 + 0,3 altezza peso [Kg] = 10 [Kg] + 0,3 [Kg/cm] altezza [cm] possiamo stimare che un soggetto alto 150 cm ha un peso di 55 kg e uno alto 200 cm pesi 70 Kg ci fideremo poco di questa stima se il coefficiente di correlazione è basso (ad esempio se r = 0.3) R 2 = 0.09 indica che solo il 9% della variabilità del peso è spiegata dalla variabilità dell'altezza Viceversa daremmo valore alla stima se r = 0.80 (R 2 = 0.64) o r = 0.90 (R 2 = 0.81)

Conclusione Correlazione e regressione non sono la stessa cosa Si può trovare un identica correlazione tra due serie di valori senza che questo implichi che le due serie di valori siano descritte da rette identiche cioè con la stessa intercetta e la stessa pendenza Viceversa noi possiamo comunque essere interessati a stimare un certo valore di y a partire da un valore dato di x ossia la regressione di y su x anche se la forza dell associazione non è elevata

Regressione multipla Possiamo stimare la pressione arteriosa media a partire dal peso dei pazienti e stabilire la forza di questa associazione (correlazione) Tuttavia oltre al peso corporeo, molti altri fattori possono influenzare la pressione arteriosa, ad es. il numero di sigarette fumate, l'apporto di sale, ecc Tutte queste informazioni aggiuntive indubbiamente potrebbero arricchire la precisione della stima e pertanto sarebbe riduttivo escluderle dall'analisi Se la variabile è influenzata da più variabili essa può essere stimata con la regressione multipla

Parametri Possiamo immaginare un'equazione analoga alla regressione lineare ma fondata su più variabili la pressione arteriosa media (PAM) può essere stimata in base al peso e al fumo Tutte queste informazioni aggiuntive indubbiamente potrebbero arricchire la precisione della stima e pertanto sarebbe riduttivo escluderle dall'analisi PAM = a + b peso + c n_sigarette a è l'intercetta della regressione multipla b e c sono i coefficienti del peso corporeo e del numero di sigarette

Correlazione multipla PAM a = 90 mmhg, b = 0.6 Kg, c = 0.5 sigarette peso numero sigarette un uomo che pesa 100 Kg e fuma 20 sigarette al giorno PAM = 90 + 0.6 100 + 0.5 20 = 160 mmhg Le equazioni multiple possono avere molte variabili indipendenti e altrettanti coefficienti (b, c, d, e,.) coefficienti di regressione indicati con la lettera B i

Componenti multiple Nella regressione multipla la forza dell'associazione tra la variabile dipendente e le variabili indipendenti è espressa dal coefficiente di regressione multipla (R) e dal relativo coefficiente di determinazione (R 2 ) Ai singoli coefficienti di regressione che compongono l'equazione si può attribuire una significatività basta paragonare di volta in volta il coefficiente di determinazione (R 2 ) del modello (full model) con un secondo coefficiente di determinazione (R 2 ) calcolato escludendo la variabile corrispondente cioè con un modello ridotto (reduced model)

Verifica dei modelli Se l'r 2 non si modifica vuol dire che il coefficiente non è significativo viceversa sarà tanto più significativo quanto più si abbassa l'r 2 I valori espressi nei coefficienti di regressione consentono di predire la variabile dipendente ma non ci danno alcuna informazione sul loro peso relativo Per predire la pressione è più importante il peso o il fumo? I coefficienti di regressione sono espressi in unità di misura differenti e i loro valori non possono essere paragonati

Standardizzazione Per rendere paragonabili i valori dei coefficienti di regressione possiamo standardizzarli Una volta trasformati i coefficienti di regressione in coefficienti di regressione standardizzati (o beta) possiamo metterli a confronto e stabilire l'importanza relativa di ciascuna variabile indipendente Se il coefficiente standardizzato del peso corporeo è 0.2 e quello del fumo è 0.1 il peso è un determinante per la pressione arteriosa media 2 volte più importante del fumo!

Scelta delle variabili Un modello statistico è tanto più efficiente quanto minore è il numero di variabili indipendenti (explanatory variables) che utilizza per predire) la variabile dipendente con adeguata accuratezza Se, ad esempio, abbiamo 7 variabili indipendenti ci possiamo chiedere quali di queste 7 vale la pena introdurre nell'equazione Una variabile indipendente con una coefficiente standardizzato basso contribuisce poco alla stima della variabile dipendente e complica inutilmente l'equazione multipla

Costruzione dei modelli Per costruire un modello multiplo possiamo partire da una sola variabile indipendente quindi aggiungerne una seconda Se il coefficiente di determinazione (R 2 ) aumenta possiamo giudicare opportuno utilizzare anche la seconda variabile indipendente Procediamo quindi con una terza variabile e ripetiamo la stessa verifica e così via Questo modo di procedere introducendo una variabile per volta è la tecnica stepwise I dati vengono in genere presentati in tabelle

step 1 2 3 4 variabile peso fumo sale - Tabelle di scelta R 2 0,32 0,48 0,49 - variazione 16 % 1 % - probabilità <0,01 < 0,01 n.s. Introducendo la seconda variabile l'r 2 passa da 0.32 a 0.48 (cioè l'equazione predice con accuratezza del 16% più alta la variabile dipendente) questo aumento di R 2 è significativo stop quando non c'è più guadagno in significatività -

Sequenza variabili Utilizzare una gerarchia predeterminata in base alla nostra conoscenza dei fenomeni oppure lasciarci guidare dal computer la forza dell'associazione espressa da un certo coefficiente standardizzato è influenzata dalle oscillazioni casuali dei dati Decidiamo di introdurre prima il peso perché il rapporto tra peso e pressione è stato largamente confermato mentre il rapporto fumo/pressione è meno certo fumatori abituali non più ipertesi dei non fumatori

Multicollinearità Una variabile indipendente che molto correlata alla variabile dipendente delude quando viene inserita nella regressione multipla essa si correla anche alle variabili precedentemente introdotte (multicollinearità) e per questo aggiunge poche informazioni all'equazione Se l'apporto alimentare di sale e la pressione arteriosa sono correlati tra loro l'r risulta elevato (0.5) introducendolo nel modello multiplo l'r 2 varia 1% i pazienti che introducono più sale sono anche più grassi e fumano molto e viceversa