Test per la correlazione lineare

10 Test per la correlazione lineare Istituzioni di Matematica e Statistica 2015/16 E. Priola 1

Introduzione alla correlazione lineare Problema: In base ai dati che abbiamo possiamo dire che c è una qualche relazione tra una variabile (per esempio i valori pressori) e un altra (per esempio il consumo di frutta e verdura) Il quesito riguarda due variabili quantitative (o numeriche). Evidenziamo solo due aspetti della domanda: (i) C è un grado di associazione lineare o una correlazione lineare tra il consumo di verdura e i valori pressori (correlazione lineare) (ii) All aumentare del consumo di verdura, è possibile dire come variano i livelli pressori (regressione lineare) In (i) non esiste una priorità di una variabile rispetto all altra. Invece in (ii) si dà a priori un valore di dipendenza: i livelli pressori y dipendono dal consumo di frutta e verdura x (e non viceversa). Analizziamo quindi la dipendenza di una variabile (dipendente, y) da un altra (indipendente, x). Nel seguito ci concentriamo su (i). 2

Campioni bivariati di dati (statistica descrittiva) Spesso ci si aspetta che due variabili numeriche abbiano una qualche correlazione lineare una con l altra. Ad esempio, ci si può aspettare (almeno approssimativamente) che il peso di un individuo abbia una correlazione lineare con la sua altezza. I dati delle due variabili che consideriamo sono sotto forma di coppie di numeri (x 1, y 1 ), (x 2, y 2 ),..., (x n, y n ) (campione bivariato di dimensione n). Ogni coppia di numeri è relativa ad un individuo. Un indice della forza dell associazione o correlazione lineare fra le due variabili è dato dal coefficiente (indice) di correlazione di Pearson: r = r XY = 1 n 1 = n xi x yi y i=1 s X s Y = cov(x, Y ) s X s Y n i=1 (x i x)(y i y) n i=1 (x n, i x) 2 i=1 (y i y) 2 3

Coefficiente di correlazione r (statistica descrittiva) n i=1 cov(x, Y ) = s XY = (x i x)(y i y) n 1 è detta covarianza campionaria; s X e s Y sono le dev. stand. campionarie dei campioni (x i ) e (y i ) rispettivamente, s X = n i=1 (x i x) 2, s Y = n 1 n i=1 (y i y) 2. n 1 Inoltre Quindi n i=1 x = x n i i=1, y = y i. n n n i=1 r = (x i x)(y i y) n i=1 (x n. i x) 2 i=1 (y i y) 2 Il quadrato di r si dice coefficiente di determinazione. 4

Coefficiente di correlazione e retta di regressione lineare Si verifica che vale sempre 1 r 1 Vale r = ±1 quando tutti i dati osservati (x i, y i ) sono allineati su una retta (perfetta correlazione lineare). Se r = ±1 i dati stanno esattamente sulla retta y = a + bx detta retta di regressione lineare. Accenniamo che risulta n i=1 b = i x)(y i y) n i=1 (x i x) 2 e a = y bx. (in particolare, r = 1 se b > 0, mentre r = 1 se b < 0). Se r è vicino a 0 i dati sono dispersi e non tendono a disporsi vicino alla retta di regressione (i dati sono approssimativamente scorrelati). Se r = 0 i dati sono scorrelati. 5

Osservazioni importanti su r ( 1 r 1) SCHEMA 1 0 r 0.25: debole o nessuna correlazione lineare (positiva) 2 0.25 < r < 0.75: correlazione lineare (positiva) discreta o moderata 3 r 0.75: correlazione lineare (positiva) tra molto buono ed eccellente Stesso schema per valori di r negativi. 1 Se r > 0 si ha correlazione lineare positiva; in media al crescere del valore x i (rispetto a x) cresce anche y i (rispetto a y) 2 Se r < 0 si ha correlazione lineare negativa; in media al crescere del valore x i (rispetto a x) decresce anche y i (rispetto a y). Si noti che se r = 0 allora al crescere del valore x i (rispetto a x) può corrispondere y i che decresce (rispetto a y) oppure y i che cresce (rispetto a y). 6

Diagrammi per la correlazione (statistica descrittiva) Possiamo visualizzare la possibile correlazione tra 2 variabili usando i grafici o diagrammi di dispersione (detti di scatterplot) I dati sotto forma di coppie (x 1, y 1 ), (x 2, y 2 ),..., (x n, y n ) sono rappresentati con punti sul piano xy; la prima coordinata rappresenta il primo dato x i e la seconda coordinata il secondo dato y i. Possono esserci più coppie coincidenti. Si disegnano sul piano tutti i punti (x i, y i ) per vedere se essi tendono a disporsi secondo un andamento regolare. 7

Diagrammi I 8

Diagrammi II Consideriamo il consumo medio di frutta e verdura (grammi per giorno) e i valori di pressione diastolica; r = 0.01 il campione mostra che esiste una debolissima correlazione lineare positiva tra la pressione diastolica e il consumo medio di frutta e verdura. 9

Diagrammi III Consideriamo i valori di pressione arteriosa sistolica e diastolica; r = 0.75 il campione mostra che esiste una correlazione lineare positiva molto buona tra le variabili pressione sistolica e diastolica. 10

Coefficiente di correlazione in statistica inferenziale Il coefficiente di correlazione di Pearson nel caso di variabili casuali X e Y che intervengono in statistica inferenziale è indicato con ρ. Stiamo considerando due caratteri di una popolazione: un carattere della popolazione è rappresentato dalla variabile casuale X e l altro dalla variabile casuale Y. X µx ρ = ρ XY = E σ X Y µ Y σ Y dove E indica l attesa, µ X e µ Y sono le medie e σ X e σ Y sono le deviazioni standard (risp. di X e Y ). Vogliamo analizzare la relazione fra le due variabili. Non ci chiediamo se X influenzi Y o se Y influenzi X (relazione causa/effetto) ma se esiste una correlazione lineare tra le due variabili. Utilizzeremo un test di ipotesi opportuno. 11

Test di ipotesi Osserviamo che se X e Y sono indipendenti allora non vi e correlazione lineare tra di loro; in generale però non vale il viceversa. Il test statistico che faremo su ρ incognito (partendo da un r calcolato sul nostro campione (x 1, y 1 ), (x 2, y 2 ),..., (x n, y n )) ci permetterà di verificare se vi è una correlazione lineare fra le variabili. L ipotesi nulla H 0 è che non ci sia alcuna correlazione lineare fra X e Y (osserviamo che ciò non esclude la possibilità che ci sia una relazione di altro tipo). Quindi H 0 : ρ = 0 mentre H A : ρ = 0 (test bilaterale). Sotto la condizione di normalità per (X,Y ) (o se n è sufficientemente grande) si prova che l ipotesi nulla H 0 implica che la variabile casuale n 2 r 1 r 2. è una variabile t n 2 di Student con n 2 gradi di libertà. 12

Regione di accettazione Quindi se vale H 0 si ha: t n 2 = r n 2 1 r 2. dove n i=1 r = (X i X )(Y i Y ) n i=1 (X n, i X ) 2 i=1 (Y i Y ) 2 indica la variabile aleatoria che assume valori n i=1 r = (x i x)(y i y) n i=1 (x n i x) 2 i=1 (y i y) 2 x = c ( x1, x2, x3, x4, x5 ) y = c ( y1, y2, y3, y4, y5 ) r = cor ( x, y) al variare del campione casuale estratto (x 1, y 1 ), (x 2, y 2 ),..., (x n, y n ). Fissato il livello di significatività α la regione di accettazione RA del test è RA = ( t n 2, α, t 2 n 2, α ). 2 dove P(t T n 2 > t n 2, α ) = α/2. 2 13

Intervallo di confidenza Se dal nostro campione risulta che ( ) t c = r 1 r 2 n 2 = r n 2 1 r 2 ( t n 2, α 2, t n 2, α 2 ) diciamo che non possiamo rifiutare H 0 al livello di significatività α ovvero che NON c è una correlazione lineare tra X e Y. n 2 Se r 1 r ( t 2 n 2, α, t 2 n 2, α ) rifiutiamo H 2 0. Non è difficile verificare che ( ) vale se e solo se 0 IC(ρ) = 1 r r t n 2, α ES(r), r+t 2 n 2,, α ES(r) 2 ES(r) = 2 n 2. ovvero se e solo se 0 appartiene all intervallo di confidenza del coefficiente ρ. 14

p-value (t n 2 è variabile di Student) Possiamo anche introdurre il p-value (usando la variabile di Student t n 2 ): n 2 P Tt n 2 r 1 r 2 = p 2, r > 0, n 2 mentre P Tt n 2 r 1 r 2 = p 2, r 0. se p α rifiutiamo H 0 se p > α non rifiutiamo H 0 Se p è molto piccolo (ovvero r n 2 1 r 2 è grande in valore assoluto, ovvero r 2 è vicino a 1) abbiamo una forte evidenza contro l ipotesi H 0 ovvero una forte evidenza a favore di una correlazione lineare tra X e Y. Un p-value vicino a 1 (che comporta un r vicino a 0) indica una forte evidenza a favore del fatto che X e Y NON sono correlate (ρ = 0). 15

Osservazioni finali sul coefficiente di correlazione Il coefficiente di correlazione quantifica solo la relazione lineare tra X e Y ; se X e Y hanno una relazione non lineare esso non fornisce una misura valida di questa relazione. Un alta correlazione tra due variabili non implica una relazione causa-effetto. Una variabile può influenzare o essere causa delle variazioni dell altra, ma è anche possibile che qualche altra variabile o un intera moltitudine di altre variabili possa influenzare le due che sono tra loro correlate. Pertanto X e Y possono essere correlate, ma semplicemente perchè ciascuna di esse è fortemente influenzata da una terza variabile Z. 16

Esempio (trigliceridi e colesterolo) Esempio I E stata calcolata un alta correlazione positiva tra il numero di nidi di cicogna ed il numero di nascite nell Europa nord occidentale. Le osservazioni sono state rilevate al variare del tempo (1800-1900). L interpretazione più sensata che si può dare è che gli aumenti di popolazione comportano un aumento nel numero delle costruzioni che quindi forniscono più spazio per la nidificazione delle cicogne. Esempio II In uno studio condotto in Italia, 10 pazienti affetti da ipertrigliceridemia sono stati sottoposti ad una dieta povera di grassi e ricca di carboidrati. Prima della dieta, sono state registrate per ciascun soggetto le misurazioni di colesterolo e di trigliceridi. 17

Esempio (cont.) x = c ( 5.12, 6.18, 6.77, 6.65, 6.36, 5.90, 5.48, 6.02, 10.34, 8.51 ) y = c ( 2.30, 2.54, 2.95, 3.77, 4.18, 5.31, 5.53, 8.83, 9.48, 14.20 ) Calcolare il coefficiente di correlazione di Pearson r del campione ed effettuare un test per la correlazione lineare con α = 0.05. 18

SOLUZIONE (I parte) Sia X la variabile casuale relativa al livello di colesterolo e Y la variabile casuale relativa al livello di trigliceridi, le medie campionarie sono: 5.12 + 6.18 + 6.77 + 6.65 + 6.36 + 5.90 + 5.48 + 6.02 + 10.34 + 8.51 x = = 10 = 6.73 2.30 + 2.54 + 2.95 + 3.77 + 4.18 + 5.31 + 5.53 + 8.83 + 9.48 + 14.20 y = = 10 = 5.91. Allora: x i x y i y -1.61-3.61-0.55-3.37 0.04-2.96-0.08-2.14-0.37-1.73-0.83-0.60-1.25-0.38-0.71 2.92 3.61 3.57 1.78 8.29 19

SOLUZIONE (II parte) 10 i=1 10 i=1 10 i=1 (x i x) 2 = 21.99 (y i y) 2 = 131.44 (x i x)(y i y) = 34.90. Possiamo calcolare il coefficiente di correlazione del campione: r = 10 10 i=1 (x i x) 2 i=1 (x i x)(y i y) 10 i=1 (y i y) 2 = 34.90 21.99 131.44 = 0.65. r = cor ( x, y ) 20

SOLUZIONE (III parte) L ipotesi nulla è H 0 : ρ = 0 ovvvero non esiste una correlazione lineare tra le due variabili (livello di colesterolo e livello di trigliceridi). Mentre l ipotesi alternativa è H A : ρ = 0. Usiamo un t-test con 10 2 = 8 gradi di libertà. Prima calcoliamo t c = r t = r * sqrt ( 8 / (1 - r^2) ) n 2 1 r 2 = 0.65 8 1 0.65 2 = 3.49. Analizzando la tabella della distribuzione di Student osserviamo che il valore critico di t per un test bilaterale con α = 0.05 e 8 gradi di libertà è t 8,0.025 = 2.306. 21

SOLUZIONE (IV parte) p-val = 2 * ( 1 - pt (t, df = 8 ) ) = 0.0420443 α/2 α/2 p/2 p/2 t t α t α =2.306 t=3.49 Conclusione. Osserviamo che t c = 3.49 RA = ( 2.306, 2.306) dunque possiamo rifiutare H 0. In modo equivalente, il valore del p-value è inferiore ad α = 0.05: p < α. Rifiutiamo l ipotesi nulla e concludiamo che esiste una correlazione lineare tra le due variabili (livello di colesterolo e livello di trigliceridi). 22

Scorciatoia x = c ( 5.12, 6.18, 6.77, 6.65, 6.36, 5.90, 5.48, 6.02, 10.34, 8.51 ) y = c ( 2.30, 2.54, 2.95, 3.77, 4.18, 5.31, 5.53, 8.83, 9.48, 14.20 ) cor.test( x, y ) Out[1] Pearson's product-moment correlation data: x and y t = 2.417, df = 8, p-value = 0.04204 alternative hypothesis: true correlation is not equal to 0 95 percent confidence interval: 0.03389066 0.90790974 sample estimates: cor 0.6496543

I Esempio di prova d esame Il coefficiente di correlazione di Pearson risultante dall analisi delle variabili Età e Pulsazioni del cuore al minuto per un campione di riferimento è pari a r = 0.16 con un p-value corrispondente pari a 0.13. Come si interpreta questo risultato Nell analisi statistica si utilizza un t-test oppure uno z-test SOLUZIONE In base al nostro schema il coefficiente r = 0.16 indica una debole correlazione lineare positiva tra le variabili. L ipotesi nulla H 0 del test è che la variabile Età e la variabile Pulsazioni al minuto non siano correlate. Se fissiamo il livello di significatività α = 0.05 essendo il p-value (pari a 0.13) maggiore di α NON possiamo rifiutare l ipotesi nulla; quindi in base al test non esiste una correlazione lineare tra le due variabili. Nell analisi si utilizza il t-test (precisamente, se abbiamo un campione di n individui utilizziamo la variabile di Student t n 2 con n 2 gradi di libertà). 23

II Esempio di prova d esame Il coefficiente di correlazione di Pearson risultante dall analisi statistica di un campione per le variabili Età in cui il soggetto ha iniziato a fumare e Durata media di una sigaretta è pari a r = 0.76, con un p-value corrispondente pari a 0.03. Come si interpreta questo risultato SOLUZIONE Il coefficiente r = 0.76 indica una correlazione lineare negativa molto buona tra le variabili. L ipotesi nulla H 0 è che la variabile Età in cui il soggetto ha iniziato a fumare e la variabile Durata media di una sigaretta non siano correlate. Se fissiamo il livello di significatività α = 0.05 essendo il p-value pari a 0.03 minore di 0.05 possiamo rifiutare l ipotesi nulla e dire che esiste una correlazione lineare tra le due variabili. 24