CORRELAZIONE 1
SCOPO DELL ANALISI DI CORRELAZIONE STUDIARE LA RELAZIONE TRA DUE VARIABILI X E Y 2
diagrammi di dispersione un diagramma di dispersione (o grafico di dispersione) èuna rappresentazione grafica in cui si rappresentano i valori che due variabili X e Y assumono sulle unità statistiche. una variabile (ad esempio la X) viene rappresentata sull asse delle ascisse, mentre l altra variabile (la Y) viene rappresentata sull asse delle ordinate. ogni coppia di valori (X,Y), rilevata su ciascuna unità statistica, viene rappresentata sul grafico con un punto 3
tipi di relazioni 4
esempio 1 Supponiamo di avere misurato la statura di 10 bambini di età compresa tra 6 e 12 anni e di riportare i dati su una tabella: soggetto età statura (anni) (centimetri) X Y 1 6 115 2 6 120 3 7 122 4 8 130 5 8 128 6 9 134 7 10 136 8 10 140 9 11 147 10 12 151 5
esempio 1 (2) Riportando i valori su un diagramma di dispersione otterremo il grafico 150 140 statura (cm) 130 120 110 5 7 9 11 13 età (anni) 6
coefficiente di correlazione Il coefficiente di correlazione lineare di Bravais-Pearson misura il tipo e l intensità della relazione lineare tra due variabili X e Y. Il coefficiente di correlazione si indica con la lettera greca ρ se viene calcolato su tutta la popolazione oggetto dell indagine; mentre si indica con la lettera r se viene calcolato su un campione rappresentativo della popolazione. Il coefficiente di correlazione lineare varia tra -1 e 1. 7
coefficiente di correlazione Il segno di r (+ o -) da informazioni sul tipo di relazione lineare: il segno positivo indica che le due variabili aumentano o diminuiscono assieme (relazione lineare positiva) il segno negativo indica che all aumentare di una variabile l altra diminuisce e viceversa (relazione lineare negativa) Il valore assoluto di r, che varia tra 0 e 1, da informazioni sulla forza della relazione lineare: èmassimo(assume valore 1) quando esiste una perfetta relazione lineare tra le due variabili. tende a ridursi al diminuire dell intensità della relazione lineare e assume il valore 0 quando essa è nulla. 8
coefficiente di correlazione relazione lineare positiva relazione lineare negativa y y x r 0.97 r -0.95 x nessuna relazione relazione non lineare y y x r -0.04 x r 0.02 9
coefficiente di correlazione da un punto di vista matematico, il coefficiente di correlazione (Bravais-Pearson) è definito come r cov s X s XY Y in cui: cov XY s X s Y è la covarianza tra X e Y; è la deviazione standard di X è la deviazione standard di Y 10
covarianza la covarianza esprime l intensità con cui due variabili variano insieme matematicamente si esprime con cov in cui: X Y N XY ( )( ) X X Y Y N 1 è la media di X; è la media di Y; è la numerosità del campione 11
covarianza la covarianza si può calcolare più comodamente con la formula semplificata: cov XY X Y XY N N 1 in cui: XY X Y è la somma dei prodotti XY; è la somma dei valori di X; è la somma dei valori di Y 12
esempio 1 (3) Dalla tabella dell esempio 1 ricaviamo i seguenti valori: XY 11723 X 87 Y 1323 Con questi possiamo calcolare la covarianza: 87 1323 11723 cov 10 XY 10 1 23,656 13
esempio 1 (4) Ora calcoliamo le deviazioni standard: X 87 X 2 795 s x ( 87) 795 10 10 1 2 2,058 Y 1323 Y 2 176255 s y 176255 10 1 ( 1323) 10 2 11,653 14
esempio 1 (5) A questo punto possiamo calcolare il coefficiente di correlazione: r cov XY s X s Y 23,656 0,986 2,058 11,653 abbiamo ottenuto un alta correlazione positiva. 15
esempio 2 10 soggetti di età superiore ai 60 anni sono stati sottoposti ad un test di abilità motorie con i seguenti risultati: soggetto età abilità (anni) motorie X Y 1 60 40 2 65 25 3 72 16 4 80 18 5 67 35 6 75 14 7 77 10 8 79 15 9 81 12 10 77 18 16
esempio 2 Si calcoli la correlazione tra età e punteggio di abilità motorie. soggetto età abilità (anni) motorie X Y 1 60 40 2 65 25 3 72 16 4 80 18 5 67 35 6 75 14 7 77 10 8 79 15 9 81 12 10 77 18 17
esempio 2 prima calcoliamo le somme: X 733 X 2 54183 Y 203 Y 2 5019 XY 14325 poi, da questi valori possiamo ricavare le deviazioni standard e la covarianza: s 7,10 9, 99 X s Y cov 61,66 XY infine otteniamo la correlazione: r cov s X s XY Y 0,87 18
esempio 2 Riportando i valori su un diagramma di dispersione otteniamo: 19
esercizio Si calcoli il coefficiente di correlazione tra le due variabili riportate in tabella. soggetto X Y 1 1 7 2 3 4 3 5 13 4 7 16 5 9 10 6 11 22 7 13 8 20
esercizio prima calcoliamo le somme: X 49 X 2 455 Y 80 Y 2 1138 XY 632 poi, le deviazioni standard e la covarianza: s 4,32 6, 11 X s Y cov 12 XY infine otteniamo la correlazione: r cov s X s XY Y 0,45 21
ATTENZIONE Il coefficiente r misura l intensità della relazione lineare; se r è basso (vicino a zero) vuol dire che non c è relazione lineare ma potrebbe esserci una relazione di altro genere. 22
esempio 3 In questo caso, anche se r -0,2, risulta evidente che esista una relazione tra le due variabili. 23