Regressione & Correlazione Monia Ranalli Ranalli M. Dipendenza Settimana # 4 1 / 20
Sommario Regressione Modello di regressione lineare senplice Stima dei parametri Adattamento del modello ai dati Correlazione Covarianza Coefficiente di correlazione lineare Proprietà del coefficiente di correlazione lineare Ranalli M. Dipendenza Settimana # 4 2 / 20
Esempio - Introduzione alla regressione Obiettivo: Studiare il legame che intercorre tra due variabili quantitative Y e X. Esempio. 25 famiglie secondo reddito e spesa (dato mensile medio) Il grafico pone in evidenza l esistenza di un legame tra il reddito e la spesa. Ranalli M. Dipendenza Settimana # 4 3 / 20
Funzioni Lineari Il legame tra due variabili viene espresso mediante una funzione del tipo y = f (x) Una delle funzioni più semplici è quella lineare y = β 0 + β 1 x Interpretazione β 0 : valore di y per x = 0; β 1 : variazione di y per un aumento unitario di x. Ranalli M. Dipendenza Settimana # 4 4 / 20
Modello di regressione lineare semplice Nella realtà due variabili non sono legate da una relazione deterministica, ma statistica del tipo y i = β 0 + β 1 x i + ɛ i con i = 1, 2,..., n. β 0 : intercetta β 1 : coefficiente di regressione (pendenza) y i : variabile risposta (dipendente) x i : variabile esplicativa (indipendente) ɛ i : residuo o errore (riflette le imperfezioni della relazione lineare ed eventuali variabili esplicative omesse) Ranalli M. Dipendenza Settimana # 4 5 / 20
Stima dei parametri: metodo dei minimi quadrati Ipotizziamo che il termine residuale sia di minima entità. Determiniamo quindi la retta (ossia β 0 e β 1 ) in modo da rendere minima la somma n (y i β 0 β 1 x i ) 2 Ranalli M. Dipendenza Settimana # 4 6 / 20
Soluzione del problema dei minimi quadrati Coefficiente di regressione. n b 1 = (x i µ X )(y i µ Y ) n (x i µ X ) 2 Intercetta. b 0 = µ Y b 1 µ X La retta dei minimi quadrati passa per il baricentro (alla media di x corrisponde la media di y) Fitted value. ŷ i = b 0 + b 1 x i Residuo. ˆɛ i = e i = y i ŷ i Ranalli M. Dipendenza Settimana # 4 7 / 20
Esempio Per sette famiglie abbiamo rilevato il reddito x ed il consumo y x i y i sx i = (x i µ X ) sy i = (y i µ Y ) sx i sy i sxi 2 syi 2 2 1.5-1.714-1.643 2.816 2.938 2.699 3 3.0-0.714-0.143 0.102 0.510 0.020 2 1.5-1.714-1.643 2.816 2.938 2.699 4 3.5 0.286 0.357 0.102 0.082 0.127 5 4.0 1.286 0.857 1.102 1.654 0.734 4 3.5 0.286 0.357 0.102 0.082 0.127 6 5.0 2.286 1.857 4.245 5.226 3.448 Totale 26 22.0 0.000 0.000 11.285 13.430 9.854 µ X = 26 7 = 3.714; µ Y = 22 7 = 3.143 b 1 = 11.285 13.43 = 0.84 b 0 = 3.143 0.84 3.714 = 0.023 ŷ 1 = 0.023 + 0.84 2 = 1.703; e 1 = 1.5 1.703 = 0.203 Ranalli M. Dipendenza Settimana # 4 8 / 20
Adattamento del modello ai dati Varianza totale σy 2 = 1 n (y i µ Y ) 2 n Varianza spiegata σ 2 Ŷ = 1 n (ŷ i µ Y ) 2 n Varianza residua σe 2 = 1 n (y i ŷ i ) 2 = 1 n n n Scomposizione della varianza totale σy 2 = σ2 Ŷ + σ2 e e 2 i Ranalli M. Dipendenza Settimana # 4 9 / 20
Coefficiente di determinazione un indice della bontà di adattamento del modello ai dati è dato dal rapporto tra variabilità spiegata dalla regressione e variabilità totale r 2 = σ2 Ŷ σ 2 Y = n (y i ŷ i ) 2 n (y i µ Y ) 2 la decomposizione della devianza totale garantisce che r 2 varia tra 0 (pessimo adattamento) e 1 (ottimo adattamento, la relazione è perfettamente lineare). una formula utile per il calcolo è r 2 = [ n (x i µ X )(y i µ Y )] 2 n (x i µ X ) 2 n (y i µ Y ) 2 Riprendendo lesempio precedente: r 2 11.285 2 = 13.43 9.854 = 0.962 Ranalli M. Dipendenza Settimana # 4 10 / 20
Osservazione & Esempio Importante. Se con la variabile x otteniamo intercetta b 0 e coefficiente b 1, allora con la variabile scarto x µ X otteniamo la diversa intercetta b 0 + b 1 µ X ma lo stesso coefficiente b 1. Esempio. Riprendiamo lesempio precedente e calcoliamo la retta di regressione di y sulla variabile scarto x µ X x i y i sx i = (x i µ X ) sy i = (y i µ Y ) sx i sy i sxi 2 syi 2-1.714 1.5-1.714-1.643 2.816 2.938 2.699-0.714 3.0-0.714-0.143 0.102 0.510 0.020-1.714 1.5-1.714-1.643 2.816 2.938 2.699 0.286 3.5 0.286 0.357 0.102 0.082 0.127 1.286 4.0 1.286 0.857 1.102 1.654 0.734 0.286 3.5 0.286 0.357 0.102 0.082 0.127 2.286 5.0 2.286 1.857 4.245 5.226 3.448 Totale 0.002 22.0 0.000 0.000 11.285 13.430 9.854 µ X = 0.002 = 0; µ Y = 22 7 7 = 3.143 b 1 = 11.285 13.43 = 0.84 b 0 = 3.143 0.84 0 = 3.143 Ranalli M. Dipendenza Settimana # 4 11 / 20
Esempio - Introduzione alla correlazione Una distribuzione doppia secondo due variabili quantitative può essere rappresentata graficamente mediante un diagramma di dispersione Esempio. 25 famiglie secondo reddito e spesa (dato mensile medio) È interessante osservare come il grafico pone in evidenza l esistenza di una relazione (di concordanza) tra il reddito e la spesa. Ranalli M. Dipendenza Settimana # 4 12 / 20
Osservazione Date due variabili quantitative, diremo che sono correlate positivamente se variano in modo concorde, ossia all aumentare [diminuire] dell una aumenta [diminuisce] anche l altra; correlate negativamente se variano in modo discorde, ossia all aumentare [diminuire] dell una l altra diminuisce [aumenta]; incorrelate se sono indifferenti, ossia non c è regolarità fra le variazioni dell una e dell altra. Osserviamo che due caratteri risultano concordi se gli scarti dalla media tendono ad essere dello stesso segno mentre risultano discordi se tali scarti tendono ad essere di segno opposto. Ranalli M. Dipendenza Settimana # 4 13 / 20
Covarianza la covarianza è una misura del legame lineare tra due caratteri quantitativi X e Y. È data dalla media aritmetica del prodotto degli scarti di due caratteri dalle loro rispettive medie σ XY = 1 n n (x i µ X )(y i µ Y ) = n x i y i µ X µ Y n scarti positivi (negativi) di X tendono ad associarsi a scarti positivi (negativi) di Y i loro prodotti saranno positivi e σ XY risulterà positiva scarti positivi di X tendono ad associarsi a scarti negativi di Y (o viceversa) i loro prodotti saranno negativi e σ XY risulterà negativa Minimo e massimo: non è un indice relativo σ X σ Y < σ XY < σ X σ Y Ranalli M. Dipendenza Settimana # 4 14 / 20
Il coefficiente di correlazione lineare Al fine di avere un indice relativo, calcoliamo il coefficiente di correlazione lineare. Come? standardizziamo le variabili z xi = x i x σ X, z yi = y i ȳ σ Y costruiamo la variabile prodotto degli scarti standardizzati c i = z xi z yi = x i x σ X y i ȳ σ Y e ne calcoliamo la media aritmetica r = 1 n n c i = 1 n n x i x σ X y i ȳ σ Y Tale media è detta coefficiente di correlazione lineare. Ranalli M. Dipendenza Settimana # 4 15 / 20
Proprietà I del coefficiente di correlazione lineare è positivo nel caso di correlazione positiva, negativo nel caso di correlazione negativa e pari a zero nel caso di incorrelazione; ha lo stesso segno del coefficiente di regressione b 1 ; è compreso tra -1 e 1 estremi inclusi; è pari a 1 se i punti sono allineati su di una retta con inclinazione positiva; è pari a -1 se i punti sono allineati su di una retta con inclinazione negativa; si può anche calcolare come r = n (x i x)(y i ȳ) n (x i x) 2 n (y i ȳ) 2 Ranalli M. Dipendenza Settimana # 4 16 / 20
Proprietà II del coefficiente di correlazione lineare elevato al quadrato è uguale all indice di determinazione r 2, quindi tanto più vicino è vicino a 1 o -1, quanto più la nuvola dei punti può essere ben interpolata con una retta; non cambia in valore assoluto (i.e. può cambiare solo il segno) se a una delle due variabili viene sommata e/o moltiplicata una costante (una delle variabili è trasformata linearmente). In formule: se X : x 1, x 2,..., x n ; Y : y 1, y 2,..., y n e W : w 1, w 2,..., w n con w i = a + by i, allora r XW = 1 n = 1 n = n n b 1 b n x i x σ X x i x σ X n w i w σ W a + by i a bȳ b σ Y x i x σ X y i ȳ σ Y = b b r XY Ranalli M. Dipendenza Settimana # 4 17 / 20
Esempio Calcolo del coefficiente di correlazione lineare x i y i sx i = x i x sy i = y i ȳ sx i sy i sxi 2 syi 2 8 15 2.6 7.2 18.72 6.76 51.84 5 5-0.4-2.8 1.12 0.16 7.84 7 9 1.6 1.2 1.92 2.56 1.44 1 3-4.4-4.8 21.12 19.36 23.04 6 7 0.6-0.8-0.48 0.36 0.64 Totale 27 39 0 0 42.40 29.20 84.80 x = 27 5 = 5.4 ȳ = 39 5 = 7.8 42.40 r = = 0.8520 29.20 84.80 Ranalli M. Dipendenza Settimana # 4 18 / 20
Diversi valori di r Ranalli M. Dipendenza Settimana # 4 19 / 20
Osservazioni r coglie solo l esistenza di un legame di tipo lineare; una relazione di causa-effetto implica l esistenza di un legame, non è necessariamente vero il vice versa. Esempio x i y i (x i µ X ) (y i µ Y ) (x i µ X )(y i µ Y ) 3 12-3 5.5-16.5 4 7-2 0.5-1 5 4-1 -2.5 2.5 6 3 0-3.5 0 6 3 0-3.5 0 7 4 1-2.5-2.5 8 7 2 0.5 1 9 12 3 5.5 16.5 Totale 48 52 0 0 0 µ X = 48 8 = 6 e µ Y = 52 8 = 6.5 La correlazione è nulla ma il legame è molto forte Y = 3 + (X 6) 2. Ranalli M. Dipendenza Settimana # 4 20 / 20