ESERCIZI CORRELAZIONE Marco Riani Es: 6 famiglie, ammontare della spesa annua (in euro) per l acquisto di due generi di largo consumo: latte fresco e biscotti. Famiglia Spesa annua per l acquisto di latte fresco ( ) A 105 65 B 190 130 C 80 160 D 120 90 E 240 220 F 60 50 Spesa annua per l acquisto di biscotti ( ) M(x)= 132.5 M(y)= 119.2 (i) r xy? (ii) commento (iii) diagramma di dispersione (iv) concordanza tra r xy e diagramma di dispersione (v) Perché r xy invece della retta di regressione? 1
Soluzione r xy n i1 ( x n n 2 ( xi M x) i1 i1 i M )( y M x i ( y M i y ) 1/ 2 2 y ) Fami glia A B C D E F Tot. (x i M x ) (y i M y ) (x i -M x ) (y i -M y ) (105-132.5) (65-119.2) (105-132.5) (65-119.2) (190-132.5) (130-119.2) (190-132.5) (130-119.2) r xy 16187.5 23787.5 20520.8 (x i -M x ) 2 (y i -M y ) 2 (105-132.5) 2 (65-119.2) 2 (190-132.5) 2 (130-119.2) 2 0 0 16187.5 23787.5 20520.8 1/ 2 0.73 Diagramma di dispersione 2
Diagramma di dispersione in termini di scostamenti dalla media Analisi del diagramma di dispersione Il punto C è un valore anomalo bivariato Se cancelliamo il punto C ci attendiamo che il valore di r xy aumenti r xy senza il punto C è uguale a 0.963 3
CORRELAZIONE FRA DUE S.S. Esempio: X = numero di extracomunitari iscritti al collocamento, Y = numero di discount Calcolare e commentare r XY tra le variabili originarie, i NI a base fissa, le variazioni percentuali a base fissa, i NI a base mobile, le variazioni percentuali a base mobile Anni X Y 1993 72.644 600 1994 85.993 1.300 1995 96.287 1.930 1996 136.942 2.328 1997 140.100 2.523 CORRELAZIONE FRA DUE S.S. Esempio: X = numero di extracomunitari iscritti al collocamento, Y = numero di discount Calcolare e r XY tra le variabili originarie, i NI a base fissa, le variazioni percentuali a base fissa, i NI a base mobile, le variazioni percentuali a base mobile r xy Anni X Y 1993 72.644 600 1994 85.993 1.300 1995 96.287 1.930 1996 136.942 2.328 1997 140.100 2.523 COV ( X, Y) 17.977.023,36 0,933 (27.300,88705,42) x Correlazione spuria relazione tra i livelli y 4
NI base mobile X (numero di extracomunitari) e Y (numero di discount Anni n. i. base mobile n. i. base mobile 1993 - - Var % X Var % Y Scost media X Scost media Y 1994 118,38 216,67 18,38 116,67-0,34 68,14 1995 111,97 148,46 11,97 48,46-6,75-0,07 1996 142,22 120,62 42,22 20,62 23,50-27,91 1997 102,31 108,38 2,31 8,38-16,41-40,16 Media 118,72 148,53 18,72 48,53 0,00 0,00 Var 0,0217 0,1758 0,0217 0,1758 Cov(Nix,NIy)=- 0,000496 r xy (tra n. i. a base mobile) =-0,000496/(0,0217*0,1758) ½ = -0,008 Osservazioni finali Non esiste relazione lineare tra le variazioni annue di X e Y Si ottiene r xy = -0,008 anche effettuando il calcolo sulle variazioni % rispetto all anno precedente (proprietà di invarianza per trasformazioni lineari crescenti) 5
X = PREZZI (in euro) Y = QUANTITA VENDUTE (in n. di pezzi) Calcolare rxy sui dati originali, sui NI a base fissa e sulle variazioni percentuali. Commentare i risultati Anni X Y v(x) % v(y)% 1997 1,50 200 - - 1998 1,68 208 +12 +4 1999 1,78 229 +6 +10,1 2000 1,96 243 +10,1 +6,1 2001 2,25 245 +14,8 +0,8 2002 2,43 265 +8,0 +8,2 2003 2,60 288 +7,0 +8,7 Esempio di regressione spuria X = PREZZI (in euro) Y = QUANTITA VENDUTE (in n. di pezzi) Anni X Y v(x) % v(y)% 1997 1,50 200 - - 1998 1,68 208 +12 +4 1999 1,78 229 +6 +10,1 2000 1,96 243 +10,1 +6,1 2001 2,25 245 +14,8 +0,8 2002 2,43 265 +8,0 +8,2 2003 2,60 288 +7,0 +8,7 6
Coefficiente di correlazione Calcolato sui livelli r xy = 0,97 Calcolato sulle variazioni percentuali r v(x)v(y) = -0,998 Es. X= tasso di indebitamento delle famiglie, in percentuale, (X) e del fabbisogno di energia elettrica, in migliaia di megawatt, (Y) in Italia nel periodo 1998 2002 anni X Y 1998 27,8 279 1999 31,1 286 2000 32,6 299 2001 32,6 305 2002 35,1 311 7
r xy COV ( X, Y ) VAR( X ) VAR( Y ) r xy 26,82 5,73140,8 0,944 Correlazione sui NI a base mobile X Y n. i. base mobile n. i. base mobile 27,8 279,0 - - 31,1 286,0 111,9 102,5 32,6 299,0 104,8 104,5 32,6 305,0 100,0 102,0 35,1 311,0 107,7 102,0 r xy 0,094 0,02 4,321,05 8
ESERCIZI REGRESSIONE LINEARE Es. 7 famiglie Spesa per manifestazio ni culturali (Z) A 200 1,9 B 420 4,0 C 250 2,5 D 70 1,6 E 180 2,2 F 300 2,8 G 100 1,5 Reddito mensile del capofamiglia (x 1000 Euro) (Y) Calcolare e commentare r YZ Sulla base dei risultati ottenuti si dica se è ragionevole adattare una retta di regressione; in questo caso quale sarebbe la dipendente e quale sarebbe l esplicativa? Costruire il diagramma di dispersione con sovraimposta la retta di regressione Commentare i parametri ottenuti 9
Spesa per manifestazioni cul Spesa per manifestazioni cultur (Z) 21/03/2013 Diagramma di dispersione 450 400 350 300 250 200 150 100 50 0 1 1,5 2 2,5 3 3,5 4 4,5 Reditto mensile del capofamiglia (x 1000 Euro) (Y) r xy =0,97; il grafico mostra la forte relazione lineare diretta tra le 2 variabili. Il reddito mensile è utile per prevedere la spesa per manifestazioni culturali Diagramma di dispersione con retta di regressione 500 450 Z = 134,65Y - 100,24 400 350 300 250 200 150 100 50 0 1 1,5 2 2,5 3 3,5 4 4,5 Reditto mensile del capofamiglia (x 1000 Euro) (Y) 10
Esercizio: giocatori titolari d una squadra di pallavolo: la seguente tabella riporta il numero di punti segnati in attacco ed il numero di punti segnati a muro in una partita. Giocatore Punti segnati in attacco Punti segnati a muro A 14 4 B 10 3 C 4 1 D 15 1 E 18 2 F 9 5 Calcolare r xy e commentarlo Diagramma di dispersione. Si confrontino le informazioni traibili dal diagr. di dispersione con il valore prima calcolato di r xy. C è accordo tra le due analisi? A quale causa possono essere imputate le differenze riscontrate? Soluzione r xy 0,0163 0 Punti segnati a muro 6 5 4 3 2 1 0 0 5 10 15 20 Punti segnati in attacco 11
Soluzione r xy 0,0163 0 Punti segnati a muro 6 5 4 3 2 1 0 0 5 10 15 20 y = -0.0053x + 2.7287 R 2 = 0.0003 Punti segnati in attacco Ci sono outliers? 12
Soluzione: confronto r xy diagramma di dispersione Il giocatore C si discosta molto dai rimanenti. Se lo si esclude relazione inversa: r xy =-0.683 Il giocatore C è l alzatore per lui la relazione non vale Retta di regressione senza il punto (giocatore) C 0,683 r xy 6 5 Punti segnati a muro 4 3 2 1 0 y = -0,292x + 6,854 R 2 = 0,4672 0 5 10 15 20 Punti segnati in attacco 13
L INTERPOLAZIONE DI UNA SERIE STORICA p. 241 Esempio (Es. 4.26 eserciziario) Y = concentrazione di anidride carbonica nell'aria, in parti per milione, al Polo Sud dal 1981 al 1995: anni Y 1981 325 1983 327 1985 329 1987 332 1989 335 1991 338 1993 340 1995 343 Grafico della serie storica. Calcolo dei parametri della funzione interpolante lineare e potenza Bontà di adattamento Valore previsto della concentrazione di anidride carbonica nel 2005 14
concentrazione C02 (Y) 21/03/2013 Scelta della scala anni biennale annuale Y 1981 1 1 325 1983 2 3 327 1985 3 5 329 1987 4 7 332 1989 5 9 335 1991 6 11 338 1993 7 13 340 1995 8 15 343 Grafico della serie storica (in scala naturale) 344 342 340 338 336 334 332 330 328 326 324 1980 1985 1990 1995 2000 anni 15
Grafico della serie storica (in scala doppio-logaritmica) Scala biennale Scala annuale Calcolo dei parametri della funzione interpolante lineare anni 1981 1983 1985 1987 1989 1991 1993 1995 Scala dei tempi biennale t = 1, 2, 3, 4, 5, 6, 7, 8 yˆ t 321,786 2, 631t Scala dei tempi annuale t = 1, 3, 5, 7, 9, 11, 13, 15 yˆ t 323,1011, 3155t Interpretazione 16
anni 1981 1983 1985 1987 1989 1991 1993 1995 Relazione tra le due intercette Scala biennale 321,786 = valore teorico al 1979 yˆ t 321,786 2, 631t Scala annuale 323,101 = valore teorico al tempo t = 1980 yˆ t 323,1011, 3155t Relazione tra le due intercette 321,786= valore teorico 1979 = valore teorico 1980 - variazione teorica da un anno al successivo variazione teorica da un anno al successivo = coeff. angolare della regressione su scala annuale 321,786=323,101-1,3155 17
Bontà di adattamento In entrambi i casi: = 0,996 Adattamento quasi perfetto anni Previsione al 2005 biennale annuale 1981 1 1 1983 2 3 1985 3 5 1987 4 7 1989 5 9 1991 6 11 1993 7 13 1995 8 15 2005 13 25 ˆ y t ˆ y t Scala biennale (t = 13) yˆ t 321,786 2, 631t 321,786 2,63113 356 Scala annuale (t = 25) yˆ t 323,1011, 3155t 323,1011,3155 25 356 Significato e limiti della previsione 18
Parametri della funzione interpolante potenza Parametri della funzione interpolante potenza 19
Esercizio: 8 alimenti (cereali e derivati) si conosce la seguente matrice di covarianza riferita alle tre variabili: X = acqua, in gr. per 100 grammi di prodotto Y = proteine, in gr. per 100 gr. di prodotto Z = energia, in Kcal per 100 gr. di prodotto X Y Z X 165,59-15,18-822,82 Y 5,20 87,26 Z 4.418,69 Esercizio Si determini quale variabile risulta più utile ai fini della previsione del contenuto energetico degli 8 alimenti (Z). Si determini la retta di regressione (in termini di scostamenti dalla media) di cui al punto precedente e se ne commenti il significato e la validità. 20
Soluzione Variabile dipendente: Contenuto energetico (Z) Variabile esplicativa: la migliore tra X e Y Scelta della variabile esplicativa matrice di correlazione X Y Z X 165,59-15,18-822,82 Y 5,20 87,26 Z 4.418,69 X Y Z X 1-0,517-0,962 Y 1 0,576 Z 1 zˆ a bx i 1,..., 8 i i Retta di regressione in termini di scostamenti: calcolo di e b = (-0,962) 2 = 0,925 Interpretazione X Y Z X 165,59-15,18-822,82 Y 5,20 87,26 b ( zˆ i M z) b( xi M x) r xz z 4.418,69 0,962 4,97 165,59 x Z 4.418,69 21