Indipendenza tra due caratteri

Idipedeza tra due caratteri Defiizioi: 1) due caratteri soo idipedeti se tra essi o esiste ua relazioe di causa ed effetto; 2) due caratteri soo idipedeti se la coosceza di ua modalità di uo dei due caratteri o migliora la previsioe sulla modalità dell altro; 1

Esempio di Distribuzioe Bivariata: X/Y y 1 y 2 y 3 y 4 Tot. x 1 12 4 16 8 40 x 2 15 5 20 10 50 x 3 9 3 12 6 30 Tot. 36 12 48 24 120 X f(x y 1 ) f(x y 2 ) f(x y 3 ) f(x y 4 ) f(x) x 1 12/36=0.33 4/12=0.33 16/48=0.33 8/24=0.33 40/120=0.33 x 2 15/36=0.42 5/12=0.42 20/48=0.42 10/24=0.42 50/120=0.42 x 3 9/36=0.25 3/12=0.25 12/48=0.25 6/24=0.25 30/120=0.25 Tot. 1.00 1.00 1.00 1.00 1.00 Domada: se sulla 121^ uità si rileva Y=y 3 questa iformazioe migliora la ostra previsioe su quale potrebbe essere il valore di X? La risposta è NO! Perché il sapere che Y=y 3 o aggiuge ulla rispetto all iformazioe che ci viee 2 data dalla semplice distribuzioe margiale di X.

Pertato possiamo cocludere che: X è idipedete da Y Y f(y x 1 ) f(y x 2 ) f(y x 3 ) f(y) y 1 12/40=0.30 15/50=0.30 9/30=0.30 36/120=0.30 y 2 4/40=0.10 5/50=0.10 3/30=0.10 12/120=0.10 y 3 16/40=0.40 20/50=0.40 12/30=0.40 48/120=0.40 y 4 8/40=0.20 10/50=0.20 6/30=0.20 24/120=0.20 Tot. 1.00 1.00 1.00 1.00 Nota: se tutte le distribuzioi di X codizioate ad Y soo uguali tra loro ed uguali alla margiale di X ache tutte le distribuzioi di Y codizioate ad X soo uguali tra loro ed uguali alla margiale di Y. Pertato, ache i questo caso, se sulla 121^ uità dovesse essere rilevato, ad esempio, X=x 1 la ostra previsioe circa la modalità di Y o migliorerebbe rispetto all iformazioe che ci viee data dalla distribuzioe margiale della stessa Y. Quidi Y è idipedete da X. Domada: come soo le medie codizioate di X e di Y? 3

Torado, ivece, alle 100 barrette d acciaio ed esamiado la tabelle delle distribuzioi di Y codizioate ad X, sapedo, ad esempio che: 0<X<0,75 quale previsioe potremmo fare su Y? Y f( Y x 1 ) f( Y x 2 ) f( Y x 3 ) f( Y x 4 ) 2-4 0,7143 0,1667 0,0571 0,0000 4-5 0,2857 0,5417 0,1714 0,0000 5-6 0,0000 0,2500 0,1429 0,2000 6-7 0,0000 0,0417 0,4286 0,3500 7-9 0,0000 0,0000 0,2000 0,4500 Totali 1,0000 1,0000 1,0000 1,0000 4

Distribuzioe Bivariata di Frequeze

Distribuzioi di X codizioate ad Y i1 1 = = ij j = = is s = k i i = k i (i = 1,, r)

DIMOSTRAZIONE ij = k i ij = k i. j j j=1 da cui: s s ij = k i j=1. j i = k i k i = i (i = 1,, rቁ cioè se le distribuzioi di X codizioate ad Y soo uguali tra di loro allora esse sarao uguali alla distribuzioe margiale di X, ovvero: ij = i j (i = 1,, r; j = 1,, sቇ

Distribuzioi di Y codizioate ad X 1j 1. = = ij i. = = rj r. = h j.j ቇ = h j (j = 1,, s

DIMOSTRAZIONE Dalla dimostrazioe precedete abbiamo otteuto che se le distribuzioi di X codizioate ad Y soo uguali tra loro allora: ij = i j ma da questa otteiamo ache che: (i = 1,, r; j = 1,, sቇ ij ቇ i. =.j = h j(i = 1,, r; j = 1,, s cioè che (a) le distribuzioi di Y codizioate ad X soo uguali tra di loro ed ache che (b) esse sarao uguali alla distribuzioe margiale di Y.

Ifie, poiché le distribuzioi di X codizioate ad Y soo uguali tra loro e coseguetemete ache le distribuzioi di Y codizioate ad X soo uguali tra loro, potremo cocludere dicedo che X ed Y soo idipedeti e la codizioe d idipedeza è: ij = i.. j (i = 1,, r; j = 1,, sቁ

Teorema: Se (1) f(x i y 1 )=...=f(x i y j )= =f(x i y s )=k i per (,..,r) cioè se: i1 /. 1 = = ij /. j = = is /. s = k i per (,..,r) allora: (2) f(x i )=k i per (,..,r), cioè: i. / = k i per (,..,r); (3) f(y j x 1 )=...=f(y j x i )=...=f(y j x r )=h j per (j=1,..,s) cioè: 1j / 1.= = ij / i. = = rj / r.= h j per (j=1,..,s); (4) f(y j )=h j per (j=1,..,s), cioè:. j / = h j per (j=1,..,s) ed ifie: (5) X è idipedete da Y e Y è idipedete da X. 11

Dimostrazioe: dalla (1) avremo che: i1 /.1 =... = ij /.j =... = is /.s = k i cioè: i1 =.1 k i ;.; ij =.j k i ;. ; is =.s k i sommado membro a membro avremo che: cioè per (,..,r) ovvero: k i = i. / per (,..,r), che dimostra la (2). 12

Da (1) e (2) deduciamo che: f(x i y j ) = f(x i ) = k i per (,..,r) e (j=1,..,s) che equivale a: per (,..,r) e (j=1,..,s) da cui: per (,..,r) e (j=1,..,s) che dimostrao la (3) e la (4). Se soo tutte vere: (1), (2), (3) e (4) esse implicao ache la (5), che è dalle stesse defiita. Ifie la codizioe di Idipedeza Statistica tra X e Y è data da: per (,..,r) e (j=1,..,s) c.d.d.. 13

I sitesi, abbiamo dimostrato che: {idipedeza} { f(x i y j )=f(x i )} { f(y j x i )=f(y j )}; i,j ovvero: {idipedeza} { ij /.j = i. /} { ij / i. =.j /}; i,j Codizioe d Idipedeza: ij = i..j i = 1,..,r j = 1,..,s Verificare la codizioe d idipedeza sulle ultime due distribuzioi bivariate (pagie 138 e 144). 14

Regioe Y X Piemote 174,2 287 Valle d'aosta 174,95 281 Lombardia 173,79 282 Tretio A.A. 175,43 266 Veeto 174,83 262 Friuli V.G. 176,11 302 Liguria 174,19 318 Emilia R. 174,58 285 Toscaa 174,49 280 Umbria 173,71 263 Marche 173,46 259 Lazio 173,98 239 Abruzzi 172,3 243 Molise 171,33 230 Campaia 171,2 148 Puglia 171,42 223 Basilicata 169,86 204 Calabria 169,58 173 Sicilia 170,48 175 Sardega 169,27 209 (X): Numero degli abboameti alla RAI (1982) per 1000 abitati per Regioe; (Y) Statura media i cm. degli iscritti di leva (classe 1962). Stabiliamo le segueti Classi di Modalità di Y 169-173; 173-175; 175-177; e di X: 140-210; 210-250; 250-300; 300-320. X/Y 169-173 173-175 175-177 Totali 140-210 5 0 0 5 210-250 3 1 0 4 250-300 0 8 1 9 300-320 0 1 1 2 Totali 8 10 2 20 Essedo ij i..j per tutti gli (i,j) i caratteri (X,Y) soo statisticamete dipedeti, ma o essedo logicamete dipedeti, diremo che si tratta di dipedeza spuria. Nel seguito Dipedeza 15 sigificherà Dipedeza Statistica.

Esempio: collettivo di 50 famiglie classificate per figli e per settore d attività ecoomica del capofamiglia; Frequeze cogiute ij Frequeze cogiute d idipedeza ij Y/X 0 1 2 3 4 5 Tot. A 1.30 3.12 4.94 2.34 1.04 0.26 13 I 1.90 4.56 7.22 3.42 1.52 0.38 19 S 1.80 4.32 6.84 3.24 1.44 0.36 18 Tot. 5 12 19 9 4 1 50 Cotigeze c ij Y/X 0 1 2 3 4 5 Tot. A -0.30-1.12-1.94 1.66 0.96 0.74 0.00 I -0.90-0.56 1.78 0.58-0.52-0.38 0.00 S 1.20 1.68 0.16-2.24-0.44-0.36 0.00 Tot. 0.00 0.00 0.00 0.00 0.00 0.00 0.00 16

Misure sitetiche di Dipedeza Statistica Idice Chi-Quadro di Pearso: dove le c ij = ( ij ij ) e le ij = ( i..j / ). Proprietà di χ 2 : a) se X ed Y soo idipedeti allora χ 2 = 0; b) se X ed Y o soo idipedeti χ 2 > 0, ed è tato più grade quato più le ij si differeziao dalle ij ; c) χ 2 è ua misura di dipedeza per X ed Y caratteri quatitativi e/o qualitativi ed il suo calcolo o si basa é sulle modalità di X é su quelle di Y; d) χ 2 è ua misura assoluta di dipedeza statistica. 17

Calcolo di χ 2 : 1)Tabella dati origiari: ij ; 2)Tabella di Idipedeza: ij; Y/X 0 1 2 3 4 5 Tot. A 1 2 3 4 2 1 13 I 1 4 9 4 1 0 19 S 3 6 7 1 1 0 18 Tot. 5 12 19 9 4 1 50 Y/X 0 1 2 3 4 5 Tot. A 1,3 3,12 4,94 2,34 1,04 0,26 13 I 1,9 4,56 7,22 3,42 1,52 0,38 19 S 1,8 4,32 6,84 3,24 1,44 0,36 18 Tot. 5 12 19 9 4 1 50 3)Tabella delle cotigeze: c ij ; 4)Tabella dei rapporti: c 2 ij / ij ; 5) χ 2 =10,49. Y/X 0 1 2 3 4 5 Tot. A -0,3-1,12-1,94 1,66 0,96 0,74 0 I -0,9-0,56 1,78 0,58-0,52-0,38 0 S 1,2 1,68 0,16-2,24-0,44-0,36 0 Tot. 0 0 0 0 0 0 0 Y/X 0 1 2 3 4 5 Tot. A 0,07 0,40 0,76 1,18 0,89 2,11 5,40 I 0,43 0,07 0,44 0,10 0,18 0,38 1,59 S 0,80 0,65 0,00 1,55 0,13 0,36 3,50 Tot. 1,30 1,12 1,20 2,82 1,20 2,85 10,49 Nota: il valore di χ 2 otteuto ci assicura che tra X ed Y c è dipedeza statistica ma o dice quato essa è forte, perché χ 2 è ua misura assoluta di dipedeza. 18

Calcolo alterativo di χ 2 : 2 = = = r r s r j=1 s s 1 ij 2 ij j=1 ij 2 c j=1 ij ( - 2 ij 2 ij r = r - 2 s ij s ij j=1 ij ij ( ij + - j=1 ij ij + 2 ij r ij )= s ) 2 2 ij j=1 ij = = = = r r s j=1 s 2 ij ij - 2 2 ij j=1 ij - r s j=1 2+ ij + r s j=1 ij = poiché : r ij s j=1 = r s j=1 i..j = 1 ( r i. )( s j=1.j )= 1 =

Pertato avremo ache: ifie, se o si vuole passare per il calcolo delle ij= i..j /, avremo: 2 = r s 2 ij j=1 i..j -1 20

Defiizioe di Massima Dipedeza La dipedeza è massima se per ogi riga o per ogi coloa o più di ua frequeza cogiuta è diversa da zero. Esempio: X/Y y 1 y 2 y 3 y 4 Tot. x 1 11 0 0 0 11 x 2 0 0 23 0 23 x 3 0 32 0 0 32 Tot. 11 32 23 0 Per le caselle co ij 0 avremo: 2 ij = i..j e di cosegueza r s 2 ij j=1 i..j t, dove t = miore ( r, s ) e max χ 2 =( t 1) Defiiamo, quidi, l idice relativo di dipedeza di Cràmer: C 2 = χ 2 / max χ 2 = χ 2 / [ ( t 1 ) ] co [0 C 2 1]. 21

Esempio collettivo di 50 famiglie classificate per figli e per settore d attività ecoomica del capofamiglia: Il max χ 2 per la tabella precedete è quello che si otterrebbe da ua tabella co le stesse dimesioi (3 x 6) e co lo stesso totale (=50). I tal caso: max χ 2 = ( t 1 ) = [ mi (3,6) 1 ] 50 = 100, quidi: C 2 = χ 2 /max χ 2 = 10,49/100 = 0,1049

Misure di dipedeza lieare o correlazioe Se due caratteri quatitativi risultao statisticamete dipedeti possiamo ipotizzare che essi siao legati da ua relazioe lieare, cioè del tipo Y= a + b X. Per verificare questa ipotesi misureremo la: strettezza della relazioe lieare, ovvero, misurado il grado di correlazioe tra X e Y. Si cosiderio le coppie di modalità (x i, y j ), riportati elle tabelle che seguoo, ed i relativi di diagrammi scatter che mettoo i luce ua possibile relazioe lieare tra X e Y: 23

Data Set (a) relativo a 100 coppie di modalità (x i, y i ) dei caratteri quatitativi X e Y X Y X Y X Y X Y 1,00-3,70 6,00-1,98 11,00 24,07 17,00 13,06 1,00 14,53 6,60 2,42 10,30-4,60 17,00 6,18 1,30-3,62 7,00 6,03 11,00 12,81 17,40 12,10 1,00-4,46 7,00-7,16 11,40-1,16 18,00 15,31 1,00-1,54 7,00-1,70 12,00 10,76 18,00 7,33 1,60-7,99 7,00 19,24 12,00 5,14 18,10 12,97 1,70 10,86 7,10-7,68 12,10 21,17 19,00 13,56 1,50 11,97 7,00 9,32 13,00 7,38 19,00 9,45 2,00 9,11 7,80 9,02 13,00 25,59 20,30 26,55 2,00-11,32 8,00 15,06 13,00 14,81 21,00 14,07 2,40-6,60 8,00 19,28 13,40 9,64 22,90 22,42 3,00 2,83 8,70 19,33 13,00 24,97 23,10 26,72 3,00 5,71 8,00 17,56 13,00 0,54 24,00 29,89 3,40 9,73 8,00 7,99 14,00 24,08 24,00 33,89 3,00-7,08 8,20 19,50 14,50 0,26 25,10 14,39 3,00 7,64 8,00 13,02 14,00 0,33 25,00 15,87 3,60 13,74 9,00 2,40 14,00 23,64 25,00 9,13 4,00-1,76 9,00 11,69 14,20 2,79 25,00 15,41 4,10 3,66 9,10 17,11 15,00 14,89 26,70 29,08 5,00-6,50 9,00-1,30 15,00-2,37 26,00 17,58 5,40 5,54 9,60 17,32 15,00 14,56 26,20 22,06 5,00 19,50 10,00 16,51 16,00 1,66 27,00 10,48 5,00-6,96 10,00 4,00 16,00 17,61 27,00 25,73 5,20 3,47 10,30-5,79 16,00 3,23 28,20 24 15,30 5,00 14,39 10,00 20,30 16,00 5,68 29,00 18,37

Diagramma Scatter (a) relativo a 100 coppie di modalità (x i, y i ) dei caratteri quatitativi X e Y 40,00 35,00 30,00 25,00 20,00 15,00 10,00 5,00 0,00 0,00 5,00 10,00 15,00 20,00 25,00 30,00 35,00-5,00-10,00-15,00 25

40,00 Diagramma Scatter (a) relativo a 100 coppie di modalità (x i, y i ) dei caratteri quatitativi X e Y (i sovrimpressioe la retta d equazioe: Y = 1,5 + 0,71 X ) 35,00 30,00 25,00 20,00 15,00 10,00 5,00 0,00 0,00 5,00 10,00 15,00 20,00 25,00 30,00 35,00-5,00-10,00-15,00 26

Data Set (b) relativo a 100 coppie di modalità (x i, y i ) dei caratteri quatitativi X e Y X Y X Y X Y X Y 1,00 2,20 6,00 4,07 11,00 9,03 17,00 10,85 1,00 2,81 6,60 9,34 10,30 8,08 17,00 12,66 1,30 3,38 7,00 8,92 11,00 9,03 17,40 14,43 1,00 5,20 7,00 8,44 11,40 9,95 18,00 15,46 1,00 1,73 7,00 9,16 12,00 11,18 18,00 16,83 1,60 5,42 7,00 6,01 12,00 13,36 18,10 13,41 1,70 5,67 7,10 5,84 12,10 8,15 19,00 17,98 1,50-0,24 7,00 7,34 13,00 9,22 19,00 15,84 2,00 5,83 7,80 9,06 13,00 9,81 20,30 19,51 2,00 3,43 8,00 8,14 13,00 11,60 21,00 14,52 2,40 2,87 8,00 6,99 13,40 13,09 22,90 19,53 3,00 4,07 8,70 7,68 13,00 10,76 23,10 15,52 3,00-0,01 8,00 7,40 13,00 10,05 24,00 21,27 3,40 0,83 8,00 10,34 14,00 12,58 24,00 16,62 3,00 2,99 8,20 5,35 14,50 12,02 25,10 20,13 3,00 5,88 8,00 6,40 14,00 8,41 25,00 16,99 3,60 3,97 9,00 5,86 14,00 10,32 25,00 22,60 4,00 6,19 9,00 10,57 14,20 12,28 25,00 22,30 4,10 3,24 9,10 9,44 15,00 15,48 26,70 23,49 5,00 6,01 9,00 7,01 15,00 9,40 26,00 19,85 5,40 8,38 9,60 6,41 15,00 11,13 26,20 18,04 5,00 3,64 10,00 11,00 16,00 13,41 27,00 17,89 5,00 3,53 10,00 6,12 16,00 14,06 28,20 22,45 5,20 3,56 10,30 11,54 16,00 11,43 28,00 27 24,28 5,00 7,35 10,00 10,26 16,00 15,69 29,00 20,23

Diagramma Scatter (b) relativo a 100 coppie di modalità (x i, y i ) dei caratteri quatitativi X e Y 30,00 25,00 20,00 15,00 10,00 5,00 0,00 0,00 5,00 10,00 15,00 20,00 25,00 30,00 35,00-5,00 28

30,00 Diagramma Scatter (b) relativo a 100 coppie di modalità (x i, y i ) dei caratteri quatitativi X e Y (i sovrimpressioe la retta d equazioe: Y = 1 + 0,75 X ) 25,00 20,00 15,00 10,00 5,00 0,00 0,00 5,00 10,00 15,00 20,00 25,00 30,00 35,00-5,00 29

La differeza tra i due diagrammi scatter (a) e (b) cosiste el fatto che il primo diagramma mostra ua uvola di puti più dispersa che o el secodo caso, pur mostrado etrambe ua sottostate relazioe lieare tra X e Y. Più precisamete diremo che el caso (b) la relazioe lieare tra X e Y è più stretta che o el caso (a). Misure di strettezza della relazioe lieare o di Correlazioe tra X e Y La Covariaza Date le coppie di modalità (x 1, y 1 ) (x, y ) chiameremo Covariaza la media dei prodotti degli scarti dalle rispettive medie di X e di Y: cov(x, y)= 1 x - M(x) y - M(y) i i 30

Diagramma Scatter (a) relativo a 100 coppie di modalità (x i, y i ) dei caratteri quatitativi X e Y 40,00 35,00 30,00 25,00 20,00 15,00 10,00 5,00 0,00 0,00 5,00 10,00 15,00 20,00 25,00 30,00 35,00-5,00-10,00-15,00 31

Diagramma Scatter (a) relativo a 100 coppie di modalità (x i, y i ) dei caratteri quatitativi X e Y 40,00 35,00 30,00 25,00 20,00 15,00 10,00 M y =9,9 5,00 0,00 M x =11,9 0,00 5,00 10,00 15,00 20,00 25,00 30,00 35,00-5,00-10,00-15,00 32

Diagramma Scatter (a) relativo a 100 coppie di modalità (x i, y i ) dei caratteri quatitativi X e Y 40,00 35,00 I Quadrate 30,00 25,00 20,00 15,00 10,00 M y =9,9 5,00 0,00 M x =11,9 0,00 5,00 10,00 15,00 20,00 25,00 30,00 35,00-5,00-10,00-15,00 33

Diagramma Scatter (a) relativo a 100 coppie di modalità (x i, y i ) dei caratteri quatitativi X e Y 40,00 35,00 I Quadrate 30,00 25,00 20,00 P i 15,00 10,00 M y =9,9 5,00 0,00 M x =11,9 0,00 5,00 10,00 15,00 20,00 25,00 30,00 35,00-5,00 (x i M x ) < 0-10,00-15,00 34

Diagramma Scatter (a) relativo a 100 coppie di modalità (x i, y i ) dei caratteri quatitativi X e Y 40,00 35,00 I Quadrate 30,00 25,00 20,00 15,00 (y i M y ) > 0 P i 10,00 M y =9,9 5,00 0,00 M x =11,9 0,00 5,00 10,00 15,00 20,00 25,00 30,00 35,00-5,00 (x i M x ) < 0-10,00-15,00 35

Diagramma Scatter (a) relativo a 100 coppie di modalità (x i, y i ) dei caratteri quatitativi X e Y 40,00 35,00 I Quadrate NEGATIVO 30,00 25,00 20,00 15,00 (y i M y ) > 0 P i 10,00 M y =9,9 5,00 0,00 M x =11,9 0,00 5,00 10,00 15,00 20,00 25,00 30,00 35,00-5,00 (x i M x ) < 0-10,00-15,00 36

Diagramma Scatter (a) relativo a 100 coppie di modalità (x i, y i ) dei caratteri quatitativi X e Y 40,00 35,00 I Quadrate NEGATIVO II Quadrate POSITIVO 30,00 25,00 20,00 15,00 (y i M y ) > 0 P i 10,00 M y =9,9 5,00 0,00 M x =11,9 0,00 5,00 10,00 15,00 20,00 25,00 30,00 35,00-5,00 (x i M x ) < 0-10,00-15,00 37

Diagramma Scatter (a) relativo a 100 coppie di modalità (x i, y i ) dei caratteri quatitativi X e Y 40,00 35,00 I Quadrate NEGATIVO II Quadrate POSITIVO 30,00 25,00 20,00 15,00 (y i M y ) > 0 P i 10,00 M y =9,9 5,00 0,00 M x =11,9 0,00 5,00 10,00 15,00 20,00 25,00 30,00 35,00-5,00 (x i M x ) < 0-10,00-15,00 III Quadrate POSITIVO 38

Diagramma Scatter (a) relativo a 100 coppie di modalità (x i, y i ) dei caratteri quatitativi X e Y 40,00 35,00 I Quadrate NEGATIVO II Quadrate POSITIVO 30,00 25,00 20,00 15,00 (y i M y ) > 0 P i 10,00 M y =9,9 5,00 0,00 M x =11,9 0,00 5,00 10,00 15,00 20,00 25,00 30,00 35,00-5,00-10,00-15,00 (x i M x ) < 0 III Quadrate POSITIVO IV Quadrate NEGATIVO 39

Per il data set (a) soo prevaleti i prodotti degli scarti [(x i - M(X)] [y i M(Y)] > 0, essedo X ed Y cocordi, quidi Cov(X,Y)>0, i particolare: Cov(X,Y) = 41,42.

Aalogamete, per il data set (b), essedo i caratteri quatitativi X e Y cocordi, soo prevaleti i prodotti di scarti positivi, quidi Cov(X,Y)>0, i particolare: Cov(X,Y) = 41,64. 30,00 25,00 20,00 15,00 10,00 5,00 0,00 0,00 5,00 10,00 15,00 20,00 25,00 30,00 35,00-5,00

Aalogamete, per il data set (b), essedo i caratteri quatitativi X e Y cocordi, soo prevaleti i prodotti di scarti positivi, quidi Cov(X,Y)>0, i particolare: Cov(X,Y) = 41,64. 30,00 25,00 I Quadrate NEGATIVO II Quadrate POSITIVO 20,00 15,00 10,00 M y =10,3 5,00 IV Quadrate NEGATIVO 0,00 0,00 5,00 10,00 M x =11,9 15,00 20,00 25,00 30,00 35,00-5,00 III Quadrate POSITIVO

Se X ed Y soo cocordi soo prevaleti i puti che cadoo el II e el III quadrate. A tali puti corrispodoo scarti di X e di Y che hao, rispettivamete, lo stesso sego e che producoo, pertato, prodotti di scarti positivi. La Covariaza, essedo pari alla media dei prodotti degli scarti, sarà positiva. Nel caso i cui X ed Y siao discordi i puti del diagramma scatter sarao prevaleti el I e el IV quadrate. A tali puti corrispoderao scarti di X e di Y che avrao sego opposto e darao luogo, pertato, a prodotti di scarti egativi. La Covariaza, i questo secodo caso, essedo pari alla media dei prodotti degli scarti, sarà egativa. 43

Data Set (c) relativo a 100 coppie di modalità (x i, y i ) dei caratteri quatitativi X e Y X Y X Y X Y X Y 1,00 23,94 6,00 18,37 11,00 19,17 17,00 7,80 1,00 21,20 6,60 22,22 10,30 13,95 17,00 13,15 1,30 24,83 7,00 21,30 11,00 16,49 17,40 11,26 1,00 21,85 7,00 17,87 11,40 13,47 18,00 13,36 1,00 25,48 7,00 15,97 12,00 15,54 18,00 13,01 1,60 23,63 7,00 18,58 12,00 14,54 18,10 13,75 1,70 23,86 7,10 17,18 12,10 12,96 19,00 7,76 1,50 25,80 7,00 19,95 13,00 16,75 19,00 9,38 2,00 21,82 7,80 18,65 13,00 14,36 20,30 7,35 2,00 23,42 8,00 18,12 13,00 16,25 21,00 9,57 2,40 22,87 8,00 19,17 13,40 16,28 22,90 4,96 3,00 20,89 8,70 16,29 13,00 13,49 23,10 3,34 3,00 18,78 8,00 21,12 13,00 17,64 24,00 7,68 3,40 21,24 8,00 16,61 14,00 10,71 24,00 7,25 3,00 18,82 8,20 19,54 14,50 10,20 25,10 5,37 3,00 22,33 8,00 18,44 14,00 13,69 25,00 8,31 3,60 19,50 9,00 18,44 14,00 16,53 25,00 2,94 4,00 19,75 9,00 20,61 14,20 13,60 25,00 4,40 4,10 22,09 9,10 18,68 15,00 9,51 26,70 4,93 5,00 23,13 9,00 15,28 15,00 16,05 26,00 5,94 5,40 18,74 9,60 19,04 15,00 9,86 26,20 4,24 5,00 17,99 10,00 16,42 16,00 14,48 27,00 1,29 5,00 18,87 10,00 16,13 16,00 11,52 28,20 3,87 5,20 23,06 10,30 17,10 16,00 9,51 28,00 445,92 5,00 23,12 10,00 18,63 16,00 15,08 29,00 5,05

Diagramma Scatter (c) relativo a 100 coppie di modalità (x i, y i ) dei caratteri quatitativi X e Y 30 25 20 15 10 5 0 0 5 10 15 20 25 30 35 45

Diagramma Scatter (c) relativo a 100 coppie di modalità (x i, y i ) dei caratteri quatitativi X e Y 30 25 20 15 M y =15,4 10 5 0 0 5 10 M x =10,9 15 20 25 30 35 46

Nel data set (c) soo prevaleti i prodotti di scarti egativi, cioè [(x i -M(X)] [y i M(Y)] < 0 (essedo i caratteri quatitativi X e Y discordi), quidi Cov(X,Y)<0, i particolare: Cov(X,Y)= - 43,72...-. I caso di bilaciameto tra prodotti degli scarti positivi e egativi si ha: Cov( X, Y ) = 0.

Data Set (d) relativo a 100 coppie di modalità (x i, y i ) dei caratteri quatitativi X e Y X Y X Y X Y X Y 1,00-3,39 6,00 4,33 11,00 5,65 17,00-2,62 1,00 1,81 6,60 5,89 10,30-2,73 17,00-1,86 1,30-0,89 7,00 4,86 11,00 3,63 17,40-2,42 1,00-0,55 7,00 2,87 11,40 3,24 18,00-1,38 1,00-1,00 7,00 4,21 12,00 0,11 18,00 2,09 1,60 3,88 7,00 1,40 12,00 3,29 18,10 4,68 1,70-2,77 7,10 4,22 12,10 5,13 19,00 4,35 1,50 0,41 7,00 5,49 13,00-1,17 19,00 5,72 2,00-2,94 7,80-2,84 13,00 5,85 20,30-3,54 2,00 4,95 8,00-1,27 13,00 2,19 21,00 4,64 2,40-1,26 8,00 2,07 13,40-3,99 22,90-0,91 3,00 1,03 8,70 0,97 13,00 0,72 23,10 0,10 3,00 2,34 8,00-3,66 13,00 3,66 24,00 5,02 3,40-2,29 8,00-3,08 14,00 2,85 24,00-3,86 3,00-3,40 8,20-2,15 14,50 3,93 25,10 4,57 3,00 2,64 8,00 4,54 14,00-2,57 25,00 2,24 3,60 3,44 9,00 0,39 14,00-2,64 25,00 4,07 4,00 3,34 9,00 4,11 14,20 0,72 25,00-1,17 4,10-3,03 9,10-0,27 15,00-3,72 26,70 0,75 5,00 4,53 9,00 5,72 15,00-2,18 26,00 3,98 5,40 4,03 9,60 5,17 15,00-0,56 26,00-1,94 5,00-3,19 10,00 1,33 16,00 0,70 26,20-3,77 5,00 4,94 10,00 0,87 16,00-1,87 27,00 4,55 5,20 2,24 10,30 4,15 16,00-1,60 27,00 1,93 5,00 1,27 10,00 4,20 16,00 3,54 27,00-0,23

Data Set (d) relativo a 100 coppie di modalità (x i, y i ) dei caratteri quatitativi X e Y 8 6 4 2 M y =1,2 0 0 5 10 M x =11,8 15 20 25 30-2 -4-6

Nel data set (d) i prodotti di scarti positivi equivalgoo quelli egativi, o solo, ma a valori di X piccoli corrispodoo sia valori di Y piccoli che gradi e lo stesso succede per i valori gradi di X. I altre parole, o si riesce a ricooscere alcua relazioe fuzioale tra i valori di Y i fuzioe di X (ma ache viceversa). I questa situazioe se i ua uità si coosce la modalità co la quale si maifesta uo dei due caratteri è impossibile fare ua previsioe razioale circa la modalità del secodo carattere. Per cui cocluderemo che: X ed Y soo INDIPENDENTI I particolare, i questo data set (d) si ha: Cov(X,Y)= - 0,20.

Medie Codizioate e Margiale di Y (Data Set D) (1) Classi X (2) Val. Cetr. X (3) Somma(Y i ) (4) Frequeze (5)=(3)/(4) M(Y x) 0-5 2,5 2,33 19 0,12 5-10 7,5 56,78 27 2,10 10-15 12,5 38,41 22 1,75 15-20 17,5 2,86 15 0,19 20-25 22,5 1,44 6 0,24 25-30 27,5 14,97 11 1,36 Totali --- 116,79 100 1,17

Data Set (d) relativo a 100 coppie di modalità (x i, y i ) dei caratteri quatitativi X e Y (M(Y x) = medie di Y codizioate ad x) 8 6 4 2 M y =1,2 2,10 1,75 0 1,36 0 0,12 5 10 M x =11,8 15 0,19 0,24 20 25 30-2 -4-6

Data Set (e) relativo a 100 coppie di modalità (x i, y i ) dei caratteri quatitativi X e Y X Y X Y X Y X Y 2,24 1,32 0,83-2,45 4,78-2,80 4,36 0,16 3,01 4,13 3,13 1,85 3,80 2,12 3,57 1,99 1,96 1,96 4,80-0,75 1,90-0,48 4,57-1,08 1,74-0,73 1,63-0,85 5,22-4,20 1,99 2,47 2,74 2,42 3,78 2,51 2,20 1,24 1,49 2,13 3,00 3,18 2,67 2,77 2,50 1,06 5,42-5,50 3,25 1,73 4,06 0,99 1,68-0,01 1,86 0,31 3,07 4,47 5,15-2,64 3,13 2,80 3,72 1,17 4,31-0,66 3,97 2,68 5,43-4,82 1,48 0,80 1,75 0,51 4,78-1,30 2,43 1,16 1,81 2,03 2,40 2,58 3,42 1,75 4,59-2,51 4,45 1,00 4,96-2,01 4,97-1,26 3,85 1,00 0,72-2,88 3,46 3,03 3,19 2,95 0,86-2,78 3,08 2,21 1,76 0,38 0,80-2,30 1,34-0,95 2,48 0,69 1,41 0,00 1,18-1,83 5,45-4,71 3,76 2,78 3,97 1,20 2,02 2,50 1,59 0,20 4,72-1,36 2,91 1,40 0,53-5,97 3,58 2,65 0,65-4,15 5,07-3,62 0,88-3,71 5,48-5,19 0,96-2,25 2,92 2,51 2,36 2,64 2,45 1,66 1,79 1,45 5,02-1,57 1,38 0,57 4,03 1,94 0,79-2,75 4,84-2,10 3,57 3,32 0,82-3,27 1,64 0,84 3,41 2,06 4,13-0,14 0,75-3,63 2,43 2,64 2,41 1,68 3,68 1,77 4,24 1,92 0,71-3,73 3,37 2,00 4,86-2,18 3,64 0,91 2,72 4,69 0,65-3,46 3,18 3,41 1,70 1,34 1,35-0,62

Data Set (e) relativo a 100 coppie di modalità (x i, y i ) dei caratteri quatitativi X e Y 6 4 2 0 M y =0,1 M 0 1 2 x =2,9 3 4 5 6-2 -4-6 -8

Ache per il data set (e) c è u bilaciameto ei quattro quadrati, come el caso del data set (d), quidi la covariaza, se o proprio ulla, sarà vicia a zero. Ifatti i questo data set (e) si ha: Cov(X,Y)= - 0,03. Rispetto al data set (d), i puti del diagramma scatter relativo al data set (e) mostrao, però, ua chiara relazioe fuzioale di Y rispetto alla X. I particolare, al crescere della X la Y prima cresce e poi decresce. Pertato, i ua uità, cooscedo la modalità di X adesso siamo i grado di poter fare ua previsioe sul valore della Y, quidi possiamo cocludere che Y DIPENDE da X, ache se la dipedeza o è LINEARE, cioè la CORRELAZIONE è quasi NULLA.

Da tutto quello è stato mostrato egli esempi si evice chiaramete che: se tra i due caratteri X ed Y c è perfetta INDIPENDENZA allora la COVARIANZA è pari a zero. No vale il viceversa, cioè: se la COVARIANZA è ulla o è detto che i due caratteri X ed Y siao INDIPENDENTI perché Y potrebbe essere legata ad X da ua relazioe diversa da quella lieare. I altre parole: se c è INDIPENDENZA c è (a fortiori) INCORRELAZIONE, se c è INCORRELAZIONE o è detto che ci sia INDIPENDENZA. I simboli: Idipedeza Cov(X,Y)=0 Cov(X,Y)=0 Idipedeza

Richiami sulle equazioi di II grado: y = a x 2 + b x + c La precedete equazioe geometricamete rappreseta ua parabola che si disporrà el piao i fuzioe dei valori assuti dai parametri a, b e c. Se ad esempio a > 0, la cocavità è rivolta verso l alto. Idichiamo co Δ il valore Δ = b 2-4ac. Poichè le radici dell equazioe y=0 soo: x 1 = (-b - Δ) / 2 a, x 2 = (-b + Δ) / 2 a se Δ > 0, le radici soo reali e distite, se Δ = 0 le radici soo reali e coicideti ed, ifie, se Δ < 0, le radici soo immagiarie coiugate: Caso 1: Δ > 0 Caso 2: Δ = 0 Caso 3: Δ < 0 NB: ei casi 1, 2 e 3 si ha sempre: a>0, cocavità verso l alto (vedi y=a x 2 ), solo ei casi 2 e 3 si ha: y 0 Δ 0

Diseguagliaza di Cauchy-Schwarz Cov( X, Y ) 2 V( X ) V( Y ) Dimostrazioe: zi = xi - M(X) wi = yi - M(Y) y = = (z (z z i 2 i 2 i +lw +2 l +2 l i ) 2 z i = w +l z i i w +l i 2 w 2 2 i )= w 2 i 0 Cioè: y = l 2 w i 2 + l 2 z i w i + z i 2 0 58

Poiché l espressioe precedete è o egativa, cioè si ha sempre y 0 ed a > 0, quidi il poliomio i l, (a) (b) (c) o ammette radici reali e distite, cioè il suo discrimiate Δ è Δ 0 (perché y 0), cioè: 59

ma, sostituedo al posto di z i e w i gli scarti di x i rispettive medie, avremo: e y i dalle cioè: da cui cosegue: Cov( X, Y ) 2 V( X ) V( Y ) c.d.d. - V(X) V(Y) Cov(X,Y) V(X) V(Y) 60

Nella diseguagliaza di Cauchy-Schwarz vale il sego = quado X ed Y soo legate da ua perfetta relazioe lieare, cioè Y=a+bX. Ifatti, se Y=a+bX allora y i = a + b x i, i, quidi, ricordado che M(Y) = a + b M(X), avremo: Cov(X,Y)= = = 1 1 = d 1 1 x - M(X) y - M(Y) x - M(X) c+d x - c - d M(X) x - M(X) d x - M(X) i i x - M(X) = d V(X) i i 2 i i i = = = 61

ioltre, essedoci ua relazioe lieare tra le medie avremo ache: M(X)=-(a/b)+M(Y)/b pertato: 62

quidi, i ultima aalisi: Cov(X,Y)=bV(X) Cov(X,Y)=V(Y)/b pertato se: Y=a+bX allora Cov(X,Y) 2 =V(X)V(Y) ioltre, se b>0 si ha Cov(X,Y)=bV(X) 0, quidi: c.d.d. Cov(X,Y) = V(X) V(Y) se, ivece, b<0 si ha Cov(X,Y)=bV(X) 0, quidi: Cov(X,Y) = - V(X) V(Y) 63

Idice relativo di dipedeza lieare o correlazioe: r(x,y) = Cov (X,Y) max Cov (X,Y) = Cov (X,Y) V(X) V(Y) -1 r(x,y) 1 il sigificato di r(x,y), detto coefficiete di correlazioe di Bravais Pearso, è idetico a quello di Cov(X,Y) ma, a differeza di quest ultima, r(x,y) è ua misura relativa di correlazioe. 64

Per il Data Set (a) avremo: M(X)=11,87; M(Y)=9,87; V(X)=58,74; V(Y)=102,84; Cov(X,Y)=41,42; r(x,y)=0,53. Per il data set (b) avremo: M(X)=11,87;M(Y)=10,29;V(X)=58,78;V(Y)=33,21; Cov(X,Y)=41,64; r(x,y)=0,94. Per il data set (c) avremo: M(X)=11,88; M(Y)=15,40; V(X)=59,05; V(Y)=36,31; Cov(X,Y)=-43,72; r(x,y)=-0,94. Per il data set (d) avremo: M(X)=11,82;M(Y)=1,17;V(X)=57,42;V(Y)=9,28; Cov(X,Y)=-0,20; r(x,y)=-0,01. Per il data set (e) avremo: M(X)=2,91; M(Y)=0,14; V(X)=2,01; V(Y)=6,17; Cov(X,Y)=-0,03; r(x,y)=-0,01. 65

Dati Auto (Auto.xlsx) mpg cyliders displacemet horsepower weight acceleratio year origi ame 1 18.0 8 307.0 130 3504 12.0 70 1 chevrolet chevelle malibu 2 15.0 8 350.0 165 3693 11.5 70 1 buick skylark 320 3 18.0 8 318.0 150 3436 11.0 70 1 plymouth satellite 4 16.0 8 304.0 150 3433 12.0 70 1 amc rebel sst 5 17.0 8 302.0 140 3449 10.5 70 1 ford torio 6 15.0 8 429.0 198 4341 10.0 70 1 ford galaxie 500 7 14.0 8 454.0 220 4354 9.0 70 1 chevrolet impala 8 14.0 8 440.0 215 4312 8.5 70 1 plymouth fury 9 14.0 8 455.0 225 4425 10.0 70 1 potiac catalia 10 15.0 8 390.0 190 3850 8.5 70 1 amc ambassador dpl 11 15.0 8 383.0 170 3563 10.0 70 1 dodge challeger se 12 14.0 8 340.0 160 3609 8.0 70 1 plymouth 'cuda 340 13 15.0 8 400.0 150 3761 9.5 70 1 chevrolet mote carlo 14 14.0 8 455.0 225 3086 10.0 70 1 buick estate wago (sw) 15 24.0 4 113.0 95 2372 15.0 70 3 toyota coroa mark 16 22.0 6 198.0 95 2833 15.5 70 1 plymouth duster 17 18.0 6 199.0 97 2774 15.5 70 1 amc horet 18 21.0 6 200.0 85 2587 16.0 70 1 ford maverick 19 27.0 4 97.0 88 2130 14.5 70 3 datsu pl510 20 26.0 4 97.0 46 1835 20.5 70 2 volkswage 1131 deluxe seda 21 25.0 4 110.0 87 2672 17.5 70 2 peugeot 504 22 24.0 4 107.0 90 2430 14.5 70 2 audi 100 ls 23 25.0 4 104.0 95 2375 17.5 70 2 saab 99e 24 26.0 4 121.0 113 2234 12.5 70 2 bmw 2002 25 21.0 6 199.0 90 2648 15.0 70 1 amc gremli 26 10.0 8 360.0 215 4615 14.0 70 1 ford f250 27 10.0 8 307.0 200 4376 15.0 70 1 chevy c20 28 11.0 8 318.0 210 4382 13.5 70 1 dodge d200

Dati Auto (Auto.txt) mpg cyliders displacemet horsepower weight acceleratio year origi ame 372 29.0 4 135.0 84 2525 16.0 82 1 dodge aries se 373 27.0 4 151.0 90 2735 18.0 82 1 potiac phoeix 374 24.0 4 140.0 92 2865 16.4 82 1 ford fairmot futura 375 36.0 4 105.0 74 1980 15.3 82 2 volkswage rabbit 376 37.0 4 91.0 68 2025 18.2 82 3 mazda glc custom l 377 31.0 4 91.0 68 1970 17.6 82 3 mazda glc custom 378 38.0 4 105.0 63 2125 14.7 82 1 plymouth horizo miser 379 36.0 4 98.0 70 2125 17.3 82 1 mercury lyx l 380 36.0 4 120.0 88 2160 14.5 82 3 issa staza xe 381 36.0 4 107.0 75 2205 14.5 82 3 hoda accord 382 34.0 4 108.0 70 2245 16.9 82 3 toyota corolla 383 38.0 4 91.0 67 1965 15.0 82 3 hoda 384 32.0 4 91.0 67 1965 15.7 82 3 hoda civic (auto) 385 38.0 4 91.0 67 1995 16.2 82 3 datsu 310 gx 386 25.0 6 181.0 110 2945 16.4 82 1 buick 387 38.0 6 262.0 85 3015 17.0 82 1 oldsmobile cutlass ciera 388 26.0 4 156.0 92 2585 14.5 82 1 chrysler lebaro medallio 389 22.0 6 232.0 112 2835 14.7 82 1 ford graada l 390 32.0 4 144.0 96 2665 13.9 82 3 toyota celica gt 391 36.0 4 135.0 84 2370 13.0 82 1 dodge charger 2.2 392 27.0 4 151.0 90 2950 17.3 82 1 chevrolet camaro 393 27.0 4 140.0 86 2790 15.6 82 1 ford mustag gl 394 44.0 4 97.0 52 2130 24.6 82 2 vw pickup 395 32.0 4 135.0 84 2295 11.6 82 1 dodge rampage 396 28.0 4 120.0 79 2625 18.6 82 1 ford rager 397 31.0 4 119.0 82 2720 19.4 82 1 chevy s-10

Diagrammi di Dispersioe per coppie di variabili (dati Auto.txt)

Sio ad ora, ello studio dei delle distribuzioi bivariate abbiamo supposto che i dati siao foriti sotto forma di coppie di modalità rilevate (x i, y i ). Aalizzeremo ora il caso i cui, ivece, essi siao foriti sotto forma di: tabella a doppia etrata o tabella di cotigeza. I dati da predere i cosiderazioe sarao ora le r x s coppie (x i, y j ) di modalità diverse ciascua cosiderata co la propria frequeza ij. 70

Tabella a Doppia Etrata X/Y y 1 y 2 y 3... y j... y s Tot x 1 11 12 13... 1j... 1s 1. x 2 21 22 23... 2j... 2s 2............................ x i i1 i2 i3... ij... is i............................ x r r1 r2 r3... rj... rs r. Tot.1.2.3....j....s La covariaza rimae defiita come la media aritmetica, i questo caso poderata, dei prodotti degli scarti dalla media, 71 rispettivamete, di X e di Y.

Si oti che se le variabili X e Y soo idipedeti allora si avrà che: ij = i..j /, (i,j), sostituedo ella formula della covariaza avremo: r s 1 Cov(X,Y)= i..j xi - M(X) y j - M(Y) = = 1 r j=1 1 x - M(X) y - M(Y) = i = 0 0 = 0 I coclusioe: se (X, Y) soo Idipedeti Cov(X, Y)=0, r(x, Y)=0. i. s j=1 j.j NON E VERO IL VICEVERSA 72

= Calcolo semplificato della Covariaza Cov(X,Y)= 1 1 x - M X y - M Y - y M X + M Y M X x y - x M Y = i i i i i i = = 1 x i y i - M(Y) x i - M(X) y i +M(Y)M(X) = = 1 x i y i - M(Y)M(X)- M(Y)M(X)+ M(Y)M(X) da cui: Cov(X,Y)= 1 x i y i - M(X) M(Y) 73

Verifichiamo co u cotro esempio che Cov(X, Y)=0 o implica l idipedeza: X Y X Y -2 4-8 -1 1-1 0 0 0 1 1 1 2 4 8 0 10 0 Ifatti ella tabella, di cui sopra, M(X)=0, M(Y)=2, quidi Cov(X,Y)=r(X,Y)=0 ma, chiaramete, Y dipede da X secodo ua legge quadratica. I questo caso X ed Y si dicoo icorrelati. 74

se i dati soo orgaizzati i ua tabella a doppia etrata avremo aalogamete: Cov(X,Y)= 1 r xi s j=1 M(X) M(Y) il calcolo del coefficiete di correlazioe si effettuerà come di cosueto: y j ij - r(x,y) = Cov (X,Y) V(X) V(Y) 75