Indipendenza tra due caratteri

Documenti analoghi
Indipendenza tra due caratteri

Caso studio 9. Distribuzioni doppie. Esempi

Esercitazioni di Statistica Dott. Danilo Alunni Fegatelli

Statistica 1 A.A. 2015/2016

Metodi statistici per le ricerche di mercato

Statistica. Lezioni : 11, 12. Statistica Descrittiva Bivariata 2. a.a

Esercitazioni di Statistica Dott.ssa Cristina Mollica

7. ASSOCIAZIONE TRA CARATTERI

7. ASSOCIAZIONE TRA CARATTERI

Esempio. Tabella a doppia entrata. n 2. n 24. n.6

7. RELAZIONE TRA CARATTERI

Lo studio della relazione lineare tra due variabili

2.2 - La dipendenza assoluta e parametrica

Statistica bivariata Tabella di contingenza % di riga I tre tipi di percentuale rimandano a significati differenti. Tabella di contingenza

Tavole di Contingenza Connessione

Statistica 1 A.A. 2015/2016

DETERMINANTI (SECONDA PARTE). NOTE DI ALGEBRA LINEARE

Corso Propedeutico di Matematica

Elementi di statistica descrittiva. Tabella dei dati :

UNIVERSITÀ DEGLI STUDI DI MILANO - BICOCCA

Leti G, Cerbara L. (2009). Elementi di Statistica Descrittiva. Il Mulino [Capitoli 1-8, 10, 11 (fino a 5.5), 13 (fino a 6.

La correlazione e la regressione. Antonello Maruotti

Analisi Matematica Soluzioni prova scritta parziale n. 1

Principio alla base della misura del legame tra X ed Y

SERIE NUMERICHE FAUSTO FERRARI

Il discriminante Maurizio Cornalba 23/3/2013

DOMANDE ed ESERCIZI su LIMITI di SUCCESSIONI e FUNZIONI

Soluzione CPS 22/6/04. I parte. (1). Chiamiamo C l evento l individuo scelto ha il colesterolo alto, V, O e NL rispettivamente

Corso di Laurea in Ingegneria Informatica Anno Accademico 2016/2017 Calcolo delle Probabilità e Statistica Matematica

Corso di Statistica. Test per differenza tra medie e proporzioni. Prof.ssa T. Laureti a.a

DISTRIBUZIONE NORMALE MULTIVARIATA

Relazioni statistiche

ES 1.3. Data la distribuzione unitaria di una variabile quantitativa X. la media aritmetica di X è data dal rapporto tra il totale n

Gli Indici di VARIABILITA

ESERCIZI SULLE SERIE

0.1 Esercitazioni V, del 18/11/2008

Alcuni concetti di statistica: medie, varianze, covarianze e regressioni

Esercizi di Analisi II

2,3, (allineamenti decimali con segno, quindi chiaramente numeri reali); 4 ( = 1,33)

Lezione 9. Statistica. Alfonso Iodice D Enza Università degli studi di Cassino. Lezione 9. A. Iodice

UNIVERSITÀ DEGLI STUDI DI LECCE APPUNTI PER IL SEMINARIO DI ELEMENTI DI TEORIA DELLA PROBABILITÀ A.A. 2007/2008

SDE Marco Riani

Campionamento casuale da popolazione finita (caso senza reinserimento )

Lezione 4 Corso di Statistica. Francesco Lagona

Esperimentazioni di Fisica 1. Prova scritta del 1 febbraio 2016 SOLUZIONI

Dispense retta di regressione

TEORIA DELLE MATRICI. dove aij K. = di ordine n, gli elementi aij con i = j (cioè gli elementi a 11

Costo manutenzione (euro)

PROVA SCRITTA DI STATISTICA CLEA-CLEFIN-CLELI (COD e 4038) 15 gennaio 2003

v = ( v 1,..., v n ).

SUCCESSIONI DI FUNZIONI

Scheda n.6: legame tra due variabili; correlazione e regressione

Formulario di Statistica (Cucina-Lagona)

ANalysis. Analisi della Varianza - ANOVA. Aprile, Aprile, Nel linguaggio delle variabili le operazioni fondamentali sono tre

LICEO delle SCIENZE UMANE B. PASCAL

Compito di Matematica II - 12 Settembre 2017

FUNZIONI RADICE. = x dom f Im f grafici. Corso Propedeutico di Matematica. Politecnico di Torino CeTeM. 7 Funzioni Radice RICHIAMI DI TEORIA

Scrivere su ogni foglio NOME e COGNOME. Le risposte devono essere giustificate sui fogli protocollo e riportate nel foglio RISPOSTE.

Stima della media di una variabile X definita su una popolazione finita

Il Metodo dei Minimi Quadrati: Alcuni Esempi Svolti. Alessandro Zaccagnini

Esercizi di Probabilità e Statistica

CAMBIAMENTO DI BASE IN UNO SPAZIO VETTORIALE

UNIVERSITÀ DEGLI STUDI DI MILANO - BICOCCA FACOLTÀ DI SOCIOLOGIA a. a Esame del STATISTICA

Nella seguente tabella sono riportati i dati relativi ai profitti delle società italiane del settore industriale dal 1971 al 1980:

( 4) ( ) ( ) ( ) ( ) LE DERIVATE ( ) ( ) (3) D ( x ) = 1 derivata di un monomio con a 0 1. GENERALITÀ

Quartili. Esempio Q 3. Me Q 1. Distribuzione unitaria degli affitti settimanali in euro pagati da 19 studenti U.S. A G I F B D L H E M C

5. Derivate. Derivate. Derivate di funzioni elementari. Regole di derivazione. Derivate di funzioni composte e di funzioni inverse

Lezione 2. . Gruppi isomorfi. Gruppi S n e A n. Sottogruppi normali. Gruppi quoziente. , ossia, equivalentemente, se x G Hx = xh.

TEOREMA DELLA PROIEZIONE, DISUGUAGLIANZA DI BESSEL E COMPLEMENTI SULLE SERIE DI FOURIER

Stimatori corretti, stimatori efficaci e disuguaglianza di Cramer Rao

Insiemi numerici. Sono noti l insieme dei numeri naturali: N = {1, 2, 3, }, l insieme dei numeri interi relativi:

Vendite (Sales) in funzione della spesa pubblicitaria in TV, Radio e Giornali (Newspaper) (Ads.xlsx)

(A + B) ij = A ij + B ij, i = 1,..., m, j = 1,..., n.

Matematica - Ingegneria Gestionale - Prova scritta del 25 giugno SOLUZIONI - (a n ) 1 + n ha limite + 1 = cos(πn) 1 cos(πn) )

Analisi I - IngBM COMPITO A 17 Gennaio 2015 COGNOME... NOME... MATRICOLA... VALUTAZIONE =...

SERIE NUMERICHE Esercizi risolti. (log α) n, α > 0 c)

Quartili. Esempio Q 3 Q 1. Distribuzione unitaria degli affitti settimanali in euro pagati da 19 studenti U.S. A G I F B D L H E M C

Capitolo 5. Successioni numeriche

Una funzione delle osservazioni campionarie è una statistica che, nel contesto della stima di un parametro, viene definita stimatore.

2.5 Convergenza assoluta e non

Le principali procedure inferenziali: nozioni, schemi di procedimento ed esempi di applicazione

Analisi I - IngBM COMPITO B 17 Gennaio 2015 COGNOME... NOME... MATRICOLA... VALUTAZIONE =...

Esame di Statistica A-Di Prof. M. Romanazzi

Le medie. Obiettivo: Sintesi della dimensione di una distribuzione statistica ( media di una distribuzione)

Somma E possibile sommare due matrici A e B ottenendo una matrice C se e solo se le due matrici hanno lo stesso numero di righe e di colonne.

Intervalli di Fiducia

CAMBIAMENTO DI BASE IN UNO SPAZIO VETTORIALE

Analisi Matematica A e B Soluzioni prova scritta n. 4

Definizione 1. Data una successione (a n ) alla scrittura formale. 1) a 1 + a a n +, si dà il nome di serie.

Analisi e Geometria 1

k=0 f k(x). Un altro tipo di convergenza per le serie è la convergenza totale e si dice che la serie (0.1) converge totalmente in J I se

Università degli Studi di Cassino, Anno accademico Corso di Statistica 2, Prof. M. Furno

Metodi quantitativi per l analisi dello sviluppo

Sottospazi associati a matrici e forma implicita. Sottospazi associati a una matrice Dimensione e basi con riduzione Sottospazi e sistemi. Pag.

Sviluppi di Taylor. Andrea Corli 1 settembre Notazione o 1. 3 Formula di Taylor 3. 4 Esempi ed applicazioni 5

SOLUZIONE DI ESERCIZI DI ANALISI MATEMATICA IV ANNO 2015/16, FOGLIO 2. se x [n, 3n]

6. INDICI DI DIPENDENZA

Esercitazione ricapitolativa

Fonti e strumenti statistici per la comunicazione

Esercitazione due: soluzioni

Transcript:

Idipedeza tra due caratteri Defiizioi: 1) due caratteri soo idipedeti se tra essi o esiste ua relazioe di causa ed effetto; 2) due caratteri soo idipedeti se la coosceza di ua modalità di uo dei due caratteri o migliora la previsioe sulla modalità dell altro; 1

Esempio di Distribuzioe Bivariata: X/Y y 1 y 2 y 3 y 4 Tot. x 1 12 4 16 8 40 x 2 15 5 20 10 50 x 3 9 3 12 6 30 Tot. 36 12 48 24 120 X f(x y 1 ) f(x y 2 ) f(x y 3 ) f(x y 4 ) f(x) x 1 12/36=0.33 4/12=0.33 16/48=0.33 8/24=0.33 40/120=0.33 x 2 15/36=0.42 5/12=0.42 20/48=0.42 10/24=0.42 50/120=0.42 x 3 9/36=0.25 3/12=0.25 12/48=0.25 6/24=0.25 30/120=0.25 Tot. 1.00 1.00 1.00 1.00 1.00 Domada: se sulla 121^ uità si rileva Y=y 3 questa iformazioe migliora la ostra previsioe su quale potrebbe essere il valore di X? La risposta è NO! Perché il sapere che Y=y 3 o aggiuge ulla rispetto all iformazioe che ci viee 2 data dalla semplice distribuzioe margiale di X.

Pertato possiamo cocludere che: X è idipedete da Y Y f(y x 1 ) f(y x 2 ) f(y x 3 ) f(y) y 1 12/40=0.30 15/50=0.30 9/30=0.30 36/120=0.30 y 2 4/40=0.10 5/50=0.10 3/30=0.10 12/120=0.10 y 3 16/40=0.40 20/50=0.40 12/30=0.40 48/120=0.40 y 4 8/40=0.20 10/50=0.20 6/30=0.20 24/120=0.20 Tot. 1.00 1.00 1.00 1.00 Nota: se tutte le distribuzioi di X codizioate ad Y soo uguali tra loro ed uguali alla margiale di X ache tutte le distribuzioi di Y codizioate ad X soo uguali tra loro ed uguali alla margiale di Y. Pertato, ache i questo caso, se sulla 121^ uità dovesse essere rilevato, ad esempio, X=x 1 la ostra previsioe circa la modalità di Y o migliorerebbe rispetto all iformazioe che ci viee data dalla distribuzioe margiale della stessa Y. Quidi Y è idipedete da X. Domada: come soo le medie codizioate di X e di Y? 3

Torado, ivece, alle 100 barrette d acciaio ed esamiado la tabelle delle distribuzioi di Y codizioate ad X, sapedo, ad esempio che: 0<X<0,75 quale previsioe potremmo fare su Y? Y f( Y x 1 ) f( Y x 2 ) f( Y x 3 ) f( Y x 4 ) 2-4 0,7143 0,1667 0,0571 0,0000 4-5 0,2857 0,5417 0,1714 0,0000 5-6 0,0000 0,2500 0,1429 0,2000 6-7 0,0000 0,0417 0,4286 0,3500 7-9 0,0000 0,0000 0,2000 0,4500 Totali 1,0000 1,0000 1,0000 1,0000 4

Distribuzioe Bivariata di Frequeze

Distribuzioi di X codizioate ad Y i1 1 = = ij j = = is s = k i i = k i (i = 1,, r)

DIMOSTRAZIONE ij = k i ij = k i. j j j=1 da cui: s s ij = k i j=1. j i = k i k i = i (i = 1,, rቁ cioè se le distribuzioi di X codizioate ad Y soo uguali tra di loro allora esse sarao uguali alla distribuzioe margiale di X, ovvero: ij = i j (i = 1,, r; j = 1,, sቇ

Distribuzioi di Y codizioate ad X 1j 1. = = ij i. = = rj r. = h j.j ቇ = h j (j = 1,, s

DIMOSTRAZIONE Dalla dimostrazioe precedete abbiamo otteuto che se le distribuzioi di X codizioate ad Y soo uguali tra loro allora: ij = i j ma da questa otteiamo ache che: (i = 1,, r; j = 1,, sቇ ij ቇ i. =.j = h j(i = 1,, r; j = 1,, s cioè che (a) le distribuzioi di Y codizioate ad X soo uguali tra di loro ed ache che (b) esse sarao uguali alla distribuzioe margiale di Y.

Ifie, poiché le distribuzioi di X codizioate ad Y soo uguali tra loro e coseguetemete ache le distribuzioi di Y codizioate ad X soo uguali tra loro, potremo cocludere dicedo che X ed Y soo idipedeti e la codizioe d idipedeza è: ij = i.. j (i = 1,, r; j = 1,, sቁ

Teorema: Se (1) f(x i y 1 )=...=f(x i y j )= =f(x i y s )=k i per (,..,r) cioè se: i1 /. 1 = = ij /. j = = is /. s = k i per (,..,r) allora: (2) f(x i )=k i per (,..,r), cioè: i. / = k i per (,..,r); (3) f(y j x 1 )=...=f(y j x i )=...=f(y j x r )=h j per (j=1,..,s) cioè: 1j / 1.= = ij / i. = = rj / r.= h j per (j=1,..,s); (4) f(y j )=h j per (j=1,..,s), cioè:. j / = h j per (j=1,..,s) ed ifie: (5) X è idipedete da Y e Y è idipedete da X. 11

Dimostrazioe: dalla (1) avremo che: i1 /.1 =... = ij /.j =... = is /.s = k i cioè: i1 =.1 k i ;.; ij =.j k i ;. ; is =.s k i sommado membro a membro avremo che: cioè per (,..,r) ovvero: k i = i. / per (,..,r), che dimostra la (2). 12

Da (1) e (2) deduciamo che: f(x i y j ) = f(x i ) = k i per (,..,r) e (j=1,..,s) che equivale a: per (,..,r) e (j=1,..,s) da cui: per (,..,r) e (j=1,..,s) che dimostrao la (3) e la (4). Se soo tutte vere: (1), (2), (3) e (4) esse implicao ache la (5), che è dalle stesse defiita. Ifie la codizioe di Idipedeza Statistica tra X e Y è data da: per (,..,r) e (j=1,..,s) c.d.d.. 13

I sitesi, abbiamo dimostrato che: {idipedeza} { f(x i y j )=f(x i )} { f(y j x i )=f(y j )}; i,j ovvero: {idipedeza} { ij /.j = i. /} { ij / i. =.j /}; i,j Codizioe d Idipedeza: ij = i..j i = 1,..,r j = 1,..,s Verificare la codizioe d idipedeza sulle ultime due distribuzioi bivariate (pagie 138 e 144). 14

Regioe Y X Piemote 174,2 287 Valle d'aosta 174,95 281 Lombardia 173,79 282 Tretio A.A. 175,43 266 Veeto 174,83 262 Friuli V.G. 176,11 302 Liguria 174,19 318 Emilia R. 174,58 285 Toscaa 174,49 280 Umbria 173,71 263 Marche 173,46 259 Lazio 173,98 239 Abruzzi 172,3 243 Molise 171,33 230 Campaia 171,2 148 Puglia 171,42 223 Basilicata 169,86 204 Calabria 169,58 173 Sicilia 170,48 175 Sardega 169,27 209 (X): Numero degli abboameti alla RAI (1982) per 1000 abitati per Regioe; (Y) Statura media i cm. degli iscritti di leva (classe 1962). Stabiliamo le segueti Classi di Modalità di Y 169-173; 173-175; 175-177; e di X: 140-210; 210-250; 250-300; 300-320. X/Y 169-173 173-175 175-177 Totali 140-210 5 0 0 5 210-250 3 1 0 4 250-300 0 8 1 9 300-320 0 1 1 2 Totali 8 10 2 20 Essedo ij i..j per tutti gli (i,j) i caratteri (X,Y) soo statisticamete dipedeti, ma o essedo logicamete dipedeti, diremo che si tratta di dipedeza spuria. Nel seguito Dipedeza 15 sigificherà Dipedeza Statistica.

Esempio: collettivo di 50 famiglie classificate per figli e per settore d attività ecoomica del capofamiglia; Frequeze cogiute ij Frequeze cogiute d idipedeza ij Y/X 0 1 2 3 4 5 Tot. A 1.30 3.12 4.94 2.34 1.04 0.26 13 I 1.90 4.56 7.22 3.42 1.52 0.38 19 S 1.80 4.32 6.84 3.24 1.44 0.36 18 Tot. 5 12 19 9 4 1 50 Cotigeze c ij Y/X 0 1 2 3 4 5 Tot. A -0.30-1.12-1.94 1.66 0.96 0.74 0.00 I -0.90-0.56 1.78 0.58-0.52-0.38 0.00 S 1.20 1.68 0.16-2.24-0.44-0.36 0.00 Tot. 0.00 0.00 0.00 0.00 0.00 0.00 0.00 16

Misure sitetiche di Dipedeza Statistica Idice Chi-Quadro di Pearso: dove le c ij = ( ij ij ) e le ij = ( i..j / ). Proprietà di χ 2 : a) se X ed Y soo idipedeti allora χ 2 = 0; b) se X ed Y o soo idipedeti χ 2 > 0, ed è tato più grade quato più le ij si differeziao dalle ij ; c) χ 2 è ua misura di dipedeza per X ed Y caratteri quatitativi e/o qualitativi ed il suo calcolo o si basa é sulle modalità di X é su quelle di Y; d) χ 2 è ua misura assoluta di dipedeza statistica. 17

Calcolo di χ 2 : 1)Tabella dati origiari: ij ; 2)Tabella di Idipedeza: ij; Y/X 0 1 2 3 4 5 Tot. A 1 2 3 4 2 1 13 I 1 4 9 4 1 0 19 S 3 6 7 1 1 0 18 Tot. 5 12 19 9 4 1 50 Y/X 0 1 2 3 4 5 Tot. A 1,3 3,12 4,94 2,34 1,04 0,26 13 I 1,9 4,56 7,22 3,42 1,52 0,38 19 S 1,8 4,32 6,84 3,24 1,44 0,36 18 Tot. 5 12 19 9 4 1 50 3)Tabella delle cotigeze: c ij ; 4)Tabella dei rapporti: c 2 ij / ij ; 5) χ 2 =10,49. Y/X 0 1 2 3 4 5 Tot. A -0,3-1,12-1,94 1,66 0,96 0,74 0 I -0,9-0,56 1,78 0,58-0,52-0,38 0 S 1,2 1,68 0,16-2,24-0,44-0,36 0 Tot. 0 0 0 0 0 0 0 Y/X 0 1 2 3 4 5 Tot. A 0,07 0,40 0,76 1,18 0,89 2,11 5,40 I 0,43 0,07 0,44 0,10 0,18 0,38 1,59 S 0,80 0,65 0,00 1,55 0,13 0,36 3,50 Tot. 1,30 1,12 1,20 2,82 1,20 2,85 10,49 Nota: il valore di χ 2 otteuto ci assicura che tra X ed Y c è dipedeza statistica ma o dice quato essa è forte, perché χ 2 è ua misura assoluta di dipedeza. 18

Calcolo alterativo di χ 2 : 2 = = = r r s r j=1 s s 1 ij 2 ij j=1 ij 2 c j=1 ij ( - 2 ij 2 ij r = r - 2 s ij s ij j=1 ij ij ( ij + - j=1 ij ij + 2 ij r ij )= s ) 2 2 ij j=1 ij = = = = r r s j=1 s 2 ij ij - 2 2 ij j=1 ij - r s j=1 2+ ij + r s j=1 ij = poiché : r ij s j=1 = r s j=1 i..j = 1 ( r i. )( s j=1.j )= 1 =

Pertato avremo ache: ifie, se o si vuole passare per il calcolo delle ij= i..j /, avremo: 2 = r s 2 ij j=1 i..j -1 20

Defiizioe di Massima Dipedeza La dipedeza è massima se per ogi riga o per ogi coloa o più di ua frequeza cogiuta è diversa da zero. Esempio: X/Y y 1 y 2 y 3 y 4 Tot. x 1 11 0 0 0 11 x 2 0 0 23 0 23 x 3 0 32 0 0 32 Tot. 11 32 23 0 Per le caselle co ij 0 avremo: 2 ij = i..j e di cosegueza r s 2 ij j=1 i..j t, dove t = miore ( r, s ) e max χ 2 =( t 1) Defiiamo, quidi, l idice relativo di dipedeza di Cràmer: C 2 = χ 2 / max χ 2 = χ 2 / [ ( t 1 ) ] co [0 C 2 1]. 21

Esempio collettivo di 50 famiglie classificate per figli e per settore d attività ecoomica del capofamiglia: Il max χ 2 per la tabella precedete è quello che si otterrebbe da ua tabella co le stesse dimesioi (3 x 6) e co lo stesso totale (=50). I tal caso: max χ 2 = ( t 1 ) = [ mi (3,6) 1 ] 50 = 100, quidi: C 2 = χ 2 /max χ 2 = 10,49/100 = 0,1049

Misure di dipedeza lieare o correlazioe Se due caratteri quatitativi risultao statisticamete dipedeti possiamo ipotizzare che essi siao legati da ua relazioe lieare, cioè del tipo Y= a + b X. Per verificare questa ipotesi misureremo la: strettezza della relazioe lieare, ovvero, misurado il grado di correlazioe tra X e Y. Si cosiderio le coppie di modalità (x i, y j ), riportati elle tabelle che seguoo, ed i relativi di diagrammi scatter che mettoo i luce ua possibile relazioe lieare tra X e Y: 23

Data Set (a) relativo a 100 coppie di modalità (x i, y i ) dei caratteri quatitativi X e Y X Y X Y X Y X Y 1,00-3,70 6,00-1,98 11,00 24,07 17,00 13,06 1,00 14,53 6,60 2,42 10,30-4,60 17,00 6,18 1,30-3,62 7,00 6,03 11,00 12,81 17,40 12,10 1,00-4,46 7,00-7,16 11,40-1,16 18,00 15,31 1,00-1,54 7,00-1,70 12,00 10,76 18,00 7,33 1,60-7,99 7,00 19,24 12,00 5,14 18,10 12,97 1,70 10,86 7,10-7,68 12,10 21,17 19,00 13,56 1,50 11,97 7,00 9,32 13,00 7,38 19,00 9,45 2,00 9,11 7,80 9,02 13,00 25,59 20,30 26,55 2,00-11,32 8,00 15,06 13,00 14,81 21,00 14,07 2,40-6,60 8,00 19,28 13,40 9,64 22,90 22,42 3,00 2,83 8,70 19,33 13,00 24,97 23,10 26,72 3,00 5,71 8,00 17,56 13,00 0,54 24,00 29,89 3,40 9,73 8,00 7,99 14,00 24,08 24,00 33,89 3,00-7,08 8,20 19,50 14,50 0,26 25,10 14,39 3,00 7,64 8,00 13,02 14,00 0,33 25,00 15,87 3,60 13,74 9,00 2,40 14,00 23,64 25,00 9,13 4,00-1,76 9,00 11,69 14,20 2,79 25,00 15,41 4,10 3,66 9,10 17,11 15,00 14,89 26,70 29,08 5,00-6,50 9,00-1,30 15,00-2,37 26,00 17,58 5,40 5,54 9,60 17,32 15,00 14,56 26,20 22,06 5,00 19,50 10,00 16,51 16,00 1,66 27,00 10,48 5,00-6,96 10,00 4,00 16,00 17,61 27,00 25,73 5,20 3,47 10,30-5,79 16,00 3,23 28,20 24 15,30 5,00 14,39 10,00 20,30 16,00 5,68 29,00 18,37

Diagramma Scatter (a) relativo a 100 coppie di modalità (x i, y i ) dei caratteri quatitativi X e Y 40,00 35,00 30,00 25,00 20,00 15,00 10,00 5,00 0,00 0,00 5,00 10,00 15,00 20,00 25,00 30,00 35,00-5,00-10,00-15,00 25

40,00 Diagramma Scatter (a) relativo a 100 coppie di modalità (x i, y i ) dei caratteri quatitativi X e Y (i sovrimpressioe la retta d equazioe: Y = 1,5 + 0,71 X ) 35,00 30,00 25,00 20,00 15,00 10,00 5,00 0,00 0,00 5,00 10,00 15,00 20,00 25,00 30,00 35,00-5,00-10,00-15,00 26

Data Set (b) relativo a 100 coppie di modalità (x i, y i ) dei caratteri quatitativi X e Y X Y X Y X Y X Y 1,00 2,20 6,00 4,07 11,00 9,03 17,00 10,85 1,00 2,81 6,60 9,34 10,30 8,08 17,00 12,66 1,30 3,38 7,00 8,92 11,00 9,03 17,40 14,43 1,00 5,20 7,00 8,44 11,40 9,95 18,00 15,46 1,00 1,73 7,00 9,16 12,00 11,18 18,00 16,83 1,60 5,42 7,00 6,01 12,00 13,36 18,10 13,41 1,70 5,67 7,10 5,84 12,10 8,15 19,00 17,98 1,50-0,24 7,00 7,34 13,00 9,22 19,00 15,84 2,00 5,83 7,80 9,06 13,00 9,81 20,30 19,51 2,00 3,43 8,00 8,14 13,00 11,60 21,00 14,52 2,40 2,87 8,00 6,99 13,40 13,09 22,90 19,53 3,00 4,07 8,70 7,68 13,00 10,76 23,10 15,52 3,00-0,01 8,00 7,40 13,00 10,05 24,00 21,27 3,40 0,83 8,00 10,34 14,00 12,58 24,00 16,62 3,00 2,99 8,20 5,35 14,50 12,02 25,10 20,13 3,00 5,88 8,00 6,40 14,00 8,41 25,00 16,99 3,60 3,97 9,00 5,86 14,00 10,32 25,00 22,60 4,00 6,19 9,00 10,57 14,20 12,28 25,00 22,30 4,10 3,24 9,10 9,44 15,00 15,48 26,70 23,49 5,00 6,01 9,00 7,01 15,00 9,40 26,00 19,85 5,40 8,38 9,60 6,41 15,00 11,13 26,20 18,04 5,00 3,64 10,00 11,00 16,00 13,41 27,00 17,89 5,00 3,53 10,00 6,12 16,00 14,06 28,20 22,45 5,20 3,56 10,30 11,54 16,00 11,43 28,00 27 24,28 5,00 7,35 10,00 10,26 16,00 15,69 29,00 20,23

Diagramma Scatter (b) relativo a 100 coppie di modalità (x i, y i ) dei caratteri quatitativi X e Y 30,00 25,00 20,00 15,00 10,00 5,00 0,00 0,00 5,00 10,00 15,00 20,00 25,00 30,00 35,00-5,00 28

30,00 Diagramma Scatter (b) relativo a 100 coppie di modalità (x i, y i ) dei caratteri quatitativi X e Y (i sovrimpressioe la retta d equazioe: Y = 1 + 0,75 X ) 25,00 20,00 15,00 10,00 5,00 0,00 0,00 5,00 10,00 15,00 20,00 25,00 30,00 35,00-5,00 29

La differeza tra i due diagrammi scatter (a) e (b) cosiste el fatto che il primo diagramma mostra ua uvola di puti più dispersa che o el secodo caso, pur mostrado etrambe ua sottostate relazioe lieare tra X e Y. Più precisamete diremo che el caso (b) la relazioe lieare tra X e Y è più stretta che o el caso (a). Misure di strettezza della relazioe lieare o di Correlazioe tra X e Y La Covariaza Date le coppie di modalità (x 1, y 1 ) (x, y ) chiameremo Covariaza la media dei prodotti degli scarti dalle rispettive medie di X e di Y: cov(x, y)= 1 x - M(x) y - M(y) i i 30

Diagramma Scatter (a) relativo a 100 coppie di modalità (x i, y i ) dei caratteri quatitativi X e Y 40,00 35,00 30,00 25,00 20,00 15,00 10,00 5,00 0,00 0,00 5,00 10,00 15,00 20,00 25,00 30,00 35,00-5,00-10,00-15,00 31

Diagramma Scatter (a) relativo a 100 coppie di modalità (x i, y i ) dei caratteri quatitativi X e Y 40,00 35,00 30,00 25,00 20,00 15,00 10,00 M y =9,9 5,00 0,00 M x =11,9 0,00 5,00 10,00 15,00 20,00 25,00 30,00 35,00-5,00-10,00-15,00 32

Diagramma Scatter (a) relativo a 100 coppie di modalità (x i, y i ) dei caratteri quatitativi X e Y 40,00 35,00 I Quadrate 30,00 25,00 20,00 15,00 10,00 M y =9,9 5,00 0,00 M x =11,9 0,00 5,00 10,00 15,00 20,00 25,00 30,00 35,00-5,00-10,00-15,00 33

Diagramma Scatter (a) relativo a 100 coppie di modalità (x i, y i ) dei caratteri quatitativi X e Y 40,00 35,00 I Quadrate 30,00 25,00 20,00 P i 15,00 10,00 M y =9,9 5,00 0,00 M x =11,9 0,00 5,00 10,00 15,00 20,00 25,00 30,00 35,00-5,00 (x i M x ) < 0-10,00-15,00 34

Diagramma Scatter (a) relativo a 100 coppie di modalità (x i, y i ) dei caratteri quatitativi X e Y 40,00 35,00 I Quadrate 30,00 25,00 20,00 15,00 (y i M y ) > 0 P i 10,00 M y =9,9 5,00 0,00 M x =11,9 0,00 5,00 10,00 15,00 20,00 25,00 30,00 35,00-5,00 (x i M x ) < 0-10,00-15,00 35

Diagramma Scatter (a) relativo a 100 coppie di modalità (x i, y i ) dei caratteri quatitativi X e Y 40,00 35,00 I Quadrate NEGATIVO 30,00 25,00 20,00 15,00 (y i M y ) > 0 P i 10,00 M y =9,9 5,00 0,00 M x =11,9 0,00 5,00 10,00 15,00 20,00 25,00 30,00 35,00-5,00 (x i M x ) < 0-10,00-15,00 36

Diagramma Scatter (a) relativo a 100 coppie di modalità (x i, y i ) dei caratteri quatitativi X e Y 40,00 35,00 I Quadrate NEGATIVO II Quadrate POSITIVO 30,00 25,00 20,00 15,00 (y i M y ) > 0 P i 10,00 M y =9,9 5,00 0,00 M x =11,9 0,00 5,00 10,00 15,00 20,00 25,00 30,00 35,00-5,00 (x i M x ) < 0-10,00-15,00 37

Diagramma Scatter (a) relativo a 100 coppie di modalità (x i, y i ) dei caratteri quatitativi X e Y 40,00 35,00 I Quadrate NEGATIVO II Quadrate POSITIVO 30,00 25,00 20,00 15,00 (y i M y ) > 0 P i 10,00 M y =9,9 5,00 0,00 M x =11,9 0,00 5,00 10,00 15,00 20,00 25,00 30,00 35,00-5,00 (x i M x ) < 0-10,00-15,00 III Quadrate POSITIVO 38

Diagramma Scatter (a) relativo a 100 coppie di modalità (x i, y i ) dei caratteri quatitativi X e Y 40,00 35,00 I Quadrate NEGATIVO II Quadrate POSITIVO 30,00 25,00 20,00 15,00 (y i M y ) > 0 P i 10,00 M y =9,9 5,00 0,00 M x =11,9 0,00 5,00 10,00 15,00 20,00 25,00 30,00 35,00-5,00-10,00-15,00 (x i M x ) < 0 III Quadrate POSITIVO IV Quadrate NEGATIVO 39

Per il data set (a) soo prevaleti i prodotti degli scarti [(x i - M(X)] [y i M(Y)] > 0, essedo X ed Y cocordi, quidi Cov(X,Y)>0, i particolare: Cov(X,Y) = 41,42.

Aalogamete, per il data set (b), essedo i caratteri quatitativi X e Y cocordi, soo prevaleti i prodotti di scarti positivi, quidi Cov(X,Y)>0, i particolare: Cov(X,Y) = 41,64. 30,00 25,00 20,00 15,00 10,00 5,00 0,00 0,00 5,00 10,00 15,00 20,00 25,00 30,00 35,00-5,00

Aalogamete, per il data set (b), essedo i caratteri quatitativi X e Y cocordi, soo prevaleti i prodotti di scarti positivi, quidi Cov(X,Y)>0, i particolare: Cov(X,Y) = 41,64. 30,00 25,00 I Quadrate NEGATIVO II Quadrate POSITIVO 20,00 15,00 10,00 M y =10,3 5,00 IV Quadrate NEGATIVO 0,00 0,00 5,00 10,00 M x =11,9 15,00 20,00 25,00 30,00 35,00-5,00 III Quadrate POSITIVO

Se X ed Y soo cocordi soo prevaleti i puti che cadoo el II e el III quadrate. A tali puti corrispodoo scarti di X e di Y che hao, rispettivamete, lo stesso sego e che producoo, pertato, prodotti di scarti positivi. La Covariaza, essedo pari alla media dei prodotti degli scarti, sarà positiva. Nel caso i cui X ed Y siao discordi i puti del diagramma scatter sarao prevaleti el I e el IV quadrate. A tali puti corrispoderao scarti di X e di Y che avrao sego opposto e darao luogo, pertato, a prodotti di scarti egativi. La Covariaza, i questo secodo caso, essedo pari alla media dei prodotti degli scarti, sarà egativa. 43

Data Set (c) relativo a 100 coppie di modalità (x i, y i ) dei caratteri quatitativi X e Y X Y X Y X Y X Y 1,00 23,94 6,00 18,37 11,00 19,17 17,00 7,80 1,00 21,20 6,60 22,22 10,30 13,95 17,00 13,15 1,30 24,83 7,00 21,30 11,00 16,49 17,40 11,26 1,00 21,85 7,00 17,87 11,40 13,47 18,00 13,36 1,00 25,48 7,00 15,97 12,00 15,54 18,00 13,01 1,60 23,63 7,00 18,58 12,00 14,54 18,10 13,75 1,70 23,86 7,10 17,18 12,10 12,96 19,00 7,76 1,50 25,80 7,00 19,95 13,00 16,75 19,00 9,38 2,00 21,82 7,80 18,65 13,00 14,36 20,30 7,35 2,00 23,42 8,00 18,12 13,00 16,25 21,00 9,57 2,40 22,87 8,00 19,17 13,40 16,28 22,90 4,96 3,00 20,89 8,70 16,29 13,00 13,49 23,10 3,34 3,00 18,78 8,00 21,12 13,00 17,64 24,00 7,68 3,40 21,24 8,00 16,61 14,00 10,71 24,00 7,25 3,00 18,82 8,20 19,54 14,50 10,20 25,10 5,37 3,00 22,33 8,00 18,44 14,00 13,69 25,00 8,31 3,60 19,50 9,00 18,44 14,00 16,53 25,00 2,94 4,00 19,75 9,00 20,61 14,20 13,60 25,00 4,40 4,10 22,09 9,10 18,68 15,00 9,51 26,70 4,93 5,00 23,13 9,00 15,28 15,00 16,05 26,00 5,94 5,40 18,74 9,60 19,04 15,00 9,86 26,20 4,24 5,00 17,99 10,00 16,42 16,00 14,48 27,00 1,29 5,00 18,87 10,00 16,13 16,00 11,52 28,20 3,87 5,20 23,06 10,30 17,10 16,00 9,51 28,00 445,92 5,00 23,12 10,00 18,63 16,00 15,08 29,00 5,05

Diagramma Scatter (c) relativo a 100 coppie di modalità (x i, y i ) dei caratteri quatitativi X e Y 30 25 20 15 10 5 0 0 5 10 15 20 25 30 35 45

Diagramma Scatter (c) relativo a 100 coppie di modalità (x i, y i ) dei caratteri quatitativi X e Y 30 25 20 15 M y =15,4 10 5 0 0 5 10 M x =10,9 15 20 25 30 35 46

Nel data set (c) soo prevaleti i prodotti di scarti egativi, cioè [(x i -M(X)] [y i M(Y)] < 0 (essedo i caratteri quatitativi X e Y discordi), quidi Cov(X,Y)<0, i particolare: Cov(X,Y)= - 43,72...-. I caso di bilaciameto tra prodotti degli scarti positivi e egativi si ha: Cov( X, Y ) = 0.

Data Set (d) relativo a 100 coppie di modalità (x i, y i ) dei caratteri quatitativi X e Y X Y X Y X Y X Y 1,00-3,39 6,00 4,33 11,00 5,65 17,00-2,62 1,00 1,81 6,60 5,89 10,30-2,73 17,00-1,86 1,30-0,89 7,00 4,86 11,00 3,63 17,40-2,42 1,00-0,55 7,00 2,87 11,40 3,24 18,00-1,38 1,00-1,00 7,00 4,21 12,00 0,11 18,00 2,09 1,60 3,88 7,00 1,40 12,00 3,29 18,10 4,68 1,70-2,77 7,10 4,22 12,10 5,13 19,00 4,35 1,50 0,41 7,00 5,49 13,00-1,17 19,00 5,72 2,00-2,94 7,80-2,84 13,00 5,85 20,30-3,54 2,00 4,95 8,00-1,27 13,00 2,19 21,00 4,64 2,40-1,26 8,00 2,07 13,40-3,99 22,90-0,91 3,00 1,03 8,70 0,97 13,00 0,72 23,10 0,10 3,00 2,34 8,00-3,66 13,00 3,66 24,00 5,02 3,40-2,29 8,00-3,08 14,00 2,85 24,00-3,86 3,00-3,40 8,20-2,15 14,50 3,93 25,10 4,57 3,00 2,64 8,00 4,54 14,00-2,57 25,00 2,24 3,60 3,44 9,00 0,39 14,00-2,64 25,00 4,07 4,00 3,34 9,00 4,11 14,20 0,72 25,00-1,17 4,10-3,03 9,10-0,27 15,00-3,72 26,70 0,75 5,00 4,53 9,00 5,72 15,00-2,18 26,00 3,98 5,40 4,03 9,60 5,17 15,00-0,56 26,00-1,94 5,00-3,19 10,00 1,33 16,00 0,70 26,20-3,77 5,00 4,94 10,00 0,87 16,00-1,87 27,00 4,55 5,20 2,24 10,30 4,15 16,00-1,60 27,00 1,93 5,00 1,27 10,00 4,20 16,00 3,54 27,00-0,23

Data Set (d) relativo a 100 coppie di modalità (x i, y i ) dei caratteri quatitativi X e Y 8 6 4 2 M y =1,2 0 0 5 10 M x =11,8 15 20 25 30-2 -4-6

Nel data set (d) i prodotti di scarti positivi equivalgoo quelli egativi, o solo, ma a valori di X piccoli corrispodoo sia valori di Y piccoli che gradi e lo stesso succede per i valori gradi di X. I altre parole, o si riesce a ricooscere alcua relazioe fuzioale tra i valori di Y i fuzioe di X (ma ache viceversa). I questa situazioe se i ua uità si coosce la modalità co la quale si maifesta uo dei due caratteri è impossibile fare ua previsioe razioale circa la modalità del secodo carattere. Per cui cocluderemo che: X ed Y soo INDIPENDENTI I particolare, i questo data set (d) si ha: Cov(X,Y)= - 0,20.

Medie Codizioate e Margiale di Y (Data Set D) (1) Classi X (2) Val. Cetr. X (3) Somma(Y i ) (4) Frequeze (5)=(3)/(4) M(Y x) 0-5 2,5 2,33 19 0,12 5-10 7,5 56,78 27 2,10 10-15 12,5 38,41 22 1,75 15-20 17,5 2,86 15 0,19 20-25 22,5 1,44 6 0,24 25-30 27,5 14,97 11 1,36 Totali --- 116,79 100 1,17

Data Set (d) relativo a 100 coppie di modalità (x i, y i ) dei caratteri quatitativi X e Y (M(Y x) = medie di Y codizioate ad x) 8 6 4 2 M y =1,2 2,10 1,75 0 1,36 0 0,12 5 10 M x =11,8 15 0,19 0,24 20 25 30-2 -4-6

Data Set (e) relativo a 100 coppie di modalità (x i, y i ) dei caratteri quatitativi X e Y X Y X Y X Y X Y 2,24 1,32 0,83-2,45 4,78-2,80 4,36 0,16 3,01 4,13 3,13 1,85 3,80 2,12 3,57 1,99 1,96 1,96 4,80-0,75 1,90-0,48 4,57-1,08 1,74-0,73 1,63-0,85 5,22-4,20 1,99 2,47 2,74 2,42 3,78 2,51 2,20 1,24 1,49 2,13 3,00 3,18 2,67 2,77 2,50 1,06 5,42-5,50 3,25 1,73 4,06 0,99 1,68-0,01 1,86 0,31 3,07 4,47 5,15-2,64 3,13 2,80 3,72 1,17 4,31-0,66 3,97 2,68 5,43-4,82 1,48 0,80 1,75 0,51 4,78-1,30 2,43 1,16 1,81 2,03 2,40 2,58 3,42 1,75 4,59-2,51 4,45 1,00 4,96-2,01 4,97-1,26 3,85 1,00 0,72-2,88 3,46 3,03 3,19 2,95 0,86-2,78 3,08 2,21 1,76 0,38 0,80-2,30 1,34-0,95 2,48 0,69 1,41 0,00 1,18-1,83 5,45-4,71 3,76 2,78 3,97 1,20 2,02 2,50 1,59 0,20 4,72-1,36 2,91 1,40 0,53-5,97 3,58 2,65 0,65-4,15 5,07-3,62 0,88-3,71 5,48-5,19 0,96-2,25 2,92 2,51 2,36 2,64 2,45 1,66 1,79 1,45 5,02-1,57 1,38 0,57 4,03 1,94 0,79-2,75 4,84-2,10 3,57 3,32 0,82-3,27 1,64 0,84 3,41 2,06 4,13-0,14 0,75-3,63 2,43 2,64 2,41 1,68 3,68 1,77 4,24 1,92 0,71-3,73 3,37 2,00 4,86-2,18 3,64 0,91 2,72 4,69 0,65-3,46 3,18 3,41 1,70 1,34 1,35-0,62

Data Set (e) relativo a 100 coppie di modalità (x i, y i ) dei caratteri quatitativi X e Y 6 4 2 0 M y =0,1 M 0 1 2 x =2,9 3 4 5 6-2 -4-6 -8

Ache per il data set (e) c è u bilaciameto ei quattro quadrati, come el caso del data set (d), quidi la covariaza, se o proprio ulla, sarà vicia a zero. Ifatti i questo data set (e) si ha: Cov(X,Y)= - 0,03. Rispetto al data set (d), i puti del diagramma scatter relativo al data set (e) mostrao, però, ua chiara relazioe fuzioale di Y rispetto alla X. I particolare, al crescere della X la Y prima cresce e poi decresce. Pertato, i ua uità, cooscedo la modalità di X adesso siamo i grado di poter fare ua previsioe sul valore della Y, quidi possiamo cocludere che Y DIPENDE da X, ache se la dipedeza o è LINEARE, cioè la CORRELAZIONE è quasi NULLA.

Da tutto quello è stato mostrato egli esempi si evice chiaramete che: se tra i due caratteri X ed Y c è perfetta INDIPENDENZA allora la COVARIANZA è pari a zero. No vale il viceversa, cioè: se la COVARIANZA è ulla o è detto che i due caratteri X ed Y siao INDIPENDENTI perché Y potrebbe essere legata ad X da ua relazioe diversa da quella lieare. I altre parole: se c è INDIPENDENZA c è (a fortiori) INCORRELAZIONE, se c è INCORRELAZIONE o è detto che ci sia INDIPENDENZA. I simboli: Idipedeza Cov(X,Y)=0 Cov(X,Y)=0 Idipedeza

Richiami sulle equazioi di II grado: y = a x 2 + b x + c La precedete equazioe geometricamete rappreseta ua parabola che si disporrà el piao i fuzioe dei valori assuti dai parametri a, b e c. Se ad esempio a > 0, la cocavità è rivolta verso l alto. Idichiamo co Δ il valore Δ = b 2-4ac. Poichè le radici dell equazioe y=0 soo: x 1 = (-b - Δ) / 2 a, x 2 = (-b + Δ) / 2 a se Δ > 0, le radici soo reali e distite, se Δ = 0 le radici soo reali e coicideti ed, ifie, se Δ < 0, le radici soo immagiarie coiugate: Caso 1: Δ > 0 Caso 2: Δ = 0 Caso 3: Δ < 0 NB: ei casi 1, 2 e 3 si ha sempre: a>0, cocavità verso l alto (vedi y=a x 2 ), solo ei casi 2 e 3 si ha: y 0 Δ 0

Diseguagliaza di Cauchy-Schwarz Cov( X, Y ) 2 V( X ) V( Y ) Dimostrazioe: zi = xi - M(X) wi = yi - M(Y) y = = (z (z z i 2 i 2 i +lw +2 l +2 l i ) 2 z i = w +l z i i w +l i 2 w 2 2 i )= w 2 i 0 Cioè: y = l 2 w i 2 + l 2 z i w i + z i 2 0 58

Poiché l espressioe precedete è o egativa, cioè si ha sempre y 0 ed a > 0, quidi il poliomio i l, (a) (b) (c) o ammette radici reali e distite, cioè il suo discrimiate Δ è Δ 0 (perché y 0), cioè: 59

ma, sostituedo al posto di z i e w i gli scarti di x i rispettive medie, avremo: e y i dalle cioè: da cui cosegue: Cov( X, Y ) 2 V( X ) V( Y ) c.d.d. - V(X) V(Y) Cov(X,Y) V(X) V(Y) 60

Nella diseguagliaza di Cauchy-Schwarz vale il sego = quado X ed Y soo legate da ua perfetta relazioe lieare, cioè Y=a+bX. Ifatti, se Y=a+bX allora y i = a + b x i, i, quidi, ricordado che M(Y) = a + b M(X), avremo: Cov(X,Y)= = = 1 1 = d 1 1 x - M(X) y - M(Y) x - M(X) c+d x - c - d M(X) x - M(X) d x - M(X) i i x - M(X) = d V(X) i i 2 i i i = = = 61

ioltre, essedoci ua relazioe lieare tra le medie avremo ache: M(X)=-(a/b)+M(Y)/b pertato: 62

quidi, i ultima aalisi: Cov(X,Y)=bV(X) Cov(X,Y)=V(Y)/b pertato se: Y=a+bX allora Cov(X,Y) 2 =V(X)V(Y) ioltre, se b>0 si ha Cov(X,Y)=bV(X) 0, quidi: c.d.d. Cov(X,Y) = V(X) V(Y) se, ivece, b<0 si ha Cov(X,Y)=bV(X) 0, quidi: Cov(X,Y) = - V(X) V(Y) 63

Idice relativo di dipedeza lieare o correlazioe: r(x,y) = Cov (X,Y) max Cov (X,Y) = Cov (X,Y) V(X) V(Y) -1 r(x,y) 1 il sigificato di r(x,y), detto coefficiete di correlazioe di Bravais Pearso, è idetico a quello di Cov(X,Y) ma, a differeza di quest ultima, r(x,y) è ua misura relativa di correlazioe. 64

Per il Data Set (a) avremo: M(X)=11,87; M(Y)=9,87; V(X)=58,74; V(Y)=102,84; Cov(X,Y)=41,42; r(x,y)=0,53. Per il data set (b) avremo: M(X)=11,87;M(Y)=10,29;V(X)=58,78;V(Y)=33,21; Cov(X,Y)=41,64; r(x,y)=0,94. Per il data set (c) avremo: M(X)=11,88; M(Y)=15,40; V(X)=59,05; V(Y)=36,31; Cov(X,Y)=-43,72; r(x,y)=-0,94. Per il data set (d) avremo: M(X)=11,82;M(Y)=1,17;V(X)=57,42;V(Y)=9,28; Cov(X,Y)=-0,20; r(x,y)=-0,01. Per il data set (e) avremo: M(X)=2,91; M(Y)=0,14; V(X)=2,01; V(Y)=6,17; Cov(X,Y)=-0,03; r(x,y)=-0,01. 65

Dati Auto (Auto.xlsx) mpg cyliders displacemet horsepower weight acceleratio year origi ame 1 18.0 8 307.0 130 3504 12.0 70 1 chevrolet chevelle malibu 2 15.0 8 350.0 165 3693 11.5 70 1 buick skylark 320 3 18.0 8 318.0 150 3436 11.0 70 1 plymouth satellite 4 16.0 8 304.0 150 3433 12.0 70 1 amc rebel sst 5 17.0 8 302.0 140 3449 10.5 70 1 ford torio 6 15.0 8 429.0 198 4341 10.0 70 1 ford galaxie 500 7 14.0 8 454.0 220 4354 9.0 70 1 chevrolet impala 8 14.0 8 440.0 215 4312 8.5 70 1 plymouth fury 9 14.0 8 455.0 225 4425 10.0 70 1 potiac catalia 10 15.0 8 390.0 190 3850 8.5 70 1 amc ambassador dpl 11 15.0 8 383.0 170 3563 10.0 70 1 dodge challeger se 12 14.0 8 340.0 160 3609 8.0 70 1 plymouth 'cuda 340 13 15.0 8 400.0 150 3761 9.5 70 1 chevrolet mote carlo 14 14.0 8 455.0 225 3086 10.0 70 1 buick estate wago (sw) 15 24.0 4 113.0 95 2372 15.0 70 3 toyota coroa mark 16 22.0 6 198.0 95 2833 15.5 70 1 plymouth duster 17 18.0 6 199.0 97 2774 15.5 70 1 amc horet 18 21.0 6 200.0 85 2587 16.0 70 1 ford maverick 19 27.0 4 97.0 88 2130 14.5 70 3 datsu pl510 20 26.0 4 97.0 46 1835 20.5 70 2 volkswage 1131 deluxe seda 21 25.0 4 110.0 87 2672 17.5 70 2 peugeot 504 22 24.0 4 107.0 90 2430 14.5 70 2 audi 100 ls 23 25.0 4 104.0 95 2375 17.5 70 2 saab 99e 24 26.0 4 121.0 113 2234 12.5 70 2 bmw 2002 25 21.0 6 199.0 90 2648 15.0 70 1 amc gremli 26 10.0 8 360.0 215 4615 14.0 70 1 ford f250 27 10.0 8 307.0 200 4376 15.0 70 1 chevy c20 28 11.0 8 318.0 210 4382 13.5 70 1 dodge d200

Dati Auto (Auto.txt) mpg cyliders displacemet horsepower weight acceleratio year origi ame 372 29.0 4 135.0 84 2525 16.0 82 1 dodge aries se 373 27.0 4 151.0 90 2735 18.0 82 1 potiac phoeix 374 24.0 4 140.0 92 2865 16.4 82 1 ford fairmot futura 375 36.0 4 105.0 74 1980 15.3 82 2 volkswage rabbit 376 37.0 4 91.0 68 2025 18.2 82 3 mazda glc custom l 377 31.0 4 91.0 68 1970 17.6 82 3 mazda glc custom 378 38.0 4 105.0 63 2125 14.7 82 1 plymouth horizo miser 379 36.0 4 98.0 70 2125 17.3 82 1 mercury lyx l 380 36.0 4 120.0 88 2160 14.5 82 3 issa staza xe 381 36.0 4 107.0 75 2205 14.5 82 3 hoda accord 382 34.0 4 108.0 70 2245 16.9 82 3 toyota corolla 383 38.0 4 91.0 67 1965 15.0 82 3 hoda 384 32.0 4 91.0 67 1965 15.7 82 3 hoda civic (auto) 385 38.0 4 91.0 67 1995 16.2 82 3 datsu 310 gx 386 25.0 6 181.0 110 2945 16.4 82 1 buick 387 38.0 6 262.0 85 3015 17.0 82 1 oldsmobile cutlass ciera 388 26.0 4 156.0 92 2585 14.5 82 1 chrysler lebaro medallio 389 22.0 6 232.0 112 2835 14.7 82 1 ford graada l 390 32.0 4 144.0 96 2665 13.9 82 3 toyota celica gt 391 36.0 4 135.0 84 2370 13.0 82 1 dodge charger 2.2 392 27.0 4 151.0 90 2950 17.3 82 1 chevrolet camaro 393 27.0 4 140.0 86 2790 15.6 82 1 ford mustag gl 394 44.0 4 97.0 52 2130 24.6 82 2 vw pickup 395 32.0 4 135.0 84 2295 11.6 82 1 dodge rampage 396 28.0 4 120.0 79 2625 18.6 82 1 ford rager 397 31.0 4 119.0 82 2720 19.4 82 1 chevy s-10

Diagrammi di Dispersioe per coppie di variabili (dati Auto.txt)

Sio ad ora, ello studio dei delle distribuzioi bivariate abbiamo supposto che i dati siao foriti sotto forma di coppie di modalità rilevate (x i, y i ). Aalizzeremo ora il caso i cui, ivece, essi siao foriti sotto forma di: tabella a doppia etrata o tabella di cotigeza. I dati da predere i cosiderazioe sarao ora le r x s coppie (x i, y j ) di modalità diverse ciascua cosiderata co la propria frequeza ij. 70

Tabella a Doppia Etrata X/Y y 1 y 2 y 3... y j... y s Tot x 1 11 12 13... 1j... 1s 1. x 2 21 22 23... 2j... 2s 2............................ x i i1 i2 i3... ij... is i............................ x r r1 r2 r3... rj... rs r. Tot.1.2.3....j....s La covariaza rimae defiita come la media aritmetica, i questo caso poderata, dei prodotti degli scarti dalla media, 71 rispettivamete, di X e di Y.

Si oti che se le variabili X e Y soo idipedeti allora si avrà che: ij = i..j /, (i,j), sostituedo ella formula della covariaza avremo: r s 1 Cov(X,Y)= i..j xi - M(X) y j - M(Y) = = 1 r j=1 1 x - M(X) y - M(Y) = i = 0 0 = 0 I coclusioe: se (X, Y) soo Idipedeti Cov(X, Y)=0, r(x, Y)=0. i. s j=1 j.j NON E VERO IL VICEVERSA 72

= Calcolo semplificato della Covariaza Cov(X,Y)= 1 1 x - M X y - M Y - y M X + M Y M X x y - x M Y = i i i i i i = = 1 x i y i - M(Y) x i - M(X) y i +M(Y)M(X) = = 1 x i y i - M(Y)M(X)- M(Y)M(X)+ M(Y)M(X) da cui: Cov(X,Y)= 1 x i y i - M(X) M(Y) 73

Verifichiamo co u cotro esempio che Cov(X, Y)=0 o implica l idipedeza: X Y X Y -2 4-8 -1 1-1 0 0 0 1 1 1 2 4 8 0 10 0 Ifatti ella tabella, di cui sopra, M(X)=0, M(Y)=2, quidi Cov(X,Y)=r(X,Y)=0 ma, chiaramete, Y dipede da X secodo ua legge quadratica. I questo caso X ed Y si dicoo icorrelati. 74

se i dati soo orgaizzati i ua tabella a doppia etrata avremo aalogamete: Cov(X,Y)= 1 r xi s j=1 M(X) M(Y) il calcolo del coefficiete di correlazioe si effettuerà come di cosueto: y j ij - r(x,y) = Cov (X,Y) V(X) V(Y) 75