Statistica bivariata: il problema della dipendenza Antonio Punzo Università di Catania, Dipartimento di Economia e Impresa antoniopunzo@unictit Orario delle lezioni: Martedì, ore 16:00-18:00, Palazzo delle Scienze, Aula 8 Mercoledì, ore 14:00-16:00, Palazzo delle Scienze, Aula 8 Orario di ricevimento: Venerdì ore 11:00-13:00, Palazzo delle Scienze, 3 piano, Stanza 24 Testo di riferimento: Zenga, M (2007), Lezioni di Statistica Descrittiva, Giappichelli Editore, Torino Zenga, M (1996), Inferenza Statistica, Giappichelli Editore, Torino 1 / 74
Tabella a doppia entrata Si effettua la rilevazione contemporanea di due caratteri se si ritiene che fra essi vi possa essere una relazione Sia A un carattere (qualitativo o quantitativo) con c modalità (o classi di modalità) a 1,, a j,, a c e B un carattere (qualitativo o quantitativo) con r modalità (o classi di modalità) b 1,, b i,, b r Si può allora considerare la seguente tabella a doppia entrata A B a 1 a j a c Totale b 1 n 11 n 1j n 1c n 1 b i n i1 n ij n ic n i b r n r1 n rj n rc n r Totale n 1 n j n c N n ij = n ( ) b i, a j indica il numero di unità statistiche in cui vi è la contemporanea presenza di b i e di a j Per questo motivo n ij è detta frequenza congiunta c n i = n ij fornisce la frequenza assoluta n (b i ) della modalità b i del carattere B, j=1 indipendentemente dalle modalità di A r n j = n ij fornisce la frequenza assoluta n ( ) a j della modalità aj di A i=1 indipendentemente dalle modalità di B 2 / 74
In altre parole in una tabella a doppia entrata sono presenti: r c frequenze congiunte n ij ; r frequenze n i = n (b i ) del carattere B; c frequenze n j = n ( ) a j del carattere A Osservazione Le frequenze n i e n j fanno cioè riferimento ai due caratteri separatamente considerati Osservazione Valgono le seguenti relazioni: c r n ij = N, j=1 i=1 c c n j = n ( ) r r a j = N e n i = n (b i ) = N j=1 j=1 i=1 i=1 Le relazioni sopra scritte informano che in una tabella a doppia entrata vi è: una distribuzione bivariata caratterizzata dalle r c coppie di modalità ( b i, a j ) con frequenze congiunte n ij ; una distribuzione univariata (totale), relativa al carattere A, caratterizzata dalle c modalità a j con le frequenze n j = n ( a j ) ; una distribuzione univariata (totale) relativa alle r modalità b i di B con le rispettive frequenze n i = n (b i ) 3 / 74
Oltre alle tre sopra precisate distribuzioni totali (ciascuna con somma delle frequenze assolute pari a N) è possibile individuare, nella tabella a doppia entrata, altre c + r distribuzioni parziali univariate Un gruppo per ogni colonna della tabella a doppia entrata Il totale N è diviso fra c frequenze n 1,, n j,, n c Si possono cioè individuare c gruppi, uno per ogni colonna, le cui numerosità sono appunto i totali di colonna Con riferimento alle n j unità della colonna j-ma, tale totale parziale è ripartito nelle r caselle della colonna j-ma secondo le frequenze n 1j,, n ij,, n rj Queste frequenze fanno riferimento alla modalità a j (tenuta fissa) ed alle modalità b 1,, b i,, b r del carattere B Pertanto si ha una distribuzione parziale di B caratterizzata dal fatto che la modalità di A è sempre a j Questa distribuzione parziale di B si può denotare con {( bi, n ij ) ; i = 1, 2,, r } NB: Di distribuzioni parziali di questo tipo ve ne sono c, una per ogni colonna Un gruppo per ogni riga della tabella a doppia entrata Analogamente è possibile dividere il totale N fra le r frequenze marginali n 1,, n i,, n r Il totale parziale n i della riga i-ma è ripartito fra le c caselle della riga stessa secondo le frequenze n i1,, n ij,, n ic Queste frequenze fanno riferimento alla modalità b i (tenuta fissa) ed alle modalità a 1,, a j,, a c del carattere A Pertanto si ha una distribuzione parziale di A caratterizzata dal fatto che la modalità di B è sempre b i Questa distribuzione parziale si denota con {( aj, n ij ) ; j = 1, 2,, c } NB: Di distribuzioni parziali di questo tipo ve ne sono r, una per ogni modalità b i di B 4 / 74
Osservazione Data l ubicazione tabellare delle frequenze totali di riga (n i ) e di colonna ( n j ) le stesse sono anche denominate frequenze marginali In conclusione in una tabella a doppia entrata sono presenti: una distribuzione totale bivariata c + 1 distribuzioni del carattere B: una distribuzione totale (marginale) di numerosità N, c distribuzioni parziali (condizionate) di numerosità n 1,, n j,, n c, r + 1 distribuzioni del carattere A: una distribuzione totale (marginale) di numerosità N, r distribuzioni parziali (condizionate) di numerosità n 1,, n i,, n r 5 / 74
Frequenze relative nelle distribuzioni di frequenza bivariate Per ciascuna delle distribuzioni presenti in una tabella a doppia entrata è possibile calcolare le corrispettive frequenze relative Frequenze relative congiunte Interpretazione fr ( ) n ij b i, a j =, i = 1,, r e j = 1,, c (1) N La (1) indica l importanza numerica relativa della coppia ( b i, a j ) nella popolazione Frequenze relative marginali Per ciascuno dei due caratteri si possono calcolare le frequenze relative marginali: e Ovviamente: fr (b i ) = n i N, i = 1,, r fr ( ) n j a j =, j = 1,, c N r fr (b i ) = 1 i=1 e c fr ( ) a j = 1 j=1 6 / 74
Frequenze relative condizionate (o parziali) Per ogni distribuzione parziale (o condizionata) di ciascuno dei due caratteri si possono, infine, calcolare le corrispettive frequenze relative condizionate Considerando così la distribuzione parziale di B corrispondente alla modalità a j di A si può calcolare la frequenza relativa di b i che è fornita da fr ( b i a j ) = n ( b i, a j ) n ( a j ) = n ij n j La frequenza relativa fr ( b i a j ) indica l importanza relativa della modalità bi nell ambito della popolazione parziale di numerosità n ( a j ) = n j In modo analogo, considerando la distribuzione parziale di A corrispondente alla modalità b i di B, si può calcolare la frequenza relativa di a j che è fornita da fr ( a j b i ) = n ( b i, a j ) n (b i ) = n ij n i 7 / 74
Relazione fra le frequenze relative marginali e condizionate Proprietà La frequenza relativa marginale fr (b i ) è uguale alla media aritmetica ponderata delle frequenze relative condizionate fr ( b i a j ) con pesi pari alle numerosità n j delle distribuzioni parziali In formula: fr (b i ) = 1 N c fr ( ) b i a j n j, i = 1, 2,, r j=1 Dimostrazione La dimostrazione è immediata fr (b i ) = n i N = n i1 + + n ij + + n ic N = = n i1 n 1 + + n ij n j + + n ic n c n 1 n j n c N Ma, n i1 = fr (b i a 1 ),, n ij = fr ( ) n b i a j,, ic = fr (b i a c) Tenuto conto di n 1 n j n c queste relazioni, fr (b i ) risulta effettivamente pari a fr (b i ) = fr (b i a 1 ) n 1 + + fr ( ) b i a j n j + + fr (b i a c) n c N 8 / 74
Esercizio Si consideri nuovamente la seguente tabella statistica (distribuzione di unità): Numero d ordine (i) della famiglia Settore di attività economica del capofamiglia Titolo di godimento dell abitazione Titolo di studio del capofamiglia Numero di figli Reddito annuo lordo (euro) Età del capofamiglia (discretizzato) 1 Industria Affitto Diploma 3 19841 29 2 Industria Affitto Laurea 2 18830 29 3 Agricoltura Proprietà Licenza Media 3 15971 26 4 Industria Proprietà Diploma 1 17361 31 5 Altra Attività Proprietà Laurea 0 23426 60 6 Industria Affitto Licenza Media 2 17220 30 7 Industria Altro titolo Licenza Media 3 17540 30 8 Industria Affitto Diploma 4 16980 45 9 Agricoltura Proprietà Senza titolo 5 15340 69 10 Agricoltura Proprietà Licenza Media 1 18270 56 11 Industria Proprietà Licenza Media 1 30733 50 12 Altra Attività Affitto Laurea 1 28760 55 13 Altra Attività Altro titolo Diploma 2 25320 52 14 Agricoltura Affitto Laurea 2 19221 57 15 Altra Attività Proprietà Laurea 2 27320 65 16 Industria Proprietà Laurea 0 23420 59 17 Industria Affitto Laurea 1 20280 48 18 Altra Attività Affitto Licenza Elem 3 27531 59 19 Industria Proprietà Licenza Media 5 18330 46 20 Industria Proprietà Diploma 0 19750 48 9 / 74
Domanda Costruire le tabelle a doppia entrata delle frequenze assolute e relative della coppia di caratteri settore di attività e numero di figli e della coppia età e reddito La tabella a doppia entrata delle frequenze assolute dei caratteri settore di attività e numero di figli è la seguente: Settore di attività A I AA Totale Figli 0 0 2 1 3 1 1 3 1 5 2 1 2 2 5 3 1 2 1 4 4 0 1 0 1 5 1 1 0 2 Totale 4 11 5 20 Analogamente, la tabella a doppia entrata delle frequenze relative è: Settore di attività A I AA Totale Figli 0 0 010 005 015 1 005 015 005 025 2 005 010 010 025 3 005 010 005 020 4 0 005 0 005 5 005 005 0 010 Totale 020 055 025 100 10 / 74
La tabella a doppia entrata delle frequenze assolute dei caratteri età e reddito è la seguente: Età del capofamiglia 26 30 31 49 50 55 56 60 61 70 Totale Reddito 15000 17000 1 1 0 0 1 3 17000 18500 2 2 0 1 0 5 18500 20000 2 1 0 1 0 4 20000 26000 0 1 1 2 0 4 26000 33000 0 0 2 1 1 4 Totale 5 5 3 5 2 20 Infine la tabella a doppia entrata delle frequenze relative è: Età del capofamiglia 26 30 31 49 50 55 56 60 61 70 Totale Reddito 15000 17000 005 005 0 0 005 015 17000 18500 010 010 0 005 0 025 18500 20000 010 005 0 005 0 020 20000 26000 0 005 005 010 0 020 26000 33000 0 0 010 005 005 020 Totale 025 025 015 025 01 1 11 / 74
Differenza tra indipendenza distributiva ed indipendenza in media 12 / 74
Indipendenza distributiva (o connessione nulla) Definizione Il carattere B è indipendente in distribuzione dal carattere A se per ogni distribuzione parziale di B le frequenze relative condizionate sono uguali a quelle della distribuzione totale (di B) In formula, B è indipendente in distribuzione da A se per ogni (colonna) j = 1,, c si ha n ( ) b i, a j n ( ) = n ij a j n j }{{} frequenza relativa ) condizionata fr (b i a j = n i N = n (b i ) N }{{} frequenza relativa marginale fr (b i ) per i = 1,, r, (2) cioé se le c distribuzioni condizionate del carattere B sono identiche ( simili ) a quella marginale Osservazione Dalla (2) si ricava che l indipendenza distributiva è una relazione simmetrica, cioè se B è indipendente da A, allora anche A è indipendente da B e viceversa Infatti n ( ) b i, a j n ( ) n ( ) aj a j n (b i ) = n (b i ) N n ( ) aj n ( ) b i, a j = n ( ) a j n (b i ) n (b i ) N, ovvero ricordando il significato dei due ultimi rapporti fr ( a j b i ) = fr ( aj ), per ogni i e per ogni j (3) La (3) indica, appunto, l indipendenza distributiva di A da B 13 / 74
Esempio in cui B è indipendente in distribuzione da A Si rileva che: Si rileva altresì che: Interpretazione A B a 1 a 2 a 3 Totale b 1 5 10 15 30 b 2 3 6 9 18 b 3 2 4 6 12 Totale 10 20 30 60 Table: Distribuzione bivariata 3 3 con indipendenza di B da A fr (b 1 a 1 ) = 5 10 = 0, 5 fr (b 1 a 2 ) = 10 20 = 0, 5 fr (b 1 a 3 ) = 15 30 = 0, 5 fr (b 1 ) = 30 = 0, 5 60 fr (b 2 a 1 ) = fr (b 2 a 2 ) = fr (b 2 a 3 ) = fr (b 2 ) = 0, 3; fr (b 3 a 1 ) = fr (b 3 a 2 ) = fr (b 3 a 3 ) = fr (b 3 ) = 0, 2 L importanza numerica relativa delle modalità di B è la stessa nelle tre distribuzioni parziali e nella distribuzione totale Ciò significa che il carattere A non ha nessuna influenza su come si distribuiscono le unità statistiche fra le modalità di B 14 / 74
È molto utile in alcuni contesti presentare la condizione di indipendenza distributiva nel modo che verrà ora ricavato Moltiplicando prima e seconda parte della (2) per n ( ) a j si ottiene: n ( ) b i, a j da cui Interpretazione n ( a ) j n ( b i, a j ) = n (b i ) n ( a j ) N n ( a ) n (b j = i ) N n ( ) a j (4) j = 1, 2,, c e i = 1, 2,, r (5) La (5) informa che in caso di indipendenza distributiva le frequenze congiunte si possono ottenere dal prodotto delle frequenze marginali diviso per N In altre parole, nell ipotesi di indipendenza distributiva, la conoscenza delle frequenze marginali è sufficiente per avere quelle congiunte Infatti, dividendo prima e seconda parte della (5) per N si ottiene n ( ) b i, a j = n (b i ) n ( ) a j (6) N N } N {{ } fr(b i,a j ) }{{} fr(b i ) }{{} fr(a j ) Interpretazione La (6) informa che nell ipotesi di indipendenza distributiva le frequenze relative congiunte si fattorizzano nel prodotto delle corrispettive frequenze marginali 15 / 74
Notazione Per distinguere le frequenze marginali osservate n ij da quelle che si dovrebbero avere nell ipotesi di indipendenza distributiva, queste ultime verranno indicate con n ij, essendo, per la (5) n ij = n i n j (7) N Utilizzando la (7) è possibile ricavare le frequenze teoriche nell ipotesi di indipendenza che possono essere collocate nella cosiddetta tabella delle frequenze teoriche : A B a 1 a j a c Totale b 1 n 11 n 1j n 1c n 1 b i n i1 n ij n ic n i b r n r1 n rj n rc n r Totale n 1 n j n c N Table: Tabella a doppia entrata delle frequenze teoriche in caso di indipendenza distributiva 16 / 74
Proprietà: Le frequenze marginali teoriche sono uguali a quelle effettive Enunciato La proprietà afferma che: n i = n i, per ogni i = 1,, r e che n j = n j, per ogni j = 1,, c Dimostrazione Sappiamo che Sappiamo anche che per la (5) Tenuto conto di ciò n i = c j=1 n i n j N n i = c n ij j=1 n ij = n i n j N = n i N In modo analogo si dimostra che n j = n j c j=1 n j = n i N N = n i 17 / 74
Massima dipendenza (Connessione massima) Oltre alla situazione di indipendenza distributiva riveste una certa importanza la situazione opposta di massima dipendenza (connessione massima) Il concetto di massima dipendenza del carattere B dal carattere A viene comunemente inteso nel senso che se di una unità statistica è nota la modalità di A allora è univocamente determinata la sua modalità di B A B a 1 a 2 a 3 a 4 Tot b 1 0 3 0 0 3 b 2 5 0 0 2 7 b 3 0 0 4 0 4 Tot 5 3 4 2 14 Table: Massima dipendenza di B da A La tabella mostra che partendo da una qualsiasi modalità di A si ottiene una sola modalità di B: (a 1 b 2 ) (a 2 b 1 ) (a 3 b 3 ) (a 4 b 2 ) La situazione ora precisata è quella di massima dipendenza unilaterale di B da A: se si parte da una modalità di B non sempre si ottiene una sola modalità di A: (b 1 a 2 ) (b 2 a 1, a 4 ) (b 3 a 3 ) 18 / 74
Nella massima dipendenza solo di B da A in ogni colonna le frequenze sono concentrate in una sola casella e vi è almeno una riga con frequenze concentrate in più di una casella 19 / 74 Si ha la massima dipendenza bilaterale se si ha contemporaneamente la massima dipendenza unilaterale di B da A e la massima dipendenza unilaterale di A da B In altre parole si ha la massima dipendenza bilaterale se essendo nota la modalità di A è univocamente determinata la modalità di B e viceversa A B a 1 a 2 a 3 a 4 Tot b 1 0 0 4 0 4 b 2 5 0 0 0 5 b 3 0 3 0 0 3 b 4 0 0 0 2 2 Tot 5 3 4 2 14 Table: Massima dipendenza bilaterale La tabella mostra che partendo da una qualsiasi modalità di A si ottiene una sola modalità di B e viceversa: (a 1 b 2 ) (a 2 b 3 ) (a 3 b 1 ) (a 4 b 4 ) Si può così affermare che si ha la massima dipendenza bilaterale se vi è corrispondenza biunivoca fra le modalità dei due caratteri Osservazione pratica Per avere la massima dipendenza bilaterale bisogna che r = c e che per ogni riga e per ogni colonna le frequenze siano concentrate in una sola casella
Indici di dipendenza distributiva (o di connessione) Contingenze assolute Lo studio della eventuale relazione esistente fra due caratteri, indipendentemente dal fatto che essi siano qualitativi o quantitativi, può essere agevolmente basato sul confronto fra le frequenze effettive n ij e le frequenze teoriche n ij dell ipotesi di indipendenza distributiva Si hanno così le contingenze assolute C ij fornite da C ij = n ij n ij, i = 1,, r e j = 1,, c Osservazione 1 La connessione aumenta mano a mano che aumentano le divergenze fra n ij e n ij Se n ij = n ij e quindi C ij = 0, per ogni casella, allora vi è indipendenza distributiva o connessione nulla; n ij n ij = C ij 0 per almeno una casella, allora vi è una certa connessione fra i due caratteri Il segno delle contingenze fornisce inoltre utili informazioni; se C ij > 0 vi è attrazione tra le modalità x i e y j ; C ij < 0 vi è repulsione tra le modalità x i e y j 20 / 74
Osservazione 2 Essendo n i = n i e n j = n j risulta che la somma delle contingenze è uguale a zero per ogni riga e per ogni colonna Contingenze relative Solitamente il grado di divergenza fra frequenza effettiva n ij e frequenza teorica n ij si valuta rapportando la contingenza ( n ij n ij ) al valore della frequenza teorica: si hanno così le contingenze relative ρ ij = n ij n ij n ij, i = 1,, r e j = 1,, c, che non sono altro che delle semplici variazioni relative Per avere una sintesi della connessione esistente fra i due caratteri si possono calcolare opportune medie dei moduli delle contingenze relative L indice di cui ci occuperemo nel corso è quello di Karl Pearson 21 / 74
L indice quadratico di dipendenza distributiva L indice (quadratico) di dipendenza distributiva (o di connessione) di Pearson è dato da: M 2 ( ρ ) = 1 c r ( ) ρ ij 2 nij = 1 c r 2 Cij n ij N N n j=1 i=1 j=1 i=1 ij = 1 c r C 2 ij = 1 ( ) c r 2 nij n ij N n j=1 i=1 ij N n j=1 i=1 ij Per avere informazioni sul grado di dipendenza distributiva esistente tra i due caratteri è opportuno ricorrere ad un indice normalizzato Un indice che possiede tale caratteristica viene ottenuto dividendo M 2 ( ρ ) per il suo massimo valore assumibile Il valore massimo assumibile da M 2 ( ρ ) corrisponde al caso di massima dipendenza distributiva tra i due caratteri e, in tale caso, si dimostra che max {M 2 ( ρ )} = k 1 con k = min(r, c) Otteniamo quindi l indice normalizzato di dipendenza distributiva (o di connessione) di Cramer: C M 2 ( ρ ) = max {M 2 ( ρ )} = M 2( ρ ) k 1 L indice appena introdotto gode delle seguenti proprietà: 0 C 1; C = 0 se e solo se tra i caratteri in considerazione vi è indipendenza distributiva; C = 1 se e solo se tra i caratteri vi è massima dipendenza distributiva 22 / 74
Test χ 2 di indipendenza Si consideri ora il problema dal punto di vista non descrittivo ma inferenziale Si formulino le ipotesi: H 0 : A B contro H 1 : A B Per la verifica dell ipotesi H 0 si ricorre alla statistica test ( ) r c 2 X 2 nij n ij = n i=1 j=1 ij n χ 2 (r 1)(c 1) Osservazione sulla distribuzione della statistica test Si noti che la distribuzione della statistica test X 2 è asintotica ed è calcolata sotto H 0 La regione critica di livello α del test può essere così definita come { } C = X 2 : X 2 > c dove c = χ 2 [(r 1)(c 1);1 α] è il quantile di ordine 1 α di una χ 2 (r 1)(c 1) 23 / 74
Esercizio 1 I dati relativi alla popolazione occupata per grande ripartizione geografica e per settore di attività economica sono riportati nella seguente tabella: Ripartiz Nord (N) Centro-Sud (CS) Attività Totale Agricoltura (A) 698 1248 1946 Industria (I) 4127 2625 6752 Altre attività (AA) 5695 6609 12304 Totale 10520 10482 21002 1 Determinare la distribuzione bivariata di frequenze relative; 2 determinare le distribuzioni condizionate di frequenze relative; 3 calcolare le contingenze assolute e fornire la loro interpretazione; 4 calcolare le contingenze relative e fornire la loro interpretazione; 5 valutare il grado di dipendenza distributiva tra i due caratteri mediante un opportuno indice 6 valutare, al livello di significatività del 5%, se si può ritenere che vi sia indipendenza distributiva tra i due caratteri 24 / 74
Esercizio 1 - quesito 1 Le frequenze congiunte relative sono ricavabili dalle frequenze congiunte attraverso la relazione: f ij = n ij per i = 1, 2, 3 e j = 1, 2 n Nel nostro caso abbiamo ad esempio che: Interpretazione fr(a, N) = n 11 n = 698 21002 = 00332 Il 332% della popolazione occupata risiede al nord ed è impiegata nel settore agricolo Procedendo in modo del tutto analogo nel caso di tutte le altre frequenze congiunte relative si ottiene la seguente tabella: Ripartiz Nord (N) Centro-Sud (CS) Attività Totale Agricoltura (A) 00332 00594 00926 Industria (I) 01965 01250 03215 Altre attività (AA) 02712 03147 05859 Totale 05009 04991 1 25 / 74
Interpretazione delle frequenze congiunte relative fr(i, N) = 01965 indica che il 1965% della popolazione occupata risiede al nord ed è impiegata nel settore industriale; fr(i, CS) = 01250 indica che il 125% della popolazione occupata risiede al centro sud ed è impiegata nel settore industriale; fr(aa, N) = 02712 indica che il 2712% della popolazione occupata risiede al nord ed è impiegata nelle altre attività; fr(aa, CS) = 03147 indica che il 3147% della popolazione occupata risiede al centro sud ed è impiegata nelle altre attività; Nell ultima riga e colonna della tabella precedente sono riportate le frequenze marginali relative rispettivamente dei caratteri Ripartizione Geografica e Settore di Attività Economica 26 / 74
Interpretazione delle frequenze marginali relative Le frequenze marginali sono state calcolate mediante: f j = n j n j = 1, 2 e f i = n i n i = 1, 2, 3 Le frequenze marginali relative del carattere Ripartizione Geografica forniscono le seguenti informazioni: fr(n) = 05009 indica che il 5009% della popolazione occupata risiede al nord fr(cs) = 04991 indica che il 4991% della popolazione occupata risiede al centro sud Le frequenze marginali relative del carattere Settore di Attività Economica forniscono invece le seguenti informazioni: fr(a) = 00926 indica che il 926% della popolazione occupata è impiegata nel settore agricolo fr(i) = 03215 indica che il 3215% della popolazione occupata è impiegata nel settore industriale fr(aa) = 05859 indica che il 5859% della popolazione occupata è impiegata in altre attività 27 / 74
Esercizio 1 - quesito 2 Fissiamo innanzitutto l attenzione sulla distribuzione parziale associata alla modalità N del carattere Ripartizione Geografica In tal caso le frequenze relative condizionate sono date da: fr(a N) = n 11 = 698 n 1 10520 = 00664 fr(i N) = n 21 n 1 = 4127 10520 = 03923 fr(aa N) = n 31 n 1 = 5695 10520 = 05413 In modo del tutto analogo possono essere ricavate le frequenze relative del carattere Settore di Attività Economica condizionate alla modalità CS del carattere Ripartizione Geografica Ripartiz Nord (N) Centro-Sud (CS) Attività Totale Agricoltura (A) 00664 01191 00926 Industria (I) 03923 02504 03215 Altre attività (AA) 05413 06305 05859 1 1 1 28 / 74
L ultima colonna della tabella precedente contiene le frequenze relative marginali del carattere Settore di Attività Economica Interpretazione delle frequenze relative condizionate di colonna Le frequenze relative condizionate del carattere Settore di Attività Economica danno le seguenti informazioni: fr(a N) = 00664 indica che il 664% della popolazione occupata residente al nord è impiegata nel settore agricolo; fr(i N) = 03923 indica che il 3923% della popolazione occupata residente al nord è impiegata nel settore industriale; fr(aa N) = 05413 indica che il 5413% della popolazione occupata residente al nord è impiegata in altre attività; fr(a CS) = 01191 indica che il 1191% della popolazione occupata residente al centro sud è impiegata nel settore agricolo; fr(i CS) = 02504 indica che il 2504% della popolazione occupata residente al centro sud è impiegata nel settore industriale; fr(aa CS) = 06305 indica che il 6305% della popolazione occupata residente al centro sud è impiegata in altre attività 29 / 74
Per quanto riguarda il calcolo delle frequenze relative condizionate del carattere Ripartizione Geografica, fissiamo innanzitutto l attenzione sulla distribuzione parziale associata alla modalità A del carattere Settore di attività Economica In tal caso le frequenze relative condizionate sono date da: fr(n A) = n 11 n 1 = 698 1946 = 03587 fr(cs A) = n 12 n 1 = 1248 1946 = 06413 In modo del tutto analogo possono essere ricavate le frequenze relative del carattere Ripartizione Geografica condizionate alla modalità I e AA del carattere Settore di attività Economica Ripartiz Nord (N) Centro-Sud (CS) Attività Agricoltura (A) 03587 06413 1 Industria (I) 06112 03888 1 Altre attività (AA) 04629 05371 1 Totale 05009 04991 1 30 / 74
L ultima riga della tabella sopra riportata contiene le frequenze relative marginali del carattere Ripartizione Geografica Interpretazione delle frequenze relative condizionate di riga Le frequenze relative condizionate del carattere Ripartizione geografica forniscono le seguenti informazioni: fr(n A) = 03587 indica che il 3587% della popolazione occupata impiegata nel settore agricolo risiede al nord; fr(cs A) = 06413 indica che il 6413% della popolazione occupata impiegata nel settore agricolo risiede al centro sud; fr(n I) = 06112 indica che il 6612% della popolazione occupata impiegata nel settore industriale risiede al nord; fr(cs I) = 03888 indica che il 3888% della popolazione occupata impiegata nel settore industriale risiede al centro sud; fr(n AA) = 04629 indica che il 4629% della popolazione occupata impiegata in altri settori risiede al nord; fr(cs AA) = 05371 indica che il 5371% della popolazione occupata impiegata in altri settori risiede al centro sud 31 / 74
Esercizio 1 - quesito 3 La tabella delle frequenze osservate n ij era: Ripartiz Nord (N) Centro-Sud (CS) Attività Totale Agricoltura (A) 698 1248 1946 Industria (I) 4127 2625 6752 Altre attività (AA) 5695 6609 12304 Totale 10520 10482 21002 La tabella delle frequenze teoriche n ij, in caso di indipendenza distributiva, risulta: Osservazione Ripartiz Nord (N) Centro-Sud (CS) Attività Totale Agricoltura (A) 9747605 9712395 1946 Industria (I) 33821084 33698916 6752 Altre attività (AA) 61631311 61408689 12304 Totale 10520 10482 21002 Si osservi, come detto in precedenza, che le distribuzioni marginali della tabella delle frequenze teoriche n ij coincidono con quelle della tabella delle frequenze effettive n ij 32 / 74
Le contingenze assolute C ij sono per definizione costituite dalla differenza tra la frequenza effettiva n ij e quella teorica nel caso di indipendenza distributiva n ij : C ij = n ij n ij i = 1, 2, 3 e j = 1, 2 Il loro calcolo è riportato nella seguente tabella: Ripartiz Nord (N) Centro-Sud (CS) Attività Totale Agricoltura (A) -2767605 2767605 0 Industria (I) 7448916-7448916 0 Altre attività (AA) -4681311 4681311 0 Totale 0 0 0 Osservazione Si osservi, come detto in precedenza, che sia i totali di riga che di colonna delle contingenze assolute sono nulli 33 / 74
Informazioni desumibili dalle contingenze assolute C 11 = 2767605: la frequenza congiunta effettiva associata alle modalità A del carattere Settore di Attività Economica e N del carattere Ripartizione Geografica, è minore rispetto a quella teorica in ipotesi di indipendenza distributiva Tra le modalità A del carattere Settore di attività Economica, e N del carattere Ripartizione Geografica vi è repulsione in quanto la frequenza congiunta che si è osservata è inferiore a quella che si sarebbe dovuta osservare se tra i due caratteri vi fosse stata indipendenza distributiva; C 12 = 2767605: la frequenza congiunta effettiva associata alle modalità A del carattere Settore di Attività Economica e CS del carattere Ripartizione Geografica, è maggiore rispetto a quella teorica in ipotesi di indipendenza distributiva Tra le modalità A del carattere Settore di Attività Economica e CS del carattere Ripartizione Geografica vi è attrazione in quanto la frequenza congiunta che si è osservata è maggiore di quella che si sarebbe dovuta osservare se tra i due caratteri vi fosse stata indipendenza distributiva 34 / 74
Esercizio 1 - quesito 4 Il calcolo delle contingenze relative ρ ij è riportato nella seguente tabella: Ripartiz Nord (N) Centro-Sud (CS) Attività Agricoltura (A) -02839 02839 Industria (I) 02202-02202 Altre attività (AA) -00756 00756 Informazioni desumibili dalle contingenze relative ρ 11 = 02839: la frequenza congiunta effettiva associata alle modalità A del carattere Settore di Attività Economica e N del carattere Ripartizione Geografica, è inferiore del 2839% rispetto a quella teorica d indipendenza distributiva ρ 12 = 02839: la frequenza congiunta effettiva associata alle modalità A del carattere Settore di Attività Economica e CS del carattere Ripartizione Geografica, supera del 2839% quella teorica d indipendenza distributiva 35 / 74
Esercizio 1 - quesito 5 Nella seguente tabella sono riportati i valori dei rapporti C 2 ij / n ij, utili per il calcolo dell indice di dipendenza distributiva di K Pearson Ripartiz Nord (N) Centro-Sud (CS) Attività Totale Agricoltura (A) 785797 785797 1574442 Industria (I) 1646532 1646532 3287117 Altre attività (AA) 356866 356866 712443 Totale 2781958 2792044 5574002 L indice quadratico di dipendenza distributiva di KPearson risulta: M 2 ( ρ ) = 1 3 2 C 2 ij 5574002 = = 01629 n n i=1 j=1 ij 21002 Interpretazione del risultato Il valore appena individuato informa che, in media quadratica, le frequenze effettive n ij differiscono da quelle teoriche n ij di 01629 36 / 74
Per avere informazioni sul grado di dipendenza distributiva esistente tra i due caratteri, è opportuno ricorrere all indice normalizzato di dipendenza distributiva Ricordiamo che r = 3 ed c = 2, da cui si ricava k = min {r, c} = 2 Nel nostro caso abbiamo quindi: C = M 2 ( ρ ) max {M 2 ( ρ )} = 01629 = 01629 = 01629 k 1 1 Lettura del risultato L indice normalizzato di dipendenza distributiva è pari al 1629% del suo massimo valore teorico (che corrisponde al caso di massima dipendenza distributiva) Si può quindi concludere che tra i due caratteri Settore di Attività Economica e Ripartizione geografica vi è un basso grado di dipendenza distributiva 37 / 74
Esercizio 1 - quesito 6 Per avere un idea se il valore trovato dell indice sia statisticamente sintomo di indipendenza o meno tra i fenomeni Settore di Attività Economica e Ripartizione geografica, possiamo fare ricorso al test χ 2 di indipendenza Dalla tabella ricavata al quesito 5 si è visto che il valore osservato della statistica test è pari a X 2 = 5574002 Al livello del 5% (α = 005), il valore critico c che definisce la regione critica C del test risulta c = χ 2 [2;095] = 59914 Essendo X 2 = 5574002 > c = 59914, siamo portati a rifiutare l ipotesi nulla di indipendenza al livello del 5% p-value del test di indipendenza Si noti che, nell esempio in esame, tale conclusione è valida indipendentemente dal livello di significatività scelto dal momento che il p-value associato al test è praticamente nullo 38 / 74
Indipendenza in media Sia Y un carattere quantitativo che assume i valori y 1,, y i,, y r rispettivamente con frequenze n 1,, n i,, n r Sia A un carattere qualitativo o quantitativo che assume i valori (o classi di valori) a 1,, a j,, a c rispettivamente con frequenze n 1,, n j,, n c La popolazione totale di N unità si può così considerare divisa in c popolazioni parziali (gruppi) una per ogni modalità a j di A di numerosità rispettivamente n 1,, n j,, n c A Gruppo 1 Gruppo j Gruppo c Y a 1 a j a c Totale y 1 n 11 n 1j n 1c n 1 y i n i1 n ij n ic n i y r n r1 n rj n rc n r Totale n 1 n j n c N Per quanto riguarda il carattere Y, per ciascun gruppo si può calcolare la media e la varianza σ 2 j = 1 n j y j = 1 n j r i=1 r y i n ij i=1 ( y i y j ) 2 nij 39 / 74
Sempre per quanto riguarda il carattere Y se ne può calcolare la media aritmetica (totale) y = 1 r y i n i N i=1 e la varianza (totale) σ 2 = 1 r (y i y) 2 n i N i=1 Con lo studio della indipendenza in media si vuol sapere se al mutare delle modalità di A la media aritmetica del carattere Y varia o meno Definizione Il carattere (quantitativo) Y è indipendente in media dal carattere A se: y 1 = = y j = = y c = y 40 / 74
Esempio - Indipendenza in media ma non indipendenza in distribuzione A Y a 1 a 2 a 3 a 4 Tot (n i ) 4 2 0 3 3 8 8 4 4 1 3 12 14 4 4 1 3 12 18 2 0 3 3 8 Tot ( ) n j 12 8 8 12 40 Table: Distribuzione bivariata secondo un carattere quantitativo Y ed uno qualitativo A La media totale e le medie parziali si ottengono agevolmente con il seguente prospetto y i y i n i1 y i n i2 y i n i3 y i n i4 y i n i 4 8 0 12 12 32 8 32 32 8 24 96 14 56 56 14 42 168 18 36 0 54 54 144 Tot 132 88 88 132 440 Dal prospetto si ricavano le seguenti medie per Y : y 1 = 132 12 = 11 y 2 = 88 8 = 11 y 3 = 88 8 = 11 y 4 = 132 440 = 11 e y = 12 40 = 11 Risultato 1 Le medie parziali sono fra loro uguali e sono, conseguentemente, uguali alla media totale Il carattere Y è quindi indipendente in media dal carattere A 41 / 74
Nel prospetto che segue sono riportate le frequenze relative (percentuali) delle modalità di Y nelle quattro distribuzioni parziali e nella distribuzione totale y i a 1 a 2 a 3 a 4 Tot 4 16, 67 0, 00 37, 50 25, 00 20, 00 8 33, 33 50, 00 12, 50 25, 00 30, 00 14 33, 33 50, 00 12, 50 25, 00 30, 00 18 16, 67 0, 00 37, 50 25, 00 20, 00 Tot 100, 00 100, 00 100, 00 100, 00 100, 00 Il prospetto mostra che al mutare delle modalità di A le frequenze relative (percentuali) di Y variano Ciò significa che vi è una certa dipendenza di Y da A Nonostante ciò, le medie parziali di Y non variano Risultato 2 In altre parole vi può essere indipendenza in media di Y da A in presenza di una certa connessione Teorema Indipendenza in media Indipendenza distributiva Dimostrazione L esempio appena illustrato dimostra il teorema 42 / 74
Esempio - Sia indipendenza in media che indipendenza in distribuzione y i a 1 a 2 a 3 a 4 Totale 4 4 8 12 16 40 8 3 6 9 12 30 12 2 4 6 8 20 16 1 2 3 4 10 Totale 10 20 30 40 100 Table: Distribuzione congiunta di N = 100 unità secondo i caratteri Y ed A Dalla tabella si ricavano le medie parziali (medie di gruppo) y 1 = y 2 = y 3 = y 4 = e la media totale 1 1 80 (4 4 + 8 3 + 12 2 + 16 1) = (16 + 24 + 24 + 16) = 10 10 10 = 8 1 1 160 (4 8 + 8 6 + 12 4 + 16 2) = (32 + 48 + 48 + 32) = 20 20 20 = 8 1 1 240 (4 12 + 8 9 + 12 6 + 16 3) = (48 + 72 + 72 + 48) = 30 30 30 = 8 1 40 (4 16 + 8 12 + 12 8 + 16 4) = 1 320 (64 + 96 + 96 + 64) = 40 40 = 8 y = 1 1 800 (4 40 + 8 30 + 12 20 + 16 10) = (160 + 240 + 240 + 160) = 100 100 100 = 8 43 / 74
Risultato 1 L uguaglianza fra le medie parziali e la media totale di Y indicano che il carattere quantitativo Y è indipendente in media da A Il prospetto che segue riporta le frequenze relative (percentuali) delle quattro modalità di Y nelle quattro distribuzioni parziali e nella distribuzione totale y i a 1 a 2 a 3 a 4 Totale 4 40, 00 40, 00 40, 00 40, 00 40, 00 8 30, 00 30, 00 30, 00 30, 00 30, 00 14 20, 00 20, 00 20, 00 20, 00 20, 00 18 10, 00 10, 00 10, 00 10, 00 10, 00 Totale 100, 00 100, 00 100, 00 100, 00 100, 00 Risultato 2 Dal prospetto si desume che al mutare delle modalità di A le frequenze relative (percentuali) di Y non variano Ciò significa che fra i due caratteri vi è indipendenza distributiva 44 / 74
Teorema - L indipendenza distributiva implica l indipendenza in media Quanto riscontrato nei due esempi precedenti trova spiegazione nel seguente teorema Enunciato Indipendenza distributiva Indipendenza in media Dimostrazione Bisogna dimostrare che dall ipotesi di indipendenza distributiva n ij = n j n i, i = 1, 2,, r e j = 1, 2,, c, N deriva l indipendenza in media, ovvero deriva l uguaglianza La media parziale y j è fornita da y j = y, j = 1, 2,, c y j = 1 n j r y i n ij Per l ipotesi di indipendenza distributiva n ij = n j n i, consegue che N i=1 y j = 1 n j r i=1 y i n j n i N = n j n j N r y i n i = 1 N i=1 r y i n i = y i=1 45 / 74
Il rapporto di correlazione di Karl Pearson Nei casi in cui al mutare delle modalità di A le medie parziali variano vuol dire che non vi è indipendenza in media ovvero vi è una certa dipendenza in media di Y da A Per misurare il grado della dipendenza in media Karl Pearson (sempre lui) propose il seguente rapporto η 2 Y A = = = Devianza fra le medie = D F Devianza totale D T Devianza fra le medie Devianza nei gruppi + Devianza fra le medie c ( 2 y j y) n j j=1 { c r } ( ) 2 c ( ) 2 y i y j nij + y j y n j j=1 i=1 j=1 Il rapporto di correlazione ηy 2, da non confondere con il coefficiente di correlazione A che vedremo in seguito, ha la stuttura di un rapporto di composizione ed assume valori nell intervallo 0 ηy 2 A 1 46 / 74
In particolare: c ( 2 ηy 2 = 0 se e solo se la devianza fra le medie y A j y) n j è uguale a j=1 zero Ciò accade solo se per ogni j si ha y j = y, ovvero il rapporto di correlazione è nullo solo se vi è indipendenza in media η 2 Y A = 1 solo se D F = D T, ovvero se D N = 0 In formula { c r } ( ) 2 y i y j nij = 0 j=1 } i=1 {{ } D j solo se le singole devianze nei gruppi D j sono nulle ovvero se per ogni j r ( ) 2 D j = y i y j nij = 0, i=1 ovvero se in ogni distribuzione parziale di Y la variabile assume un solo valore (in tal caso non è una variabile, piuttosto una quantità deterministica) che è anche uguale a y j In altre parole ciò significa che per ogni colonna della tabella a doppia entrata (per ogni a j ) la Y assume un solo valore Dal punto di vista dei numeri nella tabella a doppia entrata, se vi è la massima dipendenza in media di Y da A, per ogni colonna la frequenza n j si concentra in una sola casella 47 / 74
ANOVA (ad un criterio di classificazione) 1/2 Siano dati c 2 gruppi in cui il fenomeno di interesse Y è distribuito normalmente Si supponga che i gruppi siano caratterizzati da una comune, ma incognita, varianza σ 2 Si ha quindi: ( Y gruppo 1 N µ 1, σ 2) (,, Y gruppo j N µ j, σ 2) (,, Y gruppo c N µ c, σ 2) Obiettivo Si vuol verificare l ipotesi nulla H 0 : µ 1 = = µ j = = µ c = µ contro H 1 : c i=1 j=1 c µ i µ j > 0 In altre parole, l alternativa afferma che vi sono almeno due medie non uguali Come l ANOVA persegue tale obiettivo? L analisi della varianza (ANOVA) utilizza la scomposizione della devianza totale (varianza totale) in devienza fra i gruppi (varianza fra i gruppi) e devianza nei gruppi (varianza nei gruppi) La varianza fra i gruppi viene rapportata alla varianza nei gruppi: quanto più è elevata la varianza fra i gruppi, nei confronti di quella nei gruppi, tanto più si mette in discussione la validità dell ipotesi H 0 Osservazione Sia sotto H 0 che sotto H 1 si suppone che le varianze dei c gruppi siano uguali al valore ignoto σ 2 48 / 74
ANOVA (ad un criterio di classificazione) 2/2 Per confrontare le ipotesi indicate si estrae da ciascuna popolazione un campione di numerosità n j, j = 1,, c Da ciascun campione si calcolano le medie Y j e le varianze corrette S 2 j, essendo Y j = 1 n j r Y i n ij e S 2 1 j = n i=1 j 1 r i=1 Per la verifica dell ipotesi H 0 si ricorre alla statistica test V = D F / (c 1) n F[(c 1),(n c)], D N / (n c) ( Y i Y j ) 2 nij, j = 1,, c dove F [(c 1),(n c)] denota un distribuzione di Fisher con (c 1) e (n c) gradi di libertà Osservazione sulla distribuzione della statistica test Si noti che la distribuzione della statistica test V è asintotica ed è calcolata sotto H 0 La regione critica di livello α del test può essere così definita come { } C = V : V > c, dove c = F [(c 1),(n c);1 α] è il quantile di ordine 1 α di una F (c 1),(n c) 49 / 74
Esempio - Massima dipendenza in media di Y da A y i a 1 a 2 a 3 a 4 Totale 4 0 0 3 0 3 8 0 3 0 1 4 12 3 0 0 0 3 Totale 3 3 3 1 10 Table: Distribuzione bivariata con la massima dipendenza di Y da A Le medie parziali y j sono pari a: La media totale è pari a y 1 = 12 3 + 8 0 + 4 0 3 y 2 = 12 0 + 8 3 + 4 0 3 y 3 = 12 0 + 8 0 + 4 3 3 y 4 = 12 0 + 8 1 + 4 0 1 = 12 = 8 = 4 = 8 y = 12 3 + 8 4 + 4 3 10 = 36 + 32 + 12 10 = 8 50 / 74
La devianza fra le medie risulta La devianza totale D F = (12 8) 2 3 + (8 8) 2 3 + (4 8) 2 3 + (8 8) 2 1 = 16 3 + 0 3 + 16 3 + 0 1 = 96 3 (y i y) 2 n i, calcolata sulla colonna marginale, risulta i=1 D T = (4 8) 2 3 + (8 8) 2 4 + (12 8) 2 3 = 48 + 0 + 48 = 96 La devianza nei gruppi 4 3 j=1 i=1 ha D j = 0 Ad esempio D 1 = ( y i y j ) 2 nij è nulla in quanto per ogni j = 1, 2, 3, 4 si 3 (y i y 1 ) 2 n i1 = (4 12) 2 0 + (8 12) 2 0 + (12 12) 2 3 = 0 i=1 Pertanto η 2 Y A = 96 96 = 1 51 / 74
Esempio di riepilogo Nelle applicazioni reali quasi mai si hanno i casi estremi D F = 0 o D N = 0 Salario Operaio Impiegato Dirigente Totale 12 20 12 0 0 12 20 24 20 2 0 22 24 30 8 9 0 17 30 40 2 5 0 7 40 50 0 2 1 3 50 60 0 0 3 3 60 68 0 0 2 2 Totale 42 18 6 66 Table: Dipendenti di un azienda classificati secondo il salario (migliaia di euro all anno) e la posizione Quesito Si calcoli il grado di dipendenza in media dei salari (Y ) rispetto alla posizione professionale (A) 52 / 74
Il prospetto che segue è utile per il calcolo dei salari medi Salari (valori centrali) Operaio Impiegato Dirigente Totale y i n i1 y i n i1 n i2 y i n i2 n i3 y i n i3 n i y i n i 16 12 192 0 0 0 0 12 192 22 20 440 2 44 0 0 22 484 27 8 216 9 243 0 0 17 459 35 2 70 5 175 0 0 7 245 45 0 0 2 90 1 45 3 135 55 0 0 0 0 3 165 3 165 64 0 0 0 0 2 128 2 128 Totale 42 918 18 552 6 338 66 1808 Salario medio 21, 85 30, 67 56, 33 27, 39 I salari medi variano notevolmente al mutare della posizione professionale La varianza fra le medie è fornita da σ 2 F = = 1 66 D F = 1 66 } + (56, 33 27, 39) 2 6 1 6507, 84 = 98, 61 66 { (21, 85 27, 39) 2 42 + (30, 67 27, 39) 2 18+ = 1 {1289, 05 + 193, 65 + 5024, 14} 66 La devianza fra le medie D F è pari a 6507, 84 Lo scarto quadratico medio è pari a σ F = 98, 61 = 9, 93 In altre parole i salari medi parziali differiscono (in media quadratica) da quello medio totale di circa 9, 93 migliaia di euro 53 / 74
Per il calcolo della devianza totale e della devianza nei gruppi si può agevolmente impiegare il procedimento indiretto con le formule consuete: r D j = yi 2 n ij n j y 2 j (8) i=1 e r D T = yi 2 n i N y 2 (9) i=1 Il prospetto che segue è utile per il calcolo delle sommatorie previste nelle formule (8) e (9) Operai Impiegati Dirigenti Totale yi 2 n i1 yi 2 n i1 n i2 yi 2 n i2 n i3 yi 2 n i3 n i yi 2 n i 256 12 3072 0 0 0 0 12 3072 484 20 9680 2 968 0 0 22 10648 729 8 5832 9 6561 0 0 17 12393 1225 2 2450 5 6125 0 0 7 8575 2025 0 0 2 4050 1 2025 3 6075 3025 0 0 0 0 3 9075 3 9075 4096 0 0 0 0 2 8192 2 8192 Totale 42 21034 18 17704 6 19292 66 58030 Le devianze nei singoli gruppi risultano così Operai : D 1 = 21034 42 21, 85 2 = 982, 25 Impiegati : D 2 = 17704 18 30, 67 2 = 772, 32 Dirigenti : D 3 = 19292 6 56, 33 2 = 253, 58 54 / 74
La devianza nei gruppi risulta La devianza totale risulta D N = 982, 25 + 772, 32 + 253, 58 = 2008, 15 D T = 58030 66 27, 39 2 = 8516, 00 Ovviamente è possibile ottenere la devianza fra i gruppi sottraendo la devianza nei gruppi alla devianza totale Si ottiene così D F = D T D N = 8516, 00 2008, 15 = 6507, 85 Questo valore coincide con quello ricavato in precedenza con la formula Il rapporto di correlazione risulta D F = c i=1 ( y j y) 2 n j ηy 2 A = D F 6507, 85 = = 0, 764 D T 8516, 00 Interpretazione Il valore dell indice informa che la variabilità fra le medie parziali rappresenta il 76, 4% della variabilità totale dei salari Ciò è equivalente ad affermare che la variabilità interna (variabilità nei gruppi) rappresenta il 23, 6% della variabilità totale dei salari dei dipendenti dell azienda 55 / 74
Dal punto di vista inferenziale, per avere un idea se il valore trovato dell indice sia statisticamente sintomo di indipendenza in media o meno del salario rispetto la posizione, possiamo fare ricorso all ANOVA Si consideri, a tale scopo, un livello di significatività α = 005 Dai risultati precedenti è facile ricavare il seguente valore osservato della statistica test: V = D F / (c 1) 6507, 85/2 = D N / (n c) 2008, 15/63 = 1020827 Al livello del 5% (α = 005), il valore critico c che definisce la regione critica C del test risulta c = F [2,63;095] = 31428 Essendo V = 1020827 > c = 31428, siamo portati a rifiutare l ipotesi nulla di indipendenza in media al livello del 5% p-value del test di indipendenza Si noti che, nell esempio in esame, tale conclusione è valida indipendentemente dal livello di significatività scelto dal momento che il p-value associato al test è praticamente nullo 56 / 74
La concordanza Nel caso di due caratteri quantitativi si può studiare, come si è visto in precedenza, la dipendenza di uno di essi dall altro Relazione fra voto al diploma X e voto alla laurea Y In questo caso ha senso studiare la dipendenza del voto di laurea Y rispetto al voto del diploma X Non ha invece senso ritenere che Y abbia influenza su X in quanto X si manifesta alcuni anni prima Vi possono però essere coppie di caratteri per i quali ha senso ritenere sia che vi sia dipendenza di Y da X, sia che vi sia dipendenza di X da Y Relazione fra età degli sposi X ed età delle spose Y Se si hanno n matrimoni classificati secondo l età delle spose Y e l età degli sposi X ha senso ritenere che i due caratteri si influenzino vicendevolmente Nelle situazioni in cui vi è una reciproca influenza dei due caratteri si afferma che vi è interdipendenza Nel caso di interdipendenza fra due caratteri quantitativi è molto utile lo studio della concordanza (ovvero della discordanza) Un indice di concordanza dovrebbe assumere: valori positivi se i valori elevati di una variabile tendono ad associarsi con i valori elevati dell altra variabile, ovvero se i valori piccoli di una variabile tendono ad associarsi con i valori piccoli dell altra; valori negativi se i valori elevati (piccoli) di una variabile tendono ad associarsi con i valori piccoli (elevati) dell altra 57 / 74
Per la comprensione della concordanza sono molto utili i grafici delle Figure A e B Figura A Figura B I grafici si basano innanzi tutto sulla ripartizione del piano in quattro quadranti ottenuti tracciando due parallele agli assi cartesiani passanti per il punto di coordinate x = x e y = y 58 / 74
Le osservazioni che cadono nel: primo (I) quadrante hanno variazioni concordanti in quanto (x i x) > 0 e (y i y) > 0; In altre parole i punti sono tali che: x i > x e y i > y; terzo (III) quadrante hanno variazioni concordanti in quanto (x i x) < 0 e (y i y) < 0 In altre parole i punti sono tali che: x i < x e y i < y; secondo (II) quadrante hanno variazioni discordanti in quanto (x i x) < 0 e (y i y) > 0 In altre parole i punti sono tali che: x i < x e y i > y; quarto (IV) quadrante hanno variazioni discordanti in quanto (x i x) > 0 e (y i y) < 0 In altre parole i punti sono tali che: x i > x e y i < y Si può allora affermare che nella Figura A si ha concordanza in quanto prevalgono i punti situati nel primo e nel terzo quadrante Nella Figura B si ha invece discordanza in quanto prevalgono i punti situati nel secondo e nel quarto quadrante Si vuole ora trovare una funzione dei due scarti (x i x) e (y i y) che sia: a) positiva per i punti che si trovano nel primo e nel terzo quadrante e negativa per i punti ubicati nel secondo e nel quarto quadrante b) crescente (in valore assoluto) mano a mano che un punto posto in un quadrante si allontana dal punto di coordinate (x, y) c) simmetrica rispetto alle due variabili 59 / 74
La covarianza Una funzione che soddisfa tali condizioni è in quanto: Z i = (x i x) (y i y), a) è di segno + per i punti del I e del III quadrante ed è di segno per i punti del II e del IV quadrante; b) cresce all aumentare degli scarti (x i x) e (y i y); c) è simmetrica nei due scarti (x i x) e (y i y) Z i è denominata covariazione Per valutare l ordine di grandezza ed il segno prevalente delle covariazioni se ne può fare la loro media aritmetica e si ottiene così la covarianza Cov (X, Y ) = 1 N N (x i x) (y i y) (10) i=1 Con il procedimento indiretto la (10) è pari a Cov (X, Y ) = 1 N N x i y i x y i=1 60 / 74
La covarianza per tabelle a doppia entrata Nel caso di una tabella a doppia entrata si può determinare per ciascuna delle r c caselle la covariazione: ( xj x ) (y i y) i = 1,, r e j = 1,, c Per il calcolo della covarianza bisogna ricordarsi che in ogni casella vi è la frequenza n ij per cui la covarianza è fornita da Cov (X, Y ) = 1 N c r ( xj x ) (y i y) n ij (11) j=1 i=1 È immediato verificare che il procedimeto indiretto per il calcolo della (11) fornisce Cov (X, Y ) = 1 N c r x j y i n ij x y j=1 i=1 61 / 74
La covarianza in (11) può anche scriversi come: Cov (X, Y ) = 1 N c j=1 ( xj x ) ( y j y) n j (12) Dimostrazione: Cod (X, Y ) = c j=1 i=1 r ( xj x ) (y i y) n ij = Svolgendo l ultima sommatoria della (13) otteniamo Ricordando che si ha: r (y i y) n ij = i=1 y j = 1 n j r y i n ij i=1 i=1 Tenuto conto di questo risultato la (13) diventa r c ( xj x ) r (y i y) n ij (13) j=1 r y i n ij y i=1 e r n ij i=1 r n ij = n j, i=1 i=1 ( ) (y i y) n ij = y j n j y n j = y j y n j Cod (X, Y ) = c j=1 ( xj x ) ( y j y) n j Dividendo per N si ha Cov (X, Y ) = 1 N c j=1 ( xj x ) ( y j y) n j 62 / 74
La covarianza - Proprietà 1 Enunciato L indipendenza distributiva implica che: Cov (X, Y ) = 0 Dimostrazione Per ipotesi fra i due caratteri vi è indipendenza distributiva ovvero n ij = n i n j Si ha N così Cov (X, Y ) = 1 c r (y i y) ( x j x ) n ij N j=1 i=1 = 1 c r (y i y) ( x j x ) ni n j N N j=1 i=1 1 c ( = xj N 2 x ) r n j (y i y) n i j=1 i=1 Per la prima proprietà della media aritmetica le due ultime sommatorie sono uguali a zero Osservazione Non necessariamente se Cov (X, Y ) = 0 vi è indipendenza distributiva 63 / 74
La covarianza - Proprietà 2 Enunciato Se uno dei due caratteri X o Y è indipendente in media dall altro, allora Cov (X, Y ) = 0 Dimostrazione Si supponga che Y sia indipendente in media da X Ciò significa che: y 1 = = y j = = y c = y ovvero che ( ) (y 1 y) = = y j y = = (y c y) = 0 Consegue, utilizzando la (12), che Cov (X, Y ) = 1 N c ( xj x ) ( ) 0 y j y n j = 0 j=1 Osservazione Non necessariamente se Cov (X, Y ) = 0 vi è indipendenza in media 64 / 74
Si esclude così che vi sia indipendenza distributiva Inoltre, essendo y 1 y si esclude che vi sia indipendenza in media di Y da X Infine, essendo x 1 x si esclude che vi sia indipendenza in media di X da Y 65 / 74 Esempio di Cov (X, Y ) = 0 con dipendenza in distribuzione ed in media X Y Tabella bivariata osservata 2 4 6 8 Tot 3 1 1 1 0 3 5 1 0 0 2 3 7 0 1 1 1 3 9 1 1 1 0 3 Tot 3 3 3 3 12 Cov (X, Y ) = 1 N c r j=1 i=1 y = x = Prospetto per il calcolo di X Y r i=1 j=1 c y i x j n ij 2 4 6 8 3 6 12 18 0 5 10 0 0 80 7 0 28 42 56 9 18 36 54 0 y i x j n ij x y = 1 360 5 6 = 0 12 1 (3 3 + 5 3 + 7 3 + 9 3) = 6 12 1 (2 3 + 4 3 + 6 3 + 8 3) = 5 12 M 1 (Y X = 2) = y 1 = 1 (3 1 + 5 1 + 7 0 + 9 1) = 5, 67 3 M 1 (X Y = 3) = x 1 = 1 (2 1 + 4 1 + 6 1 + 8 0) = 4 3 Le frequenze teoriche di indipendenza distributiva sono tutte pari a: n ij = 3 3 12 Le frequenze congiunte reali n ij sono pari a 0, a 1 e a 2 = 0, 75 360
La covarianza - Proprietà 3 Enunciato Se z i = a + b x i e w i = c + d y i allora Cov (Z, W ) = b d Cov (X, Y ) Dimostrazione È noto che, per la proprietà di linearità della media: z = 1 N z i = a + b x e w = 1 N N i=1 N w i = c + d y i=1 Pertanto: Consegue che: In conclusione (z i z) = (a + b x i ) (a + b x) = b (x i x) (w i w) = (c + d y i ) (c + d y) = d (y i y) (z i z) (w i w) = b d (x i x) (y i y) Cov (Z, W ) = 1 N (z i z) (w i w) = 1 N b d (x i x) (y i y) N N i=1 i=1 = b d 1 N (x i x) (y i y) = b d Cov (X, Y ) N i=1 66 / 74
La covarianza - Proprietà 4 - Diseguaglianza di Cauchy-Schwarz Enunciato - Diseguaglianza di Cauchy-Schwarz [Cov (X, Y )] 2 Var (X) Var (Y ) Dimostrazione (da leggere dopo aver letto le Slides4 ) Vedremo in seguito che l indice di determinazione (indice di bontà dell adattamento della retta ai dati) è anche fornito da Dato che 0 Id 2 1, deriva che I 2 d = [Cov (X, Y )]2 Var (X) Var (Y ) [Cov (X, Y )] 2 Var (X) Var (Y ) 1 con uguaglianza solo nel caso di perfetta relazione lineare fra Y e X, ovvero solo nel caso che gli n punti giacciono su una retta L ultima disuguaglianza si può anche riscrivere così [Cov (X, Y )] 2 Var (X) Var (Y ), con uguaglianza solo nel caso di perfetta relazione lineare 67 / 74
Coefficiente di correlazione lineare di Bravais-Pearson Dalla diseguaglianza di Cauchy-Schwartz deriva che In particolare: σ (X) σ (Y ) Cov (X, Y ) σ (X) σ (Y ) Cov(X, Y ) = σ(x)σ(y ) se fra Y e X vi è perfetta relazione lineare decrescente; Cov(X, Y ) = σ(x)σ(y ) se fra Y e X vi è perfetta relazione lineare crescente Problemi La covarianza ha comunque i seguenti due problemi: 1 l unità di misura della covarianza è data dal prodotto delle unità di misura dei due caratteri; 2 il massimo ed il minimo della covarianza dipendono quindi dal prodotto σ (X) σ (Y ) Tutto ciò impedisce l immediato utilizzo della covarianza per valutare il grado di concordanza fra due caratteri che, non deve dipendere dalle unità di misura dei due caratteri e dai valori della variabilità degli stessi In altre parole un indice di concordanza deve essere un puro numero che assume valori in un intervallo [ 1; +1] 68 / 74
Si può ottenere il risultato dividendo la covarianza per il valore massimo che la stessa può raggiungere, cioè il prodotto σ(x)σ(y ) Si può così introdurre il coefficiente di correlazione r (X, Y ) dato da r (X, Y ) = Cov (X, Y ) σ (X) σ (Y ), (14) che secondo quanto specificato non è altro che la covarianza normalizzata In effetti dalla (14) deriva che 1 r (X, Y ) 1 Inoltre: r (X, Y ) = 1 segnala che vi è perfetta relazione lineare decrescente fra Y e X; r (X, Y ) = 1 indica perfetta relazione lineare crescente Ovviamente gli altri valori di r (X, Y ) si interpretano tenendo presente che il suo segno coincide con quello della covarianza e che r (X, Y ) non è altro che una covarianza normalizzata 69 / 74
Coefficiente di correlazione lineare - Interpretazione 2 Un secondo modo per interpretare r (X, Y ) è quello di sintesi di una doppia interpolazione Si è precisato che si ha concordanza (discordanza) se vi è reciproca influenza fra i due caratteri In questo contesto è possibile (ha senso) interpolare sia le y i in funzione di x i, sia le x i in funzione di y i Si hanno così le due rette (interpolanti) y i = α 0 + α 1 x i e x i = p 0 + p 1 y i In base al metodo dei minimi quadrati i coefficienti angolari risultano Osservazione α 1 = Cov (X, Y ) Var (X) e p 1 = Cov (X, Y ) Var (Y ) r (X, Y ), α 1 e p 1 hanno lo stesso segno che poi è il segno della covarianza Si può rappresentare r (X, Y ) come funzione dei due coefficienti angolari In effetti r (X, Y ) = {segno della Cov (X, Y )} α 1 p 1 Cov (X, Y ) Cov (X, Y ) = {segno della Cov (X, Y )} Var(X) Var(Y ) = {segno della Cov (X, Y )} Cov (X, Y ) σ(x)σ(y ) = Cov (X, Y ) σ(x)σ(y ) Per questo motivo r (X, Y ) si può interpretare anche come indice di interdipendenza lineare 70 / 74
Coefficiente di correlazione lineare - Interpretazione 3 Vi è infine la possibilità di interpretare il quadrato del coefficiente di correlazione come indice della bontà di adattamento della retta y = p 0 + p 1 x (ovvero della retta x = α 0 + α 1 y) In effetti sul caso della interpolazione della retta a minimi quadrati ŷ i = α 0 + α 1 x i, l indice di determinazione I 2 d = Devianza Spiegata (dalla retta) Devianza Totale (di Y ) è uguale al rapporto cioè al quadrato di r (X, Y ) Cov (X, Y ) 2 Var(X)Var(Y ) Osservazione Si tenga però presente che r 2 (X, Y ) non si può interpretare come indice di concordanza perché assume solo valori non-negativi In conclusione, si può quindi interpretare r 2 (X, Y ) come indice di determinazione della retta interpolante 71 / 74
Coefficiente di correlazione lineare - Ulteriori proprietà 1 Essendo r (X, Y ) = Cov (X, Y ) una trasformazione di scala della σ (X) σ (Y ) covarianza, è possibile dimostrare agevolmente le seguenti proprietà Prima proprietà L indipendenza distributiva implica che r (X, Y ) = 0 Dimostrazione Si è già dimostrato che in presenza di indipendenza distributiva Cov (X, Y ) = 0; pertanto anche r (X, Y ) = 0 Seconda proprietà Se uno dei due caratteri è indipendente in media dall altro, allora r (X, Y ) = 0 Dimostrazione Anche in questo caso Cov (X, Y ) = 0 e quindi r (X, Y ) = 0 72 / 74
Terza proprietà Il coefficiente di correlazione è invariante alle trasformazioni lineari delle variabili aventi coefficienti angolari dello stesso segno Dimostrazione Siano Z = a + bx e W = c + dy Sappiamo che Cov(Z, W ) = b d Cov (X, Y ) Inoltre, σ(z ) = b σ(x) e σ(w ) = d σ(y ) Pertanto r(z, W ) = = Cov(Z, W ) b d Cov (X, Y ) = σ(z ) σ(w ) b σ(x) d σ(y ) b d Cov(X, Y ) b d σ(x) σ(y ) = b d b d r (X, Y ) È evidente che { b d +1 se b e d hanno lo stesso segno b d = 1 se b e d hanno segno discorde Consegue che se b e d hanno lo stesso segno, allora r (Z, W ) = r (X, Y ) Se b e d hanno segno discorde allora r (Z, W ) = r (X, Y ) Esempio Siano le altezze in pollici ed Y i pesi in libbre di un gruppo di scolari inglesi Sia r(x, Y ) = 0, 69 Si trasformino le altezze in centimetri ed i pesi in kg Si ha così Z = 2, 54 X e W = 0, 4536 Y In forza della terza proprietà anche r(z, W ) = 0, 69 73 / 74
Test per valutare l incorrelazione (cortest()) Per verificare se, in base ai dati campionari, si possa ritenere che fra X e Y vi è incorrelazione, cioè per valutare le ipotesi H 0 : ρ (X, Y ) = 0 contro H 1 : ρ (X, Y ) 0, dove ρ (X, Y ) rappresenta la vera ma ignota correlazione tra X e Y, si può usare la statistica test R = r (X, Y ) t n 2, dove t n 2 denota una distribuzione t con n 2 gradi di libertà Osservazione sulla distribuzione della statistica test Si noti che la distribuzione della statistica test R è asintotica ed è calcolata sotto H 0 La regione critica di livello α del test può essere così definita come { } C = R : R > c, dove c = t (n 2;1 α 2 ) è il quantile di ordine 1 α/2 di una t n 2 74 / 74