Esercitazioni di statistica Misure di associazione: Indipendenza assoluta e in media Stefania Spina Universitá di Napoli Federico II stefania.spina@unina.it 22 ottobre 2014 Stefania Spina Esercitazioni di statistica 1/33
Introduzione Una delle finalità più comuni nella raccolta di dati è la ricerca di relazioni di causa-effetto, allo scopo di interpretare, prevedere, simulare e controllare i fenomeni reali. L analisi statistica bivariata consiste nello studio del comportamento di due caratteri considerati congiuntamente, quindi, consente, di misurare il legame esistente tra due variabili. Il tipo di associazione investigato dipende dalla natura dei caratteri considerati. I caratteri presi in considerazione possono essere: entrambi quantitativi; entrambi qualitativi; uno quantitativo e l altro qualitativo. Inoltre, se i caratteri sono delle quantità queste possono essere sia discrete che continue ed anche, ovviamente, per classi di modalità. Stefania Spina Esercitazioni di statistica 2/33
Distribuzione di frequenza doppia Una tipica rilevazione statistica doppia può essere, se le unità di rilevazione sono scambiabili, equivalentemente rappresentata da una distribuzione di frequenza doppia, di solito indicata con (X, Y) per sottolineare che si stanno analizzando simultaneamente i due caratteri X ed Y. Questa viene riportata in una tabella a doppia entrata come quella di seguito schematizzata: Stefania Spina Esercitazioni di statistica 3/33
Distribuzione di frequenza doppia Stefania Spina Esercitazioni di statistica 4/33
Le distribuzioni marginali Dalla distribuzione (X,Y) è possibile sempre derivare la distribuzione della sola X e quella della sola Y. Queste distribuzioni vengono dette marginali della doppia perché si trovano ai margini della tabella doppia che descrive la (X,Y). Stefania Spina Esercitazioni di statistica 5/33
Le distribuzioni marginali: esercizio La seguente tabella riporta la distribuzione del personale di ricerca in Italia nel 1990 per qualifica e settore di impiego. Determinare: Il personale a prescindere dal settore di impiego; Il personale per settore di impiego a prescindere dalla qualifica. Stefania Spina Esercitazioni di statistica 6/33
La tabella a doppia entrata: esercizio Stefania Spina Esercitazioni di statistica 7/33
Le distribuzioni condizionate Fino ad ora si è visto come da una distribuzione doppia (X,Y) sia possibile derivare due distribuzioni univariate per le variabili componenti definite distribuzioni marginali. Ma è possibile anche dedurre da una distribuzione doppia quella di una sola variabile componente dopo aver fissato la modalità dell altra, ossia una distribuzione condizionata. Date le N unità di rilevazione da cui è stata ottenuta la distribuzione doppia (X,Y), su N è imposta una condizione vuol dire effettuare una restrizione di N, più precisamente, considerare la sotto popolazione N* di N che soddisfi il vincolo imposto ad uno dei due caratteri). La popolazione N* sarà contenuta o al più sarà uguale a quella da cui è stata derivata. Inoltre, N* può anche essere vuota se la condizione imposta non può essere verificata. Stefania Spina Esercitazioni di statistica 8/33
Le distribuzioni condizionate Data una distribuzione di frequenza doppia (X,Y), si possono derivare due classi di condizionate: le condizionate X dato che Y ha assunto una data modalità, di solito queste distribuzioni si indicano con: (X Y = y j ), j = 1, 2,..., r le condizionate Y dato che X ha assunto una data modalità, di solito queste distribuzioni si indicano con: (Y X = x i ), i = 1, 2,..., c Stefania Spina Esercitazioni di statistica 9/33
Le distribuzioni condizionate: Esercizio Stefania Spina Esercitazioni di statistica 10/33
Le distribuzioni condizionate: Esercizio Stefania Spina Esercitazioni di statistica 11/33
Una distribuzione di frequenza doppia, oltre a fornire informazione sui due caratteri presi in considerazione (tramite le distribuzioni marginali), fornisce informazioni sugli eventuali legami esistenti fra detti caratteri, come ad esempio la dipendenza o l indipendenza statistica. Data la distribuzione doppia (X, Y) si dice che fra X ed Y vi è, per quanto riguarda l indipendenza, tre tipi di indipendenza: indipendenza assoluta se non esiste alcun tipo di legame sia fra X ed Y che fra Y ed X; quando la seconda variabile dipende dalla prima, mentre la prima è indipendente dalla seconda si dice che fra di loro esiste una indipendenza relativa. i due caratteri X ed Y sono indipendenti in media se in media non esiste nessun legame fra di loro, cioè se al variare delle modalità di X le medie condizionate di Y rimangono costanti (e vale il vicerversa). Stefania Spina Esercitazioni di statistica 12/33
L indipendenza assoluta I due caratteri X ed Y sono assolutamente indipendenti se tutte le distribuzioni condizionate di frequenze relative (X Y = y j ), j = 1, 2,..., r sono uguali fra di loro. In tal caso al variare delle modalità assunte dalla Y la distribuzione della X, condizionata a tali modalità, rimane sempre la stessa per cui Y non esercita alcuna influenza statistica sulla X. Stefania Spina Esercitazioni di statistica 13/33
L indipendenza assoluta I due caratteri X ed Y sono assolutamente indipendenti se e solo se risulta: n ij = n i. per i = 1,..., c; j = 1,..., r n.j N Lo stesso che dire: ˆn ij = n.j n i. per i = 1,..., c; j = 1,..., r N e tali quantità sono chiamate frequenze teoriche o attese e rappresentano i valori che assumerebbero le frequenze congiunte in caso di indipendenza. Nelle pratiche applicazioni è ben difficile osservare distribuzioni in cui, per tutte le coppie (i,j), sia verificata l ultima uguaglianza sopra riportata. Questa equazione permette di derivare la distribuzione doppia teorica sotto l ipotesi d indipendenza. Stefania Spina Esercitazioni di statistica 14/33
L associazione tra variabili Indipendenza assoluta e χ 2 Si veda come può essere costruito un indice di indipendenza, che permetta di stabilire fino a che punto si è vicini o lontani dal caso teorico di indipendenza. Questo indice dovrà essere: uguale a zero nel caso di perfetta indipendenza fra X ed Y (la tabella osservata e la tabella teorica sono coincidenti) essere positivo e crescente man mano che ci si allontana dal caso di perfetta indipendenza (la tabella osservata è molto diversa da quella teorica costruita sotto l ipotesi di indipendenza). Stefania Spina Esercitazioni di statistica 15/33
L associazione tra variabili Indipendenza assoluta e χ 2 Stefania Spina Esercitazioni di statistica 16/33
Indipendenza assoluta e χ 2 L indice di indipendenza di Pizzetti-Pearson Data la distribuzione doppia (X, Y) una misura tipica dell indipendenza assoluta è l indice di indipendenza di Pizzetti-Pearson, che di solito si indica con χ 2 e si legge chi-quadrato, è dato da: χ 2 = r i=1 j=1 c (n ij ˆn ij ) 2 Quest indice è: sempre non negativo; nullo se e solo se la tabella osservata e quella d indipendenza coincidono; cresce al crescere della diversità delle due tabelle; può essere utilizzato per qualsiasi tipo di carattere dato che non dipende dalle modalità dei due fenomeni analizzati; non è un indice normalizzato, cioè non varia in un intervallo finito, dato che è funzione della numerosità N della popolazione. ˆn ij Stefania Spina Esercitazioni di statistica 17/33
Esercizio Indipendenza assoluta e χ 2 Nel corso di un indagine condotta su 100 studenti della Facoltà di Economia sono stati rilevati il voto conseguito all esame (V) di un particolare insegnamento e la frequenza delle lezioni (F), con i risultati riportato nella tabella seguente: Non frequentante Frequentante saltuariamente Frequentante sempre 18-21 3 16 18 22-24 8 7 10 25-27 3 5 12 28-30 1 2 15 1 Si determini se esiste relazione tra i caratteri. 2 Si dica, motivando la risposta, se ha senso parlare di dipendenza in media di V e di F e di F da V. 3 Si determini, dove ha senso, una misura dell eventuale dipendenza in media. Stefania Spina Esercitazioni di statistica 18/33
Esercizio Indipendenza assoluta e χ 2 Si determini se esiste relazione tra i caratteri Tabella frequenze osservate Non frequentante Frequentante saltuariamente Frequentante sempre Totale 18-21 3 16 18 37 22-24 8 7 10 25 25-27 3 5 12 20 28-30 1 2 15 18 Totale 15 30 55 100 Tabella frequenze teoriche d indipendenza ˆn ij = n.j n i. N per i = 1,..., c; j = 1,..., r Non frequentante Frequentante saltuariamente Frequentante sempre 18-21 5.5 11.1 20.35 22-24 3.75 7.5 13.75 25-27 3 6 11 28-30 2.7 5.4 9.9 Stefania Spina Esercitazioni di statistica 19/33
Esercizio Indipendenza assoluta e χ 2 Tabella di contingenza : n ij ˆn ij Non frequentante Frequentante saltuariamente Frequentante sempre 18-21 -2.55 4.9-2.35 22-24 4.25-0.5-3.75 25-27 0-1 1 28-30 -1.7-3.4 5.1 χ 2 = χ 2 = ( 2.55)2 + (4.25)2 5.55 3.75 + (0)2 3 + ( 1.7)2 2.7 V Cramer = ( 3.75) 2 13.75 r i=1 j=1 c (n ij ˆn ij ) 2 ˆn ij + (4.9)2 11.1 + ( 0.5)2 7.5 + (1)2 11 + (5.1)2 = 15.57 9.9 φ 2 = χ2 n χ 2 n[min(r 1)(c 1)] = + ( 1)2 6 15.57 100 2 = 0.27 + ( 3.4)2 + ( 2.35)2 5.4 20.35 + Stefania Spina Esercitazioni di statistica 20/33
Introduzione Indipendenza in media e η 2 Quando si vuole studiare l associazione tra un carattere quantitativo (Y) e un carattere qualitativo o quantitativo discreto (X), parliamo di indipendenza in media Y è indipendente in media da X, se al variare delle modalità di X le medie condizionate di Y rimangono costanti M(Y x 1 ) = M(Y x 2 ) = M(Y x 3 ) =... = M(Y x s ) = M(Y ) Analogamente si parla di indipendenza in media di X da Y. M(X y 1 ) = M(X y 2 ) = M(X y 3 ) =... = M(X y s ) = M(X) Stefania Spina Esercitazioni di statistica 21/33
Indipendenza in media e η 2 Proprietà dell indipendenza in media l indipendenza in media non è una proprietà simmetrica, se Y è indipendente in media da X non è detto l inverso; l indipendenza assoluta implica l indipendenza in media, non è vero l inverso; l indipendenza in media di Y da X può essere calcolata solo se Y è quantitativa, qualsiasi sia la natura di X. Stefania Spina Esercitazioni di statistica 22/33
Decomposizione della devianza Indipendenza in media e η 2 Un elemento molto importante nello studio delle relazioni statistiche è la decomposizione della devianza: dove Dev(Y) è la devianza totale; Dev(Y ) = Dev(W ) + Dev(B) Dev(W) è la devianza dentro i gruppi; Dev(B) è la devianza tra i gruppi. Stefania Spina Esercitazioni di statistica 23/33
Decomposizione della devianza Indipendenza in media e η 2 Dev(W ) = k [Dev(Y X = x i )] = i=1 k [ h ] (y j y i ) 2 n ij i=1 j=1 Dev(B) = k (y i y) 2 n i. i=1 Stefania Spina Esercitazioni di statistica 24/33
L indice η 2 Indipendenza in media e η 2 L indice più utilizzato per misurare la dipendenza in media tra due variabili è l indice η 2 ηy 2 x = Dev(B) k Dev(Y ) = i=1 (y i y) 2 n i. h j=1 (y i y) 2 n.j Stefania Spina Esercitazioni di statistica 25/33
Esercizio Indipendenza in media e η 2 Si dica, motivando la risposta, se ha senso parlare di dipendenza in media di V e di F e di F da V Non frequentante Frequentante saltuariamente Frequentante sempre 18-21 3 16 18 22-24 8 7 10 25-27 3 5 12 28-30 1 2 15 Si può parlare di dipendenza in media di V da F ma non viceversa, perchè F è un carattere di tipo qualitativo. Stefania Spina Esercitazioni di statistica 26/33
Esercizio Indipendenza in media e η 2 Si determini, dove ha senso, una misura dell eventuale dipendenza in media Tabella frequenze osservate Non frequentante Frequentante saltuariamente Frequentante sempre Totale 18-21 3 16 18 37 22-24 8 7 10 25 25-27 3 5 12 20 28-30 1 2 15 18 Totale 15 30 55 100 Tabella dei valori centrali Nf V c Nf F.salt V c F.salt F.smp V c F.smp 19.5 3 58.5 16 312 18 351 23 8 184 7 161 10 230 26 3 78 5 130 12 312 29 1 29 2 58 15 435 Totale 15 349.5 30 661 55 1328 Stefania Spina Esercitazioni di statistica 27/33
Esercizio Indipendenza in media e η 2 Si determini, dove ha senso, una misura dell eventuale dipendenza in media Nf V c Nf F.salt V c F.salt F.smp V c F.smp 19.5 3 58.5 16 312 18 351 23 8 184 7 161 10 230 26 3 78 5 130 12 312 29 1 29 2 58 15 435 Totale 15 349.5 30 661 55 1328 M(V F = NF ) = 349.5 15 = 23.3 M(V F = F.salt) = 661 30 = 22.033 M(V F = F.semp) = 1328 55 = 24.145 M(V ) = 23.3 15 30 55 + 22.033 + 24.145 100 100 100 = 23.38 C è dipendenza in media di V da F Stefania Spina Esercitazioni di statistica 28/33
Esercizio Indipendenza in media e η 2 Si determini, dove ha senso, una misura dell eventuale dipendenza in media Non frequentante Frequentante saltuariamente Frequentante sempre Totale 18-21 3 16 18 37 22-24 8 7 10 25 25-27 3 5 12 20 28-30 1 2 15 18 Totale 15 30 55 100 η 2 Y x = Dev(B) k Dev(Y ) = i=1 (y i y) 2 n i. h j=1 (y i y) 2 n.j Dev(B) = (23.3 23.38) 2 15 + (22.03 23.38) 2 30 + (24.1 23.38) 2 55 = 86.72 Dev(Y ) = (19.5 23.4) 2 37 + (23 23.4) 2 25 + (26 23.4) 2 20 + (29 23.4) 2 = 1266.4 η 2 = Dev(B) Dev(Y ) = 86.72 1266.4 = 0.068 Stefania Spina Esercitazioni di statistica 29/33
Esercizio Indipendenza in media e η 2 Si riportano, nella seguente tabella, le caratteristiche del peso (in kg) di 5000 bambini di un anno di età, divisi tra maschi e femmine. Maschi (N = 2764) Femmine (N= 2236) Minimo 8.29 7.75 Massimo 12.40 11.85 Media 9.75 9.4 Mediana 9.82 9.35 Varianza 0.47 0.41 Si determini quanta parte di variabilità del peso può essere attribuita al genere. Stefania Spina Esercitazioni di statistica 30/33
Esercizio Indipendenza in media e η 2 Peso medio Varianza del peso Numero bambini Maschi 9.75 0.47 2764 Femmine 9.4 0.41 2236 Totale 5000 ηy 2 x = Dev(B) k Dev(Y ) = i=1 (y i y) 2 n i. h j=1 (y i y) 2 n.j M(Y X = M) = 9.75 n M = 2764 M(Y X = F ) = 9.4 n F = 2336 M(Y ) = M(Y X = M) n M N + M(Y X = F ) n F N M(Y ) = 9.75 2764 2236 + 9.4 5000 5000 = 9.59 Dev(B) = (9.75 9.59) 2 2764 + (9.4 9.59) 2 2236 = 151.42 Stefania Spina Esercitazioni di statistica 31/33
Esercizio Indipendenza in media e η 2 Peso medio Varianza del peso Numero bambini Maschi 9.75 0.47 2764 Femmine 9.4 0.41 2236 Totale 5000 Dev(Y ) = Dev(B) + Dev(W ) Dev(W ) = σ 2 M n M + σ 2 F n F = 0.47 2764 + 0.41 2236 = 2215 Dev(Y ) = 151.42 + 2215 = 2367.26 Stefania Spina Esercitazioni di statistica 32/33
Esercizio Indipendenza in media e η 2 Peso medio Varianza del peso Numero bambini Maschi 9.75 0.47 2764 Femmine 9.4 0.41 2236 Totale 5000 ηy 2 x = Dev(B) k Dev(Y ) = i=1 (y i y) 2 n i. h j=1 (y = 151.42 i y) 2 n.j 2367.26 = 0.064 Il 6.4% della variabilità del peso può essere attribuita al genere. Stefania Spina Esercitazioni di statistica 33/33