Esercitazioni di statistica

Documenti analoghi
Lezione 8. Statistica. Alfonso Iodice D Enza Università degli studi di Cassino. Lezione 8. A. Iodice. Relazioni tra variabili

Statistica. Alfonso Iodice D Enza

Statistica. Alfonso Iodice D Enza

REGRESSIONE E CORRELAZIONE

Esercitazione di Statistica Indici di associazione

Analisi bivariata. Il caso di caratteri qualitativi

Metodi Quantitativi per Economia, Finanza e Management. Lezione n 5 Analisi Bivariata I Parte

Capitolo 12. Suggerimenti agli esercizi a cura di Elena Siletti. Esercizio 12.1: Suggerimento

Istituzioni di Statistica 1 Esercizi su tabelle di contingenza

Statistica. Alfonso Iodice D Enza

CORSO DI STATISTICA (parte 1) - ESERCITAZIONE 5

Lezione 5 Corso di Statistica. Domenico Cucina

Esercitazione III Soluzione

STATISTICA: esercizi svolti sulla DIPENDENZA IN MEDIA

CORSO DI STATISTICA (parte 1) - ESERCITAZIONE 6

Indipendenza, Dipendenza e interdipendenza

Esercizi su distribuzioni doppie, dipendenza, correlazione e regressione (Statistica I, IV Canale)

Corso di Laurea in Scienze dell Organizzazione Facoltà di Sociologia, Università degli Studi di Milano-Bicocca a.a. 2009/2010.

Statistica. Alfonso Iodice D Enza

Statistica. Esercitazione 4 17 febbraio 2011 Medie condizionate. Covarianza e correlazione

STATISTICA DESCRITTIVA BIVARIATA

La dipendenza. Antonello Maruotti

PROBABILITÀ SCHEDA N. 5 SOMMA E DIFFERENZA DI DUE VARIABILI ALEATORIE DISCRETE

La statistica descrittiva seconda parte. a cura della prof.ssa Anna Rita Valente

ANALISI STATISTICHE BIVARIATE. Tabelle di contingenza

DIPENDENZA E ASSOCIAZIONE DISTRIBUZIONE CONGIUNTA DI DUE VARIABILI. Ci limiteremo a considerare il caso di due variabili.

ANALISI MULTIVARIATA

Statistica. Esercitazione 3 9 maggio 2012 Coefficiente di variazione. Serie storiche. Connessione e indipendenza statistica

Esercitazioni del corso: RELAZIONI TRA VARIABILI

Facoltà di Scienze Politiche Corso di laurea in Servizio sociale. Compito di Statistica del 7/1/2003

CORSO DI STATISTICA (parte 2) - ESERCITAZIONE 3

Il grado di associazione tra le due mutabili dicotomiche si saggia attraverso l indice ϕ tetracorico:

Lezione 5 Corso di Statistica. Francesco Lagona

PROBABILITÀ SCHEDA N. 5 SOMMA E DIFFERENZA DI DUE VARIABILI ALEATORIE DISCRETE

STATISTICA 1 ESERCITAZIONE 6

Indice di contingenza quadratica media (phi quadro) χ n

RICHIAMI DI CALCOLO DELLE PROBABILITÀ

Esercitazioni del corso: STATISTICA

Statistica. Esercitazione 4 15 maggio 2012 Connessione. Medie condizionate. Covarianza e correlazione

Statistica Descrittiva Soluzioni 7. Interpolazione: minimi quadrati

Statistica. Alfonso Iodice D Enza iodicede@unicas.it

Esercitazioni di statistica

L'analisi bivariata (analisi della varianza e correlazione) Prof. Stefano Nobile. Corso di Metodologia della ricerca sociale

La statistica. Elaborazione e rappresentazione dei dati Gli indicatori statistici. Prof. Giuseppe Carucci

DISTRIBUZIONI DOPPIE (ANALISI DESCRITTIVE) Fulvio De Santis a.a Prerequisiti Popolazione, unità, carattere Come nascono i dati:

Programmazione con Foglio di Calcolo Cenni di Statistica Descrittiva

Compiti tematici dai capitoli 2,3,4

Statistica Elementare

Transcript:

Esercitazioni di statistica Misure di associazione: Indipendenza assoluta e in media Stefania Spina Universitá di Napoli Federico II stefania.spina@unina.it 22 ottobre 2014 Stefania Spina Esercitazioni di statistica 1/33

Introduzione Una delle finalità più comuni nella raccolta di dati è la ricerca di relazioni di causa-effetto, allo scopo di interpretare, prevedere, simulare e controllare i fenomeni reali. L analisi statistica bivariata consiste nello studio del comportamento di due caratteri considerati congiuntamente, quindi, consente, di misurare il legame esistente tra due variabili. Il tipo di associazione investigato dipende dalla natura dei caratteri considerati. I caratteri presi in considerazione possono essere: entrambi quantitativi; entrambi qualitativi; uno quantitativo e l altro qualitativo. Inoltre, se i caratteri sono delle quantità queste possono essere sia discrete che continue ed anche, ovviamente, per classi di modalità. Stefania Spina Esercitazioni di statistica 2/33

Distribuzione di frequenza doppia Una tipica rilevazione statistica doppia può essere, se le unità di rilevazione sono scambiabili, equivalentemente rappresentata da una distribuzione di frequenza doppia, di solito indicata con (X, Y) per sottolineare che si stanno analizzando simultaneamente i due caratteri X ed Y. Questa viene riportata in una tabella a doppia entrata come quella di seguito schematizzata: Stefania Spina Esercitazioni di statistica 3/33

Distribuzione di frequenza doppia Stefania Spina Esercitazioni di statistica 4/33

Le distribuzioni marginali Dalla distribuzione (X,Y) è possibile sempre derivare la distribuzione della sola X e quella della sola Y. Queste distribuzioni vengono dette marginali della doppia perché si trovano ai margini della tabella doppia che descrive la (X,Y). Stefania Spina Esercitazioni di statistica 5/33

Le distribuzioni marginali: esercizio La seguente tabella riporta la distribuzione del personale di ricerca in Italia nel 1990 per qualifica e settore di impiego. Determinare: Il personale a prescindere dal settore di impiego; Il personale per settore di impiego a prescindere dalla qualifica. Stefania Spina Esercitazioni di statistica 6/33

La tabella a doppia entrata: esercizio Stefania Spina Esercitazioni di statistica 7/33

Le distribuzioni condizionate Fino ad ora si è visto come da una distribuzione doppia (X,Y) sia possibile derivare due distribuzioni univariate per le variabili componenti definite distribuzioni marginali. Ma è possibile anche dedurre da una distribuzione doppia quella di una sola variabile componente dopo aver fissato la modalità dell altra, ossia una distribuzione condizionata. Date le N unità di rilevazione da cui è stata ottenuta la distribuzione doppia (X,Y), su N è imposta una condizione vuol dire effettuare una restrizione di N, più precisamente, considerare la sotto popolazione N* di N che soddisfi il vincolo imposto ad uno dei due caratteri). La popolazione N* sarà contenuta o al più sarà uguale a quella da cui è stata derivata. Inoltre, N* può anche essere vuota se la condizione imposta non può essere verificata. Stefania Spina Esercitazioni di statistica 8/33

Le distribuzioni condizionate Data una distribuzione di frequenza doppia (X,Y), si possono derivare due classi di condizionate: le condizionate X dato che Y ha assunto una data modalità, di solito queste distribuzioni si indicano con: (X Y = y j ), j = 1, 2,..., r le condizionate Y dato che X ha assunto una data modalità, di solito queste distribuzioni si indicano con: (Y X = x i ), i = 1, 2,..., c Stefania Spina Esercitazioni di statistica 9/33

Le distribuzioni condizionate: Esercizio Stefania Spina Esercitazioni di statistica 10/33

Le distribuzioni condizionate: Esercizio Stefania Spina Esercitazioni di statistica 11/33

Una distribuzione di frequenza doppia, oltre a fornire informazione sui due caratteri presi in considerazione (tramite le distribuzioni marginali), fornisce informazioni sugli eventuali legami esistenti fra detti caratteri, come ad esempio la dipendenza o l indipendenza statistica. Data la distribuzione doppia (X, Y) si dice che fra X ed Y vi è, per quanto riguarda l indipendenza, tre tipi di indipendenza: indipendenza assoluta se non esiste alcun tipo di legame sia fra X ed Y che fra Y ed X; quando la seconda variabile dipende dalla prima, mentre la prima è indipendente dalla seconda si dice che fra di loro esiste una indipendenza relativa. i due caratteri X ed Y sono indipendenti in media se in media non esiste nessun legame fra di loro, cioè se al variare delle modalità di X le medie condizionate di Y rimangono costanti (e vale il vicerversa). Stefania Spina Esercitazioni di statistica 12/33

L indipendenza assoluta I due caratteri X ed Y sono assolutamente indipendenti se tutte le distribuzioni condizionate di frequenze relative (X Y = y j ), j = 1, 2,..., r sono uguali fra di loro. In tal caso al variare delle modalità assunte dalla Y la distribuzione della X, condizionata a tali modalità, rimane sempre la stessa per cui Y non esercita alcuna influenza statistica sulla X. Stefania Spina Esercitazioni di statistica 13/33

L indipendenza assoluta I due caratteri X ed Y sono assolutamente indipendenti se e solo se risulta: n ij = n i. per i = 1,..., c; j = 1,..., r n.j N Lo stesso che dire: ˆn ij = n.j n i. per i = 1,..., c; j = 1,..., r N e tali quantità sono chiamate frequenze teoriche o attese e rappresentano i valori che assumerebbero le frequenze congiunte in caso di indipendenza. Nelle pratiche applicazioni è ben difficile osservare distribuzioni in cui, per tutte le coppie (i,j), sia verificata l ultima uguaglianza sopra riportata. Questa equazione permette di derivare la distribuzione doppia teorica sotto l ipotesi d indipendenza. Stefania Spina Esercitazioni di statistica 14/33

L associazione tra variabili Indipendenza assoluta e χ 2 Si veda come può essere costruito un indice di indipendenza, che permetta di stabilire fino a che punto si è vicini o lontani dal caso teorico di indipendenza. Questo indice dovrà essere: uguale a zero nel caso di perfetta indipendenza fra X ed Y (la tabella osservata e la tabella teorica sono coincidenti) essere positivo e crescente man mano che ci si allontana dal caso di perfetta indipendenza (la tabella osservata è molto diversa da quella teorica costruita sotto l ipotesi di indipendenza). Stefania Spina Esercitazioni di statistica 15/33

L associazione tra variabili Indipendenza assoluta e χ 2 Stefania Spina Esercitazioni di statistica 16/33

Indipendenza assoluta e χ 2 L indice di indipendenza di Pizzetti-Pearson Data la distribuzione doppia (X, Y) una misura tipica dell indipendenza assoluta è l indice di indipendenza di Pizzetti-Pearson, che di solito si indica con χ 2 e si legge chi-quadrato, è dato da: χ 2 = r i=1 j=1 c (n ij ˆn ij ) 2 Quest indice è: sempre non negativo; nullo se e solo se la tabella osservata e quella d indipendenza coincidono; cresce al crescere della diversità delle due tabelle; può essere utilizzato per qualsiasi tipo di carattere dato che non dipende dalle modalità dei due fenomeni analizzati; non è un indice normalizzato, cioè non varia in un intervallo finito, dato che è funzione della numerosità N della popolazione. ˆn ij Stefania Spina Esercitazioni di statistica 17/33

Esercizio Indipendenza assoluta e χ 2 Nel corso di un indagine condotta su 100 studenti della Facoltà di Economia sono stati rilevati il voto conseguito all esame (V) di un particolare insegnamento e la frequenza delle lezioni (F), con i risultati riportato nella tabella seguente: Non frequentante Frequentante saltuariamente Frequentante sempre 18-21 3 16 18 22-24 8 7 10 25-27 3 5 12 28-30 1 2 15 1 Si determini se esiste relazione tra i caratteri. 2 Si dica, motivando la risposta, se ha senso parlare di dipendenza in media di V e di F e di F da V. 3 Si determini, dove ha senso, una misura dell eventuale dipendenza in media. Stefania Spina Esercitazioni di statistica 18/33

Esercizio Indipendenza assoluta e χ 2 Si determini se esiste relazione tra i caratteri Tabella frequenze osservate Non frequentante Frequentante saltuariamente Frequentante sempre Totale 18-21 3 16 18 37 22-24 8 7 10 25 25-27 3 5 12 20 28-30 1 2 15 18 Totale 15 30 55 100 Tabella frequenze teoriche d indipendenza ˆn ij = n.j n i. N per i = 1,..., c; j = 1,..., r Non frequentante Frequentante saltuariamente Frequentante sempre 18-21 5.5 11.1 20.35 22-24 3.75 7.5 13.75 25-27 3 6 11 28-30 2.7 5.4 9.9 Stefania Spina Esercitazioni di statistica 19/33

Esercizio Indipendenza assoluta e χ 2 Tabella di contingenza : n ij ˆn ij Non frequentante Frequentante saltuariamente Frequentante sempre 18-21 -2.55 4.9-2.35 22-24 4.25-0.5-3.75 25-27 0-1 1 28-30 -1.7-3.4 5.1 χ 2 = χ 2 = ( 2.55)2 + (4.25)2 5.55 3.75 + (0)2 3 + ( 1.7)2 2.7 V Cramer = ( 3.75) 2 13.75 r i=1 j=1 c (n ij ˆn ij ) 2 ˆn ij + (4.9)2 11.1 + ( 0.5)2 7.5 + (1)2 11 + (5.1)2 = 15.57 9.9 φ 2 = χ2 n χ 2 n[min(r 1)(c 1)] = + ( 1)2 6 15.57 100 2 = 0.27 + ( 3.4)2 + ( 2.35)2 5.4 20.35 + Stefania Spina Esercitazioni di statistica 20/33

Introduzione Indipendenza in media e η 2 Quando si vuole studiare l associazione tra un carattere quantitativo (Y) e un carattere qualitativo o quantitativo discreto (X), parliamo di indipendenza in media Y è indipendente in media da X, se al variare delle modalità di X le medie condizionate di Y rimangono costanti M(Y x 1 ) = M(Y x 2 ) = M(Y x 3 ) =... = M(Y x s ) = M(Y ) Analogamente si parla di indipendenza in media di X da Y. M(X y 1 ) = M(X y 2 ) = M(X y 3 ) =... = M(X y s ) = M(X) Stefania Spina Esercitazioni di statistica 21/33

Indipendenza in media e η 2 Proprietà dell indipendenza in media l indipendenza in media non è una proprietà simmetrica, se Y è indipendente in media da X non è detto l inverso; l indipendenza assoluta implica l indipendenza in media, non è vero l inverso; l indipendenza in media di Y da X può essere calcolata solo se Y è quantitativa, qualsiasi sia la natura di X. Stefania Spina Esercitazioni di statistica 22/33

Decomposizione della devianza Indipendenza in media e η 2 Un elemento molto importante nello studio delle relazioni statistiche è la decomposizione della devianza: dove Dev(Y) è la devianza totale; Dev(Y ) = Dev(W ) + Dev(B) Dev(W) è la devianza dentro i gruppi; Dev(B) è la devianza tra i gruppi. Stefania Spina Esercitazioni di statistica 23/33

Decomposizione della devianza Indipendenza in media e η 2 Dev(W ) = k [Dev(Y X = x i )] = i=1 k [ h ] (y j y i ) 2 n ij i=1 j=1 Dev(B) = k (y i y) 2 n i. i=1 Stefania Spina Esercitazioni di statistica 24/33

L indice η 2 Indipendenza in media e η 2 L indice più utilizzato per misurare la dipendenza in media tra due variabili è l indice η 2 ηy 2 x = Dev(B) k Dev(Y ) = i=1 (y i y) 2 n i. h j=1 (y i y) 2 n.j Stefania Spina Esercitazioni di statistica 25/33

Esercizio Indipendenza in media e η 2 Si dica, motivando la risposta, se ha senso parlare di dipendenza in media di V e di F e di F da V Non frequentante Frequentante saltuariamente Frequentante sempre 18-21 3 16 18 22-24 8 7 10 25-27 3 5 12 28-30 1 2 15 Si può parlare di dipendenza in media di V da F ma non viceversa, perchè F è un carattere di tipo qualitativo. Stefania Spina Esercitazioni di statistica 26/33

Esercizio Indipendenza in media e η 2 Si determini, dove ha senso, una misura dell eventuale dipendenza in media Tabella frequenze osservate Non frequentante Frequentante saltuariamente Frequentante sempre Totale 18-21 3 16 18 37 22-24 8 7 10 25 25-27 3 5 12 20 28-30 1 2 15 18 Totale 15 30 55 100 Tabella dei valori centrali Nf V c Nf F.salt V c F.salt F.smp V c F.smp 19.5 3 58.5 16 312 18 351 23 8 184 7 161 10 230 26 3 78 5 130 12 312 29 1 29 2 58 15 435 Totale 15 349.5 30 661 55 1328 Stefania Spina Esercitazioni di statistica 27/33

Esercizio Indipendenza in media e η 2 Si determini, dove ha senso, una misura dell eventuale dipendenza in media Nf V c Nf F.salt V c F.salt F.smp V c F.smp 19.5 3 58.5 16 312 18 351 23 8 184 7 161 10 230 26 3 78 5 130 12 312 29 1 29 2 58 15 435 Totale 15 349.5 30 661 55 1328 M(V F = NF ) = 349.5 15 = 23.3 M(V F = F.salt) = 661 30 = 22.033 M(V F = F.semp) = 1328 55 = 24.145 M(V ) = 23.3 15 30 55 + 22.033 + 24.145 100 100 100 = 23.38 C è dipendenza in media di V da F Stefania Spina Esercitazioni di statistica 28/33

Esercizio Indipendenza in media e η 2 Si determini, dove ha senso, una misura dell eventuale dipendenza in media Non frequentante Frequentante saltuariamente Frequentante sempre Totale 18-21 3 16 18 37 22-24 8 7 10 25 25-27 3 5 12 20 28-30 1 2 15 18 Totale 15 30 55 100 η 2 Y x = Dev(B) k Dev(Y ) = i=1 (y i y) 2 n i. h j=1 (y i y) 2 n.j Dev(B) = (23.3 23.38) 2 15 + (22.03 23.38) 2 30 + (24.1 23.38) 2 55 = 86.72 Dev(Y ) = (19.5 23.4) 2 37 + (23 23.4) 2 25 + (26 23.4) 2 20 + (29 23.4) 2 = 1266.4 η 2 = Dev(B) Dev(Y ) = 86.72 1266.4 = 0.068 Stefania Spina Esercitazioni di statistica 29/33

Esercizio Indipendenza in media e η 2 Si riportano, nella seguente tabella, le caratteristiche del peso (in kg) di 5000 bambini di un anno di età, divisi tra maschi e femmine. Maschi (N = 2764) Femmine (N= 2236) Minimo 8.29 7.75 Massimo 12.40 11.85 Media 9.75 9.4 Mediana 9.82 9.35 Varianza 0.47 0.41 Si determini quanta parte di variabilità del peso può essere attribuita al genere. Stefania Spina Esercitazioni di statistica 30/33

Esercizio Indipendenza in media e η 2 Peso medio Varianza del peso Numero bambini Maschi 9.75 0.47 2764 Femmine 9.4 0.41 2236 Totale 5000 ηy 2 x = Dev(B) k Dev(Y ) = i=1 (y i y) 2 n i. h j=1 (y i y) 2 n.j M(Y X = M) = 9.75 n M = 2764 M(Y X = F ) = 9.4 n F = 2336 M(Y ) = M(Y X = M) n M N + M(Y X = F ) n F N M(Y ) = 9.75 2764 2236 + 9.4 5000 5000 = 9.59 Dev(B) = (9.75 9.59) 2 2764 + (9.4 9.59) 2 2236 = 151.42 Stefania Spina Esercitazioni di statistica 31/33

Esercizio Indipendenza in media e η 2 Peso medio Varianza del peso Numero bambini Maschi 9.75 0.47 2764 Femmine 9.4 0.41 2236 Totale 5000 Dev(Y ) = Dev(B) + Dev(W ) Dev(W ) = σ 2 M n M + σ 2 F n F = 0.47 2764 + 0.41 2236 = 2215 Dev(Y ) = 151.42 + 2215 = 2367.26 Stefania Spina Esercitazioni di statistica 32/33

Esercizio Indipendenza in media e η 2 Peso medio Varianza del peso Numero bambini Maschi 9.75 0.47 2764 Femmine 9.4 0.41 2236 Totale 5000 ηy 2 x = Dev(B) k Dev(Y ) = i=1 (y i y) 2 n i. h j=1 (y = 151.42 i y) 2 n.j 2367.26 = 0.064 Il 6.4% della variabilità del peso può essere attribuita al genere. Stefania Spina Esercitazioni di statistica 33/33