Statistica. Esercitazione 4 15 maggio 2012 Connessione. Medie condizionate. Covarianza e correlazione

Documenti analoghi
Statistica. Esercitazione 4 17 febbraio 2011 Medie condizionate. Covarianza e correlazione

Analisi congiunta di più fenomeni

Statistica. Esercitazione 3 5 maggio 2010 Serie storiche. Connessione e indipendenza statistica

STATISTICA: esercizi svolti sulla DIPENDENZA IN MEDIA

Capitolo 12. Suggerimenti agli esercizi a cura di Elena Siletti. Esercizio 12.1: Suggerimento

STATISTICA esercizi svolti su: INTERPOLAZIONE PONDERATA, REGRESSIONE E CORRELAZIONE

Corso di Psicometria Progredito

Esercizio 1 Nella seguente tabella sono riportate le lunghezze in millimetri di 40 foglie di platano:

Esercitazione del

Statistica Esercitazione. alessandro polli facoltà di scienze politiche, sociologia, comunicazione

Statistica. Alfonso Iodice D Enza

Esercitazioni del corso: STATISTICA

Statistica. Alfonso Iodice D Enza

Capitolo uno STATISTICA DESCRITTIVA BIVARIATA

CORSO DI STATISTICA (parte 1) - ESERCITAZIONE 5

Esercizi su distribuzioni doppie, dipendenza, correlazione e regressione (Statistica I, IV Canale)

Statistica. Alfonso Iodice D Enza

Esercitazione di Statistica Indici di associazione

REGRESSIONE E CORRELAZIONE

PROBABILITÀ SCHEDA N. 5 SOMMA E DIFFERENZA DI DUE VARIABILI ALEATORIE DISCRETE

SCOPO DELL ANALISI DI CORRELAZIONE

DISTRIBUZIONI DOPPIE (ANALISI DESCRITTIVE) Fulvio De Santis a.a Prerequisiti Popolazione, unità, carattere Come nascono i dati:

Esercizi Svolti. 2. Costruire la distribuzione delle frequenze cumulate del tempo di attesa

Corso di Psicometria Progredito

Istituzioni di Statistica e Statistica Economica

STATISTICA (modulo I - Statistica Descrittiva) Soluzione Esercitazione I

UNIVERSITÀ di ROMA TOR VERGATA

3.1 Classificazione dei fenomeni statistici Questionari e scale di modalità Classificazione delle scale di modalità 17

Lezione 8. Statistica. Alfonso Iodice D Enza Università degli studi di Cassino. Lezione 8. A. Iodice. Relazioni tra variabili

Esercitazioni del corso: RELAZIONI TRA VARIABILI

Test per la correlazione lineare

La dipendenza. Antonello Maruotti

e) Calcolare la frazione di studenti che ottengono un punteggio esattamente uguale al punteggio minimo richiesto per superare il test di ammissione:

STATISTICA (2) ESERCITAZIONE Dott.ssa Antonella Costanzo

Statistica. Alfonso Iodice D Enza

Statistica di base per l analisi socio-economica

E la rappresentazione grafica, in questo caso, è la dispersione x,y, cioè una nuvola di punti nel piano cartesiano

FACOLTÀ DI SOCIOLOGIA CdL in SCIENZE DELL ORGANIZZAZIONE ESAME di STATISTICA 21/09/2011

STATISTICA DESCRITTIVA BIVARIATA

Esame di Statistica A-Di Prof. M. Romanazzi

Variabili casuali multidimensionali

Istituzioni di Statistica 1 Esercizi su tabelle di contingenza

ESERCIZI SVOLTI Giuliano Bonollo - Michele Bonollo

Statistica Analisi bidimensionale La dipendenza in media. alessandro polli facoltà di scienze politiche, sociologia, comunicazione

Statistica. Esercitazione 14. Alfonso Iodice D Enza Università degli studi di Cassino. Statistica. A. Iodice. Verifica di ipotesi

Esercitazioni di statistica

Università di Cassino. Esercitazione di Statistica 1 del 28 novembre Dott.ssa Paola Costantini

Esercitazioni di Statistica

Facoltà di Scienze Politiche Corso di laurea in Servizio sociale. Compito di Statistica del 7/1/2003

Esercitazione 8 maggio 2014

Esame di Istituzioni di Matematiche II del 11 luglio 2001 (Corso di Laurea in Biotecnologie, Universitá degli Studi di Padova). Cognome Nome Matricola

Statistica - metodologie per le scienze economiche e sociali S. Borra, A. Di Ciaccio - McGraw Hill

Indice. 1. Premessa Le relazioni tra coppie di caratteri L analisi della contingenza L analisi della correlazione...

Note sulla probabilità

Facoltà di Economia - Università di Pavia Simulazione Prova Scritta di Statistica Sociale 19 dicembre 2012

Ulteriori Conoscenze di Informatica e Statistica

STATISTICA: esercizi svolti sulla MEDIA ARITMETICA

DIPENDENZA E ASSOCIAZIONE DISTRIBUZIONE CONGIUNTA DI DUE VARIABILI. Ci limiteremo a considerare il caso di due variabili.

IL CRITERIO DELLA MASSIMA VEROSIMIGLIANZA

Statistica. Relazioni tra variabili. Francesco Pauli A.A. 2015/2016

Tema d esame del 15/02/12

Università degli Studi di Padova Facoltà di Scienze Politiche

Esercitazioni di Statistica

STATISTICA (I modulo - Statistica Descrittiva) Soluzione Esercitazione I

Statistica Esercitazione. alessandro polli facoltà di scienze politiche, sociologia, comunicazione

Algebra lineare con R

Esame di Statistica (10 o 12 CFU) CLEF 11 febbraio 2016

Esercitazione 4 del corso di Statistica (parte 2)

Esercitazione: La distribuzione NORMALE

1.4. Siano X B(1, 1/2) e Y B(1, 1/2) variabili aleatorie indipendenti. Quale delle seguenti affermazioni é falsa? E(X + Y ) = 1 V ar(x + Y ) = 1/2

Distribuzioni campionarie

Casa dello Studente. Casa dello Studente

Indice della lezione. Incertezza e rischio: sinonimi? Le Ipotesi della Capital Market Theory UNIVERSITA DEGLI STUDI DI PARMA FACOLTA DI ECONOMIA

Statistica - metodologie per le scienze economiche e sociali S. Borra, A. Di Ciaccio - McGraw Hill

Variabili indipendenti qualitative. In molte applicazioni si rende necessario l introduzione di un fattore a due o più livelli.

Indici di variabilità ed eterogeneità

Ringraziamenti dell Editore

Esercitazione 8 del corso di Statistica 2

Statistiche e relazioni

ESERCITAZIONE IV - Soluzioni

Esercitazione II Statistica e Calcolo delle Probabilità (con soluzioni)

ESERCIZI DI RIEPILOGO 1

UNIVERSITÀ DEGLI STUDI DI PERUGIA

Corso di Laurea in Ingegneria Informatica e Automatica (M-Z) Università di Roma La Sapienza

LAUREA SPECIALISTICA IN FARMACIA - Prova scritta di MATEMATICA - 24/01/03 ANNI PRECEDENTI. 1. (Punti 10) Si consideri la funzione

Correlazione. Daniela Valenti, Treccani Scuola 1

Prof. Anna Paola Ercolani (Università di Roma) Lez Indicatori di dispersione

N.B. Per la risoluzione dei seguenti esercizi, si fa riferimento alle Tabelle riportate alla fine del documento.

STATISTICA DESCRITTIVA (canale B)

STATISTICHE DESCRITTIVE Parte II

Statistica. Lezione 8

Corso integrato di informatica, statistica e analisi dei dati sperimentali Esercitazione 4

Statistica - metodologie per le scienze economiche e sociali /2e S. Borra, A. Di Ciaccio - McGraw Hill

Statistica. Matematica con Elementi di Statistica a.a. 2015/16

DESCRITTIVE, TEST T PER IL CONFRONTO DELLE MEDIE DI CAMPIONI INDIPENDENTI.

1) Calcolare l indice di eterogeneità di Gini per i caratteri Qualifica Funzionale e Regime di Impiego.

Esercitazioni. Es 1. Dato il seguente dataset

Generazione di Numeri Casuali- Parte 2

Il confronto fra medie

Statistica Un Esempio

Transcript:

Corso di Laurea in Scienze dell Organizzazione Facoltà di Sociologia, Università degli Studi di Milano-Bicocca a.a. 2011/2012 Statistica Esercitazione 4 15 maggio 2012 Connessione. Medie condizionate. Covarianza e correlazione Esercizio 1 - Connessione (Titanic) La seguente tabella a doppia entrata riassume i dati relativi al disastro del Titanic (15 aprile 1912): i passeggeri sono suddivisi in base al loro status ( sopravvissuto o morto) ed alla loro classe di imbarco ( prima, seconda, terza, equipaggio). Classe morti sopravvissuti prima 122 203 seconda 167 118 terza 528 178 equipaggio 673 212 Tabella 1: Dati relativi al disastro del Titanic: classe vs status. Discutere la connessione tra status e classe d imbarco con un opportuno indice statistico. (Per i dati completi, si veda la tabella 6)

Completiamo la tabella di contingenza osservata con le frequenze marginali di riga e di colonna (tabella 2). Si possono poi costruire le frequenze condizionate Classe, Status morti sopravvissuti f i prima 122 203 325 seconda 167 118 285 terza 528 178 706 equipaggio 673 212 885 f j 1490 711 2201 Tabella 2: Tabella a doppia entrata: frequenze congiunte e marginali dello status data la classe d imbarco (tabella 3). Queste evidenziano come non Classe, Status morti sopravvissuti prima 0.375 0.625 seconda 0.586 0.414 terza 0.748 0.252 equipaggio 0.760 0.240 f j /N 0.677 0.323 Tabella 3: d imbarco Distribuzioni di frequenza condizionate dello status data la classe ci sia indipendenza tra le due variabili. La loro connessione può essere misurata attraverso l indice Chi Quadro, calcolato come ( 4 ) 2 f χ 2 ij 2 = N 1 f i f j e quindi ( 122 χ 2 2 = 2201 325 1490 + 2032 325 711 + 1672 285 1490 + 1182 285 711 ) 528 2 + 706 1490 + 1782 706 711 + 6732 885 1490 + 2122 885 711 1 = 2201 0.0865 = 190.4 L indice Chi Quadro normalizzato è pari a χ 2 = χ 2 N min(h 1, k 1) = χ 2 N min(4 1, 2 1) = χ2 N = 0.0865 2

quindi la connessione tra le due variabili è piuttosto bassa (pari a circa il 9% della massima connessione ottenibile). A partire dalla tabella 6, si possono costruire altre due tabelle a doppia entrata, la 4 e la 5. Età, Status Morti Sopravvissuti Totale Bambini 52 57 109 Adulti 1438 654 2092 1490 711 2201 Tabella 4: Tabella a doppia entrata età/status Sesso, Status Morti Sopravvissuti Totale Uomini 1364 367 1731 Donne 126 344 470 1490 711 2201 Tabella 5: Tabella a doppia entrata sesso/status Si può verificare che l indice di connessione normalizzato tra status e età (adulti/bambini) è pari a 0.0095, mentre calcolato tra status e sesso (uomini/donne) è pari a 0.2076. In conclusione, la variabile status risulta più connessa alla variabile sesso. Esercizio 2 - Medie condizionate. Proprietà associativa della media aritmetica. La seguente tabella di contingenza riporta i risultati della rilevazione congiunta dei fenomeni X=Attività fisica e Y =livello di colesterolo (mg/dl) per una popolazione di 220 studenti: X, Y 160 200 200 220 220 260 scarsa o nulla 10 40 50 moderata o elevata 60 40 20 Verificare se c è indipendenza tra X e Y Calcolare le medie condizionate di Y dato X = x i e verificare se c è indipendenza in media di Y da X. Calcolare la media marginale di Y sfruttando la proprietà associativa. 3

Morti Sopravvissuti Classe Sesso Età 1a Uomini Bambini 0 5 Adulti 118 57 Donne Bambini 0 1 Adulti 4 140 2a Uomini Bambini 0 11 Adulti 154 14 Donne Bambini 0 13 Adulti 13 80 3a Uomini Bambini 35 13 Adulti 387 75 Donne Bambini 17 14 Adulti 89 76 Equipaggio Uomini Bambini 0 0 Adulti 670 192 Donne Bambini 0 0 Adulti 3 20 Totale 1490 711 Tabella 6: I dati completi del disastro del Titanic 4

X, Y 160 200 200 220 220 260 f i scarsa o nulla 10 40 50 100 moderata o elevata 60 40 20 120 f j 70 80 70 n = 220 Per verificare se c è o meno indipendenza tra i due fenomeni, calcoliamo le distribuzioni di frequenze condizionate, per esempio di Y dato X = x i : X, Y 160 200 200 220 220 260 scarsa o nulla 0.1 0.4 0.5 moderata o elevata 0.5 0.333 0.167 Essendo 0.1 0.5, 0.4 0.333 e 0.5 0.167, si conclude che X e Y non sono indipendenti. La media condizionata ȳ x 1 si calcola, considerando i valori centrali delle classi di Y, come ȳ x 1 = 0.1 180 + 0.4 210 + 0.5 240 = 222 mentre l altra media condizionata ȳ x 2 = 0.5 180 + 0.333 210 + 0.167 240 = 200 Com era lecito aspettarsi, il livello medio di colesterolo è più alto tra quelli che praticano poca attività sportiva ripetto a quelli che la praticano in maniera moderata o elevata. Essendo le due medie condizionate diverse tra loro, si conclude che Y non è indipendente in media da X. La media marginale di Y vale: ȳ = 1 (70 180 + 80 210 + 70 240) = 210 220 ma si può calcolare sfruttando la proprietà associativa della media aritmetica: ȳ = 1 (120 200 + 100 222) = 210 220 Esercizio 3 - Diagramma di dispersione e covarianza Per la seguente serie doppia x 10 12 15 20 23 y 30 32 28 20 15 5

calcolare la covarianza σ xy e tracciare il diagramma di dispersione (x, y). Calcolare il coefficiente di correlazione lineare e commentare il risultato. Risulta x = 16, ȳ = 25. Si può calcolare la covarianza tra X e Y usando direttamente la definizione: σ xy = 1 n n (x i x)(y i ȳ) = 1 [(10 16)(30 25) + (12 16)(32 25) + (15 16)(28 25)+ 5 (20 16)(20 25) + (23 16)(15 25)] = 1 5 ( 30 28 3 20 70) = 151 5 = 30.2 oppure utilizzando la formula alternativa, calcolando µ xy = 1 n n x i y i = 1 (10 30 + 12 32 + 15 28 + 20 20 + 23 15) = 1849/5 5 e quindi σ xy = µ xy xȳ = 1849/5 16 25 = 30.2 Il segno negativo di σ xy indica che al crescere di X mediamente Y decresce. Si veda anche il diagramma di dispersione di figura 1, dove è riportato anche il baricentro dei dati ( x, ȳ). Risulta poi σ 2 x = 23.6 e σ 2 y = 41.6, quindi ρ xy = σ xy σ x σ y = 30.2 23.6 41.6 = 0.964 che indica una relazione lineare (negativa) molto forte. Esercizio 4 - Covarianza e correlazione In un quartiere cittadino si sono rilevati in 100 appartamenti il numero di televisori (Y ) ed il numero di persone (X) che vi abitano. Si sono ottenuti i risultati riassunti nella tabella a doppia entrata seguente: X,Y 1 2 1 25 0 2 24 12 3 12 18 4 3 6 6

y 15 20 25 28 30 32 (x,y) 10 12 15 20 23 x Figura 1: Diagramma di dispersione per la serie doppia dell esercizio 3. Calcolare: 1. le frequenze marginali di X e Y ; 2. le frequenze condizionate; 3. le frequenze teoriche sotto l ipotesi di indipendenza statistica; 4. l indice di connessione χ 2 ; 5. le medie marginali di X e Y ; 6. le medie condizionate di Y, verificando la proprietà di associatività; 7. momento misto, varianze, covarianza e indice di correlazione, commentando i risultati. 1. Nella seguente tabella sono riportati i valori delle frequenze marginali di riga e di colonna: 7

X,Y 1 2 f i 1 25 0 25 2 24 12 36 3 12 18 30 4 3 6 9 f j 64 36 100 2. Dalla tabella precedente si possono ottenere facilmente le frequenze condizionate di Y dato X: e di X dato Y : X,Y 1 2 1 1 0 1 2 0.67 0.33 1 3 0.4 0.6 1 4 0.33 0.67 1 X,Y 1 2 1 0.391 0 2 0.375 0.333 3 0.187 0.5 4 0.047 0.167 1 1 3. Calcoliamo ora le frequenze teoriche sotto l ipotesi di indipendenza tra le due variabili X e Y ; la formula da utilizzare è: f ij = f i f j N per ogni i = 1,..., k e quindi si ottiene la tabella teorica di i.s.: j = 1,..., h X,Y 1 2 fi 1 16 9 25 2 23.04 12.96 36 3 19.2 10.8 30 4 5.76 3.24 9 f j 64 36 100 8

4. È possibile a questo punto calcolare l indice di connessione, utilizzando la formula k f χ 2 ij 2 = N ( 1) f i f j che coi nostri dati dà χ 2 = 100 ( 252 64 25 + 242 64 36 + 122 36 36 + 122 64 30 + 182 36 30 + 32 64 9 + 62 1) = 100 (1.253 1) = 25.3 36 9 Ora, essendo il valore di χ 2 max pari a N min {h 1, k 1} = 100 min {1, 3} = 100 1 = 100, segue che il valore dell indice di connessione normalizzato è pari a: χ 2 100 (1.253 1) = = 0.253 100 e quindi si conclude che c è una connessione tra X e Y pari al 25.3% di quella massima ottenibile con le frequenze marginali osservate. 5. Calcoliamo ora le medie marginali di X e Y. Si ottiene: x = 1 N k x i f i = 1 (1 25 + 2 36 + 3 30 + 4 9) = 2.23 100 ȳ = 1 N y j f j = 1 (1 64 + 2 36) = 1.36 100 6. Per le medie condizionate: ȳ x 1 = 1 f 1 y j f 1j = 1 25 + 2 0 25 = 1 ȳ x 2 = 1 f 2 ȳ x 3 = 1 f 3 ȳ x 4 = 1 f 4 y j f 2j = y j f 3j = 1 24 + 2 12 36 1 12 + 2 18 30 y j f 4j = 1 3 + 2 6 9 9 = 1.333 = 1.6 = 1.667

Verifichiamo per Y la proprietà di associatività delle medie condizionate: 1 N k ȳ x i f i = 1 (1 25 + 1.333 36 + 1.6 30 + 1.667 9) = 1.36 = ȳ 100 7. Applicando le formule note dalla teoria, per il momento misto si ha: µ XY = 1 f ij x i y j = N = 1 100 i j ( 25 1 1 + 0 1 2 + 24 2 1 + 12 2 2+ 12 3 1 + 18 3 2 + 3 4 1 + 6 4 2 ) = 325 100 = 3.25 e, quindi, per la covarianza: σ XY = µ XY xȳ = 3.25 2.23 1.36 = 0.2172 In alternativa, si può calcolare la covarianza partendo direttamente dalla definizione, ovvero: σ XY = 1 f ij (x i x)(y j ȳ) = = 0.2172 N i j Le varianze di X e Y sono calcolabili con le formule: σ x = 1 k 1 f i x 2 i N x2 = 100 (25 12 + 36 2 2 + 30 3 2 + 9 4 2 ) 2.23 2 = 0.8571 = 0.9258 σ y = 1 N f j yj 2 ȳ2 = Adesso è possibile calcolare il valore di ρ XY : 1 100 (64 12 + 36 2 2 ) 1.36 2 = 0.2304 = 0.48 ρ xy = σ xy σ x σ y = 0.2172 0.9258 0.48 = 0.489 che ci indica una correlazione lineare positiva moderata tra X e Y. 10