Statistica. Esercitazione 4 15 maggio 2012 Connessione. Medie condizionate. Covarianza e correlazione

Corso di Laurea in Scienze dell Organizzazione Facoltà di Sociologia, Università degli Studi di Milano-Bicocca a.a. 2011/2012 Statistica Esercitazione 4 15 maggio 2012 Connessione. Medie condizionate. Covarianza e correlazione Esercizio 1 - Connessione (Titanic) La seguente tabella a doppia entrata riassume i dati relativi al disastro del Titanic (15 aprile 1912): i passeggeri sono suddivisi in base al loro status ( sopravvissuto o morto) ed alla loro classe di imbarco ( prima, seconda, terza, equipaggio). Classe morti sopravvissuti prima 122 203 seconda 167 118 terza 528 178 equipaggio 673 212 Tabella 1: Dati relativi al disastro del Titanic: classe vs status. Discutere la connessione tra status e classe d imbarco con un opportuno indice statistico. (Per i dati completi, si veda la tabella 6)

Completiamo la tabella di contingenza osservata con le frequenze marginali di riga e di colonna (tabella 2). Si possono poi costruire le frequenze condizionate Classe, Status morti sopravvissuti f i prima 122 203 325 seconda 167 118 285 terza 528 178 706 equipaggio 673 212 885 f j 1490 711 2201 Tabella 2: Tabella a doppia entrata: frequenze congiunte e marginali dello status data la classe d imbarco (tabella 3). Queste evidenziano come non Classe, Status morti sopravvissuti prima 0.375 0.625 seconda 0.586 0.414 terza 0.748 0.252 equipaggio 0.760 0.240 f j /N 0.677 0.323 Tabella 3: d imbarco Distribuzioni di frequenza condizionate dello status data la classe ci sia indipendenza tra le due variabili. La loro connessione può essere misurata attraverso l indice Chi Quadro, calcolato come ( 4 ) 2 f χ 2 ij 2 = N 1 f i f j e quindi ( 122 χ 2 2 = 2201 325 1490 + 2032 325 711 + 1672 285 1490 + 1182 285 711 ) 528 2 + 706 1490 + 1782 706 711 + 6732 885 1490 + 2122 885 711 1 = 2201 0.0865 = 190.4 L indice Chi Quadro normalizzato è pari a χ 2 = χ 2 N min(h 1, k 1) = χ 2 N min(4 1, 2 1) = χ2 N = 0.0865 2

quindi la connessione tra le due variabili è piuttosto bassa (pari a circa il 9% della massima connessione ottenibile). A partire dalla tabella 6, si possono costruire altre due tabelle a doppia entrata, la 4 e la 5. Età, Status Morti Sopravvissuti Totale Bambini 52 57 109 Adulti 1438 654 2092 1490 711 2201 Tabella 4: Tabella a doppia entrata età/status Sesso, Status Morti Sopravvissuti Totale Uomini 1364 367 1731 Donne 126 344 470 1490 711 2201 Tabella 5: Tabella a doppia entrata sesso/status Si può verificare che l indice di connessione normalizzato tra status e età (adulti/bambini) è pari a 0.0095, mentre calcolato tra status e sesso (uomini/donne) è pari a 0.2076. In conclusione, la variabile status risulta più connessa alla variabile sesso. Esercizio 2 - Medie condizionate. Proprietà associativa della media aritmetica. La seguente tabella di contingenza riporta i risultati della rilevazione congiunta dei fenomeni X=Attività fisica e Y =livello di colesterolo (mg/dl) per una popolazione di 220 studenti: X, Y 160 200 200 220 220 260 scarsa o nulla 10 40 50 moderata o elevata 60 40 20 Verificare se c è indipendenza tra X e Y Calcolare le medie condizionate di Y dato X = x i e verificare se c è indipendenza in media di Y da X. Calcolare la media marginale di Y sfruttando la proprietà associativa. 3

Morti Sopravvissuti Classe Sesso Età 1a Uomini Bambini 0 5 Adulti 118 57 Donne Bambini 0 1 Adulti 4 140 2a Uomini Bambini 0 11 Adulti 154 14 Donne Bambini 0 13 Adulti 13 80 3a Uomini Bambini 35 13 Adulti 387 75 Donne Bambini 17 14 Adulti 89 76 Equipaggio Uomini Bambini 0 0 Adulti 670 192 Donne Bambini 0 0 Adulti 3 20 Totale 1490 711 Tabella 6: I dati completi del disastro del Titanic 4

X, Y 160 200 200 220 220 260 f i scarsa o nulla 10 40 50 100 moderata o elevata 60 40 20 120 f j 70 80 70 n = 220 Per verificare se c è o meno indipendenza tra i due fenomeni, calcoliamo le distribuzioni di frequenze condizionate, per esempio di Y dato X = x i : X, Y 160 200 200 220 220 260 scarsa o nulla 0.1 0.4 0.5 moderata o elevata 0.5 0.333 0.167 Essendo 0.1 0.5, 0.4 0.333 e 0.5 0.167, si conclude che X e Y non sono indipendenti. La media condizionata ȳ x 1 si calcola, considerando i valori centrali delle classi di Y, come ȳ x 1 = 0.1 180 + 0.4 210 + 0.5 240 = 222 mentre l altra media condizionata ȳ x 2 = 0.5 180 + 0.333 210 + 0.167 240 = 200 Com era lecito aspettarsi, il livello medio di colesterolo è più alto tra quelli che praticano poca attività sportiva ripetto a quelli che la praticano in maniera moderata o elevata. Essendo le due medie condizionate diverse tra loro, si conclude che Y non è indipendente in media da X. La media marginale di Y vale: ȳ = 1 (70 180 + 80 210 + 70 240) = 210 220 ma si può calcolare sfruttando la proprietà associativa della media aritmetica: ȳ = 1 (120 200 + 100 222) = 210 220 Esercizio 3 - Diagramma di dispersione e covarianza Per la seguente serie doppia x 10 12 15 20 23 y 30 32 28 20 15 5

calcolare la covarianza σ xy e tracciare il diagramma di dispersione (x, y). Calcolare il coefficiente di correlazione lineare e commentare il risultato. Risulta x = 16, ȳ = 25. Si può calcolare la covarianza tra X e Y usando direttamente la definizione: σ xy = 1 n n (x i x)(y i ȳ) = 1 [(10 16)(30 25) + (12 16)(32 25) + (15 16)(28 25)+ 5 (20 16)(20 25) + (23 16)(15 25)] = 1 5 ( 30 28 3 20 70) = 151 5 = 30.2 oppure utilizzando la formula alternativa, calcolando µ xy = 1 n n x i y i = 1 (10 30 + 12 32 + 15 28 + 20 20 + 23 15) = 1849/5 5 e quindi σ xy = µ xy xȳ = 1849/5 16 25 = 30.2 Il segno negativo di σ xy indica che al crescere di X mediamente Y decresce. Si veda anche il diagramma di dispersione di figura 1, dove è riportato anche il baricentro dei dati ( x, ȳ). Risulta poi σ 2 x = 23.6 e σ 2 y = 41.6, quindi ρ xy = σ xy σ x σ y = 30.2 23.6 41.6 = 0.964 che indica una relazione lineare (negativa) molto forte. Esercizio 4 - Covarianza e correlazione In un quartiere cittadino si sono rilevati in 100 appartamenti il numero di televisori (Y ) ed il numero di persone (X) che vi abitano. Si sono ottenuti i risultati riassunti nella tabella a doppia entrata seguente: X,Y 1 2 1 25 0 2 24 12 3 12 18 4 3 6 6

y 15 20 25 28 30 32 (x,y) 10 12 15 20 23 x Figura 1: Diagramma di dispersione per la serie doppia dell esercizio 3. Calcolare: 1. le frequenze marginali di X e Y ; 2. le frequenze condizionate; 3. le frequenze teoriche sotto l ipotesi di indipendenza statistica; 4. l indice di connessione χ 2 ; 5. le medie marginali di X e Y ; 6. le medie condizionate di Y, verificando la proprietà di associatività; 7. momento misto, varianze, covarianza e indice di correlazione, commentando i risultati. 1. Nella seguente tabella sono riportati i valori delle frequenze marginali di riga e di colonna: 7

X,Y 1 2 f i 1 25 0 25 2 24 12 36 3 12 18 30 4 3 6 9 f j 64 36 100 2. Dalla tabella precedente si possono ottenere facilmente le frequenze condizionate di Y dato X: e di X dato Y : X,Y 1 2 1 1 0 1 2 0.67 0.33 1 3 0.4 0.6 1 4 0.33 0.67 1 X,Y 1 2 1 0.391 0 2 0.375 0.333 3 0.187 0.5 4 0.047 0.167 1 1 3. Calcoliamo ora le frequenze teoriche sotto l ipotesi di indipendenza tra le due variabili X e Y ; la formula da utilizzare è: f ij = f i f j N per ogni i = 1,..., k e quindi si ottiene la tabella teorica di i.s.: j = 1,..., h X,Y 1 2 fi 1 16 9 25 2 23.04 12.96 36 3 19.2 10.8 30 4 5.76 3.24 9 f j 64 36 100 8

4. È possibile a questo punto calcolare l indice di connessione, utilizzando la formula k f χ 2 ij 2 = N ( 1) f i f j che coi nostri dati dà χ 2 = 100 ( 252 64 25 + 242 64 36 + 122 36 36 + 122 64 30 + 182 36 30 + 32 64 9 + 62 1) = 100 (1.253 1) = 25.3 36 9 Ora, essendo il valore di χ 2 max pari a N min {h 1, k 1} = 100 min {1, 3} = 100 1 = 100, segue che il valore dell indice di connessione normalizzato è pari a: χ 2 100 (1.253 1) = = 0.253 100 e quindi si conclude che c è una connessione tra X e Y pari al 25.3% di quella massima ottenibile con le frequenze marginali osservate. 5. Calcoliamo ora le medie marginali di X e Y. Si ottiene: x = 1 N k x i f i = 1 (1 25 + 2 36 + 3 30 + 4 9) = 2.23 100 ȳ = 1 N y j f j = 1 (1 64 + 2 36) = 1.36 100 6. Per le medie condizionate: ȳ x 1 = 1 f 1 y j f 1j = 1 25 + 2 0 25 = 1 ȳ x 2 = 1 f 2 ȳ x 3 = 1 f 3 ȳ x 4 = 1 f 4 y j f 2j = y j f 3j = 1 24 + 2 12 36 1 12 + 2 18 30 y j f 4j = 1 3 + 2 6 9 9 = 1.333 = 1.6 = 1.667

Verifichiamo per Y la proprietà di associatività delle medie condizionate: 1 N k ȳ x i f i = 1 (1 25 + 1.333 36 + 1.6 30 + 1.667 9) = 1.36 = ȳ 100 7. Applicando le formule note dalla teoria, per il momento misto si ha: µ XY = 1 f ij x i y j = N = 1 100 i j ( 25 1 1 + 0 1 2 + 24 2 1 + 12 2 2+ 12 3 1 + 18 3 2 + 3 4 1 + 6 4 2 ) = 325 100 = 3.25 e, quindi, per la covarianza: σ XY = µ XY xȳ = 3.25 2.23 1.36 = 0.2172 In alternativa, si può calcolare la covarianza partendo direttamente dalla definizione, ovvero: σ XY = 1 f ij (x i x)(y j ȳ) = = 0.2172 N i j Le varianze di X e Y sono calcolabili con le formule: σ x = 1 k 1 f i x 2 i N x2 = 100 (25 12 + 36 2 2 + 30 3 2 + 9 4 2 ) 2.23 2 = 0.8571 = 0.9258 σ y = 1 N f j yj 2 ȳ2 = Adesso è possibile calcolare il valore di ρ XY : 1 100 (64 12 + 36 2 2 ) 1.36 2 = 0.2304 = 0.48 ρ xy = σ xy σ x σ y = 0.2172 0.9258 0.48 = 0.489 che ci indica una correlazione lineare positiva moderata tra X e Y. 10