Dipartimento di Sociologia e Ricerca Sociale. Corso di Laurea in Sociologia. Insegnamento di Statistica (a.a ) dott.ssa Gaia Bertarelli

Documenti analoghi
Statistica. Esercitazione 4 17 febbraio 2011 Medie condizionate. Covarianza e correlazione

Corso di Laurea in Scienze dell Organizzazione Facoltà di Sociologia, Università degli Studi di Milano-Bicocca a.a. 2009/2010.

Statistica. Esercitazione 3 9 maggio 2012 Coefficiente di variazione. Serie storiche. Connessione e indipendenza statistica

Analisi bivariata. Dott. Cazzaniga Paolo. Dip. di Scienze Umane e Sociali

Dipartimento di Sociologia e Ricerca Sociale. Corso di Laurea in Sociologia. Insegnamento di Statistica (a.a ) dott.ssa Gaia Bertarelli

Statistica. Esercitazione 4 15 maggio 2012 Connessione. Medie condizionate. Covarianza e correlazione

Stesso valore medio per distribuzioni diverse

STATISTICA (I modulo - Statistica Descrittiva) Esercitazione I 24/02/2006

STATISTICA (I MODULO - STATISTICA DESCRITTIVA) Esercitazione I 23/02/2007

Capitolo 12. Suggerimenti agli esercizi a cura di Elena Siletti. Esercizio 12.1: Suggerimento

STATISTICA. Esonero 8 novembre 2014 Soluzione. Quesito 1.

Dipartimento di Sociologia e Ricerca Sociale. Corso di Laurea in Sociologia. Insegnamento di Statistica (a.a ) dott.ssa Gaia Bertarelli

STATISTICA. Esonero 8 novembre 2014 Soluzione. Quesito 1.

Dispense Associazione PRELIMINARY DRAFT

CORSO DI STATISTICA (parte 1) - ESERCITAZIONE 6

Analisi dell associazione tra due caratteri

Metodi statistici per le ricerche di mercato

Regressione & Correlazione

Istituzioni di Statistica e Statistica Economica

ESERCITAZIONI N. 2 corso di statistica

Statistica. Alfonso Iodice D Enza

Corso di Statistica. Distribuzioni doppie Relazioni tra due variabili. Prof.ssa T. Laureti a.a

La Dipendenza. Monia Ranalli. Ranalli M. Dipendenza Settimana # 3 1 / 19

Fondamenti e metodi analisi empirica nelle scienze sociali

STATISTICA 1 ESERCITAZIONE 6

Metodi Quantitativi per Economia, Finanza e Management. Lezione n 4 Analisi Bivariata I Parte

X \Y Liceo Classico Liceo Scientifico Altro le distribuzioni di frequenza marginali relative, f i. e f.

STATISTICA (I modulo - Statistica Descrittiva) Soluzione Esercitazione I ( )

Statistica 1 A.A. 2015/2016

Statistica. Alfonso Iodice D Enza

Corso in Statistica Medica

Statistica. Alfonso Iodice D Enza

Università degli Studi di Padova Facoltà di Scienze Statistiche, CL. in Astronomia

x, y rappresenta la coppia di valori relativa La rappresentazione nel piano cartesiano dei punti ( x, y ),( x, y ),...,( x, y )

STATISTICA (modulo I - Statistica Descrittiva) Soluzione Esercitazione I

Compiti tematici dai capitoli 2,3,4

STATISTICA esercizi svolti su: INTERPOLAZIONE PONDERATA, REGRESSIONE E CORRELAZIONE

Analisi bivariata. Il caso di caratteri qualitativi

La statistica descrittiva seconda parte. a cura della prof.ssa Anna Rita Valente

Statistica. Alfonso Iodice D Enza

Metodi statistici per le ricerche di mercato Soluzione degli Esercizi 1-8

Esercitazione III Soluzione

Analisi bivariata Il caso di caratteri qualitativi

Casa dello Studente. Casa dello Studente

Esame di Statistica (10 o 12 CFU) CLEF 11 febbraio 2016

STATISTICA (I modulo - Statistica descrittiva) Esercitazione I ( )

Esercizi su distribuzioni doppie, dipendenza, correlazione e regressione (Statistica I, IV Canale)

La dipendenza. Antonello Maruotti

Fonti e strumenti statistici per la comunicazione

Matematica Lezione 22

Distribuzioni Doppie e Relazioni tra Variabili Esercitazione n 03

Introduzione alla statistica con Excel

STATISTICA: esercizi svolti sulla DIPENDENZA IN MEDIA

Statistiche e relazioni

Prova d esame di Statistica - II canale - nuovo ordinamento Dott.ssa C. Conigliani 19/06/2003

REGRESSIONE E CORRELAZIONE

Statistica Descrittiva Soluzioni 6. Indici di variabilità, asimmetria e curtosi

Statistica. Variabili doppie. Domenico De Stefano. a.a. 2017/2018. Domenico De Stefano Descrittiva a.a. 2017/ / 62

CORSO DI STATISTICA (parte 2) - ESERCITAZIONE 3

Variabilità e Concentrazione Esercitazione n 02

Distribuzioni secondo due caratteri. Rappresentazioni e prime sintesi

STATISTICA. Esercitazione 5

Dispensa di Statistica

3. rappresentare mediante i grafici ritenuti più idonei le distribuzioni di frequenze assolute dei diversi caratteri;

Esercitazione di Statistica Indici di associazione

Facoltà di Scienze Politiche Corso di laurea in Servizio sociale. Compito di Statistica del 7/1/2003

DISTRIBUZIONI DOPPIE (ANALISI DESCRITTIVE) Fulvio De Santis a.a Prerequisiti Popolazione, unità, carattere Come nascono i dati:

Esercizi Svolti. 2. Costruire la distribuzione delle frequenze cumulate del tempo di attesa

Corso di Statistica. Variabilità ed eterogeneità. Prof.ssa T. Laureti a.a

Metodi Quantitativi per Economia, Finanza e Management. Lezione n 5 Analisi Bivariata I Parte

Prova Pratica di Statistica I+II - Prof. M. Romanazzi

CORSO DI STATISTICA (parte 1) - ESERCITAZIONE 3

Lezione 8. Statistica. Alfonso Iodice D Enza Università degli studi di Cassino. Lezione 8. A. Iodice. Relazioni tra variabili

Statistica Descrittiva Soluzioni 8. Dipendenza

1/4 Capitolo 4 Statistica - Metodologie per le scienze economiche e sociali 2/ed Copyright 2008 The McGraw-Hill Companies srl

Statistica Esercitazione. alessandro polli facoltà di scienze politiche, sociologia, comunicazione

Copyright Esselibri S.p.A.

CORSO DI STATISTICA (parte 1) - ESERCITAZIONE 5

Dipartimento di Sociologia e Ricerca Sociale. Corso di Laurea in Sociologia. Insegnamento di Statistica (a.a ) dott.ssa Gaia Bertarelli

Corso di formazione per Mathesis

Statistica Corso Base (Serale) Dott.ssa Cristina Mollica

Esercitazioni di statistica

PROBABILITÀ SCHEDA N. 5 SOMMA E DIFFERENZA DI DUE VARIABILI ALEATORIE DISCRETE

ESERCIZI DI RIEPILOGO 1

Statistica descrittiva in due variabili

Corso di Psicometria Progredito

3.1 Classificazione dei fenomeni statistici Questionari e scale di modalità Classificazione delle scale di modalità 17

Materiale didattico per il corso di Statistica I Seconda esercitazione SOLUZIONI

ESEMPI DI DOMANDE PER LA PROVA SCRITTA DI STATISTICA SOCIALE

Statistica Descrittiva Esercitazione 3. Indici di variabilità

Facoltá di Economia: correzione prova scritta di STATISTICA 1, Mod. 1.

Statistica bivariata Relazione tra variabili

Dipartimento di Matematica, Informatica ed Economia (DiMIE) Statistica. Antonio Azzollini

Statistica - metodologie per le scienze economiche e sociali S. Borra, A. Di Ciaccio - McGraw Hill

La variabilità. Monia Ranalli. Ranalli M. Variabilità Settimana # 2 1 / 14

Istituzioni di Statistica

Analisi della varianza a una via

Corso di Laurea in Economia Aziendale. Docente: Marta Nai Ruscone. Statistica. a.a. 2015/2016

Statistica Esercitazione. alessandro polli facoltà di scienze politiche, sociologia, comunicazione

Transcript:

Dipartimento di Sociologia e Ricerca Sociale Corso di Laurea in Sociologia Insegnamento di Statistica (a.a. 2018-2019) dott.ssa Gaia Bertarelli Esercitazione n. 4 1. La seguente tabella riporta la distribuzione delle forze di lavoro per condizione professionale e ripartizione geografica di residenza per l anno 2007 (Fonte: ISTAT, Annuario Statistico Italiano 2008): Zona Occupati In cerca di Residenza Agricoltura Industria Terziario occupazione Nord-Ovest 157 2361 4356 270 Nord-Est 189 1812 3047 162 Centro 122 1271 3392 267 Mezzogiorno 456 1560 4500 808 (a) Si ottengano le distribuzioni marginali. (b) Si ottengano le distribuzioni condizionate percentuali rispetto all area geografica di residenza. (c) Dal confronto delle distribuzioni condizionate si indichi se esiste o meno dipendenza tra la zona geografica di residenza e la condizione lavorativa. (d) Si calcoli un opportuno indice di dipendenza e si commenti il risultato ottenuto. SOLUZIONE (a) Le distribuzioni marginali dei caratteri zona di residenza e condizione professionale si ottengono dai totali riga e colonna della tabella (facendo quindi in un caso la somma di tutti i valori su ogni riga e nell altro la somma di tutti i valori sulla colonna): Zona geografica f i. Condizione professionale f.j Nord-Ovest 7144 Agricoltura 924 Nord-Est 5210 Industria 7004 Centro 5052 Terziario 15295 Mezzogiorno 7324 In cerca di occupazione 1507 Totale 24730 Totale 24730 (b) Le distribuzioni condizionate percentuali rispetto all area geografica di residenza sono le seguenti: Il totale di riga, quindi il totale della modalit rispetto alla quale si condiziona, deve essere 100. Quindi per il nord ovest ad esempio si ha 157 7144 = 2, 20 per Agricoltura al nord-ovest, 2361 7144 = 33, 05 per Industria al Nord-Ovest, e similmente fino a riempire la tabella. 1

Agricoltura Industria Terziario In cerca di occupazione Totale Nord-Ovest 2,20 33,05 60,97 3,78 100,00 Nord-Est 3,63 34,78 58,48 3,11 100,00 Centro 2,41 25,16 67,14 5,29 100,00 Mezzogiorno 6,23 21,30 61,44 11,03 100,00 (c) Le distribuzioni condizionate percentuali del punto precedente risultano lievemente differenti, in particolare quella del Mezzogiorno e del Centro rispetto alle zone Nord del paese. Qualora i due caratteri fossero stati indipendenti tali distribuzioni sarebbero risultate uguali. Per tale motivo ci aspettiamo la presenza di un certo grado di dipendenza. (d) La tabella di indipendenza in cui le frequenze teoriche (cioè nel caso di indipendenza) congiunte sono calcolate come f ij = f i.f.j /N è la seguente: Agricoltura Industria Terziario In cerca di occupazione Totale Nord-Ovest 266,925 2023,315 4418,418 435,342 7144 Nord-Est 194,664 1475,570 3222,279 317,488 5210 Centro 188,761 1430,821 3124,559 307,859 5052 Mezzogiorno 273,650 2074,294 4529,744 446,311 7324 Totale 924 7004 15295 1507 24730 L indice di connessione χ 2 può essere calcolato come segue: χ 2 = ij (f ij f ij )2 f ij = (157 266, 925)2 (2361 2023, 315)2 (808 446, 311)2 + +...+ = 939, 969 266, 925 2023, 315 446, 311 L indice di connessione ci dice solo che, essendo diverso da zero, i due caratteri sono connessi. Per avere informazioni sul grado di connessione dobbiamo andare a studiare l indice di connessione normalizzato che è definito come la radice quadrata del rapporto fra l indice χ 2 e il suo valore massimo, ossia N min[(s 1), (t 1)] dove s e t sono il numero delle modalità per il carattere sulle righe e sulle colonne. L indice di connessione normalizzato di Cramer è sempre compreso fra 0 e 1. Moltiplicato per 100 è interpretabile come percentuale di connessione. È dato da χ 2 N = χ 2 N min[(s 1), (t 1)] = 939, 969 939, 969 = = 0, 013 24730 min[(4 1, 4 1)] 24730 3 1.3% di connessione fra i caratteri distribuzione forze lavoro e zona di residenza. 2

2. Si voglia stabilire dalla seguente tabella (Hand et al., 1994) se tra il livello di colesterolo e i disturbi cardiaci esiste un legame associativo. Colesterolo Si Disturbi Cardiaci No Disturbi Cardiaci Totale < 219 20 553 573 220 259 31 439 470 > 259 41 245 286 Totale 92 1237 1329 SOLUZIONE La risposta a quesito si ricava dall osservazione delle distribuzioni condizionate del carattere disturbi cardiaci espresse in forma percentuale e riportate di seguito. Le distribuzioni condizionate percentuali sono state ottenute sostituendo alle frequenze assolute quelle percentuali, calcolate ponendo uguale a 100 il totale di riga. Quindi, per esempio, la percentuale 3.5 nella prima tabella data da 20 573 100. Si deve ricorrere alle percentuali perchè le distribuzioni condizionate iniziali non sono comparabili, avendo totali diversi. Colesterolo Si Disturbi Cardiaci No Disturbi Cardiaci Totale < 219 3.5 96.5 100 220 259 6.6 93.4 100 > 259 14.3 85.7 100 Come si osserva le tre distribuzioni condizionate differiscono sensibilmente: l incidenza dei disturbi cardiaci passa dal 3.5% per un livello di colesterolo normale al 6.6% per un livello di colesterolo lievemente superiore alla norma, al 14.3% per un livello elevato. La conclusione è che esiste un qualche grado di connessione fra i due caratteri. 3

3. La quantità di precipitazioni (in mm) e le temperature medie (in gradi C) registrate in 8 stazioni meteorologiche sono state le seguenti: Stazione meteor. 1 2 3 4 5 6 7 8 Precipitazioni (in mm) 29 35 87 32 112 14 26 120 Temperatura (in gradi C) 18 16 14 19 11 20 17 12 (a) Si rappresentino graficamente i dati tramite un diagramma di dispersione. (b) Si calcoli il coefficiente di correlazione e si commenti il risultato. SOLUZIONE In questo esercizio ci conviene lavorare con la matrice dei dati grezzi poichè ciascuna coppia di modalità dei due fenomeni osservati compare per una sola unità. Costruiamo quindi la tabella per i calcoli partendo dalla matrice dei dati grezzi: i y i x i x i x y i ȳ (x i x) 2 (y i ȳ) 2 (x i x)(y i ȳ) 1 29 18 2,13-27,88 4,52 777,02-59,23 2 35 16 0,13-21,88 0,02 478,52-2,73 3 87 14-1,88 30,13 3,52 907,52-56,48 4 32 19 3,13-24,88 9,77 618,77-77,73 5 112 11-4,88 55,13 23,77 3038,77-268,73 6 14 20 4,13-42,88 17,02 1838,27-176,86 7 26 17 1,13-30,88 1,27 953,27-34,73 8 120 12-3,88 63,13 15,02 3984,77-244,61 Totale 455 127 74,88 12596,88-921,13 Medie 56,88 15,88 4

(a) Diagramma di dispersione y 20 40 60 80 100 120 12 14 16 18 20 x (b) Il coefficiente di correlazione lineare fra due variabili X e Y misura la relazione statistica di tipo lineare fra le due variabili. È definito come la loro covarianza (σ XY ) divisa per il prodotto delle deviazioni standard (o scarto quadratico medio σ X e σ Y ) delle due variabili. Assume valori fra -1 e +1 e fornisce indicazioni sia sul verso sia sull intensità della correlazione fra le due variabili. Se ρ = 1 X e Y sono perfettamente e negativamente correlate Se ρ = +1 X e Y sono perfettamente e positivamente correlate Se ρ = 0 X e Y sono incorrelate I valori intermedi sono interpretabili come percentuale di correlazione (negativa per valori compresi fra 0 e -1 e positiva per valori compresi fra 0 e +1) A volte su alcuni eserciziari si può trovare definito il coefficiente di correlazione lineare come il rapporto fra la codevianza (ossia il numeratore della covarianza C XY ) e il prodotto della devianza delle due variabili (ossia il numeratore della deviazione standard (o scarto quadratico medio) D X e D y ). Le due formule sono equivalenti in quanto la numerosità N a denominatore nella covarianza e le due numerosit N a denominatore delle due deviazioni standard si annullano a vicenda nel rapporto che definisce il coefficiente di correlazione lineare ρ. Nel calcolo del coefficiente di correlazione lineare ρ a partire dai dati della tabella per i calcoli per la matrice dei dati grezzi noi utilizzeremo effettivamente questa seconda formulazione. Quindi 5

ρ è dato da ρ = σ XY σ X σ Y = C XY D X D Y = N i=1 (x i x)(y i ȳ) N i=1 (x i x) = 2 N i=1 (y i ȳ) 2 921, 13 74, 88 12596, 88 = 0, 948. (Si osservi che in questo caso l indice i somma tutte le unità, quindi arriva fino a N, non raggruppa le modalità). Commento: il coefficiente di correlazione assume un valore negativo prossimo al limite inferiore -1, indicando un elevata associazione lineare negativa tra precipitazioni e temperatura (Si ricordi che il coefficiente di correlazione pu variare fra -1 e 1). 6

4. ESERCIZIO DI RIPASSO (indici di variabilità in presenza di una carattere diviso in classi) La tavola che segue riporta la popolazione appartenente alle forze di lavoro per classi di età quinquennali e condizione professionale per la Provincia di Perugia (Fonte: ISTAT, Censimento 2001): Classi di età Occupati Disoccupati 15-19 2.934 1.397 20-24 16.814 3.057 25-29 29.362 3.555 30-34 35.348 2.619 35-39 37.780 1.991 40-44 34.387 1.341 45-49 30.905 891 50-54 27.963 574 55-59 13.967 338 60-64 6.911 144 65 e più 4.416 53 Totale 240.787 15.960 (a) Si confronti la variabilità delle due distribuzioni sulla base di un opportuno indice di variabilità. SOLUZIONE Tabelle per i calcoli: Occupati Classi di età c i 1 c i x i f i F i p i Φ i x i p i (x i x)2 p i 15-19 15 20 17,5 2.934 2.934 0,012 0,012 0,213 6,398 20-24 20 25 22,5 16.814 19.748 0,070 0,082 1,571 22,408 25-29 25 30 27,5 29.362 49.110 0,122 0,204 3,353 20,335 30-34 30 35 32,5 35.348 84.458 0,147 0,351 4,771 9,194 35-39 35 40 37,5 37.780 122.238 0,157 0,508 5,884 1,332 40-44 40 45 42,5 34.387 156.625 0,143 0,650 6,069 0,622 45-49 45 50 47,5 30.905 187.530 0,128 0,779 6,097 6,445 50-54 50 55 52,5 27.963 215.493 0,116 0,895 6,097 16,965 55-59 55 60 57,5 13.967 229.460 0,058 0,953 3,335 16,934 60-64 60 65 62,5 6.911 236.371 0,029 0,982 1,794 14,001 65 e più 65 67,0 4.416 240.787 0,018 1,000 1,229 12,963 Totale 240.787 40,414 127,597 Si noti che siamo passati alle classi reali. L età media degli occupati è pari a x = k i=1 x i p i = 40, 414, mentre per i disoccupati è pari a x = k i=1 x i p i = 32, 093. La varianza degli occupati è pari a: σ 2 = k i=1 (x i x)2 p i = 127, 597, mentre per i disoccupati è pari a σ 2 = k i=1 (x i x)2 p i = 108, 029. 7

Disoccupati Classi di età c i 1 c i x i f i F i p i Φ i x i p i (x i x)2 p i 15-19 15 20 17,5 1.397 1.397 0,088 0,088 1,532 18,641 20-24 20 25 22,5 3.057 4.454 0,192 0,279 4,310 17,628 25-29 25 30 27,5 3.555 8.009 0,223 0,502 6,125 4,699 30-34 30 35 32,5 2.619 10.628 0,164 0,666 5,333 0,027 35-39 35 40 37,5 1.991 12.619 0,125 0,791 4,678 3,647 40-44 40 45 42,5 1.341 13.960 0,084 0,875 3,571 9,100 45-49 45 50 47,5 891 14.851 0,056 0,931 2,652 13,252 50-54 50 55 52,5 574 15.425 0,036 0,966 1,888 14,977 55-59 55 60 57,5 338 15.763 0,021 0,988 1,218 13,670 60-64 60 65 62,5 144 15.907 0,009 0,997 0,564 8,342 65 e pi 65 67,0 53 15.960 0,003 1,000 0,224 4,046 Totale 15.960 32,093 108,029 (a) Per confrontare la variabilità delle due distribuzioni utilizzo il coefficiente di variazione (medie diverse nei due gruppi): CV = σ µ 100. Per gli occupati ottengo CV = 127,597 40,414 100 = 27, 95 e per i disoccupati CV = 108,029 32,093 100 = 32, 39. Quindi, la variabilità del carattere età è maggiore tra i disoccupati. Si noti che se, erroneamente, ci fossimo basati sulla varianza (o sullo scostamento quadratico medio) saremmo pervenuti alla conclusione opposta. 8

5. ESERCIZIO DI RIPASSO (distribuzioni marginali e condizionate) La seguente tabella descrive i clienti di un certo negozio in possesso di una carta sconto, in base al genere (X) e al numero di libri acquistati nell ultimo mese (Y). Numero libri acquistati 0 1 2 3 4 Maschi 9 21 10 6 4 Femmine 7 36 30 20 11 (a) Quali sono le unità statistiche? Qual è la natura dei caratteri osservati? (b) Si rappresentino graficamente i dati della tabella. (c) Si determinino le distribuzioni marginali del Numero di libri acquistati e del Sesso. (d) Si determini la proporzione di soggetti che hanno acquistato al massimo 1 libro nell ultimo mese. (e) Si determinino le distribuzioni secondo il Numero di libri acquistati, fatte con le frequenze relative, condizionate al Sesso e si commentino i risultati, discutendo in particolare se il Numero di libri acquistati è indipendente dal Sesso. (f) Sulla base dei risultati di cui al punto (e), si consideri la distribuzione marginale secondo il Numero di libri acquistati e se ne calcoli la mediana. (g) Si calcolino la media e la deviazione standard del Numero di libri acquistati separatamente per i maschi e per le femmine e si confronti la variabilità utilizzando la metodologia più appropriata. SOLUZIONE (a) Le unità statistiche sono i clienti del negozio in possesso di una carta di sconto. Il numero di libri acquistati è un carattere quantitativo discreto; il sesso è un carattere qualitativo sconnesso o nominale. 9

(b) Rappresentazione grafica dei dati: (c) Distribuzioni marginali: Numero libri acquistati Totale 0 1 2 3 4 Maschi 9 21 10 6 4 50 Femmine 7 36 30 20 11 104 Totale 16 57 40 26 15 154 (d) Proporzione di soggetti che hanno acquistato al massimo un libro nell ultimo mese = = (16 + 57)/154 = 0,47. (e) Distribuzione condizionata del Numero di libri letti secondo il Sesso: Numero libri acquistati Totale 0 1 2 3 4 Maschi 0,18 0,42 0,20 0,12 0,08 1,00 Femmine 0,07 0,35 0,29 0,19 0,11 1,00 Totale 0,10 0,37 0,26 0,17 0,10 1,00 Commento: dal momento che la distribuzione del Numero di libri letti dato il Sesso è diversa per maschi e femmine possiamo concludere che i due caratteri non sono indipendenti. In effetti, la frequenza relativa condizionata di Numero di libri letti è maggiore per i maschi per le modalità 0 e 1 ed è superiore per le femmine per le restanti modalità. (f) Frequenze assolute cumulate marginali del Numero di libri letti: Num. libri 0 1 2 3 4 F i 16 73 113 139 154 La mediana : 10

x 0.5 = m = 2; (g) Tabella per i calcoli: Maschi Femmine x i p i x i p i x i x (x i x) 2 p i p i x i p i x i x (x i x) 2 p i 0 0,18 0,00-1,50 0,41 0,07 0,00-1,92 0,25 1 0,42 0,42-0,50 0,11 0,35 0,35-0,92 0,29 2 0,20 0,40 0,50 0,05 0,29 0,58 0,08 0,00 3 0,12 0,36 1,50 0,27 0,19 0,58 1,08 0,22 4 0,08 0,32 2,50 0,50 0,11 0,42 2,08 0,46 Totale 1,50 1,33 1,92 1,22 Quindi: Sesso x σ CV Maschi 1,50 1,15 76,88 Femmine 1,92 1,11 57,55 Commento: sulla base del coefficiente di variazione si osserva che la variabilità del carattere considerato è maggiore per i maschi rispetto alle femmine. 11

6. Si consideri la seguente distribuzione doppia di 10 capoluoghi di regione, secondo la Percentuale di superficie verde ed il Numero di centraline per il monitoraggio dell aria ogni 100 kmq. (cfr. Italia in cifre, Anno 2008, pag. 6 ): Capoluoghi 1 2 3 4 5 6 7 8 9 10 % Superficie verde 16,2 11,4 8,6 5,4 28,1 1,5 23,9 0,9 33,9 52,9 Centraline per 100 kmq. 4,6 4,4 5,0 5,9 4,0 5,4 6,8 2,3 5,7 8,2 Per la distribuzione in oggetto: (a) si calcoli la covarianza tra i due caratteri, commentando il senso del valore ottenuto; (b) si calcoli l indice di correlazione lineare ρ e si commenti. SOLUZIONE Come nell esercizio due lavoriamo con la matrice dei dati grezzi. I calcoli necessari per svolgere l esercizio sono contenuti nella tabella che segue. Capoluoghi x i y i (x i x) (y i ȳ) (y i ȳ)(y i ȳ) (x i x) 2 (y i ȳ) 2 1 16,2 4,6-2,1-0,6 1,3 4,3 0,4 2 11,4 4,4-6,9-0,8 5,7 47,3 0,7 3 8,6 5,0-9,7-0,2 2,2 93,7 0,1 4 5,4 5,9-12,9 0,7-8,6 165,9 0,4 5 28,1 4,0 9,8-1,2-12,1 96,4 1,5 6 1,5 5,4-16,8 0,2-2,9 281,6 0,0 7 23,9 6,8 5,6 1,6 8,8 31,6 2,5 8 0,9 2,3-17,4-2,9 50,9 302,1 8,6 9 33,9 5,7 15,6 0,5 7,3 244,0 0,2 10 52,9 8,2 34,6 3,0 102,8 1.198,5 8,8 Totali 182,8 52,3 155,6 2.465,4 23,2 (a) Se entrambi i fenomeni sono quantitativi è possibie calcolare la covarianza, una sorta di misura della variabilità congiunta, che indichiamo con σ XY. La covarianza può assumere valori positivi, negativi od essere nulla. Dalla tabella risulta che la codevianza pari a C xy = i (y i ȳ)(y i ȳ) = 155, 6. La covarianza si calcla dunque come σ X,Y = C xy N = 155, 6 = 15, 56. 10 Il segno positivo indica relazione di concordanza (associazione positiva) tra i due caratteri in esame, ovvero che all aumentare della superficie verde tende anche ad aumentare il numero di centraline per il controllo dell aria. (b) Per quanto riguarda il coefficiente di correlazione lineare avremo: ρ = caratteri. Cxy D xd y = 155,6 2.465,4 23,2 = 0, 65, che indica un discreto grado di correlazione tra i due 12