Statistica Esercitazione. alessandro polli facoltà di scienze politiche, sociologia, comunicazione

Documenti analoghi
Statistica Descrittiva Soluzioni 6. Indici di variabilità, asimmetria e curtosi

Esercitazione 1.3. Indici di variabilità ed eterogeneità. Prof.ssa T. Laureti a.a

La variabilità. Dott. Cazzaniga Paolo. Dip. di Scienze Umane e Sociali

1) Calcolare l indice di eterogeneità di Gini per i caratteri Qualifica Funzionale e Regime di Impiego.

ESERCIZIO 1. Confrontare, analiticamente e graficamente, la forma e la variabilità delle due distribuzioni. Commentare i risultati ottenuti.

Statistica Esercitazione. alessandro polli facoltà di scienze politiche, sociologia, comunicazione

Q1 = /4 0 4 = Me = /2 4 = 3

Corso di Laurea: Diritto per le Imprese e le istituzioni a.a Statistica. Statistica Descrittiva 3. Esercizi: 5, 6. Docente: Alessandra Durio

STATISTICHE DESCRITTIVE Parte II

Esercizi Svolti. 2. Costruire la distribuzione delle frequenze cumulate del tempo di attesa

STATISTICA 1 ESERCITAZIONE 6

Statistica. Alfonso Iodice D Enza

CORSO DI STATISTICA (parte 1) - ESERCITAZIONE 2

Istituzioni di Statistica e Statistica Economica

Nozioni di statistica

STATISTICA DESCRITTIVA. Elementi di statistica medica GLI INDICI INDICI DI DISPERSIONE STATISTICA DESCRITTIVA

Corso di Statistica: ESERCITAZIONI

Statistica descrittiva II

STATISTICHE DESCRITTIVE

Teoria e tecniche dei test. Concetti di base

Esercizio 1 Questa tabella esprime i tempi di durata di 200 apparecchiature elettriche:

Programmazione con Foglio di Calcolo Cenni di Statistica Descrittiva

Statistica Esercitazione. alessandro polli facoltà di scienze politiche, sociologia, comunicazione

CORSO DI STATISTICA (parte 1) - ESERCITAZIONE 2

Esercizio 1 Nella seguente tabella sono riportate le lunghezze in millimetri di 40 foglie di platano:

STATISTICA 1 ESERCITAZIONE 2

Distribuzioni Statistiche e Medie Esercitazione n 01

Dispensa di Statistica

Prof. Anna Paola Ercolani (Università di Roma) Lez Indicatori di dispersione

Questionario 1. Sono assegnati i seguenti dati

x i. Δ x i

1/4 Capitolo 4 Statistica - Metodologie per le scienze economiche e sociali 2/ed Copyright 2008 The McGraw-Hill Companies srl

La statistica. Elaborazione e rappresentazione dei dati Gli indicatori statistici. Prof. Giuseppe Carucci

Sintesi numerica di distribuzioni statistiche

Statistica. Alfonso Iodice D Enza

STATISTICA A-K (2014) Soluzione esercizi da svolgere prima settimana

STATISTICA esercizi svolti sulla VARIABILITA

Capitolo 6 La distribuzione normale

LA RAPPRESENTAZIONE E LA SINTESI DEI DATI

STATISTICA I - CORSO DI LAUREA IN STATISTICA a.a. 2004/2005 Prova intermedia del 01 aprile 2005

Obiettivi Strumenti Cosa ci faremo? Probabilità, distribuzioni campionarie. Stimatori. Indici: media, varianza,

Statistica. Matematica con Elementi di Statistica a.a. 2015/16

Lezione 4 a - Misure di dispersione o di variabilità

Statistica Un Esempio

STATISTICA: esercizi svolti sulla DISTRIBUZIONE NORMALE


CORSO DI STATISTICA (parte 1) - ESERCITAZIONE 4

Gli indici di variabilità

Capitolo 6. La distribuzione normale

TRACCIA DI STUDIO. Indici di dispersione assoluta per misure quantitative

Statistica di base per l analisi socio-economica

Esercitazioni di Statistica

Sperimentazioni di Fisica I mod. A Statistica - Lezione 2

Statistica Analisi bidimensionale La dipendenza in media. alessandro polli facoltà di scienze politiche, sociologia, comunicazione

Statistica descrittiva

Sintesi dei dati in una tabella. Misure di variabilità (cap. 4) Misure di forma (cap. 5) Statistica descrittiva (cap. 6)

INDICATORI DI TENDENZA CENTRALE

Indici di variabilità ed eterogeneità

Indicatori di Posizione e di Variabilità. Corso di Laurea Specialistica in SCIENZE DELLE PROFESSIONI SANITARIE DELLA RIABILITAZIONE Statistica Medica

Prof. Anna Paola Ercolani (Università di Roma) Lez Indicatori di tendenza centrale

Università degli Studi di Verona

Statistica Sociale - modulo A

A1. La curva normale (o di Gauss)

Descrittiva. V Scuola Estiva AISV La statistica come strumento di analisi nelle scienze umanistiche e comportamentali

Università del Piemonte Orientale. Corso di Laurea in Medicina e Chirurgia. Corso di Statistica Medica. Statistica Descrittiva Variabili numeriche

Statistica a.a Autovalutazione 1

Valori Medi. Docente Dott.ssa Domenica Matranga

Capitolo 3 Sintesi e descrizione dei dati quantitativi

Indici di variabilità relativa

INDICATORI DI TENDENZA CENTRALE

STATISTICA esercizi svolti su: INTERPOLAZIONE PONDERATA, REGRESSIONE E CORRELAZIONE

STATISTICA (modulo I - Statistica Descrittiva) Soluzione Esercitazione I

La Variabilità statistica

CORSO DI STATISTICA (parte 1) - ESERCITAZIONE 3

INDICATORI DI TENDENZA CENTRALE

Statistica. Esercitazione 4 17 febbraio 2011 Medie condizionate. Covarianza e correlazione

Statistica a breve termine: metodo delle onde apparenti

La variabilità. Antonello Maruotti

Prefazione Ringraziamenti dell'editore Il sito web dedicato al libro Test online: la piattaforma McGraw-Hill Education Guida alla lettura

Esercizi di statistica descrittiva. Giulia Simi (Università di Siena) Istituzione di matematica e fondamenti di Biostatistica Siena / 30

Le medie. Antonello Maruotti

Misure di dispersione (o di variabilità)

Statistica. Alfonso Iodice D Enza

Corso di Statistica. Medie,Moda. Prof.ssa T. Laureti a.a Corso di Statistica a.a DEIM, Univ.TUSCIA - Prof.

ESAME. 9 Gennaio 2017 COMPITO B

REGRESSIONE E CORRELAZIONE

Esercitazioni di statistica

Lezione 4: Indici di posizione Corso di Statistica Facoltà di Economia Università della Basilicata. Prof. Massimo Aria

Statistica. POPOLAZIONE: serie di dati, che rappresenta linsieme che si vuole indagare (reali, sperimentali, matematici)

3.1 Classificazione dei fenomeni statistici Questionari e scale di modalità Classificazione delle scale di modalità 17

STATISTICA DESCRITTIVA (variabili quantitative)

STATISTICA AZIENDALE Modulo Controllo di Qualità

Esercitazioni di Statistica per Biotecnologie. Francesca Pizzorni Ferrarese

Esercitazioni. Es 1. Dato il seguente dataset

CORSO DI STATISTICA (parte 1) - ESERCITAZIONE 3

Variabilità e Concentrazione Esercitazione n 02

STATISTICA: esercizi svolti su MODA, MEDIANA, QUARTILI, DECILI e CENTILI

FACOLTÀ DI SOCIOLOGIA CdL in SCIENZE DELL ORGANIZZAZIONE ESAME di STATISTICA 21/09/2011

x 1 x 2 x 3 x 4 x 5 x 6 x 7 x 8 x 9 x = 35 q 2 = Me q 3 = x (8,25) = x (8) + 0, 25 ( x (9) x (8)

Scale di Misurazione Lezione 2

Transcript:

Statistica Esercitazione alessandro polli facoltà di scienze politiche, sociologia, comunicazione

Obiettivo Esercizio 1. Questo e alcuni degli esercizi che proporremo nei prossimi giorni si basano sul prospetto di sintesi relativo alle pensioni erogate in Italia nel 2013 per classi di importo mensile (Fonte: Istat) e riportato nella slide successiva. Nel presente esercizio intendiamo verificare che, data la generica media di potenze M s = x i s f i 1 s fissati due indici r e s, con r < s e x 1 x 2 x n, allora risulta che M r < M s. In particolare, dopo aver calcolato la media aritmetica (per cui risulta s = 1), quella geometrica (in cui s = 0) e quella armonica (dove s = 1), vogliamo accertare che effettivamente M 1 < M 0 < M 1 Pagina 2

Data set Tab. 1 - Numero di pensioni erogate per classe di importo mensile. Italia 2013 Classi di importo N i fino a 499,99 euro 1.799.815 500-999,99 euro 4.546.231 1000,00-1499,99 euro 3.590.064 1500,00-1999,99 euro 2.852.632 2.000,00-2.449,99 euro 1.506.595 2.500,00-2.999,99 euro 736.869 3.000 euro e più 916.936 Totale 15.949.142 Pagina 3

Analisi preliminare La precedente distribuzione si riferisce ad un carattere quantitativo continuo ripartito in classi, quindi dopo aver individuato un valore rappresentativo (che come sappiamo è il valore centrale) per ciascuna delle classi tra cui si ripartiscono le osservazioni, faremo riferimento alle seguenti espressioni per il calcolo delle tre medie: Media aritmetica Media geometrica Media armonica M 1 μ = M 0 γ = x i f i f x i i M 1 α = 1 f i x i Pagina 4

Prospetto di calcolo Predisponiamo quindi il seguente prospetto di calcolo: Tab. 2 - Prospetto di calcolo Classi di importo x i N i f i x i f i fino a 499,99 euro 500-999,99 euro 1000,00-1499,99 euro 1500,00-1999,99 euro 2.000,00-2.449,99 euro 2.500,00-2.999,99 euro 3.000 euro e più Totale Pagina 5

Prospetto di calcolo Svolgendo i relativi calcoli (indicati come di consueto in testata), otteniamo: Tab. 2 - Prospetto di calcolo Classi di importo x i N i f i x i f i fino a 499,99 euro 250,00 1.799.815 0,1128 28,2118 1,8647 0,000451 500-999,99 euro 750,00 4.546.231 0,2850 213,7841 6,5997 0,000380 1000,00-1499,99 euro 1250,00 3.590.064 0,2251 281,3681 4,9785 0,000180 1500,00-1999,99 euro 1750,00 2.852.632 0,1789 313,0015 3,8023 0,000102 2.000,00-2.449,99 euro 2250,00 1.506.595 0,0945 212,5405 2,0733 0,000042 2.500,00-2.999,99 euro 2750,00 736.869 0,0462 127,0532 1,4418 0,000017 3.000 euro e più 3500,00 916.936 0,0575 201,2194 1,5986 0,000016 Totale 15.949.142 1,0000 1377,1786 1113,2023 0,001189 Pagina 6

Risultati Dalla lettura dei totali delle ultime tre colonne del precedente prospetto di calcolo, è agevole verificare che: Media aritmetica Media geometrica Media armonica M 1 μ = M 0 γ = x i f i = 1,377,18 x i f i = 1,113,20 M 1 α = 1 1 = f i 0,001189 = 841,09 x i Quindi abbiamo dimostrato che, con riferimento alla distribuzione analizzata, M 1 < M 0 < M 1. Pagina 7

Obiettivo Esercizio 2. Sempre con riferimento al prospetto di sintesi relativo alle pensioni erogate in Italia nel 2013 per classi di importo mensile, procediamo adesso a: Calcolare l indice di eterogeneità di Gini Calcolare le medie di posizione (moda e i tre quartili Q 1, Q 2 e Q 3, ottenuti applicando i procedimenti di interpolazione illustrati durante il corso) e di calcolo (media aritmetica, già ottenuta nel precedente esercizio) Calcolare le principali misure di dispersione (range, differenza interquartile, varianza, scarto quadratico medio, coefficiente di variazione) Calcolare alcune misure di asimmetria (Indice di Yule-Bowley, Indice di Pearson, γ 1 di Fisher) e di curtosi (γ 2 di Fisher) Rappresentare graficamente la distribuzione di frequenza del carattere analizzato Il set di parametri distributivi appena elencato (fatta eccezione per l indice di eterogeneità di Gini, l indice di Yule-Bowley e quello di Pearson) rappresenta l output standard ottenibile richiamando la funzione «statistiche descrittive» disponibile in tutti i software utilizzati per l analisi statistica (tra i più diffusi: Excel, SPSS, Stata, SAS e il linguaggio di programmazione dedicato R). Pagina 8

Prospetto di calcolo Predisponiamo il seguente prospetto di calcolo: Tab. 3 - Prospetto di calcolo Classi di importo x i N i f i f i 2 c i a i d i x i f i (x i - m) (x i - m) 2 f i x i μ 3 f i x i μ f i fino a 499,99 euro 500-999,99 euro 1000,00-1499,99 euro 1500,00-1999,99 euro 2.000,00-2.449,99 euro 2.500,00-2.999,99 euro 3.000 euro e più Totale Pagina 9

Prospetto di calcolo Come al solito, svolgiamo i calcoli così come riportati nell intestazione del prospetto, ottenendo: Tab. 3 - Prospetto di calcolo Classi di importo x i N i f i f i 2 c i a i d i x i f i (x i - m) (x i - m) 2 f i x i μ 3 f i x i μ f i fino a 499,99 euro 250,00 1.799.815 0,1128 0,01273448 0,1128 500,00 0,0002257 28,212-1127,179 143375,8593-0,2747 0,3695 500-999,99 euro 750,00 4.546.231 0,2850 0,08125093 0,3979 500,00 0,0005701 213,784-627,179 112123,5077-0,1195 0,0895 1000,00-1499,99 euro 1250,00 3.590.064 0,2251 0,05066753 0,6230 500,00 0,0004502 281,368-127,179 3640,7691-0,0008 0,0001 1500,00-1999,99 euro 1750,00 2.852.632 0,1789 0,03199019 0,8018 500,00 0,0003577 313,002 372,821 24860,5095 0,0158 0,0070 2.000,00-2.449,99 euro 2250,00 1.506.595 0,0945 0,00892315 0,8963 500,00 0,0001889 212,541 872,821 71963,1128 0,1068 0,1112 2.500,00-2.999,99 euro 2750,00 736.869 0,0462 0,00213455 0,9425 500,00 0,0000924 127,053 1372,821 87072,5021 0,2032 0,3329 3.000 euro e più 3500,00 916.936 0,0575 0,00330524 1,0000 1000,00 0,0000575 201,219 2122,821 259076,8463 0,9348 2,3683 Totale 15.949.142 1,0000 0,19100607 1377,179 702113,1069 0,8655 3,2785 In primo luogo, calcoliamo l indice di eterogeneità di Gini: i G = 1 1 2 f i = 7 6 1 0,19100607 0,9438 Pagina 10

Medie di posizione e di calcolo Procediamo adesso alla determinazione delle medie di posizione con procedure d interpolazione, che ci consentono di individuare, come ricorderemo, il loro valore puntuale all interno delle rispettive classi di appartenenza. Calcolo della moda. Dall esame del precedente prospetto è agevole individuare la classe modale, che nel nostro caso è la classe 500, 1.000 euro. Indicando con inf i l estremo inferiore della classe modale, con a i l ampiezza della classe (la differenza tra estremi superiore ed inferiore della classe modale) e con Δ 1 e Δ 2 rispettivamente l eccesso di densità di frequenza della classe modale rispetto alla classe immediatamente precedente e a quella immediatamente successiva, avremo che: Δ 1 0,0003444 Mo = inf i + a i = 500 + 500 Δ 1 + Δ 2 0,0003444 + 0,0001199 870,88 Calcolo del primo quartile. In primo luogo individuiamo la classe in cui è ricompreso il primo quartile, che esaminando la distribuzione cumulata è quella compresa tra 500, 1.000 euro. Ricordando che Q 1 Q 0,25 = inf i + a i 0,25 c i 1 0,25 0,1128 = 500 + 500 c i c i 1 0,3979 0,1128 740,58 Pagina 11

Medie di posizione e di calcolo Calcolo del secondo quartile (mediana). In maniera analoga individuiamo la classe in cui è ricompresa la mediana, che dall esame della distribuzione cumulata risulta ricompresa tra 1,000, 1.500 euro. Ricordando che Q 2 Q 0,50 = inf i + a i 0,50 c i 1 0,50 0,3979 = 1.000 + 500 c i c i 1 0,6230 0,3979 1.226,81 Calcolo del terzo quartile. Infine individuiamo la classe a cui appartiene il terzo quartile; è agevole verificare che è compreso nella classe 1,500, 2.000 euro. Ricordando che Q 3 Q 0,75 = inf i + a i 0,75 c i 1 0,75 0,6230 = 1.500 + 500 c i c i 1 0,8018 0,6230 1.855,07 Calcolo della media aritmetica. Ne abbiamo determinato il valore nell esercizio precedente. Abbiamo infatti che μ = 1.377,18 Pagina 12

Misure di dispersione Per quanto riguarda le misure di dispersione, come si è precisato in precedenza prenderemo in considerazione il range, la differenza interquartile, la varianza, lo scarto quadratico medio e il coefficiente di variazione. Range. Ricordando che il range è definito come la differenza tra il valore massimo e il valore minimo di una distribuzione osservata, nel caso del nostro carattere continuo ripartito in classi appare ovvio considerare come limite inferiore il valore min = 0 e come limite superiore il valore «di chiusura» dell ultima classe, cioè il valore presuntivo ottenuto sommando all estremo inferiore dell ultima classe pari a 3.000 euro l ampiezza imputata della classe stessa, pari a 1.000 euro. Avremo quindi che r = max min = 4.000 0 = 4.000 Differenza interquartile. È definita come la differenza tra terzo e primo quartile, avremo che Δ Q = Q 3 Q 1 = 1.855,07 740,58 = 1.114,49 Pagina 13

Misure di dispersione Varianza. Allo scopo di non duplicare i calcoli e predisporre dati utili per la successiva determinazione delle misure di asimmetria e di curtosi, non facciamo riferimento alla formula della varianza ottenuta con il metodo dei momenti, ma a quella standard, cioè 2 = x i μ 2 f i Gli elementi utili per il calcolo sono riportati nella quart ultima e terz ultima colonna del precedente prospetto di calcolo, da cui è agevole leggere il risultato come totale dell ultima colonna indicata. Si avrà che 2 = x i μ 2 f i = 702.113,11 Scarto quadratico medio. Ricordando che lo scarto quadratico medio è la radice quadrata della varianza, avremo che = 2 = 702.113,11 = 837,92 Pagina 14

Misure di dispersione Coefficiente di variazione. In ultimo, calcoliamo il coefficiente di variazione. Come si ricorderà, è definito dal rapporto tra scarto quadratico medio e il valore assoluto della media aritmetica ed è un numero puro idoneo per effettuare confronti. Avremo che CV = μ = 837,92 1.377,18 = 0,6084 Pagina 15

Misure di asimmetria Passiamo adesso a determinare alcune misure di asimmetria, in particolare l indice di Yule-Bowley, l indice di Pearson e la misura di asimmetria γ 1 di Fisher. Indice di Yule-Bowley. Ricordando che tale indice è definito nell intervallo chiuso di estremi 1, +1, la sua formula di calcolo è data dalla seguente relazione: a Y = Q 3 Q 2 Q 2 Q 1 Q 3 Q 1 = 1.855,07 1.226,81 1.226,81 740,58 1855,07 740,58 0,1274 che indica la presenza di una contenuta asimmetria positiva Indice di Pearson. L indice di asimmetria di Pearson, come si ricorderà, è un indice empirico basato sulla circostanza che spesso lo scarto tra media aritmetica e moda è positivo quando la distribuzione è caratterizzata da asimmetria positiva; l indice è definito dalla relazione: a P = μ Mo = 1.377,18 870,88 837,92 = 0,6042 che conformemente a quanto osservato in precedenza indica la presenza di asimmetria positiva Pagina 16

Misure di asimmetria Misura γ 1 di Fisher. Ricordando che il γ 1 di Fisher è costruito a partire dalla variabile standardizzata z i = x i μ la misura di asimmetria γ 1 di Fisher è definita dalla seguente relazione: γ 1 = x i μ 3 f i Il valore del γ 1, che può essere agevolmente letto come totale della penultima colonna del precedente prospetto di calcolo, è pari a γ 1 = x i μ 3 f i = 0,8655 evidenzia anch esso la presenza di asimmetria positiva. Pagina 17

Misure di curtosi Misura γ 2 di Fisher. Analogamente al γ 1 di Fisher, anche la misura γ 2 è costruita a partire dalla variabile standardizzata z i = x i μ La misura di curtosi γ 2 di Fisher è definita dalla seguente relazione: γ 2 = x i μ f i 3 x i μ La prima parte della relazione f σ i rappresenta la misura di curtosi β 2 di Fisher e figura nel prospetto di calcolo come totale dell ultima colonna, il cui valore può quindi essere agevolmente letto direttamente su quest ultimo; nel complesso avremo che γ 2 = x i μ f i 3 = 3,2785 3 = 0,2785 evidenziando la presenza di una moderata leptocurtosi (cioè una massa di frequenze in corrispondenza delle modalità intermedie leggermente inferiore a quella di una distribuzione normale standardizzata e un numero di casi in corrispondenza dei valori centrali e di quelli estremi maggiore di quello che caratterizza la distribuzione benchmar). Pagina 18

Rappresentazione grafica In ultimo, riportiamo l istogramma relativo alla distribuzione analizzata: Pagina 19