Statistica Esercitazione alessandro polli facoltà di scienze politiche, sociologia, comunicazione
Obiettivo Esercizio 1. Questo e alcuni degli esercizi che proporremo nei prossimi giorni si basano sul prospetto di sintesi relativo alle pensioni erogate in Italia nel 2013 per classi di importo mensile (Fonte: Istat) e riportato nella slide successiva. Nel presente esercizio intendiamo verificare che, data la generica media di potenze M s = x i s f i 1 s fissati due indici r e s, con r < s e x 1 x 2 x n, allora risulta che M r < M s. In particolare, dopo aver calcolato la media aritmetica (per cui risulta s = 1), quella geometrica (in cui s = 0) e quella armonica (dove s = 1), vogliamo accertare che effettivamente M 1 < M 0 < M 1 Pagina 2
Data set Tab. 1 - Numero di pensioni erogate per classe di importo mensile. Italia 2013 Classi di importo N i fino a 499,99 euro 1.799.815 500-999,99 euro 4.546.231 1000,00-1499,99 euro 3.590.064 1500,00-1999,99 euro 2.852.632 2.000,00-2.449,99 euro 1.506.595 2.500,00-2.999,99 euro 736.869 3.000 euro e più 916.936 Totale 15.949.142 Pagina 3
Analisi preliminare La precedente distribuzione si riferisce ad un carattere quantitativo continuo ripartito in classi, quindi dopo aver individuato un valore rappresentativo (che come sappiamo è il valore centrale) per ciascuna delle classi tra cui si ripartiscono le osservazioni, faremo riferimento alle seguenti espressioni per il calcolo delle tre medie: Media aritmetica Media geometrica Media armonica M 1 μ = M 0 γ = x i f i f x i i M 1 α = 1 f i x i Pagina 4
Prospetto di calcolo Predisponiamo quindi il seguente prospetto di calcolo: Tab. 2 - Prospetto di calcolo Classi di importo x i N i f i x i f i fino a 499,99 euro 500-999,99 euro 1000,00-1499,99 euro 1500,00-1999,99 euro 2.000,00-2.449,99 euro 2.500,00-2.999,99 euro 3.000 euro e più Totale Pagina 5
Prospetto di calcolo Svolgendo i relativi calcoli (indicati come di consueto in testata), otteniamo: Tab. 2 - Prospetto di calcolo Classi di importo x i N i f i x i f i fino a 499,99 euro 250,00 1.799.815 0,1128 28,2118 1,8647 0,000451 500-999,99 euro 750,00 4.546.231 0,2850 213,7841 6,5997 0,000380 1000,00-1499,99 euro 1250,00 3.590.064 0,2251 281,3681 4,9785 0,000180 1500,00-1999,99 euro 1750,00 2.852.632 0,1789 313,0015 3,8023 0,000102 2.000,00-2.449,99 euro 2250,00 1.506.595 0,0945 212,5405 2,0733 0,000042 2.500,00-2.999,99 euro 2750,00 736.869 0,0462 127,0532 1,4418 0,000017 3.000 euro e più 3500,00 916.936 0,0575 201,2194 1,5986 0,000016 Totale 15.949.142 1,0000 1377,1786 1113,2023 0,001189 Pagina 6
Risultati Dalla lettura dei totali delle ultime tre colonne del precedente prospetto di calcolo, è agevole verificare che: Media aritmetica Media geometrica Media armonica M 1 μ = M 0 γ = x i f i = 1,377,18 x i f i = 1,113,20 M 1 α = 1 1 = f i 0,001189 = 841,09 x i Quindi abbiamo dimostrato che, con riferimento alla distribuzione analizzata, M 1 < M 0 < M 1. Pagina 7
Obiettivo Esercizio 2. Sempre con riferimento al prospetto di sintesi relativo alle pensioni erogate in Italia nel 2013 per classi di importo mensile, procediamo adesso a: Calcolare l indice di eterogeneità di Gini Calcolare le medie di posizione (moda e i tre quartili Q 1, Q 2 e Q 3, ottenuti applicando i procedimenti di interpolazione illustrati durante il corso) e di calcolo (media aritmetica, già ottenuta nel precedente esercizio) Calcolare le principali misure di dispersione (range, differenza interquartile, varianza, scarto quadratico medio, coefficiente di variazione) Calcolare alcune misure di asimmetria (Indice di Yule-Bowley, Indice di Pearson, γ 1 di Fisher) e di curtosi (γ 2 di Fisher) Rappresentare graficamente la distribuzione di frequenza del carattere analizzato Il set di parametri distributivi appena elencato (fatta eccezione per l indice di eterogeneità di Gini, l indice di Yule-Bowley e quello di Pearson) rappresenta l output standard ottenibile richiamando la funzione «statistiche descrittive» disponibile in tutti i software utilizzati per l analisi statistica (tra i più diffusi: Excel, SPSS, Stata, SAS e il linguaggio di programmazione dedicato R). Pagina 8
Prospetto di calcolo Predisponiamo il seguente prospetto di calcolo: Tab. 3 - Prospetto di calcolo Classi di importo x i N i f i f i 2 c i a i d i x i f i (x i - m) (x i - m) 2 f i x i μ 3 f i x i μ f i fino a 499,99 euro 500-999,99 euro 1000,00-1499,99 euro 1500,00-1999,99 euro 2.000,00-2.449,99 euro 2.500,00-2.999,99 euro 3.000 euro e più Totale Pagina 9
Prospetto di calcolo Come al solito, svolgiamo i calcoli così come riportati nell intestazione del prospetto, ottenendo: Tab. 3 - Prospetto di calcolo Classi di importo x i N i f i f i 2 c i a i d i x i f i (x i - m) (x i - m) 2 f i x i μ 3 f i x i μ f i fino a 499,99 euro 250,00 1.799.815 0,1128 0,01273448 0,1128 500,00 0,0002257 28,212-1127,179 143375,8593-0,2747 0,3695 500-999,99 euro 750,00 4.546.231 0,2850 0,08125093 0,3979 500,00 0,0005701 213,784-627,179 112123,5077-0,1195 0,0895 1000,00-1499,99 euro 1250,00 3.590.064 0,2251 0,05066753 0,6230 500,00 0,0004502 281,368-127,179 3640,7691-0,0008 0,0001 1500,00-1999,99 euro 1750,00 2.852.632 0,1789 0,03199019 0,8018 500,00 0,0003577 313,002 372,821 24860,5095 0,0158 0,0070 2.000,00-2.449,99 euro 2250,00 1.506.595 0,0945 0,00892315 0,8963 500,00 0,0001889 212,541 872,821 71963,1128 0,1068 0,1112 2.500,00-2.999,99 euro 2750,00 736.869 0,0462 0,00213455 0,9425 500,00 0,0000924 127,053 1372,821 87072,5021 0,2032 0,3329 3.000 euro e più 3500,00 916.936 0,0575 0,00330524 1,0000 1000,00 0,0000575 201,219 2122,821 259076,8463 0,9348 2,3683 Totale 15.949.142 1,0000 0,19100607 1377,179 702113,1069 0,8655 3,2785 In primo luogo, calcoliamo l indice di eterogeneità di Gini: i G = 1 1 2 f i = 7 6 1 0,19100607 0,9438 Pagina 10
Medie di posizione e di calcolo Procediamo adesso alla determinazione delle medie di posizione con procedure d interpolazione, che ci consentono di individuare, come ricorderemo, il loro valore puntuale all interno delle rispettive classi di appartenenza. Calcolo della moda. Dall esame del precedente prospetto è agevole individuare la classe modale, che nel nostro caso è la classe 500, 1.000 euro. Indicando con inf i l estremo inferiore della classe modale, con a i l ampiezza della classe (la differenza tra estremi superiore ed inferiore della classe modale) e con Δ 1 e Δ 2 rispettivamente l eccesso di densità di frequenza della classe modale rispetto alla classe immediatamente precedente e a quella immediatamente successiva, avremo che: Δ 1 0,0003444 Mo = inf i + a i = 500 + 500 Δ 1 + Δ 2 0,0003444 + 0,0001199 870,88 Calcolo del primo quartile. In primo luogo individuiamo la classe in cui è ricompreso il primo quartile, che esaminando la distribuzione cumulata è quella compresa tra 500, 1.000 euro. Ricordando che Q 1 Q 0,25 = inf i + a i 0,25 c i 1 0,25 0,1128 = 500 + 500 c i c i 1 0,3979 0,1128 740,58 Pagina 11
Medie di posizione e di calcolo Calcolo del secondo quartile (mediana). In maniera analoga individuiamo la classe in cui è ricompresa la mediana, che dall esame della distribuzione cumulata risulta ricompresa tra 1,000, 1.500 euro. Ricordando che Q 2 Q 0,50 = inf i + a i 0,50 c i 1 0,50 0,3979 = 1.000 + 500 c i c i 1 0,6230 0,3979 1.226,81 Calcolo del terzo quartile. Infine individuiamo la classe a cui appartiene il terzo quartile; è agevole verificare che è compreso nella classe 1,500, 2.000 euro. Ricordando che Q 3 Q 0,75 = inf i + a i 0,75 c i 1 0,75 0,6230 = 1.500 + 500 c i c i 1 0,8018 0,6230 1.855,07 Calcolo della media aritmetica. Ne abbiamo determinato il valore nell esercizio precedente. Abbiamo infatti che μ = 1.377,18 Pagina 12
Misure di dispersione Per quanto riguarda le misure di dispersione, come si è precisato in precedenza prenderemo in considerazione il range, la differenza interquartile, la varianza, lo scarto quadratico medio e il coefficiente di variazione. Range. Ricordando che il range è definito come la differenza tra il valore massimo e il valore minimo di una distribuzione osservata, nel caso del nostro carattere continuo ripartito in classi appare ovvio considerare come limite inferiore il valore min = 0 e come limite superiore il valore «di chiusura» dell ultima classe, cioè il valore presuntivo ottenuto sommando all estremo inferiore dell ultima classe pari a 3.000 euro l ampiezza imputata della classe stessa, pari a 1.000 euro. Avremo quindi che r = max min = 4.000 0 = 4.000 Differenza interquartile. È definita come la differenza tra terzo e primo quartile, avremo che Δ Q = Q 3 Q 1 = 1.855,07 740,58 = 1.114,49 Pagina 13
Misure di dispersione Varianza. Allo scopo di non duplicare i calcoli e predisporre dati utili per la successiva determinazione delle misure di asimmetria e di curtosi, non facciamo riferimento alla formula della varianza ottenuta con il metodo dei momenti, ma a quella standard, cioè 2 = x i μ 2 f i Gli elementi utili per il calcolo sono riportati nella quart ultima e terz ultima colonna del precedente prospetto di calcolo, da cui è agevole leggere il risultato come totale dell ultima colonna indicata. Si avrà che 2 = x i μ 2 f i = 702.113,11 Scarto quadratico medio. Ricordando che lo scarto quadratico medio è la radice quadrata della varianza, avremo che = 2 = 702.113,11 = 837,92 Pagina 14
Misure di dispersione Coefficiente di variazione. In ultimo, calcoliamo il coefficiente di variazione. Come si ricorderà, è definito dal rapporto tra scarto quadratico medio e il valore assoluto della media aritmetica ed è un numero puro idoneo per effettuare confronti. Avremo che CV = μ = 837,92 1.377,18 = 0,6084 Pagina 15
Misure di asimmetria Passiamo adesso a determinare alcune misure di asimmetria, in particolare l indice di Yule-Bowley, l indice di Pearson e la misura di asimmetria γ 1 di Fisher. Indice di Yule-Bowley. Ricordando che tale indice è definito nell intervallo chiuso di estremi 1, +1, la sua formula di calcolo è data dalla seguente relazione: a Y = Q 3 Q 2 Q 2 Q 1 Q 3 Q 1 = 1.855,07 1.226,81 1.226,81 740,58 1855,07 740,58 0,1274 che indica la presenza di una contenuta asimmetria positiva Indice di Pearson. L indice di asimmetria di Pearson, come si ricorderà, è un indice empirico basato sulla circostanza che spesso lo scarto tra media aritmetica e moda è positivo quando la distribuzione è caratterizzata da asimmetria positiva; l indice è definito dalla relazione: a P = μ Mo = 1.377,18 870,88 837,92 = 0,6042 che conformemente a quanto osservato in precedenza indica la presenza di asimmetria positiva Pagina 16
Misure di asimmetria Misura γ 1 di Fisher. Ricordando che il γ 1 di Fisher è costruito a partire dalla variabile standardizzata z i = x i μ la misura di asimmetria γ 1 di Fisher è definita dalla seguente relazione: γ 1 = x i μ 3 f i Il valore del γ 1, che può essere agevolmente letto come totale della penultima colonna del precedente prospetto di calcolo, è pari a γ 1 = x i μ 3 f i = 0,8655 evidenzia anch esso la presenza di asimmetria positiva. Pagina 17
Misure di curtosi Misura γ 2 di Fisher. Analogamente al γ 1 di Fisher, anche la misura γ 2 è costruita a partire dalla variabile standardizzata z i = x i μ La misura di curtosi γ 2 di Fisher è definita dalla seguente relazione: γ 2 = x i μ f i 3 x i μ La prima parte della relazione f σ i rappresenta la misura di curtosi β 2 di Fisher e figura nel prospetto di calcolo come totale dell ultima colonna, il cui valore può quindi essere agevolmente letto direttamente su quest ultimo; nel complesso avremo che γ 2 = x i μ f i 3 = 3,2785 3 = 0,2785 evidenziando la presenza di una moderata leptocurtosi (cioè una massa di frequenze in corrispondenza delle modalità intermedie leggermente inferiore a quella di una distribuzione normale standardizzata e un numero di casi in corrispondenza dei valori centrali e di quelli estremi maggiore di quello che caratterizza la distribuzione benchmar). Pagina 18
Rappresentazione grafica In ultimo, riportiamo l istogramma relativo alla distribuzione analizzata: Pagina 19