Indici di eterogeneità e di concentrazione

Documenti analoghi
CORSO DI STATISTICA (parte 1) - ESERCITAZIONE 4

STATISTICA APPLICATA Prof.ssa Julia Mortera. Concentrazione

Programmazione con Foglio di Calcolo Cenni di Statistica Descrittiva

Teoria e tecniche dei test. Concetti di base

La Variabilità statistica

Misure della disuguaglianze di reddito Rapporto tra percentili (1)

La distribuzione delle frequenze. T 10 (s)

DISTRIBUZIONE NORMALE (1)

LA DISTRIBUZIONE NORMALE (Vittorio Colagrande)

Valori Medi. Docente Dott.ssa Domenica Matranga

Scale Logaritmiche. Matematica con Elementi di Statistica a.a. 2015/16

La statistica. Elaborazione e rappresentazione dei dati Gli indicatori statistici. Prof. Giuseppe Carucci

SCOPO DELL ANALISI DI CORRELAZIONE

Esercizi Svolti. 2. Costruire la distribuzione delle frequenze cumulate del tempo di attesa

Gli indici di variabilità

ESPONENZIALI E LOGARITMI. chiameremo logaritmica (e si legge il logaritmo in base a di c è uguale a b ).

Capitolo 12. Suggerimenti agli esercizi a cura di Elena Siletti. Esercizio 12.1: Suggerimento

le scale di misura scala nominale scala ordinale DIAGNOSTICA PSICOLOGICA lezione si basano su tre elementi:

Esercitazione: La distribuzione NORMALE

3. Le coordinate geografiche: latitudine e longitudine

Distribuzione Normale

EQUAZIONE DELLA RETTA

Esercitazioni. Es 1. Dato il seguente dataset

I laureati scuole di provenienza, durata degli studi, votazioni ed età

Esercitazioni di statistica

Esercizi sulla retta. Gruppo 1 (4A TSS SER, 4B TSS SER, 4A AM )

L ELASTICITÀ DEL CONSUMATORE PROF. MATTIA LETTIERI

SIMULAZIONE - 29 APRILE QUESITI

Lezione 4 a - Misure di dispersione o di variabilità

NOTE SULLE FUNZIONI CONVESSE DI UNA VARIABILE REALE

CORSO DI STATISTICA (parte 1) - ESERCITAZIONE 2

PROCEDURE/TECNICHE DI ANALISI / MISURE DI ASSOCIAZIONE A) ANALISI DELLA VARIANZA

Condizione di allineamento di tre punti

Funzioni. iniettiva se x y = f (x) f (y) o, equivalentemente, f (x) = f (y) = x = y

MISURE DI SINTESI 54

UNIVERSITÀ di ROMA TOR VERGATA

Statistica. Alfonso Iodice D Enza iodicede@gmail.com

Note sul sistema di Lotka-Volterra. Prima versione. Commenti e correzioni sono benvenuti.

Statistica 1 A.A. 2015/2016

Lezione 4. Statistica. Alfonso Iodice D Enza iodicede@unicas.it. Università degli studi di Cassino. Lezione 4. A. Iodice. Indici di posizione.

INDICATORI DI TENDENZA CENTRALE

CORSO DI STATISTICA (parte 1) - ESERCITAZIONE 3

LICEO SCIENTIFICO PROBLEMA 1

Dipendenza e indipendenza lineare

STATISTICA 1 ESERCITAZIONE 2

LIMITI E DERIVATE DI UNA FUNZIONE

Limiti di successioni

La diseguaglianza nella distribuzione del reddito

STIMA DELLA VARIANZA CAMPIONARIA

a) Determinare il dominio, i limiti agli estremi del dominio e gli eventuali asintoti di f. Determinare inoltre gli zeri di f e studiarne il segno.

MISURE DI DISPERSIONE

Quadro riassuntivo di geometria analitica

2. APPUNTI SUI FASCI DI CIRCONFERENZE (raccolti dal prof. G. Traversi)

R 2 1 j /n j] 3(n+1)

7. INSIEMI APERTI, INSIEMI CHIUSI, INSIEMI NE APERTI NE CHIUSI

Università del Piemonte Orientale Specializzazioni di area sanitaria Statistica Medica

Università degli Studi del Piemonte Orientale Facoltà di Scienze M.F.N. Precorso di Matematica APPUNTI (preparati da Pier Luigi Ferrari)

Problema ( ) = 0,!

INDICATORI DI TENDENZA CENTRALE

L indagine campionaria Lezione 3

Breve formulario di matematica

1 4 Esempio 2. Si determini la distribuzione di probabilità della variabile casuale X = punteggio ottenuto lanciando un dado. Si ha immediatamente:

LABORATORIO DI CIRCUITI ELETTRICI Nozioni generali e guida agli esperimenti. Rappresentazione grafica dei risultati sperimentali

Statistica. Matematica con Elementi di Statistica a.a. 2015/16

Statistica. Alfonso Iodice D Enza

Funzioni elementari: funzioni potenza

Esercitazioni di Statistica

Geometria Analitica Domande e Risposte

1. Studia la funzione che rappresenta la superficie del parallelepipedo in funzione del lato b della base quadrata e rappresentala graficamente;

Sintesi dei dati in una tabella. Misure di variabilità (cap. 4) Misure di forma (cap. 5) Statistica descrittiva (cap. 6)

Integrazioni al corso di Economia Politica (anno accademico ) Marianna Belloc

ITCS Erasmo da Rotterdam. Anno Scolastico 2014/2015. CLASSE 4^ M Costruzioni, ambiente e territorio

Esercitazioni di Metodi Statistici per la Biologia

Statistica. Campione

ISTITUTO SUPERIORE XXV APRILE LICEO CLASSICO ANDREA DA PONTEDERA classi 5A-5B PROGRAMMA DI MATEMATICA

ESERCITAZIONI 1 e 2: calcoli

Statistica. POPOLAZIONE: serie di dati, che rappresenta linsieme che si vuole indagare (reali, sperimentali, matematici)

1.1 Coordinate sulla retta e nel piano; rette nel piano

10 - Applicazioni del calcolo differenziale

La matrice dati. La matrice dati

Piano cartesiano e Retta

Sviluppi e derivate delle funzioni elementari

Lezione n. 1 _Complementi di matematica

LA RETTA NEL PIANO CARTESIANO

INVILUPPO DI VOLO VELOCITÀ MASSIMA IN VOLO ORIZZONTALE RETTILINEO UNIFORME

Esercitazione 6 marzo 2014

Transcript:

Indici di eterogeneità e di concentrazione Dario Malchiodi e Anna Maria Zanaboni 12 gennaio 2016 1 Indici di eterogeneità Nel caso di variabili qualitative nominali la varianza e gli altri indici da essa derivati non si possono calcolare (infatti non sono calcolabili la media né la mediana né altri valori numerici di riferimento dai quali calcolare le distanze). È comunque necessario avere un indice che misuri la dispersione della distribuzione delle frequenze, detta eterogeneità. In particolare diremo che una variabile si distribuisce in modo eterogeneo se ogni suo valore si presenta con la stessa frequenza. 1.1 Indice di eterogeneità di Gini Definition 1.1 (Indice di Gini). Dato un campione {a 1,..., a n } in cui occorrono i valori distinti v 1,..., v s e indicando con f i la frequenza relativa dell elemento v i per i = 1,..., s, la quantità I = 1 è detta indice di eterogeneità di Gini. Si noti che: 0 I < 1, in quanto: s fi 2 (1) per almeno un j si ha f 2 j > 0 e quindi f 2 i > 0, il che implica I < 1; per ogni i si ha f 2 i f i essendo 0 f i 1 (si veda anche la Figura 1), e dunque f 2 i f i = 1, il che implica I 0; in caso di eterogeneità minima (o massima omogeneità), tutti gli elementi del campione assumono lo stesso valore, dunque esiste un solo j per cui f j = 1 e per ogni i j si ha f i = 0, pertanto I = 1 1 = 0; in caso di eterogeneità massima tutte le osservazioni hanno invece la medesima frequenza f i = 1 s, e quindi I = 1 1 s = s 1 s. 1

1.0 0.8 0.6 0.4 0.2 Figura 1: Il grafico delle funzioni x x e x x 2 mette in evidenza che per x [0, 1] vale x x 2. 0.5 0.4 0.3 0.2 0.1 Figura 2: Grafico dell andamento dell indice di Gini per campioni contenenti due dfferenti valori. Nel caso in cui si voglia operare con un indice che assuma valori tra 0 e 1, è possibile dividere l espressione (1) per il valore massimo s 1 s, ottenendo il cosiddetto indice di Gini normalizzato: I = s I s 1 Le Figure 2 e 3 evidenziano come non solo l indice di Gini assuma valori minimo e massimo rispettivamente in corrispondenza delle situazioni di minima e massima eterogeneità nel campione, ma effettivamente si abbia una crescita graduale del valore dell indice man mano che l eterogeneità nel campione aumenta, seguita da una sua riduzione man mano che l eterogeneità ritorna a diminuire. In altre parole, questo indice cattura effettivamente il concetto di eterogeneità traducendolo in una quantità numerica. Example 1.1. Si consideri la Tabella 1, che riporta la tabella delle frequenze assolute del tipo di scuola secondaria frequentata dagli studenti che si sono immatricolati a un corso di laurea in Informatica nel 2014. Il numero di osservazioni nel campione si ottiene sommando i valori nella seconda colonna della (2) 2

Figura 3: Andamento dell indice di Gini per campioni contenenti tre differenti valori, espresso tramite (a) curve di livello in cui colori più scuri corrispondono a valori più alti, e (b) grafico tridimensionale. Tipo di scuola Frequenza assoluta Altra scuola secondaria 3 Istituto magistrale 2 Istituto professionale commerciale 4 Istituto professionale industriale 8 Istituto tecnico (altri) 8 Istituto tecnico commerciale 34 Istituto tecnico industriale 58 Liceo classico 8 Liceo linguistico 1 Liceo scientifico 62 Titolo straniero 3 Tabella 1: Distribuzione dei titoli di studio conseguiti dagli studenti immatricolati a un corso di laurea in Informatica nel 2014. tabella e ottenendo 191. Pertanto l indice di Gini per i dati riportati è pari a I = 1 1 191 2 (32 + 2 2 + 4 2 + 8 2 + 8 2 + 34 2 + 58 2 + 8 2 + 1 + 62 2 + 3 2 ) 0.76 (3) Il numero di diverse osservazioni nel campione è uguale al numero di righe della tabella, e cioè 11, così che l indice di Gini normalizzato assume il valore 1.2 Entropia I = 11 I 0.84 (4) 10 Definition 1.2 (Indice di entropia). Dato un campione {a 1,..., a n } in cui occorrono i valori distinti v 1,..., v s e indicando con f i la frequenza relativa 3

dell elemento v i per i = 1,..., s, la quantità s H = f i log 1 = f i è detta indice di entropia del campione. Si noti che valgono le seguenti osservazioni. s f i log f i (5) La funzione p log 1 p è detta autoinformazione, e il suo andamento in (0, 1] è quello illustrato in Figura 4(a). In particolare la funzione vale 0 quando p = 1 e tende a infinito per p che tende a 0. Se il logaritmo è in base 2 allora l autoinformazione si misura in bit. Il grafico dell andamento di un generico addendo in (5) è illustrato in Figura 4(b), che evidenzia come si possa estenderne la definizione anche per f i = 0, ponendola uguale a 1. Per ogni i vale f i log f i 0, dunque H 0. Per ogni i vale f i log f i = 0 se e solo se f i = 0 oppure f i = 1, pertanto H = 0 se e solo se ci si trova in condizione di massima omogeneità (e cioè tutti gli elementi del campione assumono lo stesso valore). In caso invece di massima eterogeneità si avrà f i = 1 s e quindi H = log s, e si può dimostrare che in tal caso l entropia assume il valore massimo. Sulla base del punto precedente si può definire l indice di entropia normalizzato H = H (6) log s i cui valori variano tra 0 e 1. Analogamente a quanto visto per l indice di Gini, le Figure 5 e 6 mettono in evidenza che anche l entropia è un buon indice per valutare l eterogeneità in un campione: il suo valore tende ad aumentare all aumentare dell eterogeneità e a diminuire al diminuire di quest ultima. Example 1.2. Si considerino nuovamente i dati in Tabella 1. Per essi l indice di entropia assume il valore H = 3 8 3 191 2 8 191 34 2 191 4 34 191 58 62 58 191 8 4 191 8 62 191 3 8 191 8 191 1 1 191 3 2.48 (7) 191 L indice normalizzato assume invece il valore H = H 0.72 (8) log 2 11 4

3.5 0.35 3.0 0.30 2.5 0.25 2.0 0.20 1.5 0.15 1.0 0.10 0.5 0.05 (a) (b) Figura 4: I grafici (a) della funzione di autoinformazione e (b) di un generico addendo in (5) al variare in (0, 1] di f i. 1.0 0.8 0.6 0.4 0.2 Figura 5: Grafico dell andamento dell entropia per campioni contenenti due dfferenti valori. Figura 6: Andamento dell entropia per campioni contenenti tre differenti valori, espresso tramite (a) curve di livello in cui colori più scuri corrispondono a valori più alti, e (b) grafico tridimensionale. 5

2 Indici di concetrazione In presenza di variabili che rappresentano beni condivisibili in una popolazione, come per esempio la ricchezza, ci si può chiedere quanto la variabile sia equamente distribuita tra gli individui della popolazione, oppure quanto sia concentrata solo su un numero ridotto di osservazioni. Questo concetto è diverso dalla varianza, che misura la dispersione dei valori intorno a un valore medio. Date n osservazioni, indichiamo con a 1,..., a n il loro elenco una volta che queste sono state ordinate. Successivamente calcoliamone il valore medio ā = 1 n n a i (9) e sommiamole, ottenendo TOT = nā = n a i. Possiamo avere due situazioni estreme: a) in caso di concentrazione minima tutti gli elementi del campione assumono lo stesso valore: a 1 = a 2 = = a n = ā; in caso di concentrazione massima tutti gli elementi del campione assumono il valore 0, a parte uno: a 1 = a 2 = = a n 1 = 0 e a n = nā. In generale allora ci può interessare valutare un indice di concentrazione, che valga 0 oppure 1 nei casi rispettivamente di concentrazione minima e massima, e che sia negli altri casi sia un valore crescente in funzione della concentrazione. Consideriamo: la frequenza relativa cumulata fino all i-esima osservazione: F i = i n, per i = 1,..., n, e la quantità relativa cumulata fino all i-esima osservazione: Q i = Si verifica facilmente che 0 F i 1 e 0 Q i 1; i k=1 a k TOT. Q i F i dal momento che le osservazioni sono state ordinate in modo crescente; Q i = F i nel caso di concentrazione minima; Q n = F n. Per i = 1,..., n le coppie (F i, Q i ) indicano che il 100F i % della popolazione detiene il 100Q i % della quantità considerata. Se si considerano i punti sul piano che sono identificati da queste coppie: nel caso di concentrazione minima tutti i punti (F i, Q i ) giacciono sulla retta F = Q: possiamo dunque dire che in questo caso F i Q i = 0 per ogni i; 6

nel caso di concentrazione massima i punti (F i, Q i ) per i = 1,..., n 1 giacciono sulla retta Q = 0, tranne l ultimo per cui F n = Q n = 1: dunque in questo caso F i Q i = F i per i = 1,..., n 1 e F n Q n = 0. Nei casi intermedi si avrà dunque che i punti staranno su una curva sotto la retta F = Q, dato che Q i F i, e più tale curva si allontana dalla retta, più la concentrazione è alta. L area compresa tra la curva dei punti (F i, Q i ) e la retta di equidistribuzione (la retta a 45 ) è detta area di concentrazione e può essere utilizzata come base per la definizione di appositi rapporti di concentrazione, di cui l indice di Gini costituisce un esempio. Maggiore infatti è la concentrazione osservata, maggiore sarà tale area. Definition 2.1 (Indice di concentrazione Gini). Si definisce indice di concentrazione (o coefficiente) di Gini il rapporto tra la quantità e il suo valore massimo G = n 1 F i Q i n 1 F i n 1 F i Q i n 1 F i = 1 n 1 i = 1 (n 1)n (n 1) = n n 2 2 (10) (11) Per quanto appena visto, 0 G 1, e G = 2 n 1 n 1 F i Q i Example 2.1. Nel rapporto Istat che potete scaricare all indirizzo http:// www.istat.it/it/archivio/136932 si puo apprezzare l uso di alcuni indici riassuntivi visti finora. Nel rapporto si legge che: le famiglie residenti in Italia hanno percepito un reddito netto pari in media a 29 426 e: viene quindi comunicato il reddito medio delle famiglie. Questa informazione viene poi arricchita dicendo che tuttavia, la metà delle famiglie residenti in Italia ha percepito, nel 2012, un reddito netto non superiore a 24 215 e l anno : la mediana informa che metà delle famiglie ha percepito un reddito inferiore a quello medio. Per dare un quadro ancora più preciso della distribuzione del reddito, si informa che Il 20% più ricco delle famiglie residenti in Italia percepisce il 37, 7% del reddito totale, mentre al 20% più povero spetta il 7, 9%. Leggiamo queste informazioni su una possibile curva di Lorenz, illustrata nella Figura 7: la freccia rossa indica la percentuale del reddito complessivo posseduta dal 20% della popolazione (il 7, 9%), la freeccia blu indica la percentuale di reddito posseduta dall 80% della 7

Figura 7: Sull asse delle ascisse c è la percentuale di individui (F i ), su quello delle ordinate c è la ricchezza relativa cumulata (G i ). popolazione (il 62, 3%), e indica perciò che il restante 20% della popolazione detiene il 37, 7% del reddito complessivo. Per paragonare la diversa concentrazione del reddito nelle tre regioni dell Italia, si confrontano i corrispondenti indici di concentrazione di Gini: La disuguaglianza misurata dall indice di Gini (pari allo 0, 32 a livello nazionale) mostra un valore più elevato nel Mezzogiorno (0, 34), inferiore nel Centro (0, 31) e nel Nord (0, 29). L area tra la curva di Lorenz relativa al reddito nazionale e la retta di equidistribuzione è dunque uguale a 0, 32. 8