Corso di Laurea in Economia e Finanza Statistica 1 A.A. 2015/2016 (8 CFU, corrispondenti a 48 ore di lezione frontale e 24 ore di esercitazione) Prof. Luigi Augugliaro 1 / 81
La variabilità: esiste la Statistica perché il mondo è vario Introduzione Nell immaginario popolare la Statistica è spesso associata alla famosa poesia di Trilussa:... te tocca un pollo all anno e, se non entra nelle spese tue t entra ne la statistica lo stesso perch é c è un antro che ne magna due... Trilussa aveva ragione: la media aritmetica tra 0 (polli mangiati dal protagonista della poesia) e 2 (polli mangiati all antro della poesia) è proprio 1! L esempio precedente mostra che esistono situazioni in cui la media aritmetica fornisce informazioni che contraddicono la realtà. 2 / 81
Di seguito vengono riportati i redditi medi mensili rilevati su cinque famiglie residenti al Nord, su cinque famiglie residenti al Centro e su cinque famiglie residenti al Sud. Nord 1199.999 1199.994 1200.000 1200.003 1200.004 Centro 1198.620 1193.720 1199.620 1203.020 1205.020 Sud 1186.200 1137.200 1196.200 1230.200 1250.200 Sulla base della descrizione del fenomeno, possiamo utilizzare le medie secondo Chisini per sintetizzare i dati; dato che il fenomeno ha natura additiva si ricava che possiamo utilizzare la media aritmetica semplice: x n = 6000 5 = 1200 x c = 6000 5 = 1200 x s = 6000 5 = 1200 3 / 81
Il livello di rappresentatività di una media L esempio precedente mostra che i tre campioni (Nord, Centro e Sud) sono indistinguibili mediante l utilizzo della sola misura di tendenza centrale. In questo caso ha senso chiedersi se x sintetizza in ugual modo i campioni considerati. A tal fine consideriamo i quadrati degli scarti tra i valori osservati e le medie calcolate: (x i x) 2 Nord 0.000001 0.000036 0.000000 0.000009 0.000016 Centro 1.904400 39.438400 0.144400 9.120400 25.200400 Sud 190.440000 3943.840000 14.440000 912.040000 2520.040000 L esempio precedente mostra che la misura di tendenza centrale utilizzata è un ottima misura di sintesi quando studiamo i redditi delle famiglie residenti al nord; in questo caso i valori rilevati sono molto vicini alla propria media aritmetica semplice. Quando consideriamo i campioni provenienti dal centro e dal sud, si osserva che la capacità di sintesi della media aritmetica semplice si riduce (i valori osservati si allontanano dalla propria misura di tendenza centrale). 4 / 81
Definizione La variabilità esprime la tendenza delle unità statistiche ad assumere diverse modalità del carattere. Le costanti sintetiche sviluppate per misurare la variabilità prendono il nome di indici di variabilità. Gli indici di variabilità si dividono in due grosse categorie: indici di variabilità assoluta; indici di variabilità relativa; 5 / 81
Gli indici di variabilità assoluta Tutti gli indici di variabilità assoluta soddisfano le seguenti proprietà: i. risultano nulli se e solo se tutti gli x i sono uguali fra loro; ii. assumono valori positivi se i valori x i risultano diversi fra di loro. I valori degli indici risultano tanto più elevati quanto più elevata è la variabilità fra le x i ; iii. ogni indice risulta invariante per traslazione: il valore fornito dall indice non cambia se si aggiunge una costante a ciascun x i ; iv. la misura di variabilità è espressa nella stessa unità di misura dei valori x i. 6 / 81
Gli indici di variazione Gli indici di variazione trovano applicazione quando la serie statistica deriva da osservazioni fatte su n unità statistiche distinte. In questo contesto le medie di riferimento traggono origine dalla definizione di Chisini e dalla natura del fenomeno oggetto di studio. Se si assume che il fenomeno ha natura additiva, la famiglia di indici a cui si perviene ha espressione n V m = m i=1 x i x a m, (1) n dove m è una quantità maggiore di zero. Gli indici che si ricavano dall espressione (1) al variare del parametro m prendono il nome di indici di variazione. 7 / 81
Per m = 1, dalla generica espressione si ricava l indice di variazione n V m = m i=1 x i x a m, n n i=1 V 1 = x i x a n il quale prende il nome di scostamento o scarto semplice medio dalla media. L indice V 1 misura di quanto in media semplice i valori x i si scostano dalla media aritmetica semplice. 8 / 81
Per m = 2, dalla generica espressione si ricava l indice di variazione n V m = m i=1 x i x a m, n V 2 = n i=1 (x i x a ) 2 il quale prende il nome di scarto quadratico medio (o deviazione standard). L indice V 2 misura di quanto in media quadratica quadratica i valori x i si scostano dalla media aritmetica semplice. n 9 / 81
Il quadrato dell indice V 2, ovvero: n V2 2 i=1 = (x i x a ) 2 n è noto in letteratura come varianza. Benché la varianza non sia un indice di variabilità, dato che è espressa nel quadrato dell unità di misura dei dati, essa svolge un ruolo centrale nella costruzione di diverse metodologie statistiche sia descrittive che inferenziali. Il numeratore della varianza, ovvero prende il nome di devianza. Dev x = n (x i x a ) 2 i=1 10 / 81
Di seguito vengono riportati i redditi mensili rilevati su 10 famiglie. 1496.84 1498.34 1497.19 1500.36 1501.06 1501.07 1501.01 1492.57 1500.80 1502.03 Calcolare gli indici di variazione per m uguale ad 1 e 2. 11 / 81
Per facilitare il calcolo degli indici richiesti consideriamo la seguente tabella. x i x i x a x i x a (x i x a ) 2 1496.84-2.29 2.29 5.23 1501.07 1.94 1.94 3.78 1498.34-0.79 0.79 0.62 1501.01 1.88 1.88 3.55 1497.19-1.94 1.94 3.75 1492.57-6.56 6.56 42.99 1500.36 1.23 1.23 1.52 1500.80 1.67 1.67 2.80 1501.06 1.93 1.93 3.74 1502.03 2.90 2.90 8.43 14991.27 23.14 76.40 Da cui si ricava che il reddito medio mensile è pari a 1499.127. Gli indici di variazione sono uguali a V 1 = 23.14/10 = 2.314 (scostamento semplice medio dalla media) V 2 = 76.40/10 = 2.76 (scarto quadratico medio) 12 / 81
La relazione che segue consente di ottenere una formula utile per il calcolo dello scarto quadratico medio. Consideriamo la varianza: n V2 2 i=1 = (x i x a ) 2 n [ n ] = 1 (xi 2 + x a 2 2x i x a ) = n i=1 ( n ) = = 1 n n xi 2 + x a 2 2x i x a n ( n = 1 n i=1 ( n = 1 n i=1 i=1 x 2 i x 2 i i=1 + n x 2 a 2 x a + n x 2 a 2n x 2 a i=1 ) n x i = i=1 ) = n i=1 x 2 i n x 2 a. La formula precedente prende il nome di formula ridotta per il calcolo della varianza. 13 / 81
Applicando la formula ridotta per il calcolo della varianza si ricava quindi x i xi 2 1496.84 2240529.99 1501.07 2253211.14 1498.34 2245022.76 1501.01 2253031.02 1497.19 2241577.90 1492.57 2227765.20 1500.36 2251080.13 1500.80 2252400.64 1501.06 2253181.12 1502.03 2256094.12 14991.27 22473894.02 x a = 14991.27 = 1499.127 10 22473894.02 V 2 = 1499.127 10 2 = 2.76 14 / 81
La formula degli indici di variazione V m = m n i=1 x i x a m n viene applicata quando si dispone di una serie statistica di valori. Quando si dispone solamente della distribuzione di frequenze in classi, si ricorre alla sua versione ponderata: n V m = m i=1 x i c x a m n i n = m n i=1 x c i x a m f i dove xi c sono i valori centrali delle classi, n i sono le frequenze assolute e x a è la media aritmetica ponderata. Osservazione: in questo caso la formula ridotta della varianza diventa n V2 2 i=1 = (x i c)2 n i x a 2. n dove x a è la media aritmetica ponderata. 15 / 81
Esempio: il 22 gennaio 2015, l ISTAT ha reso noti i dati relativi al fatturato dell industria per l anno 2013. Di seguito è riportata la distribuzione di frequenze del fatturato rilevato su un campione di 56 aziende. Fatturato n i 50 60 5 60 70 9 70 80 13 80 90 22 90 100 7 Tot. 56 Calcolare la più adeguata misura di tendenza centra e di variabilità. 16 / 81
Dato che i dati sono rilevati su 53 aziende differenti, utilizzeremo l approccio secondo Chisini per la scelta della misura di tendenza centrale. In questo caso calcoleremo la media aritmetica ponderata e valuteremo la variabilità tramite lo scarto quadratico medio. Consideriamo la seguente tabella da cui si ricava Fatturato n i x c i x c i n i (x c i )2 (x c i )2 n i 50 60 5 55 275 3025 15125 60 70 9 65 585 4225 38025 70 80 13 75 975 5625 73125 80 90 22 85 1870 7225 158950 90 100 7 95 665 9025 63175 Tot. 56 4370 348400 x a = 4370 56 = 78.04 348400 V 2 = 78.04 56 2 = 131.19 = 11.45 17 / 81
Gli indici di dispersione Gli indici di dispersione fanno riferimento a dati che derivano da misure ripetute della stessa grandezza incognita X e quindi affetti da errore. Sotto ipotesi di additività della componente erratica (ɛ i ) il modello x i = X + ɛ i, consente di definite la migliore combinazione dei dati, denotata con x p 1, che minimizza la funzione di perdita dell informazione. La quantità x p 1 viene definita media decisionale. 18 / 81
In presenza di dati derivanti da misure ripetute (dati omogenei), la variabilità dei dati può essere misurata mediante uno degli indici appartenenti alla famiglia parametrica degli indici di dispersione n σ p = p i=1 x i x p 1 p, (2) n dove il parametro p > 0 dipende dalla natura probabilistica degli errori accidentali. 19 / 81
Osservazione E importante osservare che, benché la formula degli indici di dispersione, ovvero n σ p = p i=1 x i x p 1 p, n sia molto simile alla formula degli indici di variazione n V m = m i=1 x i x a m, n esiste una differenza sostanziale tra di loro: nella formula degli indici di dispersione la scelta del parametro p influenza anche la scelta del valore medio ( x p 1 ); negli indici di variazione la media aritmetica semplice ( x a ) è sempre utilizzare come valore medio indipendentemente dal valore del parametro m. 20 / 81
Indice di dispersione σ p = p n i=1 x i x p 1 p n Per p = 1 si ricava l indice di dispersione n i=1 σ 1 = x i x 0 n il quale prende il nome di scostamento o scarto semplice medio dalla mediana. L indice σ 1 misura di quanto in media semplice i valori x i si scostano dal valore mediano. Indice di variazione n V m = m i=1 x i x a m, n Per m = 1 si ricava l indice di variazione n i=1 V 1 = x i x a n il quale prende il nome di scostamento o scarto semplice medio dalla media. L indice V 1 misura di quanto in media semplice i valori x i si scostano dalla media aritmetica semplice. 21 / 81
Indice di dispersione σ p = p n i=1 x i x p 1 p n Per p = 2 si ricava l indice di dispersione n i=1 (x i x 1 ) 2 σ 2 = il quale prende il nome di scarto quadratico medio (o deviazione standard). L indice σ 2 misura di quanto in media quadratica quadratica i valori x i si scostano dalla media aritmetica semplice. n Indice di variazione n V m = m i=1 x i x a m, n Per m = 2 si ricava l indice di variazione n i=1 (x i x a ) 2 V 2 = il quale prende il nome di scarto quadratico medio (o deviazione standard). L indice V 2 misura di quanto in media quadratica quadratica i valori x i si scostano dalla media aritmetica semplice. n Note: dato il ruolo centrale dello scarto quadratico medio e della varianza, si è soliti semplificare la notazione utilizzando i simboli σ e σ 2. 22 / 81
Quando p +, dalla formula σ p = p n i=1 x i x p 1 p n si ricava σ = x (n) x (1) 2 il quale prende il nome di semi-intervallo di variazione. In letteratura l indice 2σ = x (n) x (1) prende il nome di intervallo di variazione e costituisce un indice di variabilità assoluta parziale spesso impiegato per ottenere una valutazione approssimata della variabilità. 23 / 81
La seguente tabella riporta 15 misure sperimentali rilevate in un punto di un circuito elettrico tramite voltmetro digitale. 4.073 4.192 4.296 4.492 4.514 4.630 4.990 5.011 5.099 5.185 5.426 5.538 6.011 6.291 6.839 Misurare la variabilità dei dati riportati in tabella attraverso l utilizzo degli indici di dispersione definiti per p = 1, 2 e per p +. 24 / 81
Per poter calcolare gli indici di dispersione richiesti è necessario calcolare le medie decisionali corrispondenti a p = 1, 2 e p +. Dopo aver ordinato i dati in ordine crescente si ricavano le seguenti medie decisionali 4.073 4.192 4.296 4.492 4.514 4.630 4.990 5.011 5.099 5.185 5.426 5.538 6.011 6.291 6.839 x 0 = 5.011 x 1 = 5.106 x = x (15) + x (1) 2 = 5.456 25 / 81
x i xi 2 x i x 0 x i x 0 4.073 16.589-0.938 0.938 4.192 17.573-0.819 0.819 4.296 18.456-0.715 0.715 4.492 20.178-0.519 0.519 4.514 20.376-0.497 0.497 4.630 21.437-0.381 0.381 4.990 24.900-0.020 0.020 5.011 25.110 0.000 0.000 5.099 26.000 0.089 0.089 5.185 26.884 0.174 0.174 5.426 29.441 0.415 0.415 5.538 30.669 0.527 0.527 6.011 36.132 1.000 1.000 6.291 39.577 1.280 1.280 6.839 46.772 1.829 1.829 76.587 400.094 1.424 9.202 26 / 81
Mediante l utilizzo dei dati riportati nella tabella precedente si ricava: n i=1 p = 1 x 0 = 5.011 σ 1 = x i x 0 = 9.202 = 0.613 Volt n 15 n i=1 p = 2 x 1 = 5.106 σ 2 = x i 2 400.094 x 0 2 n = 5.106 15 2 = 0.777 Volt p + x = 5.456 σ = x (15) x (1) 2 = 1.383 Volt 27 / 81
In molte applicazioni non si dispone della serie originale dei dati, ma soltanto della distribuzione di frequenze in classi. In questo caso l espressione (2) viene sostituita con n σ p = p i=1 x i c x p 1 p n i n n xi c x p 1 p f i, = p i=1 dove xi c è il valore centrale della classe i-esima, n i è la corrispondente frequenza assoluta e x p 1 è la media decisionale. 28 / 81
Esempio Di seguito viene riportata la distribuzione di frequenza in classi ottenuta mediante un campione di 50 misurazioni sperimentali relative alle resistenze elettrice di isolamento. X n i 40 44 2 44 48 10 48 52 25 52 56 11 56 60 2 Totale 50 Assumendo che gli errori seguano una distribuzione gaussiana, calcolare il più opportuno indice di dispersione. 29 / 81
Assumendo che gli errori seguano una distribuzione gaussiana, il più opportuno indice di dispersione è lo scarto quadratico medio. X xi c (xi c)2 n i xi c n i (xi c)2 n i 40 44 42 1764 2 84 3528 44 48 46 2116 10 460 21160 48 52 50 2500 25 1250 62500 52 56 54 2916 11 594 32076 56 60 58 3364 2 116 6728 Totale 50 2504 125992 Utilizzando i dati in tabella si ricava che x 1 = 2504 50 = 50.08 125992 σ 2 = 50.08 50 2 = 3.44 30 / 81
Proprietà della varianza Teorema Sia x 1, x 2,... x n una serie statistica di dati e consideriamo la trasformata lineare y i = α + βx i, con i = 1, 2,..., n. Indichiamo con σ 2 x la varianza calcolata sul primo campione. Denotata con σ 2 y la varianza calcolata sui valori y 1, y 2,..., y n, si dimostra che σ 2 y = β 2 σ 2 x. Dimostrazione n σy 2 i=1 = (y i ȳ a ) 2 n i=1 = [α + βx i (α + β x a )] 2 n n n i=1 = (βx i β x a ) 2 n i=1 = [β(x i x a )] 2 n n n = β 2 i=1 (x i x a ) 2 = β 2 σ 2 n x. = 31 / 81
Esempio: nel 2009 il prezzo di un determinato bene, denotato con X, è stato caratterizzato da uno scarto quadratico medio pari a 56.76 euro. Sapendo che il tasso di cambio Euro/Dollaro (USA) è 1.2283 (un euro equivale a 1.2283$) il candidato calcoli lo scarto quadratico medio del prezzo del bene X valutato in dollari. Soluzione Utilizzando il teorema si ricava che α = 0, β = 1.2283 quindi lo scarto quadratico medio del prezzo del bene X valutato in dollari è ottenuto mediante la formula σ y = β σ x quindi σ y = 1.2283 56.76 = 69.71831. 32 / 81
Il precedente teorema consente di dimostrare la proprietà di invarianza per traslazione dello scarto quadratico medio (proprietà iii. degli indici di variabilità assoluta). Corollario Sia x 1, x 2,... x n una serie statistica di dati. Se si aggiunge una costante α ai valori rilevati lo scarto quadratico medio non varia. Dimostrazione Aggiungere una costante α ai valori osservati è equivalente a definire la traslazione Dal teorema precedente si ricava che dato che il parametro β è uguale ad 1. y i = α + x i. σ y = σ x, 33 / 81
Indici di diversità Se consideriamo una variabile quantitativa di tipo discreto, derivante da enumerazioni, non ha senso logico calcolare le differenze di ciascun valore x i da una media decisionale o da una media secondo il Chisini. In questo caso risulta più conveniente valutare la variabilità dei valori osservati mediante una opportuna media delle diversità fra i singoli valori, senza far ricorso a valori medi di riferimento. Gli indici statistici proposti per valutare la variabilità delle variabili quantitative discrete sono chiamati indici di diversità. 34 / 81
Esempio: la tabella che segue riporta il numero di unità difettose prodotte da un processo produttivo nel primo semestre dell anno 2010. 8 1 3 5 6 9 35 / 81
Dato che il concetto di diversità si fonda sul confronto dei singoli valori, consideriamo la seguente tabella. N. guasti N. guasti 1 3 5 6 8 9 1 0 2 4 5 7 8 3 2 0 2 3 5 6 5 4 2 0 1 3 4 6 5 3 1 0 2 3 8 7 5 3 2 0 1 9 8 6 4 3 1 0 La tabella precedente riporta il valore assoluto della differenza di tutte le possibili coppie di valori osservati, ovvero x i x j, con i j. Sulla base dei precedenti valori, un primo indici mediante il quale valutare la diversità è definito come media dei valori in tabella, ovvero: R 1 = 2 56 6 2 = 3.11 Differenza semplice media con ripetizione Osservando che gli elementi sulla diagonale principale sono nulli, possiamo quantificare la variabilità tramite la seguente formula 1 = 2 56 6 2 6 = 2 56 6(6 1) = 3.73 Differenza semplice media senza ripetizione 36 / 81
In formule i due indici calcolati in precedenza, ovvero la differenza semplice media con ripetizione e senza ripetizione, possono essere scritti nel seguente modo: R 1 = 1 = n i,j=1 x i x j n 2 n i,j=1 x i x j n(n 1) E da notare che, per la simmetria della matrice di tutte le possibili difference in coppie fra gli n valori osservati e per il fatto che la diagonale principale è composta da valori nulli, il calcolo del numeratore degli indici precedenti può essere riscritto nel seguente modo n x i x j = 2 x i x j i,j=1 i<j il quale consente di dimezzare il calcolo di tutte le possibile coppie. 37 / 81
La differenza semplice media con ripetizione e senza ripetizione sono casi particolari di due famigli di indici di diversità: R m = m = ( n i,j=1 x ) i x j m 1/m, (3) n 2 ( n i,j=1 x ) i x j m 1/m, (4) n(n 1) dove m > 0. La famiglia di indici di diversità definita tramite la formula (3) prende il nome di differenza media potenziata di ordine m con ripetizione, mentre la famiglia di indici definiti tramite la formula (4) prende il nome di differenza media potenziata di ordine m senza ripetizione. Note: Fra gli innumerevoli indici che si possono definire al variare del parametro m, gli unici che vengono comunemente impiegati in pratica sono quelli corrispondenti a m = 1. 38 / 81
L esempio visto in precedenza mostrava il calcolo degli indici R 1 e 1 utilizzando una serie di valori. Quando si dispone di una distribuzione di frequenze, la procedura mostrata in precedenza si modifica al fine di tener conto delle frequenze assolute. Esempio: di seguito si riportata la distribuzione di frequenze della variabile numero di unità difettose prodotte da un processo produttivo nel primo semestre dell anno 2010. Da cui si ricavano le matrici x n i 1 1 3 2 6 2 7 1 Totale 6 N. guasti N. guasti 1 3 6 7 1 2 5 6 3 3 4 6 1 7 x i x j n i n j x i x j n i n j 1 3 6 7 3 12 8 6 2 1 4 10 6 7 39 / 81
Utilizzando la matrice x i x j n i n j x i x j n i n j 1 3 6 7 3 12 8 6 2 1 4 10 6 7 si ricava che R 1 = 2 42 6 2 = 2.33 1 = 2 42 6 5 = 2.8 40 / 81
Quando si lavora con una distribuzione di frequenze le formule (3) e (4), utilizzate per il calcolo della differenza media potenziata di ordine m con e senza ripetizione, vengono modificate nel seguente modo: R m = m = ( n i,j=1 x ) i x j m 1/m n i n j, n 2 ( n i,j=1 x ) i x j m 1/m n i n j. n(n 1) Quando m è uguale ad 1 si ricava: R 1 = 1 = n i,j=1 x i x j n i n j n 2, Differenza semplice media con ripetizione n i,j=1 x i x j n i n j. Differenza semplice media senza ripetizione n(n 1) 41 / 81
Esempio: il direttore di un centro di ricerca e sviluppo di un azienda produttrice di accessori per smartphone è interessato a valutare la performance di un nuovo tipo di batteria. A tal fine è stata rilevata la variabile numero di ricariche settimanali. Di seguito si riporta la distribuzione di frequenze ottenuta. Ricariche n i 6 14 7 29 8 16 9 24 10 32 Tot. 115 Valutare la variabilità tramite i più adeguati indici statistici. 42 / 81
Per valutare la variabilità della variabile numero di ricariche settimanali utilizziamo gli indici R 1 e 1. A tal fine costruiamo la tabella Dalla tabella precedente si ricava: n i 14 29 16 24 32 n i X 6 7 8 9 10 14 6 406 448 1008 1792 29 7 464 1392 2784 16 8 384 1024 24 9 768 R 1 = 2 10470 115 2 = 1.58 (differenza semplice media con ripetizione) 1 = 2 10470 = 1.60 (differenza semplice media senza ripetizione) 115 114 43 / 81
Esempio: Una delle problematiche più sentite nel mondo del commercio elettronico è la sicurezza nelle modalità di pagamento. Al fine di evitare il furto di informazioni e dei dati personali del venditore e del cliente, i siti di commercio elettronico utilizzano livelli di crittografia elevati. Di seguito è riportata la distribuzione di frequenze della variabile numero mensile di furti di dati. X n i 0 5 1 8 2 9 3 8 4 4 5 2 Tot. 36 Valutare la variabilità tramite i più adeguati indici statistici. 44 / 81
Per valutare la variabilità della variabile numero di ricariche settimanali utilizziamo gli indici R 1 e 1. A tal fine costruiamo la tabella Dalla tabella precedente si ricava: n i 5 8 9 8 4 2 n i X 0 1 2 3 4 5 5 0 40 90 120 80 50 8 1 72 128 96 64 9 2 72 72 54 8 3 32 32 4 4 8 R 1 = 2 1010 36 2 = 1.59 (differenza semplice media con ripetizione) 1 = 2 1010 = 1.60 36 35 (differenza semplice media senza ripetizione) 45 / 81
Gli esempi precedenti mostrano che il calcolo degli indici di diversità si complica al crescere della dimensione della matrice con tutte le possibili differenze a coppie. La formula di De Finetti-Paciello consente il calcolo del numeratore degli indici R 1 e 1 senza ricorrere all utilizzo della tabella. Consideriamo la seguente distribuzione di frequenza. x i n i 2 3 6 5 7 6 9 4 12 2 Totale 20 46 / 81
Il calcolo della formula di De Finetti-Paciello si fonda sull utilizzo delle frequenze assolute cumulate. Consideriamo la seguente tabella. x i n i ni c n ni c ni c(n nc i ) x (i+1) x (i) ni c(n nc i )(x (i+1) x (i) ) 2 3 3 20 3 = 17 3 17 = 51 6 2 = 4 51 4 = 204 6 5 8 20 8 = 12 8 12 = 96 7 6 = 1 96 1 = 96 7 6 14 20 14 = 6 14 6 = 84 9 7 = 2 82 2 = 168 9 4 18 20 18 = 2 18 2 = 36 12 9 = 3 36 3 = 108 12 2 20 Totale 20 576 Utilizzando i dati riportati in tabella la formula di De Finetti-Paciello fornisce i seguenti risultati R 1 = 2 k 1 i=1 nc i (n nc i )(x (i+1) x (i) ) n 2 = 2 576 20 2 = 2.88 1 = 2 k 1 i=1 nc i (n nc i )(x (i+1) x (i) ) = 2 576 n(n 1) 20 19 = 3.03 47 / 81
Esempio: Il direttore di un supermercato è interessato a valutare la distribuzione del numero di prodotti giornalmente rubati. Di seguito si riporta la distribuzione di frequenza ottenuta dopo 53 giorni lavorativi. N. Prodotti n i 1 4 2 7 3 8 4 8 5 11 6 15 Totale 53 Valutare la variabilità tramite i più adeguati indici statistici. 48 / 81
Per calcolare la differenza semplice media con e senza ripetizione, utilizziamo la formula di De Finetti-Paciello. Consideriamo la seguente tabella. x i n i ni c n ni c ni c(n nc i ) 1 4 4 49 196 2 7 11 42 462 3 8 19 34 646 4 8 27 26 702 5 11 38 15 570 6 15 53 Totale 53 2576 Dato che le differenze x (i+1) x (i) sono tutte uguali al valore 1, le ultime due colonne possono essere omesse. Utilizzando i dati riportati in tabella otteniamo i seguenti risultati R 1 = 2 k 1 i=1 nc i (n nc i )(x (i+1) x (i) ) n 2 = 2 2576 53 2 = 1.83 1 = 2 k 1 i=1 nc i (n nc i )(x (i+1) x (i) ) n(n 1) = 2 2576 53 52 = 1.87 49 / 81
Indici di eterogeneità Gli indici di variabilità fin qui presentati possono essere utilizzati solo per variabili quantitative. Definizione L eterogeneità misura la variabilità delle frequenze relative f i senza coinvolgere le modalità del carattere in esame. Se tutte le unità statistiche sono portatrici della medesima modalità del carattere oggetto dello studio, diremo che l eterogeneità è nulla o siamo in presenza di massima concentrazione. x n f f 2 x 1 n 1 1 1 x 2 0 0 0.... x k 1 0 0 0 x k 0 0 0 Totale n 1 1 50 / 81
Se tutte le unità statistiche sono ripartite uniformemente fra le k modalità del carattere, allora l eterogeneità è massima o siamo in presenza di concentrazione nulla: x n f f 2 x 1 n/k 1/k 1/k 2 x 2 n/k 1/k 1/k 2.... x k 1 n/k 1/k 1/k 2 x k n/k 1/k 1/k 2 Totale n 1 1/k 51 / 81
Per valutare l eterogeneità di una distribuzione, utilizzeremo l indice proposto da Gini k { 0 eterogeneità nulla G = 1 fi 2 = 1 1 k = k 1 k massima eterogeneità i=1 La versione normalizzata dell indice di Gini è ottenuta rapportando l indice G al suo massimo valore G = k k 1 G. 52 / 81
Esempio: supponiamo di aver rilevato su un gruppo di soggetti, separatamente per i due sessi, il titolo di studio. Si vuole confrontare l eterogeneità delle due distribuzioni. Femmine x i n i f i fi 2 Lic. Media 2 0.17 0.03 Maturità 7 0.58 0.34 Laurea 3 0.25 0.06 Totale 12 1.00 0.43 Si ricava che G = 1 0.043 = 0.57 e G = kg k 1 = 3 0.57 3 1 = 0.85. 53 / 81
da cui si ricava che Uomini x i n i f i fi 2 Lic. Media 4 0.27 0.0729 Maturità 6 0.40 0.1600 Laurea 5 0.33 0.1089 Totale 15 1.00 0.3418 G = 1 0.3418 = 0.6582 G = kg k 1 = 3 0.6582 = 0.9873 3 1 Si deduce che la distribuzione dei maschi è più eterogenea. 54 / 81
Gli indici di variabilità relativa In molte applicazioni è utile confrontare la variabilità di due o più serie di valori. In questo caso gli indici di variabilità assoluta, studiati nelle pagine precedenti, non possono essere applicati per due ordini di motivi: gli indici di variabilità assoluta sono espressi nella stessa unità di misura dei dati quindi non consentono confronti fra serie di valori con diversa unità di misura; anche se le serie considerate sono espresse nella stessa unità di misura, possono essere caratterizzate da un diverso ordine medio di grandezza. In questi casi è necessario considerare gli indici di variabilità relativa. Gli indici di variabilità relativa sono dei numeri puri, ossia numeri privi di unità di misura. 55 / 81
I coefficienti di variazione Gli indici di variazione n V m = m i=1 x i x a m, n trovano applicazione quando la serie statistica deriva da osservazioni fatte su n unità statistiche distinte (approccio secondo Chisini). Per rimuovere gli effetti derivanti dall unità di misura dei dati e dall ordine medio di grandezza del fenomeno, si rapporta l indice V m al valore assoluto del corrispondente valore medio, ovvero: V m x a. (5) La famiglia di coefficienti definita in precedenza prende il nome di coefficiente di variazione. La quantità (5) è un numero puro (indice adimensionale) dato che numeratore e denominatore sono espressi nella stessa unità di misura dei dati. 56 / 81
Nelle applicazione il parametro m è usualmente uguale a 2; in questo caso il coefficiente ricavato dalla formula (5) è il seguente CV = V 2 x a il quale è talmente importante da prendere il nome dell intera famiglia di coefficienti, ovvero coefficiente di variazione. Note: nelle applicazioni si è soliti riportare il coefficiente di variazione CV moltiplicato per 100, ma questo può portare in errore nella valutazione del valore ottenuto. CV è una misura relativa alla media e la sola valutazione sensata è come percentuale della media. 57 / 81
Esempio. Un azienda di credito ha ripartito un campione di 143 dei propri clienti in due categorie definite solvente e insolvente. La tabella seguente riporta la distribuzione dei finanziamenti concessi dall azienda di credito in funzione delle due categorie considerate. Tipologia Solvente Insolvente Finanziamenti n i n i 1.0 1.5 2 25 1.5 2.0 10 13 2.0 2.5 18 7 2.5 3.0 29 2 3.0 3.5 36 1 Tot. 95 48 Il candidato confronti la distribuzione di frequenze dei clienti di tipo solvente con quella di tipo insolvente mediante le più opportune misure di tendenza centrale e di variabilità. 58 / 81
Sulla base della descrizione del fenomeno in esame si deduce che la più opportuna misura di tendenza centrale è la media definita secondo Chisini; dato che il fenomeno in esame ha natura additiva utilizzeremo la media aritmetica ponderata per confrontare le due distribuzioni. Per confrontare le due distribuzioni in termini di variabilità utilizzeremo il coefficiente di variazione. Consideriamo i clienti di tipo solvente e quindi la tabella da cui si ricava che x s = 257.25 95 x c i n i x c i n i (x c i )2 (x c i )2 n i 1.25 2 2.50 1.5625 3.1250 1.75 10 17.50 3.0625 30.6250 2.25 18 40.50 5.0625 91.1250 2.75 29 79.75 7.5625 219.3125 3.25 36 117.00 10.5625 380.2500 Tot. 95 257.25 724.4375 = 2.71 σ s = 724.4375 95 2.71 2 = 0.53 e CV s = 0.53 2.71 = 0.20 59 / 81
Consideriamo i clienti di tipo insolvente e quindi la tabella da cui si ricava che x i = 78.50 48 x c i n i x c i n i (x c i )2 (x c i )2 n i 1.25 25 31.25 1.5625 39.0625 1.75 13 22.75 3.0625 39.8125 2.25 7 15.75 5.0625 35.4375 2.75 2 5.50 7.5625 15.1250 3.25 1 3.25 10.5625 10.5625 Tot. 48 78.50 140 = 1.64 σ i = 140 48 1.642 = 0.48 e CV i = 0.48 1.64 = 0.29 Conclusioni. Sulla base dei risultati ottenuti si ricava che il livello medio dei finanziamenti concessi ai clienti di tipo solvente è maggiore rispetto a quello concesso ai clienti di tipo insolvente. Il confronto dei due coefficienti di variazione mostra che la distribuzione dei finanziamenti concessi ai clienti di tipo solvente è leggermente meno variabile di quella dei clienti di tipo insolvente; nel primo caso la variabilità dei finanziamenti concessi è uguale al 20% dei finanziamenti medi, mentre aumenta al 29% quando si considerano clienti di tipo insolvente. 60 / 81
I coefficienti di dispersione Gli indici di dispersione n σ p = p i=1 x i x p 1 p, n trovano applicazione quando la serie statistica deriva da osservazioni ripetute fatte sullo stesso oggetto/soggetto (approccio secondo medie decisionali). Per rimuovere gli effetti derivanti dall unità di misura dei dati e dall ordine medio di grandezza del fenomeno, si rapporta l indice σ p al valore assoluto della corrispondente media decisionale, ovvero: σ p x p 1. (6) La famiglia di coefficienti definita in precedenza prende il nome di coefficiente di dispersione. La quantità (6) è un numero puro (indice adimensionale) dato che numeratore e denominatore sono espressi nella stessa unità di misura dei dati. 61 / 81
I coefficienti di diversità Per definire gli indici di variabilità relativa per le variabili quantitative discrete, la logica che si segue è quella di rapportare l indice 1 (o R 1 ) al suo valore massimo teorico. Si dimostra che il valore più grande che può assumere la differenza semplice media senza ripetizione è uguale a 2 x a, da cui si ricava quello che è noto in letteratura come coefficiente di diversità semplice media senza ripetizione: 1 max 1 = 1 2 x a. (7) Note: dato che il coefficiente (7) è definito rapportando il numeratore al suo massimo teorico, esso viene interpretato come percentuale della variabilità totale. Nel caso in cui si decide di lavorare con l indice R 1, la corrispondente versione normalizzata può essere ottenuta dalla relazione: n i,j=1 1 = x i x j = n n i,j=1 x i x j n(n 1) n 1 n 2 = n n 1 R 1 62 / 81
Esempio: Il direttore di un supermercato è interessato a valutare la distribuzione del numero di prodotti giornalmente rubati. Di seguito si riporta la distribuzione di frequenza ottenuta dopo 53 giorni lavorativi. N. Prodotti n i 1 4 2 7 3 8 4 8 5 11 6 15 Totale 53 Valutare la variabilità tramite i più adeguati indici statistici. 63 / 81
Per calcolare la differenza semplice media con e senza ripetizione, utilizziamo la formula di De Finetti-Paciello. Consideriamo la seguente tabella. X n i x i n i ni c n ni c ni c(n nc i ) 1 4 4 4 49 196 2 7 14 11 42 462 3 8 24 19 34 646 4 8 32 27 26 702 5 11 55 38 15 570 6 15 90 53 Totale 53 219 2576 Utilizzando i dati riportati in tabella otteniamo i seguenti risultati x a = 219 53 = 4.13; 1 = 1.87; 1 2 x a = 0.23. Il coefficiente di diversità semplice medio senza ripetizione mostra che la variabilità della variabile numero di prodotti giornalmente rubati è il 23% della massima variabilità raggiungibile. 64 / 81
La concentrazione La concentrazione di un carattere X deriva dalla possibilità di trasferire l ammontare del fenomeno da un unità statistica ad un altra, avvicinandosi o allontanandosi dalla situazione di equidistribuzione dell ammontare complessivo del carattere. In tal caso il carattere viene definito trasferibile. Per esempio, sapendo che in Italia, nel 2011, l ammontare dei redditi da lavoro dipendente era di 654836 milioni di euro, possiamo essere interessati a sapere come questo ammontare fosse ripartito fra le diverse famiglie italiane. Se la maggior parte dell ammontare del reddito era detenuto da poche famiglie possiamo dire che il reddito era concentrato, al contrario se ogni famiglia deteneva la stessa quantità di reddito possiamo dire che questo era equidistribuito tra le famiglie. Il problema è definire un indice che fornisca informazioni in merito alla vicinanza alla situazione di perfetta concentrazione o di perfetta equisistribuzione. 65 / 81
Supponiamo di considerare il reddito annuo di 8 individui percepito nel 2010. La seguente tabella riporta i valori rilevati: 22900.94 23782.56 20311.44 23596.39 24617.35 22369.54 20785.09 21237.88 dai valori precedenti si ricava che il reddito complessivo è uguale a n i=1 x i = 179601.2 e che il reddito medio è x = 22450.15. Definizione Diremo che il carattere quantitativo trasferibile X è equidistribuito quando l ammontare complessivo del carattere è ripartito equamente tra le n unità statistiche. Con riferimento all esempio precedente 22450.15 22450.15 22450.15 22450.15 22450.15 22450.15 22450.15 22450.15 66 / 81
Definizione Diremo che il carattere quantitativo trasferibile X è concentrato quando l ammontare complessivo del carattere è posseduto solamente da una sola unità statistica. Con riferimento all esempio precedente si ricava: 179601.2 0.0 0.0 0.0 0.0 0.0 0.0 0.0 Note: La concentrazione del carattere evidenzia in modo più efficace e più interpretabile la variabilità dei caratteri trasferibili. La corrispondenza con il concetto di variabilità è immediato: se non esiste concentrazione (situazione di perfetta equidistribuzione) allora la variabilità è nulla, diversamente se la concentrazione è massima allora anche la variabilità sara massima. 67 / 81
Consideriamo un carattere quantitativo trasferibile X, osservato su un collettivo di n unità statistiche ed ordiniamo in senso non decrescente i valori osservati; in altri termini consideriamo la sequenza ordinata Indichiamo con: x (1) x (2)... x (n). A i = x (1) + x (2) +... x (i) l ammontare di carattere posseduto dalle i unità più povere (A n è l ammontare complessivo del carattere); Q i = A i /A n la frazione di carattere posseduto dalle i unità più povere; F i = i/n la frequenza relativa cumulata delle prime i unità. Note. Le quantità Q i ed F i forniscono informazioni in merito alla concentrazione. Se si è nel caso in cui l ammontare del carattere X è equidistribuito fra le n unità statistiche si ha che, per ogni i, Q i = F i poiché come ogni unità è un n-esimo dell intero collettivo anche il suo ammontare è un n-esimo dell ammontare totale; Se invece si è nel caso di massima concentrazione, tutte le Q i, esclusa Q n che è necessariamente uguale ad 1, valgono zero. In tutte le situazioni intermedie vale la relazione che F i Q i. 68 / 81
Considerando le differenze (F i Q i ), queste saranno tutte uguali a zero nel caso di equidistribuzione, tutte uguali ad F i ( escluso il caso i = n per il quale la differenza è zero) nel caso di massima concentrazione e tutte non negative nei casi intermedi di concentrazione. Le osservazioni precedenti conducono alla definizione del seguente indice: n n 1 C = (F i Q i ) = (F i Q i ). i=1 Note. La sommatoria arriva fino al termine (n 1)-esimo, poiché l n-esima differenza è sempre uguale a 0 essendo Q n = F n = 1. i=1 69 / 81
L indice C assume i seguenti valori estremi C = { 0 in condizione di perfetta equidistribuzione dato che F i = Q i ; n 1 i=1 F i in condizione di massima concentrazione dato che Q i = 0 Per trasformare l indice C in un indice di concentrazione relativo, variabile tra 0 ed 1, basterà dividerlo per il suo valore massimo. Con tale operazione si ottiene l indice di concentrazione chiamato rapporto di concentrazione del Gini: Osservando che R = C n 1 i=1 F i n 1 F i = i=1 n 1 i=1 = n 1 i=1 (F i Q i ) n 1 i=1 F = 1 i i n = 1 n 1 n i=1 i = 1 n n(n 1) 2 n 1 i=1 Q i n 1 i=1 F. i = n 1 2, si ricava che l indice R può essere calcolato come n 1 i=1 R = 1 2 i n 1. 70 / 81
Con riferimento all esempio precedente si ricava da cui si ricava che x (i) A i Q i 20311.44 20311.44 0.11 20785.09 41096.53 0.23 21237.88 62334.41 0.35 22369.54 84703.95 0.47 22900.94 107604.89 0.60 23596.39 131201.28 0.73 23782.56 154983.84 0.86 24617.35 179601.19 Tot. 3.35 R = 1 2 3.35 = 0.04 7 ovvero siamo in presenza di quasi perfetta equidistribuzione del reddito (minima concentrazione) tra le otto unità considerate. 71 / 81
Esempio. Di seguito vengono riportati gli introiti pubblicitari (in milioni) ottenuti a fine anno dalle nove emittenti radiofoniche di una determinata nazione. Emittente Introiti Emittente 1 339 Emittente 2 461 Emittente 3 697 Emittente 4 1320 Emittente 5 1524 Emittente 6 1798 Emittente 7 1857 Emittente 8 1889 Emittente 9 1994 Valutare la concentrazione tramite il rapporto di concentrazione del Gini. 72 / 81
Per calcolare l indice R, consideriamo la seguente tabella: Emittente Introiti Ai Qi Emittente 1 339 339 0.03 Emittente 2 461 800 0.07 Emittente 3 697 1497 0.13 Emittente 4 1320 2817 0.24 Emittente 5 1524 4341 0.37 Emittente 6 1798 6139 0.52 Emittente 7 1857 7996 0.67 Emittente 8 1889 9885 0.83 Emittente 9 1994 Tot. 11879 2.85 da cui si ricava R = 1 2 2.85 = 0.287. 8 Il rapporto di concentrazione del Gini (R = 0.287) mostra che l ammontare complessivo degli introiti pubblicitari (pari a 11879) è abbastanza ben equidistribuito tra le diverse emittenti. 73 / 81
Associato al rapporto di concentrazione del Gini vi è un interessante grafico chiamato spezzata di regressione o curva di Lorenz, dal nome del primo autore che ne ha proposto l impiego. Il grafico è ottenuto costruendo un grafico cartesiano dove in ascissa riportiamo i valori F i e in ordinata i valori Q i. Definizione Si definisce spezzata do concentrazione o curva di Lorenz la poligonale congiungente le n coppie di valori (F i, Q i ). Note. Dato che per ogni coppia (F i, Q i ) in generale si ottiene che F i Q i si deduce che la curva di Lorenz giace sotto la bisettrice del primo-terzo quadrante. Osserviamo inoltre che ogni Q i ed F i è compreso tra 0 ed 1. 74 / 81
F i Q i 0.00 0.00 0.11 0.03 0.22 0.07 0.33 0.13 0.44 0.24 0.56 0.37 0.67 0.52 0.78 0.67 0.89 0.83 1.00 1.00 Q i 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 F i La linea continua è la poligonale congiungente le coppie di valori (F i, Q i ) ovvero la spezzata di Lorenz. 75 / 81
F i Q i 0.00 0.00 0.11 0.03 0.22 0.07 0.33 0.13 0.44 0.24 0.56 0.37 0.67 0.52 0.78 0.67 0.89 0.83 1.00 1.00 Q i 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 F i Il segmento tratteggiato congiungente i punti di coordinate (0, 0) e (1, 1) prende il nome di retta di equidistribuzione e descrive l andamento delle coppie (F i, Q i ) in caso di perfetta equidistribuzione dell ammontare complessivo del carattere. 76 / 81
F i Q i 0.00 0.00 0.11 0.03 0.22 0.07 0.33 0.13 0.44 0.24 0.56 0.37 0.67 0.52 0.78 0.67 0.89 0.83 1.00 1.00 Q i 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 F i L area compresa tra la curva di Lorenz e la retta di equidistribuzione è chiamata area di concentrazione. Nel caso di equidistribuzione l area di concentrazione è nulla dato che la retta di equidistribuzione e la spezzata di Lorenz coincidono. 77 / 81
Q i 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 F i Quando ci troviamo in condizione di massima concentrazione, allora Q i = F i = 0 per i = 1,..., n 1 mentre Q n = F n = 1. Graficamente l area di concentrazione è uguale all are del triangolo rettangolo mostrato nel grafico. E facile vedere che, in questo caso, l area di concentrazione è pari ad 1/2. 78 / 81
Si dimostra che il rapporto di concentrazione del Gini è approssimativamente uguale al rapporto tra l area di concentrazione e la massima area di concentrazione, ovvero R area di concentrazione massima area di concentrazione = 2 area di concentrazione. = area di concentrazione 1/2 La relazione precedente è utilizzata per approssimare il rapporto di concentrazione del Gini quando si lavora con una distribuzione di frequenze in classi. Applicando la formula per area dei trapezi per il calcolo dell area di concentrazione si ricava l approssimazione: k 1 R = 1 (F i+1 F i )(Q i + Q i+1 ) dove i. k è il numero di classi; ii. F i = nc i iii. Q i = n ij=1 xi c n i i=0 sono le frequenze relative cumulate; kj=1 x i c n i e x c i è il valore centrale dell i-esima classe; Note: il calcolo dell indice precedente può essere semplificato osservando che F i+1 F i = f i = n i /n, ovvero la frequenza relativa dell i-esima classe. = 79 / 81
Esempio: di seguito è riportata la distribuzione di frequenza dei redditi mensili rilevati su un campione di 100 famiglie. classi n i 1.0 1.5 40 1.5 2.0 20 2.0 2.5 20 2.5 3.0 13 3.0 3.5 7 Tot. 100 Calcolare il rapporto di concentrazione del Gini. 80 / 81
Per calcolare il rapporto di concentrazione del Gini consideriamo la seguente tabella: x c i n i x c i n i i j=1 x c i n i Q i Q i + Q i+1 n i (Q i + Q i+1 ) 1.25 40 50.00 50.00 0.27 0.27 10.80 1.75 20 35.00 85.00 0.45 0.72 9.00 2.25 20 45.00 130.00 0.69 1.14 22.80 2.75 13 35.75 165.75 0.88 1.57 20.41 3.25 7 22.75 188.50 1.00 1.88 13.16 Tot. 100 188.50 76.17 da cui si ricava R = 1 k 1 i=0 n i(q i + Q i+1 ) = 0.24. n Il rapporto di concentrazione del Gini (R = 0.24) mostra che il reddito complessivo mensile delle 100 famiglie è quasi perfettamente equidistribuito tra le 100 famiglie. 81 / 81