La per Statistica Alfonso Iodice D Enza iodicede@gmail.com Università degli studi di Cassino () Statistica 1 / 1
Outline 1 La La per () Statistica 2 / 1
Outline La per 1 La 2 per () Statistica 2 / 1
Outline La per 1 La 2 per () Statistica 2 / 1
Outline La per 1 La 2 per 4 () Statistica 2 / 1
Outline La per 1 La 2 per 4 5 () Statistica 2 / 1
Outline La per 1 La 2 per 4 5 6 () Statistica 2 / 1
Outline La per 1 La 2 per 4 5 6 7 () Statistica 2 / 1
Il concetto di La per La si definisce come l attitudine di un fenomeno ad assumere modalità differenti. La può essere misurata in diversi modi: () Statistica / 1
Il concetto di La per La si definisce come l attitudine di un fenomeno ad assumere modalità differenti. La può essere misurata in diversi modi: delle singole modalità x 1, x 2,..., x n rispetto ad un indice di posizione mutua delle modalità x 1, x 2,..., x n ordinate in modo crescente (usando la f. di ripartizione) delle frequenze relative (applicabile anche a mutabili) () Statistica / 1
Requisiti per indici di La per Un indice per la misura della deve avere le seguenti caratteristiche () Statistica 4 / 1
Requisiti per indici di La per Un indice per la misura della deve avere le seguenti caratteristiche un indice di deve assumere valori maggiori o uguali a 0 () Statistica 4 / 1
Requisiti per indici di La per Un indice per la misura della deve avere le seguenti caratteristiche un indice di deve assumere valori maggiori o uguali a 0 un indice di calcolato su una distribuzione di costanti ugulae a 0 () Statistica 4 / 1
Requisiti per indici di La per Un indice per la misura della deve avere le seguenti caratteristiche un indice di deve assumere valori maggiori o uguali a 0 un indice di calcolato su una distribuzione di costanti ugulae a 0 aggiungendo una costante alla variabile osservata, il valore dell indice non deve cambiare () Statistica 4 / 1
Il concetto di mutabilità La per In caso di la del carattere espressa in termini di mutabilità, definita come l attitudine di un carattere ad assumere differenti modalità. () Statistica 5 / 1
Il concetto di mutabilità La per In caso di la del carattere espressa in termini di mutabilità, definita come l attitudine di un carattere ad assumere differenti modalità. perfetta omogeneità: tutte le unità statistiche assumono la stessa modalità del carattere qualitativo massima disomogeneità: le modalità del carattere hanno tutte la stessa frequenza assoluta (relativa) () Statistica 5 / 1
Il concetto di mutabilità La per In caso di la del carattere espressa in termini di mutabilità, definita come l attitudine di un carattere ad assumere differenti modalità. perfetta omogeneità: tutte le unità statistiche assumono la stessa modalità del carattere qualitativo massima disomogeneità: le modalità del carattere hanno tutte la stessa frequenza assoluta (relativa) Le situazioni intermedie sono caratterizzate da un diverso grado di. () Statistica 5 / 1
La per L misura la delle frequenze relative (f 1, f 2,..., f k ) delle k modalità del carattere. () Statistica 6 / 1
La per L misura la delle frequenze relative (f 1, f 2,..., f k ) delle k modalità del carattere. minima : si manifesta una sola modalità j la cui frequenza relativa f j = 1: un indice di deve avere valore 0 in questo caso massima : Le frequenze relative sono tutte uguali: f i = 1 k, con i = 1,..., k e k numero di modalità del carattere () Statistica 6 / 1
: l indice di Gini (G) La per L indice per la misura della proposto da Gini dato da k G = 1 i=1 f 2 i () Statistica 7 / 1
: l indice di Gini (G) La per L indice per la misura della proposto da Gini dato da k G = 1 i=1 in caso di minima, G = 0 in caso di massima l indice assume valore G = 1 1 k f 2 i () Statistica 7 / 1
: l indice di Gini (G) La per L indice per la misura della proposto da Gini dato da k G = 1 i=1 in caso di minima, G = 0 in caso di massima l indice assume valore G = 1 1 k Avendo definito il valore massimo dell indice, possibile ottenerne la versione normalizzata G f 2 i G = k G k 1 () Statistica 7 / 1
Esempio di applicazione dell indice di Gini (G) La per Una nuova azienda informatica immette sul mercato una gamma di prodotti. Dopo i primi sei mesi la vendita dei prodotti risulta ripartita tra le varie categorie secondo la seguente distribuzione di frequenze: () Statistica 8 / 1
Esempio di applicazione dell indice di Gini (G) La per Una nuova azienda informatica immette sul mercato una gamma di prodotti. Dopo i primi sei mesi la vendita dei prodotti risulta ripartita tra le varie categorie secondo la seguente distribuzione di frequenze: La colonna promo riguarda le frequenze delle vendite per categoria di prodotto dopo una politica di promozioni sui diversi prodotti () Statistica 8 / 1
Esempio di applicazione dell indice di Gini (G) La per () Statistica 9 / 1
Esempio di applicazione dell indice di Gini (G) La per k G = 1 fi 2 = 1 [(0.2094) 2 + i=1 + (0.55) 2 + (0.17) 2 + + (0.1071) 2 + (0.1964) 2 ] = = 1 0.257 = 0.76 () Statistica 9 / 1
Esempio di applicazione dell indice di Gini (G) La per G = 1 k fi 2 = 1 [(0.2094) 2 + i=1 + (0.55) 2 + (0.17) 2 + + (0.1071) 2 + (0.1964) 2 ] = = 1 0.257 = 0.76 l indice in versione normalizzata G dato da G = k G k 1 = 5 0.76 =.8165/4 = 0.9541 5 1 () Statistica 9 / 1
Esempio di applicazione dell indice di Gini (G) La per () Statistica 10 / 1
Esempio di applicazione dell indice di Gini (G) La per k G promo = 1 fi 2 = 1 [(0.045) 2 + i=1 + (0.1824) 2 + (0.0074) 2 + + (0.281) 2 + (0.1777) 2 ] = = 1 0.2652 = 0.748 () Statistica 10 / 1
Esempio di applicazione dell indice di Gini (G) La per G promo = 1 k fi 2 = 1 [(0.045) 2 + i=1 l indice in versione normalizzata G dato da + (0.1824) 2 + (0.0074) 2 + + (0.281) 2 + (0.1777) 2 ] = = 1 0.2652 = 0.748 G promo = k G k 1 = 5 0.748 =.678/4 = 0.9185 5 1 Risultando essere G > G promo si pu concludere che la politica di promozioni ha fatto diminuire l (aumentare l omogeneità) delle vendite nelle diverse categorie di prodotti () Statistica 10 / 1
Indice di dispersione per ordinate ordinate La per In caso di con modalità ordinabili è possibile calcolare l attraverso l indice di Gini. In questo modo tuttavia non si tiene conto della relazione d ordine che sussiste tra le modalità delle. L indice D L indice D per il calcolo della dispersione in ordinali si basa sulle frequenze cumulate F j e retrocumulate RF j, con j = 1,..., k, dove k è il numero di modalità della variabile. Ricordando che la frequenza relativa cumulata F j della j-esima modalità è data da: F j = f 1 + f 2 +... + f j e che la frequenza relativa retrocumulata RF j della j-esima delle K modalità del carattere è data da RF j = f j + f j+1 +... + f K ; L indice D è il seguente: D = k [F j (1 F j ) + RF j (1 RF j )] j=1 () Statistica 11 / 1
Indice di dispersione per ordinate ordinate La per Esempio di calcolo dell indice D D = t.studio absf reqs relf reqs F j RF j analfabeta 5 0.25 0.25 1.00 lic.elementare 5 0.25 0.50 0.75 lic.media 0.15 0.65 0.50 diploma 0.15 0.80 0.5 laurea 4 0.2 1.00 0.20 tot 20 1.00 k [F j (1 F j ) + RF j (1 RF j )] = j=1 = [0.25(1 0.25) + 1(1 1)] + [0.5(1 0.5) + 0.75(1 0.75)] + + [0.65(1 0.65) + 0.5(1 0.5)] + [0.8(1 0.8) + 0.5(1 0.5)] + + [1(1 1) + 0.2(1 0.2)] = 1.65 () Statistica 12 / 1
Definizione di varianza La per un indice che misura la di una variabile X rispetto alla media aritmetica. In particolare la varianza σ 2 data dalla media dei quadrati degli scarti (delle modalità dalla media) () Statistica 1 / 1
Definizione di varianza La per un indice che misura la di una variabile X rispetto alla media aritmetica. In particolare la varianza σ 2 data dalla media dei quadrati degli scarti (delle modalità dalla media) σ 2 = (x 1 µ) 2 + (x 2 µ) 2 +... + (x n µ) 2 = n = 1 n (x i µ) 2 n i=1 () Statistica 1 / 1
Definizione di varianza La per un indice che misura la di una variabile X rispetto alla media aritmetica. In particolare la varianza σ 2 data dalla media dei quadrati degli scarti (delle modalità dalla media) σ 2 = (x 1 µ) 2 + (x 2 µ) 2 +... + (x n µ) 2 = n = 1 n (x i µ) 2 n i=1 per dati organizzati in frequenze (seriazione) σ 2 = (x 1 µ) 2 n 1 + (x 2 µ) 2 n 2 +... + (x k µ) 2 n k = n 1 + n 2 +... + n k = 1 k (x i µ) 2 n i n i=1 () Statistica 1 / 1
Esempio di calcolo della varianza Data la variabile X : numero di esami sostenuti prima di quello di statistica osservata su un collettivo di n = 6 studenti La per () Statistica 14 / 1
Esempio di calcolo della varianza Data la variabile X : numero di esami sostenuti prima di quello di statistica osservata su un collettivo di n = 6 studenti La per () Statistica 14 / 1
Esempio di calcolo della varianza Data la variabile X : numero di esami sostenuti prima di quello di statistica osservata su un collettivo di n = 6 studenti La per sar dunque σ 2 = 1 n (x i µ) 2 = 50.8 n 6 i=1 = 8.4722 () Statistica 14 / 1
Massima La per () Statistica 15 / 1
Massima La può crescere indefinitamente perchè gli scarti delle modalità dalla media possono essere illimitatamente grandi per () Statistica 15 / 1
Massima La per può crescere indefinitamente perchè gli scarti delle modalità dalla media possono essere illimitatamente grandi La situazione di massima per un collettivo con media µ, si ha quando su n modalità, n 1 sono nulle ed una sola modalità x 0 i = nµ σ 2 1 n (x i µ) 2 = 1 n n ((n 1)(0 µ)2 + (nµ µ) 2 ) = i=1 = 1 n ((n 1)µ2 + µ 2 (n 1) 2 ) = = 1 n ((n 1)µ2 + µ 2 (n 2 + 1 2n)) = = 1 n (µ2 n(n 1)) = µ 2 (n 1) () Statistica 15 / 1
Le proprietà della varianza La per gode di alcune importanti propriet di seguito riportate: () Statistica 16 / 1
Le proprietà della varianza La per gode di alcune importanti propriet di seguito riportate: 1 di X sempre un numero non negativo ( 0) 2 di X pari a 0 se e solo se X una costante Se alla variabile X si aggiunge una costante, σ x non cambia 4 Se si moltiplica la variabile X per una costante b, si avr σ x = b 2 σ 2 x () Statistica 16 / 1
Le proprietà della varianza La per Le propriet e 4 dipendono dalla propriet di linearit della media aritmetica: si consideri Y = a + bx, con a e b costanti. Dalla propriet risulta che µ y = a + bµ x. Calcolando la varianza di Y si avr: σy 2 = 1 n (y i µ y ) 2 = n = 1 n = 1 n = b 2 1 n 1=1 n (y i (a + bµ x )) 2 = 1 n 1=1 n (bx i bµ x ) 2 = 1 n 1=1 n (a + bx i a bµ x ) 2 = 1=1 n b 2 (x i µ x ) 2 = 1=1 n (x i µ x ) 2 = b 2 σx 2 i=1 () Statistica 17 / 1
Lo scarto quadratico medio (standard deviation) La per Una difficoltà di interpretazione della varianza dipende dal fatto che tale indice espresso nell unità di misura al quadrato della variabile cui si riferisce. Per ovviare a questo problema si utilizza lo scarto quadratico medio σ, dato da () Statistica 18 / 1
Lo scarto quadratico medio (standard deviation) La per Una difficoltà di interpretazione della varianza dipende dal fatto che tale indice espresso nell unità di misura al quadrato della variabile cui si riferisce. Per ovviare a questo problema si utilizza lo scarto quadratico medio σ, dato da σ = 1 n (x i µ) n 2 i=1 () Statistica 18 / 1
Lo scarto quadratico medio (standard deviation) La per Una difficoltà di interpretazione della varianza dipende dal fatto che tale indice espresso nell unità di misura al quadrato della variabile cui si riferisce. Per ovviare a questo problema si utilizza lo scarto quadratico medio σ, dato da σ = 1 n (x i µ) n 2 i=1 dall esempio precedente risulta dunque σ = 50.8 6 = 2.9107 () Statistica 18 / 1
Il coefficiente di variazione (CV La per è un indice assoluto, dipende quindi dall unità di misura della variabile. Un indice relativo di è il coefficiente di variazione CV. E dato da CV = σ µ essendo un numero puro consente il confronto fra fenomeni rilevati in momenti diversi o espressi in unità di misura diverse () Statistica 19 / 1
Il coefficiente di variazione (CV La per è un indice assoluto, dipende quindi dall unità di misura della variabile. Un indice relativo di è il coefficiente di variazione CV. E dato da CV = σ µ essendo un numero puro consente il confronto fra fenomeni rilevati in momenti diversi o espressi in unità di misura diverse Limiti di utilizzo del CV è defnito solo se µ > 0 se µ 0 il CV tende a diventare molto grande () Statistica 19 / 1
Variabilità e modalità ordinate La per In caso di con modalità ordinabili è possibile definire degli indici di derivati dalla funzione di ripartizione empirica. Data la distribuzione unitaria ordinata di modalità {1, 5, 7, 1, 14, 15, 18, 18, 22, 2, 24, 25, 27, 28, 29} () Statistica 20 / 1
Variabilità e modalità ordinate La per In caso di con modalità ordinabili è possibile definire degli indici di derivati dalla funzione di ripartizione empirica. Data la distribuzione unitaria ordinata di modalità {1, 5, 7, 1, 14, 15, 18, 18, 22, 2, 24, 25, 27, 28, 29} il range (o campo di variazione) è dato da R(X) = max(x i ) min(x i = 29 1 = 27 il range inter-quartile (o campo di variazione interquartile) è dato da IQR(X) = Q Q 1 = 25 1 = 12 () Statistica 20 / 1
Variabilità e modalità ordinate La per In caso di con modalità ordinabili è possibile definire degli indici di derivati dalla funzione di ripartizione empirica. Data la distribuzione unitaria ordinata di modalità {1, 5, 7, 1, 14, 15, 18, 18, 22, 2, 24, 25, 27, 28, 29} il range (o campo di variazione) è dato da R(X) = max(x i ) min(x i = 29 1 = 27 il range inter-quartile (o campo di variazione interquartile) è dato da IQR(X) = Q Q 1 = 25 1 = 12 () Statistica 20 / 1
La per In presenza di caratteri trasferibili (reddito, risorde energetiche, consumo di beni) è di maggior interesse lo studio della tra le singole unità statistiche piuttosto che la rispetto a un centro. () Statistica 21 / 1
La per In presenza di caratteri trasferibili (reddito, risorde energetiche, consumo di beni) è di maggior interesse lo studio della tra le singole unità statistiche piuttosto che la rispetto a un centro. Differenza media semplice tale indice rappresenta la media dei valori assoluti delle differenze calcolate rispetto a tutte le possibili coppie di modalità. Esso corrisponde a n i j=1 = x i x j n(n 1) la quantità al denominatore (n(n 1)) rappresenta il numero di possibili coppie di n osservazioni. () Statistica 21 / 1
La Dato un carattere X osservato su n = 4 osservazioni {7, 14, 18, 24} per () Statistica 22 / 1
La per Dato un carattere X osservato su n = 4 osservazioni Differenza media semplice {7, 14, 18, 24} Il valore di sarà in questo caso 7 14 + 7 18 + 7 24 + 14 7 + 12 + 14 18 + 14 24 + 18 7 + 18 14 + 18 24 + 12 = + 24 7 + 24 14 + 24 18 12 = 110 12 = 9.1667 = () Statistica 22 / 1
mutua : minimo e massimo La per l indice assume il valore minimo ( = 0) quando tutte le modalità coincidono: in questo caso le differenze semplici sono nulle l indice assume il valore massimo quando tutte le modalità tranne una sono nulle: in tal caso si ha che = 2µ Dunque assume valore nell intervallo [0, 2µ]: è possibile ottenere una versione normalizzata: R = 2µ tale indice viene denominato rapporto di concentrazione di Gini () Statistica 2 / 1
Esercizio La per Si consideri un campione di n = 100 sportelli bancari e sia X : numero di operazioni effettuate presso uno sportello nell ultima settimana. Quesiti X Freq (n i ) [60, 62] 5 [6, 65] 18 [66, 68] 42 [69, 71] 27 [72, 74] 8 100 Calcolare un indice di tendenza centrale (media) Misurare la rispetto ad un centro (scostamento medio semplice e scarto quadratico medio) Misurare la mutua () Statistica 24 / 1
Esercizio: svolgimento Quesito 1 Calcolare un indice di tendenza centrale (media) La per Calcolo della media aritmetica Per calcolare la media aritmetica bisogna individuare i centri di ciascuna classe e tenere conto delle frequenze. Ricordando la formula della media aritmetica µ = ki=1 c i n i X Freq=n i centri=c i c i n i [60, 62] 5 61 05 [6, 65] 18 64 1152 [66, 68] 42 67 2814 [69, 71] 27 70 1890 [72, 74] 8 7 584 100 6745 n ki=1 c i n i 05 + 1152 + 2814 + 1890 + 584 µ = = = 67.45 n 100 () Statistica 25 / 1
Esercizio: svolgimento La per Quesito 2 Misurare la rispetto ad un centro : scostamento medio semplice Calcolo dello scostamento medio semplice Per ottenere lo scostamento medio semplice bisogna calcolare il valore assoluto degli scarti dei centri delle classi dalla media e tenere conto delle frequenze. Ricordando la formula dello scostamento medio semplice MD = ki=1 c i µ n i X Freq=n i centri=c i c i µ c i µ n i [60, 62] 5 61 6.45 2.25 [6, 65] 18 64.45 62.10 [66, 68] 42 67 0.45 18.90 [69, 71] 27 70 2.55 68.85 [72, 74] 8 7 5.55 44.40 100 226.5 n ki=1 c i µ n i 2.25 + 62.1 + 18.9 + 68.85 + 44.4 MD = = n 100 = 226.5 100 = 2.265 () Statistica 26 / 1
Esercizio: svolgimento La per Quesito 2 Misurare la rispetto ad un centro : scarto quadratico medio Calcolo della varianza Per ottenere lo scarto quadratico medio, si procede al calcolo della varianza che rappresenta il valore medio dei quadrati degli scarti dalla media aritmetica: bisogna calcolare i quadrati degli scarti dei centri delle classi dalla media e tenere conto delle frequenze. Ricordando la formula della varianza ki=1 s 2 (c i µ) 2 n i = n X Freq=n i centri=c i (c i µ) 2 (c i µ) 2 n i [60, 62] 5 61 41.60 208.0125 [6, 65] 18 64 11.90 214.245 [66, 68] 42 67 0.20 8.505 [69, 71] 27 70 6.50 175.5675 [72, 74] 8 7 0.80 246.42 100 852.75 s 2 208.0125 + 214.245 + 8.505 + 175.5675 + 246.42 = 100 da cui lo scarto quadratico medio s = 8.5275 = 2.92 = 852.75 100 = 8.5275 () Statistica 27 / 1
Esercizio: svolgimento La per Quesito 2 Misurare la rispetto ad un centro : scarto quadratico medio Calcolo della varianza Ripetendo il calcolo utilizzando la formula alternativa per il calcolo della varianza ki=1 s 2 c 2 i = n ( ki=1 ) 2 i c i n ki=1 i c 2 i = n i (µ) 2 N N N X Freq=n i centri=c i c 2 i c 2 i n i [60, 62] 5 61 721 18605 [6, 65] 18 64 4096 7728 [66, 68] 42 67 4489 18858 [69, 71] 27 70 4900 1200 [72, 74] 8 7 529 4262 100 45580 ki=1 s 2 c 2 i = n ( ki=1 ) 2 i c i = 45580 ( ) 6745 2 = 4558.0 4549.50 = 8.5275 N N 100 100 da cui lo scarto quadratico medio s = 8.5275 = 2.92 () Statistica 28 / 1
Esercizio: svolgimento La per Quesito Misurare la mutua : differenza media semplice Calcolo della mutua La differenza media semplice corrisponde al valore medio delle differenze tra le possibili coppie di modalità. = Ni j=1 x i x j N(N 1) la quantità al denominatore (N(N 1)) rappresenta il numero di possibili coppie di n osservazioni. Nel caso di intervalli di valori e di distribuzione di frequenze si fa riferimento ai centri delle classi c i e alle frequenze. La formula da utilizzare è la seguente = ki j=1 x i x j n i n j N(N 1) () Statistica 29 / 1
Esercizio: svolgimento Quesito Misurare la mutua : differenza media semplice La per X Freq=n i centri=c i [60, 62] 5 61 [6, 65] 18 64 [66, 68] 42 67 [69, 71] 27 70 [72, 74] 8 7 100 c i c j n i n j c i c j n i n j 1 90 270 2 6 210 1260 9 15 1215 4 12 40 480 5 90 270 6 756 2268 7 6 486 2916 8 9 144 1296 9 6 210 1260 10 756 2268 11 114 402 12 6 6 2016 1 9 15 1215 14 6 486 2916 15 114 402 16 216 648 17 12 40 480 18 9 144 1296 19 6 6 2016 20 216 648 1542 () Statistica 0 / 1
Esercizio: svolgimento Quesito Misurare la mutua : differenza media semplice metodo rapido. La per c i /c j 61 64 67 70 7 61 25 90 210 15 40 64 90 24 756 486 144 67 210 756 1764 114 6 70 15 486 114 729 216 7 40 144 6 216 64 c i c j n i n j 90 6 210 9 15 12 40 756 6 486 9 144 114 6 6 216 = 2 k 1 i=1 kj=(i+1) x i x j n i n j N(N 1) ( 90) + (6 210) + (9 15) +... + ( 216) = =.186 100 99 = () Statistica 1 / 1