Statistica (Prof. Capitanio) Slide n. 1 Materiale di supporto per le lezioni. Non sostituisce il libro di testo
MEDIA GEOMETRICA M g = x g = n n x i i=1 1
PROPRIETA 1) Identità di prodotto ( ) n n M = x g i i=1 2
10000 investiti nell acquisto di obbligazioni a tasso variabile Anno Esempio 3.3.1 del libro di testo (Borra-Di Ciaccio, pag. 57) Tasso di interesse Tasso di interesse % Capitale a fine anno (in ) - - - 10000 I 0.015 1.5 10150.0 II 0.020 2.0 10353.0 III 0.072 7.2 11098.4 IV 0.090 9.0 12097.3 V 0.074 7.4 12992.5 VI 0.045 4.5 13577.1 Qual è il tasso di interesse medio annuo? Tasso fisso che permette di avere a fine periodo lo stesso capitale (13577.1 ) 3
13577.1=10000 1.015 1.020 1.045 Media geometrica degli incrementi annui: 6 1.015 1.020 1.072 1.045 = 1.0523 Un investimento a tasso fisso annuo pari al 5.23% porta al capitale finale: 10000 1.0523 6 = 10000 1.015 1.020 1.045=13577.1 4
La media aritmetica dei tassi di interesse sovrastima il tasso medio X = 1.5 + 2 + 7.2 + 9 + 7.4 + 4.5 6 = 5.27 Se applichiamo questo tasso fisso il capitale finale è diverso da quello che si ottiene con l investimento a tasso variabile. 5
MISURE DI VARIABILITA VARIABILITA Tendenza delle unità del collettivo ad assumere diverse modalità di un carattere Campo di variazione R = x max x min 6
Un indicatore della variabilità deve: RAGGIUNGERE IL SUO VALORE MINIMO QUANDO TUTTE LE MODALITÀ SONO UGUALI AUMENTARE DI VALORE ALL AUMENTARE DELLA DIVERSITÀ FRA LE MODALITÀ 7
La Media Aritmetica X rappresenta l ipotesi di equidistribuzione del carattere EQUIDISTRIBUZIONE TUTTE LE MODALITA SONO UGUALI ASSENZA DI VARIABILITA Misuriamo la variabilità in termini di allontanamento dall equidistribuzione 8
VARIANZA σ 2 =Var(X ) = 1 n n i=1 (x i X ) 2 MEDIA DELLE DIFFERENZE AL QUADRATO FRA CIASCUNA MODALITA E LA MEDIA ARITMETICA 9
σ 2 = 1 n n i=1 (x i X ) 2 Var(X ) = 0 tutte le modalità sono uguali (e quindi coincidono con la media aritmetica) 10
Distribuzione di numerosità Var(X ) = 1 n k j =1 (x j X ) 2 n j x j Distribuzione di frequenza Var(X ) = (x j X ) 2 f j j =1 k 11
DEVIANZA n Var(X ) = Dev(X ) i=1 n Dev(X ) = (x i X ) 2 Proprietà n Dev(X ) = 2 x nx 2 = x 2 n nx 2 i j j i=1 k j =1 12
Inoltre si ha: 1 n Dev (X ) = 1 n 2 x nx 2 n i = M(X 2 ) X 2 i =1 75
SCARTO QUADRATICO MEDIO (Deviazione standard) σ = σ(x ) = Var(X ) E espresso nella stessa unità di misura di X σ 2 =Var(X ) = n i=1 x i 2 nx 2 n Unità di misura di X al quadrato σ(x ) fornisce una indicazione riguardo a quanto mediamente ciascuna modalità dista dalla media aritmetica 13
X n j x j x j 2 n j X = 21.37 0 10 310 5 7750 10 25 375 17.5 114843.75 25 40 168 32.5 177450 40 60 132 50 330000 60 100 15 80 96000 Totale 1000 726043.75 Dev(X ) = k x 2 n nx 2 = 726043.75 1000 21.37 2 = 269260 j j j=1 14
X n j x j x j 2 n j X = 21.37 0 10 310 5 7750 10 25 375 17.5 114843.75 25 40 168 32.5 177450 40 60 132 50 330000 60 100 15 80 96000 Totale 1000 726043.75 Dev(X ) = k x 2 n nx 2 = 726043.75 1000 21.37 2 = 269260 j j j=1 Var(X ) = Dev(X ) n = 269260 1000 = 269.26 15
X n j x j x j 2 n j 0 10 310 5 7750 10 25 375 17.5 114843.75 25 40 168 32.5 177450 40 60 132 50 330000 60 100 15 80 96000 Totale 1000 726043.75 Var(X ) = Dev(X ) n = 269260 1000 = 269.26 σ(x ) = Var(X ) = 269.26 = 16.41 16
X n q j j x = X x 2 n j j j j 0 10 310 2325 7.5 17437.50 10 25 375 6862.5 18.3 125583.75 25 40 168 5460 32.5 177450.00 40 60 132 7312.8 55.4 405129.12 60 100 15 1278 85.2 108885.60 Totale 1000 23238.3 834485.97 2325 310 Come valore rappresentativo di ciascuna classe scegliamo la media aritmetica Dev(X ) = k x 2 n nx 2 = 834485.97 1000 23.24 2 = 294467 j j j=1 17
PROPRIETA 1) Se le modalità sono tutte uguali Var(X ) = 0 e σ(x ) = 0 2) Var(aX ) = a 2 Var(X ) La Varianza non è espressa nella stessa unità di misura del carattere, ma del suo quadrato. 18
3) σ(ax ) = aσ(x ) Lo Scarto quadratico medio è espresso nella stessa unità di misura del carattere. Es.: Var(X ) = 269.26 σ(x ) = Var(X ) = 16.41 Varianza e sqm in decine di migliaia di euro 1 Var 10 X = 1 10 2 Var(X ) = 269.26 100 = 2.6926 σ 1 10 X = 1 16.41 σ(x ) = 10 10 = 1.641 19
Se aggiungiamo alle osservazioni un valore costante, la varianza resta inalterata Var(b + ax ) = a 2 Var(X ) La stessa proprietà vale per lo scarto quadratico medio. σ(b + ax ) = aσ(x ) Aggiungere un valore costante traslazione La distanza di ciascuna modalità dalla media non cambia 20
CONFRONTO TRA 2 COLLETTIVI IN TERMINI DI VARIABILITA Sia Var(X ) che σ(x ) risentono dell unità di misura e dell ordine di grandezza del carattere non possono essere usati per confrontare la variabilità di due collettivi 21
COEFFICIENTE DI VARIAZIONE Reddito annuo per CV = σ(x) X 200 operai: σ(x ) = 200 X = 13000 CV = 200 13000 = 0.0154 200 dirigenti: σ(x ) = 1000 X = 80000 CV = 1000 80000 = 0.0125 22
SCOMPOSIZIONE DELLA DEVIANZA 1, 2, 3, 4, 1, 2, 3, 4, 1, 2, 3, 4 n = 12 = 2.5 = 15 Se suddividiamo i dati in gruppi, la media aritmetica complessiva può essere calcolata come media pesata delle medie di ciascun gruppo. 23
Gruppo 1 Gruppo 2 Gruppo 3 Gruppo 4 1, 1, 1 2, 2, 2 3, 3, 3 4, 4, 4 Se vogliamo quantificare la variabilità le cose cambiano. 24
Sappiamo che = 15 Gruppo 1 Gruppo 2 Gruppo 3 Gruppo 4 1, 1, 1 2, 2, 2 3, 3, 3 4, 4, 4 = 0 = 0 = 0 = 0 A partire dalle devianze dei 4 gruppi non riusciamo a ricostruire la devianza complessiva. 25
n unità k gruppi ciascuno di numerosità devianza del gruppo j-esimo media del gruppo j-esimo Devianza ENTRO (variabilità interna ai gruppi) Devianza TRA (variabilità fra i gruppi) 26
gruppo tutte le unità sono uguali è zero quando all interno di ciascun è zero quando le medie di ciascun gruppo sono uguali (fra le medie dei gruppi non c è variabilità) 27
Gruppo 1 Gruppo 2 Gruppo 3 Gruppo 4 1, 1, 1 2, 2, 2 3, 3, 3 4, 4, 4 = 0 = 0 = 0 = 0 Dev TOT (X ) = Dev TRA (X ) = (1 2.5) 2 3 + (2 2.5) 2 3 + (3 2.5) 2 3 + + (4 2.5) 2 3 = 15 104
Gruppo 1 Gruppo 2 Gruppo 3 1, 2, 3, 4 1, 2, 3, 4 1, 2, 3, 4 29
Nell azienda A lavorano 105 impiegati; la media e la devianza degli anni di servizio sono rispettivamente e. Per i 90 impiegati che lavorano nell azienda B si ha invece e. Calcolare la media e la devianza degli anni di servizio per gli impiegati delle due aziende nel loro complesso. 110
SCARTO INTERQUARTILE Q 1, Q 2 e Q 3 dividono la distribuzione in 4 parti di uguale numerosità Tra Q 1 e Q 3 c è il 50% delle unità SCARTO INTERQUARTILE W = Q 3 Q 1 Indica quanto è ampio l intervallo che contiene il 50% delle unità le cui modalità sono attorno alla mediana 31
BOX PLOT Q 1 Q 3 Fatturato (X) 450 4 4 0.11 600 5 9 0.26 850 7 16 0.46 1000 10 26 0.74 1350 7 33 0.94 7000 1 34 0.97 9500 1 35 1.00 Totale 35 25% 50% 75% 32
Me=1000 R = x max x min = 9500 450 = 9050 W = Q 3 Q 1 = 1350 600 = 750 baffo superiore 1350 + 1.5 750 = 2475 2 valori anomali: 7000 e 9500 baffo inferiore 600-1.5 750 = -525 33
36
OMOGENEITA ED ETEROGENEITA Minima ETEROGENEITA (massima OMOGENEITA ) Tutte le unità del collettivo presentano la stessa modalità f 1 = f 2 = = f j 1 = f j +1 = = f k = 0 e f j = 1 Massima ETEROGENEITA (minima OMOGENEITA ) Tutte le modalità sono presenti con la stessa frequenza f 1 = f 2 = = f j = = f k = 1 k 37
Esempio (pag. 94) del libro di testo (Borra, Di Ciaccio) Distribuzione di frequenza dei viaggi per vacanza degli italiani nel 2005, rispetto alla tipologia di alloggio. Tipologia di alloggio f j Alberghi 0.320 Altre strutture collettive 0.111 Abit./stanze in affitto 0.085 Abitazioni di proprietà 0.130 Abitazioni di parenti/amici 0.338 Altri alloggi privati 0.016 Totale 1.000 Osserviamo una situazione intermedia. 38
Indice di ETEROGENEITA di Gini k j =1 E 1 = 1 f j 2 0 E 1 k 1 k Indice relativo: E 1 max(e 1 ) = k k 1 E 1 39
k j =1 E 1 = 1 f j 2 Minima eterogeneità: f 1 = f 2 = = f j 1 = f j +1 = = f k = 0 e f j = 1 E 1 = 1 1 2 = 0 Massima eterogeneità: f 1 = f 2 = = f j = = f k = 1 k E 1 = 1 k 1 = 1 1 k = k 1 k j =1 k 2 40
ENTROPIA k j =1 E 2 = f j log(f j ) 0 E 2 log(k) Indice relativo: E 2 max(e 2 ) = E 2 log(k) [assumiamo 0log(0)=0] 41
Distribuzione di frequenza dei viaggi per vacanza degli italiani nel 2005, rispetto alla tipologia di alloggio. Tipologia di alloggio f j f j 2 Alberghi 0.320 0.102 Altre strutture collettive 0.111 0.012 Abit./stanze in affitto 0.085 0.007 Abitazioni di proprietà 0.130 0.017 Abitazioni di parenti/amici 0.338 0.114 Altri alloggi privati 0.016 0.000 Totale 1.000 0.252 E 1 max(e 1 ) = k k 1 (1 k f 2 ) = 6 j j =1 (1 0.252) = 0.898 6 1 (89.8% della massima eterogeneità possibile) 42
Tipologia di alloggio f j f j 2 f j log(f j ) Alberghi 0.320 0.102-0.365 Altre strutture collettive 0.111 0.012-0.244 Abit./stanze in affitto 0.085 0.007-0.210 Abitazioni di proprietà 0.130 0.017-0.265 Abitazioni di parenti/amici 0.338 0.114-0.367 Altri alloggi privati 0.016 0.000-0.066 Totale 1.000 0.252-1.517 E 2 max(e 2 ) = k j =1 f j ln(f j ) ln(k) = 1.517 1.792 = 0.847 (84.7% della massima eterogeneità possibile) 43