Esercitazioni di Statistica Indici di posizione e di variabilità Prof. Livia De Giovanni lstatistica@dis.uniroma1.it Esercizio 1 Data la seguente distribuzione unitaria del carattere X: X : 4 2 4 2 6 4 0 4 0 2 4 4 a) Calcolare la media aritmetica utilizzando la distribuzione di frequenza; b) verificare che la somma degli scarti dalla media è zero; c) verificare che la somma degli scarti al quadrato dalla media è più piccola della somma degli scarti dal valore 2 (ciò vale per qualunque numero diverso dalla media aritmetica). 1
Soluzione X n i x i n i (x i -3) (x i -3)n i (x i -3) 2 n i (x i -2) (x i -2) 2 n i 0 2 0-3 -6 18-2 8 2 3 6-1 -3 3 0 0 4 6 24 1 6 6 2 24 6 1 6 3 3 9 4 16 n 12 36 0 36 48 a) k x i n i = 36 12 = 3 b) Si verifica che 4 (x i x)n i = 6 3 + 6 + 3 = 0 c) Si verifica che la somma degli scarti al quadrato dalla media 3 vale 4 (x i x) 2 n i = 18 + 3 + 6 + 9 = 36 mentre la somma degli scarti al quadrato dal valore 2 4 (x i 2) 2 n i = 8 + 0 + 24 + 16 = 48 Esercizio 2 Nel comune A il reddito medio annuo procapite è di 10 mila Euro, mentre nel comune B è di 15 mila. Calcolare il reddito medio dei due comuni sapendo che i residenti nel comune A sono 200, mentre quelli nel comune B sono 100. Soluzione Per risolvere il quesito si ricorre alla proprietà associativa della media aritmetica. Data una distribuzione unitaria x 1, x 2,... x n, ed una sua partizione in due (o più) distribuzioni parziali x 1, x 2,... x m e x m+1, x m+2,... x n, rispettivamente di n e n m unità, la media è associativa se, indicata con x la media aritmetica calcolata sulle n modalità, x m la media aritmetica calcolata sulle m modalità, e x n m la media aritmetica calcolata sulle n m modalità, risulta Infatti x = m x m + (n m) x n m n [( ) ( n x i = 1 1 m 1 x i m + n m n m n i=m+1 x i ) (n m) ] = 1 n [m x m + (n m) x n m ] 2
Si è sostituita alla distribuzione non nota con n modalità, una distribuzione nota con m modalità pari a x m e n m modalità pari a x n m : k x i n i x = 10 200 + 15 100 200 + 100 = 11.667 Il reddito medio è pari a circa 11700 Euro. Esercizio 3 Nel comune A il reddito medio annuo procapite è di 10 mila Euro, mentre nel comune B è di 20 mila. Calcolare il reddito medio dei due comuni sapendo che i residenti nel comune A sono il 50% di quelli nel comune B. Soluzione = k x i n i x = 10 n A + 20 n B n A + n B 10 0.5 + 20 0.5 + 1 = 16.667 = 10 0.5 n B + 20 n B 0.5 n B + n B Il valore medio del reddito (circa 17000 Euro) si è ottenuto dividendo numeratore e denominatore per n B nella prima riga. Esercizio 4 Un negozio nella mattina ha avuto 100 clienti, che hanno speso mediamente (media aritmetica) 50 Euro. Nel pomeriggio i clienti sono stati 200, e hanno speso mediamente 25 Euro. Qual è la spesa media dei 300 clienti dell intera giornata? Soluzione precedenti: Possiamo calcolare la spesa media in modo analogo rispetto agli esercizi k x i n i x = 50 100 + 25 200 100 + 200 = 33.3 La spesa media è stata di 33.3 Euro. Esercizio 5 In una stanza ci sono 12 persone con peso medio pari a 75 Kg. Se arriva un altra persona che pesa 60 kg, quale sarà il peso medio delle 13 persone? Soluzione media. x n = 1 n Per risolvere l esercizio si sfrutta di nuovo la proprietà associativa della = = n x i x 13 = 12 75 + 60 13 Il peso medio è di circa 74 kg. 13 x i 13 = 73.846 = 12 x i + x 13 13 = 12 x 12 + x 13 13 3
Esercizio 6 L altezza media dei bambini di una classe di 4 a elementare di 25 alunni è di 145 cm. Purtroppo ci si è accorti che lo strumento usato per la misurazione era stato posizionato male, cosicché ciascun bambino è risultato 7 cm più alto della sua statura reale. Qual è la vera altezza media dei 25 bambini? Soluzione 25 25 x errata = 145cm x errata i = x errata 25 x esatta i = x errata 25 7 25 x esatta = xerrata 25 7 25 25 = 145 7 = 138 La soluzione si sarebbe potuta trovare in modo immediato applicando la seguente proprietà della media, cioè se Y = a + bx, allora ȳ = a + b x, quindi, nel nostro caso X esatta = X errata 7, quindi x esatta = x errata 7. Esercizio 7 Il prezzo di un paio di jeans Diesel varia da negozio a negozio. Girando 5 negozi si sono trovati i seguenti prezzi Negozio Prezzo in $ Diesel 60 Teichner 80 Gap 50 Zita Fabiani 70 Cosco 60 Trovare il prezzo medio di un paio di jeans espresso in $, e poi convertirlo in Euro, sapendo che 1Euro = 1.54$. Soluzione x $ = 1 n n x $ i x $ = 60 + 80 + 50 + 70 + 60 5 = 64$ Per calcolare il valor medio in Euro si applichi la proprietà della media per cui se Y = a + bx, allora ȳ = a + b x. Sapendo che il tasso di cambio è di 1.54$ per ogni Euro, e che quindi, a = 0, b = 1/1.54 il prezzo medio in Euro sarà x Euro = x$ 1.54 = 41.558Euro 4
Esercizio 8 Con riferimento alla seguente distribuzione di un gruppo di 120 donne, secondo il numero di figli Numero Figli Donne x 1 0 20 x 2 1 50 x 3 2 20 x 4 3 10 x 5 4 20 Totale 120 a) Calcolare media, mediana e moda; b) Calcolare i quartili; c) Disegnare la funzione di ripartizione; d) Verificare che la somma degli scarti in valore assoluto dalla mediana è minore della somma degli scarti in valore assoluto dalla media aritmetica. Soluzione a) k x i n i x = 0 20 + 1 50 + 2 20 + 3 10 + 4 20 120 = 1.667, La mediana è il valore centrale di una distribuzione, ossia quel valore che divide i dati ordinati in due parti di uguale numerosità. Essa coincide con il secondo quartile Q2, il valore che si lascia a sinistra il 50% dei dati. Per calcolare la mediana è necessario calcolare le frequenze cumulate assolute N i, e relative F i : x i n i N i f i F i 0 20 20 0.167 0.167 1 50 70 0.416 0.583 2 20 90 0.167 0.750 3 10 100 0.083 0.833 4 20 120 0.167 1 Totale 120 Con riferimento alle frequenze assolute poiché n è pari la posizione relativa alla mediana n/2 = n 0.5 è un numero intero e pertanto ci sono due posizioni che si lasciano a sinistra e a destra almeno il 50% dei dati e cioè la 60 e la 61. Ad entrambe queste posizioni corrisponde il valore 1 (colonna delle frequenze cumulate assolute (20 = N 1 < 60 < N 2 = 70). Nel caso in cui n/2 = n 0.5 non risultasse un numero intero andrebbe arrotondato all intero successivo e la posizione mediana, e il relativo valore, una sola. 5
Equivalentemente sempre con riferimento alle frequenze assolute si può calcolare la profondità della mediana, cioè la sua posizione, e il suo valore. Poichè n è pari la posizione mediana non è un numero intero: prof(med) = n + 1 2 = 121 2 = 60.5, e la mediana si ottiene come semisomma delle modalità in posizione n/2 e (n/2 + 1): med = x (n/2) + x (n/2+1) 2 = 1 + 1 2 = 1, Con riferimento alle frequenze relative la mediana è quel valore tale che si lascia a sinistra il 50% dei dati F 1 < 0.5 < F 2 med = 1 Nel caso in cui risultasse (solo nel caso di n pari): F 1 = 0.5 < F 2 le posizioni mediane sarebbero due e anche i valori (modalità) mediani. La moda di una variabile casuale x, che assume k valori con diverse frequenze, è il valore di x al quale corrisponde la massima frequenza. In questo caso il valore modale è 1, quindi moda e mediana coincidono. b) Il primo quartile Q1 è il valore che si lascia a sinistra il 25% dei dati. Con riferimento alle frequenze assolute la posizione relativa al primo quartile n/4 = n 0.25 è un numero intero e pertanto ci sono due posizioni che si lasciano a sinistra almeno il 25% dei dati e a destra almeno il 75% e cioè la 30 e la 31. Ad entrambe queste posizioni corrisponde il valore 1 (colonna delle frequenze cumulate assolute (20 = N 1 < 30 < N 2 = 70). Nel caso in cui n/4 = n 0.25 non risultasse un numero intero andrebbe arrotondato all intero successivo e la posizione relativa al primo quartile, e il relativo valore, una sola. Con riferimento alle frequenze relative il primo quartile è quel valore tale che si lascia a sinistra il 25% dei dati F 1 < 0.25 < F 2 Q1 = 1 Nel caso in cui risultasse (solo nel caso di n pari): F 1 = 0.25 < F 2 le posizioni relative al primo quartile sarebbero due e anche i valori (modalità) mediani. Il secondo quartile coincide con la mediana. Il terzo quartile Q3 è il valore che si lascia a sinistra il 75% dei dati. Con riferimento alle frequenze assolute la posizione relativa al terzo quartile 3n/4 = n 0.75 è un numero intero e pertanto ci sono due posizioni che si lasciano a sinistra almeno il 75% dei dati e a destra almeno il 25% e cioè la 90 e la 91. 6
Alla posizione 90 corrisponde il valore 2, alla posizione 91 il valore 3. I valori relativi al terzo quartile sono due, la cui semisomma Q3 vale 2.5 (colonna delle frequenze cumulate assolute (90 = N 3 = 90 < N 4 = 100). Nel caso in cui 3n/4 = n 0.75 non risultasse un numero intero andrebbe arrotondato all intero successivo e la posizione relativa al terzo quartile, e il relativo valore, una sola. Con riferimento alle frequenze relative il terzo quartile è quel valore tale che si lascia a sinistra il 75% dei dati F 3 = 0.75 < F 4 Q3 = (2 + 3)/2 = 2.5 c) La funzione di ripartizione fornisce un riassunto delle informazioni desunte dalla distribuzione di frequenza. Per disegnare la funzione di ripartizione è sufficiente conoscere le frequenze relative cumulate (F i ). Data la tabella sopra la funzione di ripartizione sarà la seguente F 0.2 0.4 0.6 0.8 1.0 0 1 2 3 4 x 7
d) 5 x i 1 n i = 1 20 + 0 50 + 1 20 + 2 10 + 3 20 = 120 5 x i 1.667 n i = 1.667 20 + 0.667 50 + 0.333 20 + 1.333 10 + 2.333 20 = 133.34 Esercizio 9 I seguenti valori si riferiscono ai valori di un titolo rilevati mensilmente: 1.4; 1.7; 2.3; 2.5; 3.2; 3.8. Se il valore 3.8 fosse erroneamente trascritto come 38, quale sarebbe l effetto sulle misure di posizione calcolate a partire da questi dati? a) Un incremento della mediana; b) Un incremento della moda; c) Un incremento della media aritmetica; d) Un incremento sia della mediana, sia della moda; e) Un incremento della mediana, della moda e della media aritmetica. Soluzione c) La mediana non è sensibile ai valori estremi, quindi non subirebbe una modifica in seguito ad un incremento del valore più alto. Il carattere è continuo, e non ha alcun significato calcolare la moda di tale carattere. L unica misura di posizione a risultare modificata sarà la media. Esercizio 10 Data la seguente distribuzione di un collettivo di 15 studenti secondo il voto ottenuto all esame di Statistica: voto 18 20 23 24 26 27 28 30 n i 1 1 1 2 3 4 2 1 a) Calcolare la media aritmetica, la moda e la mediana b) Utilizzando i dati della tabella, costruire una distribuzione di frequenza in classi, con classi [18-20], [21-23], [24-26], [27-30], e calcolare la classe modale e la media aritmetica; confrontare i risultati con quelli del punto precedente. 8
Soluzione a) k x = n i x i = (18 1 + + 30 1)/15 = 25.4 n mo = 27 prof(med) = n + 1 = 8 2 med = x (8) = 26 voto [18-20] [21-23] [24-26] [27-30] 18-21 21-24 24-27 27-31 n i 2 1 5 7 b) x i 19.5 22.5 25.5 29 f i 0.133 0.067 0.333 0.467 A i 3 3 3 4 h i 0.044 0.022 0.111 0.117 La seconda riga deriva dal fatto che una classe chiusa [18-20], è equivalente ad una classe 18-21, chiusa in un estremo e aperta dall altro. Utilizzando la seconda notazione è più facile calcolare l ampiezza di classe come differenza tra l estremo superiore e l estremo inferiore. x k n i x i n = (19.5 2 + + 29 7)/15 = 26.13 Se la distribuzione del carattere è divisa in classi della stessa ampiezza, possiamo calcolare la classe modale, che è quella con frequenza più elevata. Se le classi sono di diversa ampiezza, occorre calcolare la densità di frequenza h i. La classe modale sarà quella con densità di frequenza maggiore. In questo caso la classe modale è [27-30], perché presenta densità di frequenza più elevata. I risultati dopo la divisione in classi variano, a causa dell approssimazione nel calcolo, legata alla non conoscenza della distribuzione all interno delle classi. Esercizio 11 Con riferimento alla seguente distribuzione di un gruppo di 60 aziende, secondo la classe di fatturato Classi di fatturato Aziende 0-5 10 5-15 5 15-60 20 60-90 25 60 a) Calcolare media e classe modale; b) Calcolare la varianza e lo scarto quadratico medio della distribuzione del fatturato; 9
Soluzione a) Poiché i dati sono raggruppati in classi non è possibile calcolare il valore esatto della media, perché manca l informazione sulla loro distribuzione all interno della classe. Si può, però, ottenere un valore approssimato della media, utilizzando il valore centrale della classe ( x i ) come valore rappresentativo. Classi di fatturato x i = (x i + x i 1 )/2 n i x i n i 0-5 (5-0)/2=2.5 10 25 5-15 10 5 50 15-60 37.5 20 750 60-90 75 25 1875 60 2700 x 1 n 4 x i n i x 2700 60 = 45 La classe modale è quella classe di una variabile x a cui corrisponde la massima densitè di frequenza h i, la classe modale è 0-5. Classi di fatturato Aziende Frequenza (f i ) Ampiezza (A i ) Densità (h i = f i /A i ) 0-5 10 0.167 5 0.033 5-15 5 0.083 10 0.0083 15-60 20 0.333 45 0.007 60-90 25 0.417 30 0.014 Totale 60 1 b) In base allo stesso assunto valido per la media, s 2 1 n k n i ( x i x) 2 = 1 60 [10 (2.5 45)2 + 5 (10 45) 2 + + 20 (37.5 45) 2 + 25 (75 45) 2 ] = = 1 (18062.5 + 6125 + 1125 + 22500) = 60 = 796.875 s = s 2 = 796.875 = 28.23 Esercizio 12 Sia data la seguente distribuzione unitaria del carattere X: X : 2 4 2 2 4 2 0 4 0 2 4 16 a) Calcolare lo scostamento quadratico medio; b) calcolare la differenza interquartile e il campo di variazione. 10
Soluzione X n i N i f i F i x i n i (x i -3.5) 2 n i 0 2 2 0.17 0.17 0 24.50 2 5 7 0.42 0.58 10 11.25 4 4 11 0.33 0.92 16 1.00 16 1 12 0.08 1.00 16 156.25 Totale 12 1 42 193.00 a) Si osserva che la media aritmetica della variabile X è 4 x i n i x = 42 12 = 3.5 e lo scarto quadratico medio s è s = s 2 = 1 4 n i ( x i x) n 2 1 = 12 [2 (0 3.5)2 + 5 (2 3.5) 2 + 4 (4 3.5) 2 + 1 (16 3.5) 2 ] = 16 = 4. b) La posizione relativa al primo quartile è 3.5, ma sia la terza che la quarta unità hanno la stessa modalità da cui risulta Q 1 = 2. La posizione relativa al terzo quartile è 9.5, ma sia la nona che la decima unità hanno la stessa modalità da cui risulta Q 3 = 4. La differenza interquartilica risulta DQ = Q 3 Q 1 = 4 2 = 2. Il campo di variazione risulta 16-0=16. Il campo di variazione è molto ampio per la presenza del dato anomalo 16, di cui non risente la differenza interquartile. Esercizio 13 Consideriamo le temperature massime registrate a Catania negli anni 1982-1986, misurate in gradi Celsius (C): Anno Temperatura 1982 45.0 1983 41.0 1984 36.4 1985 38.0 1986 40.6 a) Calcolare la media e lo scostamento quadratico medio; b) Senza rifare tutti i calcoli, calcolare media e scostamento quadratico medio delle temperature misurate in Fahrenheit (F)(nota: F = 32 + 9 C/5) 11
Soluzione a) x C = 1 n x C i = n s C = s 2 = 1 n = 1 5 45.0 + 41.0 + 36.4 + 38.0 + 40.6 5 n (x C i x C ) 2 = 201 5 = 40.2; n (45 40.2) 2 + (41 40.2) 2 + (36.4 40.2) 2 + (38 40.2) 2 + (40.6 40.2) 2 = 8.6436 = 2.94 b) In base alla propriet à della trasformazione lineare della media: x F = 32 + 9 x C /5 = 32 + 9 40.2/5 = 104.36; In base alla propriet à della trasformazione lineare della varianza: s F = 9s C /5 = 5.292 12