Statistica Corso Base (Serale) Dott.ssa Cristina Mollica cristina.mollica@uniroma1.it Indici di posizione Esercizio 1: I seguenti valori si riferiscono al diametro del fusto rilevato su piante da laboratorio: 2.4 1.7 2.3 0.5 4.2 3.8 0.7 (1) indicare la tipologia del carattere; (2) qual è la moda della distribuzione?; (3) determinare la mediana. (1) Il carattere rilevato è quantitativo continuo; (2) la moda non è un indice di sintesi opportuno per un carattere quantitativo continuo, in quanto le sue modalità di tendono a manifestarsi con frequenza unitaria; (3) la mediana è pari a x Me = x ( n+1 2 ) = x (4) = 2.3. 1
2 Esercizio 2: Data la seguente distribuzione unitaria del carattere X={Voto al tema d italiano} Buono Insufficiente Ottimo Insufficiente Buono Sufficiente Sufficiente Buono Insufficiente Buono Ottimo Insufficiente Buono Sufficiente (1) indicare quali indici sono adatti per sintetizzare la distribuzione; (2) calcolare gli indici individuati al punto precedente; (3) interpretare i risultati ottenuti. (1) Il carattere rilevato è ordinato rettilineo. Pertanto, per questo tipo di distribuzione si possono calcolare la moda e la mediana come indici di posizione; (2) per determinare i suddetti indici si procede, in primo luogo, al calcolo delle frequenze date da x k n k N k F k Insufficiente 4 4 0.29 Sufficiente 3 7 0.50 Buono 5 12 0.86 Ottimo 2 14 1 14 Dalla tabella segue che: - il voto modale è unico e corrisponde alla modalità x Mo = Buono ; - tenuto conto che l ampiezza n = 14 del collettivo è pari e del fatto che la prima frequenza relativa cumulata non inferiore a 0.50 è esattamente pari a 0.50, le modalità mediane sono due e corrispondono al voto x Me1 = x ( n 2 ) = x (7) = Sufficiente (ovvero la modalità a cui compete tale frequenza relativa cumulata) e x Me2 = x ( n 2 +1) = x (8) = Buono (ovvero la modalità successiva). (3) il voto più frequente al tema d italiano è stato Buono, preso da 5 (36%) studenti; la metà degli studenti ha preso un voto almeno pari a Buono al tema d italiano.
3 Esercizio 3: Con riferimento alla seguente distribuzione di un gruppo di 120 donne secondo il numero di figli Numero Figli Donne 0 20 1 50 2 20 3 10 4 20 Totale 120 (1) calcolare la moda e la mediana; (2) calcolare i restanti quartili; (3) posto che la media aritmetica per la distribuzione data è pari a x = 1.667, verificare che la somma degli scarti in valore assoluto dalla mediana è minore della somma degli scarti in valore assoluto dalla media aritmetica; (4) disegnare la funzione di ripartizione empirica. (1) Il valore modale è unico e pari a x Mo = 1. Dal calcolo delle frequenze assolute e relative cumulate si ottiene x k n k N k f k F k 0 20 20 0.167 0.167 1 50 70 0.416 0.583 2 20 90 0.167 0.750 3 10 100 0.083 0.833 4 20 120 0.167 1 120 L ampiezza n del collettivo è pari, pertanto ci sono due posizioni da n considerare per il computo della mediana: 2 = 60 e la n 2 + 1 = 61. Entrambe le posizioni nel campione ordinato sono occupate da osservazioni con valore pari ad 1, come si legge dalla colonna delle frequenze assolute cumulate essendo 20 = N 1 < 60 < 61 < N 2 = 70. Ad analoga conclusione si può giungere osservando che la prima frequenza relativa cumulata almeno pari a 0.50 risulta F 2 = 0.583 > 0.5. Dunque, per la distribuzione data, x Mo = 1 e coincide con la moda. (2) La determinazione del primo quartile è analoga al procedimento descritto per la mediana, fatta eccezione per la proporzione di riferimento che in questo caso è 1/4 = 0.25 anziché 1/2 = 0.50. Dal momento che n è pari, ci sono due posizioni che si lasciano a sinistra almeno n 4 1 dati e a destra almeno n 3 4 e cioè la n 4 = 30 e la n 4 + 1 = 31. Ad entrambe queste posizioni corrisponde il valore 1, come si deduce dalla colonna delle frequenze cumulate assolute (20 = N 1 < 30 < 31 < N 2 = 70). Con riferimento alle frequenze relative il primo quartile è quel valore tale che almeno il 25% dei dati ha un valore minore o uguale (e almeno il 75% maggiore o uguale).
4 (3) Dalle frequenze relative cumulate segue che F 1 < 0.25 < F 2 x Q1 = 1. Il secondo quartile coincide con la mediana (x Q2 = x Me ). Per il calcolo del terzo quartile valgono i discorsi fatti in precedenza per i primi due quartili con opportuna sostituzione della proporzione di riferimento con 3/4 = 3n 0.75. In questo caso le due posizioni da considerare sono: 4 = 90 e la 3n 4 + 1 = 91. Le modalità che occupano tali posizioni non coincidono: alla posizione 90 corrisponde il valore 2, mentre alla posizione 91 il valore 3 (si veda la colonna delle frequenze assolute cumulate 90 = N 3 < 91 < N 4 = 100). Il terzo quartile è pertanto dato dalla semisomma: x Q3 = 2+3 2 = 2.5. Con riferimento alle frequenze relative, il terzo quartile è quel valore tale che almeno il 75% dei dati ha un valore minore o uguale (e almeno il 25% maggiore o uguale). Dato che la frequenza relativa cumulata è proprio 0.75 ed n è pari, si ha F 3 = 0.75 < F 4 x Q3 = (2 + 3)/2 = 2.5. 5 x i 1 n i = 1 20 + 0 50 + 1 20 + 2 10 + 3 20 = 120 i=1 5 x i 1.667 n i = 1.667 20 + 0.667 50 + 0.333 20 + 1.333 10 + 2.333 20 = 133.34 i=1 (4) La funzione di ripartizione empirica fornisce un riassunto delle informazioni desunte dalla distribuzione di frequenze. Più specificamente è la trasposizione grafica della distribuzione delle frequenze relative cumulate. Data la tabella sopra la funzione di ripartizione sarà la seguente F 0.0 0.2 0.4 0.6 0.8 1.0 1 0 1 2 3 4 5 0.000 x < 0 0.167 0 x < 1 0.583 1 x < 2 F n (x) = 0.750 2 x < 3 0.833 3 x < 4 1.000 x 4 x
Da notare che la funzione di ripartizione empirica assume valore 0 per valori della x strettamente inferiori al valore minimo e vale 1 per x maggiore o uguale al valore massimo osservato. I salti si hanno in corrispondenza delle modalità diverse osservate nel collettivo e la loro altezza corrisponde alla differenza tra frequenze relative cumulate contigue, ovvero è pari alla frequenza relativa di ciascuna modalità osservata. 5
6 Esercizio 4: Data la seguente distribuzione del numero di esami sostenuti alla fine del primo semestre da 3 gruppi di studenti: x j n j x j n j x j n j 0 1 0 2 0 2 1 4 1 3 1 5 2 3 2 6 2 6 3 2 3 1 3 2 (1) indicare la tipologia del carattere; (2) determinare la moda delle tre distribuzioni; (3) determinare in quale gruppo gli studenti hanno avuto un miglior rendimento in termini di numero mediano di esami sostenuti; (4) calcolare i restanti quartili per tutti i gruppi. (1) il carattere è quantitativo discreto; (2) tutte le distribuzioni sono unimodali, con mode rispettivamente pari a x Mo1 = 1 e x Mo2 = x Mo3 = 2; (3) determiniamo la mediana delle tre distribuzioni ricorrendo sia alle frequenze cumulate assolute N k sia relative F k. Gruppo 1: N pari, due posizioni mediane candidate (5 = 10/2 e 6 = 10/2 + 1), due mediane candidate (1 esame sostenuto e 2 esami sostenuti) da cui si ottiene la mediana finale come semisomma (1+2)/2=1.5. x k n k N k f k F k x k n k 0 1 1 0.1 0.10 0 1 4 5 0.4 0.50 4 2 3 8 0.3 0.80 6 3 2 10 0.2 1.00 6 10 1 16 Gruppo 2: N pari, due posizioni mediane (6 = 12/2 e 7 = 12/2 + 1), una mediana (2 esami sostenuti). x k n k N k f k F k x k n k 0 2 2 0.17 0.17 0 1 3 5 0.25 0.42 3 2 6 11 0.50 0.92 12 3 1 12 0.08 1.00 3 12 1 18 Gruppo 3: N dispari, una posizione mediana (8 = (15 + 1)/2), una mediana (2 esami sostenuti). x k n k N k f k F k x k n k 0 2 2 0.13 0.13 0 1 5 7 0.34 0.47 5 2 6 13 0.40 0.87 12 3 2 15 0.13 1.00 6 15 1 23
Gli studenti che hanno avuto un migliore rendimento mediano sono quelli dei gruppi 2 e 3. In tali gruppi almeno la metà degli studenti ha superato almeno 2 esami alla fine del primo semestre; (4) i restanti quartili coincidono nei tre gruppi e sono rispettivamente pari a x I = 1 e x II = 2. 7