Esercitazione n. 1 Corso di Statistica Università della Basilicata Prof. Roberta Siciliano La tabella seguente raccoglie i dati grezzi, relativamente ad un gruppo di 30 turisti per i quali sono state osservate tre variabili o caratteri di interesse. Soggetto Genere Costo del soggiorno Titolo di studio 1 maschio 20 media sup. 2 femmina 0 media inf. 3 femmina 85 laurea 4 maschio 40 media sup. 5 femmina 70 media sup. 6 maschio 50 media sup. 7 femmina 14 media sup. 8 femmina 200 media sup. 9 femmina 165 laurea 10 femmina 65 media sup. 11 maschio 22 media inf. 12 femmina 115 laurea 13 maschio 240 laurea 14 maschio 0 laurea 15 femmina 140 media sup. 16 femmina 90 laurea 17 maschio 60 media sup. 18 femmina 125 laurea 19 maschio 65 laurea 20 maschio 40 media sup. 21 maschio 90 media sup. 22 femmina 68 laurea 23 maschio 85 media sup. 24 maschio 90 media sup. 25 maschio 120 laurea 26 femmina 200 laurea 27 maschio 25 media sup. 28 maschio 80 media inf. 29 maschio 180 laurea 30 maschio 70 media sup. 1. Da quante unità statistiche è composto il collettivo oggetto di studio? 2. Descrivere la natura delle variabili presenti in tabella. 3. Costruire le distribuzioni di frequenze per le variabili Genere e Titolo di Studio. 4. Costruire la distribuzione di frequenze per il carattere Costo del Soggiorno, suddividendo la distribuzione in 6 classi equiampie. 5. Costruire la distribuzione di frequenza per il carattere Costo del Soggiorno, suddividendo la distribuzione in 5 classi equifrequenti. 6. Rappresentare le distribuzioni dei caratteri osservati con i grafici più opportuni. 7. Calcolare gli indici di posizione più opportuni per i caratteri osservati.
8. Calcolare l indice di eterogeneità di Gini per la variabile Titolo di Studio. Soluzione: 1. Il collettivo oggetto di studio è un gruppo di turisti. Il collettivo è composto da 30 unità statistiche. L unità statistica è il turista. 2. I caratteri oggetto di studio sono: Carattere Tipologia Livello di misura Modalità-intensità Genere Qualitativa sconnesa Scala nominale {maschio; femmina } Costo del Soggiorno Quantitativa continua Scala numerica (di rapporti) {0;240} Titolo di Studio Qualitativa ordinabile Scala Ordinale {media inferiore; media superiore; laurea} 3. La frequenza è il numero di volte con cui una modalità si presenta nel collettivo studiato. Nel nostro caso, la distribuzione di frequenze per la variabile Genere è: Genere assoluta relativa femmina 13 0,4 maschio 17 0,6 Per la variabile Titolo di Studio la distribuzione di frequenze è: Titolo di Studio assoluta relativa laurea 12 0,4 media inf. 3 0,1 media sup. 15 0,5
Accanto alle frequenze assolute abbiamo riportato anche le frequenze relative ottenute come il rapporto tra la frequenza assoluta associata alla modalità i-esima e il totale delle unità statistiche: 4. Per quanto riguarda il carattere Costo del Soggiorno, esso è continuo, pertanto, la sua rappresentazione tabellare presuppone la costruzione della distribuzione di frequenze suddivise in classi. In questo caso sono richieste 6 classi equiampie. Innanzitutto dobbiamo capire qual è il range o intervallo di variazione della variabile: Range = X max X min = 240 0 = 240 Ottenuto il campo di variazione della variabile dobbiamo dividerlo per il numero (k) delle classi richiesto, in modo tale da ottenere l ampiezza della singola classe: A = A questo punto possiamo costruire la tabella di frequenze con classi equiampie: Costo del Soggiorno A i n i f i 0-40 40 8 0,27 40-80 40 8 0,27 80-120 40 7 0,23 120-160 40 2 0,07 160-200 40 4 0,13 200-240 40 1 0,03
5. Per la costruzione della distribuzione di frequenze con classi equifrequenti, dobbiamo innanzitutto ordinare il carattere: Soggetto Costo del soggiorno 2 0 14 0 7 14 1 20 11 22 27 25 4 40 20 40 6 50 17 60 10 65 19 65 22 68 5 70 30 70 28 80 3 85 23 85 16 90 21 90 24 90 12 115 25 120 18 125 15 140 9 165 29 180 8 200 26 200 13 240 Una volta ordinato, dobbiamo capire quale debba essere la frequenza di ogni classe. L esercizio richiede la costruzione di 5 classi equifrequenti. Essendo il collettivo di 30 unità, allora ogni classe avrà frequenza pari a 30/5 = 6 unità. Dunque, la prima classe sarà ottenuta prendendo i primi 6 valori, la seconda i successivi 6, e cosi via.
Costo del Soggiorno A i n i f i 0-25 25 6 0,20 25-65 40 6 0,20 65-85 20 6 0,20 85-125 40 6 0,20 125-240 115 6 0,20 6. La variabile Genere è un carattere qualitativo sconnesso e il modo più opportuno per rappresentarlo graficamente è attraverso il grafico a torta. Tale grafico è composto da fette direttamente proporzionali in ampiezza alle frequenze di ciascuna modalità distinta. Per la sua costruzione, abbiamo bisogno di conoscere l angolo della fetta, desunto come: α : 360 = n i : N nel nostro caso, per la modalità maschio l angolo della fetta sarà: α : 360 = 17 : 30 mentre per la modalità femmina avremo: Dunque, ne consegue che il grafico è il seguente:
Per la variabile Titolo di Studio il grafico più opportuno è il diagramma a barre. Sull asse delle ascisse poniamo le modalità mentre sull ordinata le unità (frequenze): L altezza della barra indica la frequenza della modalità distinta. Infine, per la variabile Costo del soggiorno possiamo costruire l istogramma di frequenze sia per la distribuzione di frequenze divisa in classi equiampie che per classi equifrequenti. Questo grafico ha sull ascissa le classi mentre sull ordinata ha la densità di frequenza. Quest ultima è ottenuta come il rapporto tra la frequenza della modalità i-esima e l ampiezza della classe corrispondente: pertanto avremo:
Costo del Soggiorno A i n i d i 0-40 40 8 0,2 40-80 40 8 0,2 80-120 40 7 0,175 120-160 40 2 0,05 160-200 40 4 0,1 200-240 40 1 0,025 Totale 30 Essendo uguale l ampiezza delle classi allora la base dei rettangoli dell istogramma sarà uguale: 0,25 Costo del soggiorno 0,2 0,15 0,1 0,05 0 0-40 40-80 80-120 120-160 160-200 200-240 Per quanto riguarda la distribuzione di frequenze in classi equifrequenti avremo: Costo del Soggiorno A i n i f i d i 0-25 25 6 0,2 0,24 25-65 40 6 0,2 0,15 65-85 20 6 0,2 0,3 85-125 40 6 0,2 0,15 125-240 115 6 0,2 0,05 E l istogramma sarà:
0,30 0,20 0,10 0 60 120 180 240 7. Gli indici di posizione sono indici che riassumono il posizionamento della distribuzione. In particolare indicano la modalità rappresentativa della distribuzione. Per la variabile Genere possiamo calcolare la Moda, cioè la modalità a cui è associata la frequenza più alta: Moda = Maschio Poiché si presenta 17 volte rispetto alla modalità femmina, che invece si presenta 13 volte. Per la variabile Titolo di Studio che, ricordiamo, è di natura qualitativa ordinale, possiamo calcolare la moda e la mediana. Moda = media superiore Poiché è la modalità cha ha la frequenza più elevata. Per quanto riguarda la mediana, partendo dalla distribuzione di frequenza ordinata, calcoliamo le frequenze cumulate (F): Titolo di Studio media inf. media sup. assoluta relativa Frequenze assolute cumulate 3 0,1 3 15 0,5 18 laurea 12 0,4 30
Successivamente dobbiamo individuare la posizione dell unità centrale: a. Se N è dispari la posizione centrale è (N+1)/2 b. Se N è pari ci saranno due posizioni centrali pari a N/2 e (N/2)+1 Nel nostro caso avremo: 30/2 = 15 e (30/2)+1 = 16 Quindi le posizioni sono la 15esima e la 16esima. Guardando le frequenze assolute cumulate, le posizioni 15 e 16 si trovano nella seconda cella (fino a 18) e corrispondono alla modalità media superiore. Pertanto la mediana sarà Media superiore. Per il carattere Costo del Soggiorno possiamo calcolare moda, mediana e media. Tuttavia, essendo un carattere quantitativo, l indice di posizione più opportuno è la media. Per calcolare la media abbiamo bisogno dei valori centrali delle classi: Valori Centrali Costo del Soggiorno A i n i f i 20 0-40 40 8 0,27 60 40-80 40 8 0,27 100 80-120 40 7 0,23 140 120-160 40 2 0,07 180 160-200 40 4 0,13 220 200-240 40 1 0,03 30 1 A questo punto procediamo così: 8. Riportiamo la distribuzione di frequenze della variabile Titolo di Studio, calcolando i quadrati delle frequenze relative: Titolo di Studio assoluta relativa laurea 12 0,4 0,16 media inf. 3 0,1 0,01 media sup. 15 0,5 0,25 0,42
L indice di eterogeneità di Gini è un indicatore della mutabilità (variabilità) statistica per variabili qualitative (quantitative). Esso offre una misura della eterogeneità (omogeneità) di una distribuzione statistica a partire dai valori delle frequenze relative associate alle K modalità di una generica variabile X. Ciò vuol dire che se i dati sono distribuiti in modo eterogeneo su tutte le K modalità di X (cioè se le modalità hanno numerosità simili o, nel caso di massima eterogeneità, uguali), l indice di Gini è elevato, viceversa, in caso di distribuzione di frequenze omogenea, ossia tutte le unità statistiche sono concentrate in una o poche modalità, l indice sarà basso. L indice di Gini è così definito: Dove le f i sono le frequenze relative delle K modalità di X. L indice di Gini vale 0 nel caso di minima eterogeneità(massima omogeneità) quando l intera distribuzione si concentra in una sola modalità, mentre sarà massimo quando ciascuna modalità presenterà frequenza pari a N/k. Pertanto: [ ] Sarà l indice normalizzato che varierà tra 0 e 1. Nel nostro caso avremo: [ ] Pertanto possiamo affermare che la variabile titolo di studio presenta una distribuzione fortemente eterogenea nel collettivo esaminato.