Frequenze STATISTICA 1 ESERCITAZIONE 2 Dott. Giuseppe Pandolfo 7 Ottobre 2013 RAPPRESENTAZIONE GRAFICA DEI DATI Le rappresentazioni grafiche dei dati consentono di cogliere la struttura e gli aspetti caratterizzanti di uno o più fenomeni. Esercizio 1 Costruire un grafico a barre e un diagramma a torta per la variabile Sesso rappresentata nella tabella seguente. Variabile qualitativa Sesso Sesso n i f i p i M 6 0,3 30% F 14 0,7 70% Totale 20 1 100% I grafici a barre (barplot) sono usati per tutti i caratteri ad esclusione dei caratteri quantitativi continui. Le barre presentano tutte uguale ampiezza e le ordinate rappresentano le frequenze (assolute o relative). 14 Diagramma a barre 12 10 8 6 4 2 0 M F 1
Il diagramma a torta è costituito da un cerchio diviso in tanti settori quante sono le percentuali. Ogni arco ha un angolo proporzionale alla corrispondete percentuale. Questo strumento grafico è utilizzato per rappresentare dati qualitativi. Diagramma a torta M 30% F 70% Esercizio 2 La tabella seguente riporta le frequenze assolute e relative dell altezza (variabile quantitativa), distribuite in classi di uguale ampiezza. Classe n i f i [155,160) 3 0,0882 [160,165) 5 0,1470 [165,170) 9 0,2647 [170,175) 12 0,3529 [175,180) 5 0,1470 Totale 34 1 Costruire un istogramma. 2
Frequenze 0 2 4 6 8 10 12 Gli istogrammi sono utilizzati per rappresentare caratteri quantitativi continui. Le basi di ogni rettangolo rappresentano le ampiezze delle classi, l altezza rappresenta la frequenza (assoluta o relativa) delle classi. Istogramma 155 160 165 170 175 180 Classi Esercizio 3 In presenza di classi di diversa ampiezza non è possibile usare le frequenze. Bisogna, dunque, definire la densità di frequenza ( d i = n i ampiezza della classe). Costruire un istogramma per la seguente variabile Reddito, i cui dati sono raccolti in classi di diversa ampiezza. Classi di reddito n i f i Ampiezza classe d i [15,20) 20 0,1904 5 4 [20,35) 10 0,095 15 0,67 [35,65) 30 0,2860 30 1 [65,115) 45 0,4285 50 0,9 Totale 105 1,0 3
Densità 0.00 0.01 0.02 0.03 0.04 Istogramma 20 40 60 80 100 classi Indicare la classe modale. La classe modale è [15, 20), ovvero la classe che presenta la densità più alta. LA FUNZIONE DI RIPARTIZIONE EMPIRICA Un ulteriore rappresentazione di una variabile quantitativa X è la funzione di ripartizione empirica, ovvero F x è la frequenza di tutte le osservazioni minori o uguali a x; ovvero F x = f X x = k 1,2,,n f(x k ). Esercizio 4 Supponiamo che X sia una variabile quantitativa discreta con k=8 modalità, rappresentare la sua funzione di ripartizione empirica. X n i N i f i F i 1 2 2 0,10 0,10 2 1 3 0,05 0,15 3 5 8 0,25 0,40 4 1 9 0,05 0,45 5 3 12 0,15 0,60 4
Fn(x) 0.0 0.2 0.4 0.6 0.8 1.0 6 4 16 0,20 0,80 7 2 18 0,10 0,90 8 2 20 0,10 1,00 Totale 20 1,00 La funzione di ripartizione ottenuta può essere rappresentata graficamente come segue: Funzione di ripartizione 0 2 4 6 8 Esercizio 5 La seguente tabella riporta i dati relativi alla variabile peso (variabile quantitativa continua), per classi equiampie. Peso n i N i f i F i [56,60) 6 6 0,07 0,07 [60,65) 10 16 0,12 0,19 [65,70) 18 34 0,20 0,49 [70,75) 24 58 0,27 0,76 [75,80) 30 88 0,34 1,00 Totale 88 1,00 Rappresentare graficamente la funzione di ripartizione empirica. La funzione di ripartizione ottenuta può essere rappresentata graficamente come segue: 5
F(x) 0.0 0.2 0.4 0.6 0.8 1.0 Funzione di ripartizione empirica (Peso) 0 20 40 60 80 Peso INDICI DI POSIZIONE Gli insieme di dati solitamente mostrano la tendenza a raggrupparsi attorno ad un valore centrale. Dunque, attraverso la selezione di un valore è possibile descrivere un insieme di dati. Esercizio 6 La tabella seguente riporta i rendimenti percentuali a dodici mesi per 5 fondi azionari. Calcolare la media aritmetica dei rendimenti. Fondo Rendimenti (in %) A 31,2 B 10,3 C 30,4 D 29,3 E 34,5 La media aritmetica: X = n i=1 X i n Calcoliamo il rendimento medio dei 5 fondi. X = 31,2 + 10,3 + 30,4 + 29,3 + 34,5 5 = 27,14 6
Esercizio 7 La moda è il valore più frequente in un insieme di dati. La seguente tabella riporta il grado di soddisfazione dei clienti (1 = minima soddisfazione, 5 = massima soddisfazione). Indicare la moda. Grado di soddisfazione dei clienti n i 1 23 2 43 3 28 4 55 5 12 Totale 161 In questo caso la moda è 4. Casi particolari: 1. Multimodalità: Si possono osservare due o più mode Grado di soddisfazione dei clienti n i 1 43 2 28 3 43 4 15 5 12 Totale 121 2. Assenza di moda: Nessun valore è più frequente degli altri Grado di soddisfazione dei clienti n i 1 10 2 10 3 10 4 10 5 10 Totale 50 7
INDICI DI ETEROGENEITA Per misurare la variabilità di fenomeni qualitativi vengono usati gli indici di eterogeneità Sono indici basati sulle frequenze relative f i o percentuali p i Non sono vincolati da un particolare ordinamento delle modalità Possono essere calcolati per qualsiasi tipo di fenomeno Proprietà degli indici di eterogeneità: 1. Sempre positivi 2. Sono massimi quando ciascuna modalità presenta la stessa frequenza, ovvero f i = 1 k per ogni (MASSIMA ETEROGENEITA ) 3. Sono minimi quando il fenomeno assume una sola modalità, ovvero una f i = 1 e tutte le altre sono uguali a zero (MASSIMA OMOGENEITA ) MUTABILITA LA VARIABILITA DEI FENOMENI QUALITATIVI Indice di eterogeneità di Gini: Assume valori tra 0 e (k-1)/k. k E = 1 f i 2 Per normalizzare l indice di Gini occorre dividerlo per il suo massimo: E norm = E k k 1 L indice di Gini normalizzato varia tra 0 (min) e 1 (max). i=1 8
Esercizio 8 Calcoliamo l indice di Gini per la variabile Corso di laurea. Corso di laurea n i Ingegneria civile 137 Ingegneria gestionale 251 Ingegneria industriale 186 Ingegneria informatica 159 Totale 733 Calcoliamo le frequenze assolute e le frequenze relative e le frequenze relative al quadrato. Corso di laurea n i f i 2 f i Ingegneria civile 137 0,1869 0,0349 Ingegneria gestionale 251 0,3424 0,1173 Ingegneria industriale 186 0,2538 0,0644 Ingegneria informatica 159 0,2169 0,0471 Totale 733 1,0000 0,2636 K = numero modalità = 4 k 2 E = 1 f i = 1 0,1869 2 + 0,3424 2 + 0,2538 2 + 0,2169 2 = 1 0,2636633 = 0,7363 n=1 E norm = E k k 1 = 0,7363 4 3 = 0.9818 Conclusione: indice normalizzato prossimo a 1, c è quasi massima eterogeneità. 9
Esercizio 9 Calcoliamo l indice di Gini per la variabile Rendimento degli studenti. Rendimento n i f i Sufficiente 40 0.054570259 Discreto 151 0.206002729 Buono 294 0.401091405 Ottimo 248 0.338335607 Totale 733 1 K = 4 E = 0.6791 E norm = 0.9055 Conclusione: Indice normalizzato prossimo a 1, una buona eterogeneità. Esercizio 10 Sesso n i f i M 350 0,47749 F 383 0,52251 Totale 733 1 K = 2 E = 0.498987 E norm = 0.997973 Conclusione: Indice normalizzato prossimo a 1, quasi massima eterogeneità. 10