Corso di Laurea in Economia e Finanza Statistica 1 A.A. 2015/2016 (8 CFU, corrispondenti a 48 ore di lezione frontale e 24 ore di esercitazione) Prof. Luigi Augugliaro 1 / 54
Rappresentazioni grafiche Sebbene la distribuzione di frequenze sia una prima valida forma di sintesi di una serie statistica di dati, una più facile ed immediata lettura delle caratteristiche fondamentali della distribuzione di frequenze può essere ottenuta attraverso un opportuna rappresentazione grafica. Per questo motivo si è soliti associare alla distribuzione di frequenze un adeguata rappresentazione grafica. 2 / 54
Caratteristiche ottimali di un grafico: accuratezza, semplicità e chiarezza. Questi obiettivi possono essere raggiunti tramite i seguenti elementi: Titolo: descrive a quale carattere si riferisce la distribuzione, su quale collettivo di unità è stato misurato, quando è stata fatta la rilevazione (es.: Distribuzione del reddito delle famiglie residenti in Italia nell anno 2001). Etichette: indicano le modalità o le classi del carattere oggetto di studio. Legenda: per i grafici che confrontano due o più distribuzioni, la legenda fornisce informazioni in merito al collettivo utilizzato per la costruzione della rappresentazione grafica. Note: fonte dei dati. 3 / 54
Rappresentazioni grafiche per caratteri qualitativi Grafico a nastri X n i x 1 n 1 x 2 n 2. x i. x K Totale. n i. n K n Il grafico a nastri associa ad ogni modalità x i del carattere X un opportuno nastro. Tutti i nastri hanno la stessa altezza e base uguale (o proporzionale) alle frequenze assolute n i. I grafici a nastri risultano particolarmente utili per i caratteri qualitativi non ordinabili. 4 / 54
Esempio: distribuzione di frequenze del carattere dipendente delle industrie per la fabbricazione di autoveicoli. Distribuzione del numero di dipendenti nelle industrie per la fabbrizazione di autoveicoli n i Tipologia accessori 83054 autoveicoli 65077 carrozzerie 10533 Totale 158664 Accessori Autoveicoli Carrozzerie 0 20000 40000 60000 80000 Frequenze assolute (fonte: http://dati.istat.it) 5 / 54
Di seguito viene riportata la distribuzione di frequenza degli iscritti all Università in Italia per gruppo di corso di laurea (A.A. 1989-1990). Distribuzione del numero di iscritti nell'università italiana per corso di laurea (A.A. 1989-1990) Politico Gruppo n i Agrario 19776 Economico 147578 Giuridico 135798 Ingegneria 151435 Letterario 164338 Medico 53266 Politico 77782 Totale 749973 Medico Letterario Ingegneria Giuridico Economico Agrario 0 50000 100000 150000 Frequenze assolute 6 / 54
Grafico a colonne Il grafico a colonne ha una costruzione analoga a quella utilizzata per il grafico a nastri. In questo caso ad ogni modalità è associata una colonna. Tutte le colonne hanno la stessa base ma l altezza è uguale (o proporzionale) alle frequenze assolute. Il grafico a colonne risulta particolarmente utile per caratteri qualitativi ordinabili. In questo caso l odine delle colonne è fornito dall ordinamento delle modalità del carattere in esame. 7 / 54
Esempio: indagine sull opinione sui libri storici Distribuzione dell'opinione dei lettori sui libri storici Opinione n i non interessato 132 poco interessato 79 indifferente 33 abbastanza interessato 9 molto interessato 2 Totale 255 Frequenze assolute 0 20 40 60 80 100 120 non int. poco int. indifferente abb. int. molto int. 8 / 54
Grafico a nastri (colonne) contrapposti Di seguito viene riportata la distribuzione di frequenza degli iscritti all Università in Italia per gruppo di corso di laurea. Si riportano i dati relativi agli A.A. 1989-1990 e 1990-1991. Distribuzione del numero di iscritti nell'università italiana per corso di laurea Politico Gruppo 1989-90 1990-91 Agrario 19776 20885 Economico 147578 137114 Giuridico 135798 175671 Ingegneria 151435 121565 Letterario 164338 157349 Medico 53266 60157 Politico 77782 70695 Totale 749973 743436 Medico Letterario Ingegneria Giuridico Economico Agrario 0.00 0.05 0.10 0.15 0.20 Frequenze relative 9 / 54
Un altro modo per confrontare graficamente le distribuzioni semplici è dato dai grafici a colonne (nastri) suddivisi. In un grafico a colonne (barre) suddivise ogni colonna è riferita ad un particolare gruppo e viene costruito mettendo una sopra l altra le barre corrispondenti alle frequenze delle singole modalità della distribuzione. Questa rappresentazione è meno efficace di quella ottenuta tramite un grafico a colonne (barre) contrapposte. Infatti, mentre è facile confrontare i segmenti estremi delle colonne suddivise, dato che questi hanno la base inferiore o superiore in comune, molto più difficile risulta il confronto tra i segmenti interni. 10 / 54
Esempio: distribuzione degli occupati per settore di attività economica ai censimenti 1971-2001. Tabella: Distribuzione di frequenze percentuali e percentuali cumulate Anni 1971 1981 1991 2001 Settore p i pi c p i pi c p i pi c p i pi c Agricoltura 17.2 17.2 11.1 11.1 7.3 7.3 5.3 5.3 Industria 44.3 61.5 39.5 50.6 36.0 43.3 33.7 39.0 Servizi 38.5 100.0 49.4 100.0 56.7 100.0 61.0 100.0 Totale 100.0 100.0 100.0 100.0 11 / 54
Distribuzione degli occupati per settore di attività economica al censimenti 1971-2001 Frequenze percentuali 0 20 40 60 80 100 38.5% 44.3% 17.2% 49.4% 39.5% 11.1% 56.7% 61% 36% 33.7% 7.3% 5.3% Servizi Industria Agricoltura 1971 1981 1991 2001 Anni 12 / 54
Grafico a torta I grafici a torta sono particolarmente utili quando si vogliono rappresentare le composizioni di un aggregato. Analogamente a quanto fatto per il grafico a colonne (nastri), alla modalità x i del carattere X è associata l i-esima fetta del grafico a torta; la dimensione della fetta è proporzionale alla frequenza assoluta n i o alla frequenza percentuale p i. La dimensione dell i-esima fetta è completamente definita dal raggio g i, il quale può essere calcolato dalla relazione p i 100 = g i 360 da cui ri ricava che g i = p i 360 100. Osservazione: è buona norma utilizzare il grafico a torta per rappresentare caratteri qualitativi con un basso numero di modalità poiché al crescere del numero di settori circolari si riduce la loro dimensione rendendone difficile il confronto. 13 / 54
Grafico a torta Giuridico (18%) Economico (20%) Ingegneria (20%) Agrario (3%) Politico (10%) Medico (7%) Letterario (22%) 14 / 54
Grafici radar I grafici radar sono utilizzati quando si studiano caratteri qualitativi ordinati ciclici. Definizione Un carattere qualitativo ordinato è definito ciclico quando la modalità iniziale e finale sono definite convenzionalmente. Esempi di caratteri qualitativi ordinati ciclici sono i giorni della settimana o i mesi dell anno. 15 / 54
Per rappresentare un carattere qualitativo ordinato ciclico attraverso un grafico radar, si suddivide angolo di 360 gradi con tanti raggi quante sono le modalità del carattere in esame; agli angoli compresi tra coppie di raggio si attribuisce stessa ampiezza (ad esempio se le modalità sono i mesi dell anno, si avranno 12 raggi distanziati da angoli di 30 gradi). Su ogni raggio si calcola un segmento di lunghezza uguale o proporzionale alla corrispondente frequenza assoluta (relativa o percentuale). Può essere utile, da un punto di vista grafico, unire con una spezzata gli estremi dei segmenti e colorare l area interna al poligono che si viene a formare. 16 / 54
Esempio: Nati in Italia per mese dell anno - Anno di Iscrizione 2013 Numero di nati in Italia per mese di iscrizione (migliaia). Italia, 2013 (fonte: http://demo.istat.it/altridati/iscrittinascita/2013/t2.8.pdf) Mese n i Gennaio 44475 Febbraio 38083 Marzo 39985 Aprile 37241 Maggio 41868 Giugno 40965 Luglio 46965 Agosto 45028 Settembre 46925 Ottobre 45801 Novembre 42711 Dicembre 44531 Totale 514778 Ott. Nov. Set. Dic. Ago. Gen. 47 46 45 44 43 42 41 40 39 38 Lug. Feb. Gui. Mar. Mag. Apr. 17 / 54
Rappresentazione grafiche per variabili quantitative discrete Il grafico utilizzato per rappresentare graficamente la distribuzione di frequenza di una variabile quantitativa discreta è il diagramma cartesiano ad aste. Esempio: L amministratore delegato di una compagnia aerea è interessato a valutare l efficienza dei propri servizi. A tal fine è stata rilevata la variabile numero di velivoli con ritardo alla partenza. Indicata con X la variabile in esame, di seguito si riporta la distribuzione di frequenze ottenuta mediante l utilizzo dei dati relativi all anno 2014. X 0 1 2 3 4 5 6 7 n i 56 87 115 73 29 11 6 2 18 / 54
Distribuzione di frequenze del numero di velivoli con ritardo alla partenza X n i 0 56 1 87 2 115 3 75 4 29 5 11 6 6 7 2 Tot. 379 Frequenze assolute 0 20 40 60 80 100 120 0 1 2 3 4 5 6 7 Numero di velivoli 19 / 54
Di seguito è riportata la distribuzione di frequenze del numero di prodotti difettosi realizzati con un certo processo produttivo. Distribuzione di frequenze del numero di prodotti difettosi n i X 0 3 1 9 2 13 3 11 4 8 5 4 6 2 Totale 50 Frequenze assolute 0 5 10 15 0 1 2 3 4 5 6 Numero di prodotti difettosi 20 / 54
Rappresentazioni grafiche per variabili quantitative continue Quando la distribuzione di frequenza è ottenuta da una variabile quantitativa continua, la rappresentazione grafica più efficace è l istogramma. L istogramma è un grafico costituito da rettangoli non distanziati, con basi uguali o diverse; ogni rettangolo ha aria uguale o proporzionale alla frequenza assoluta della classe di valori a cui esso è associato. 21 / 54
Esempio di costruzione dell istogramma per classi di ampiezza costante Consideriamo l esempio descritto in precedenza relativo al diametro delle teste di chiodo. Istogramma della distribuzione di frequenza in classi della variabile ''Diametro testa di chiodo'' X n i 11.05 11.15 7 11.15 11.25 41 11.25 11.35 60 11.35 11.45 35 11.45 11.55 7 Totale 150 Frequenze assolute 0 10 20 30 40 50 60 10.95 11.05 11.15 11.25 11.35 11.45 11.55 11.65 Diametro testa di chiodo 22 / 54
Con riferimento all indagine sui consumi delle famiglie italiane, di seguito si riporta la distribuzione di frequenze in classi di ampiezza costante della variabile superficie dell abitazione rilevata su un campione di 100 famiglie. Istogramma della distribuzione di frequenza in classi della variabile ''Superficie abitazione'' n i X 65 70 3 70 75 13 75 80 35 80 85 35 85 90 11 90 95 3 Totale 100 Frequenze assolute 0 5 10 15 20 25 30 35 60 65 70 75 80 85 90 95 100 Superficie abitazione 23 / 54
Effetti derivanti dalla scelta del numero di classi k=2 k=6 δ 0.00 0.04 0.08 δ 0.00 0.04 0.08 60 70 80 90 100 m 2 65 70 75 80 85 90 95 m 2 k=15 k=90 δ 0.00 0.04 0.08 δ 0.00 0.05 0.10 0.15 65 70 75 80 85 90 95 m 2 65 70 75 80 85 90 95 m 2 24 / 54
Istogramma per classi di ampiezza non costante Nel caso di distribuzioni di frequenze in classi di ampiezza non costante, poiché l area di ogni rettangolo deve essere proporzionale alla frequenza, l altezza dovrà essere proporzionale al rapporto tra la frequenza da rappresentare e l ampiezza della base. In un istogramma con classi di ampiezza non costate, l altezza dell i-esimo rettangolo viene chiamata densità di frequenza, denotata con δ i, ed è ottenuta dal rapporto δ i = n i h i, dove con h i indichiamo l ampiezza dell i-esima classe e con n i la corrispondente frequenza assoluta. 25 / 54
Effetti derivanti dalla mancata considerazione dell ampiezza delle classi altezza 0 1 2 3 4 5 6 7 8 4 10 6 2 0 2 4 6 8 10 12 classi 26 / 54
Effetti derivanti dalla mancata considerazione dell ampiezza delle classi altezza 0 1 2 3 4 5 6 7 8 4 16 2 0 2 4 6 8 10 12 classi 27 / 54
Effetti derivanti dalla mancata considerazione dell ampiezza delle classi altezza 0 1 2 3 4 5 6 7 8 4 10 6 2 0 2 4 6 8 10 12 classi 28 / 54
Effetti derivanti dalla mancata considerazione dell ampiezza delle classi altezza 0 1 2 3 4 5 6 7 8 4 16 2 0 2 4 6 8 10 12 classi 29 / 54
Si veda pagina 29 del libro Complementi ed esercizi di Statistica di Frosini, Montinari e Nicolini sul problema della formazione delle classi. 30 / 54
Con riferimento all indagine sui consumi delle famiglie italiane, la tabella che segue riporta le i valori della variabile reddito medio mensile rilevata su un campione di 100 famiglie. 6 9 6 6 6 7 13 4 7 8 12 12 4 7 8 11 6 6 8 8 5 9 6 5 6 5 7 6 6 9 7 8 9 8 8 4 7 5 5 7 7 6 4 7 8 6 7 11 11 8 6 7 5 5 8 5 8 7 5 6 5 6 6 6 6 9 5 9 7 7 6 7 8 4 6 9 6 9 10 9 6 8 3 7 7 6 7 5 6 8 10 10 9 4 3 10 3 6 3 6 Costruire e rappresentare graficamente la distribuzione di frequenza in classi. 31 / 54
Ordiniamo i dati 3 3 3 3 4 4 4 4 4 4 5 5 5 5 5 5 5 5 5 5 5 5 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 8 8 8 8 8 8 8 8 8 8 8 8 8 8 9 9 9 9 9 9 9 9 9 9 10 10 10 10 11 11 11 12 12 13 32 / 54
Reddito n i h i δ i 1000 516 775 4 259 15.44 775 1033 6 258 23.26 1033 1291 12 258 47.51 1291 1549 26 258 100.78 1549 2066 18 517 34.82 2066 2582 14 516 27.13 2582 3099 10 517 19.34 3099 3615 4 516 7.75 3615 4132 3 517 5.80 4132 5165 2 1033 1.94 5165 6197 1 1032 0.97 dove l i-esima densità di frequenza δ i è data dalla relazione: δ i = n i h i 33 / 54
Rappresentazione grafica δ x 1000 0 20 40 60 80 100 1000 2000 3000 4000 5000 6000 Reddito 34 / 54
Confronto tra rappresentazione corretta ed errata δ x 1000 0 20 40 60 80 100 n 0 5 10 15 20 25 1000 2000 3000 4000 5000 6000 Reddito 1000 2000 3000 4000 5000 6000 Reddito 35 / 54
Di seguito è riportata la spesa mensile in energia elettrica rilevata su un campione di 35 famiglie. 53.69 65.14 70.94 70.96 89.85 90.06 99.45 100.83 104.73 105.25 108.42 115.18 117.17 125.32 132.67 136.93 138.61 140.42 141.37 161.72 165.14 173.19 175.97 177.99 182.45 186.23 188.28 250.51 258.22 284.26 287.09 292.58 358.40 375.30 389.09 Sulla base dei precedenti valori il candidato costruisca la più opportuna distribuzione di frequenze. 36 / 54
Spesa in Energia n i 50 100 7 100 150 12 150 200 8 200 300 5 300 400 3 Totale 35 δ 100 0 5 10 15 20 25 50 100 150 200 250 300 350 400 classi 37 / 54
Il poligono di frequenza Si definisce poligono di frequenze la poligonale che unisce i punti centrali delle basi superiori dei rettangoli costituenti l istogramma. Frequenze assolute 0 10 20 30 40 50 60 Istogramma della distribuzione di frequenza in classi della variabile ''Diametro testa di chiodo'' Frequenze assolute 0 10 20 30 40 50 60 Poligono di frequenze della variabile ''Diametro testa di chiodo'' 10.95 11.05 11.15 11.25 11.35 11.45 11.55 11.65 10.95 11.05 11.15 11.25 11.35 11.45 11.55 11.65 Diametro testa di chiodo Diametro testa di chiodo 38 / 54
Il poligono di frequenze risulta particolarmente utile quando è necessario confrontare graficamente più distribuzioni di frequenze in classi, dato che le poligonali possono essere facilmente sovrapposte. Esempio: Il problema dei rifiuti urbani in Italia ha assunto, negli ultimi anni, proporzioni tali da diventare drammatico. Di seguito si riporta una sintesi dei dati rilevati dall Istat nel quadriennio 2011-2014. Anni 2011 2012 2013 2014 chili di rifiuti urbani per cittadino n i n i n i n i 350 450 12 9 5 6 450 550 46 41 49 40 550 650 39 43 40 45 650 750 13 12 13 13 750 850 4 9 7 10 Totale 114 114 114 114 39 / 54
Poligoni di frequenze per il confronto delle distribuzioni dei rifiuti urbani (quadriennio 2011-2014) Frequenze assolute 10 20 30 40 50 Anno 2011 Anno 2012 Anno 2013 Anno 2014 350 450 550 650 750 850 chili di rifiuti urbani per cittadino 40 / 54
Rappresentazioni grafiche per serie storiche Una serie storica si riferisce l evolversi nel tempo di un fenomeno osservato in determinati istanti oppure conteggiato in periodi definiti. Lo strumento grafico usualmente utilizzato per rappresentare una serie storica è il diagramma cartesiano. Il grafico è costituito da una successione di punti individuati su un piano cartesiano, in cui l asse delle ascisse è il tempo e l asse delle ordinate è dato dal carattere osservato. I punti tracciati sul piano vengono uniti da segmenti che costituiscono nel loro insieme una spezzata che rappresenta schematicamente l andamento nel tempo del fenomeno. 41 / 54
Esempio: diagramma cartesiano della serie storica della quotazione dello Yen Giapponese dal 01/01/2013 al 01/01/2014 (fonte: http://cambi.bancaditalia.it/cambi/cambi.do?lingua=it&to=cambissgform). 42 / 54
Effetti sul diagramma cartesiano derivanti dalla diversa scelta delle unità di misura degli assi. Rapporto y/x = 1 (sistema monometrico) Quotazione dello Yen 50 100 150 200 43 / 54
Effetti sul diagramma cartesiano derivanti dalla diversa scelta delle unità di misura degli assi. Rapporto y/x = 2 (raddoppiamento dell'unità di misura delle ordinate) Quotazione dello Yen 80 100 120 140 160 180 44 / 54
Effetti sul diagramma cartesiano derivanti dalla diversa scelta delle unità di misura degli assi. Rapporto y/x = 4 (quadruplicamento dell'unità di misura delle ordinate) Quotazione dello Yen 110 120 130 140 150 45 / 54
Effetti sul diagramma cartesiano derivanti dalla diversa scelta delle unità di misura degli assi. Rapporto y/x = 1 (sistema monometrico) Quotazione dello Yen 50 100 150 200 46 / 54
Effetti sul diagramma cartesiano derivanti dalla diversa scelta delle unità di misura degli assi. Rapporto y/x = 0.5 (dimezzamento dell'unità di misura delle ordinate) Quotazione dello Yen 0 100 200 300 47 / 54
Rappresentazione grafiche per dati territoriali Per rappresentare le serie territoriali spesso si utilizza un particolare grafico chiamato cartogramma. Questo grafico ha come base una mappa sulla quale sono visibili i contorni delle aree geografiche o territoriali rispetto alle quali vengono analizzate le frequenze o le intensità di un carattere. I cartogrammi a ripartizione colorate sono dei cartogrammi in cui ogni area della carta è colorata in base alla distribuzione di frequenza. 48 / 54
49 / 54
La piramide delle età (http://www.tuttitalia.it/statistiche/popolazione-eta-sesso-stato-civile-2014) 50 / 54
Diagramma Ramo-Foglia (stemplot) Questo tipo di grafico (J.W. Tukey, 1977) rappresenta le frequenze assolute tenendo conto del valore posizionale delle cifre nel sistema decimale. Tabella: Age at death of U.S. Preseidents Washington 67 Fillmore 74 Roosevelt 60 Adams 90 Pierce 64 Taft 72 Jefferson 83 Buchanan 77 Wilson 67 Madison 85 Lincoln 56 Harding 57 Monroe 73 Johnson 66 Coolidge 60 Adams 80 Grant 63 Hoover 90 Jackson 78 Hayes 70 Roosevelt 63 Van Buren 79 Garfield 49 Truman 88 Harrison 68 Arthur 56 Eisenhower 78 Tyler 71 Cleveland 71 Kennedy 46 Polk 53 Harrison 67 Johnson 64 Taylor 65 McKinley 58 51 / 54
Il grafico ramo-foglia è costituito da tanti rami (stems) quanti sono le decine evidenziate nei dati osservati e, per ogni ramo, da tante foglie quante sono le unità riscontrate. Tabella: Step 1. I rami 4 5 6 7 8 9 52 / 54
Il grafico ramo-foglia è costituito da tanti rami (stems) quanti sono le decine evidenziate nei dati osservati e, per ogni ramo, da tante foglie quante sono le unità riscontrate. Tabella: Step 2. Le foglie (stem) 4 9 6 5 3 6 6 8 7 6 7 8 5 4 6 3 7 0 7 0 3 4 7 3 8 9 1 4 7 0 1 2 8 8 3 5 0 8 9 0 0 53 / 54
Il grafico ramo-foglia è costituito da tanti rami (stems) quanti sono le decine evidenziate nei dati osservati e, per ogni ramo, da tante foglie quante sono le unità riscontrate. Tabella: Step 3. Riordino delle foglie 4 6 9 5 3 6 6 7 8 6 0 0 3 3 4 4 5 6 7 7 7 8 7 0 1 1 2 3 4 7 8 8 9 8 0 3 5 8 9 0 0 54 / 54