Diagrammi a barre per variabili qualitative X = mezzo di trasporto usato per recarsi al lavoro Rappresentazioni grafiche per variabili qualitative Cicchitelli Cap. 3 Barre verticali, categorie lungo l asse orizzontale Altezze proporzionali alle frequenze (assolute o relative) In alternativa: barre orizzontali preferibile se le modalità sono molte NB. Le barre sono separate: la variabile non può assumere valori tra una categoria e l altra L. Grilli Statistica 213/214 96 L. Grilli Statistica 213/214 97 Ordine delle barre Diagramma a barre accostate VARIABILI SCONNESSE: nel diagramma per il mezzo di trasporto o in quello dell arrivo in orario (sì o no) l ordine delle barre è arbitrario VARIABILI ORDINALI: nel diagramma dell ora di sveglia le categorie sono ordinate e quindi devono essere rappresentate nell ordine giusto per vedere l andamento delle frequenze L. Grilli Statistica 213/214 98 femmina maschio fumo no 14 27 41 fumo sì 5 9 14 19 36 55 maschio femmina Diagramma a barre accostate 1 2 3 Frequenze assolute X = fumatore Y = sesso fumo sì fumo no Le barre del diagramma rappresentano le frequenze congiunte: ci sono 14 femmine non fumatrici Confrontando le barre adiacenti possiamo vedere che sia tra i maschi che tra le femmine prevalgono i non fumatori Confrontando le due barre viola, possiamo vedere che tra i fumatori ci sono più maschi che femmine L. Grilli Statistica 213/214 99
Diagramma a barre in pila Diagramma a barre in pila 1% femmina maschio fumo no 14 27 41 fumo sì 5 9 14 19 36 55 femmina maschio fumo no 14 27 41 fumo sì 5 9 14 19 36 55 femmina maschio fumo no 73.7% 75.% fumo sì 26.3% 25.% 1.% 1.% Diagramma a barre in pila Diagramma a barre in pila 1% maschio femmina fumo no fumo sì maschio femmina fumo no fumo sì 1 2 3 4 % 25% 5% 75% 1% Frequenze assolute Frequenze relative % Per capire qual è la proporzione di fumatori tra i maschi e le femmine, conviene impilare le barre L. Grilli Statistica 213/214 1 Per confrontare le proporzioni di fumatori tra i maschi e le femmine, conviene impilare le barre usando le percentuali di colonna anziché le frequenze L. Grilli Statistica 213/214 11 Diagramma a torta Barre o torta? Tab. 2- Forze lavoro per condizione, anno 1999 (migliaia) Condizione Freq. occupati 2435 disoccupati 996 in cerca di 1a occup. 1152 altri 596 TOTALE 23179 Fonte: Istat, Rapporto sull'italia 21 Diagramma circolare (torta): angolo al centro proporzionale alla frequenza Diagramma a barre migliore percezione delle differenze Diagramma a torta migliore percezione della composizione Occupati in cerca di 1a occup. disoccupati n j 36 N altri.2.4.6.8 1 L. Grilli Statistica 213/214 12 L. Grilli Statistica 213/214 13
Un grafico orrendo http://www.causeweb.org Located at http://people.howstuffworks.com/prison4.htm 14 15 Grafici per variabili quantitative Per capire come sintetizzare la distribuzione di un carattere quantitativo è utile conoscere la sua forma Rappresentazioni grafiche per variabili quantitative Cicchitelli Cap. 3 La forma di una distribuzione può essere vista attraverso un grafico Grafici più utilizzati Dot plot Istogramma Ramo foglia (Steam and leaf) Diagramma a bastoncini Box plot [verrà presentato più avanti, dopo gli indici di forma] 16 L. Grilli Statistica 213/214 17
Diagramma a bastoncini Dot plot Quando la variabile è discreta con poche modalità Tab. 3 Famiglie per numero di componenti. Italia 1998. Componenti freq. % 1 459413 21.65 2 552781 26.5 3 495487 23.35 4 446681 21.5 5 129442 6.1 6 e più 38196 1.8 Totale 2122 1 Fonte: Istat, Rapporto sull'italia 21 Diagramma a bastoncini: altezza proporzionale alla frequenza 6 5 4 3 2 1 Bar Chart 1 2 3 4 5 6 e più Componenti L. Grilli Statistica 213/214 18 Il dot plot mostra i singoli casi osservati come punti dal dot plot possiamo vedere la forma, il centro e la dispersione dei dati Il dot-plot è utile quando: si hanno pochi casi si vogliono vedere i singoli valori Velocità di alcuni mammiferi 5 15 25 35 45 55 65 75 velocità (mph) Attenzione. Software diversi fanno dot-plot diversi: a volte 1 punto rappresenta 1 singolo caso, a volte 2 o più casi, a volte i valori vengono arrotondati L. Grilli Statistica 213/214 19 Dot plot: durata gestazione di alcuni mammiferi Istogramma La distribuzione è centrata verso i valori più bassi, senza gruppi o buchi particolari C è una sorta di muro a giorni, perché nessun mammifero può avere un periodo di gestazione più 16 piccolo! 1 2 3 4 5 6 7 L elefante è l unico mammifero fuori norma (outlier) durata gestazione (giorni) Circa la metà dei mammiferi hanno un periodo di gestazione superiore a 16 giorni e la metà hanno un periodo più breve La metà centrale ha un periodo di gestazione che varia tra i 63 e i 284 giorni. elefante L. Grilli Statistica 213/214 11 L istogramma rappresenta un insieme di casi (raggruppati in classi) come rettangoli Se le classi sono di uguale ampiezza, l altezza del rettangolo è proporzionale alla frequenza della classe (molti programmi di analisi dei dati consentono solo classi di uguale ampiezza) L istogramma può essere costruito utilizzando sia le frequenze assolute che relative Rappresenta la distribuzione sotto la seguente ipotesi: in ogni classe le frequenze sono uniformemente distribuite nell intervallo L. Grilli Statistica 213/214 111
Istogramma: esempio (freq. assolute) Istogramma: esempio (freq. relative) Intervallo Frequenza 1-2 3 2-3 6 3-4 5 4-5 4 5-6 2 Il carattere è continuo non c è spazio fra le barre! Frequenza Istogramma: Temperatura M assima 7 6 Giornaliera 6 5 5 4 4 3 3 2 2 1 1 1 2 2 3 34 45 56 6 7 Temperatura in Gradi Quale proporzione degli studenti ha un altezza di 18 cm o più? Soluzione Individuare l intervallo di valori >18 sull asse X Quale proporzione dell area totale corrisponde alle barre su questo intervallo? A occhio questa proporzione è circa 1/3 circa 1/3 degli studenti hanno un altezza>18 In maniera più precisa: possiamo sommare le altezze delle 3 barre dell istogramma alla destra di 18, cioè 22+6+2 = 3 3% L. Grilli Statistica 213/214 112 L. Grilli Statistica 213/214 113 Istogramma: quante classi? L arte di fare istogrammi Cambiando l ampiezza delle classi dell istogramma (o cambiando il numero di classi) a volte si ha un impressione diversa della forma della distribuzione Per esempio, l istogramma (1) per la velocità dei mammiferi ha meno barre ma più ampie rispetto all istogramma (2) e mostra una forma a campana più simmetrica, con un solo picco invece di due Se ci sono pochi valori è difficile identificare i picchi, in questi casi è meglio utilizzare grafici che mostrano i singoli dati, come il dot plot o il ramo foglia (1) (2) Non c è una regola per trovare qual è l ampiezza di classe migliore per disegnare l istogramma, proprio come per un fotografo non c è una regola che dica quando e come usare lo zoom! Versioni diverse del grafico mettono in luce caratteristiche differenti della distribuzione: l abilità dello statistico sta nel trovare una versione che mostra bene le caratteristiche più importanti! Un istogramma è una buona rappresentazione dei dati quando: Ci sono molti valori da rappresentare Non interessa conoscere la posizione di ciascun valore Si è interessati a mostrare la forma generale della distribuzione L. Grilli Statistica 213/214 114 L. Grilli Statistica 213/214 115
Istogramma: classi di ampiezza diversa Istogramma: classi di ampiezza diversa (cont) x i-1 x i Altezza = h i = f i / a i = densità classe Base = x i x i-1 = a i = ampiezza classe Area = a i h i = f i = frequenza classe X Classi Freq.rel. Ampiezza Densità x -x 1 f 1 a 1 h 1 x i-1 -x i f i a i h i x k-1 -x k f k a k h k Totale 1 Definire classi di ampiezza variabile è utile quando vi sono intervalli con alta frequenza e intervalli con bassa frequenza (es. per la variabile «reddito mensile da lavoro dipendente» molti lavoratori hanno valori tra 1 e 2 euro ( è opportuno fare classi di 1 euro), pochi tra 8 e 1 ( bastano classi di 5 o 1 euro) L. Grilli Statistica 213/214 116 Densità di frequenza: h i = f i /a i Ampiezza di classe: a i = x i x i-1 L. Grilli Statistica 213/214 117 Istogramma: classi di ampiezza diversa (cont) La funzione di ripartizione Data una v.s. quantitativa X si dice funzione di ripartizione F(x) la frequenza relativa (proporzione) dei valori minori o uguali a x: Distribuzione dei redditieri per classi di reddito dichiarato in milioni di lire (Italia, 1977) Proprietà: F(x)= per x < x min F(x)=1 per x x max F(x) non decrescente F( x) pr u: X( u) x pr X x Insieme delle modalità ordinate di X: X discreta {x min,, x j,, x max } X continua [x min, x max ] Vediamo 2 tipi di funzione di ripartizione: quella empirica e quella dedotta dall istogramma L. Grilli Statistica 213/214 118 L. Grilli Statistica 213/214 119
Funzione di ripartizione empirica Funzione di ripartizione empirica (cont) Data una successione di dati grezzi x 1, x 2,, x n di una v.s. X, la F(X) calcolata a partire da tali dati è detta funzione di ripartizione empirica. X = {,,3,5,5,12,15,15} x j n j f j F(x) 2.25.25 3 1.125.375 5 2.25.625 12 1.125.75 15 2.25 1. tot 8 1. 1.875.75.625.5.375.25.125.875.625.375.125 f j -1 1 3 5 7 9 11 13 15 17 1.75.5.25 F j Pr(y<=5) f(y=5) -1 1 3 5 7 9 11 13 15 17 L. Grilli Statistica 213/214 12 Proprietà: F(X<x min )=; F(X x max )=1; non decrescente Funzione a gradini : costante in [x j-1 ; x j ) In X=x j F(x) salta di f j (frequenza rel. di x j ) 1.875.75.625.5.375.25.125 f j -1 1 3 5 7 9 11 13 15 17 L. Grilli Statistica 213/214 121 Funzione di ripartizione dedotta dalla densità (variabili continue) h j x pr ( X x) F( x) f ( t) dt Ipotesi dell istogramma F( x) F( x ) h ( x x ), x x ; x j 1 j j 1 j 1 j x j f j x j 1 densità Funzione di ripartizione dedotta dalla densità (variabili continue) 1.9.8.7.6.5.4 Proprietà: F(X<x min )=; F(X x max )=1; non decrescente Funzione lineare in [x j-1 ; x j ) la derivata prima rappresenta la pendenza dei segmenti di retta che uniscono due estremi di classe successivi Interpolazione lineare in (x j-1 ; x j ) Esatta in x F( x) F( x j j 1) hj( x xj 1).3.2.1 L. Grilli Statistica 213/214 122 1 2 3 4 5 6 7 8 9 1 L. Grilli Statistica 213/214 123
Grafici per serie storiche Cartogrammi 35 Sottoscrizioni alla rivista per anno Rappresentazione di serie territoriali 3 Migliaia di sottoscrittori 25 2 15 1 5 Aree geografiche: comuni Carattere: densità della popolazione 26 25 24 23 22 21 2 1999 1998 1997 1996 1995 1994 1993 1992 1991 199 L. Grilli Statistica 213/214 124 L. Grilli Statistica 213/214 125 Forma della distribuzione: simmetrica Forma della distribuzione: asimmetrica La forma della distribuzione si dice simmetrica se le osservazioni sono distribuite approssimativamente in modo simmetrico rispetto al centro La forma della distribuzione è detta asimmetrica se le osservazioni sono distribuite in modo marcatamente asimmetrico Distribuzione con Asimmetria Positiva Frequenza 1 9 8 7 6 5 4 3 2 1 Distribuzione Simmetrica Una distribuzione con asimmetria positiva (obliqua a destra) ha una coda che si estende a destra, nella direzione dei valori positivi. Una distribuzione con asimmetria negativa (obliqua a sinistra) ha una coda che si estende a sinistra, nella direzione dei valori negativi. Frequenza Frequenza 12 1 8 6 4 2 12 1 8 6 4 1 2 3 4 5 6 7 8 9 Distribuzione con Asimmetria Negativa 1 2 3 4 5 6 7 8 9 2 L. Grilli Statistica 213/214 126 1 2 3 4 5 6 7 8 9 L. Grilli Statistica 213/214 127
L. Grilli Statistica 213/214 128 L. Grilli Statistica 213/214 129 Grafici ingannevoli Come insegna il classico libro di D. Huff «Mentire con la statistica» il grafici possono essere disegnati in modo da trarre in inganno I due trucchi più frequenti sono Compressione o espansione degli assi del diagramma cartesiano L asse verticale che non parte da zero A volte invece i grafici sono semplicemente inutili perché non aggiungono niente ad una sintesi in forma di tabella (tali grafici spesso hanno il fine di catturare l attenzione del lettore) L. Grilli Statistica 213/214 13 L. Grilli Statistica 213/214 131
25 2 15 1 5 Delitti denunciati per criminalità violenta nel 1998 su 1. abitanti dai 14 anni in su (fonte: ISTAT) Due grafici a barre per gli stessi dati: nel primo l asse verticale parte da zero, nel secondo parte da 18 Un grafico inutile Bari Bologna Milano Torino 23 22 21 2 19 18 Delitti denunciati per criminalità violenta nel 1998 su 1. abitanti dai 14 anni in su (fonte: ISTAT) Bari Bologna Milano Torino Qui l asse verticale non parte da zero: sembra che il tasso di denunce a Torino sia oltre il doppio che a Milano, mentre Bari appare un oasi di tranquillità! L. Grilli Statistica 213/214 132 Fonte: adattato da S. Watterson: Liquid Gold-Australians Are Changing the World of Wine. Even the French Seem Grateful, Time, 22 novembre 1999, 68. L. Grilli Statistica 213/214 133