Rappresentazioni grafiche per variabili qualitative

Documenti analoghi
STATISTICA 1 ESERCITAZIONE 2

Statistica. Alfonso Iodice D Enza

I principali tipi di grafici

Distribuzioni statistiche

Distribuzioni e rappresentazioni grafiche

Le rappresentazioni grafiche

ESERCIZI DI RIEPILOGO 1

Università di Cassino Corso di Statistica 1 Esercitazione del 15/10/2007 Dott. Alfonso Piscitelli. Esercizio 1

Teoria e tecniche dei test. Concetti di base

Con riferimento ai dati riportati nella seguente tabella, indicare la tipologia dei caratteri rilevati.

Statistica. Capitolo 2. Cap. 2-1

Fonte: Esempio a fini didattici

La rappresentazione grafica di dati statistici COS E UN GRAFICO? Esistono diversi tipi di grafici DIAGRAMMA A TORTA DIAGRAMMA A TORTA

Questionario 1. Sono assegnati i seguenti dati

Le rappresentazioni grafiche

Rappresentazioni grafiche

Università di Cassino Corso di Statistica 1 Esercitazione del 14/01/2008 Dott. Alfonso Piscitelli

Lezione 2. Statistica. Alfonso Iodice D Enza Università degli studi di Cassino. Lezione 2. A. Iodice. Distribuzioni unitarie

RAPPRESENTAZIONI GRAFICHE

I principali tipi di grafici

Statistica Sociale e Criminale

ESERCITAZIONI N. 1 Corso di Statistica

Esercitazioni di Statistica: ES.1.1

Statistica Descrittiva Soluzioni 3. Medie potenziate

Statistica Economica Capitolo 2

Costruire il grafico di una distribuzione di frequenza

INDICATORI DI TENDENZA CENTRALE

Prof. Anna Paola Ercolani (Università di Roma) Lez Indicatori di tendenza centrale

CAPITOLO 2 RAPPRESENTAZIONI GRAFICHE DEI DATI

Istituzioni di Statistica 1 Esercizi su strumenti grafici e funzione di frequenza relativa cumulata

Rilevazione (Raccolta) Dati: Raccolta Campionaria e Raccolta Globale

INDICATORI DI TENDENZA CENTRALE

Istituzioni di Statistica e Statistica Economica

Distribuzione di frequenza e rappresentazioni grafiche

Rappresentazione dei dati statistici

INDICATORI DI TENDENZA CENTRALE

STATISTICA 1 ESERCITAZIONE 1 CLASSIFICAZIONE DELLE VARIABILI CASUALI

7. STATISTICA DESCRITTIVA

Esercizi Svolti. 2. Costruire la distribuzione delle frequenze cumulate del tempo di attesa

MISURE DI SINTESI 54

STATISTICA 1 ESERCITAZIONE 6

Scale di Misurazione Lezione 2

N.B. Per la risoluzione dei seguenti esercizi, si fa riferimento alle Tabelle riportate alla fine del documento.

Statistica. Campione

Esercitazioni di statistica

Dispensa di Statistica

Statistica Descrittiva Soluzioni 4. Medie lasche

CORSO DI STATISTICA (parte 1) - ESERCITAZIONE 3

Statistica descrittiva

Statistica Descrittiva Soluzioni 1. Caratteri e distribuzioni statistiche

La statistica descrittiva prima parte. a cura della prof.ssa Anna Rita Valente

3. rappresentare mediante i grafici ritenuti più idonei le distribuzioni di frequenze assolute dei diversi caratteri;

La variabilità. Dott. Cazzaniga Paolo. Dip. di Scienze Umane e Sociali

CORSO DI STATISTICA (parte 1) - ESERCITAZIONE 2

Obiettivi Strumenti Cosa ci faremo? Probabilità, distribuzioni campionarie. Stimatori. Indici: media, varianza,

STATISTICA DESCRITTIVA - SCHEDA N. 2 VARIABILI QUANTITATIVE (RAPPRESENTAZIONI GRAFICHE E QUANTILI)

STATISTICA DESCRITTIVA - SCHEDA N. 2 VARIABILI QUANTITATIVE Rappresentazioni grafiche e quantili

Rappresentazione dei dati

LA STATISTICA

Statistica. Matematica con Elementi di Statistica a.a. 2015/16

Lezione 05. Costruzione di grafici a torte, grafici a linee, istogrammi

Transcript:

Diagrammi a barre per variabili qualitative X = mezzo di trasporto usato per recarsi al lavoro Rappresentazioni grafiche per variabili qualitative Cicchitelli Cap. 3 Barre verticali, categorie lungo l asse orizzontale Altezze proporzionali alle frequenze (assolute o relative) In alternativa: barre orizzontali preferibile se le modalità sono molte NB. Le barre sono separate: la variabile non può assumere valori tra una categoria e l altra L. Grilli Statistica 213/214 96 L. Grilli Statistica 213/214 97 Ordine delle barre Diagramma a barre accostate VARIABILI SCONNESSE: nel diagramma per il mezzo di trasporto o in quello dell arrivo in orario (sì o no) l ordine delle barre è arbitrario VARIABILI ORDINALI: nel diagramma dell ora di sveglia le categorie sono ordinate e quindi devono essere rappresentate nell ordine giusto per vedere l andamento delle frequenze L. Grilli Statistica 213/214 98 femmina maschio fumo no 14 27 41 fumo sì 5 9 14 19 36 55 maschio femmina Diagramma a barre accostate 1 2 3 Frequenze assolute X = fumatore Y = sesso fumo sì fumo no Le barre del diagramma rappresentano le frequenze congiunte: ci sono 14 femmine non fumatrici Confrontando le barre adiacenti possiamo vedere che sia tra i maschi che tra le femmine prevalgono i non fumatori Confrontando le due barre viola, possiamo vedere che tra i fumatori ci sono più maschi che femmine L. Grilli Statistica 213/214 99

Diagramma a barre in pila Diagramma a barre in pila 1% femmina maschio fumo no 14 27 41 fumo sì 5 9 14 19 36 55 femmina maschio fumo no 14 27 41 fumo sì 5 9 14 19 36 55 femmina maschio fumo no 73.7% 75.% fumo sì 26.3% 25.% 1.% 1.% Diagramma a barre in pila Diagramma a barre in pila 1% maschio femmina fumo no fumo sì maschio femmina fumo no fumo sì 1 2 3 4 % 25% 5% 75% 1% Frequenze assolute Frequenze relative % Per capire qual è la proporzione di fumatori tra i maschi e le femmine, conviene impilare le barre L. Grilli Statistica 213/214 1 Per confrontare le proporzioni di fumatori tra i maschi e le femmine, conviene impilare le barre usando le percentuali di colonna anziché le frequenze L. Grilli Statistica 213/214 11 Diagramma a torta Barre o torta? Tab. 2- Forze lavoro per condizione, anno 1999 (migliaia) Condizione Freq. occupati 2435 disoccupati 996 in cerca di 1a occup. 1152 altri 596 TOTALE 23179 Fonte: Istat, Rapporto sull'italia 21 Diagramma circolare (torta): angolo al centro proporzionale alla frequenza Diagramma a barre migliore percezione delle differenze Diagramma a torta migliore percezione della composizione Occupati in cerca di 1a occup. disoccupati n j 36 N altri.2.4.6.8 1 L. Grilli Statistica 213/214 12 L. Grilli Statistica 213/214 13

Un grafico orrendo http://www.causeweb.org Located at http://people.howstuffworks.com/prison4.htm 14 15 Grafici per variabili quantitative Per capire come sintetizzare la distribuzione di un carattere quantitativo è utile conoscere la sua forma Rappresentazioni grafiche per variabili quantitative Cicchitelli Cap. 3 La forma di una distribuzione può essere vista attraverso un grafico Grafici più utilizzati Dot plot Istogramma Ramo foglia (Steam and leaf) Diagramma a bastoncini Box plot [verrà presentato più avanti, dopo gli indici di forma] 16 L. Grilli Statistica 213/214 17

Diagramma a bastoncini Dot plot Quando la variabile è discreta con poche modalità Tab. 3 Famiglie per numero di componenti. Italia 1998. Componenti freq. % 1 459413 21.65 2 552781 26.5 3 495487 23.35 4 446681 21.5 5 129442 6.1 6 e più 38196 1.8 Totale 2122 1 Fonte: Istat, Rapporto sull'italia 21 Diagramma a bastoncini: altezza proporzionale alla frequenza 6 5 4 3 2 1 Bar Chart 1 2 3 4 5 6 e più Componenti L. Grilli Statistica 213/214 18 Il dot plot mostra i singoli casi osservati come punti dal dot plot possiamo vedere la forma, il centro e la dispersione dei dati Il dot-plot è utile quando: si hanno pochi casi si vogliono vedere i singoli valori Velocità di alcuni mammiferi 5 15 25 35 45 55 65 75 velocità (mph) Attenzione. Software diversi fanno dot-plot diversi: a volte 1 punto rappresenta 1 singolo caso, a volte 2 o più casi, a volte i valori vengono arrotondati L. Grilli Statistica 213/214 19 Dot plot: durata gestazione di alcuni mammiferi Istogramma La distribuzione è centrata verso i valori più bassi, senza gruppi o buchi particolari C è una sorta di muro a giorni, perché nessun mammifero può avere un periodo di gestazione più 16 piccolo! 1 2 3 4 5 6 7 L elefante è l unico mammifero fuori norma (outlier) durata gestazione (giorni) Circa la metà dei mammiferi hanno un periodo di gestazione superiore a 16 giorni e la metà hanno un periodo più breve La metà centrale ha un periodo di gestazione che varia tra i 63 e i 284 giorni. elefante L. Grilli Statistica 213/214 11 L istogramma rappresenta un insieme di casi (raggruppati in classi) come rettangoli Se le classi sono di uguale ampiezza, l altezza del rettangolo è proporzionale alla frequenza della classe (molti programmi di analisi dei dati consentono solo classi di uguale ampiezza) L istogramma può essere costruito utilizzando sia le frequenze assolute che relative Rappresenta la distribuzione sotto la seguente ipotesi: in ogni classe le frequenze sono uniformemente distribuite nell intervallo L. Grilli Statistica 213/214 111

Istogramma: esempio (freq. assolute) Istogramma: esempio (freq. relative) Intervallo Frequenza 1-2 3 2-3 6 3-4 5 4-5 4 5-6 2 Il carattere è continuo non c è spazio fra le barre! Frequenza Istogramma: Temperatura M assima 7 6 Giornaliera 6 5 5 4 4 3 3 2 2 1 1 1 2 2 3 34 45 56 6 7 Temperatura in Gradi Quale proporzione degli studenti ha un altezza di 18 cm o più? Soluzione Individuare l intervallo di valori >18 sull asse X Quale proporzione dell area totale corrisponde alle barre su questo intervallo? A occhio questa proporzione è circa 1/3 circa 1/3 degli studenti hanno un altezza>18 In maniera più precisa: possiamo sommare le altezze delle 3 barre dell istogramma alla destra di 18, cioè 22+6+2 = 3 3% L. Grilli Statistica 213/214 112 L. Grilli Statistica 213/214 113 Istogramma: quante classi? L arte di fare istogrammi Cambiando l ampiezza delle classi dell istogramma (o cambiando il numero di classi) a volte si ha un impressione diversa della forma della distribuzione Per esempio, l istogramma (1) per la velocità dei mammiferi ha meno barre ma più ampie rispetto all istogramma (2) e mostra una forma a campana più simmetrica, con un solo picco invece di due Se ci sono pochi valori è difficile identificare i picchi, in questi casi è meglio utilizzare grafici che mostrano i singoli dati, come il dot plot o il ramo foglia (1) (2) Non c è una regola per trovare qual è l ampiezza di classe migliore per disegnare l istogramma, proprio come per un fotografo non c è una regola che dica quando e come usare lo zoom! Versioni diverse del grafico mettono in luce caratteristiche differenti della distribuzione: l abilità dello statistico sta nel trovare una versione che mostra bene le caratteristiche più importanti! Un istogramma è una buona rappresentazione dei dati quando: Ci sono molti valori da rappresentare Non interessa conoscere la posizione di ciascun valore Si è interessati a mostrare la forma generale della distribuzione L. Grilli Statistica 213/214 114 L. Grilli Statistica 213/214 115

Istogramma: classi di ampiezza diversa Istogramma: classi di ampiezza diversa (cont) x i-1 x i Altezza = h i = f i / a i = densità classe Base = x i x i-1 = a i = ampiezza classe Area = a i h i = f i = frequenza classe X Classi Freq.rel. Ampiezza Densità x -x 1 f 1 a 1 h 1 x i-1 -x i f i a i h i x k-1 -x k f k a k h k Totale 1 Definire classi di ampiezza variabile è utile quando vi sono intervalli con alta frequenza e intervalli con bassa frequenza (es. per la variabile «reddito mensile da lavoro dipendente» molti lavoratori hanno valori tra 1 e 2 euro ( è opportuno fare classi di 1 euro), pochi tra 8 e 1 ( bastano classi di 5 o 1 euro) L. Grilli Statistica 213/214 116 Densità di frequenza: h i = f i /a i Ampiezza di classe: a i = x i x i-1 L. Grilli Statistica 213/214 117 Istogramma: classi di ampiezza diversa (cont) La funzione di ripartizione Data una v.s. quantitativa X si dice funzione di ripartizione F(x) la frequenza relativa (proporzione) dei valori minori o uguali a x: Distribuzione dei redditieri per classi di reddito dichiarato in milioni di lire (Italia, 1977) Proprietà: F(x)= per x < x min F(x)=1 per x x max F(x) non decrescente F( x) pr u: X( u) x pr X x Insieme delle modalità ordinate di X: X discreta {x min,, x j,, x max } X continua [x min, x max ] Vediamo 2 tipi di funzione di ripartizione: quella empirica e quella dedotta dall istogramma L. Grilli Statistica 213/214 118 L. Grilli Statistica 213/214 119

Funzione di ripartizione empirica Funzione di ripartizione empirica (cont) Data una successione di dati grezzi x 1, x 2,, x n di una v.s. X, la F(X) calcolata a partire da tali dati è detta funzione di ripartizione empirica. X = {,,3,5,5,12,15,15} x j n j f j F(x) 2.25.25 3 1.125.375 5 2.25.625 12 1.125.75 15 2.25 1. tot 8 1. 1.875.75.625.5.375.25.125.875.625.375.125 f j -1 1 3 5 7 9 11 13 15 17 1.75.5.25 F j Pr(y<=5) f(y=5) -1 1 3 5 7 9 11 13 15 17 L. Grilli Statistica 213/214 12 Proprietà: F(X<x min )=; F(X x max )=1; non decrescente Funzione a gradini : costante in [x j-1 ; x j ) In X=x j F(x) salta di f j (frequenza rel. di x j ) 1.875.75.625.5.375.25.125 f j -1 1 3 5 7 9 11 13 15 17 L. Grilli Statistica 213/214 121 Funzione di ripartizione dedotta dalla densità (variabili continue) h j x pr ( X x) F( x) f ( t) dt Ipotesi dell istogramma F( x) F( x ) h ( x x ), x x ; x j 1 j j 1 j 1 j x j f j x j 1 densità Funzione di ripartizione dedotta dalla densità (variabili continue) 1.9.8.7.6.5.4 Proprietà: F(X<x min )=; F(X x max )=1; non decrescente Funzione lineare in [x j-1 ; x j ) la derivata prima rappresenta la pendenza dei segmenti di retta che uniscono due estremi di classe successivi Interpolazione lineare in (x j-1 ; x j ) Esatta in x F( x) F( x j j 1) hj( x xj 1).3.2.1 L. Grilli Statistica 213/214 122 1 2 3 4 5 6 7 8 9 1 L. Grilli Statistica 213/214 123

Grafici per serie storiche Cartogrammi 35 Sottoscrizioni alla rivista per anno Rappresentazione di serie territoriali 3 Migliaia di sottoscrittori 25 2 15 1 5 Aree geografiche: comuni Carattere: densità della popolazione 26 25 24 23 22 21 2 1999 1998 1997 1996 1995 1994 1993 1992 1991 199 L. Grilli Statistica 213/214 124 L. Grilli Statistica 213/214 125 Forma della distribuzione: simmetrica Forma della distribuzione: asimmetrica La forma della distribuzione si dice simmetrica se le osservazioni sono distribuite approssimativamente in modo simmetrico rispetto al centro La forma della distribuzione è detta asimmetrica se le osservazioni sono distribuite in modo marcatamente asimmetrico Distribuzione con Asimmetria Positiva Frequenza 1 9 8 7 6 5 4 3 2 1 Distribuzione Simmetrica Una distribuzione con asimmetria positiva (obliqua a destra) ha una coda che si estende a destra, nella direzione dei valori positivi. Una distribuzione con asimmetria negativa (obliqua a sinistra) ha una coda che si estende a sinistra, nella direzione dei valori negativi. Frequenza Frequenza 12 1 8 6 4 2 12 1 8 6 4 1 2 3 4 5 6 7 8 9 Distribuzione con Asimmetria Negativa 1 2 3 4 5 6 7 8 9 2 L. Grilli Statistica 213/214 126 1 2 3 4 5 6 7 8 9 L. Grilli Statistica 213/214 127

L. Grilli Statistica 213/214 128 L. Grilli Statistica 213/214 129 Grafici ingannevoli Come insegna il classico libro di D. Huff «Mentire con la statistica» il grafici possono essere disegnati in modo da trarre in inganno I due trucchi più frequenti sono Compressione o espansione degli assi del diagramma cartesiano L asse verticale che non parte da zero A volte invece i grafici sono semplicemente inutili perché non aggiungono niente ad una sintesi in forma di tabella (tali grafici spesso hanno il fine di catturare l attenzione del lettore) L. Grilli Statistica 213/214 13 L. Grilli Statistica 213/214 131

25 2 15 1 5 Delitti denunciati per criminalità violenta nel 1998 su 1. abitanti dai 14 anni in su (fonte: ISTAT) Due grafici a barre per gli stessi dati: nel primo l asse verticale parte da zero, nel secondo parte da 18 Un grafico inutile Bari Bologna Milano Torino 23 22 21 2 19 18 Delitti denunciati per criminalità violenta nel 1998 su 1. abitanti dai 14 anni in su (fonte: ISTAT) Bari Bologna Milano Torino Qui l asse verticale non parte da zero: sembra che il tasso di denunce a Torino sia oltre il doppio che a Milano, mentre Bari appare un oasi di tranquillità! L. Grilli Statistica 213/214 132 Fonte: adattato da S. Watterson: Liquid Gold-Australians Are Changing the World of Wine. Even the French Seem Grateful, Time, 22 novembre 1999, 68. L. Grilli Statistica 213/214 133