Rappresentazione dei dati

Documenti analoghi
Statistica Economica Capitolo 2

Indici di variabilità relativa

autosnodato auto-treno con rimorchio totale incidenti trattore stradale o motrice auto-articolato

Affitti Quota Latte - Periodo 2014/2015

Sistemi di rappresentazione

Lezione 2. Statistica. Alfonso Iodice D Enza Università degli studi di Cassino. Lezione 2. A. Iodice. Distribuzioni unitarie

Le rappresentazioni grafiche

Persone che hanno subito incidenti in. Regioni

Struttura Ex asl impegni prestazioni costo Ticket Regione

Distribuzioni e rappresentazioni grafiche

Prodotto interno lordo per ripartizione geografica, in Italia e in Sardegna: variazioni percentuali 2005 su 2004

Le rappresentazioni grafiche

Struttura Ex asl impegni prestazioni costo prestazioni Ticket Regione H , ,76 Basilicata H

REGIME QUOTE LATTE AFFITTI DI QUOTA

Statistica Sociale e Criminale

Lezione n. 1 _Complementi di matematica

Approfondimento 1 - Rsu per comparto e per ripartizione geografica

Interventi di Upgrading di Impianti di Depurazione Esistenti

Rilevazione (Raccolta) Dati: Raccolta Campionaria e Raccolta Globale

Statistica. Alfonso Iodice D Enza

TOTALE DEI RISULTATI DEL CONTO ENERGIA (PRIMO, SECONDO, TERZO, QUARTO E QUINTO CONTO ENERGIA)

Notiziario Esiti degli scrutini e degli esami di Stato del II ciclo A.S. 2009/10. (agosto 2010)

Statistica. Campione

DIPARTIMENTO AMMINISTRAZIONE PENITENZIARIA UFFICIO STAMPA E RELAZIONI ESTERNE

RIEPILOGO REGIONALE PER SPECIALIZZAZIONE RIEPILOGO REGIONALE PER SPECIALIZZAZIONE

Università di Cassino Corso di Statistica 1 Esercitazione del 15/10/2007 Dott. Alfonso Piscitelli. Esercizio 1

Università di Cassino Corso di Statistica 1 Esercitazione del 14/01/2008 Dott. Alfonso Piscitelli

L INDAGINE STATISTICA

Pensioni ISTITUTO NAZIONALE DELLA PREVIDENZA SOCIALE. DIREZIONE Regionale PENSIONI PIANIFICAZIONE E CONTROLLO DI GESTIONE. Presentazione...

STATISTICA 1 ESERCITAZIONE 2

Le rappresentazioni grafiche

Alunni con Disturbi Specifici di Apprendimento Rilevazioni integrative a.s

Dossier I dati regionali. Dossier Casa I dati regionali. A cura della Direzione Affari Economici e Centro Studi

Statistica del turismo. Indice. 1. Premessa La compilazione di un grafico La rappresentazione di mutabili... 5

CARATTERISTICHE ED EVOLUZIONE DELLA POPOLAZIONE

FIGISC ANISA NEWSLETTER PREZZI N

Boschi alti Impianti di arboricoltura da legno Aree temporanemente prive di soprassuolo. Totale Impianti di arboricoltura da legno

STATISTICA. La Statistica è la scienza che studia i fenomeni collettivi utilizzando metodi matematici.

LO STATO PONDERALE DEI BAMBINI

La popolazione toscana al 1 gennaio marzo 2014

Rappresentazione dei dati statistici

Elaborazione Statistica degli Infortuni Mortali sul Lavoro Anno 2014: aggiornamento al 30/04/2014 DATI INAIL NAZIONALI

DATI INAIL NAZIONALI

Distribuzioni statistiche

DATI INAIL NAZIONALI Anno 2016: aggiornamento al 31/7/2016

Rappresentazioni grafiche per variabili qualitative

Con riferimento ai dati riportati nella seguente tabella, indicare la tipologia dei caratteri rilevati.

I principali tipi di grafici

Fonte: Esempio a fini didattici

L AGRITURISMO IN FRIULI VENEZIA GIULIA AL

Ministero dell Istruzione, dell Università e della Ricerca Ufficio Stampa

UNITA N 4 RACCOGLIERE INFORMAZIONI E RAPPRESENTARE DATI

Transcript:

Rappresentazione dei dati I dati raccolti in tabelle possono essere rappresentati attraverso grafici che offrono il vantaggio di una descrizione del fenomeno in forma visiva. E. Di Nardo, a.a. 15/16 1 Cartogramma Serve a rappresentare serie o seriazioni geografiche, ossia quegli elementi costitutivi della popolazione che rappresentano modalità geografiche. Esempio di serie statistica (variabile: potenziale) Modalità E. Di Nardo, a.a. 15/16 2 1

Al sud siamo più bravi? E. Di Nardo, a.a. 15/16 3 Istogrammi (diagramma a barre) Veneto Valle D'Aosta Umbria Trentino Toscana Sicilia Sardegna Puglia Piemonte Molise Marche Lombardia Liguria Lazio Friuli Emilia Rom. Campania Calabria Basilicata Abbruzzo La Lombardia ha il maggior numero di incidenti. 0 10000 20000 30000 40000 50000 60000 70000 80000 E. Di Nardo, a.a. 15/16 4 2

Sul sito dell ACI aprendo il file E. Di Nardo, a.a. 15/16 5 Incidenti stradali anno 2009: Totale: Parco macchine 2009 Tasso: Incidenti regionali/parco macchine regionale Tasso %: Tasso per 100 Regione Incidenti Totale Tasso Tasso% Abruzzo 7252 827.395 9 0,88 Basilicata 1726 344.575 5 0,50 Calabria 6570 1.174.244 6 0,56 Campania 21587 3.370.661 6 0,64 Emilia Rom. 38497 2.673.730 0,014 1,44 Friuli 8207 758.581 0,011 1,08 Lazio 53240 3.807.796 0,014 1,40 Liguria 17048 837.669 0,020 2,04 Lombardia 74672 5.739.731 0,013 1,30 Marche 12373 979.722 0,013 1,26 Molise 933 195.784 5 0,48 Piemonte 25341 2.780.528 9 0,91 Puglia 24377 2.237.119 0,011 1,09 Sardegna 8628 980.716 9 0,88 Sicilia 26528 3.071.508 9 0,86 Toscana 34380 2.352.930 0,015 1,46 Trentino 5097 558.423 9 0,91 Umbria 5680 599.935 9 0,95 Valle D'Aosta 642 140.470 5 0,46 Veneto 29396 2.912.984 0,010 1,01 La Lombardia detiene ancora il primato? E. Di Nardo, a.a. 15/16 6 3

Tasso% Veneto Valle D'Aosta Umbria Trentino Toscana Sicilia Sardegna Puglia Piemonte Molise Marche Lombardia Liguria Lazio Friuli Emilia Rom. Campania Calabria Basilicata Abbruzzo 0,50 1,00 1,50 2,00 2,50 E. Di Nardo, a.a. 15/16 7 E mettendo a confronto i due grafici Tasso% Valle D'Aosta Trentino Sicilia Puglia Molise Lombardia Lazio Emilia Rom. Calabria Abbruzzo 0,50 1,00 1,50 2,00 2,50 Tasso% Tasso Valle D'Aosta Trentino Frequenze assolute Sicilia Puglia Molise Lombardia Lazio Emilia Rom. Calabria Abbruzzo 0 10000 20000 30000 40000 50000 60000 70000 80000 E. Di Nardo, a.a. 15/16 8 4

Diagrammi circolari (torte) Un cerchio che rappresenta tutto il campione viene diviso in spicchi. L area di ogni spicchio rappresenta la frequenza relativa. Finalità principale: evitare ordinamenti anche nel caso di variabili quantitative. Abitanti Torino (1999) 0-24 anni 25-44 anni 45-64 anni oltre 64 anni 21% 20% Esempio di seriazione statistica Esempio di serie statistica 28% 31% Suddivisione per fasce di età degli abitanti di Torino E. Di Nardo, a.a. 15/16 9 Ideogrammi Sono rappresentazioni mediante figure stilizzate che rappresentano il fenomeno studiato. Prod.zucche qt Mary 10 Anne 20 Jo 40 E. Di Nardo, a.a. 15/16 10 5

Prod.zucche qt Mary 10 Anne 20 Jo 40 Con questo diverso ideogramma l impressione è diversa: la prima zucca occupa uno spazio rettangolare xy (x è la base e y l altezza), la seconda zucca (con dimensioni raddoppiate) occupa uno spazio 4xy la terza zucca (con dimensioni quadruplicate) uno spazio 16xy. Il rapportotrale produzionidi Mary edanne è di 1 a 4 (e non 1 a 2, come ilrapporto tra10 e 20 correttamenteindicherebbe), mentreilrapportotrale produzionidi Mary e Joe è addirittura pariad 1 a 16 (piuttosto che1 a 4). Questo tipo di grafico non è molto utilizzato E. Di Nardo, a.a. 15/16 11 Diagrammi cartesiani Usati soprattutto per serie temporali, ossia per visualizzare un fenomeno nel tempo ANNO VENDITE AUTO 1996 10.000 1997 15.000 1998 20.000 1999 18.000 2000 17.000 2001 22.000 25000 20000 15000 10000 Produzione Produzione 2002 23.000 2003 10.000 5000 0 1996 1997 1998 1999 2000 2001 2002 2003 La linea continua è facoltativa. E. Di Nardo, a.a. 15/16 12 6

Un esempio concreto di serie storica 30 Denominatore aggiornato con no. di aumenti di capitale, scissioni, fusioni E. Di Nardo, a.a. 15/16 13 Utilità: facile lettura nei confronti. Legenda del grafico: Temperatura media a dicembre (linea blu). Temperatura media nazionale (linea scura) Temperatura a dicembre (linea verde) E. Di Nardo, a.a. 15/16 14 7

Diagrammi cartesiani Per studiare il grado di dipendenza tra due insiemi di dati Esempio: La tabella riporta il peso e l altezza di 10 atleti. Domanda: E possibile ipotizzare che il peso e l altezza degli studenti siano legati da una relazione lineare? E. Di Nardo, a.a. 15/16 15 Diagrammi polari Sono usati per particolari serie storiche con carattere di ciclicità. Lunedì Martedì Mercoledì Giovedì Venerdì 50 40 30 40 50 venerdì lunedì 50 40 30 20 10 0 assenze martedì assenze giovedì mercoledì E. Di Nardo, a.a. 15/16 16 8

Istogrammi (diagramma a barre) Città #disoccupati per 100.000 Atlanta 7300 Boston 5400 Chicago 6700 Los Angeles 8900 New York 8200 Washington 8900 Disoccupati per 100.000 10000 9000 8000 7000 6000 5000 4000 3000 2000 1000 0 Disoccupati per 100.000 Atlanta Boston Chicago Los Angeles New York Washington Freq.relative% 18% 20% 16% 12% 15% Atlanta Boston Chicago Los Angeles Diagramma a torta 19% New York Washington E. Di Nardo, a.a. 15/16 17 Istogrammi per variabili quantitative Esempio: Il Signor X è il preside di una certa scuola e vuole preparare un rapporto sul numero di ore a settimana che gli studenti trascorrono a studiare. Seleziona pertanto un campione di 30 studenti e chiede a ciascuno di loro il numero di ore trascorse a studiare. 15,0; 23,7; 19,7; 15,4; 18,3; 23,0; 14,2; 20,8; 13,5; 20,7; 17,4; 18,6; 12,9; 20,3; 13,7; 21,4; 18,3; 29,8; 17,1; 18,9; 10,3; 26,1; 15,7; 14,0; 17,8; 33,8; 23,2; 12,9; 27,1; 16,6 Costruire una rappresentazione grafica dei dati. Un diagramma cartesiano non sarebbe significativo. 40 35 30 25 20 15 10 5 0 Ore 1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 E. Di Nardo; a.a. 15/16 18 Ore 9

1. Determinare il campo di variazione dell insieme dei dati Campo di variazione = massimo minimo = 33,8-10,3 = 23,5 2. Determinare le classi di modalità. 2. 1 Determinare il numero. 2. 2 Determinare l ampiezza. Ci sono varie regole empiriche: In tal caso taglia= 30: 30 5,47~6 h 23,5 3,91. 4 6 Useremo 6 classi di ampiezza 4. 6 4 24 2. 2 Determinare gli estremi delle classi. (24 23,5)/2 Campo di variazione = 23,5? E. Di Nardo, a.a. 15/16 19 Il primo estremo della prima classe è min-0,25= 10,3-0,25=10,05 > arrotondato a 10 Il secondo estremo (primo estremo della seconda classe) è 10 + ampiezza = 10 + 4 = 14 Il primo estremo della terza classe è 14 + ampiezza = 14+4 = 18 e così via 10 4 14 4 18 4 4 Le classi sono [10;14); [14;18); [18;22); [22;26); [26;30); [30;34) 3. Contare quanti elementi cadono in ciascuna classe. 22 3.1 Ordinare i dati in ordine crescente. 10,3 12,9 12,9 13,5 13,7 14,0 14,2 15,0 15,4 15,7 16,6 17,1 17,4 17,8 18,3 18,3 18,6 18,9 19,7 20,3 20,7 20,8 21,4 23,0 23,2 23,7 26,1 27,1 29,8 33,8 [10;14) [14;18) [18;22) [22;26) [26;30) [30;34) 5 9 9 3 3 1 Distribuzione di Frequenza assoluta [10;14) [14;18) [18;22) [22;26) [26;30) [30;34) 0,17=5/30 0,30 0,30 0,10 0,10 0,03 Distribuzione di Frequenza relativa E. Di Nardo, a.a. 15/16 20 10

4. Il grafico risulta essere Le classi devono essere contigue. 10 9 8 7 6 5 4 3 2 1 0 [10,14) [14,18) [18,22) [22,26) [26,30) [30,34) La somma delle aree dei rettangoli è pari a (4*5+4*9+ +4*1) = 4*(5+9+ +1) = 4*30 5. E possibile costruire un istogramma con le frequenze relative. 0,35 0,30 0,25 0,20 0,15 0,10 0,05 [10;14) [14;18) [18;22) [22;26) [26;30) [30;34) La somma delle aree dei rettangoli è pari a 4*0,17+4*0,3+ +4*0,03 =4*(0,17+0,3+ +0,03)=4 La forma non cambia Cosa e cambiato rispetto al grafico precedente? E. Di Nardo, a.a. 15/16 21 Diagramma delle frequenze relative Si chiama diagramma delle frequenze un diagramma cartesiano costruito con i punti medi delle classi di modalità e le frequenze relative. [10;14) [14;18) [18;22) [22;26) [26;30) [30;34) 12 16 20 24 28 32 0,17 0,30 0,30 0,10 0,10 0,03 0,35 Modello teorico 0,30 0,25 0,20 0,15 0,10 0,05 [10,14) [10,14) [14,18) [18,22) [22,26) [26,30) [30,34) Poligono di frequenze E. Di Nardo, a.a. 15/16 22 11

Criticità: L area al di sotto del diagramma di frequenza varia con l ampiezza della classe. Sarebbe utile avere una misura «normalizzata», ossia unica per tutti i tipi di campioni considerati. Criticità: Al decrescere del numero delle classi la frequenza relativa decresce. 0,35 0,30 0,25 0,20 0,15 0,10 0,05 [10,14) [14,18) [18,22) [22,26) [26,30) [30,34) 0,35 0,30 0,25 0,20 0,15 0,10 0,05 0,30 0,25 0,20 0,15 0,10 0,05 0,30 0,25 0,20 0,15 0,10 0,05 E. Di Nardo, a.a. 15/16 [10;10.5) [11.5;12) [13;13.5) [14.5;15) [16;16.5) [17.5;18) [19;19.5) [20.5;21) [22;22.5) [23.5;24) [25;25.5) [26.5;27) [28;28.5) [29.5;30) [31;31.5) [32.5;33) 23 La regola del pollice Una linea guida o principio: In una distribuzione di frequenza, le frequenze assolute devono assumere un valore pari almeno a 5. 0,30 0,25 0,20 0,15 0,10 0,05 [10;10.5) [11.5;12) [13;13.5) [14.5;15) [16;16.5) [17.5;18) [19;19.5) [20.5;21) [22;22.5) [23.5;24) [25;25.5) [26.5;27) [28;28.5) [29.5;30) [31;31.5) [32.5;33) E. Di Nardo, a.a. 15/16 24 12

Istogramma delle densità Si definisce densità il rapporto tra la frequenza relativa e l ampiezza della classe di modalità. [10;14) [14;18) [18;22) [22;26) [26;30) [30;34) 0,17/4=5/120 0,08 0,08 0,03 0,03 0,01 0,09 0,08 0,07 0,06 0,05 0,04 0,03 0,02 0,01 [10;14) [14;18) [18;22) [22;26) [26;30) [30;34) Vantaggi: a) Stessa forma dell istogramma costruito con le frequenze assolute a) La somma delle aree dei rettangoli è 1 5 4 30 4 + 9 30 4 + + 1 30 4 E. Di Nardo, a.a. 15/16 25 Al crescere del numero delle classi, il profilo del diagramma non si «schiaccia». 0,16 0,14 0,12 0,10 0,08 0,06 0,04 0,02 0,16 0,14 0,12 0,10 0,08 0,06 0,04 0,02 [10;11) [11;12) [12;13) [13;14) [14;15) [15;16) [16;17) [17;18) [18;19) [19;20) [20;21) [21;22) [22;23) [23;24) [24;25) [25;26) [26;27) [27;28) [28;29) [29;30) [30;31) [31;32) [32;33) Questi grafici sono molto importanti quando. alla ricerca del modello teorico 1. Previsioni 2. «Riempire i buchi» 3. Confronti 13

E a proposito di confronti Il vantaggio principale nell uso della densità è la possibilità di confrontare insiemi di dati diversi. Esempio: Il Signor X vuole confontare i risultati ottenuti con quelli di un altra scuola ad indirizzo diverso. Gli vengono forniti i dati di un secondo campione di 26 studenti. 25,8; 23,2; 10,1; 24,2; 21,0; 22.3; 15,1; 22,4; 28,3; 25,7; 19,8; 21,4; 17,7; 19,3; 18,2; 21,5; 23,3; 24,3; 20,9; 27,0; 22,3; 20,9; 21,1; 25,1; 23,9; 21,1 Una possibile tabella delle frequenze assolute è: [10;14) [14;18) [18;22) [22;26) [26;30) 1 2 10 11 2 L istogramma è: 12 10 8 6 4 2 0 [10;14) [14;18) [18;22) [22;26) [26;30) E. Di Nardo, a.a. 15/16 27 12 10 Confrontare questi due istogrammi è II Scuola 10 9 8 7 6 5 4 3 2 1 0 I Scuola [10,14) [14,18) [18,22) [22,26) [26,30) [30,34) 8 6 4 2 a) Si riferiscono a taglie diverse b) Le classi di modalità hanno ampiezza diversa 3) Gli assi sono diversi! 0 [10;14) [14;18) [18;22) [22;26) [26;30) E. Di Nardo, a.a. 15/16 28 14

I dataset 0,12 0,10 0,08 0,06 0,04 0,02 II dataset [10;14) [14;18) [18;22) [22;26) [26;30) [30;34) 0,12 0,1 0,08 0,06 0,04 0,02 Il modo corretto di confrontare i due insiemi di dati è a) costruire un istogramma delle densità b) uniformare asse x e asse y. Cosa si deduce dal confronto dei grafici? 0 [10;14) [14;18) [18;22) [22;26) [26;30) [30:34) E. Di Nardo, a.a. 15/16 29 E allora «Ditelo con un grafico» Intervento disponibile su: https://www.youtube.com/watch?v=tm7hicexflw E. Di Nardo, a.a. 15/16 30 15

Diagramma delle frequenze cumulate Nella scuola del Signor X quale percentuale di studenti intervistati trascorre meno di 15 ore a studiare? Un primo diagramma associa a ciascun elemento del campione la percentuale di dati che assume un valore uguale o inferiore ad esso.. ( ) Proprietà: 1) È funzione non decrescente. 2) Assume valori tra 0 e 1. Come si calcola? E. Di Nardo, a.a. 15/16 31 1. Gli elementi del campione casuale vanno ordinati. 15,0; 23,7; 19,7; 15,4; 18,3; 23,0; 14,2; 20,8; 13,5; 20,7; 17,4; 18,6; 12,9; 20,3; 13,7; 21,4; 18,3; 29,8; 17,1; 18,9; 10,3; 26,1; 15,7; 14,0; 17,8; 33,8; 23,2; 12,9; 27,1; 16,6 10,3; 12,9; 12,9; 13,5; 13,7; 14,0; 14,2; 15,0; 15,4; 15,7; 16,6; 17,1; 17,4; 17,8; 18,3; 18,3; 18,6; 18,9; 19,7; 20,3; 20,7; 20,8; 21,4; 23,0; 23,2; 23,7; 26,1; 27,1; 29,8; 33,8 2. Agli elementi (senza ripetizioni) vanno associate le frequenze cumulate. Dati Ordinati Frequenze cumul. 10,3 =1/30 12,9 =3/30 13,5 =4/30 13,7 =5/30 18,3 =15/30 E. Di Nardo, a.a. 15/16 32 16

A cosa serve? Per rispondere al quesito iniziale: Nella scuola del Signor X quale percentuale di studenti intervistati trascorre meno di 15 ore a studiare? 0,23 Si traccia una linea verticale in corrispondenza di 15 ore fino ad incontrare il grafico (rosso) e poi si traccia una linea orizzontale fino ad incontrare l asse delle y. E. Di Nardo, a.a. 15/16 33 A cosa serve? Ma si può rispondere anche al quesito inverso: Nella scuola del Signor X quante ore (al più) trascorre a studiare il 50% degli studenti meno volenterosi? Circa 18 ore. Possiamo essere più precisi? 0,50 Ispezionando il campione casuale e determinando quel valore che divide il campione casuale in due parti. (si veda capitolo successivo) Si traccia una linea orizzontale in corrispondenza di 0,5 fino ad incontrare il grafico (rosso) e poi si traccia una linea verticale in basso fino ad incontrare l asse delle x. E. Di Nardo, a.a. 15/16 34 17

Box-plot E un grafico a scatola, che fornisce informazioni sul 50% dei dati che si colloca al centro del campione. Valore anomalo= outlier Massimo (in genere, con qualche eccezione) 18 Metà 50% dei dati Minimo (in genere ) E. Di Nardo, a.a. 15/16 35 Oltre alle informazioni sul singolo campione, è utile per confrontare più campioni. E. Di Nardo, a.a. 15/16 36 18

Esempio: Sono stati rilevate le pulsazioni cardiache in un minuto di un gruppo di studenti. Alcuni di questi prima della rilevazione hanno effettuato un minuto di corsa, altri no. I dati sono riportati in tabella. SI NO 86 63 72 71 93 75 108 59 107 68 114 64 59 58 87 82 105 62 75 61 80 66 66 59 64 81 76 57 79 70 60 82 84 E. Di Nardo, a.a. 15/16 37 Dot-plot = Grafico a punti 10,3; 12,9; 12,9; 13,5; 13,7; 14,0; 14,2; 15,0; 15,4; 15,7; 16,6; 17,1; 17,4; 17,8; 18,3; 18,3; 18,6; 18,9; 19,7; 20,3; 20,7; 20,8; 21,4; 23,0; 23,2; 23,7; 26,1; 27,1; 29,8; 33,8 Sul grafico viene segnato un punto in corrispondenza del valore numerico del campione casuale. VANTAGGI: a) Più punti in verticale in corrispondenza dello stesso valore numerico. b) Dà un idea della distribuzione dei valori sull asse delle ascisse. E. Di Nardo, a.a. 15/16 38 19

Oltre alle informazioni sui singoli campioni, è utile per confrontare più campioni. E. Di Nardo, a.a. 15/16 39 20