Rappresentazioni grafiche



Documenti analoghi
Corso di. Dott.ssa Donatella Cocca

Statistica. Le rappresentazioni grafiche

Il concetto di valore medio in generale

1. L analisi statistica

VARIABILI E DISTRIBUZIONI DI FREQUENZA A.A. 2010/2011

DELLA RIABILITAZIONE. Indicatori sanitari

Relazioni statistiche: regressione e correlazione

Un po di statistica. Christian Ferrari. Laboratorio di Matematica

CORSO DI STATISTICA (parte 1) - ESERCITAZIONE 1

L età dei vincitori La presenza femminile. L età dei vincitori La presenza femminile. Confronto tra il concorso ordinario ed il concorso riservato

Grafici delle distribuzioni di frequenza

Elementi di statistica descrittiva I 31 Marzo 2009

OCCUPATI SETTORE DI ATTIVITA' ECONOMICA

ANALISI DELL OCCUPAZIONE FEMMINILE IN ITALIA

Pensionati e pensioni nelle regioni italiane

Capitolo 2 Distribuzioni di frequenza

Indice. p. 1. Introduzione. p. 2. Il consumo medio annuo pro capite di gas. p. 2. Il costo del gas con la tariffa di Maggior Tutela dell AEEG p.

LA LETTURA DI LIBRI IN ITALIA

Incidenza, mortalità e prevalenza per tumore del polmone in Italia

Analisi e diagramma di Pareto

ELEMENTI DI DEMOGRAFIA

Università del Piemonte Orientale. Corsi di Laurea Triennale di Area Tecnica. Corso di Statistica e Biometria. Statistica descrittiva

Università del Piemonte Orientale. Corsi di Laurea Triennale. Corso di Statistica e Biometria. Introduzione e Statistica descrittiva

Elementi di Statistica descrittiva Parte I

LE FUNZIONI A DUE VARIABILI

Telefono fisso e cellulare: comportamenti emergenti

Il Dipartimento per le Comunicazioni: uno studio dell età del personale. Miriam Tagliavia Marzo 2011

LA POVERTÀ IN ITALIA. Anno luglio INCIDENZA DI POVERTÀ RELATIVA PER RIPARTIZIONE GEOGRAFICA. Anni , valori percentuali

I principali risultati

RAPPORTO ANNUALE SUI CASI INCIDENTI DI DIABETE MELLITO TIPO I INFANTILE-GIOVANILE

Per studio di funzione intendiamo un insieme di procedure che hanno lo scopo di analizzare le proprietà di una funzione f ( x) R R

CORTE SUPREMA DI CASSAZIONE UFFICIO DI STATISTICA PROGRAMMA STATISTICO NAZIONALE MODELLO MGG00129

Capitolo 13: L offerta dell impresa e il surplus del produttore

Indice Statistiche Univariate Statistiche Bivariate

LA POVERTÀ IN ITALIA. Anno luglio 2013

Information Visualization

Modelli descrittivi, statistica e simulazione

Slide Cerbara parte1 5. Le distribuzioni teoriche

Prova di autovalutazione Prof. Roberta Siciliano

CLASSIFICAZIONE DEI CARATTERI

RAPPRESENTAZIONE DEI DATI

INTEGRALI DEFINITI. Tale superficie viene detta trapezoide e la misura della sua area si ottiene utilizzando il calcolo di un integrale definito.

La distribuzione Normale. La distribuzione Normale

LA POVERTÀ IN ITALIA

TABELLA LE STRUTTURE SCOLASTICHE IN ITALIA: STOCK, UNITÀ LOCALI, ADDETTI

LABORATORIO EXCEL XLSTAT 2008 SCHEDE 2 e 3 VARIABILI QUANTITATIVE

L analisi dei dati. Capitolo Il foglio elettronico

Procedura tecnico-statistica per il calcolo dell Indice di Disagio Socioeconomico (IDS)

Università di L Aquila Facoltà di Biotecnologie Agro-alimentari

stabile o una serie di appartamenti dove l immigrato può permanere per un periodo già fissato dalla struttura stessa. Sono ancora tantissimi gli

Serie Storiche Trasformazioni e Aggiustamenti

Popolazione e famiglie

Il Sistema Sanitario Italiano esiste ancora?

[ Analisi della. concentrazione] di Luca Vanzulli. Pag. 1 di 1

LABORATORIO-EXCEL N. 2-3 XLSTAT- Pro Versione 7 VARIABILI QUANTITATIVE

Grandezze scalari e vettoriali

Monitoraggio sulla conversione dei prezzi al consumo dalla Lira all Euro

La popolazione residente in provincia di Trento attraverso l anagrafe e i flussi demografici anche in un ottica di Comunità di Valle

Capitolo 6 La mortalità per malattie del fegato

Sistema Informativo Geografico:

ANNO MASCHI FEMMINE TOTALE TOTALE

LA CORRELAZIONE LINEARE

L ATLANTE DELLE DONNE IMPEGNATE IN AGRICOLTURA

Bollettino n. 4 / settembre 2006 Dati di vendita SIAN prodotti fitosanitari anno 2004

GLI ENTI D EROGAZIONE IN ITALIA

Tabella 7.1. Mortalità per demenze e morbo di Alzheimer: indicatori di sintesi per sesso (tassi per ). Veneto, anni 2000 e 2007.

Metodologia di monitoraggio Impianti fotovoltaici

Dr. Marco Vicentini Anno Accademico Rev 30/03/2011

Opportunità e rischi derivanti dall'impiego massivo dell'informatica in statistica. Francesco Maria Sanna Roma, 3 maggio 2012

7. Assistenza primaria

DISEGNO TECNICO INDUSTRIALE

SOLUZIONE DEL PROBLEMA 1 TEMA DI MATEMATICA ESAME DI STATO 2015

PROGETTO EM.MA PRESIDIO

Insegnamento di Fondamenti di Infrastrutture viarie

L 82 PER CENTO DEI PROPRIETARI DI PRIMA CASA SONO PENSIONATI, OPERAI E IMPIEGATI

Il 38% delle strutture residenziali per anziani sono a gestione pubblica, il 58% a gestione privata ed il rimanente 4% a gestione mista.

ANALISI CRITICA DELLA DOCUMENTAZIONE TECNICA RELATIVA ALLA CENTRALE TERMOELETTRICA DI QUILIANO E VADO LIGURE

McDONALD S E L ITALIA

Metodi statistici per le ricerche di mercato

~ Copyright Ripetizionando - All rights reserved ~ STUDIO DI FUNZIONE

( x) ( x) 0. Equazioni irrazionali

LA POVERTÀ IN ITALIA. Anno luglio 2014

FABBISOGNO DI FINANZIAMENTO

FIDUCIA DEI CONSUMATORI

Corso: Statistica e Metodologia Epidemiologica 1

ESAME DI STATO DI LICEO SCIENTIFICO CORSO SPERIMENTALE P.N.I. 2004

Analisi della performance temporale della rete

Olga Scotti. Basi di Informatica. Excel

L ATLANTE DEI GIOVANI AGRICOLTORI

Prof.ssa Paola Vicard

Che cosa e come valutano le prove di matematica e con quali risultati. nell A.S

L incontro fra domanda e offerta di lavoro e i servizi per l impiego

Corrispondenze e funzioni

CONTINUITÀ E DERIVABILITÀ Esercizi proposti. 1. Determinare lim M(sinx) (M(t) denota la mantissa di t)

LE SUCCESSIONI 1. COS E UNA SUCCESSIONE

Scheda n. 10: PCA - parte seconda

ANALISI DELLE FREQUENZE: IL TEST CHI 2

Indici di dispersione

la scienza della rappresentazione e della elaborazione dell informazione

Transcript:

1. Le rappresentazioni grafiche delle distribuzioni statistiche: scopi e classificazione Le rappresentazioni grafiche hanno lo scopo di illustrare, mediante figure, linee o segmenti, superfici o aree, solidi, simboli convenzionali ecc., una distribuzione, di frequenze o di intensità, in funzione delle modalità, qualitative o quantitative, di uno o più caratteri. Se il carattere è uno solo ed è qualitativo (mutabile sconnessa, rettilinea o ciclica), la distribuzione statistica semplice, di frequenza o di intensità, prende il nome di serie; se il carattere è quantitativo (variabile, scala di intervalli o scala di rapporti), la distribuzione statistica semplice prende il nome di seriazione. Nel caso in cui si abbiano due caratteri, si avrà una distribuzione statistica doppia che può essere costituita da: a) due caratteri qualitativi (ad es. la popolazione italiana secondo il sesso e lo stato civile); b) due caratteri quantitativi (ad es. la popolazione italiana secondo la statura e il peso); c) un carattere quantitativo (ad es. età) e un carattere qualitativo (ad es. stato civile). Nel caso infine di più di due caratteri si avrà una distribuzione statistica multipla; i caratteri possono essere tutti quantitativi, variabili (multivariata), tutti qualitativi o misti (variabili e mutabili). Una distribuzione statistica (semplice, doppia o multipla) può rappresentarsi in forma numerica ossia sotto forma di tabella statistica (semplice, doppia o multipla) o in forma grafica ossia mediante rappresentazioni grafiche che possono essere di varia natura secondo il tipo di distribuzione statistica considerata (serie, seriazioni, semplici, doppie ecc.). La rappresentazione grafica di una distribuzione statistica presenta alcuni vantaggi rispetto alla forma tabellare (numerica): La forma tabellare e la forma grafica delle distribuzioni statistiche 1

Statistica Scopi delle rappresentazioni grafiche delle distribuzioni statistiche pc, hardware e software per le rappresentazioni grafiche consente una visualizzazione immediata dell andamento del fenomeno e della struttura della distribuzione e quindi una efficace e globale descrizione dei dati; consente, con notevole sintesi e in poco spazio, il confronto tra più distribuzioni (curve, spezzate ecc.); ha potenzialità investigative: mette in rilievo casi anomali (particolari picchi grafici) che possono essere dovuti a errori nei dati o a effettivi casi anomali che invitano a ulteriori approfondimenti; correlazioni tra caratteri aventi tra loro un legame logico; individuazione di andamenti di fondo (trend) interpolabili con funzioni matematiche (ad es. curva normale, retta ecc.); consente una forma più divulgativa per i dati statistici che non la forma tabellare. Esistono moltissimi tipi di rappresentazioni grafiche e l attuale sviluppo di softwares (Excel, Corel, Paint ecc.) per la costruzione di grafici tramite computer consente l esecuzione e la stampa di grafici a tempi e costi assai ridotti rispetto all esecuzione manuale. Anche nei vari packages statistici (sas, spss, spad ecc.) sono previsti appositi programmi che permettono la costruzione dei principali tipi di rappresentazioni grafiche (istogrammi, bar charts, curve di frequenza, nuvola dei punti, stereogramma, grafici 3D ecc.) di distribuzioni statistiche. È da notare inoltre che all interno di alcuni packages statistici (ad es. sas, spss, spad ecc.) sono disponibili alcune rappresentazioni grafiche particolari, dedicate all analisi multidimesionale dei dati (ad es. dendrogrammi, assi fattoriali, cerchio delle correlazioni ecc.) la cui esecuzione è possibile solo all interno della tecnica statistica multivariata richiesta per l elaborazione dei dati; queste rappresentazioni grafiche si distinguono dalle usuali rappresentazioni perché in esse sono contenuti elementi interpretativi delle elaborazioni impiegate e non soltanto una più immediata esposizione dei dati rispetto alla forma tabellare. Tramite l impiego del computer e di softwares appositi è possibile ottenere grafici in tempi reali (contestuali alla domanda) su video, o in tempi assai brevi se richiesti su stampante o plotter (tracciatore); memorizzare (archiviare) una volta per tutte files-grafici, in analogia all archiviazione dei data files; avere molte opzioni di scelta per la graduazione della scala impiegabile per la rappresentazione dei dati, elevando quindi le possibilità di analiticità della scala e quelle di scelta tra diverse possibili scale che costituisce uno dei problemi della rappresentazione grafica; inoltre, oltre ai tempi estremamente ridotti, il trattamento automatico dei dati per la costruzione dei grafici consente, una volta effettuate le spese per l acquisto dell hardware necessario (video, stampante, plotter) e dei relativi programmi, di ottenere grafici a costi che si riducono alle spese per la carta e 2

le cartucce degli inchiostri colorati e b&n se si fa uso della stampante o del plotter. Esiste inoltre la possibilità di tradurre grafici già fatti, stampati su carta (a colori o in bianco e nero), sotto forma di files-grafici, archiviabili e richiamabili per qualsiasi scopo (modifiche, aggiornamenti ecc.), mediante l impiego dello scanner munito di apposito programma. Per ogni distribuzione statistica semplice (serie o seriazione) o doppia o multipla esiste il tipo di rappresentazione grafica adatta e una stessa distribuzione può essere rappresentata con più tipi di grafici. In generale esistono dei vincoli tra tipo di rappresentazione grafica e livello di misurazione dei caratteri da rappresentare che vanno rispettati affinché questa sia corretta, ossia fornisca un immagine visiva quanto più possibile fedele del fenomeno e della sua distribuzione statistica. Nella tab. 1 si riporta una classificazione di alcuni dei principali e più impiegati tipi di rappresentazioni grafiche che saranno qui di seguito trattati secondo il livello di misurazione dei caratteri, limitatamente al caso delle distribuzioni semplici, mentre nel par. 5 saranno trattati alcuni dei più impiegati grafici per le distribuzioni doppie. I grafici che figurano nella tab. 1 sono in ordine crescente rispetto al livello di misurazione dei caratteri (di una distribuzione semplice): da serie (caratteri qualitativi) a seriazioni (caratteri quantitativi); una stessa distribuzione può essere inoltre rappresentata con più tipi di grafici (ad es. le mutabili sconnesse o rettilinee). Nella scelta di una rappresentazione grafica il criterio dovrebbe essere comunque quello della rappresentazione adatta alla natura dei dati, semplice e autoesplicativa. Affinché una rappresentazione grafica sia utile ed efficace dovrebbe contenere con immediatezza e chiarezza tutte le informazioni necessarie alla comprensione dei dati in essa rappresentati. Spesso invece troppo elaborate (molti caratteri) o sofisticate rappresentazioni grafiche (simboli non chiari perché troppo ermetici ecc.) vanno a discapito dell immediatezza e chiarezza della rappresentazione. In un grafico devono figurare: a) il titolo, che deve indicare con chiarezza l oggetto, il luogo, l epoca cui i dati si riferiscono; b) il carattere con le rispettive modalità in funzione delle quali sono classificate le unità statistiche. Se vengono impiegati degli identificatori (labels) per modalità qualitative, nel grafico dovrà figurare una legenda con la descrizione in chiaro dei simboli impiegati e, nel caso di più grafici insieme, il significato dei diversi tratteggi o colori impiegati; c) la chiara indicazione dell unità di misura impiegata per graduare l asse (o gli assi) della rappresentazione dei dati; d) la fonte di provenienza dei dati. Classificazione delle rappresentazioni grafiche delle distribuzioni statistiche semplici Elementi che devono figurare in un grafico 3

Statistica tabella 1 Rappresentazioni grafiche per distribuzioni semplici secondo il livello di misurazione dei caratteri Tipo di grafico Livello di misurazione dei caratteri Grafici a barre o ortogrammi: a colonne (verticale) a nastri (orizzontale) Diagrammi circolari o areogrammi circolari: a spicchi proporzionali a spicchi uguali Diagrammi in coordinate polari Cartogrammi, mappe tematiche Istogrammi e poligono di frequenza Diagrammi in coordinate cartesiane ortogonali a canne d organo Diagrammi in coordinate cartesiane ortogonali (poligoni di frequenza e curve di frequenza) Ogiva o poligono delle frequenze cumulate Ideogrammi o pictogrammi o diagrammi a figure simboliche Distribuzioni semplici (serie): caratteri qualitativi; mutabili sconnesse, mutabili rettilinee Distribuzioni semplici (serie): caratteri qualitativi; mutabili sconnesse, mutabili rettilinee Distribuzioni semplici (serie): caratteri qualitativi; mutabili cicliche Distribuzioni semplici (serie): caratteri qualitativi; mutabili sconnesse riferite a luoghi, territori ecc. (serie territoriali e spaziali) Distribuzioni semplici (seriazioni): caratteri quantitativi: variabili (continue o semicontinue) divise in classi di valori Distribuzioni semplici (seriazioni): caratteri quantitativi: variabili discrete Distribuzioni semplici: serie temporali riferite a fenomeni discreti Distribuzioni semplici (seriazioni): caratteri quantitativi: variabili continue e semicontinue Distribuzioni semplici: serie temporali riferite a fenomeni continui o semicontinui Distribuzioni semplici (seriazioni): caratteri quantitativi: variabili continue, discrete, divise in classi Per distribuzioni semplici e doppie e qualsiasi tipo di carattere. Di carattere divulgativo ma non scientifico 2. Rappresentazioni grafiche di caratteri qualitativi (mutabili) I grafici per le distribuzioni dei caratteri qualitativi Per le distribuzioni statistiche, di frequenza o di quantità, di uno o più caratteri qualitativi (mutabili sconnesse, rettilinee, cicliche) le rappresentazioni grafiche più comunemente impiegate sono: a) i grafici a barre (bar charts) od ortogrammi. Essi possono essere di due tipi: a colonne (rettangoli, segmenti ecc.): in tal caso il grafico è di tipo verticale; a nastri (rettangoli, segmenti ecc.): in tal caso il grafico è di tipo orizzontale. 4

Sono adatti a rappresentare graficamente serie, di frequenza o di quantità, sia di mutabili sconnesse che rettilinee. Tra le mutabili sconnesse particolarmente ricorrenti sono le serie territoriali; b) i diagrammi o areogrammi circolari (pie charts). Possono essere di vari tipi, qui saranno in particolare trattati: diagrammi circolari a spicchi (settori) uguali; diagrammi circolari a spicchi o settori proporzionali. Sono adatti a rappresentare graficamente serie di frequenza o intensità, mutabili sconnesse o rettilinee qualora si voglia mettere in evidenza la struttura (incidenza delle singole modalità sul totale) della distribuzione considerata; c) i diagrammi in coordinate polari. Sono grafici circolari espressi in coordinate polari (modulo, argomento). Essi sono indicati per la rappresentazione grafica di serie cicliche, ossia distribuzioni statistiche di fenomeni ciclici (ad es. nascite, matrimoni ecc. secondo i mesi dell anno, i giorni della settimana ecc.); d) cartogrammi, mappe sociali. Sono indicati per rappresentare graficamente serie territoriali. Qui di seguito tratteremo separatamente, con degli esempi, i grafici suddetti. 2.1. I grafici a barre (bar charts) od ortogrammi I grafici a barre o ortogrammi si impiegano per rappresentare graficamente le serie sconnesse o rettilinee. Come è noto, i caratteri qualitativi sono espressi da modalità verbali o qualità e non da quantità e se il carattere è sconnesso non è definito neanche un ordinamento naturale delle modalità. Per tali caratteri una rappresentazione grafica possibile è quella mediante ortogrammi o grafici a barre. Essi possono essere di due tipi: grafico a colonne (rettangoli, segmenti ecc.); grafico a nastri (rettangoli, segmenti ecc.). Il grafico a colonne consiste in una successione di colonne, segmenti verticali o rettangoli (a base uguale e arbitraria) equidistanti, tanti quante sono le modalità qualitative del carattere, la cui altezza è uguale o proporzionale alla frequenza (assoluta o relativa) o all intensità della modalità corrispondente. Nel grafico a nastri figureranno invece tanti nastri (segmenti orizzontali, rettangoli) sovrapposti ed equidistanti, quante sono le modalità qualitative, la cui lunghezza sarà uguale o proporzionale alla frequenza (assoluta o relativa) o all intensità della modalità corrispondente. Gli ortogrammi, a colonne o a nastri, sono pertanto caratterizzati dall avere un solo asse (verticale nel caso a colonne, orizzontale nel caso a nastri) in scala graduata secondo l unità di misura che si è scelta per rappresentare le frequenze o le intensità; mentre sull altro asse figureranno le modalità Ortogrammi o grafici a barre (bar chart ) 5

Statistica (qualitative) per convenzione equidistanti. Se la rappresentazione grafica riguarda una serie sconnessa l ordine in cui saranno poste le modalità è arbitrario; se si tratta invece di una serie rettilinea (ad es. titolo di studio), le modalità, per convenzione equispaziate, saranno poste nell ordine naturale che esse presentano nella serie. Si considerino, ad esempio, i dati riportati nella tab. 2 riguardante due serie doppie sconnesse di frequenza (1991, 2003) della popolazione italiana per condizione e sesso nel 1991 e 2003. tabella 2 Popolazione e forze di lavoro per condizione e sesso nel 1991 e nel 2003 (dati assoluti in migliaia) Condizione 1991 2003 Maschi Femmine Totale Maschi Femmine Totale Forze di lavoro: 15.244 9.000 24.244 14.685 9.465 24.150 Occupati 14.102 7.490 21.592 13.690 8.365 22.055 Disoccupati 256 213 469 450 332 782 In cerca di 1 a occ. 645 640 1.285 445 398 843 Altre persone in cerca 241 657 898 101 370 471 Non forze di lavoro 12.535 20.335 32.870 13.267 20.061 33.308 Fonte : istat, Annuario Statistico Italiano, 2004. Serie territoriali e ortogramma a nastri Nella fig. 1 è riportato l ortogramma a colonne corrispondente a una delle due serie (2003) in frequenze assolute. Si noti che nel grafico sono indicate in legenda le tonalità di grigio impiegate per rappresentare le singole modalità; sull asse verticale figura la graduazione impiegata (da 0 a 35.000 unità con 7 suddivisioni di 5.000 unità ciascuna) per le unità statistiche considerate (popolazione in età superiore a 14 anni, in valore assoluto). In modo analogo potrebbe costruirsi l ortogramma a colonne per la serie della tab. 2 riferita al 1991. L ortogramma a nastri si presta alla rappresentazione delle serie territoriali perché consente di effettuare agevoli confronti tra le frequenze o le intensità assunte dal carattere considerato secondo diversi paesi, luoghi ecc., anche in gran numero. Si considerino, ad esempio, i dati della tab. 3 riguardanti la vita media alla nascita delle donne in 29 nazioni alle date considerate (serie territoriale d intensità). Come è noto la vita media alla nascita indica il numero di anni di vita che spettano mediamente a un nato vivo. Essa è considerata un buon indicatore sintetico delle condizioni di salute e dello sviluppo economico-sociale-sanitario di un paese. È da osservare che poiché la vita media 6

figura 1 Popolazione italiana per condizione e sesso nel 2003 (dati assoluti in migliaia) 35.000 30.000 25.000 20.000 Freq. ass. 15.000 10.000 5.000 0 Forze di lavoro Occupati Disoccupati In cerca di prima occ. Maschi Femmine Totale Altre persone in cerca Non forze di lavoro Fonte: nostra elaborazione su dati istat. alla nascita risente della mortalità, ancora molto elevata in taluni paesi, nel primo anno di vita, e della mortalità differenziale tra i sessi, come indicatori sintetici di salute (in positivo) si impiegano indici sintetici a vari anni di età (e 0, e 5, e 50, e 65 ) e distinti per i due sessi. Quanto più è alto il numero di anni di vita media alla nascita, tanto migliori sono le condizioni di salute della popolazione considerata. Nelle figg. 2a e 2b si riportano gli ortogrammi a nastri corrispondenti alle speranze di vita alla nascita dei maschi (fig. 2a) e delle femmine (fig. 2b) nel 2003 in Italia per regioni. Si noti che le intensità (speranza di vita alla 7

Statistica tabella 3 Speranza di vita alla nascita ( e 0 ) dei maschi e delle femmine in Italia per anno e per regioni nel 2003. Valori in anni di vita 1 Anni Regioni Maschi Speranza di vita alla nascita Femmine 1999 76,0 82,1 2000 76,5 82,5 2001 76,7 (b) 82,7 (b) 2002 76,8 (b) 82,8 (b) 2003 Per regione Piemonte 76,5 82,5 Valle d Aosta 76,5 82,5 Lombardia 76,7 83,0 Trentino-Alto Adige 77,3 84,1 Bolzano-Bozen 77,4 83,5 Trento 77,3 84,7 Veneto 77,0 83,7 Friuli-Venezia Giulia 76,7 82,8 Liguria 76,8 82,6 Emilia-Romagna 77,2 83,4 Toscana 77,7 83,5 Umbria 77,9 83,6 Marche 78,4 84,2 Lazio 76,9 82,4 Abruzzo 77,3 83,3 Molise 77,3 83,3 Campania 75,7 81,4 Puglia 77,8 83,0 Basilicata 77,1 83,0 Calabria 77,5 82,9 Sicilia 76,7 82,0 Sardegna 76,8 83,2 italia 77,0 82,9 Nord 76,8 83,1 Centro 77,4 83,1 Mezzogiorno 76,8 82,3 1. I dati si riferiscono ad anni compresi tra il 1980 e il 1992. Fonte : istat, Annuario statistico italiano, 2004. 8

figura 2 Speranza di vita alla nascita per regioni nel 2003 a) Maschi Piemonte Valle d Aosta Lombardia Trentino-Alto Adige Bolzano-Bozen Trento Veneto Friuli-Venezia Giulia Liguria Emilia-Romagna Toscana Umbria Marche Lazio Abruzzo Molise Campania Puglia Basilicata Calabria Sicilia Sardegna ITALIA Nord Centro Mezzogiorno b) Femmine Piemonte Valle d Aosta Lombardia Trentino-Alto Adige Bolzano-Bozen Trento Veneto Friuli-Venezia Giulia Liguria Emilia-Romagna Toscana Umbria Marche Lazio Abruzzo Molise Campania Puglia Basilicata Calabria Sicilia Sardegna ITALIA Nord Centro Mezzogiorno Fonte: nostra elaborazione su dati istat. 74 75 76 77 78 79 80 81 82 83 84 74 75 76 77 78 79 80 81 82 83 84 nascita in anni) sono state rappresentate con rettangoli equispaziati, di lunghezza uguale al valore assunto in ciascuna regione dall indice sintetico considerato. Per dare maggior risalto all andamento del fenomeno si potrebbero classificare le regioni considerate secondo il valore decrescente 9

Statistica della vita media alla nascita. Anche in questo caso, come già visto per l ortogramma a colonne, va chiaramente indicata la scala impiegata per la rappresentazione grafica delle intensità. I diagrammi circolari o a torta (pie charts) 2.2. I diagrammi o areogrammi circolari (pie charts) I diagrammi o areogrammi circolari o a torta (pie charts) sono rappresentazioni grafiche circolari anziché rettangolari come quelle finora viste. Tali rappresentazioni sono adatte alle serie di mutabili sconnesse o rettilinee, similmente a quanto già visto per i diagrammi a barre. Con i diagrammi circolari tuttavia si pone maggiormente in evidenza l importanza relativa delle frequenze o intensità delle singole modalità rispetto alla frequenza o intensità totale del carattere. I diagrammi circolari possono essere di vari tipi, qui in particolare vedremo: 1. Diagrammi circolari a spicchi o settori variabili con angoli al centro corrispondenti alle frequenze assolute (o relative) delle singole modalità e raggio fisso. 2. Diagrammi circolari a spicchi o settori fissi con angoli al centro uguali e raggio variabile corrispondente alle frequenze assolute (o relative) delle singole modalità. tabella 4 Popolazione in età lavorativa (15-70 anni) non appartenente alle forze di lavoro secondo l atteggiamento dichiarato nei confronti del lavoro e secondo il sesso nell anno 1994. Media delle 4 rilevazioni campionarie trimestrali sulle forze di lavoro istat. Frequenze assolute e percentuali Atteggiamento nei confronti del lavoro Totale Maschi Femmine N. % N. % N. % (in migliaia) Persone in età lavorativa (15-70 anni) non appartenenti alle forze di lavoro: 1) Persone in cerca di occupazione (hanno svolto azioni di ricerca 2-6 mesi prima) 2) Non cercano lavoro ma lo svolgerebbero a particolari condizioni 3) Non cercano lavoro perché non interessate o perché impossibilitate Totale non forze di lavoro in età lavorativa 971 4,9 390 5,9 589 4,4 1.994 10,0 591 8,9 1.403 10,6 16.932 85,1 5.691 85,2 11.241 84,9 19.897 100,0 6.672 100,0 13.233 100,0 Fonte : istat, Compendio statistico italiano, 1995, p. 230. 10

figura 3 Popolazione in età lavorativa (15-70 anni) non appartenente alle forze di lavoro secondo l atteggiamento dichiarato nei confronti del lavoro e secondo il sesso, 1994. Media delle 4 rilevazioni campionarie trimestrali istat. Valori percentuali DIAGRAMMA CIRCOLARE A SETTORI VARIABILI MASCHI FEMMINE TOTALE a a a 6% b 4% b 5% b 9% 11% 10% 85% c 85% c 85% c a. In cerca di occupazione b. Non cercano ma lo svolgerebbero a particolari condizioni c. Impossibilitati o non interessati Fonte: nostra elaborazione su dati istat. Nel caso di diagrammi circolari a settori variabili con angoli al centro corrispondenti alle frequenze o intensità delle singole modalità la rappresentazione grafica si costruisce come segue. Si suddivide l intera superficie circolare, di angolo al centro uguale a 360 o corrispondente alla frequenza o intensità totale del carattere qualitativo considerato, in tante parti (spicchi o settori circolari) corrispondenti alle frequenze (assolute o relative) delle singole modalità. Consideriamo, ad esempio, i dati della tab. 4 riguardanti la popolazione in età lavorativa (15-70 anni) non appartenente alle forze di lavoro (casalinghe, studenti, ritirati dal lavoro, altri non atti al lavoro) secondo l atteggiamento dichiarato nei confronti del lavoro e secondo il sesso, nell anno 1994 (serie doppia sconnessa di frequenza). Il corrispondente diagramma circolare, a spicchi proporzionali, è riportato nella fig. 3, in frequenze percentuali, per i maschi, per le femmine e per il totale. Per ottenere gli spicchi ossia i settori circolari con angoli al centro proporzionali alle frequenze (relative) delle modalità occorre, con riferimento, ad esempio, al totale della tab. 4, impostare le seguenti proporzioni: Diagramma circolare a settori variabili e raggio fisso 360 o : 100 = x : 10,0 da cui x = 360 10,0 /100 = 36 o per la modalità non cerca lavoro ma lo svolgerebbe a particolari condizioni ; 11

Statistica tabella 5 Mortalità per 9 gruppi di cause nel triennio 1990-92 in Italia. Valori assoluti e quozienti per 100.000 ab. Valori medi del triennio Settori nosologici* Morti (valori assoluti) 1 a Malattie infettive e parassitarie 1.998 3,3 2 a Tumori 149.720 263,7 3 a Disturbi cardiaci. Malattie del sist. nervoso e sensi 15.528 27,3 4 a Malattie sistema circolatorio 236.989 417,3 5 a Malattie apparato respiratorio 33.876 60,0 6 a Malattie apparato digerente 28.214 49,6 7 a Altri stati morbosi 38.596 68,0 8 a Sintomi e stati morbosi mal definiti 12.060 21,3 9 a Cause esterne: incidenti, avvelenamenti, traumatismi 29.283 51,3 Totale 546.264 962,0 * Secondo la classificazione minima istat. Fonte : nostra elaborazione su dati istat, Compendio statistico italiano, 1995, p. 116. Morti per 100.000 ab. 360 o : 100 = x : 85,1 da cui x = 360 85,1 / 100 = 306,4 o per la modalità non cerca perché non interessato/a o impossibilitato/a ; 360 o : 100 = x : 4,9 da cui x = 360 4,9 / 100 = 17,6 o per la modalità in cerca di lavoro. Diagramma circolare a settori fissi e raggio variabile Si noti che sia il punto di partenza sulla superficie circolare che l ordine delle modalità (spicchi) è arbitrario. Nel caso in cui il carattere considerato fosse una mutabile rettilinea ossia avente le modalità qualitative in ordine naturale, gli spicchi si susseguirebbero ovviamente nello stesso ordine ma il punto di partenza sarebbe comunque arbitrario. Anziché sull intera superficie circolare il grafico poteva costruirsi sulla metà, in tal caso basterebbe impostare le proporzioni suddette per il calcolo degli angoli al centro su 180 o anziché 360 o. Un secondo tipo di diagramma circolare è il diagramma a settori fissi e raggio proporzionale alla frequenza o intensità della modalità qualitativa corrispondente al settore. Tale tipo di rappresentazione grafica è idonea particolarmente per caratteri qualitativi ordinati (ad es. graduatorie). Consideriamo, ad esempio, i dati della tab. 5 riguardanti la mortalità per 9 gruppi di cause nel triennio 1990-92, espressa mediante valori medi del 12

figura 4 Mortalità per gruppi di cause*. Valori medi del triennio 1990-92 DIAGRAMMA CIRCOLARE A SETTORI FISSI 38.596 149.720 33.876 3 a 236.389 4 a 2 a 29.283 5 a 1 a 28.214 6 a 15.528 7a 100200 300 8 a 9 a 1.998 1 a - Malattie del sistema circolatorio 2 a - Tumori 3 a - Malattie dell'apparato respiratorio 4 a - Altri stati morbosi 5 a - Malattie dell'apparato digerente 6 a - Cause esterne, traumatismi e avvelenamenti 7 a - Sintomi e stati morbosi mal definiti 8 a - Disturbi psichici e malattie sistema nervoso e sensi 9 a - Malattie infettive e parassitarie *Secondo la classificazione minima istat. Fonte: nostra elaborazione su dati istat. triennio delle frequenze assolute e dei quozienti di mortalità per 9 gruppi di cause per 100.000 abitanti (serie di frequenza e serie d intensità). Nella fig. 4 è riportato il corrispondente diagramma circolare a settori uguali e raggi proporzionali alle intensità delle modalità qualitative considerate sia per le frequenze assolute (diagramma esterno) che per i morti per 100.000 abitanti (diagramma interno). Per la costruzione di un diagramma circolare a settori con angoli al centro uguali e raggi proporzionali si procede in pratica come segue. Considerando, ad esempio, i dati della tab. 5, le modalità qualitative (gruppi di cause di morte) sono 9; si avranno pertanto 9 settori circolari con angolo al centro uguale a: 360 o : 9 = 40 o. Poste quindi le modalità qualitative in graduatoria secondo l ordine decrescente di frequenza o intensità, occorrerà stabilire la lunghezza del raggio di ciascun settore circolare. Esso dovrà essere uguale alla frequenza o intensità della modalità corrispondente al settore circolare. Nella fig. 4 sono state impiegate due scale per i raggi di ciascun settore: una (esterna) per i valori assoluti (numero 13

Statistica morti per gruppi di cause) ed una (interna, in nero) per i tassi di mortalità per 100.000 abitanti. Si noti che in tale diagramma l ordinamento è stato stabilito a priori, in base alle frequenze assolute. I diagrammi in coordinate polari e i caratteri ciclici 2.3. I diagrammi in coordinate polari ( star charts ) I diagrammi in coordiante polari (star charts) sono rappresentazioni grafiche particolarmente adatte a fenomeni che presentano una ciclicità. Ad esempio mutabili cicliche come i nati, i matrimoni, le vendite di dati prodotti, fenomeni astronomici o atmosferici e così via secondo i mesi dell anno, i giorni della settimana ecc. Nei diagrammi in coordinate polari si considera un asse polare costituito da una retta avente per origine un punto fisso, O, detto polo (cfr. fig. 5). Per rappresentare un punto, P, nel piano si unisce il polo, O, con il punto P determinando un segmento detto raggio vettore (r) che forma con l asse polare un angolo, w, detto angolo polare. Le coordinate polari che definiscono la posizione di un punto P nel piano sono pertanto date dal raggio vettore, r, e dall angolo polare, w, ossia P {r, w}. Com è noto, la relazione tra diagramma cartesiano ortogonale e diagramma polare, considerato rispettivamente un punto P (x, y) nel piano cartesiano o P (r, w) in coordinate polari, è data da: x = r sen w y = r cos w oppure: r = x2 + y 2 w = tang 1 y x x Nel caso in esame, ossia di rappresentazione grafica mediante diagrammi in coordinate polari di serie cicliche che sono distribuzioni di mutabili che figura 5 Coordinate polari y 90 θ 0 Polo ρ Raggio vettore ( ) P OP = P = [ρ,θ] = [x,y] x Asse polare 14

dispongono di un ordinamento naturale ma non di una prima e un ultima modalità (es. giorni della settimana), la costruzione dei diagrammi avviene nel modo seguente. Consideriamo, ad esempio, i dati della tab. 6 riguardanti i veicoli transitati su parte della rete autostradale italiana nei giorni indicati, negli anni 2003 e 2004 (serie temporale di frequenza). tabella 6 Veicoli transitati su parte della rete autostradale nei giorni indicati, negli anni 2003 e 2004 Giorni del mese 2003 veicoli transitati N. 2004 veicoli transitati N. 26 luglio 960.000 950.000 27 luglio 1.100.000 1.259.000 28 luglio 1.020.000 1.110.000 29 luglio 1.050.000 1.150.000 30 luglio 1.052.000 1.210.000 31 luglio 1.080.000 1.168.000 1 o agosto 1.000.000 1.130.000 2 agosto 970.000 1.040.000 3 agosto 950.000 1.000.000 Fonte : dati approssimativi, apparsi sulla stampa quotidiana. La rappresentazione grafica in coordinate polari è riportata nella fig. 6. Si è diviso l angolo giro (360 o ) in tante parti quante sono le modalità qualitative del carattere ordinatore, ad esempio 9 nel caso esaminato (cfr. fig. 6). La suddivisione dà luogo a dei raggi vettori, tutti aventi per origine il polo, O, e per lunghezza un raggio vettore che sarà uguale o proporzionale all intensità o frequenza (assoluta o relativa) assunta dalla modalità cui corrisponde lo stesso (cfr. fig. 6), secondo l unità di misura scelta (numero delle suddivisioni del campo di variazione della serie ciclica considerata, da O a un valore massimo) in base al grado di analiticità richiesto dalla rappresentazione. È da osservare che se il carattere ciclico può considerarsi continuo (ossia soggetto a subire variazioni continue nel tempo) si possono congiungere gli estremi dei raggi vettori al fine di dare maggior rilievo all andamento del fenomeno, come indicato nella fig. 6, in cui sono rappresentate due serie cicliche, indicate con diverso tratteggio, riferite rispettivamente al 2003 e al 2004. Le coordinate polari consentono in questo caso di confrontare 15

Statistica figura 6 Veicoli transitati su parte della rete autostradale nei giorni indicati, negli anni 2003 e 2004. Frequenze assolute in migliaia 26 luglio 3 agosto 1300 1200 1100 1000 27 luglio 2 agosto 800 700 600 500 400 300 200 100 28 luglio 1 agosto 29 luglio 31 luglio 30 luglio 2003 2004 tra loro le due serie mettendo in rilievo gli eventuali giorni di punta di intensità del traffico e la loro costanza o meno nei due anni considerati. La rappresentazione grafica si potrebbe avvalere di ulteriori indicazioni (ad es. ponendo su ciascun raggio vettore il giorno della settimana cui corrisponde il giorno del mese nei due anni considerati). Qualora si volesse una descrizione più dettagliata dell andamento del traffico di quei giorni, ad esempio per le varie ore del giorno, occorrerebbe passare ad altri diagrammi, in coordinate polari, aventi per raggi vettori le ore del giorno. I cartogrammi e le serie territoriali 2.4. I cartogrammi e le mappe tematiche (sociali, di rischio ecc.) I cartogrammi riguardano particolari rappresentazioni grafiche adatte alle serie territoriali ossia mutabili sconnesse riferite a luoghi, territori, zone geografiche o amministrative ecc. Per costruire un cartogramma occorre disporre di una carta geografica o topografica in cui siano chiaramente delimitate le diverse zone, regioni, circoscrizioni (geografiche, politiche, amministrative ecc.) rispetto alle 16

quali viene analizzata l intensità o la frequenza di uno o più caratteri (ad es. nati, morti, reddito pro capite, tassi di alcoolismo, tassi di suicidio ecc. secondo le Regioni, Province, Comuni ecc. italiani). È da osservare che la scelta dell unità territoriale non sempre è facile. Se i criteri sono di tipo geografico-amministrativo o geografico-morfologico è facile individuare le unità territoriali (ad es. Regioni, Province, circoscrizioni, montagna, collina, pianura ecc.). Se invece i fenomeni da rappresentare riguardano unità territoriali basate su criteri diversi, ad esempio sociali (aree culturali, criminalità ecc.), ecologici (aree di rischio), land-use (utilizzazioni del territorio) ecc., la loro definizione è assai più complessa e qui non ci soffermeremo su tale argomento. Data la crescente importanza a fini investigativi che rivestono queste rappresentazioni socio-territoriali, che si basano sulle coordinate geografiche anziché su criteri amministrativi come negli usuali cartogrammi di carattere morfologico o amministrativo, si denominano tali rappresentazioni mappe tematiche (socio-culturali, di rischio, di land-use, di criminalità ecc.) per le quali il momento della delimitazione (definizione) dei territori, zone ecc. è da considerarsi non solo utile alla rappresentazione dei dati ma alla loro comprensione e all individuazione dei fattori eziologici del fenomeno. Le mappe tematiche consentono, anche se molto empiricamente ed in prima approssimazione, di tener conto dell autocorrelazione spaziale. Il concetto di autocorrelazione spaziale si riferisce alla possibilità che un fenomeno che interessa i diversi siti o luoghi di un territorio sia influenzato nelle sue manifestazioni dalla contiguità spaziale esistente tra i luoghi in cui il fenomeno è osservato. E si dice che vi è autocorrelazione positiva se nelle coppie di luoghi contigui il fenomeno assume determinazioni somiglianti; si dice invece che vi è autocorrelazione negativa se nelle coppie di luoghi contigui il fenomeno presenta determinazioni divergenti. Per poter verificare la presenza di autocorrelazione spaziale, le mappe tematiche non consentono, se non visivamente, di avere una prima informazione che potrebbe tuttavia contenere delle distorsioni dovute al caso o ad effetti grafici e che comunque non forniscono una quantificazione dell eventuale relazione esistente. Occorre perciò impiegare un indice di autocorrelazione spaziale (ad es. tra i più impiegati vi sono l indice di Moran e l indice di Geary) tra i molti criteri proposti per la misura dell autocorrelazione spaziale. Si rinvia a testi specifici sull argomento per ulteriori approfondimenti (Zani, 1993). Oggi in presenza del diffondersi delle analisi statistiche ecologiche e ambientali e del campionamento areale, dell enorme evoluzione avutasi nei mezzi informatici per il rilevamento e il trattamento delle immagini, si assiste ad uno sviluppo notevole delle tematiche connesse all analisi dei dati spaziali ed al trattamento dei dati come oggetti geografici tramite appositi La scelta dell unità territoriale Mappe tematiche, coordinate geografiche e serie spaziali L autocorrelazione spaziale I dati come oggetti geografici, i gis packages e le serie spaziali 17

Statistica software, denominati generalmente gis (Geographic Information Systems) packages, come ad esempio MapInfo, ArcView, AtlasGIS e così via. Considerare, ad esempio, la delimitazione di diverse zone di una città in base al diverso grado di alcolismo, criminalità, presenza di inquinamento dell aria ecc. fanno della rappresentazione grafica uno strumento investigativo di carattere diverso dalla mera presentazione territoriale di un insieme di dati, poiché la rilevazione stessa dei dati (tramite telerilevamento, centraline ecc.) è funzionale alla costruzione di una mappa tematica. Come esempio di cartogramma si considerino i dati della tab. 7 riguardantabella 7 Graduatoria in ordine decrescente delle Regioni italiane secondo la mortalità per suicidio nel 1993. Quozienti per 100.000 abitanti Regioni Mortalità per suicidio 1993 Posto in graduatoria Per 100.000 abitanti Liguria 1 14,5 Piemonte 2 11,9 Friuli-Venezia Giulia 3 11,6 Umbria 4 11,0 Emilia-Romagna 5 10,0 Trentino-Alto Adige 6 9,4 Lombardia 7 9,2 Basilicata 8 8,5 Marche 9 7,9 Toscana 10 7,7 Sardegna 11 7,0 Veneto 12 6,9 Abruzzo 13 6,8 Valle d Aosta 14 6,0 Molise 15 6,0 Sicilia 16 5,4 Puglia 17 4,2 Calabria 18 4,1 Lazio 19 3,2 Campania 20 3,2 Italia 7,2 Fonte : istat, Le Regioni in cifre, 1995, p. 79. 18

ti la distribuzione regionale della mortalità per suicidi, in Italia, nel 1993, espressa in quozienti per 100.000 abitanti, standardizzati per età (serie territoriale d intensità). Il cartogramma corrispondente è rappresentato nella fig. 7. Per rappresentare tramite cartogramma tale serie territoriale si è proceduto come segue. Una volta disponibile una carta dell Italia con l esatta indicazione dei confini delle 20 Regioni italiane, occorre scegliere il numero e l ampiezza delle classi di valori dei tassi standardizzati di mortalità per suicidio. Nel caso considerato si sono scelte, ad esempio, 5 classi di valori, indicate con diverso tratteggio (cfr. fig. 7). Si sono quindi tratteggiate le Refigura 7 Distribuzione regionale dei suicidi nel 1993. Quozienti per 100.000 abitanti CARTOGRAMMI 6 9,2 9,4 6,9 11,6 11,9 10 ITALIA 14,5 7,7 11 7,9 7,2 3,2 6,8 6 3,2 7 8,5 4,2 4,1 5,4 <4 4-5 6-8 9-10 11 e più Fonte: nostra elaborazione su dati istat. 19

Statistica figura 8a Percentuale di abitazioni occupate da persone residenti in proprietà Percentuale di abitazioni occupate da persone residenti in proprietà (sul totale della abitazioni occupate) Meno di 70,01 70,01-75,00 75,01-80,00 80,01-85,00 Oltre 85,00 Fonte: nostra elaborazione su dati istat. gioni con il simbolo corrispondente alla classe nella quale rientra il valore del tasso di mortalità per suicidio in ciascuna di esse rilevato. La suddivisione in classi di valori si rende necessaria per diminuire il numero di trat20

figura 8b Numero di occupanti per stanza in abitazione occupata da persone residenti Numero di occupanti per stanza in abitazione occupata da persone residenti Meno di 0,46 0,46-0,55 0,56-0,60 0,61-0,70 Oltre 0,70 Fonte: nostra elaborazione su dati istat. teggi (o colori) diversi da impiegare nel cartogramma per indicare le diverse intensità o frequenze assunte dal fenomeno considerato e rendere quindi la rappresentazione chiara e comprensibile. 21

Statistica In generale si potrebbe procedere per la scelta dell ampiezza e del numero delle classi di valori nel modo seguente: calcolare l intensità o frequenza media dell intera distribuzione (serie territoriale), nell esempio considerato: Italia 7,2 100.000 ab. (cfr. tab. 7), e quindi formare 2 o 3 classi di valori al di sotto e al di sopra della media. Per la scelta dei tratteggi si potrebbe poi cercare di scegliere forme grafiche che diano immediatamente il senso della maggiore o minore intensità di una classe rispetto ad un altra. Ad esempio nell ipotesi di 6 classi, impiegando il tratteggio (ma lo stesso ragionamento andrebbe fatto per i colori), si potrebbero usare i seguenti 6 tipi, posti in ordine crescente di intensità: al di sotto di... da... a... da... a... da... a... da... a... oltre... Come esempio di mappa si riporta nelle figg. 8a e 8b la mappa dell Italia relativa rispettivamente alla percentuale di abitazioni occupate da persone residenti in proprietà (fig. 8a) e numero di occupanti per stanza in abitazione occupata da persone residenti (fig. 8b). La diversa distribuzione territoriale risultata può fornire utili indicazioni per più specifiche indagini ad hoc al fine di individuare i possibili fattori eziologici legati al fenomeno considerato. È da osservare, infine, che esiste un limite di leggibilità dei grafici per cui non è consigliabile impiegare in uno stesso grafico, cartogramma o mappa, molti caratteri. 3. Rappresentazioni grafiche di caratteri quantitativi (variabili) Le rappresentazioni grafiche per i caratteri quantitativi I caratteri quantitativi o variabili presentano modalità quantitative ossia espresse da numeri reali o da intervalli numerici. La distribuzione statistica prende il nome di seriazione nel caso di distribuzioni semplici, di frequenza o di quantità. Ai fini della loro rappresentazione grafica è utile distinguere tre casi. 1. Caratteri quantitativi, continui o discreti, divisi in classi di valori; ad esempio l età in classi di età, i Comuni secondo classi di ampiezza demografica ecc. 2. Caratteri quantitativi discreti, ossia quei caratteri le cui modalità sono costituite da singoli valori; ad esempio i numeri interi (numero di figli, ammontare della popolazione, nati, morti ecc.). 3. Caratteri quantitativi continui, ossia quei caratteri le cui modalità sono soggette ad assumere tutti i possibili valori di un intervallo (ad es. l età, la temperatura, la statura ecc.). 22

In ciascuno dei tre casi considerati si può rappresentare la seriazione con grafici opportuni e adatti alla natura dei dati. Pur nella diversità, essi si basano tutti su diagrammi in coordinate cartesiane ortogonali, che qui considereremo note. Anche le serie storiche o temporali, malgrado il carattere ordinatore (anni, mesi, giorni ecc.) sia qualitativo, possono rientrare nelle rappresentazioni grafiche dei caratteri quantitativi. Per esse è in particolare da osservare che la rappresentazione grafica si rivela particolarmente importante, anzi, generalmente, esse si prestano a essere presentate in forma grafica piuttosto che tabellare sia perché più facilmente leggibili sia perché tali serie sono costituite in genere da molti dati. 3.1. Gli istogrammi e il poligono di frequenza Gli istogrammi si impiegano per rappresentare graficamente distribuzioni di frequenza di caratteri quantitativi (variabili) le cui modalità sono costituite da classi di valori. Per i caratteri continui derivanti da un operazione di misurazione (ad es. età, statura, temperatura ecc.), la divisione in classi di valori (intervalli continui e contigui) si rende necessaria per la formazione stessa della distribuzione statistica e l operazione di suddivisione in classi è legittima. Lo è meno invece per i caratteri discreti, derivanti da operazioni di conteggio (ad es. numero di figli, nati, morti ecc.) poiché nell intervallo considerato essi possono assumere solo alcuni e non tutti i valori dell intervallo. Ciononostante si usa anche per queste variabili la suddivisione in classi di valori i cui estremi dovranno tener conto del carattere discreto della variabile considerata. La scelta del numero e dell ampiezza delle classi nelle quali suddividere una data variabile è delicata e per essa non esistono criteri unici o regole fisse. Diverse suddivisioni possono portare come risultato a distribuzioni statistiche dello stesso carattere e insieme di unità, anche molto diverse tra loro (cfr. cap. 2, par. 2.1). Ai fini della rappresentazione grafica delle seriazioni per classi di valori occorre distinguere due casi. 1. Le classi di valori (modalità quantitative) hanno uguale ampiezza. 2. Le classi di valori hanno diversa ampiezza. 1. Se le classi di valori nelle quali è classificato il carattere considerato hanno uguale ampiezza, la rappresentazione grafica per istogrammi è relativamente semplice e simile ai già visti grafici a barre (cfr. par. 2.1). A differenza di questi ultimi, tuttavia, negli istogrammi esistono due scale, assi graduati secondo l unità di misura scelta: un asse orizzontale (delle x o ascisse) sul quale saranno riportati tanti intervalli di uguale ampiezza e contigui quante sono le classi di valori scelte con l indicazione (numerica) degli estremi di ciascun intervallo; un asse verticale (delle y o ordinate) sul quale saranno riportati i valori delle frequenze (assolute o relative) Le serie storiche o temporali Istogrammi per le variabili divise in classi di valori Classi di valori di uguale ampiezza 23

Statistica assunte dalle classi di valori considerate. In pratica la rappresentazione grafica per istogrammi consisterà nel riportare tanti rettangoli contigui, ciascuno avente base uguale alla ampiezza della classe e altezza uguale o proporzionale alla frequenza (assoluta o relativa) assunta nell insieme delle unità dalla classe. L area di ogni rettangolo sarà pertanto uguale o proporzionale alla frequenza di ciascuna classe, mentre la somma delle aree di tutti i rettangoli sarà uguale o proporzionale alla frequenza totale del carattere. L ipotesi di base su cui si fonda la rappresentazione per istogrammi è che le unità classificate in ciascuna classe di valori siano in essa equidistribuite. Si considerino, ad esempio, i dati riportati nella tab. 8 riguardanti la popolazione residente da 15 a 65 anni per classi (decennali) di età, al Censimento 1991 (seriazione di frequenza). tabella 8 Popolazione italiana residente da 15 a 65 anni per classi (decennali) di età. Censimento 1991. Valori assoluti e percentuali (sul totale della popolazione) Classi di età (in anni) Popolazione N. % 15-24 8.832.952 15,6 25-34 8.753.829 15,4 35-44 7.736.280 13,6 45-54 7.086.236 12,5 55-64 6.659.574 11,7 Fonte : istat, Annuario statistico italiano, 1995, p. 59. Il poligono di frequenza L istogramma corrispondente è riportato nella fig. 9. Per rendere più evidente l andamento e la forma della distribuzione si possono congiungere con segmenti di retta i punti centrali dei lati superiori dei rettangoli ottenendo in tal modo una linea spezzata detta poligono di frequenza (cfr. fig. 9). Poiché un poligono di frequenza si costruisce da un istogramma, le regole appartenenti all area sottostante la curva restano valide. Occorre allora fare attenzione nel tracciare il poligono alle classi estreme. Come si noterà nella fig. 9 la spezzata deve essere chiusa toccando l asse delle ascisse all esterno delle classi estreme in modo che l area all interno del poligono di frequenza equivalga a quella dell istogramma. 24

2. Nel caso in cui le classi di valori nelle quali è stato classificato il carattere considerato non sono invece della stessa ampiezza occorrerà tenerne opportunamente conto nella costruzione degli istogrammi. In questo caso nella rappresentazione si avrà una serie di rettangoli aventi basi diverse (poiché le classi hanno ampiezza diversa) uguali alla ampiezza delle classi e altezze da calcolarsi in modo che le frequenze siano proporzionali alle aree dei rispettivi rettangoli. Consideriamo, ad esempio, i dati della tab. 9 riguardanti i morti per suicidio in Italia nel 1994 secondo classi di età di diversa ampiezza (seriazione di frequenza). L istogramma corrispondente, riferito ai maschi, è riportato nella fig. 10 con riferimento alle frequenze percentuali. L istogramma è stato calcolato come segue: a) si sono considerate le diverse ampiezze delle classi di età. Nell esempio considerato oltre ad avere classi di età diverse si avevano anche due classi aperte ossia senza un estremo fissato: la classe di età fino a 13 anni e la classe di età oltre 64 anni per le quali è stato necessario fissare rispettivafigura 9 Popolazione residente italiana da 15 a 65 anni per classi decennali di età. Censimento 1991. Valori percentuali sul totale della popolazione italiana residente % popolazione ISTOGRAMMA E POLIGONO DI FREQUENZA 15 12,5 10 7,5 5 2,5 0 5 10 15 25 35 40 45 55 60 65 Classi di età Fonte: nostra elaborazione su dati istat. Affinché l istogramma sia corretto l origine delle frequenze (assolute o relative) deve essere sempre 0. Può, però, capitare che i valori delle frequenze della distribuzione per classi considerata siano sempre di molto superiori allo 0 per cui si avrebbe un grafico molto alto; si usa in tal caso spezzare l asse delle frequenze, y, in un punto successivo allo 0 indicando chiaramente con una linea spezzata che il grafico è stato ridotto. Nella lettura finale, tuttavia, occorrerà tenere conto che il grafico è stato ridotto nel valutare la forma della distribuzione. Classi di valori di diversa ampiezza Le classi aperte 25

Statistica La densità (media) di frequenza mente l estremo inferiore (ad es. 10 anni) e l estremo superiore (ad es. 80 anni) tenendo conto della natura del fenomeno considerato; cfr. par. 2.4. Le classi sono inoltre chiuse a sinistra; b) calcolate in anni le diverse ampiezze delle classi di età, occorre ora calcolare la densità (media) di frequenza di ciascuna affinché le altezze tabella 9 Morti per suicidio per classi di età e sesso in Italia nel 1994. Valori assoluti e percentuali Classi di età Maschi Femmine N. % N. % Fino a 13 anni 6 0,20 1 0,10 14-17 anni 48 1,62 19 1,98 18-24 anni 220 7,42 62 6,43 25-44 anni 883 29,76 210 21,78 45-64 anni 835 28,16 303 31,43 Oltre 64 anni 974 32,84 369 38,28 Totale 2.966 100,00 964 100,00 Fonte : istat, Compendio statistico italiano, 1995, p. 216. figura 10 Morti per suicidio dei maschi per classi di età in Italia nel 1994. Valori assoluti Morti per suidicio (densità di frequenza) 65 60 55 50 45 40 35 30 25 20 15 10 5 ISTOGRAMMA 10 14 18 25 45 65 80 Classi di età Fonte: nostra elaborazione su dati istat. 26

tabella 10 Classi di età Calcolo della densità di frequenza Ampiezza delle classi (in anni) Densità di frequenza 10 14 4 6:4 = 1,5 14 18 4 48:4 = 12 18 25 7 220:7 = 31,43 25 45 20 883:20 = 44,15 45 65 20 835:20 = 41,75 65 80 15 974:15 = 64,93 di ciascun rettangolo corrispondenti alle frequenze (assolute o relative) delle classi siano confrontabili. Ciò si ottiene dividendo la frequenza (assoluta n i o relativa f i ) della classe i-esima per la sua ampiezza. Infatti se n i = a i d i è l area del rettangolo i-esimo, d i = n i : a i è l altezza del rettangolo o densità di frequenza ed essa è determinata in modo che le aree dei rettangoli siano proporzionali alle frequenze n i. Se le basi b i sono tutte uguali a una costante c (classi della stessa ampiezza) si può omettere il calcolo della densità di frequenza essendo le frequenze n i divise per la stessa costante c. In base alle densità di frequenza è possibile costruire l istogramma della fig. 10. Nella tab. 10 sono riportati in sintesi i calcoli suddetti con riferimento ai dati della tab. 9 riferiti per brevità ai maschi soltanto. L area di ciascun rettangolo deve essere uguale, come già detto, alle frequenze assolute (o relative) delle classi corrispondenti e la somma delle aree dei rettangoli deve essere uguale alla frequenza totale (numerosità) del carattere considerato. Infatti con riferimento ad esempio alla distribuzione dei morti per suicidio dei maschi: (4 1,5 = ) 6 + (4 12 = ) 48 + (7 31,43 = ) 220 + (20 44,15 = ) 883 + (20 41,75 = ) 835 + (15 64,93 = ) 974 = 2.966. 3.2. I diagrammi cartesiani a segmenti (canne d organo, aste, denti di pettine) Nel caso in cui si vogliano rappresentare graficamente caratteri quantitativi (variabili) discreti, non divisi in classi, come ad esempio il numero dei componenti per famiglia, il numero delle stanze delle abitazioni, il numero di unità locali delle aziende e così via, si impiegano i diagrammi in coordinate cartesiane ortogonali che possono configurarsi, dato il carattere discreto, a segmenti verticali. Essi si costruiscono come gli usuali diagrammi cartesiani aventi due assi perpendicolari: l asse delle ascisse, x, e l asse delle ordinate, y, aventi origine Diagrammi cartesiani ortogonali o a canne d organo e le variabili discrete 27