Lo scopo di questo capitolo è quello di introdurre le principali tecniche di descrizione dei dati.



Documenti analoghi
Il concetto di valore medio in generale

Un po di statistica. Christian Ferrari. Laboratorio di Matematica

Corso di. Dott.ssa Donatella Cocca

La distribuzione Normale. La distribuzione Normale

OCCUPATI SETTORE DI ATTIVITA' ECONOMICA

CORSO DI STATISTICA (parte 1) - ESERCITAZIONE 1

Slide Cerbara parte1 5. Le distribuzioni teoriche

CLASSIFICAZIONE DEI CARATTERI

Indici (Statistiche) che esprimono le caratteristiche di simmetria e

Università del Piemonte Orientale. Corsi di Laurea Triennale. Corso di Statistica e Biometria. Introduzione e Statistica descrittiva

Capitolo 2 Distribuzioni di frequenza

Analisi e diagramma di Pareto

Siamo così arrivati all aritmetica modulare, ma anche a individuare alcuni aspetti di come funziona l aritmetica del calcolatore come vedremo.

LABORATORIO-EXCEL N. 2-3 XLSTAT- Pro Versione 7 VARIABILI QUANTITATIVE

Metodi statistici per le ricerche di mercato

Grafici delle distribuzioni di frequenza

LE FUNZIONI A DUE VARIABILI

Prova di autovalutazione Prof. Roberta Siciliano

LABORATORIO EXCEL XLSTAT 2008 SCHEDE 2 e 3 VARIABILI QUANTITATIVE

Dimensione di uno Spazio vettoriale

Università del Piemonte Orientale. Corsi di Laurea Triennale di Area Tecnica. Corso di Statistica e Biometria. Statistica descrittiva

1. Distribuzioni campionarie

CAPITOLO 8 LA VERIFICA D IPOTESI. I FONDAMENTI

STATISTICA IX lezione

LA STATISTICA NEI TEST INVALSI

Dr. Marco Vicentini Anno Accademico Rev 30/03/2011

ANALISI DELLE FREQUENZE: IL TEST CHI 2

Alessandro Pellegrini

Modelli descrittivi, statistica e simulazione

Statistica. Alfonso Iodice D Enza iodicede@unina.it

Indici di dispersione

VARIABILI E DISTRIBUZIONI DI FREQUENZA A.A. 2010/2011

Capitolo 13: L offerta dell impresa e il surplus del produttore

Probabilità condizionata: p(a/b) che avvenga A, una volta accaduto B. Evento prodotto: Evento in cui si verifica sia A che B ; p(a&b) = p(a) x p(b/a)

APPUNTI DI MATEMATICA LE FRAZIONI ALGEBRICHE ALESSANDRO BOCCONI

Psicometria (8 CFU) Corso di Laurea triennale STANDARDIZZAZIONE

1. PRIME PROPRIETÀ 2

METODOLOGIA STATISTICA E CLASSIFICAZIONE DEI DATI

4 3 4 = 4 x x x 10 0 aaa

LA STATISTICA E IL CALCOLO DELLE PROBABILITÀ

Esercitazione #5 di Statistica. Test ed Intervalli di Confidenza (per una popolazione)

f(x) = 1 x. Il dominio di questa funzione è il sottoinsieme proprio di R dato da

2. Leggi finanziarie di capitalizzazione

SISTEMI DI NUMERAZIONE E CODICI

Facciamo qualche precisazione

Statistica e biometria. D. Bertacchi. Variabili aleatorie. V.a. discrete e continue. La densità di una v.a. discreta. Esempi.

Dott.ssa Caterina Gurrieri

LE SUCCESSIONI 1. COS E UNA SUCCESSIONE

risulta (x) = 1 se x < 0.

ESERCIZI DI STATISTICA DESCRITTIVA

Relazioni statistiche: regressione e correlazione

Corso integrato di informatica, statistica e analisi dei dati sperimentali Altri esercizi_esercitazione V

SPC e distribuzione normale con Access

Capitolo 2. Operazione di limite

Come descrivere un fenomeno in ambito sanitario fondamenti di statistica descrittiva. Brugnaro Luca

Esercizio 1 Dato il gioco ({1, 2, 3}, v) con v funzione caratteristica tale che:

Come visto precedentemente l equazione integro differenziale rappresentativa dell equilibrio elettrico di un circuito RLC è la seguente: 1 = (1)

STATISTICA DESCRITTIVA. Le misure di tendenza centrale

INDICI DI TENDENZA CENTRALE

Elementi di Statistica descrittiva Parte I

Conoscenza. Metodo scientifico

ALLEGATO 1 Analisi delle serie storiche pluviometriche delle stazioni di Torre del Lago e di Viareggio.

4. Operazioni aritmetiche con i numeri binari

1. L analisi statistica

ESERCIZIO N 4. Fatturato Supermercati [0;500) 340 [500;1000) 368 [1000;5000) 480 [5000;10000) 37 [10000;20000) 15 taglia = 1240

Corrispondenze e funzioni

Rapporto dal Questionari Insegnanti

RAPPRESENTAZIONE DEI DATI

PROBABILITÀ - SCHEDA N. 2 LE VARIABILI ALEATORIE

Politecnico di Milano. Facoltà di Ingegneria Industriale. Corso di Analisi e Geometria 2. Sezione D-G. (Docente: Federico Lastaria).

[ Analisi della. concentrazione] di Luca Vanzulli. Pag. 1 di 1

Corso di Informatica Generale (C. L. Economia e Commercio) Ing. Valerio Lacagnina Rappresentazione in virgola mobile

Statistica descrittiva: prime informazioni dai dati sperimentali

Probabilità discreta

ESERCITAZIONE 13 : STATISTICA DESCRITTIVA E ANALISI DI REGRESSIONE

Parte II Indice. Operazioni aritmetiche tra valori rappresentati in binario puro. Rappresentazione di numeri con segno

Una sperimentazione. Probabilità. Una previsione. Calcolo delle probabilità. Nonostante ciò, è possibile dire qualcosa.

4. Operazioni elementari per righe e colonne

Soluzione dell esercizio del 2 Febbraio 2004

CONCETTO DI LIMITE DI UNA FUNZIONE REALE

PROGETTO EM.MA PRESIDIO

Come costruire una distribuzione di frequenze per caratteri quantitativi continui

Analisi di dati di frequenza

Appunti sulla Macchina di Turing. Macchina di Turing

Capitolo 4 Probabilità

UNIVERSITÀ DEGLI STUDI DI TERAMO

E naturale chiedersi alcune cose sulla media campionaria x n

Appunti di complementi di matematica

STATISTICA DESCRITTIVA UNIVARIATA

Analisi della performance temporale della rete

Parte 3. Rango e teorema di Rouché-Capelli

Indice Statistiche Univariate Statistiche Bivariate

matematica probabilmente

Per studio di funzione intendiamo un insieme di procedure che hanno lo scopo di analizzare le proprietà di una funzione f ( x) R R

Per lo svolgimento del corso risulta particolarmente utile considerare l insieme

Statistica. Lezione 6

= variazione diviso valore iniziale, il tutto moltiplicato per 100. \ Esempio: PIL del 2000 = 500; PIL del 2001 = 520:

Capitolo 12 La regressione lineare semplice

ESEMPIO 1: eseguire il complemento a 10 di 765

Codifiche a lunghezza variabile

Transcript:

Indice 1 Descriviamo i Dati 1 1.1 L Informazione in Statistica................... 1 1.2 Variabili Qualitative....................... 5 1.2.1 Distribuzioni di Frequenza................ 5 1.2.2 Rappresentazioni Grafiche................ 7 1.2.3 Sintesi dei Dati...................... 8 1.3 Variabili Quantitative....................... 12 1.3.1 Tabelle di Frequenza per Classi............. 12 1.3.2 Frequenze cumulate e Funzione di Ripartizione Empirica 14 1.3.3 Sintesi dei Dati...................... 19 Domande di Auto Verifica....................... 24 i

ii INDICE

Capitolo 1 Descriviamo i Dati Lo scopo di questo capitolo è quello di introdurre le principali tecniche di descrizione dei dati. 1.1 L Informazione in Statistica Dopo la rilevazione dei dati si ha la fase di codifica in variabili delle informazioni rilevate. Per variabile si intende una caratteristica di interesse che viene osservata sulle unità statistiche selezionate e che presenta una naturale attititudine a variare da unità ad unità. Quasi sempre infatti è proprio la variabilità delle osservazioni che ci interessa studiare. Una particolare unità presenterà una specifica modalitá della variabile. Pertanto si parla di carattere o variabile per riferirsi a un concetto rilevato, e a modalità per riferirsi ad un valore che la variabile può assumere. Così, se consideriamo la variabile sesso dell intervistato, questa può assumere modalità Maschio o Femmina, e su ciascuna specifica unità si sarà rilevata ovviamente una sola di queste due modalità. Le informazioni rilevate vengono quindi opportunamente organizzate secondo una tipica struttura unità per variabili, o matrice di dati. Su ciascuna riga si pongono le informazioni riguardanti ciascuna unità, sempre nello stesso ordine, in modo da ottenere che ciascuna colonna rappresenti tutti i valori osservati per una variabile. Ad esempio, la Tabella 1.1 è la matrice di dati che utilizzeremo come esempio in questo capitolo. I dati riguardano un gruppo di utenti dei SerT del Friuli. Ciascuna colonna rappresenta una variabile, che risponde ad un nome sintetico spiegato in Tabella 1.2. Ciascuna riga corrisponde ad un 1

2 CAPITOLO 1. DESCRIVIAMO I DATI soggetto (si tratta nel caso specifico di tossicodipendeti che sono registrati presso il SerT), su cui sono state rilevate (in ordine) le modalità di ciascuna variabile. Così il soggetto numero 3 ha iniziato a drogarsi a 19 anni e possiede un titolo di studio equivalente alla Media Inferiore. La riga 3 contiene tutte le informazioni rilevate sul soggetto numero 3; e la colonna 3 contiene le età in cui tutti i soggetti rilevati hanno cominciato a fare uso di droga, cioè i valori della variabile eta1uso. Si notino le celle vuote, ad indicare un dato mancante o non applicabile. Ad esempio, si ha una cella vuota nella colonna relativa alla variabile etaover quando l intervistato ha avuto episodi di overdose ma non ricorda la sua età in corrispondenza del primo episodio (dato mancante) oppure non ha mai avuto episodi di overdose e pertanto l informazione non è pertinente (dato non applicabile). In verità l informazione contenuta in questo tipo di dati è semplicemente incompleta; sappiamo che l individuo fino al momento dell intervista (e quindi alla sua età al momento dell intervista) non ha avuto nessun episodio di overdose, ma non sappiamo se e quando ne avrà nel futuro. Le variabili vengono classificate in tipologie: Qualitative su scala nominale Qualitative su scala ordinale Quantitative su scala ad intervallo Quantitative su scala di rapporto. Questa classificazione corrisponde, come vedremo tra breve, a diversi livelli di ` misurabilità delle variabili. In altre parole è la natura stessa delle variabili a determinare quale delle operazioni elementari (uguale/diverso, inferiore/superiore, differenza, rapporto) saremo in grado di fare e quindi condizionerà direttamente le metodologie statistiche applicabili La prima grande distinzione è tra variabili qualitative e quantitative. Le variabili qualitative assumono modalità non numeriche, mentre le quantitative assumono modalità numeriche (nel continuo, cioè valori in un intervallo o nel discreto, ovvero solo numeri naturali). Si parla di variabile qualitativa nominale quando le modalità della variabile non solo non sono numeriche, ma neanche ordinabili (per esempio, la variabile colore dei capelli assume modalità castani, rossi, ecc. e non esiste un ordinamento naturale). Si parla di variabile qualitativa ordinale quando le modalità della variabile

1.1. L INFORMAZIONE IN STATISTICA 3 eta eta1uso etaover etatrt sesso statciv titstud 1 37.00 18.00 18.00 18.00 Femmina Vedovo Media Superiore 2 40.00 19.00 20.00 Maschio Celibe/Nubile Media Inferiore 3 31.00 16.00 26.00 16.00 Maschio Celibe/Nubile Media Inferiore 4 37.00 18.00 30.00 Maschio Celibe/Nubile Media Inferiore 5 25.00 20.00 20.00 25.00 Maschio Convivente Media Inferiore 6 26.00 22.00 24.00 Femmina Celibe/Nubile Media Inferiore 7 27.00 22.00 24.00 Maschio Coniugato Corsi Professionali 8 35.00 16.00 27.00 Maschio Coniugato Media Inferiore 9 35.00 16.00 25.00 20.00 Femmina Separato Media Inferiore 10 34.00 17.00 30.00 Maschio Celibe/Nubile Media Inferiore 11 37.00 18.00 29.00 21.00 Maschio Coniugato Media Inferiore 12 25.00 16.00 21.00 Maschio Celibe/Nubile Media Inferiore 13 35.00 17.00 34.00 Maschio Separato Media Inferiore 14 34.00 16.00 18.00 Maschio Separato Corsi Professionali 15 25.00 15.00 23.00 Maschio Celibe/Nubile Corsi Professionali 16 34.00 18.00 22.00 24.00 Maschio Celibe/Nubile Media Inferiore 17 36.00 18.00 34.00 31.00 Femmina Separato Media Inferiore 18 21.00 19.00 20.00 19.00 Femmina Convivente Licenza Elementare 19 34.00 20.00 26.00 Maschio Celibe/Nubile Laurea 20 33.00 16.00 32.00 25.00 Maschio Celibe/Nubile Licenza Elementare 21 35.00 35.00 35.00 Femmina Separato Media Inferiore 22 41.00 21.00 30.00 Maschio Separato Media Superiore 23 43.00 20.00 30.00 29.00 Maschio Celibe/Nubile Media Superiore 24 41.00 19.00 28.00 21.00 Maschio Celibe/Nubile Media Inferiore 25 37.00 20.00 22.00 37.00 Maschio Separato Media Inferiore 26 34.00 21.00 25.00 31.00 Femmina Convivente Media Superiore 27 34.00 15.00 17.00 17.00 Femmina Celibe/Nubile Media Inferiore 28 32.00 16.00 20.00 Femmina Separato Corsi Professionali 29 31.00 21.00 29.00 Maschio Celibe/Nubile Media Inferiore 30 27.00 14.00 25.00 23.00 Femmina Separato Media Inferiore Tabella 1.1: Dati relativi a tossicodipendenti del Friuli qualitativa, pur non essendo numeriche, presentano un ordinamento (ad esempio, la variabile grado nell esercito ha un ordinamento dato dagli stati di avanzamento della carriera).

4 CAPITOLO 1. DESCRIVIAMO I DATI eta = età dell intervistato eta1uso = età al primo uso di eroina etaover = età al primo episodio di overdose non fatale etatrt = età al primo trattamento sesso = sesso dell intervistato statciv = stato civile titstud = titolo di studio Tabella 1.2: Descrizione Variabili Nel nostro esempio, la variabile statciv, lo stato civile, è una variabile qualitativa nominale in quanto non è possibile determinare un ordinamento tra le sue modalità non numeriche. La variabile titstud, il titolo di studio, è invece una variabile qualitativa su scala ordinale in quanto è possibile affermare che il diploma di scuola media superiore è inferiore al diploma di laurea. Per le variabili qualitative nominali, dati due individui, siamo in grado di stabilire soltanto se, rispetto a quella variabile, sono uguali o diversi. In base a questa semplice operazione possiamo classificare le nostre osservazioni in gruppi omogenei.nel caso della variabile sesso, possiamo creare due sottogruppi omogenei, i soggetti di sesso maschile e quelli di sesso femminile. Se la variabile è ordinabile, diventa possibile, oltre che stabilire uguaglianza o diversità, anche ordinare gli individui per esempio in base al loro titolo di studio. Un posto particolare è occupato dalle variabili qualitative dicotomiche, quelle cioè che possono assumere solo due modalità. Queste variabili (come nel nostro esempio il sesso ) sono per definizione nominali, anche se può essere talvolta comodo codificare le due modalità con i numeri 0 ed 1 ad indicare presenza/assenza di una caratteristica. In questo caso è divertente osservare come la media dei livelli osservati coincide con la proporzione di osservazioni corrispondenti al livello 1. Le variabili quantitative sono variabili che assumono valori (modalità) numerici, come le età in Tabella 1.1. Per le variabili quantitative si parla di scala ad intervallo quando è possibile effettuare confronti tra le modalità (numeriche) tramite differenze ma non tramite rapporto. Ha senso, ad esempio, affermare che l individuo numero 3 in Tabella 1.1 ha avuto la prima overdose non fatale (26 16) = 10 anni dopo il primo uso di droga, ma non ha senso

1.2. VARIABILI QUALITATIVE 5 fare il rapporto tra questi valori e ottenere il numero 26/16 = 1.625. Pertanto le variabili eta1uso, etaover ed etatrt sono variabili quantitative su scala ad intervallo. Si parla di variabili quantitative su scala di rapporto quando sia possibile effettuare sia confronti tramite differenza, sia tramite rapporto. Un esempio tipico riguarda le quantità monetarie: è possibile fare il rapporto tra il Prodotto Interno Lordo (PIL) di un paese e quello di un altro, ed affermare ad esempio che il rapporto tra il PIL di tutti i paesi del terzo mondo e quello dei 15 paesi originali dell unione europea è di 1,06; cioè i paesi del terzo mondo tutti insieme hanno un PIL circa uguale a quello dei soli quindici paesi dell unione europea. Le informazioni contenute nella matrice di dati, al fine di essere interpretate e/o comunicate in maniera efficace, vengono in seguito sintetizzate. Ogni manipolazione, anche semplice, della matrice di dati, corrisponde a una perdita di parte dell informazione in essa contenuta. Si accetta di perdere informazioni al fine di poter interpretare quelle che ci interessano. Scglieremo il modo di sintettizzare i dati (o parte di essi) di volta in volta, secondo gli aspetti che ci interessa indagare e secondo il punto di vista che sceglieremo. Le prime informazioni che si perdono sono in generale quelle che riguardano ciascuna specifica individualità: la sintesi, a meno di casi particolari, porta solamente informazioni generali sulla globalità degli individui considerati. Presentiamo ora le principali tecniche descrittive su singole variabili della matrice di dati. La scelta degli strumenti descrittivi da utilizzare dipende dal tipo di variabile che si sta analizzando. 1.2 Variabili Qualitative Presentiamo in questa sezione le principali tecniche descrittive da utilizzare su variabili qualitative singolarmente considerate. 1.2.1 Distribuzioni di Frequenza La prima sintesi che possiamo fare, sulle variabili qualitative, è la distribuzione di frequenza. Diciamo fin da ora che non è utile in generale fare distribuzioni di frequenza su variabili quantitative, a meno di una piccola modifica che presenteremo nella prossima sezione.

6 CAPITOLO 1. DESCRIVIAMO I DATI La costruzione di una distribuzione di frequenza implica l operazione più elementare che si compie in statistica, ovvero il conteggio. Costruiamo una semplice tabella che riporta il numero delle unità rilevate che presentano ciascuna delle possibili modalità della variabile in esame. Ad esempio, la variabile sesso in Tabella 1.1 ha la seguente distribuzione di frequenza: Modalità Frequenza Maschio 20 Femmina 10 Totale 30 Abbiamo complessivamente 20 individui di sesso maschile e 10 di sesso femminile (per un totale di 30 osservazioni). I valori 20 e 10 prendono il nome di frequenze assolute e sono generalmente indicate con il simbolo n i. La perdita di informazione è evidente: dalla tabella di frequenza non è possibile risalire a quali individui siano di sesso maschile e quali di sesso femminile. È anche evidente il vantaggio di una tale sintesi: è stata scoperta un informazione non palese dalla Tabella 1.1, ovvero che nel nostro campione si hanno molti più maschi tossicodipendenti che femmine tossicodipendenti. Per poter confrontare insiemi di dati con numerosità totale differente, si ha l abitudine di riportare, oltre alle frequenze assolute, anche le così dette Frequenze relative ottenute dividendo le frequenze assolute il numero totale di osservazioni Modalità Frequenza assoluta Frequenza Relativa Maschio 20 0.66 Femmina 10 0.33 Totale 30 1 Il valore 0.66 si ottiene dal rapporto 20/30 = 0.66. L idea alla base di questo semplice calcolo è quella di ottenere la frazione, su un totale unitario, che corrisponde alla quota di 20 su un totale di 30 osservazioni. Possiamo infatti impostare una semplice proporzione 20 : 30 = x : 1 per ottenere esattamente lo stesso risultato. Per migliorare ulteriormente la interpretabilià dei valori, spesso le frequenze assolute vengono moltiplicate per 100 (frequenze percentuali): il 66% dei soggetti rilevati è di sesso maschile. Due sono i vantaggi offerti dalla frequenze relative rispetto a quelle assolute: trasmettono un messaggio più semplice e diretto e permettono di confrontare la distribuzione della stessa variabile tra insiemi di dati differenti. Supponiamo ad esempio di ottenere, da un altro ipotetico collettivo, la

1.2. VARIABILI QUALITATIVE 7 seguente distribuzione per sesso: Modalità Frequenza Frequenza Relativa Maschio 55 0.55 Femmina 45 0.45 Totale 100 1 Potremmo cchiederci: in quale dei due collettivi è più elevata la presenza di tossicodipendenti di sesso maschile? Una lettura affrettata delle sole frequnze assolute potrebbe portare a concludere erroneamente che la presenza maschile è maggiore nel secondo gruppo (55 soggetti rispetto a 20). Osserviamo tuttavia che anche la numerosità assoluta del secondo gruppo è maggiore (100 rispetto a 30) e i 55 individui maschi costituiscono solo il 55% del totale a fronte del 66% di maschi presenti nel primo collettivo esaminato. Anche nel passaggio dalle frequenze assolute a quelle relative abbiamo perso una parte dell informazione; dalle sole frequenze relative, ricondotte ad un totale unitario, non siamo in grado di ricavare la dimensione originaria del campione. L informazione persa non è in questo caso trascurabile. Pur non entrando nel merito della questione, è evidente che i risultati di uno studio condotto su 30 individui non sono paragonabili a quelli di una indagine che coinvolga 3000 soggetti (a parità delle altre condizioni. È allora auspicabile che, qualora si riporti soltanto la distribuzione delle frequenze relative o percentuali (come spesso accade di leggere!), si aggiunga, in qualche angolino, anche il dato relativo alla numrosità dell insieme osservato (cosa che capita di leggere meno spesso). 1.2.2 Rappresentazioni Grafiche Uno strumento descrittivo molto utilizzato, per la sua immediatezza e chiarezza, sono le rappresentazioni grafiche. I grafici più utilizzati per le variabili qualitative sono le torte e i grafici a barre. Una torta che rappresenti la variabile statciv, lo stato civile delle unità in Tabella 1.1 è mostrata in Figura 1.1. L area di ciascuna fettina della torta è proporzionale alla frequenza relativa della rispettiva modalità. È evidente al primo sguardo che la maggioranza delle unità sono celibi o nubili. Una rappresentazione grafica spesso più utile è data dal grafico a barre, in cui viene rappresentata una barra per ciascuna modalità della variabile, e la barra è tanto alta quanto è la frequenza assoluta della modalità. Questo permette di risalire immediatamente ai valori numerici, e inoltre è molto più

8 CAPITOLO 1. DESCRIVIAMO I DATI Celibe/Nubile Coniugato Vedovo Convivente Separato Figura 1.1: Diagramma a torta difficilmente ingannevole per l occhio di un grafico a torta. Un esempio, sulla stessa variabile statciv, è in Figura 1.2. 1.2.3 Sintesi dei Dati La sintesi numerica dei dati si divide in tre aree: indicatori di posizione, indicatori di variabilità, indicatori di forma (o distribuzione). Noi ci concentreremo sui primi due casi.

1.2. VARIABILI QUALITATIVE 9 0 2 4 6 8 10 12 14 Celibe/Nubile Coniugato Convivente Separato Vedovo Figura 1.2: Grafico a barre In generale, si vuole sintetizzare in un unico numero (o, talvolta, coppia di numeri) delle specifiche caratteristiche dell intero collettivo. Gli indici di posizione sintetizzano, appunto, la posizione del collettivo statistico, il suo ordine di grandezza, e possono essere considerati come un valore rappresentativo del collettivo. Gli indici di variabilità sintetizzano l attitudine a variare, la mutevolezza (o la concentrazione) di un collettivo. Indici di Posizione L indice di posizione più utilizzato per una variabile qualitativa nominale è la moda. La moda di una variabile è la modalità che ha maggiore frequenza. Nel caso vi siano due o più modalità con stessa frequenza, vengono in generale

10 CAPITOLO 1. DESCRIVIAMO I DATI indicate tutte come moda. È possibile quindi che una variabile abbia più di una moda. Nel nostro esempio, dalla tabella di frequenza per il sesso si vede che la classe modale della variabile è maschio. Per quel che riguarda il titolo di studio, la classe modale è Media Inferiore, avendo frequenza assoluta superiore alle frequenze assolute di tutte le altre modalità della variabile titstud. Se la variabile qualitativa è ordinata, allora oltre alla moda è possibile utilizzare la mediana. La mediana di una variabile qualitativa ordinata è la modalità che occupa il posto centrale nell elenco ordinato delle osservazioni. Accade quindi che la metà dei casi ha valore pari od inferiore alla mediana, che quindi bipartisce la distribuzione delle unità. Per il calcolo si procede in questo modo: 1. Si ordinano le unità in base alle modalità. 2. Se si ha un numero dispari di unità, il posto centrale è quello che lascia a destra (valori inferiori) e a sinistra (valori superiori) lo stesso numero di casi (es. il quinto su undici). La modalità che occupa il posto centrale è la mediana. 3. Nel caso si abbiano un numero pari di unità, il posto centrale è occupato da due unità; quella che occupa il posto dato dal numero di unità diviso per due, e la successiva. Ad esempio, su dieci unità, il posto centrale è dato dal quinto e del sesto caso, perchè lasciano a destra e a sinistra quattro unità. Se i due posti sono occupati dalla stessa modalità, quella è la (singola) mediana. Se i due posti sono occupati da due modalità differenti, si hanno due mediane. Ovviamente, non si potranno mai avere tre mediane. Nel nostro esempio, si ha che le unità sono ordinate per titolo di studio in questo modo: Licenza Elementare, Licenza Elementare, Media Inferiore, Media Inferiore, Media Inferiore, Media Inferiore, Media Inferiore, Media Inferiore, Media Inferiore, Media Inferiore, Media Inferiore, Media Inferiore, Media Inferiore, Media Inferiore, Media Inferiore, Media Inferiore, Media Inferiore, Media Inferiore, Media Inferiore, Media Inferiore, Media Inferiore, Corsi Professionali, Corsi Professionali, Corsi Professionali, Corsi Professionali, Media Superiore, Media Superiore, Media Superiore, Media Superiore, Laurea.

1.2. VARIABILI QUALITATIVE 11 Le unità sono trenta. La quindicesima e la sedicesima unità hanno come modalità Media Inferiore. Pertanto la mediana per il titolo di studio è Media Inferiore. Naturalmente il fatto che moda e mediana siano uguali per la variabile titolo di studio è un puro caso. Inoltre, la moda di una variabile non rappresenta necessariamente il 50% o oltre delle modalità di una variabile. Si pensi al caso delle elezioni politiche: il partito che prende il numero maggiore di voti (in questo caso, Media Inferiore ) è la moda, ma raramente (al contrario che in questo caso) rappresenta da solo la maggioranza e per poter avere una coalizione di maggioranza è necessario appunto che si aggreghi con altri partiti. Torneremo in seguito sul significato e l interpretazione della mediana. Misure di Variabilità Esistono naturalmente molte misure di variabilità per variabili qualitative, sia nominali (ad esempio, misure di entropia) che ordinate. Tuttavia si tende ad utilizzare misure di variabilità quasi esclusivamente per variabili quantitative (almeno ad un livello semplice); per cui si rimanda la trattazione delle misure di variabilità alla prossima sezione.

12 CAPITOLO 1. DESCRIVIAMO I DATI 1.3 Variabili Quantitative Sulle variabili quantitative è possibile effettuare operazioni aritmetiche, e questo permette di utilizzare strumenti più raffinati nella descrizione delle informazioni. 1.3.1 Tabelle di Frequenza per Classi In generale una tabella di frequenza per variabili quantitative non ha molta utilità, in quanto molto spesso le unità presentano modalità differenti una dall altra. La tabella di frequenza si ridurrebbe quindi a un elenco dei valori assunti dalle unità per la variabile in esame, con conteggi quasi sempre pari ad 1. Ad esempio, la variabile etatrt ha la seguente distribuzione di frequenza: Modalità Frequenza 16 1 17 1 18 2 19 1 20 3 21 3 23 2 24 3 25 2 26 1 27 1 29 2 30 3 31 2 34 1 35 1 37 1 Totale 30 La tabella sopra non ha molta utilità in quanto le modalità (le righe della tabella) sono troppe, e hanno tutte più o meno lo stesso conteggio. Questo non permette di cogliere informazioni utili. Vogliamo pertanto ottenere conteggi piú differenziati tra loro, e un minor numero di righe della tabella. Per fare ciò ed ottenere una tabella di frequenza più sensata, che tenga inoltre

1.3. VARIABILI QUANTITATIVE 13 conto della natura numerica della variabile, si dividono i valori possibili in opportune classi. Può essere infatti considerata l informazione contenuta nella distanza, o vicinanza tra le modalità. La costruzione di classi di modalità consiste nella aggregazione dei possibili valori numerici in un numero limitato di classi. Dividiamo ad esempio l età in classi di ampiezza di dieci anni, a partire dal valore 10. Tutte le unità con modalità compresa tra 10 e 20 contribuiranno al conteggio della prima classe, quelle tra 21 e 30 alla seconda, e così via. La tabella di frequenza per la variabile etatrt diventa così: Modalità Frequenza 10-20 8 21-30 17 31-40 5 Totale 30 La tabella di frequenza così ottenuta permette di cogliere più informazioni. Naturalmente, l operazione di divisione in classi è arbitraria e se avessimo un criterio diverso (ad esempio, di diversa ampiezza) avremmo ottenuto una diversa tabella di frequenza. Si noti che non è necessario che le classi siano di ampiezza uniforme. In alternativa, è possibile definire classi di ampiezza eterogenea, ma che portino a conteggi uguali (o comunque molto prossimi): Modalità Frequenza 16-21 11 22-28 9 29-37 10 Totale 30 Chiaramente le frequenze di classi diverse non sono confrontabili. In generale è opportuno scegliere una divisione che porti ad un numero nè troppo grande nè troppo piccolo di classi. Si tende inoltre ad accorpare le classi con conteggi troppo piccoli (ad esempio, le classi estreme) ad una delle classi più prossime. Rappresentazioni grafiche: L Istogramma Dalla tabella di frequenza è possibile costruire una rappresentazione grafica chiamata istogramma. Un istogramma è un grafico in cui si hanno dei rettangoli (o barre) affi-

14 CAPITOLO 1. DESCRIVIAMO I DATI ancate, con base sull asse delle ascisse in corrispondenza di ciascuna classe della variabile quantitativa, e con altezza calcolata in modo che l area sia proporzionale alla frequenza delle unità che appartengono alla classe stessa. Un istogramma per la variabile etatrt, con divisione in classi ( 10-20, 21-30 e 31-40 ) è rappresentato in Figura 1.3. Facciamo un esempio di determinazione dell altezza dell istogramma relativo ad una delle classi. L area di un istogramma è pari al prodotto della lunghezza della base per l altezza. Noi sappiamo che l area del rettangolo con base sull intervallo 10-20 è pari ad 8. L ampiezza della base è 20 10 = 10. L altezza del rettangolo è pertanto proporzionale al rapporto tra l area e l ampiezza della base: 8/10 = 0.8. Allo stesso modo sono calcolate le altezze degli altri due rettangoli. Nell istogramma in Figura 1.3, dato che era possibile, le altezze sono state riscalate in modo da essere numeri interi. In generale, nella costruzione di un istogramma viene utilizzato un numero maggiore di classi, per avere una idea più chiara della forma della distribuzione delle modalità. Un istogramma tipico per la variabile etatrt è quello in Figura 1.4, dove sono state utilizzate classi di ampiezza 5 anni. Si noti che c è una fondamentale differenza tra l istogramma e il grafico a barre descritto nella Sezione 1.2.2: pur essendo vero che in entrambe i casi si utilizzano dei rettangoli di area pari ad una funzione delle frequenze delle unità, nel caso del grafico a barre la distanza tra questi rettangoli, che sono in generale staccati tra loro, non ha alcun significato, dal momento che sull asse delle ascisse sono rappresentate modalità non numeriche. 1.3.2 Frequenze cumulate e Funzione di Ripartizione Empirica Alle frequenze è ora possibile affiancare le frequenze cumulate. Si definisce frequenza cumulata di una classe il numero di unità con modalità inferiore o uguale al limite superiore della classe, ovvero il numero di unità che appartengono alla classe o a una classe con valori più piccoli. Per calcolare le frequenze cumulate a partire da una tabella di frequenza è sufficiente sommare le frequenze delle righe superiori (corrispondenti a modalità inferiori) a ciascuna riga nella tabella di frequenza. Sommando le frequenze assolute si ottengono le frequenze cumulate assolute, mentre sommando le frequenze relative si ottengono le frequenze cumulate relative. Nel nostro esempio:

1.3. VARIABILI QUANTITATIVE 15 Histogram of etatrt Frequency 0 5 10 15 10 15 20 25 30 35 40 etatrt Figura 1.3: Istogramma di etatrt su tre classi Modalità Frequenza Freq. Relativa Freq. Cumulata Freq. Cum. Rel. 10-20 8 0.26 8 0.26 21-30 17 0.57 25 0.83 31-40 5 0.17 30 1 Totale 30 E appunto la frequenza cumulata per la classe 21-30 è stata ottenuta sommando 8 e 17. Le frequenze cumulate sono calcolabili anche per variabili qualitative ordinate.

16 CAPITOLO 1. DESCRIVIAMO I DATI Histogram of etatrt Frequency 0 2 4 6 8 10 15 20 25 30 35 40 etatrt Figura 1.4: Istogramma di etatrt su sei classi La Funzione di Ripartizione Empirica Il concetto di funzione di ripartizione empirica è fortemente legato al concetto di frequenza cumulata. La funzione di ripartizione empirica F (x) associa ad ogni numero reale x la frequenza cumulata relativa alla modalità x della variabile, cioè la proporzione di unità con modalità inferiore o uguale ad x. Ad esempio, per la variabile etatrt si ha che F (12) = 0, F (20) = 2/30 e F (100) = 1. Ovviamente si ha che F (x) = 0 per tutti gli x minori della più piccola modalità osservata, e F (x) = 1 per tutti gli x maggiori della più grande modalità osservata. La funzione di ripartizione empirica ha anche altre proprietà: È sempre compresa tra zero e uno

1.3. VARIABILI QUANTITATIVE 17 È una funzione costante a tratti, cioè fatta a scalini La funzione di ripartizione empirica per la variabile etatrt è rappresentata in Figura 1.5. Si noti che qui non interviene il concetto di divisione in classi, ma che la funzione è definita per ogni numero reale. F(x) di etatrt F(x) 0.0 0.2 0.4 0.6 0.8 1.0 10 15 20 25 30 35 40 x Figura 1.5: Funzione di ripartizione empirica di etatrt In pratica il calcolo avviene a partire dalla tabella di frequenza per la variabile non divisa in classi, come quella riportata alla pagina 1.3.1. Si ha un salto di ampiezza pari alla frequenza relativa di ciascuna modalità in corrispondenza delle modalità osservate, e una linea costante tra modalità osservate.

18 CAPITOLO 1. DESCRIVIAMO I DATI La Funzione di Sopravvivenza La funzione di sopravvivenza viene utilizzata quando si hanno variabili che descrivono durate di vita. Questa funzione associa ad ogni numero reale (tempo) x la proporzione di unità la cui modalità è superiore ad x. Se non ci fossero osservazioni censurate, la funzione di sopravvivenza S(x) sarebbe semplicemente calcolabile come S(x) = 1 F (x), cioè come complemento ad 1 della funzione di ripartizione empirica. In realtà è necessario tenere conto del fatto che il collettivo si riduce nel tempo. In questo ambito, appunto, la variabile in esame indica un tempo di fallimento (ad esempio, tempo in settimane dopo il quale un paziente è deceduto). Le modalità registrate sono i tempi a cui si ha un fallimento, pertanto a ciascuna modalità corrisponde anche una diminuzione di (almeno) un individuo rispetto al totale iniziale. Supponiamo ad esempio di avere un totale di 18 pazienti, e di osservare i seguenti 4 tempi di fallimento, in giorni, dopo un mese: 13, 20, 22, 28. Dopo 30 giorni, quindi, rimangono un totale di 14 pazienti. Questi quattordici pazienti rappresentano un dato censurato, ovvero, per il quale non è noto il tempo di fallimento (che è necessariamente successivo al trentesimo giorno). Per calcolare la funzione di sopravvivenza al tempo x è necessario contare tutti gli eventi precedenti il tempo x. Per ciascuno di questi eventi si calcola il valore (1 1 ), dove np è il numero di pazienti rimasti prima dell ultimo np evento. S(x) sarà pari al prodotto di tutti i valori calcolati. Se si ha più di un evento in contemporanea, ad esempio d eventi, il valore da calcolare è (1 d. Nel nostro esempio il calcolo di S(x) passa attraverso il calcolo della np seguente tabella: Tempi np (1 1/np) S(x) 13 18 0.944 0.944 20 17 0.941 0.889 22 16 0.937 0.833 28 15 0.933 0.778 Il valore 0.833 per S(22) è appunto calcolato come S(22) = 0.944 0.941 0.937. Come la funzione di ripartizione empirica, la funzione di sopravvivenza è costante negli intervalli in cui non si hanno eventi osservati. La funzione di sopravvivenza relativa al nostro esempio è rappresentata in Figura 1.6.

1.3. VARIABILI QUANTITATIVE 19 S(x) 0.0 0.2 0.4 0.6 0.8 1.0 0 5 10 15 20 25 30 tempo in giorni Figura 1.6: Funzione di sopravvivenza 1.3.3 Sintesi dei Dati Indici di Posizione Tra gli indici di posizione più utilizzati per le variabili quantitative figurano la media e la mediana. La moda, introdotta per variabili qualitative, non è molto informativa in questo caso per lo stesso motivo per cui non è molto informativa la tabella di frequenza. Ovviamente, si può utilizzare la moda su variabili quantitative divise in classi. La media (o media aritmetica ) è la somma delle modalità osservate

20 CAPITOLO 1. DESCRIVIAMO I DATI divisa per il totale. La media della variabile etatrt è 24.93, ottenuta come somma dei valori osservati divisa per 30: (18 + 20 + 16 +... + 29 + 23)/30 = 748/30 = 24.93. La media aritmetica possiede molte proprietà: È sempre compresa tra il minimo e massimo valore osservato Se si aggiunge una costante a tutte le osservazioni, la media risulta modificata della stessa costante. Ad esempio, se aggiungiamo 5 anni a ciascun valore di etatrt, la media diventa 29.93. Se si moltiplica ciascuna osservazione per una costante, la media risulta moltiplicata per la stessa costante. Ad esempio, se moltiplichiamo ciascun valore di etatrt per 5, la media diventa 124.66. La somma degli scarti dalla media è sempre nulla. Ovvero, se si calcolano le differenza tra ciascuna modalità osservata e la media, la loro somma è sempre pari a zero. È associativa: la media di una variabile su più collettivi è la media delle medie in ciascun collettivo, tenendo conto eventualmente della diversa numerosità. Equidistribuisce il totale: il totale di un collettivo di unità con modalità pari alla media è lo stesso del collettivo originale. Se avessimo osservato un valore pari a 24.93 per ciascuna delle 30 unità, il totale sarebbe ancora 748. L ultima proprietà della media è anche una limitazione comune a tutti gli indici di posizione: non riassumono in nessun modo la variabilità insita al collettivo. Per questo è importante affiancare sempre indici di variabilità agli indici di posizione. Su questo torneremo nella prossima sezione. Una limitazione invece specifica della media artimetica è la sua sensibilità ai valori estremi, o mancanza di robustezza. Se nel collettivo si hanno pochi valori molto differenti dalla maggioranza delle modalità, questi risultano molto influenti sul valore della media. Se ad esempio moltiplichiamo per 10 l unità con valore più elevato, la media risulta molto differente, e in sintesi meno rappresentativa della posizione del collettivo. Nel nostro caso, la media diventa 36.03. La mediana è un indice più robusto: nell esempio portato, risulta invariata e rimane pari a 24.

1.3. VARIABILI QUANTITATIVE 21 Si noti che per definizione la mediana è la modalità al di sotto della quale cade il 50% delle unità. In termini di funzione di ripartizione empirica, quindi, si ha che F (Mediana) = 0.5, ovvero: Mediana = F 1 (0.5). Da un punto di vista pratico, dal momento che le variabili quantitative (continue) possono assumere qualunque valore reale, si ha sempre una sola mediana (contrariamente al caso di variabili qualitative o quantitative con modalità discrete). Se il numero di unità è dispari, la mediana è il valore centrale tra i valori ordinati. Se il numero di unità è pari, la mediana è la media aritmetica del valore alla posizione totale diviso 2 e totale diviso 2 più uno. Nel nostro caso si ha un collettivo di 30 unità. La mediana è pertanto la somma delle modalità alla posizione 15 e 16, divisa per due. La variabile etatrt, se ordinata, ha valori: 16 17 18 18 19 20 20 20 21 21 21 23 23 24 24 24 25 25 26 27 29 29 30 30 30 31 31 34 35 37 e pertanto le posizioni 15 e 16 sono occupate dai valori 24 e 24. La mediana è pertanto 24+24/2 = 48/2 = 24, come già detto. La mediana viene utilizzata spesso in sostituzione della media quando si ha un collettivo con unità valori anomali, e pertanto si ritiene necessario l utilizzo di un indice robusto. Misure di Variabilità Gli indici di posizione non sintetizzano informazioni legate alla variabilità delle modalità osservate. Si considerino ad esempio i seguenti gruppi di individui A, B e C, su cui sono rilevate le età: A: (22, 22, 23, 23, 24, 25, 26, 27, 27, 28, 28) B: (22, 22, 22, 22, 22, 25, 28, 28, 28, 28, 28) C: (25, 25, 25, 25, 25, 25, 25, 25, 25, 25, 25) Si ha che la media e la mediana di tutti e tre i gruppi è pari a 25, ma i gruppi sono molto diversi tra loro, dal momento che le età in C sono costanti (variabilità nulla) e gli altri due gruppi sono differenti tra loro. Infatti le unità in B sono quasi tutte lontane dall indice di posizione 25, rispetto ad A, dove alcune unità sono vicine al valore 25. Per questo ci si aspetta che un buon indice di posizione dia un valore più grande in B che in A, o almeno pari. Introduciamo due indici di variabilità: l intervallo di variazione, o range, e la varianza. La varianza è la media aritmetica degli scarti al quadrato dalla

22 CAPITOLO 1. DESCRIVIAMO I DATI media. Per il calcolo della varianza si calcola la media della variabile, poi le differenze (o scarti) dalla media per ciascuna osservazione. Gli scarti vengono poi elevati al quadrato, sommati e divisi per il totale, secondo l esempio per il collettivo A nella seguente tabella: Valore x x media (x media) 2 22-3 9 22-3 9 23-2 4 23-2 4 24-1 1 25 0 0 26 1 1 27 2 4 27 2 4 28 3 9 28 3 9 Totale 0 54. La prima colonna rappresenta i valori osservati. Nella seconda sono stati calcolati gli scarti dalla media. Ad esempio, alla terza riga, il valore 2 è ottenuto come 23 25 = 2. Nella terza colonna sono stati calcolati i quadrati degli scarti. Ad esempio, alla terza riga, il valore 4 è ottenuto come 2 2 = 4. Si noti che la somma degli scarti (il loro totale) è pari a zero, come noto dalle proprietà della media. La varianza per il collettivo A è pari al totale degli scarti al quadrato, 54, diviso per il numero delle unità 11, ovvero 54/11 = 4.91. La varianza viene spesso indicata con il simbolo σ 2, che si legge sigma quadro. Si noti che la varianza del collettivo B è pari a 8.18 e quella del collettivo C è pari a 0; e questo rispetta le nostre aspettative. Naturalmente, maggiore è la varianza maggiore è la variabilità del collettivo. L unità di misura della varianza è pari alla stessa unità di misura della variabile elevata al quadrato. Ad esempio, la varianza di etatrt è pari a 30.73 anni al quadrato. Per facilitare l interpretazione dell indice, e per esprimerlo in una unità di misura più sensata, si ricorre spesso alla radice quadrata della varianza, indicata con il simbolo σ e chiamata deviazione standard. La deviazione standard per la variabili etatrt è pari a 5.54. La varianza possiede le seguenti proprietà:

1.3. VARIABILI QUANTITATIVE 23 È sempre positiva o nulla. Mai negativa. Può essere interpretata come misura della accuratezza della media aritmetica. Maggiore la varianza, meno rappresentativa la media. Il range è invece calcolato come la differenza tra il minimo e il massimo valore osservato, e rappresenta l ampiezza dell intervallo di valori osservati. Ad esempio, il range del gruppo A è 6, il range del gruppo B è ancora pari a 6 e il range del gruppo C è pari a 0. Il range è molto meno robusto della varianza, essendo molto sensibile ai dati estremi. La Tabella 1.3 riassume gli strumenti che è abbiamo introdotto, in funzione del tipo di variabile. Tipo di variabile Qualitativa Nominale Qualitativa Ordinale Quantitativa Indici di posizione Moda Moda Mediana Media Mediana Indici di variabilità Varianza Range Grafici Torta Grafico a barre Torta Grafico a barre Istogramma Funzione di ripartizione Funzione di sopravvivenza Altri sommari Frequenze assolute Frequenze relative Frequenze assolute Frequenze relative Frequenze assolute cumulate Frequenze relative cumulate Per classi: Frequenze assolute Frequenze relative Frequenze assolute cumulate Frequenze relative cumulate Tabella 1.3: Scelta degli strumenti descrittivi

24 CAPITOLO 1. DESCRIVIAMO I DATI Domande di Auto Verifica 1. Vero o falso: Una modalità di una variabile è il suo valore per un particolare individuo Se le unità sono in numero pari si hanno sempre due mediane. Se le unità sono in numero dispari si ha sempre una sola mediana. Si possono avere tre mediane La mediana è sempre una delle modalità Non si può calcolare la mediana di una variabile qualitativa nominale Non si può calcolare la mediana di una variabile qualitativa ordinale Non si può calcolare la moda di una variabile quantitativa Non si può calcolare la media di una variabile qualitativa Il totale delle frequenze è sempre 1. Il totale delle frequenze relative è sempre 1. 2. Costruire una tabella di frequenza, con frequenze relative, per la seguente variabile Regione di appartenenza rilevata su dieci individui: (Lazio, Lazio, Calabria, U mbria, Lazio, M arche, Lazio, P uglia, Lazio, U mbria). Qual è la moda? 3. Quale è un grafico appropriato per descrivere la variabile alla precedente domanda? 4. Costruire una opportuna tabella di frequenza, con frequenze relative, per la seguente variabile Peso in Kg rilevata su dieci individui: (80, 58, 62, 49, 76, 72, 70, 82, 67, 72). Fornire un indice di posizione. 5. Quale è un grafico appropriato per descrivere la variabile alla precedente domanda? 6. Calcolare la varianza e il campo di variazione per la seguente variabile Reddito Mensile in Euro, rilevata su dieci individui: (800, 2300, 1950, 930, 880, 950, 2400, 2000, 810). Che conclusioni si traggono dagli indici di variabilità calcolati su questi dati?

1.3. VARIABILI QUANTITATIVE 25 7. Quando è preferibile utilizzare la mediana rispetto alla media? Perchè? 8. Elencare le proprietà della media aritmetica. 9. Cosa è la funzione di ripartizione empirica? 10. Cosa è e a che serve la funzione di sopravvivenza? Perchè non è esattamente uguale al complemento a 1 della funzione di ripartizione empirica?

26 CAPITOLO 1. DESCRIVIAMO I DATI