Misure della dispersione o della variabilità



Documenti analoghi
Elementi di Psicometria con Laboratorio di SPSS 1

I punteggi zeta e la distribuzione normale

Psicometria (8 CFU) Corso di Laurea triennale STANDARDIZZAZIONE

Un po di statistica. Christian Ferrari. Laboratorio di Matematica

Indici di dispersione

Indici (Statistiche) che esprimono le caratteristiche di simmetria e

Statistica descrittiva

La distribuzione Normale. La distribuzione Normale

Prova di autovalutazione Prof. Roberta Siciliano

Probabilità condizionata: p(a/b) che avvenga A, una volta accaduto B. Evento prodotto: Evento in cui si verifica sia A che B ; p(a&b) = p(a) x p(b/a)

Il concetto di valore medio in generale

Valori medi e misure della tendenza centrale

Lezione 6: Forma di distribuzione Corso di Statistica Facoltà di Economia Università della Basilicata. Prof. Massimo Aria

LA CORRELAZIONE LINEARE

Statistica descrittiva: prime informazioni dai dati sperimentali

LEZIONE 3. Ing. Andrea Ghedi AA 2009/2010. Ing. Andrea Ghedi AA 2009/2010

Elementi di Psicometria con Laboratorio di SPSS 1

Siamo così arrivati all aritmetica modulare, ma anche a individuare alcuni aspetti di come funziona l aritmetica del calcolatore come vedremo.

SPC e distribuzione normale con Access

Slide Cerbara parte1 5. Le distribuzioni teoriche

Inferenza statistica. Statistica medica 1

Statistica. Alfonso Iodice D Enza iodicede@unina.it


Relazioni statistiche: regressione e correlazione

Metodi statistici per le ricerche di mercato

CAPITOLO 8 LA VERIFICA D IPOTESI. I FONDAMENTI

Grafici delle distribuzioni di frequenza

Statistica inferenziale

ESEMPIO 1: eseguire il complemento a 10 di 765

Corso di. Dott.ssa Donatella Cocca

Elementi di Psicometria con Laboratorio di SPSS 1

Matematica generale CTF

1. Limite finito di una funzione in un punto

STATISTICA DESCRITTIVA. Le misure di tendenza centrale

Statistica. Lezione 6

( x) ( x) 0. Equazioni irrazionali

4. Operazioni aritmetiche con i numeri binari

Basi di matematica per il corso di micro

INTEGRALI DEFINITI. Tale superficie viene detta trapezoide e la misura della sua area si ottiene utilizzando il calcolo di un integrale definito.

Analisi Statistica per le Imprese (6 CFU) - a.a Prof. L. Neri RICHIAMI DI STATISTICA DESCRITTIVA UNIVARIATA

4 3 4 = 4 x x x 10 0 aaa

LABORATORIO-EXCEL N. 2-3 XLSTAT- Pro Versione 7 VARIABILI QUANTITATIVE

Alessandro Pellegrini

OSSERVAZIONI TEORICHE Lezione n. 4

Il simbolo. è è = = = In simboli: Sia un numero naturale diverso da zero, il radicale. Il radicale. esiste. esiste 0 Il radicale

ESERCIZI DI STATISTICA DESCRITTIVA

Rapporto dal Questionari Insegnanti

Analisi e diagramma di Pareto

2. Un carattere misurato in un campione: elementi di statistica descrittiva e inferenziale

E naturale chiedersi alcune cose sulla media campionaria x n

Analisi della performance temporale della rete

Facciamo qualche precisazione

Capitolo 2 - Teoria della manutenzione: classificazione ABC e analisi di Pareto

Capitolo 12 La regressione lineare semplice

Capitolo 13: L offerta dell impresa e il surplus del produttore

Metodi Matematici e Informatici per la Biologia Maggio 2010

Abbiamo costruito il grafico delle sst in funzione del tempo (dal 1880 al 1995).

Le funzioni continue. A. Pisani Liceo Classico Dante Alighieri A.S A. Pisani, appunti di Matematica 1

Il significato della MEDIA e della MEDIANA in una raccolta di dati numerici

~ Copyright Ripetizionando - All rights reserved ~ STUDIO DI FUNZIONE

STATISTICA IX lezione

Statistica e biometria. D. Bertacchi. Variabili aleatorie. V.a. discrete e continue. La densità di una v.a. discreta. Esempi.

Dimensione di uno Spazio vettoriale

Come descrivere un fenomeno in ambito sanitario fondamenti di statistica descrittiva. Brugnaro Luca

Metodi statistici per l economia (Prof. Capitanio) Slide n. 9. Materiale di supporto per le lezioni. Non sostituisce il libro di testo

La dissomiglianza tra due distribuzioni normali

SISTEMI DI NUMERAZIONE E CODICI

Capitolo 2 Distribuzioni di frequenza

ALLEGATO 1 Analisi delle serie storiche pluviometriche delle stazioni di Torre del Lago e di Viareggio.

Politecnico di Milano. Facoltà di Ingegneria Industriale. Corso di Analisi e Geometria 2. Sezione D-G. (Docente: Federico Lastaria).

CURRICULUM SCUOLA PRIMARIA MATEMATICA

DATI NORMATIVI PER LA SOMMINISTRAZIONE DELLE PROVE PAC-SI A BAMBINI DI INIZIO SCUOLA PRIMARIA 1

3. Confronto tra medie di due campioni indipendenti o appaiati

2. Leggi finanziarie di capitalizzazione

La distribuzione Gaussiana

Corso integrato di informatica, statistica e analisi dei dati sperimentali Altri esercizi_esercitazione V

VALORE DELLE MERCI SEQUESTRATE

Come visto precedentemente l equazione integro differenziale rappresentativa dell equilibrio elettrico di un circuito RLC è la seguente: 1 = (1)

1) Si consideri un esperimento che consiste nel lancio di 5 dadi. Lo spazio campionario:

Uso di base delle funzioni in Microsoft Excel

risulta (x) = 1 se x < 0.

Laboratorio di Pedagogia Sperimentale. Indice

PROGRAMMA SVOLTO NELLA SESSIONE N.

ANALISI DELLE FREQUENZE: IL TEST CHI 2

8 Elementi di Statistica

Raccomandazione del Parlamento europeo 18/12/2006 CLASSE PRIMA COMPETENZE ABILITÀ CONOSCENZE. Operare con i numeri

Capitolo Terzo Valore attuale e costo opportunità del capitale

UNIVERSITÀ DEGLI STUDI DI TERAMO

RELAZIONE TRA VARIABILI QUANTITATIVE. Lezione 7 a. Accade spesso nella ricerca in campo biomedico, così come in altri campi della

Un gioco con tre dadi

Formule trigonometriche

G3. Asintoti e continuità

1. Distribuzioni campionarie

Corso di Fisica generale

I ESERCITAZIONE. Gruppo I 100 individui. Trattamento I Nuovo Farmaco. Osservazione degli effetti sul raffreddore. Assegnazione casuale

LA STATISTICA NEI TEST INVALSI

LE FUNZIONI A DUE VARIABILI

ANALISI DELLA STRUTTURA FINANZIARIA a cura Giuseppe Polli SECONDA PARTE clicca QUI per accedere direttamente alla prima parte dell'intervento...

Calcolo del Valore Attuale Netto (VAN)

I sistemi di numerazione

Transcript:

QUARTA UNITA Misure della dispersione o della variabilità Abbiamo visto che un punteggio di per sé non ha alcun significato e lo acquista solo quando è posto a confronto con altri punteggi o con una statistica. Così se conosciamo la media della distribuzione di una data variabile, possiamo determinare se un dato punteggio è inferiore o superiore alla media stessa. Ma quanto superiore o quanto inferiore? E chiaro a questo punto che una misura della tendenza centrale, quale può essere la media, fornisce informazioni che acquistano maggior peso se completate da un quadro più complessivo. Per descrivere più completamente una data distribuzione, o per interpretare più compiutamente un dato punteggio, è necessario disporre di informazioni ulteriori riguardanti la dispersione dei punteggi intorno alla media. La dispersione o variabilità di una distribuzione di dati o punteggi è la sua seconda caratteristica fondamentale, dopo la media. a) b) Fig 4.1 - Due distribuzioni di frequenza con uguale media ma diversa dispersione o variabilità. Considerando la parte (a) e la parte (b) della figura, osserviamo che in ambedue i casi la media delle distribuzioni è la stessa. Tuttavia, possiamo dare al punteggio 128 due diverse interpretazioni. Nella curva (a) il punteggio 128 può essere considerato moderatamente elevato, proprio e causa dell alta dispersione dei punteggi intorno alla media. Sono pochi infatti gli individui al di sopra di 128 nella distribuzione di frequenza, come è possibile osservare mediante il confronto dell area a destra di 128 con l area totale. Nel caso (b), d altra parte i punteggi sono piuttosto ravvicinati allo stesso punteggio medio. e ci troviamo di fronte ad una distribuzione più omogenea. Di conseguenza il punteggio 128 si trova praticamente al limite superiore della distribuzione e può essere considerato pertanto come un punteggio assai elevato. Si può vedere dunque che per interpretare un dato punteggio è necessario trovare un informazione complementare alla media o alla mediana. Questa informazione complementare in certo qual modo esprime il grado di dispersione dei punteggi intorno alla misura della tendenza centrale. Verranno qui presentate cinque misure di dispersione o di variabilità: il campo di variazione, la differenza interquartile, la deviazione media, la varianza e lo scarto quadratico medio (detto più comunemente deviazione standard). 40

Tra le cinque misure elencate troveremo che lo scarto quadratico medio costituisce il migliore indice della dispersione sia nella statistica descrittiva, sia nella statistica induttiva o inferenziale. Tuttavia, nella statistica più avanzata, come nell analisi della varianza, la varianza si mostrerà l indice di dispersione o di variabilità più utile. Il campo di variazione o gamma (range) Nel calcolare i diversi tipi di misure della tendenza centrale abbiamo individuato un certo punto della scala dei punteggi e lo abbiamo identificato come media aritmetica, mediana oppure moda. Passando a considerare gli indici di dispersione tuttavia siamo interessati e costruire un indice di variabilità che indichi la distanza nella scala del punteggi. Una delle prime misure di distanza che ci possono venire in mente è il cosiddetto campo di variazione o gamma della variabile. Esso è in ogni caso il più semplice e il più immediato indice di variabilità e si calcola sottraendo dal punteggio più alto il punteggio più piccolo. Sebbene il campo di variazione sia significativo per scopi descrittivi, esso si presenta di poca utilità a causa della sua alta instabilità. Infatti, se si ha un punteggio molto elevato in una distribuzione, la dispersione dei punteggi apparirà maggiore di quella che si otterrebbe se si eliminasse questo ultimo punteggio, in quanto la sua eliminazione rende la distribuzione più compatta. In altri termini il campo di variazione dipende solamente dai due punteggi estremi di una distribuzione. Per questo in alcuni metodi di calcolo si tende a eliminare i punteggi estremi. La differenza interquartile (interquartile range) Al fine di superare il problema della poca utilità del campo di variazione come misura di variabilità in una distribuzione è stata introdotta la differenza interquartile o scarto interquartile. A essa abbiamo già accennato parlando di posizione percentile. La differenza interquartile viene calcolata semplicemente sottraendo il punteggio corrispondente alla posizione del venticinquesimo percentile (denominato primo quartile o Q 1 ) dal punteggio corrispondente alla posizione del settantacinquesimo percentile (il terzo quartile o Q 3 ). Fig 4.2 - Differenza interquartile = 3 interquartile 1 interquartile = Q 3 - Q 1. Sebbene questa misura di variabilità sia molto più significativa del campo di variazione, presenta tuttavia due difetti sostanziali: 1) alla stessa maniera del campo di variazione, non consente di per sé una precisa interpretazione di un punteggio in una data distribuzione, 2) come la mediana, non gioca alcun ruolo nella metodologia statistica avanzata, così come nella statistica inferenziale. Abbiamo anche accennato a quali siano i contesti nei quali essa acquista significato. 41

Gli scarti medi (o dalla media) Abbiamo sottolineato precedentemente che quando si ha e che fare con dati provenienti da popolazioni approssimativamente distribuite normalmente (quindi distribuite approssimativamente in modo simmetrico), la media aritmetica si presenta come l indice descrittivo della tendenza centrale più utile. Si ottiene la media aritmetica semplicemente sommando tutti i punteggi e quindi dividendoli per N. Se si porta avanti questa procedura, possiamo sottrarre la media così ottenuta da ogni punteggio, sommare gli scarti, che così si ottengono, per ottenere infine una stima dell ammontare della variabilità dalla media nella distribuzione. Dividendo per N il risultato del precedente calcolo, otteniamo una misura che ha le stesse caratteristiche della media aritmetica ad eccezione del fatto che essa rappresenta la dispersione dei punteggi dalla media aritmetica stessa. E quello che si definisce scarto medio 1, la somma degli scarti (o scostamenti) dalla media divisa per N. Tuttavia, si va incontro a una difficoltà precisa: la somma degli scarti di tutti i punteggi dalla media è sempre uguale a zero. Proprio per come è stata definita la media aritmetica. Quindi anche lo scarto medio è sempre uguale a zero. Per superare questa difficoltà si potrebbero considerare tutti gli scarti nel loro valore assoluto, cioè senza tener conto del loro segno, e dividere la somma che si ottiene per N. Otteniamo una misura descrittiva dello scarto medio dalla media aritmetica. La statistica che si ottiene è in questo caso basata sui valori assoluti degli scarti stessi. Tuttavia questo elemento di confronto della dispersione di una distribuzione si presenta poco utilizzato nella pratica statistica. Più significativo e largamente valorizzati sono invece due misure dalla variabilità che prendono il nome di varianza e di scarto quadratico medio. La prima si ottiene elevando al quadrato i singoli scarti (o scostamenti) dalla media, sommandoli tra di loro e dividendo il risultato per il numero totale dei punteggi N. La seconda, estraendo la radice quadrata del precedente risultato. La varianza (variance) e lo scarto quadratico medio (standard deviation) La varianza 2 viene definita, informalmente, come la somma degli scarti, al quadrato, dalla media aritmetica divisa per N. Simbolicamente si scrive: Lo scarto quadratico medio, detto anche deviazione standard, è dato dalla radice quadrata della varianza. 1 Lo scarto medio è anche definito come primo momento rispetto alla media, in quanto la parola momento in fisica indica il punto di equilibrio tra le diverse forze in gioco. La media è sempre il punto di equilibrio tra i punteggi più alti e più bassi. 2 La varianza viene anche definita come secondo momento rispetto alla media, in quanto anch essa esprime il punto di equilibrio tra le variazioni dalla media. 42

Lo scarto quadratico medio, basato sui quadrati degli scarti, dimostra di possedere un enorme utilità nella statistica, per tre motivi fondamentali. 1) Lo scarto quadratico medio riflette la dispersione dei punteggi così che la variabilità di diverse distribuzioni può essere messa a confronto in termini di scarto quadratico medio. 2) Lo scarto quadratico medio consente un interpretazione precisa dei punteggi entro la distribuzione. 3) Lo scarto quadratico medio, come la media aritmetica, fa parte di un insieme di teorie matematiche che ci consentono di usarlo in metodologie statistiche più complesse. Così, a esempio, useremo misure o indici complessi basati su di esso allorché ci addentreremo nella statistica inferenziale. La considerazione dello scarto medio è stata fatta sostanzialmente per facilitare il calcolo dello scarto quadratico medio, come si può vedere nella tabella 4.1. Tab. 4.1 - Procedure per il calcolo dello scarto quadratico medio basata sulla considerazione dello scarto medio. Data l importanza dello scarto quadratico medio nell analisi statistica dei dati, sono state elaborate formule equivalenti rispetto a quella precedente e procedure appropriate per i vari casi: dati raggruppati e dati non raggruppati in classi, ecc. Intanto è possibile dimostrare matematicamente l equivalenza tra la formula precedente e la seguente. La procedura per calcolare lo scarto quadratico medio seguendo quest ultima formula è quella della tabella 4.2. Nel calcolo dello scarto quadratico medio, basato sui dati iniziali x, è corrente per lo studente la confusione tra Σ X 2 e (Σ X) 2. È importante ricordare che la prima rappresenta la somma dei quadrati di ciascun punteggio, mentre la seconda rappresenta il quadrato della somma dei punteggi. Per definizione, è impossibile ottenere una somma di quadrati o uno scarto 43

quadratico medio negativo. Nel caso si ottenga un valore negativo sotto il segno di radice, probabilmente è stato commesso un errore, confondendo le due espressioni. A occhio e croce, lo scarto quadratico medio oscilla tra un mezzo ed un sesto del campo di variazione. Nell esempio precedente, il rapporto tra campo di variazione e scarto quadratico medio è 9/2,19 = 4,11. Se si ottiene un rapporto al di fuori dei limiti già accennati, si è probabilmente commesso un errore. Tab. 4.2 - Procedura per il calcolo di s per punteggi non raggruppati. Se consideriamo le frequenze f di ciascun dato, occorre utilizzare le formule seguenti. La prima deriva direttamente dalla definizione di scarto quadratico medio; la seconda adatta la formula equivalente a questo caso, moltiplica per f ciascun valore della variabile al quadrato. Il procedimento da usare è quello della tabella 4.3. Tab. 4.3 - Procedura per il calcolo di s su dati di cui si considera la frequenza f. Se ora consideriamo una distribuzione di dati raggruppata in classi o intervalli, occorre procedere nel modo illustrato dalla tabella 4.4. 44

Tab.4.4 - Procedura per il calcolo della varianza e dello scarto quadratico medio per una distribuzione di punteggi raggruppati in classi o intervalli. L uso dello scarto quadratico medio o deviazione standard acquista un significato più interessante e pieno quando si consideri il rapporto tra scarto quadratico medio e distribuzione normale: per questo nell unità seguente indagheremo sulla relazione intercorrente tra punteggi originali, scarti quadratici medi e curva normale. Interpretazione della deviazione standard o scarto quadratico medio Fig. 4.3 - Distribuzione dei punteggi ottenuti da tre gruppi o sezioni di studenti in un corso introduttivo di psicologia. 45

Osservando la Fig. 4.3 è facile constatare il significato congiunto della media e della deviazione standard come misure che descrivo bene la distribuzione dei punteggi. Nella distribuzione rappresentata dalla figura (a) si nota facilmente come i punteggi siano raccolti vicino alla media. La deviazione standard in questo caso è abbastanza piccola.. Nella distribuzione rappresentata dalla figura (b) si nota facilmente come i punteggi siano meno raccolti vicino alla media. La deviazione standard in questo caso è maggiore della precedente. Nella distribuzione rappresentata dalla figura (c) si nota facilmente come i punteggi siano assai distanziati rispetto alla media. La deviazione standard in questo caso è elevata. Maggiore è la deviazione standard e più grande è la dispersione dei dati. Inoltre si può subito segnalare, ma la cos verrà chiarita nella prossima unità, che l insieme dei punteggi compresi tra il valore che ottiene sottraendo alla media il valore della deviazione standard e aggiungendo a essa lo stesso valore comprende sempre circa il 68% dei punteggi. In statistica si distingue con cura la descrizione della distribuzione di una popolazione dalla descrizione di un suo campione. L uso dei simboli facilita la comprensione di quale dei due casi è preso in considerazione. Nel primo caso si usano le lettere greche per indicare ma media, µ, e per indicare lo scarto quadratico medio, σ. Nel secondo caso si usano le lettere latine. In questa unità abbiamo usato le lettere latine per segnalare un uso generico delle formule. La forma di una distribuzione: asimmetria (skew) e curtosi (kurtosis). Abbiamo già introdotto il concetto di asimmetria e di asimmetria positiva e negativa. Quando la media è maggiore della mediana (la differenza tra le media e la mediana è positiva) la distribuzione è asimmetrica positivamente. Quando la mediana è maggiore della media ( le differenza tra la media e la mediana è negativa) la distribuzione è asimmetrica negativamente. Esiste una formula (un po complessa) per valutare l intensità di tali asimmetria. Essa è data dal valore si s 3. E facile tuttavia ottenere il valore dell asimmetria (skew) mediante un programma di calcolo statistico per computer (es. Excel). Esiste una formula che approssima il suo valore proposta da E.S.Pearson. Essa è cioè una stima del valore dell asimmetria. 3 (media mediana) s 3 ------------------------- deviazione standard La curtosi è invece un indicatore di quanti i punteggi si addensano verso la media, oppure si addensano verso gli estremi della distribuzione. Essa è data dal valore si s 4. E facile tuttavia ottenere il valore della curtosi (kurtosis) 3 mediante un programma di calcolo statistico per computer (es. Excel). Esiste anche in questo caso una formula che approssima il suo valore. Essa è cioè una stima del valore della curtosi. Q 3 Q 1 s 4 3 + ---------------------------------------- (90 percentile) (10 percentile) Se ricordiamo che una curva è detta leptocurtica, platicurtica o mesocurtica a seconda che 3 Essa è nota anche come il quarto momento rispetto alla media. 46

essa sia a forma campanulate con addensamento di punteggi al centra, oppure essa si presenti appiattita al centro, ovvero sia distribuita abbastanza normalmente, possiamo concludere che una curva mesocurtica ha una curtosi approssimativamente di valore 3, mentre una leptocurtica ha un valore superiore va 3 e una platicurtica ha un valore inferiore a 3. Tab. 4.5 - Quattro distribuzioni, ciascuna con un differente s 2, s 3, s 4. Sintesi Abbiamo visto che al fine di dare una descrizione di una distribuzione è necessario disporre di qualche cosa in più della semplice misura della tendenza centrale. Dobbiamo cioè essere in grado di dare una misura della dispersione dei punteggi intorno ai valori medi. In questo ambito, abbiamo trattato cinque misure di dispersione, cioè il campo di variazione, le differenze interquartili, lo scarto medio, lo scarto quadratico medio e la varianza. Nel caso di variabili distribuite normalmente le due misure basate sul quadrato degli scarti dalla media (cioè le varianza e lo scarto quadratico medio) si mostrano particolarmente utili nelle statistica. Abbiamo discusso altresì e mostrato concretamente come calcolare lo scarto quadratico medio facendo uso dello scarto medio, nonché direttamente, operando cioè sui dati originali nel caso di distribuzioni di frequenza di punteggi non raggruppati in classi. Abbiamo infine posto in evidenza i tipi più comuni di errore che si possono incontrare nel calcolo dello scarto quadratico medio. 47

Termini da ricordare Valore assoluto di un numero - Il numero senza tener conto del suo segno. Dispersione (dispersion - spread) - La variabilità dei punteggi intorno alla rispettiva misura della tendenza centrale. Scarto medio - Somma degli scarti di ciascun punteggio dalla media, senza tener conto del segno, diviso per il numero di punteggi. Campo dl variazione (gamma range) - Misura della dispersione; la distanza intercorrente tra il punteggio più piccolo ed il punteggio più grande della scala dei punteggi. Scarto quadratico medio (deviazione standard standard deviation) - Misura della dispersione estremamente utile definita come la radice quadrata della somma degli scarti quadratici dalla media aritmetica, divisa per N. Varianza (variance)- Somma degli scarti quadratici medi dalla media divisa per N. Asimmetria (skewness) Forma che assume la distribuzione quanto a simmetria rispetto alla media. Curtosi (kurtosis) Modalità di addensamento dei punteggi vicino alla media o distante da essa. 48

Esercizi 1. Calcola per i seguenti punteggi 3 4 5 5 6 7 a) la media b) la mediana c) la moda d) la varianza s 2 e) la deviazione standard s 2. Aggiungi 2 a ciascun valore e ricalcola a. la media b. la mediana c. la moda d. la varianza s 2 e. la deviazione standard s 3. Ora calcola gli stessi valori del punto 1) togliendo 2 4. Quale differenza noti tra i risultati che ottieni? Che cosa puoi concludere? 49