2. Variabilità mediante il confronto di valori caratteristici della

2. Variabilità mediante il confronto di valori caratteristici della distribuzione Un approccio alternativo, e spesso utile, alla misura della variabilità è quello basato sul confronto di valori caratteristici della distribuzione. La misura più semplice è data dal campo di variazione (o range) che si indica con R. Esso è dato dalla differenza tra la modalità più grande e la modalità più piccola. Siano x,,x K le diverse modalità osservate, e supponiamo che siano ordinate in modo crescente; allora R x K x Quanto più piccolo è R tanto più simili e vicine sono le modalità osservate del carattere. Al limite se fosse R0, la più grande e la più piccola modalità sarebbero uguali il che significa che tutte le unità presenterebbero la stessa modalità. Viceversa a valori elevati di R corrisponde una elevata dispersione. Esempio: intensità dei 5 maggiori terremoti (scala Richter) nel periodo 98-99: 5,5 7,7 7, 7,8 8, 7, 6,5 7, 6,8 6,9 6, 6,5 7,7 7,7 6,8 Il campo di variazione risulta R8.-5.52.6. Esso ci dice che il 00% delle scosse di terremoto è stata di un'intensità compresa fra 5,5 e 8,. Se avessimo avuto: 5,5 6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 7, 8, il campo di variazione sarebbe stato lo stesso, anche se la prima distribuzione fosse molto più variabile della seconda. Infatti mettiamo a confronto i diagrammi ramo-foglia e vediamo che la seconda distribuzione è estremamente concentrata intono a 6, mentre la prima distribuzione è molto più dispersa. Distribuzione A Distribuzione B 5 5 5 5 6 5 5 8 8 9 6 7 7 7 7 8 7 8 8 Osservazioni: L indice R ha il grande pregio di essere facilissimo da calcolare e di consentire una immediata interpretazione. D altro lato ha l enorme difetto di essere estremamente sensibile ai valori estremi della distribuzione (proprio perché è calcolato a partire da essi). Inoltre, come si è visto dall esempio sopra, possiamo avere due distribuzioni con uguale campo di variazione ma variabilità effettiva molto diversa.

Un alternativa al campo di variazione è data dallo scarto interquartile (o differenza interquartile) che si indica con W. Esso è dato dalla differenza tra il terzo quartile e il primo quartile. In formule W Q Q Lo scarto interquartile rappresenta una misura più rappresentativa della variabilità di un carattere rispetto al campo di variazione. W dà l intervallo di valori all interno del quale cade il 50% delle osservazioni. W ha il difetto di potere essere nullo anche in presenza di variabilità Esempio (continuazione dell es. dei terremoti). Consideriamo la prima distribuzione e scriviamola in forma di distribuzione di frequenza Q 6,5 Q 7,7 x i n i f i F i 5,5 0,067 0,067 6, 0,067 0,4 6,5 2 0, 0,267 6,8 2 0, 0,400 6,9 0,067 0,467 7, 0,067 0,54 7, 2 0, 0,667 7,7 0,99 0,866 7,8 0,067 0,9 8, 0,067 Totale 5 Allora lo scarto interquartile risulta W7.7-6.5. Questo vuol dire che il 50% delle scosse di terremoto hanno avuto un'intensità compresa fra 6,5 e 7,7. Consideriamo la seconda distribuzione In questo caso è: x i n i f i F i 5,5 0,067 0,067 6, 2 0,799 0,866 7, 0,067 0,9 8, 0,067 Totale 5 Q 6, Q 6, Lo scarto interquartile risulta W6.-6.0. Questo vuol dire che il 50% delle scosse di terremoto hanno avuto la stessa intensità. 2

Esempio: contenuto effettivo in cc di 00 bottiglie imbottigliate con un procedimento automatico. Contenuto in cc n i f i F i 70 740 2 0,2 0,2 740 748 20 0,20 0,2 748 752 9 0,9 0,7 752 760 2 0,2 0,92 760 770 8 0,08 Totale 00 748 740 Q 740 + 0,20 760 752 Q 752 + 0,75 0,7 75, 0,2 ( 0,25 0,2) 745, 2 ( ) 52 Lo scarto interquartile risulta: W 75,52 745,2 8, 2 evidenziando che il 50% delle bottiglie hanno un contenuto effettivo compreso fra 745,2 cc e 75,52 cc. IL BOX-PLOT Una descrizione sintetica e abbastanza completa di una distribuzione di frequenze secondo un carattere quantitativo è data dal box-plot; questo è un riassunto a cinque numeri. I numeri sono i seguenti: - la mediana (che dà informazioni sulla tendenza centrale) - il primo e terzo quartile (la cui differenza dà informazioni sulla variabilità) - i due estremi (la modalità più grande e la modalità più piccola) Questi numeri forniscono una descrizione sintetica di un insieme di dati anche quando il numero di unità osservate è elevato. Consideriamo nuovamente l esempio dei terremoti e in particolare la distribuzione x i n i f i F i 5,5 0,067 0,067 6, 0,067 0,4 6,5 2 0, 0,267 6,8 2 0, 0,400 6,9 0,067 0,467 7, 0,067 0,54 7, 2 0, 0,667 7,7 0,99 0,866 7,8 0,067 0,9 8, 0,067 Totale 5

Il box-plot è dato da: 25% 25% 25% 25% 5,5 6,5 7, 7,7 8, Min Q M e Q Max Il box-plot è utile perché riassume mediante pochi numeri molte informazioni su una distribuzione di frequenze. La mediana riassume la tendenza centrale della distribuzione. I quartili danno un indicazione sulla variabilità, perché con essi si calcola lo scarto interquantile (misura più robusta del campo di variazione). La posizione della mediana rispetto ai quartili fornisce altre utili informazioni (in particolare sulla asimmetria della distribuzione, che si vedrà nelle prossime lezioni). Gli estremi forniscono indicazioni non solo sul valore massimo e valore minimo ma soprattutto sull eventuale presenza di dati con caratteristiche anomale (al limite impossibili) dovute ad errori di misura, di trascrizione, Descriviamo più in dettaglio il disegno del box-plot. Esso è la rappresentazione grafica che si associa al riassunto a cinque numeri. Si costruisce nel modo seguente: - Si traccia un asse orizzontale (scala del carattere) al di sopra del quale viene disegnato il diagramma - Si disegna un rettangolo (la scatola) che ha il primo e il terzo quartile come estremi della base (cioè la base del rettangolo è uguale allo scarto interquartile). L altezza del rettangolo è arbitraria. - Si traccia, all interno del rettangolo, una linea verticale in corrispondenza della mediana. - si tracciano due linee verticali (di altezza uguale o minore all altezza del rettangolo) in corrispondenza del valore massimo e del valore minimo. Questi due segmentini vengono detto baffi del box-plot. - Infine si tracciano due linee orizzontali che collegano i baffi al rettangolo. Il box-plot è un ottima sintesi ma comunque non ci dice come si distribuiscono esattamente le osservazioni tra un quartile e un altro. Il box-plot ci dà un'idea generale della dispersione e della asimmetria della distribuzione. D'altro lato, il box-plot è una rappresentazione grafica molto utile quando si vogliono mettere a confronto due o più distribuzioni. 4

Esempio: riprendiamo l esempio dei redditi negli USA delle famiglie bianche e delle famiglie di colore. Di seguito riportiamo la tabella con i dati Reddito (in migliaia di $) Famiglie Bianche Famiglie di Colore f i F i f i F i 0 5 0.07 0.07 0.6 0.6 5 0 0.2 0.9 0.9 0.5 0 5 0. 0.2 0.5 0.50 5 25 0.24 0.56 0.2 0.7 25 5 0.2 0.77 0.4 0.87 5 50 0.2 0. Totale Per effettuare meglio il confronto, si rappresentano i box-plot nello stesso grafico e generalmente vengono disposti in modo verticale. I cinque numeri sono: Famiglie Bianche Famiglie di Colore Min 0 0 Q 2. 7.7 M e 22.5 5 Q 4.05 26.4 Max 50 50 0 R E D 25 D I T O 50 Famiglie Bianche Famiglie di Colore 5

Come individuare valori anomali nella distribuzione. I valori anomali di una distribuzione si possono individuare in modo semplice come segue. Un dato è anomalo se: - è più alto del valore Q +.5 W - è più basso del valore Q.5 W Un dato è estremo (estremamente anomalo) se - è più alto del valore Q + W - è più basso del valore Q W Questi valori una volta individuati possono poi essere indicati sul box-plot. Sono osservazioni che NON vanno cancellate in quanto molto lontane e molto differenti dalle altre. Occorre innanzitutto capirne la ragione e quindi studiarle. Esse, infatti, potrebbero essere dovute i) o ad errori nella fase di raccolta dati (trascrizione o interpretazione errata della domanda) ii) iii) o ad errori in fase di registrazione dei dati su computer o a segnali importanti che arrivano in merito al fenomeno oggetto di interesse. Potrebbe essere un segno di cambiamento o di un qualche distorsione che inizia d agire sul fenomeno. In questo caso le osservazioni non vanno cancellate. 6

Forma della distribuzione La terza caratteristica dei dati che prendiamo in considerazione è la forma della loro distribuzione, ovvero il modo in cui si distribuiscono le nostre osservazioni. In particolare cercheremo di individuare un criterio per definire cosa si intende per distribuzione simmetrica e in seguito si proporranno degli indici per misurare gli scostamenti dalla situazione di simmetria. Innanzitutto per effettuare lo studio della simmetria è necessario che il carattere rilevato sia almeno qualitativo ordinato. Un esempio di distribuzione simmetrica è il seguente X n i 2 2 5 8 4 5 8 6 5 7 2 Come si vede K7 e n n7 2, n2 n6 5, n n5 8, n4 Vediamo il grafico Simmetria 2 0 8 6 4 2 0 2 4 5 6 7 Consideriamo la generica distribuzione di frequenze dove X è almeno qualitativo ordinato. X n i x n x 2 n 2...... x k TOTALI Diciamo che la distribuzione è simmetrica se la variabile assume valori equidistanti dal centro di simmetria con uguale frequenza. Per es. nel caso in cui il carattere X abbia K modalità equidistanti fra loro, la distribuzione è simmetrica se n n n n n n K n k K, 2 K, K 2, n 7

Si vede che il numero di unità che presentano le unità più basse è lo stesso del numero di unità che presentano le modalità più alte. Quando abbiamo una distribuzione in cui: o è maggiore il numero di unità che presentano le modalità più basse o è maggiore il numero di unità che presentano le modalità più alte, si parla di distribuzioni asimmetriche. Vediamo le due seguenti distribuzioni. Distribuzione Distribuzione 2 X n i X n i 7 0,5 2 2 2 8 4 5 4 5 5 5 8 6 2 6 7 0,5 7 7 Vediamo che nessuna delle due verifica la definizione di simmetria. Esse hanno però caratteristiche diverse. La distribuzione mostra che la maggior parte delle unità presenta valori bassi del carattere (si parla di asimmetria positiva); la distribuzione 2, invece, mostra che la maggior parte delle unità presenta valori elevati del carattere (si parla di asimmetria negativa). Vediamo le rappresentazioni grafiche 2 0 8 Asimmetria positiva 6 4 2 0 2 4 5 6 7 2 Asimmetria Negativa 0 8 6 4 2 0 2 4 5 6 7 8

Dai grafici si vede chiaramente che nel caso di asimmetria positiva le osservazioni sono più addensate in corrispondenza dei valori più bassi nel caso di asimmetria negativa le osservazioni sono più addensate in corrispondenza dei valori più alti. La mediana gioca un ruolo estremamente importante nell analisi della simmetria; essa infatti è la modalità che divide in due parti uguali la distribuzione lasciando alla sua sinistra e alla sua destra il 50% delle osservazioni. Nota: è la definizione stessa di simmetria di una distribuzione a essere imperniata sulla mediana. Infatti una distribuzione si dice simmetrica se le modalità equidistanti dalla mediana hanno la stessa frequenza. Indici di asimmetria Data una distribuzione, abbiamo bisogno di opportuni indici per misurare se e quanto essa si discosta dalla situazione di simmetria; in sostanza misuriamo la asimmetria di una distribuzione come deviazione dalla situazione di simmetria. Innanzitutto gli indici di asimmetria dovrebbero essere pari a zero se e solo se la distribuzione è simmetrica. Purtroppo però gli indici di asimmetria che vedremo non godono di questa proprietà; in particolare se la distribuzione è simmetrica essi sono nulli ma non è vero il viceversa, cioè se l indice di asimmetria è pari a zero la distribuzione potrebbe non essere simmetrica. Dal momento che la mediana ha un ruolo importante, il primo indice di asimmetria che vediamo si basa proprio sulla mediana. Questo indice pone a confronto le seguenti quantità: M e Q Q - M e Infatti se una distribuzione è simmetrica allora il primo e il terzo quartile sono equidistanti dalla mediana perché per definizione tra Q e M e e tra M e e Q sappiamo esserci lo stesso numero di osservazioni. Q - Me Me - Allora consideriamo la differenza: ( ) ( ) Q Sappiamo che tra il primo quartile e la mediana per definizione cade il secondo 25% delle osservazioni e tra la mediana e il terzo quartile cade il terzo 25% delle osservazioni. Abbiamo i seguenti casi:. Se ( - Me) ( Me - ) Q > Q vuol dire che le unità sono più addensate (fitte e concentrate) tra il primo quartile e la mediana perché in un intervallo più piccolo (quello tra primo quartile e mediana) cade la stessa percentuale di osservazioni. In altre parole in questa situazione sono maggiori le frequenze che competono alle modalità più piccole della mediana (e maggiori di Q ) e quindi siamo nel caso della asimmetria positiva (quantomeno con riferimento al 50% centrale della distribuzione). 2. Se ( - Me) ( Me - ) Q < Q vuol dire che le unità sono più addensate (fitte e concentrate) tra la mediana e il terzo quartile perché in un intervallo più piccolo cade la stessa percentuale di osservazioni. In altre parole in questa situazione sono 9

maggiori le frequenze che competono alle modalità più grandi della mediana (e minori di Q ) e quindi siamo nel caso della asimmetria negativa (quantomeno con riferimento al 50% centrale della distribuzione). Q Me Me - Q vuol dire che la stessa frazione di unità (il 25%) cade in due intervalli di uguale ampiezza, cosa che fa pensare ad una situazione di simmetria (almeno per quanto riguarda le unità comprese tra il primo e il terzo quartile).. Se ( ) ( ) La differenza considerata dipende dall unità di misura e quindi al suo posto si preferisce usare l indice λ ( Q - Me) ( Me - Q ) Q - Q Q + Q 2Me Q - Q che è un indice relativo cioè non dipende dall unità di misura e assume valori tra e + (estremi inclusi). In particolare - valore massimo + quando M e Q e quindi M e Q 0 e Q M e Q Q - valore minimo quando M e Q e quindi Q M e 0 e M e Q Q Q In sostanza questo indice va a misurare ciò che si osserva mediante il box-plot quando si pone l attenzione alla scatola e si vede se la linea che rappresenta la mediana è nel centro della scatola (e allora si ha simmetria) oppure è più vicina al primo quartile (e allora si ha asimmetria positiva) oppure è più vicina al terzo quartile (e allora si ha simmetria negativa). Esempio: consideriamo di nuovo l esempio dei redditi delle famiglie statunitensi che abbiamo visto nella sezione dedicata al box-plot. Riportiamo di nuovo i quartili relativi ai due gruppi di famiglie Famiglie Bianche Famiglie di Colore Q 2. 7.7 M e 22.5 5 Q 4.05 26.4 Dai due box-plot vediamo che c è una situazione di asimmetria positiva in entrambe le distribuzioni visto che la linea che rappresenta la mediana non si trova nel centro della scatola ma è un po spostata verso il primo quartile. Inoltre si osserva, comparando i due box-plot, che l asimmetria positiva è più accentuata nella seconda distribuzione dove nella scatola la linea che rappresenta la mediana è più spostata verso il primo quartile di quanto non lo sia nella prima distribuzione. Verifichiamo queste affermazioni con il calcolo degli indici di asimmetria λ λ ( Q - Me) ( Me - Q ) Q + Q 2Me 4.05 + 2. 2 22.5 Q - Q 4.05 2. Q - Q ( Q - Me) ( Me - Q ) Q + Q 2Me 26.4 + 7.7 2 5 Q - Q 26.4 7.7 2 Q - Q 0.062 0.2 0

Anche il calcolo dell indice di asimmetria mostra che la seconda distribuzione è più asimmetrica della prima. Osservazione: λ0 anche quando la distribuzione è asimmetrica. Ad esempio si prenda la distribuzione X f i F i 0. 0. 5 0.7 0.27 7 0.26 0.5 9 0. 0.86 0 0.4 Si vede che Q 5, M e 7 e Q 9 quindi ( 9 7) ( 7 5) λ 0 9 5 Osservando le frequenze vediamo che la distribuzione è tutt altro che simmetrica ma mostra una maggiore concentrazione delle unità intorno a valori grandi del carattere X. Osservazione: un altro problema di questo indice è che è poco sensibile perché è basato sui tre quartili e non tiene conto di tutti i valori assunti dal carattere nelle unità del collettivo. Supponiamo di avere una distribuzione unimodale di un carattere quantitativo. Abbiamo che se la distribuzione è simmetrica allora la media, la moda e la mediana coincidono. C è da notare che non è detto che sia vero il viceversa cioè si possono avere distribuzioni per le quali media moda mediana ma la distribuzione non è simmetrica. Si consideri ad esempio la distribuzione seguente X n i F i 2 0.4 8 0.29 0 0.7 5 2 Totale 7 Essa è palesemente negativamente asimmetrica ma ha M o 0 µ (2+8+0 +5 2)/7 0 M e 0 Cioè i suoi tre valori medi coincidono. Da questo esempio già si può capire che l indice che andiamo a proporre, un indice che mette a confronto la media e la moda, potrà essere nullo anche quando la distribuzione non è simmetrica. In altre parole anche questo indice avrà lo stesso difetto dell indice λ visto sopra. Pertanto quando abbiamo una distribuzione unimodale si ha che - se è simmetrica allora µ M e M o

- se è positivamente asimmetrica allora µ > M e > M o. In altre parole l asimmetria positiva si presenta quando la media è più elevata della mediana e della moda per la presenza di valori particolarmente alti - se è negativamente asimmetrica allora µ < M e < M o. In altre parole l asimmetria negativa si presenta invece quando la media è inferiore alla mediana e alla moda per la presenza di valori particolarmente piccoli. Possiamo prendere come misura di asimmetria un indice che si basa sulla differenza tra media aritmetica e moda µ - M o. Questa differenza dipende dall unità di misura con cui è misurato il carattere pertanto, per ottenere un numero puro, la si divide per lo scarto quadratico medio. In questo modo si ottiene l indice di asimmetria (proposto da K. Pearson) µ Mo s k σ detto skewness di Pearson. Se l asimmetria è spiccatamente positiva allora s k > 0. Se l asimmetria è spiccatamente negativa allora s k < 0. Sia λ che s k possono essere nulli anche quando la distribuzione non è simmetrica. Inoltre essi generalmente sono in grado di segnalare solamente situazioni di evidente asimmetria, cioè non sono molto sensibili alle deviazioni della distribuzione dalla simmetria perché dipendono solo da valori di sintesi della distribuzione. Pearson ha proposto anche un altro indice per lo studio della asimmetria. Questo si basa sul fatto che in una distribuzione simmetrica tutti i momenti di ordine dispari dalla media aritmetica sono nulli. I momenti dalla media aritmetica sono definiti così: n r µ r ( a i µ ) quando si ha una distribuzione per unità n i K r µ r ( xi µ ) ni quando si ha una distribuzione di frequenze n i 2 Notare che per r 2, µ 2 σ. K Indichiamo con µ ( xi µ ) ni il momento di ordine dalla media aritmetica. n i Questo, se la distribuzione è simmetrica, è nullo. Se l asimmetria è sensibilmente positiva allora µ > 0 perché prevalgono gli scostamenti positivi dalla media dovuti anche alla presenza di valori eccezionalmente alti. Se l asimmetria è sensibilmente negativa allora µ < 0 perché prevalgono gli scostamenti negativi dalla media dovuti anche alla presenza di valori eccezionalmente bassi. Per rendere l indice indipendente dall unità di misura (il momento terzo dalla media aritmetica è espresso nell unità di misura alla terza) basta dividerlo per lo scarto quadratico medio elevato alla terza. In questo modo si ottiene l indice seguente: β σ Anche β può essere nullo anche se la distribuzione non è simmetrica. µ 2

Esempio: Consideriamo dati relativi al rendimento percentuale a un anno di 7 fondi di investimento. Abbiamo questi dati in forma di distribuzione unitaria; 2.2 29.5 29.9 2.4 0.6 0. 2. 5.2 0.0 20.6 28.6 0.5 8.0.0 29.4 7. 28.6 Ordiniamo le osservazioni 0.0 20.6 28.6 28.6 29.4 29.5 29.9 0. 0.5 0.6 2. 2.2 2.4.0 5.2 7. 8.0 Abbiamo: M o 28.6 µ 507.8/7 29.87 σ 2 5826.98/7 29.87 2 8.78 σ 6.2 Quindi s k (29.87-28.6)/6.2 0.204 Per esercizio si calcoli l indice β.