Fonti e strumenti statistici per la comunicazione Prof.ssa Isabella Mingo A.A. 2014-2015 Indici di variabilità relativa Consentono di effettuare confronti sulla variabilità di fenomeni che presentano unità di misura differenti pur avendo la stessa unità di misura hanno valori medi differenti e quindi distribuzioni differenti Indici percentuali di variabilità o dispersione Sono numeri puri non hanno unità di misura 1
Indici di variabilità relativa Indici percentuali di variabilità o dispersione ottenuti dividendo l indice di variabilità (dispersione) assoluto per la media rispetto alla quale è stato calcolato Coefficiente di variazione CV 100 M Esempio X : Altezza alla nascita di neonati M(X) = 40 cm e (X) = 5 cm Y : Altezza adulti M(Y) = 168 cm e (Y) = 12 cm Qual è la distribuzione dell altezza più variabile? 5 CV( X) 100 10012.5% M 40 12 CV( Y) 100 100 7.14% M 168 La distribuzione dell altezza dei neonati è più variabile di quella degli adulti 2
Altri indici di variabilità Campo di Variazione Range interquartile R Max x ) Min( x ) W Q 3 Q1 ( j j R 0 R=0 non c è variabilità W rappresenta il campo di variazione per il 50% delle unità che si trovano attorno alla mediana: Q 3 e Q 1 sono rispettivamente il terzo e il quarto quartile. Campo di variazione o range : esempio Si ottiene sottraendo il valore più basso del carattere da quello massimo presente nel collettivo. Per esempio, se in un collettivo abbiamo rilevato il reddito mensile di 10 individui, espresso in euro: 1500, 2500, 1000, 900, 3500, 400, 740, 500, 5000, 2000 Il range, dato dalla differenza tra il massimo (5000) e il minimo (400), è pari a 4600 euro. Questo indicatore ci dice che nel collettivo c'è una variabilità tra il valore più alto e quello più basso di 4600 euro, ma non fornisce altre informazioni. 3
Esercizio: campo di variazione o range Tasso occupazione Piemonte 62,39 Valle d'aosta / Vallée d'aoste 66,17 Liguria 60,72 Lombardia 64,86 Trentino Alto Adige / Südtirol 68,33 Provincia Autonoma Bolzano / Bozen 70,84 Provincia Autonoma Trento 65,89 Veneto 63,72 Friuli-Venezia Giulia 63,11 Emilia-Romagna 66,26 Toscana 63,80 Umbria 61,02 Marche 62,40 Lazio 58,76 Abruzzo 53,95 Molise 48,48 Campania 39,17 Puglia 42,14 Basilicata 47,19 Calabria 39,31 Sicilia 39,01 Sardegna 48,55 ADFSC Calcolare il range del carattere tasso di occupazione rilevato nel 2014 nelle regioni italiane. Min=39,01 Max=70,84 R=31,83 Tra le regioni italiane la differenza tra il valore più alto e quello più basso del tasso di occupazione è del 31,83% 24/04/2015 I quartili AA 2014-2015 4
Quartili Considerando come punto di riferimento la mediana: Il Primo quartile Q 1 : modalità che nella graduatoria (crescente o decrescente) bipartisce il 50% delle osservazioni con modalità più piccole o al più uguali alla Me Il Terzo quartile Q 3 : modalità che nella graduatoria (crescente o decrescente) bipartisce il 50% delle osservazioni con modalità più grandi o al più uguali alla Me U.S. A G I F B D L H E M C x j 1 2 3 4 5 6 7 8 9 10 11 Me Q 1 Q 3 Esempio Distribuzione unitaria degli affitti settimanali in euro pagati da 19 studenti Senza ordine U.S. Affitto U1 40 U2 43 U3 35 U4 33 U5 45 U6 40 U7 36 U8 36 U9 42 U10 38 U11 48 U12 51 U13 39 U14 42 U15 46 U16 59 U17 53 U18 55 U19 42 Ordine crescente Posto U.S. Affitto 1 U4 33 2 U3 35 3 U7 36 4 U8 36 5 U10 38 6 U13 39 7 U1 40 8 U6 40 9 U9 42 10 U14 42 11 U19 42 12 U2 43 13 U5 45 14 U15 46 15 U11 48 16 U12 51 17 U17 53 18 U18 55 19 U16 59 Affitto 33 35 36 36 38 39 40 40 42 42 42 43 45 46 48 51 53 55 59 Primo Quartile è 38 La mediana 42 Terzo Quartile è 48 5
Esempio: mediana e quartili Calcolo di mediana e quartili MEDIANA N 19 N 1 19 1 20 10 2 2 2 Me x x N 1 2 10 42 QUARTILI N 19 4.75 5 4 4 Q 1 x N x5 4 3 N 35 15 4 38 Q3 x N x15 48 3 4 punti vendita. Esercizio Nella tabella seguente è presentata la distribuzione del numero di addetti rilevata sui 116 punti vendita di alcune aziende. Nella tabella seguente è presentatala distribuzione della variabile numero direclami rilevato su Quanti addetti ha il 25% dei punti vendita?( Individuare il primo quartile) E il 75%? (individuare il terzo quartile) Numero addetti Frequenza Frequenza cumulata 10 18 18 12 15 33 14 25 58 16 10 68 18 19 87 29 29 116 totale 116 Percentuale cumulata 15,52 28,45 50,00 58,62 75,00 100,00 Q 1 xn x116 x29 4 4 Q3 x 116 ( x 87 ) 3 4 12 18 6
Range interquartile W Q 3 Q 1 Quantifica l estensione del 50% della distribuzione del carattere che si trova attorno alla mediana: il 50% delle unita statistiche che presentano una modalità prossima a quella centrale. Più ampio è il range interquartile, maggiore è la dispersione delle unità statistiche attorno alla mediana. E espresso nella stessa unità di misura del carattere Non è influenzato dall eventuale presenza di valori estremi o anomali assunti dal carattere nel collettivo in esame. Esempio: Range interquartile Riprendendo l esempio precedente riguardante gli affitti degli studenti Me x 42 Q x x 38 Q x x 48 1 N 5 4 W 48 38 10 N1 2 3 N 15 3 4 Cosa vuol dire? Vuol dire che il 50% degli studenti che pagano un affitto che si attesta intorno al valore mediano (42 euro) si differenziano per al massimo 10 euro. 7
Rappresentare la distribuzione di un carattere: il BoxPlot Valore Massimo Terzo quartile Mediana Primo quartile Valore minimo Box Plot con mediana Rappresentazione grafica della distribuzione di un carattere quantitativo che mette in evidenza la sua variabilità Elementi caratteristici 1 punto che individua la posizione della mediana della distribuzione 1 rettangolo (box) la cui altezza rappresenta il range interquartile: il limite inferiore del rettangolo (LIR) corrisponde al primo quartile, il limite superiore del rettangolo (LSR) corrisponde al terzo quartile 2 segmenti che partono dai lati maggiori del rettangolo e i cui estremi sono rappresentati dai valori minimo e massimo della distribuzione 8
Confronto tra tre distribuzioni: box plot Il grafico fornisce informazioni sulle diverse distribuzioni dei tassi di occupazione, disoccupazione e inattività delle regioni italiane. Visualizza per ciascuno di essi le mediane, i valori minimo e massimo e la dispersione attorno al valore mediano. Consente di rispondere ai seguenti quesiti: -quale tasso assume valori più bassi? -quale i valori più alti? - Per ciascun tasso possiamo stabilire il valore minimo e massimo assunto da almeno la metà delle regioni italiane? -rispetto a quale tasso la situazione delle regioni italiane è più eterogenea? E più omogenea? FSSC a.a 2014-2015 Box Plot con media aritmetica Il Box Plot può essere costruito considerando anche la media aritmetica come punto centrale del rettangolo. In tal caso: L altezza box è paria a 2 L estremo superiore (LSR)= M+ L estremo inferiore (LIR) =M- Gli estremi dei segmenti Superiore=M+1,96 Inferiore=M-1,96 9
Box Plot con media aritmetica: esempio Riprendendo l esempio precedente riguardante gli affitti degli studenti: M=43,32 =6,97 Segmenti: Estremo superiore= M+1,96 =43,32+1,96*6,97=56,98 Estremo inferiore= M-1,96 =43,32-1,96*6,97=29,66 Rettangolo: LSR=Estremo superiore = M+=43,32+6,97=50,29 LSIR=Estremo inferiore= M- =43,32-6,97= 36,35 Costruzione Box Plot : esempio Distribuzione delle nascite in 11 ospedali A B C D E F G H I L M 4 1 0 1 2 8 5 2 1 5 12 Distribuzione ordinata delle nascite in 11 ospedali C B D I E H A G L F M 0 1 1 1 2 2 4 5 5 8 12 Me 2 Q 1 Q 3 5 1 10
Box Plot Terzo quartile Mediana Primo quartile Box Plot con valori anomali Valori anomali: VSS= LSR + (LSR - LIR) = 5 + 1,5 (5-1) = 11 VSI= LIR - (LSR - LIR) = 1-1,5 (5-1) = -5 E anomalo il solo valore 12 dell unità M! Outlier Unità M Terzo quartile Mediana Primo quartile 11
Esercizio Sulla base della tabella seguente un cui viene riportata la distribuzione della variabile numero di cellulari per famiglia. Costruire un box plot considerando come valore medio di riferimento la mediana, controllando la presenza di valori anomali. x j n j 1 75 2 100 3 120 4 95 5 24 6 15 11 10 13 2 441 N j 75 175 295 390 414 429 439 441 P j 17,01 39,68 66,89 88,44 93,88 97,28 99,55 100,00 Me= 3 Q 1 =2 Q 3 =4 VSS= LSR + (LSR - LIR) = 4 + 1,5 (4-2) = 7 VSI= LIR - (LSR - LIR) = 2-1,5 (4-2) = -5 FSSC 24/04/2015 Caratteri qualitativi Indici di eterogeneità o mutabilità Evidenziano e quantificano la presenza di eterogeneità nella distribuzione di un carattere qualitativo. Un indice di mutabilità deve soddisfare le seguenti condizioni: assumere valore 0 se e solo se il collettivo è omogeneo rispetto al carattere considerato; crescere, assumendo valori maggiori di 0, all aumentare dell eterogeneità tra le modalità del carattere. Si possono distinguere due situazioni estreme: mutabilità nulla, tutte le unità presentano la medesima modalità del carattere mutabilità massima quando tutte le unità presentano modalità differenti del carattere oppure le diverse modalità del carattere hanno le stesse frequenze. Reclami verso due gestori dì telefonia per motivo Gestore A Gestore B Gestore C Copertura nazionale 200 600 200 Costi 200 0 150 Piano tariffario 200 0 250 Totale 600 600 600 12
Caratteri qualitativi Indice di eterogeneità di Gini Reclami verso due gestori dì telefonia per motivo (freq. Assolute) Gestore A Gestore B Gestore C Copertura nazionale 200 600 200 Costi 200 0 150 Piano tariffario 200 0 250 Totale 600 600 600 Reclami verso due gestori dì telefonia per motivo (freq. Relative) Gestore A Gestore B Gestore C Copertura nazionale 0,33 1,00 0,33 Costi 0,33 0,00 0,25 Piano tariffario 0,33 0,00 0,42 Totale 1,00 1,00 1,00 Caratteri qualitativi Indice di eterogeneità di Gini normalizzato Assume sempre valori compresi tra 0 (caso di eterogeneità nulla) e 1 (caso di eterogeneità massima) Può essere utilizzato per operare confronti del medesimo carattere osservato su collettivi differenti, con numerosità diversa, o tra distribuzioni di caratteri differenti osservati sul medesimo collettivo K = numero di modalità Nel nostro esempio K = 3 13
Caratteri qualitativi Indice di eterogeneità esercizio Date le seguenti distribuzioni di frequenze riguardanti la rilevazione delle vendite degli stessi prodotti in due supermercati differenti, indicare in quale supermercato le vendite sono più eterogenee rispetto alle marche dei prodotti considerati. Numero di prodotti venduti per marca Supermercato A Supermercato B n i Barilla 1200 360 Buitoni 870 230 Divella 360 220 Voiello 580 230 Totale 3010 1040 n j Calcolo 14