Corso di Laurea: Diritto per le Imprese e le istituzioni a.a. 2016-17 Statistica Statistica Descrittiva 3 Esercizi: 5, 6 Docente: Alessandra Durio 1
Contenuti I quantili nel caso dei dati raccolti in classi Misure di posizione: la Moda Misure di posizione: la media aritmetica Misure di variabilità: range e differenza interquartilica Misure di variabilità:varianza e scarto quadratico medio Docente: Alessandra Durio 2
I Quantili di una v.s. con dati raccolti in classe α= 0.6 In questo caso possiamo graficamente determinare la CLASSE in cui cade il quantile Il quantile di ordine alfa x α appartiene alla seconda classe COME DETERMINARNE IL VALORE? Docente: Alessandra Durio 3
I Quantili di una v.s. con dati raccolti in classe Esempio D Similitidine dei due triangoli rettangoli: α B f i AC : AE = BC : DE Ricaviamo AC: F(L i ) A α C E AC = AE * BC DE F(L i ) x α AE = ampiezza di classe= w i L i L i+1 BC = ordine del quantile valore della F nel limite inferiore di classe= α - F(L i ) DE = frequenza relativa della classe= f i Docente: Alessandra Durio X α = L i + AC = w i * (α - F(L i )) f i 4
I Quantili di una v.s. con dati raccolti in classe Determinazione del valore Similitidine dei due triangoli rettangoli: α F(L i ) A B 0.6 C D 0.8 E 0.2 AC : AE = BC : DE AE * BC Ricaviamo AC: AC = DE α = 0.6 Il quantile cade nella seconda classe L i = 100 X α = L i + AC = L i + Docente: Alessandra Durio x α L i L i+1 AE = ampiezza di classe= w i = L i+1 L i = 300 100 = 200 BC = ordine del quantile valore della F nel limite inferiore di classe= α - F(L i ) = 0.6 0.2 DE = frequenza relativa della classe= f i = 0.8 w i * (α - F(L i )) f i = 100 + 200 * (0.6 0.2) 0.8 = 200 5
Contenuti I quantili nel caso dei dati raccolti in classi Misure di posizione: la Moda Misure di posizione: la media aritmetica Misure di variabilità: range e differenza interquartilica Misure di variabilità:varianza e scarto quadratico medio Docente: Alessandra Durio 6
Un altra misura di posizione: LA MODA Def: La MODA è la modalità che si presenta con la maggior frequenza. se tutte le frequenze di una distribuzione sono uguali, si dice che la variabile statistica è priva di moda, potremmo dire che la distribuzione è uniforme la moda, a differenza degli altri valori medi considerati, può non essere unica; esistono v.s., dette plurimodali, che hanno più valori di moda, posseggono cioè modalità con la stessa frequenza che è la piu` alta se la v.s. è continua con dati raccolti in classi si parla di classe modale come quella classe che possiede il rettangolo di massima area nell istogramma il concetto di moda viene a volte esteso anche alle mutabili statistiche definendo per esse la moda come la modalità tra quelle osservate che si ripete più frequentemente. Docente: Alessandra Durio 7
Esempio: distribuzione BIMODALE Da un indagine condotta su 50 famiglie risulta la seguente distribuzione di frequenze del reddito netto mensile: Per tale v.s. media (1504.21) e mediana (1500) sono pressoché uguali. Siamo in presenza di una distribuzione bimodale, dal momento che le classi di reddito ]1200; 1300] e ]1800; 1900] presentano entrambe la massima frequenza. Possiamo affermare di trovarci in presenza di una mistura di due distribuzioni. Ciò accade sovente qualora la distribuzione di una v.s. presenti (anche se non accentuate come nel caso in esame) due o più mode. In questo caso, volutamente, si sono mescolati i redditi di famiglie monoreddito con quelli di famiglie plurireddeito. Docente: Alessandra Durio 8
Contenuti I quantili nel caso dei dati raccolti in classi Misure di posizione: la Moda Misure di posizione: la media aritmetica Misure di variabilità: range e differenza interquartilica Misure di variabilità:varianza e scarto quadratico medio Docente: Alessandra Durio 9
La media aritmetica: interpretazione Nel linguaggio comune, la media di una serie di dati corrisponde a quella che in statistica si dice media aritmetica per differenziarla dalle molte altre medie esistenti. Tale parametro di sintesi è senza dubbio noto anche in ambiti non strettamente statistici; qualunque studente ha, ad esempio, calcolato almeno una volta la media dei voti degli esami sostenuti; la spesa media mensile viene assunta come sintesi di condizione finanziaria da molte famiglie, ed ancora, il consumo medio di carburante e` una caratteristica che viene valutata al momento dell acquisto di una autovettura. Non tutti sono però in grado di dare alla media aritmetica una corretta interpretazione. La media aritmetica è maggiormente significativa se ii carattere è TRASFERIBILE Se non lo è la media è comunque utile a dare informazione circa il BARICENTRO della distribuzione Docente: Alessandra Durio 10
La media aritmetica: proprietà rappresenta il baricentro di una distribuzione di frequenze. Potremmo dire che essa costituisce l ago della bilancia che sostiene l area rappresentata dall istogramma. E sempre un valore interno ai dati. Risente della presenza nei dati di valori anomali (detti anche outliers ). Trattasi di singoli valori troppo grandi o troppo piccoli rispetto all insieme dei dati che si presentano per cause non strettamente collegate al fenomeno sotto osservazione, ad esempio errori di rilevazione o di trascrizione dei dati, presenza di unità statistiche con caratteristiche non omogenee rispetto alla totalità del collettivo ed anche influenza di cause rare e sporadiche. Docente: Alessandra Durio 11
La media aritmetica: come si calcola µ = x + x +...+ 1 2 N µ = x N = 1 N N α =1 x α 2 + 0 + 0 +1+ 0 + 7 + 0 + 0 +1+ 6 10 con i dati individuali = 17 10 =1.7 { x α } α =1,...,N = { 2,0,0,1,0,7,0,0,1,6 } µ = x 1 n 1 + x 2 n 2 +...+ x k n 3 N µ = 0 5 +1 2 + 2 1+ 6 1+ 7 1 10 = 1 N k i=1 x i n i = 17 10 =1.7 con la distribuzione di frequenze Docente: Alessandra Durio 12
Contenuti I quantili nel caso dei dati raccolti in classi Misure di posizione: la Moda Misure di posizione: la media aritmetica Misure di variabilità: range e differenza interquartilica Misure di variabilità:varianza e scarto quadratico medio Docente: Alessandra Durio 13
La necessità di parametri che misurino la variabilità dei dati esempi Le misure di posizione, congiuntamente a corrette rappresentazioni grafiche, consentono di cogliere alcuni aspetti delle v.s. oggetto di studio. Tuttavia esse non esauriscono l insieme delle misure di sintesi di una distribuzione, non riuscendo da sole ad evidenziare altri aspetti assai importanti delle variabili statistiche in esame. Per queste coppie di v.s. media e mediana coincidono e non sono i parametri corretti per evidenziare la differenza delle loro distribuzioni che è palese dal confronto dei grafici. Docente: Alessandra Durio 14
I diversi aspetti della variabilità Sorge dunque la necessità di sintetizzare la distribuzione di frequenze di una variabile statistica oltre che con misure di posizione con qualche parametro che fornisca una misura della dispersione delle unità statistiche rispetto al carattere considerato. La variabilità di una variabile statistica può essere considerata sotto diversi aspetti e quindi valutata a mezzo di indicatori di misura differenti, basati su: gli intervalli di variazione, cioè intervalli i cui estremi corrispondono a particolari misure di posizione (range, differenza interquartilica) la distanza che ciascun dato individuale ha con tutti gli altri (differenze medie) gli scostamenti dei dati individuali da un valore medio, scelto quale misura di posizione (la varianza e lo scarto quadratico medio) Docente: Alessandra Durio 15
Misure di variabilità basate su intervalli di variazione RANGE (o campo di escursione): la differenza tra il massimo e il minimo dei dati individuali max { x α} min{ o esempio: { x α } α =1,...,N = 2,0,0,1,0,7,0,0,1,6 α DIFFERENZA INTERQUARTILICA: differenza fra il terzo ed il primo quartile α x α } x k x 1 { } Range = 7-0 = 7 Seppur di semplice interpretazione, l intervallo di escursione può tuttavia essere una misura poco rappresentativa della variabilità essendo pesantemente influenzato dalla presenza dei valori estremi. x 0.75 x 0.25 esempio Evidentemente, essa fornisce l ampiezza dell intervallo nel quale cade il 50% delle unità statistiche considerate eliminando così dalla misura di variabilità fornita l influenza dei valori estremi. Docente: Alessandra Durio 16
Esempio differenza interquartilica e DIAGRAMMA A SCATOLA E BAFFI (boxplot) La rilevazione su 50 clienti all uscita di due negozi di abbigliamento (A e B) circa l ammontare della spesa effettuata abbia dato luogo alle v.s. X e Y. Diff. Interquartilica X: 132.86-72.92 = 59.94 Y: 104.57-65.99 = 38.58 Il BOXPLOT è un grafico che descrive la distribuzione di frequenze per mezzo di quartile e valori estremi. min x 0.75 x0.5 x 0.75 max Se i baffi sono al percentile 5% e 95% si evidenziano gli outliers Docente: Alessandra Durio 17
Contenuti I quantili nel caso dei dati raccolti in classi Misure di posizione: la Moda Misure di posizione: la media aritmetica Misure di variabilità: range e differenza interquartilica Misure di variabilità:varianza e scarto quadratico medio Docente: Alessandra Durio 18
Misure di variabilità basate su scostamenti dei dati individuali dalla media Un interessante misura di variabilità si può ottenere considerando la dispersione dei dati attorno alla media aritmetica. Tale dispersione potrebbe essere individuata calcolando gli scarti dalla media aritmetica delle diverse modalità osservate e sintetizzando la distribuzione degli scarti mediante la loro media aritmetica. Tuttavia per una nota proprietà della media aritmetica, la somma degli scarti è nulla e di conseguenza nulla sarà la loro media. Un modo per ovviare a tale inconveniente è quello di considerare gli scarti al quadrato. LA VARIANZA: si dice varianza di una v.s. X la media aritmetica del quadrato degli scarti di ogni singola modalità dalla media aritmetica σ 2 = 1 N = 1 N N α =1 k i=1 ( x α µ) 2 = (x i µ) 2 n i ( x α µ) 2 LO SCARTO QUADRATICO MEDIO: la radice quadrata della varianza Docente: Alessandra Durio 19
Esempio di calcolo della VARIANZA La v.s. X ={km percorsi con un litro di benzina}, definita a partire dalla rilevazione della percorrenza di 45 autovetture di piccola cilindrata alimentate a benzina, possiede distribuzione di frequenze assolute: Per calcolare la varianza usiamo una sua proprietà: σ 2 = 1 N k x 2 i n i 1 N i=1 k i=1 x i n i σ 2 = 18.52 5+19.5 2 10 + 20.5 2 15+ 21.5 2 10 + 22.5 2 5 45 = 421.5833 20.5 2 =1.333 oltre a snellire i calcoli così si riduce il problema degli errori di arrotondamento dei fattori nella sommatoria 2 + = E[X 2 ] ( E[X] ) 2 La Media aritmetica della variabile al quadrato Il quadrato della Media aritmetica 18.5 5+19.5 10 + 20.5 15+ 21.5 10 + 22.5 5 45 SCARTO QUADRATICO MEDIO σ = σ 2 = 1.333 =1.1547 2 = Docente: Alessandra Durio 20
Concetti Introdotti I quantili per dati raccolti in classi metodo di calcolo La moda La media aritmetica Il range La differenza interquartilica e il box-plot La varianza e lo scarto quadratico medio Docente: Alessandra Durio 21