Statistica Sociale - modulo A e-mail: stella.iezzi@uniroma2.it
i quartili IL TERZO QUARTILE per un carattere diviso in classi ESEMPIO: il boxplot
I QUARTILI I quartili sono tre indici che dividono la distribuzione ordinata in 4 parti uguali. Il primo quartile (Q 1 ) e il valore che lascia alla propria sinistra il 25% dei termini e il 75% alla destra. Il secondo quartile (Q 2 ) e il valore spacca in due parti uguali la distribuzione (il secondo quartile coincide con la mediana). Il terzo quartile (Q 3 ) e il valore che lascia alla propria sinistra il 75% dei termini e il 25% alla destra.
ESEMPIO Data la seguente distribuzione: 5, 6,2,2,1,5,10,12,3,2,5,6. Individuare i quartili. ORDINO LA DISTRIBUZIONE: 1 2 2 2 3 5 5 5 6 6 10 12 Il primo quartile (Q 1 ) si trova nella seguente posizione: Q 1 = 0, 25 12 = (1/4)12 = 3 Il primo quartile si trova in terza posizione e il valore e Q 1 = 2 Il secondo quartile (Q 2 ) si trova nella seguente posizione: n=pari n 2 = 12 2 = 6 e n 2 + 1 = 7 Q 2 = 5+5 2 = 5 Il terzo quartile (Q 3 ) si trova nella seguente posizione: Q 3 = 0, 75 12 = (3/4)12 = 9 LaQ 3 si trova in posizione 9 e il valore e Q 3 = 6
IL PRIMO QUARTILE Q 1 I Q1 + 0.25 F Q1 1 F Q1 F Q1 1 a Q1 I Q1 e l estremo inferiore della classe dove cade Q 1 F Q1 1 e la frequenza relativa cumulata fino alla classe precedente a quella dove cade Q 1 ; F Q1 e la frequenza relativa cumulata della classe dove cade Q 1 a Q1 e l ampiezza della classe dove cade Q 1
IL SECONDO QUARTILE E LA MEDIANA IL TERZO QUARTILE Q 3 I Q3 + 0.75 F Q3 1 F Q3 F Q3 1 a Q3 I Q3 e l estremo inferiore della classe dove cade Q 3 F Q3 1 e la frequenza relativa cumulata fino alla classe precedente a quella dove cade Q 1 F Q3 e la frequenza relativa cumulata della classe dove cade Q 3 a Q3 e l ampiezza della classe dove cade Q 3
Data la distribuzione di frequenza per classi di addetti dell AREA X, calcolare i quartili. Q 1 = 0 + ( 0,25 0 0,35 0 )5 = 0, 71x5 = 3, 57 Q 2 = 6 + ( 0,50 0,35 0,15 0,53 0,35 )4 = 6 + ( 0,18 )4 = 9, 33 Q 3 = 11 + ( 0,75 0,53 0,22 )19 = 11 + ( )19 = 29, 17 0,76 0,53 0,23
Nella descrizione di un fenomeno, un indice di posizione fornisce informazioni riassuntive sulla distribuzione. La sintesi mediante una media e rappresentativa soltanto se le unita statistiche presentano modalita prossime a questa. Molto spesso, distribuzioni caratterizzate dall uguaglianza nei valori degli indici di posizione, possono riflettere situazioni molto diverse tra di loro. ESEMPIO Si consideri il peso (in Kg) di due gruppi di studenti (A e B). A = 60, 55, 70, 40, 90, 70, 76, 72, 56, 61 B = 65, 65, 65, 65, 65, 65, 65, 65, 65, 65 n i=1 x A = i n = n i=1 x B = i n = 10 i=1 x i = 650 10 = 65 10 i=1 x i 650 = 10 = 65
esprime la tendenza delle unita di un collettivo ad assumere diverse modalita del carattere. Un indice di variabilita (V(x)) presenta i seguenti requisiti: 1. V(X)= 0, se tutte le unita presentano la medesima modalita del carattere (distribuzione degenere); 2. V (X ) > 0 risulta crescente al crescere della diversita tra le modalita assunte dalle diverse unita ; 3. V (X + c) = V (x) + c: aggiungendo una costante c ai valori di X, la variabilita non cambia; 4. Se V (X ) V (Y ) allora il vettore X e piu variabile di Y.
E possibile distinguere tre categorie di indici di variabilita : 1. Indici di dispersione rispetto ad una media; 2. Indici di disuguaglianza a coppie (Mutua variabilita ); 3. Indici di mutabilita, che misurano lomegenita /eterogenieta tra le modalita di una distribuzione di frequenza. Nelle tre categorie sopraccitate, e possibile operare una ulteriore distinzione tra gli indici: a) Assoluti: utilizzano la stessa unita di misura della modalita della distribuzione, ma non consentono di fare confronti fra distribuzioni statistiche espresse in unita di misura diverse; b) Relativi: depurano la distribuzione dall unita di misura, per questo motivo sono particolarmente adatti per operare confronti fra distribuzioni. Si ottengono rapportando un indice assoluto al suo massimo o ad una Prof.ssa media. D.F. Iezzi
σ 2 = 1 n n i=1 (x i x) 2 ESEMPIO Si consideri il peso (in Kg) di due gruppi di studenti (A e B). A = 60, 55, 70, 40, 90, 70, 76, 72, 56, 61 B = 65, 65, 65, 65, 65, 65, 65, 65, 65, 65 σ 2 = 1692 10 = 169, 2 1 σ = n n i=1 (x i x) 2 = σ = 13
x i (x i x) (x i x) 2 60-5 25 55-10 100 70 5 25 40-25 625 90 25 625 70 5 25 76 11 121 72 7 49 56-9 81 61-4 16 tot - 1692
x j n j x j n j (x i x) (x i x) 2 (x i x) 2 n j 0 5 0-2 4 20 1 20 20-1 1 20 2 11 22 0 0 0 3 26 78 1 1 26 Totale 62 120 66 σ 2 = 66 62 = 1, 064 σ = 1, 031 x = 120 62 = 2
SCOSTAMENTO SEMPLICE MEDIO DALLA MEDIA ARITMETICA S x = 1 n n i=1 x i x SCOSTAMENTO SEMPLICE MEDIO DALLA MEDIANA S x = 1 n n i=1 x i Me COEFFICIENTE DI VARIAZIONE CV = ( σ x )100
La descrizione di un carattere mediante un indice di posizione andrebbe sempre accompagnata da un indice di variabilita. Il grafico a scatola (o box-plot) un particolare tipo di diagramma che permette di rappresentare graficamente sia una media che la variabilita di una distribuzione. Gli elementi che lo caratterizzano sono: 1. una linea orizzontale interna alla scatola, che individua il valore dell indice di posizione (media o piu frequentemente mediana); 2. un rettangolo (box) la cui altezza misura la differenza contiene il 50% centrale della distribuzione, dal 1al 3quartile; 3. due segmenti (i baffi) che individuano gli intervalli in cui sono posizionati i valori rispettivamente minori di Q 1 e maggiori di Q 3
E possibile, inoltre, rappresentare con valori esterni ai baffi i valori anomali. Questi valori forniscono informazioni ulteriori sulla dispersione e sulla forma della distribuzione. Si possono individuare eventuali valori anomali, mediante le seguenti formule: - limite inferiore (baffo inferiore) = Q 1 αdi - limite superiore (baffo superiore) = Q 3 + αdi dove DI = Q 3 Q 1 differenza interquartilica. Con α costante positiva. I software di frequente fissano un valore di α pari a 1,5. Quando i valori adiacenti, superiore e inferiore, coincidono con gli estremi della distribuzione non comparir alcun valore fuori limite.
ESEMPIO: Data la seguente distribuzione: 5, 6,2,2,1,5,10,12,3,2,5,6. Disegnare il boxplot. DI=6-2=4 - limite inferiore (baffo inferiore) = 2 1, 5x4 = 2 6 = 4 - limite superiore (baffo superiore) = 6 + 1, 5x4 = 6 + 6 = 12 non ci sono valori anomali 2 4 6 8 10 12