Dip. di Scienze Umane e Sociali paolo.cazzaniga@unibg.it
Outline 1 Introduzione 2 3 4
Outline 1 Introduzione 2 3 4
Introduzione Analisi descrittiva monovariata: segue la raccolta dei dati e il calcolo delle distribuzioni di frequenza permette di sintetizzare le caratteristiche di una distribuzione si basa sul calcolo di medie: analitiche di posizione
Misure sintetiche di una distribuzione [1/2] Esistono indici in grado di sintetizzare le caratteristiche della distribuzione di un carattere (misure di tendenza centrale): medie analitiche o algebriche calcolabili solo su dati quantitativi considerano tutti i termini della distribuzione al variare di un valore della serie, cambia anche il valore della misura medie lasche o di posizione calcolabili sia su caratteri qualitativi sia quantitativi nel caso di caratteri qualitativi la media (di posizione) corrisponde ad una modalità del carattere non subiscono cambiamenti a fronte di piccole variazioni nella distribuzione considerano solo alcuni termini della stessa (moda, mediana, quartili, ecc.)
Misure sintetiche di una distribuzione [2/2] Definizioni di media: Dato un insieme di valori x 1, x 2,..., x n e una funzione f, si definisce media dei valori x i secondo il criterio f quel valore M tale che: f (x 1, x 2,..., x n ) = f (M, M,..., M) La media M rappresenta il valore che sostituito ai dati della distribuzione mantiene inalterato il totale Una media è un qualunque valore reale M compreso fra la più piccola e la più grande delle quantità considerate nella distribuzione (proprietà dell internalità)
Outline 1 Introduzione 2 3 4
La media aritmetica La media aritmetica x di un insieme di n valori x 1, x 2,..., x n di un carattere quantitativo X è: x = 1 n (x 1 + x 2 + + x n ) = 1 n n i=1 x i Se il carattere X è diviso in k classi, la media può essere approssimata come: x = 1 n k c j n j oppure x = j=1 k c j f j j=1 dove c j è il valore centrale della classe j, n j e f j sono la frequenza assoluta e relativa della classe j
La media aritmetica troncata Uno dei limiti della media aritmetica è che prende in considerazione tutti i valori (compresi gli eventuali outlier) In queste situazioni la media non rappresenta l intera distribuzione Per contenere l effetto degli outlier si può calcolare la media troncata: media aritmetica troncata al 50%: vengono esclusi il 25% dei valori più piccoli e più grandi della distribuzione. La media viene calcolata sul 50% dei valori centrali media aritmetica troncata al 90%: esclusi il 5% dei valori più piccoli e più grandi. Media sul 90% dei valori
Proprietà della media aritmetica La somma dei valori x 1, x 2,..., x n è uguale al valore medio moltiplicato per n La somma degli scarti positivi dalla media è uguale (in valore assoluto) a quella degli scarti negativi La somma di tutti gli scarti dalla media è pari a zero La somma dei quadrati degli scarti dei valori della distribuzione dalla media aritmetica è minore della somma dei quadrati da qualsiasi numero Se il collettivo viene diviso in sottoinsiemi disgiunti, la media del collettivo può essere calcolata come media ponderata delle medie dei vari sottoinsiemi
La media geometrica Media geometrica M g : dati n valori positivi x 1, x 2,..., x n di un carattere X: M g = n x 1 x 2 x n = n n Per semplificare i conti si passa ai logaritmi, sapendo che il logaritmo di M g è uguale alla media aritmetica dei logaritmi dei singoli valori: i=1 log(m g ) = log(x 1) + log(x 2 ) + + log(x n ) n Nel caso di distribuzioni di frequenza: x i M g = x n n 1 1 x n 2 2 x n k k dove k è il numero di modalità assunte dal carattere
La media armonica Media armonica M a : valore che sostituito a tutti i termini della distribuzione ne lascia invariata la somma dei reciproci n M a = n i=1 1 x i nel caso di distribuzioni di frequenza n M a = n i=1 dove n i è la frequenza della modalità x i. n i x i
Outline 1 Introduzione 2 3 4
Le medie di posizione Il valore medio identificato dalle medie di posizione è un valore preso dai dati del campione, scelto in base alla sua posizione rispetto agli altri valori Moda Mediana Quartili Su questi caratteri descrittivi non vengono effettuati calcoli algebrici
Moda [1/2] La moda o valore modale Mo di un insieme di dati è il valore che è presente con la frequenza maggiore Dato un insieme di valori, è possibile che sia presente più di un valore modale Una distribuzione è: unimodale se ammette un solo valore modale bimodale se ne ammette due trimodale se ne ammette tre... La moda è facilmente individuabile in un diagramma a barre come intervallo di altezza massima
Moda [2/2]
Mediana [1/3] Data una distribuzione di dati ordinati in senso crescente: tale che x 1 x 2 x n la mediana Me è il valore che bipartisce la distribuzione Me lascia un uguale numero di termini a destra e sinistra La mediana Me può essere calcolata su: caratteri quantitativi ordinabili caratteri qualitativi ordinabili Non può essere calcolata su caratteri qualitativi sconnessi
Mediana [2/3] Per identificare la mediana Me Se la numerosità n del collettivo è dispari, la mediana è il valore o la modalità che occupa la posizione (n + 1)/2 la mediana Me è Me = x ( n+1 2 ) Se la numerosità n del collettivo è pari, la mediana è il valore o la modalità che occupa la posizione (n/2) + 1, ma generalmente si stima usando i valori che occupano la posizione n/2 e (n/2) + 1 x ( la mediana Me è Me = n 2 ) +x ( n +1) 2 2 Nel caso di distribuzioni di frequenza con valori discreti, la mediana viene calcolata utilizzando le frequenze cumulate
Mediana [3/3] Se un carattere quantitativo è suddiviso in classi è solo possibile approssimare la mediana come: ( ) Me 0, 5 Fm 1 = I m + a m F m F m 1 dove: I m è l estremo inferiore della classe mediana F m 1 è la frequenza relativa cumulata fino alla classe precedente alla mediana F m è la frequenza relativa cumulata fino alla classe mediana a m è l ampiezza della classe mediana
Mediana per un carattere diviso in classi La mediana viene calcolata come: ( ) ( ) Me 0, 5 Fm 1 0, 5 0, 33 = I m + a m = 1200+ 800 = 1442, 86 F m F m 1 0, 89 0, 33
Quartili [1/3] Quartili: indici che dividono una distribuzione ordinata in 4 parti uguali Primo quartile Q 1 : valore che lascia alla propria sinistra il 25% dei termini e a destra il 75% Secondo quartile Q 2 : valore che coincide con la mediana e divide in due parti uguali la distribuzione Terzo quartile Q 3 : valore che lascia alla propria sinistra il 75% dei termini e a destra il 25%
Quartili [2/3] Per distribuzioni divise in classi, il primo quartile viene approssimato come ( ) Q 1 0, 25 FQ1 1 = IQ1 + a Q1 F Q1 F Q1 1 dove: I Q1 è l estremo inferiore della classe in cui cade Q 1 F Q1 1 è la frequenza relativa cumulata fino alla classe precedente a quella di Q 1 F Q1 è la frequenza relativa cumulata fino alla classe di Q 1 a Q1 è l ampiezza della classe in cui cade Q 1
Quartili [3/3] Per distribuzioni divise in classi, il terzo quartile viene approssimato come ( ) Q 3 0, 75 FQ3 1 = IQ3 + a Q3 F Q3 F Q3 1 dove: I Q3 è l estremo inferiore della classe in cui cade Q 3 F Q3 1 è la frequenza relativa cumulata fino alla classe precedente a quella di Q 3 F Q3 è la frequenza relativa cumulata fino alla classe di Q 3 a Q3 è l ampiezza della classe in cui cade Q 3
Calcolo dei quartili ( Q 1 0, 25 FQ1 1 = IQ1 + F Q1 F Q1 1 ) a Q1 = 18 + ( ) 0, 25 0, 05 7 = 24, 0 0, 33 0, 05 ( ) ( ) Q 2 = Me 0, 50 FQ2 1 0, 5 0, 33 = I Q2 + a Q2 = 25+ 15 = 33, 5 F Q2 F Q2 1 0, 63 0, 33 ( Q 3 0, 75 FQ3 1 = IQ3 + F Q3 F Q3 1 ) a Q3 = 40+ ( ) 0, 75 0, 63 20 = 56, 0 0, 78 0, 63
Outline 1 Introduzione 2 3 4
Scegliere il valore di media più appropriato [1/2] Media aritmetica x: la più utilizzata (come media si intende spesso media aritmetica ) Media geometrica M g : quando si analizzano le variazioni di un fenomeno nel tempo quando la distribuzione presenta valori anomali (è meglio di x) è poco sensibile a outlier sia molto piccoli sia molto grandi ampiamente usata in medicina e biologia Media armonica M a : utilizzata quando esiste un rapporto funzionale tra il tempo ed un altra variabile oggetto di studio ad esempio per calcolare la velocità media di automobili che percorrono lo stesso tratto di strada rapporto funzionale tra lo spazio percorso e il tempo impiegato usata quando viene applicata una trasformazione del tipo 1/x ai dati
Scegliere il valore di media più appropriato [2/2] Esiste la seguente disuguaglianza M a M g x La media troncata o la mediana vengono calcolate quando sono presenti outlier La moda è l unica misura di sintesi utilizzabile nel caso di variabili sconnesse In generale, è preferibile usare più misure di sintesi
Esempi Esempi con Fogli Google Esercizio con Calc
Dove studio questi argomenti? Capitolo 8 del libro!