Dalla distribuzione unitaria a quella di frequenza Cognome sesso età Livello soddisfaz ione Tipo albergo (categoria) Giorni permanenza Bianchi F 8 basso 4 Alimov F 5 medio 3 6 More M 19 alto 4 Wieser F 3 alto 3 10 Lincoln M 60 medio 5 8 Distribuzione di frequenza assoluta Elencazione del numero delle volte che una modalità di un carattere viene osservata nel collettivo Corrisponde alla suddivisione delle unità statistiche in sottogruppi Sesso frequenza F 3 M totale 5 Livello soddisfazion e frequenza basso 1 medio alto Totale 5 Osservazioni: Evidenzia le caratteristiche del fenomeno Implica perdita di informazione
Distribuzione di frequenza relativa e percentuale Relativa f i = n j /n rapporto tra la frequenza assoluta e il numero totale delle unità osservate Percentuale p i = f i *100 frequenza relativa moltiplicata per 100 Sesso Freq. assoluta F 3 M totale 5 Sesso Freq. rel F (3/5)=0.6 M (/5)= 0.4 totale 1 Sesso Freq. % F (3/5*100)=60 M (/5*100)= 40 totale 100 Distribuzione di frequenza percentuale: esempio Sesso Freq. assol. F 3 M totale 5 Sesso Freq. assol. F 180 M 10 totale 300 Attenzione: le distribuzioni percentuali implicano la perdita dell informazione sulla numerosità dei collettivi Possibile il confronto tra due o più collettivi di dimensioni diverse rispetto ad un carattere Sesso Freq. % F (3/5*100)= 60 M (/5*100)= 40 totale 100 Sesso Freq.% F (180/300*100)= 60 M (10/300*100)= 40 totale 100
La notazione X : Carattere osservato x 1, x,, x i,, x K : K modalità assunte del carattere X x i modalità generica x K ultima modalità Se X quantitativo x 1 < x << x i << x K n : numero di u.s. che compongono il collettivo n 1, n,, n i,, n K : freq. Assol. associate alle K modalità n 1 + n + + n i ++ n K =n Car. X FREQUENZE ASSOLUTE x 1 n 1 x n x i x K Totale n i n K n Distribuzione di frequenze assolute: la formalizzazione CARATTERE FREQUENZE ASSOLUTE Car. X FREQUENZE ASSOLUTE Modalità uno Numero di u.s. del collettivo considerato che presentano la modalità uno del carattere x 1 n 1 Modalità due Numero di u.s. del collettivo considerato che presentano la modalità due del carattere x n Modalità i Numero di u.s. del collettivo considerato che presentano la modalità i del carattere x i n i Modalità kappa Numero di u.s. del collettivo considerato che presentano la modalità kappa del carattere x K n K Totale Numero totale di u.s. del collettivo considerato (corrisponde alla somma delle frequenze assolute) Totale n
Frequenze Relative e percentuali Frequenze relative Frequenze percentuali Si indicano con f i p i Si calcolano così Sono = numeri compresi tra 0 e 1 (con la virgola) = numeri compresi tra 0 e 100 (possono avere la virgola) Sono tali che f 1 + f ++ f i ++ f K = 1 p 1 + p ++ p i ++ p K = 100 Distribuzione di frequenza Carattere X Frequenza Frequenza Frequenza Assoluta Relativa Percentuale n i f i = n i /n p i = f i x 100 x 1 n 1 f 1 p 1 x n f p............ x i n i f i p i............ x K n K f K p K Totale n 1 100
Esercizio Internet Users Paese (%) 01 Belgium 80 Czech Republic 71 Denmark 9 France 80 Germany 80 Greece 56 Hungary 71 Italy 56 Luxembourg 9 Malta 66 Netherlands 9 Slovenia 66 Spain 66 Sweden 9 United Kingdom 80 (fonte Eurostat) E una tabella unitaria o una distribuzione di frequenze? Calcolare la distribuzione di frequenze assolute, relative percentuali. Tabella di frequenza Internet Users % n j fi p i 56 0.1333 13.33 66 3 0.000 0.00 71 0.1333 13.33 80 4 0.667 6.67 9 4 0.667 6.67 Totale complessivo 15 1.0000 100 Esercizio N. di Paesi per % di Utenti Internet Tabella di frequenza Internet Users % n j fi p i 56 0.1333 13.33 66 3 0.000 0.00 71 0.1333 13.33 80 4 0.667 6.67 9 4 0.667 6.67 Totale complessivo 15 1.0000 100 Quanti paesi hanno una % di Utenti non superiore al 66%? Tabella di frequenza Internet Users % n j fi p i 56 0.1333 13.33 66 3 0.000 0.00 71 0.1333 13.33 80 4 0.667 6.67 9 4 0.667 6.67 Totale complessivo 15 1.0000 100 Questo numero sarà uguale a : +3=5 In percentuale sarà il : 13.33+0.00=33.33% del collettivo Per rispondere al quesito abbiamo cumulato le frequenze!
Frequenze Cumulate Hanno senso solo se il carattere in esame è almeno un carattere qualitativo ordinale La frequenza cumulata associata alla modalità x i del carattere rappresenta il numero di u.s che presentano una modalità non superiore a x i Frequenze Cumulate si ottengono sommando le frequenze assolute (relative o percentuali) associate alle modalità inferiori o uguali alla modalità per la quale si sta calcolando la frequenza cumulata Calcolo delle frequenze cumulate: esempio = = Tabella di frequenza Internet Users % n j N i fi F i p i Pi 56 0.1333 0.1333 13.33 13.33 66 3 5 0.000 0.3333 0.00 33.33 71 7 0.1333 0.4667 13.33 46.67 80 4 11 0.667 0.7333 6.67 73.33 9 4 15 0.667 1.0000 6.67 100.00 Totale complessivo 15 1.0000 100 h= h= h = + + + h = + + +
Calcolo delle frequenze cumulate Frequenza Assoluta Cumulata della modalità x i = h = + + + h= Frequenza Relativa Cumulata della modalità x i = h = + + + h= Frequenza Percentuale Cumulata della modalità x i = h = + + + h= Osservazione Sommatoria x : indica in modo sintetico la somma di un insieme di numeri x Sia x 1 =3, x =5, x 3 =1, x 4 =9, x 5 =15 = = + + + + = + + + + =
Calcolo delle frequenze cumulate Ovviamente in corrispondenza della modalità più grande x K si avrà Frequenza assoluta cumulata N K =n Frequenza relativa cumulata F K =1 Frequenza percentuale cumulata P K =100 In sintesi Carattere X Frequenza Assoluta n i Frequenza Cumulata N i x 1 n 1 N 1 =n 1 x n N =n 1 +n......... x i n i N i =n 1 +n ++n i......... x K n K N K =n Totale n
Esercizio In un collettivo di 40 clienti di un albergo si è rilevato il numero di notti di permanenza nella struttura. La distribuzione è riportata nella tabella seguente. Quanti clienti, in numero assoluto e percentuale, hanno pernottato meno di15 notti? E almeno 15 notti? Pernottamenti (x i) Freq.assoluta (n i ) Da 1 a 4 notti 60 Da 5 a 7 notti 70 Freq.assoluta cumulata (N i ) Freq. Percentuale (pi) Freq. Percentuale Cumulata (Pi) 60 5.00 5.00 60 +70=130 9.17 54.17 Da 8 a 14 notti 0 Da 15 a 1 notti 60 Oltre 1 notti 30 Totali 40 130+0=150 8.33 6.50 150+ 60=10 5.00 87.50 10+30=40 1.50 100.00 100.00 Indici sintetici di dimensione Obiettivi dell analisi dei dati : Studiare i fenomeni collettivi che si manifestano in modo diverso da unità a unità variabilità Sintetizzare la distribuzione del carattere mediante un solo valore Indici sintetici di dimensione: medie La media dà un idea sintetica della distribuzione del carattere sul collettivo in esame
Le medie Esistono molti tipi di media a seconda dell informazione che si vuole fornire e del tipo di situazione che si sta analizzando La media deve essere un valore omogeneo con i dati osservati compreso tra le modalità della distribuzione (tra le modalità minima e massima se si è in presenza di una mutabile ordinale o di una variabile (principio di Cauchy)) Si distinguono: medie di posizione medie analitiche Medie di Posizione Moda e Mediana Si possono calcolare sia per caratteri qualitativi che quantitativi Modalità che occupano particolari posizioni all interno della distribuzione del carattere Non necessariamente cambiano se cambiano i dati della distribuzione Sfruttano solo parzialmente l informazione disponibile
Moda Si può calcolare sia per caratteri qualitativi che quantitativi Modalità cui corrisponde la max frequenza (assoluta, relativa o percentuale) Può non essere unica Se il carattere è diviso in classi Classe modale: classe di modalità a cui corrisponde la max densità media di frequenza Esempio: qual è la moda? Distribuzione dei laureati di SDC nell a.a. 003/004 per Corso di Laurea CDL n i STC 48 SCPO 71 La moda è SCPO COOP 6 Totale 15 Distribuzione degli studenti di SDC frequentanti la facoltà nell a.a. 001/00 secondo la Soddisfazione della Scelta Universitaria Soddisfazione n i f i p i Per nulla 4 0.014 1.4 Poco 34 0.10 1.0 Abbastanza 185 0.654 65.4 La moda è ABBASTANZA Pienamente 60 0.1 1. Totale 83 1.000 100.0
Esempio: qual è la moda? Distribuzione degli studenti di SDC frequentanti la facoltà nell a.a. 001/00 per Num. Corsi Frequentati Num. Corsi Freq. n i 1 15 43 3 103 Num. Corsi Freq. n i 1 15 43 3 103 4 80 5 3 6 8 7 Totale 83 4 80 5 3 6 8 7 La moda è 3 Totale 83 Esempio: distribuzione multimodale Distribuzione degli studenti di SDC frequentanti la facoltà nell a.a. 001/00 per Tipo di Maturità Tipo di Maturità n i f i p i Classica 1 0,300 30,0 Scientifica 1 0,300 30,0 Tecnica 7 0,175 17,5 Altro 9 0,5,5 Totale 40 1.000 100.0 Tipo di Maturità n i f i p i Classica 1 0,300 30,0 Scientifica 1 0,300 30,0 Tecnica 7 0,175 17,5 Altro 9 0,5,5 Totale 40 1.000 100.0 La distribuzione è bimodale Le mode sono Classica e Scientifica
Esempio: classe modale Distribuzione di laureati di SDC nell a.a. 003/004 per Voto di Laurea Voto Laurea n i [87-98] 18 (98-10] 7 (10-105] 5 (105-109] 35 Qual è la classe modale? Voto Laurea n i [87-98] 18 (98-10] 7 (10-105] 5 (105-109] 35 (109-111] 5 Totale 130 Ampiezza classe a i 98-87=11 10-98=4 105-103=3 109-105=4 111-109= Densità media d i (18/11)=1,64 7/4=6,75 8/=8,33 35/4=8,75 5/=1,50 a i (109-111] 5 Totale 130 xi xi 1 d i ni / ai La classe modale è (109-111] Mediana Si può calcolare per caratteri qualitativi ordinati e per caratteri quantitativi Definizione modalità che bipartisce la graduatoria (crescente o decrescente) delle osservazioni U.S. Alice Marco Elisa Lucia Fabio Modalità Basso Basso Medio Medio Alto Mediana
Calcolo della mediana per una variabile: 1 Collettivo di n=5 unità Variabile osservata X = Altezza 1. Ordino le unità secondo un ordine crescente di Altezza Calcolo della mediana per una variabile: Collettivo di n=5 unità Variabile osservata X = Altezza. Identifico l unità centrale nella serie ordinata dei dati
Calcolo della mediana per una variabile: 3 Me=155 cm 3. La mediana è il valore che la variabile Altezza assume sull unità che divide il collettivo in due parti numericamente uguali Formalmente n dispari Me=x [(n+1)/] =x [(5+1)/] =x 3 Me N.B. Le misure di posizione sono VALORI, NON FREQUENZE!!
Esempio Distribuzione unitaria dei giudizi di 5 studenti Senza ordine U.S. Giudizio U1 Buono U Insuf. U3 Discreto U4 Suff. U5 Ottimo Ordine crescente Posto U.S. Giudizio 1 U Insuf. U4 Suff. 3 U3 Discreto 4 U1 Buono 5 U5 Ottimo La mediana è Discreto Esempio Distribuzione unitaria dei voti di 8 studenti Senza ordine U.S. Voto U1 U 30 U3 8 U4 18 U5 7 U6 0 U7 5 U8 8 Ordine crescente Posto U.S. Voto 1 U4 18 U6 0 3 U1 4 U7 5 5 U5 7 6 U3 8 7 U8 8 8 U 30 Le mediane sono 5 e 7
Mediana: il calcolo 1) Ordinare in senso crescente (decrescente) le u.s. rispetto alle modalità su di esse osservate del carattere in esame ) Individuare l unità che occupa il posto centrale n dispari Il posto centrale è n pari n 1 Ci sono due posti centrali : n e n 1 Mediana: il calcolo 3) Calcolare la Mediana: è la modalità presentata dall unità individuata al punto ) n dispari La mediana è la modalità dell u.s. che occupa il posto n 1 cioè Me= x n1 n pari La mediana è rappresentata dalla coppia di modalità delle u.s. che occupano i posti n/ e (n/)+1 cioè Me= x (n/) e Me=x (n/)+1 Se il carattere è quantitativo, la mediana è la semisomma delle modalità individuate cioè x n x n 1 Me
Esempio Distribuzione unitaria dei giudizi di 5 studenti Senza ordine U.S. Giudizio U1 Buono U Insuf. U3 Discreto U4 Suff. U5 Ottimo Ordine crescente Posto U.S. Giudizio 1 U Insuf. U4 Suff. 3 U3 Discreto 4 U1 Buono 5 U5 Ottimo n 5 n 1 3 x n 1 x 3 Discreto La mediana è Discreto Esempio Distribuzione unitaria dei voti di 8 studenti Senza ordine U.S. Voto U1 U 30 U3 8 U4 18 U5 7 U6 0 U7 5 U8 8 Ordine crescente Posto U.S. Voto 1 U4 18 U6 0 3 U1 4 U7 5 5 U5 7 6 U3 8 7 U8 8 8 U 30 n 8 n n 1 5 4 x n x 5 x 7 4 x Me x x n 1 Le mediane sono 5 e 7 n n 1 x4 5 x 5 5 7 6
Esempio: mediana per una distribuzione di frequenza Distribuzione degli studenti di SDC frequentanti la facoltà nell a.a. 001/00 secondo la Soddisfazione della Scelta universitaria Soddisfazione n i N i Per nulla 4 4 Poco 34 38 Abbastanza 185 3 Posti in graduatoria Da 1 a 4 Da 5 a 38 Da 39 a 3 La mediana è Abbastanza Pienamente 60 83 Totale 83 Da 4 a 83 n 83 n 1 14 x n x 1 14 Abbastanza Proprietà della Mediana 1) E sempre compresa tra la modalità minima x 1 e la modalità massima x K del carattere ) E robusta cioè è poco sensibile ai cambiamenti che possono avvenire sulle modalità estreme della distribuzione del carattere
Quartili Primo quartile Q 1 : modalità che nella graduatoria (crescente o decrescente) bipartisce il 50% delle osservazioni con modalità più piccole o al più uguali alla Me Terzo quartile Q 3 : modalità che nella graduatoria (crescente o decrescente) bipartisce il 50% delle osservazioni con modalità più grandi o al più uguali alla Me U.S. A G I F B D L H E M C x j 1 3 4 5 6 7 8 9 10 11 Me Q 1 Q 3 Esempio Distribuzione unitaria degli affitti settimanali in euro pagati da 19 studenti Senza ordine U.S. Affitto U1 40 U 43 U3 35 U4 33 U5 45 U6 40 U7 36 U8 36 U9 4 U10 38 U11 48 U1 51 U13 39 U14 4 U15 46 U16 59 U17 53 U18 55 U19 4 Ordine crescente Posto U.S. Affitto 1 U4 33 U3 35 3 U7 36 4 U8 36 5 U10 38 6 U13 39 7 U1 40 8 U6 40 9 U9 4 10 U14 4 11 U19 4 1 U 43 13 U5 45 14 U15 46 15 U11 48 16 U1 51 17 U17 53 18 U18 55 19 U16 59 Affitto 33 35 36 36 38 39 40 40 4 4 4 43 45 46 48 51 53 55 59 Primo Quartile è 38 La mediana è 4 Terzo Quartile è 48
Esempio: mediana e quartili Calcolo di mediana e quartili MEDIANA n 19 n 1 19 1 0 10 Me x x n 1 10 4 QUARTILI n 19 4.75 5 4 4 Q 1 xn x5 4 3 n 35 15 4 38 Q 3 x n x15 3 4 48 Medie Analitiche Media aritmetica Si possono calcolare solo per caratteri quantitativi (variabili continue o discrete) Sono funzioni matematiche di tutti i dati osservati Cambiano se si cambia anche un solo dato Sfruttano completamente l informazione statistica disponibile
Media Aritmetica: il calcolo 1) Distribuzione unitaria semplice del carattere X x 1, x,, x i, x n = + + + + + = = U.S. Voto Maturità 1 98 100 3 70 4 7 5 70 6 100 7 85 8 65 9 60 10 88 Ammontare del carattere n 10 = = + + + + + + + + + = 98 100 70 7 70 100 85 65 60 88 808 M 80.8 10 10 Media Aritmetica: il calcolo ) Distribuzione semplice di frequenze assolute del carattere X Car. X FREQUENZE ASSOLUTE FREQUENZE RELATIVE x 1 n 1 f 1 x n f = + + + + + = = = = x i n i f i x K n K f K Totale n 1 MEDIA ARITMETICA PONDERATA
Esempio: distribuzione di frequenze = Distribuzione degli studenti di SDC frequentanti la facoltà nell a.a. 001/00 per Num. Corsi Frequentati n 83 K 7 = + + + + + + = Num. Corsi n Freq. i 1 15 43 3 103 4 80 5 3 6 8 7 Totale 83 x i n i 1*15=15 *43=86 3*103=309 4*80=30 5*3=160 6*8=48 7*=14 95 (115) (43) (3103) (480) (53) (68) (7) 95 M 3.36 83 83 = = 7 = =. Esempio Distribuzione degli studenti di SDC frequentanti la facoltà nell a.a. 001/00 per Voto di Maturità n 40 K 4 = = = = = =. Voto Maturità n i 60 1 6 66 1 67 3 68 70 71 7 1 73 74 1 75 76 1 79 1 80 1 81 1 8 1 83 1 86 1 87 1 90 9 3 93 94 1 100 5 Totale 40 x i n i 60 14 66 01 136 140 14 7 146 74 150 76 79 80 81 8 83 86 87 180 76 186 94 500 301
Media Aritmetica: il calcolo 3) Distribuzione semplice di frequenze assolute del carattere X raggruppato in classi Car. X n i (x 0, x 1 ] n 1 (x 1, x ] n (x i-1, x i ] n i (x K-1, x K ] n K Totale n Valori centrali c 1 c c i c K = + = + + + + + = = = = Esempio Distribuzione degli studenti di SDC frequentanti la facoltà nell a.a. 001/00 per Voto di Maturità n 83 K 5 Voto Maturità n i [60-70] 7 (70-80] 78 (80-90] 65 (90-95] 18 (95-100] 50 Totale 83 c i 65.0 75.0 85.0 9.5 97.5 c i n i 4680 5850 555 1665 4875 595 = + = = = i 1 = 60 70 c 1 =. 65 = + + + + =
Proprietà della media aritmetica h = = h + = = =. h = 9 = =.1 =. +. Maschi Voto Maturità n i 67 68 3 7 75 76 1 80 1 83 1 87 1 90 1 100 Totale 16 x i n i 134 04 144 150 76 80 83 87 90 00 148 9 =. = = = h h + Femmine Voto Maturità n i 60 1 6 66 1 67 1 68 1 70 71 73 74 1 75 1 79 1 81 1 8 1 86 90 3 9 3 93 94 100 3 Totale 3 = + = x i n i 60 14 66 67 68 140 14 146 74 75 79 81 8 17 70 76 186 188 300 596 =80.08 =.08 segue proprietà della media aritmetica La media di un collettivo è la media aritmetica delle medie dei sottogruppi in cui si può ripartire il collettivo stesso ponderata per le numerosità dei sottogruppi Gruppo 1 3 h L Medie M 1 M M 3 M h M L Numerosità n 1 n n 3 n h n L L M hnh L h M 1 con n n h1 n h
Punti deboli della media aritmetica Robustezza: sensibilità ai valori estremi Rappresentatività nei confronti di distribuzioni asimmetriche. La media aritmetica è un valore rappresentativo nei confronti di distribuzioni simmetriche