Corso di Laurea in Scienze dell Organizzazione Facoltà di Sociologia, Università degli Studi di Milano-Bicocca a.a. 20/202 Statistica Esercitazione 3 9 maggio 202 Coefficiente di variazione. Serie storiche. Connessione e indipendenza statistica Esercizio - misure di variabilità relativa I risultati di un esame universitario negli appelli di giugno e luglio sono stati i seguenti (studenti che hanno passato l esame): Giugno : 8, 2, 8, 24, 8, 20, 2 Luglio : 24, 22, 27, 2, 25, 25, 24, 28 Calcolare la media dei voti e lo scarto quadratico medio per i risultati dei due appelli Stabilire, motivando la risposta, in quale appello i risultati presentano maggiore variabilità. Chiamiamo X il fenomeno risultato all appello di giugno e Y risultato all appello di luglio.
. Calcoliamo la media con la solita formula, partendo dall appello di giugno: x = N x N x i= x i = 7 (8 + 2 + 8 + 24 + 8 + 20 + 2) = 40 7 = 20 Lo scarto quadratico medio si può calcolare come: σ x = N x (x i x) N 2 = x i= 7 ((8 20)2 + (2 20) 2 + + (2 20) 2 ) = 7 (4 + + 4 + 6 + 4 + 0 + ) = 30/7 = 2.07 oppure σ x = N x x 2 i N x2 x e quindi 82 + 2 σ x = 2 + 8 2 + 24 2 + 8 2 + 20 2 + 2 2 20 7 2 = Per l appello di luglio: ȳ = N y N y i= y i = 8 i= 2830 400 = 2.07 7 (24 + 22 + 27 + 2 + 25 + 25 + 24 + 28) = 92 8 = 24.5 242 + 22 σ y = 2 + 27 2 + 2 2 + 25 2 + 25 2 + 24 2 + 28 2 24.5 8 2 = = 4840 600, 25 = 2.8 8 2. Il coefficiente di variazione di X è definito come e perciò vale: cv x = σ x x cv x = 2.07 20 = 0.035 Per Y si ha cv y = 2.8 24.5 = 0.0890 Quindi i risultati presentano maggiore variabilità nell appello di giugno (cv x > cv y ). 2
Esercizio 2 - misure di variabilità relativa La seguente tabella riporta il numero degli esami superati nella sessione estiva dagli studenti iscritti ad un corso di Laurea, distinti per genere (maschi=m e femmine=f): X=N esami M F 26 4 2 32 7 3 45 53 4 7 6 Classificare il fenomeno X e rappresentarne graficamente le due distribuzioni di frequenze; Calcolare moda, mediana e media aritmetica di X per le due distribuzioni e confrontare i risultati; Confrontare la variabilità del fenomeno nelle due popolazioni. La variabile statistica X è quantitativa discreta. In tabella sono riportate frequenze assolute, relative, relative cumulate. In figura la rappresentazione grafica(diagramma a bastoncini). M F p i 0.0 0. 0.2 0.3 0.4 0.5 0.6 p i 0.0 0. 0.2 0.3 0.4 0.5 0.6 2 3 4 x 2 3 4 x 3
Maschi Femmine X f i p i Φ i f i p i Φ i 26 0.236 0.236 4 0.044 0.044 2 32 0.29 0.527 7 0.89 0.233 3 45 0.409 0.936 53 0.589 0.822 4 7 0.064 6 0.78 tot. 0 90 MASCHI Moda=3, Mediana=2, Media=2.3. La media è data infatti da x M = ( 26 + 2 32 + 3 45 + 4 7) = 253/0 = 2.3 0 FEMMINE Moda=3, Mediana=3, Media=2.9 La media è data infatti da x F = ( 4 + 2 7 + 3 53 + 4 6) = 26/90 = 2.9 90 Le studentesse hanno sostenuto un numero medio di esami maggiore di quello dei colleghi maschi (2.9 > 2.3). Inoltre, leggendo i valori mediani, si nota che metà delle studentesse ha sostenuto un numero di esami maggiore o uguale a 3, e metà dei colleghi maschi ha sostenuto un numero di esami maggiore o uguale a 2. Per confrontare la variabilità di X nelle due popolazioni, uso il coefficiente di variazione. MASCHI Lo scarto quadratico medio è dato da: σ 2 x M = 0 (2 26 + 2 2 32 + 3 2 45 + 4 2 7) 2.3 2 = 67/0 5.29 = 0.9 e quindi cv xm = σ xm / x M = 0.9/2.3 = 0.39. FEMMINE Lo scarto quadratico medio è dato da: σ 2 x F = 90 (2 4 + 2 2 7 + 3 2 53 + 4 2 6) 2.9 2 = 805/90 8.6 = 0.73 e quindi cv xf = σ xf / x F = 0.73/2.9 = 0.252. Quindi, il numero di esami X è più variabile tra i maschi. 4
Esercizio 3 - Serie temporali In tabella, è riportata la serie storica degli incidenti stradali lesivi avvenuti nella provincia di Monza Brianza nel periodo 2003-2007: Anno Incidenti stradali 2003 3553 2004 3445 2005 3528 2006 344 2007 3209. Calcolare i numeri indice a base fissa (anno base: 2003) e a base mobile; le variazioni temporali percentuali, commentando i risultati 2. Calcolare il tasso di variazione medio annuo, verificando che non è uguale alla media aritmetica delle variazioni percentuali annue. Si ha: NI (a base fissa) = x t 00 x t =,..., T NI (a base mobile) = x t 00 x t t = 2,..., T In tabella sono riportati i numeri indice a base fissa e mobile e le relative variazioni percentuali. Anno t N incidenti NI b.f. var.% NI b.m. var.% x t teoriche 2003 3553 00.0 3553 2004 2 3445 97.0 3.0 97.0 3.0 3464 2005 3 3528 99.3 0.7 02.4 +2.4 3377 2006 4 344 96.8 3.2 97.5 2.5 3292 2007 5 3209 90.3 9.7 93.3 6.7 3209 Rispetto all anno base (2003) il numero di incidenti è sempre calato negli anni successivi; tuttavia si è registrato un aumento passando dal 2004 al 2005. 2. Il tasso di variazione medio annuo è dato da ( T ν = ) ( ) 4 x 5 /x 00 = 3209/3553 00 = 2.5% ed è diverso dalla media aritmetica delle variazioni percentuali annue: ( 3 + 2.4 2.5 6.7) = 2.45% 4 5
Nell ultima colonna della tabella, i valori teorici ottenuti utilizzando il tasso (00 + ν) ν: x t = x t, t = 2,..., T. 00 Esercizio 4 - Serie temporali Sia X t il prezzo in euro di un certo bene nell anno t (anno base: 2002 t = ). Completare la seguente tabella inserendo i valori corretti: Anno t prezzo NI base fissa NI base mobile 2002 250.00 00.0-2003 2? 04.0? 2004 3? 07.5? 2005 4?? 98.6 2006 5? 09.0? Calcolare il tasso di variazione medio annuo. x 2 si può calcolare tenendo conto che è e quindi x 2 = x NI 2 00 x 3 si può calcolare tenendo conto che è e quindi NI 2 = x 2 x 00 = 04 = 250 04 00 = 260 NI 3 = x 3 x 00 = 07.5 x 3 = x NI 3 00 = 268.75 x 4 si può calcolare tenendo conto che è e quindi 3NI 4 = x 4 x 3 00 = 98.6 x 4 = x 3 3NI 4 00 = 265 x 5 si può calcolare tenendo conto che è NI 5 = x 5 x 00 = 09 6
e quindi x 5 = x NI 5 00 = 272.5 I numeri indice a base fissa e mobile mancanti si calcolano poi utilizzando le note formule dirette già viste nell esercizio precedente. La tabella completa è: Anno t prezzo NI base fissa ( NI t ) NI base mobile ( t NI t ) 2002 250.00 00.0-2003 2 260.00 04.0 04.0 2004 3 268.75 07.5 03.4 2005 4 265.00 06.0 98.6 2006 5 272.50 09.0 02.8 Il tasso di variazione medio annuo si ricava come: ( T ν = ) ( ) 4 x 5 /x 00 = 272.5/250 00 = +2.8% Esercizio 5 - Connessione Un sondaggio effettuato su un campione di abitanti di un comune relativo ad un recente provvedimento dell amministrazione comunale ha dato i seguenti risultati: X,Y f c n M 5 5 5 F 20 0 0 (M = maschio, F = femmina, f = favorevole, c = contrario, n = non sa o non risponde ). Calcolare le frequenze marginali, le frequenze condizionate (di Y dato x i e di X dato y j ) e le frequenze attese nel caso di indipendenza tra le due variabili; Verificare se X e Y sono indipendenti: in caso contrario, calcolare l indice di connessione (e normalizzarlo). Nella seguente tabella sono riportati i valori delle frequenze assolute marginali per X (ultima colonna) e Y (ultima riga). X,Y f c n f i M 5 5 5 35 F 20 0 0 40 f j 35 25 5 75 7
Le due prossime tabelle riportano, invece, i valori delle frequenze (relative) condizionate di Y dato x i e di X dato y j, e le frequenze marginali relative di Y e di X (in blu) calcolate come f j /N e f i /N rispettivamente. X,Y f c n M 0.429 0.429 0.43 F 0.5 0.25 0.25 0.467 0.333 0.2 X,Y f c n M 0.429 0.6 0.333 0.467 F 0.57 0.4 0.667 0.533 Le frequenze assolute attese nel caso di indipendenza tra X e Y si calcolano con la formula: Ad esempio, f ij = f i f j N f = f f N per ogni i =,..., k = 35 35/75 = 6.3 j =,..., h f2 = f f 2 = 35 25/75 =.7 N e così via. Si ottiene, alla fine, la seguente tabella delle frequenze teoriche (o attese) in caso di indipendenza statistica (tabella teorica di i.s.): X,Y f c n fi = f i M 6.3.7 7 35 F 8.7 3.3 8 40 f j = f j 35 25 5 75 X e Y non sono indipendenti: infatti, le frequenze congiunte f ij non sono tutte uguali alle frequenze teoriche fij: per esempio, f = 5 6.3 = f. Si poteva giungere alla stessa conclusione anche osservando le distribuzioni di frequenze condizionate, per esempio, di Y dato x i, i =, 2: essendo diverse, non c è indipendenza tra X e Y. E possibile a questo punto calcolare l indice di connessione, utilizzando la formula operativa k h f χ 2 ij 2 = N ( ) f i f j i= 8 j=
che coi nostri dati dà: ( ) 5 χ 2 2 = 75 35 35 + 52 35 25 + 52 35 5 + 202 40 35 + 02 40 25 + 02 40 5 Essendo poi = 75 0.0408 = 3.06 N min {h, k } = N min {, 2} = N = N si ha che l indice di connessione normalizzato è pari a χ 2 = χ 2 N min(h, k ) = χ2 N = 0.0408 che indica pertanto un grado di connessione molto basso tra le due variabili. In alternativa, è possibile calcolare l indice Chi Quadro partendo direttamente dalla sua definizione: χ 2 = k h (fij f ij ) 2 f i= j= ij =.32 6.3 + 3.32.7 + 22 7 +.32 8.7 + 3.32 3.3 + 22 8 = 3.02 che coincide (solo alla prima cifra decimale a causa delle approssimazioni introdotte nel calcolo delle frequenze teoriche) col valore calcolato in precedenza. 9