Facoltà di Economia Università di Pavia 3 Novembre 2009 Prova scritta di Analisi dei dati Modalità A Indicare in alto a sinistra, nell ordine: Cognome, Nome, Numero di Matricola, Modalità del Compito. Problema (9 PUNTI) Un indagine sull acquisto di computer portatili ha prodotto i seguenti risultati (la spesa è riportata in migliaia di euro): Età (E i ) Tipologia Optional Spesa acquistata (T i ) acquistati (O i ) sostenuta (S i ) 9 Mac.5 2 Windows 2.9 28 Mac 0 2 25 Windows.5 24 Windows 2.3 27 Mac 3.4 30 Windows 2 2.2 45 Windows 3 2.5 23 Mac 4.6 40 Windows 2 2. i= E i = 282 i= O i = 9 i= S i = 9 i= E2 i = 8570 i= O2 i = 49 i= S2 i = 37.42 a) Calcolare media e mediana della variabile Età. (2 punti) µ = 28.2, Me = 26 b) Dopo averla riclassificata negli intervalli [0,.5], (.5, 2] e (2, 2.5], rappresentare la distribuzione di frequenza della variabile Spesa con un istogramma. (4 punti) n i p i Densità [0,.5] 3 0.3 0.2 (.5, 2] 3 0.3 0.6 (2, 2.5] 4 0.4 0.8 Histogram of s Density 0.0 0.2 0.4 0.6 0.8 0.0 0.5.0.5 2.0 2.5 s
c) Calcolare la mediana della variabile Spesa sulla base dei dati raggruppati come al punto precedente. (3 punti) (Me.5).6 =.2 Me =.5 +.2/.6 =.83 Problema 2 (7 PUNTI) 2a) Si considerino nuovamente i dati di cui al Problema. Calcolare l indice di eterogeneità relativo di Gini per la variabile Tipologia di computer acquistato. (3 punti) Due modalità, Mac e Windows con pesi p =.4 e p 2 =.6 G = k i= p2 i =.48 G = = 2G =.96 G k k 2b) Si considerino nuovamente i dati di cui al Problema. Mediante l utilizzo di un opportuno indice, stabilire se è più variabile Età od Optional. (4 punti) CV E = 0 e analogamente si ottiene CV O = 0.60 Problema 3 (9 PUNTI) i= E2 i ( 0 0 i= E i ) 2 0 i= E i = 0.28 3a) Specificando opportunamente le ipotesi, si enunci il teorema di Bayes. (3 punti) 3b) Enunciare le condizioni che garantiscono l indipendenza tra due eventi A e B. (3 punti) 3c) Due eventi A e B sono tali che P (A B) = 0.3 e P (A B) = 0.2. Determinare P (B). (3 punti) P (A B) = P (A B)P (B) P (B) = P (A B) P (A B) =.2/.3 =.67 P (B) =.33
Problema 4 (5 PUNTI) Si consideri il seguente box-plot. 4a) Che tipo di informazioni si possono trarre dal box-plot circa la simmetria della distribuzione rappresentata? ( punto) Asimmetria positiva, dato che la mediana è molto vicina al minimo, e il baffo lungo per valori maggiori del terzo quartile farà sì che la media superi la mediana. 4b) Spiegare che cosa rappresenta il simbolo grafico isolato indicato con, e perchè il baffo non si estende fino a tale punto. (2 punto) È un outlier, cioè valore anomalo, rappresentato isolatamente se supera min{x (n), Q 3 +.5DI}, dove Q 3 è il terzo quartile e DI è la differenza interquartile. 4c) Fornire la forma analitica dell indice di asimmetria γ, specificando con precisione tutte le quantità coinvolte. (2 punti)
Facoltà di Economia Università di Pavia 3 Novembre 2009 Prova scritta di Analisi dei dati Modalità B Indicare in alto a sinistra, nell ordine: Cognome, Nome, Numero di Matricola, Modalità del Compito. Problema (9 PUNTI) Un indagine sull acquisto di computer portatili ha prodotto i seguenti risultati (la spesa è riportata in migliaia di euro): Età (E i ) Tipologia Optional Spesa acquistata (T i ) acquistati (O i ) sostenuta (S i ) 8 Windows 2.3 22 Mac.8 27 Mac 3 2. 23 Windows.4 25 Windows 2 2. 26 Mac 4.4 29 Windows 2 2.3 32 Windows.5 30 Windows.2 28 Windows 3 2.0 i= E i = 260 i= O i = 20 i= S i = 7. i= E2 i = 696 i= O2 i = 50 i= S2 i = 30.65 a) Calcolare media e mediana della variabile Età. (2 punti) µ = 26, Me = 26.5 b) Dopo averla riclassificata negli intervalli [,.4], (.4, 2] e (2, 2.5], rappresentare la distribuzione di frequenza della variabile Spesa con un istogramma. (4 punti) n i p i Densità [,.4] 4 0.4 (.4, 2] 3 0.3 0.5 (2, 2.5] 3 0.3 0.6 Histogram of s Density 0.0 0.2 0.4 0.6 0.8.0.0.5 2.0 2.5 s
c) Calcolare la mediana della variabile Spesa sulla base dei dati raggruppati come al punto precedente. (3 punti) (Me.4).5 =. Me =.4 +./.5 =.6 Problema 2 (7 PUNTI) 2a) Si considerino nuovamente i dati di cui al Problema. Calcolare l indice di eterogeneità relativo di Gini per la variabile Tipologia di computer acquistato. (3 punti) Due modalità, Mac e Windows con pesi p =.3 e p 2 =.7 G = k i= p2 i =.42 G = = 2G =.84 G k k 2b) Si considerino nuovamente i dati di cui al Problema. Mediante l utilizzo di un opportuno indice, stabilire se è più variabile Età od Optional. (4 punti) CV E = 0 e analogamente si ottiene CV O = 0.50 Problema 3 (9 PUNTI) i= E2 i ( 0 0 i= E i ) 2 0 i= E i = 0.5 3a) Specificando opportunamente le ipotesi, si enunci il teorema di Bayes. (3 punti) 3b) Enunciare le condizioni che garantiscono l indipendenza tra due eventi A e B. (3 punti) 3c) Due eventi A e B sono tali che P (B A) = 0.4 e P (A B) = 0.3. Determinare P (A). (3 punti) P (A B) = P (B A)P (A) P (A) = P (A B) P (B A) =.3/.4 =.75 P (A) =.25
Problema 4 (5 PUNTI) Si consideri il seguente box-plot. 4a) Che tipo di informazioni si possono trarre dal box-plot circa la simmetria della distribuzione rappresentata? ( punto) Asimmetria negativa, dato che la mediana è molto vicina al massimo, e il baffo lungo per valori minori del primo quartile farà sì che la media sia inferiore alla mediana. 4b) Spiegare che cosa rappresenta il simbolo grafico isolato indicato con, e perchè il baffo non si estende fino a tale punto. (2 punto) È un outlier, cioè valore anomalo, rappresentato isolatamente se è inferiore a max{x (), Q.5DI}, dove Q 3 è il terzo quartile e DI è la differenza interquartile. 4c) Fornire la forma analitica dell indice di asimmetria γ, specificando con precisione tutte le quantità coinvolte. (2 punti)