Politecnico di Milano - Scuola di Ingegneria Industriale I Appello di Statistica per Ingegneria Energetica 9 luglio 0 c I diritti d'autore sono riservati. Ogni sfruttamento commerciale non autorizzato sarà perseguito. Cognome, Nome e Numero di matricola: Problema. I signori Giuseppe e Tino, due pensionati, si sdano da anni a scacchi nel bar vicino a casa. Avendo ormai imparato le tecniche del rivale molto bene, le partite sono sempre molto combattute. In particolare, il signor Giuseppe vince contro il signor Tino con con una probabilità del 55%. (a) Si calcoli la probabilità che su 6 partite, il signor Giuseppe vinca 3 volte e il signor Tino le altre 3. (b) Si calcoli il numero minimo di partite che devono essere giocate anché la probabilità che il signor Giuseppe vinca almeno una volta sia superiore a 0.9. (c) In un anno i signori Giuseppe e Tino riescono a fare 50 partite. Si calcoli la probabilità che sulle 50 partite, almeno la metà delle volte vinca il signor Tino. (d) Si calcoli il numero minimo di partite che devono essere giocate anché la probabilità che il signor Giuseppe vinca almeno 0 partite sia superiore a 0.9. Risultati. (a) Sia Y il numero di partite vinte da Giuseppe sulle 6 partite giocate. Supponendo indipendenti le partite, si ha Y Bin(6, 0.55). La probabilità richiesta è ( ) 6 P (Y = 3) = 0.55 3 0.45 3 = 0.303 3 (b) Sia W il numero di partite vinte da Giuseppe sulle n partite giocate. Si ha W Bin(n, 0.55). La probabilità che sulle n partite almeno uno sia vinta da Giuseppe è pari a P (W ) = P (W = 0) = 0.45 n. Pertanto si deve determinare n tale che 0.45 n > 0.90, e quindi n > log(0.) log 0.45 =.88, quindi almeno 3 partite. (c) Sia X il numero di partite vinte da Giuseppe sulle 50 partite giocate. Si ha X Bin(50, 0.55). Pertanto E(X) = 50 0.55 = 7.5 e V ar(x) = 50 0.55 0.45 =.375. Vogliamo P (X 5). Utilizzando il TLC, con la correzione di continuità, P (X 5) = P (X 5.5) P (Z = P (Z 0.569) = 0.8. 5.5 7.5.375 ) = P (Z 0.569) = P (Z 0.569) (d) Sia ancora W il numero di partite vinte da Giuseppe su n partite giocate. Pertanto W Bin(n, 0.55) con valorte atteso E(W ) = n 0.55 e varianza V ar(w ) = n 0.55 0.45. Vogliamo n tale che P (W 0) > 0.9. Utilizzando il TLC con la correzione di continuità, da cui.8 < 0.9 < P (W 0) = P (W 9.5) P (Z 9.5 0.55 n 0.497 0.55 n 9.5 ) = P (Z n 0.497 n ) 0.55 n 9.5 0.497, ovvero n 44 (consistente con l'approssimazione normale). n
Problema. Il Dottor Gaius Baltar intende misurare e confrontare il calore q e il calore q sviluppato da due dierenti processi chimici. Lo strumento di misura utilizzato, sempre il medesimo, introduce un errore casuale gaussiano di media nulla e varianza σ. (a) Qual è la distribuzione di una misura X di q? E la distribuzione di una misura Y di q? Il Dottor Baltar intende eseguire 5 misure X k di q e 7 misure Y l di q. Tutte le misure sono indipendenti. (b) Proporre degli stimatori ottimali per q e q, indicando per ciascuno la sua distribuzione, la sua distorsione e il suo errore quadratico medio. Eseguite le misure, con un livello di condenza del 95% il Dottor Baltar stima che: 4.78304 < q < 5.6657 4.389 < q < 4.9834 (c) Quanto valgono media campionaria e varianza campionaria delle misure di q? E di q? (d) Sulla base delle misure eseguite, stimare la varianza σ dello strumento. (e) Fornire una stima intervallare per q q ad un livello di condenza del 95%. (f) Quale p-value forniscono i dati se il Dottor Baltar vuole vericare se q = q? (g) Cosa potrebbe concludere quindi il Dottor Baltar? Conclusione forte o debole? Risultati. (a) X N(q, σ ), Y N(q, σ ). (b) Q = X 5 N(q, σ /5), stimatore non distorto con MSE(Q ) = Var(Q ) = σ /5. Q = Y 7 N(q, σ /7), stimatore non distorto con MSE(Q ) = Var(Q ) = σ /7. (c) Le medie campionarie x 5 e y 7 si ricavano come i valori centrali dei due intervalli. indicando con (a, b) un intervallo di condenza per q al 95%, si ha: x 5 = a + b = 4.78304 + 5.6657 Le varianza campionarie s X e s Y si ottiene e dal secondo (b a) = t 0.05 (4) s X 5 = 5.9793, y 7 = a + b = 4.389 + 4.9834 In particolare, = 4.650680. si ricavano dalle ampiezze dei due intervalli. Dal primo intervallo s X = 5 (b a) 4 t 0.05 (4) = 0.56 (b a) = t 0.05 (6) s Y 7 s Y = 7 (b a) 4 t 0.05 (6) = 0.94. (d) σ = s p = 4 s X + 6 s Y 0 = 0.59 (e) x 5 y 7 ± s p 5 + 7 t 0.05(0) = 0.5475 ± 0.455996 ovvero (0.0954,.00347) (f) Il p-value dei dati per H 0 : q = q contro H : q q è la soluzione α di cioè.8 = t 0.05 (0) <.674036 = t α/ (0) <.764 = t 0.0 (0), per cui p-value=0.033, ovvero, usando le tavole, 0.0<p-value<0.05. x 5 y 7 s p 5 + 7 = t α/ (0), (g) Il p-value cade fra gli usuali livelli di signicatività per cui la conclusione dipende molto da quanto il Dottor Baltar voglia rischiare di riutare a torto l'ipotesi q = q. Eseguendo il test al 5% si può concludere che q q (conclusione forte).
Problema 3. Il professor Pico de Paperis sta recentemente studiando il mondo delle tartarughe. In particolare il suo interesse è rivolto verso la Chelydra serpentina (o tartaruga azzannatrice), una tartaruga appartenente alla famiglia delle Chelydridae. Il professore vuole cercare una relazione tra la durezza D (secondo la scala Vickers) del carapace della tartaruga azzannatrice, valore dicile da ottenere in quanto una sua misurazione comporterebbe lesioni per l'animale, e la lunghezza L (in cm) del carapace stesso. A tale scopo ha a disposizione le misurazioni di durezza e di lunghezza del carapace per 4 esemplari di tartaruga azzannatrice e decide di impostare il seguente modello: D i = β 0 + β L i + ɛ i con ɛ i N(0, σ ) per i =,..., 4. Per vericare la validità del suo modello chiede aiuto ad un gruppo di studenti di ingegneria energetica del Politecnico di Milano, che gli mandano via fax una sintesi delle analisi eettuate attraverso il software statistico R, il graco dei residui del modello (Figura ) e le seguenti quantità, utili al lavoro del professore: 4 i= (l i l) = 309.978, 4 i= (d i d)(l i l) = 3468.405, 4 i= l i = 57.6, 4 i= d i = 665.966, 4 i= (d i d i ) = 4544.967. Purtroppo il fax del professore non è molto funzionante, pertanto 6 quantità non sono leggibili. a) Per aiutare il professor Pico de Paperis, completate l'output di R in Figura, riportando i calcoli eettuati. Dopo un'attenta riessione, il professor Pico de Paperis decide di provare a includere nel modello anche il peso P della tartaruga (in kg), quantità questa di cui sono disponibili le misurazioni per i 4 esemplari considerati in precedenza. Il professore, quindi, vuole valutare l'ecacia del seguente modello: D i = β 0 + β P i + β L i + ɛ i con ɛ i N(0, σ ) per i =,..., 4. Una sintesi delle analisi eettuate con il software statistico R e il graco dei residui del modello sono presenti in Figura. b) Valutare le performance dei due modelli proposti ed indicare qual è il migliore. c) Sulla base delle tabelle e dei graci allegati, ritenete sia il caso di considerare anche un terzo modello? Perché? d) Considerando il modello scelto al punto b), stimare la variazione media della Durezza del carapace della tartaruga azzannatrice se, a parità degli altri predittori, la Lunghezza aumenta di 40 cm. Si forniscano sia una stima puntuale, sia una stima intervallare con un livello di condenza del 95%. Nessun animale è stato ferito, torturato o ucciso nella preparazione di questo esercizio. 3
Soluzioni. a) Residual standard error: σ = β = P 4 i= (di d)(li l) P 4 i= (li l) =.7 β 0 = d β l = 4.796 bσ se( β ) = P 4 = 0.585 i= (li l) [ se( β 0 ) = σ = 6.84 t 0 = b β 0 se( b β 0) = 6.69 ] 4 + P l 4 i= (li l) P4 i= (di b d i) 4 = 4.37 b) Il secondo modello sembra decisamente migliore. Infatti l'r -adjusted è il doppio rispetto a quello del primo modello e anche il p-value del test sulla signicatività della regressione diminuisce. Per quanto riguarda l'analisi dei residui entrambi i modelli sembrano soddisfare le ipotesi di omoschedasticità (il graco dei residui non presenta trend, la varianza sembra essere costante) e normalità (i p-value dei due test di shapiro sono molto alti). c) Il predittore Lunghezza del secondo modello non risulta signicativo e quindi sarebbe opportuno considerare un terzo modello con il Peso come unico predittore. d) Utilizzando il secondo modello, la variazione media della Durezza del carapace della tartaruga azzannatrice se, a parità degli altri predittori, la Lunghezza aumenta di 40 cm vale Pertanto la sua stima puntuale è E[D P, L + 40] E[D P, L] = β 40. D P,L+40 D P,L = β 40 = 0.354 40 = 5.46, e la sua stima intervallare con un livello di condenza del 95% è ( ) ( β ± se( β ) t 0.05 ()) 40 = 0.354 ± 0.805.080 40 = 5.46 ± 5.076, ovvero ( 9.60, 0.434). 4
Figura : Output modello Figura : Output modello 5