24.02.2014 - appello ENE - docente: E. Piazza obbligatorio - n. iscrizione sulla lista se non ve lo ricordate siete fritti; o no? il presente elaborato si compone di x (ics) pagine Cognome Nome matr.n. Avvertimento: nello svolgimento degli esercizi se una quantità è indicata con il simbolo x continuare a chiamarla x, e se si chiama W non chiamarla X, e se si chiama t i non chiamarla x i, e se si chiama T n nonindicarlacon X n.sevoletescriveredipendentinonscriveteindipendenti,sedovete sottrarre non sommate. Si fanno troppi errori di distrazione. Mi raccomando: concentrazione. Si consiglia di lavorare con 3 decimali, arrotondando opportunamente. Problema 1. Quando il camaleonte Jordan caccia in primavera, il numero di insetti che riesce a catturare è ben descritto da un processo di Poisson. In mezz ora mediamente Jordan cattura 5 insetti. Indicare con N t il numero di insetti catturati nell intervallo di tempo(0; t], t misurata in minuti. 1.1 Si calcoli la probabilità che in 1 minuto il camaleonte Jordan catturi al massimo un insetto. N t rappresenta il numero di insetti catturati in t minuti. Sia ν il numero medio di insetti catturati in 1 minuto. Allora N t P(νt). Dato che il numero medio di insetti catturati in 30 minuti è pari a 30ν =5, si ottiene ν=1/6 e quindi N t P( 1 6 t). N 1 P( 1 6 ) rappresenta il numero di insetti catturati in 1 minuto; la probabilità che in 1 minuto il camaleonte catturi al massimo un insetto è quindi P(N 1 1)=P(N 1 =0)+P(N 1 =1)=e 1/6 + 1 6 e 1/6 =0.9876 1.2 Si calcoli la probabilità che in 2 minuti il camaleonte Jordan catturi più di 2 insetti. N 2 P( 1 3 ) rappresenta il numero di insetti catturati in 2 minuti; la probabilità che in 2 minuti il camaleonte catturi più di 2 insetti è quindi P(N 2 >2)=1 P(N 2 2)=1 P(N 1 =0) P(N 1 =1) P(N 2 =2) =1 e 1/3 1 3 e 1/3 1 2 1 e 1/3 2 3 =0.0048 1.3 Si calcoli, con una opportuna approssimazione, la probabilità che in 2 ore il camaleonte Jordan catturi almeno 25 insetti. Il numero di insetti catturati in 2 ore è N 120 P(20). La probabilità cercata può essere approssimata grazie al TCL (dato che λ=νt >5) nel seguente modo 24.5 20 P(N 120 25)=1 P(N 120 24.5) 1 φ =1 φ(1.0062)=0.1562 20 Per sfamarsi, ogni giorno, il camaleonte Jordan deve catturare almeno 25 insetti. 1.4 Calcolare il numero n minimo di minuti che il camaleonte Jordan deve dedicare alla cattura di insetti ogni giorno, affinché la probabilità di sfamarsi risulti almeno pari al 25%. 1
Dobbiamo trovare t tale che P(N t 25) 0.25. Poiché P(N 120 25) 0.1562 <0.25 la soluzione sarà sicuramente data da un t > 120, che possiamo quindi determinare via approssimazione normale: 24.5 t/6 P(N t 25)=1 P(N t 24.5) 1 φ 0.25 t/6 24.5 t/6 t/6 < z 0.25 =0.674 t >128.3 n=129. 2
Problema 2. Gli Scalari sono pesci d acqua dolce che amano vivere in un ambiente leggermente acido. Per abbassare il ph e rendere l acquario adatto agli Scalari, si possono usare vari metodi naturali come le foglie di Catappa o le pigne di Ontano. Si vuole testare se le foglie di Catappa producono un abbassamento medio del ph maggiore di quello causato dalle pigne di Ontano. A tal fine, si misurano gli abbassamenti di ph per 41 acquari trattati con foglie di Catappa e 31 acquari in cui sono state immerse pigne di Ontano. Elaborando i dati raccolti si ottengono le seguenti medie e varianze campionarie, c=1.0513, s 2 C=0.08838, ō=0.9689, s 2 O=0.2359, e i seguenti grafici dei quantili, affiancati dai relativi esiti del test di Shapiro-Wilk: 2.1 Possiamo considerare normale la diminuzione del ph per entrambi i trattamenti? Perché? Sia X C la diminuzione di ph per un acquario trattato con le foglie di Catappa e sia X O la diminuzione di ph per un acquario trattato con le pigne di Ontano. Siano µ C, σ 2 C e µ O, σ 2 O le relative medie e varianze. I Q-Q plot di entrambi i campioni sono approssimativamente distribuiti come due rette; inoltre il test di Shapiro-Wilk fornisce in entrambi i casi p-value alti (rispettivamente 0.3064 e 0.4302), quindi possiamo assumere la normalità di entrambe le diminuzioni. 2.2 Possiamo considerare uguali le varianze della diminuzione del ph per i due trattamenti? Rispondere mediante un opportuno test d ipotesi di livello 5%. Si specifichino ipotesi nulla, ipotesi alternativa, regione critica, condizioni d uso, risultato del test, tipo di conclusione (forte o debole). Eseguiamo un test per le ipotesi 3
H 0 : σ 2 C= σ 2 O H 1 : σ 2 C= σ 2 O Grazie alla normalità delle due diminuzioni, possiamo usare la regione critica di livello α RC α = f 0 = s2 C s 2 < f 1 α (n 2 C 1,n O 1) f 0 = s2 C O s 2 > fα (n 2 C 1,n O 1). O Inserendo i dati, otteniamo f 0 =0.3747 e RC 0.05 ={f 0 <0.515)} {f 0 >2.01} quindi rifiutiamo l ipotesi nulla al 5% (p-value 0.003975): le varianze sono diverse (conclusione forte). 2.3 Stimare la differenza tra le due diminuzioni medie con un intervallo di confidenza bilatero al 95% IC 95%. Avendo le due diminuzioni diversa varianza, calcoliamo i gradi di libertà ν= s 2 2 C n C + s2 O no (s 2 C /nc)2 n C+1 + (s2 O /no)2 n O+1 2=47.7 48 con cui si calcola s 2 C IC 95% (µ C µ O )= c ō±t 0.025 (48) + s2 O =0.0824±2.011 0.0989= n C n O = 0.0824 ± 0.1987 =( 0.1162, 0.2811). 2.4 Abbiamo una forte evidenza statistica che le foglie di Catabba producano una diminuzione media del ph maggiore delle pigne di Ontano? Rispondere mediante un opportuno test d ipotesi di livello 1%. Si specifichino ipotesi nulla, ipotesi alternativa, regione critica, condizioni d uso, conclusione. Dobbiamo eseguire un test per le ipotesi H 0 : µ C µ O H 1 : µ C > µ O Avendo le due diminuzioni diversa varianza, usiamo la regione critica di livello α c ō t 0 = > t s 2 α (ν), C n C + s2 O no dove ν sono i gradi di libertà già calcolati. Inserendo i nostri dati, troviamo t 0 =0.834 t 0.01 (48)=2.41 e quindi non possiamo rifiutare l ipotesi nulla all 1%: non c è una forte evidenza statistica che le foglie di Catabba producano una diminuzione media del ph maggiore delle pigne di Ontanole. 4
Problema3. L infermiera Ambra è un po sbadata e si è dimenticata la quantità di paracetamolo che il medico ha prescritto per i due nuovi pazienti! Fortunatamente la sua amica Ingrid è molto previdente e, conoscendo la scarsa memoria dell amica, ha preso nota delle quantità di paracetamolo (in mg) somministrate ai 22 giovani pazienti del giorno precedente, e il loro peso corporeo (in kg). Ingrid suggerisce inoltre che la relazione tra queste due quantità possa essere descritta mediante un modello empirico gaussiano con responso la quantità Q di paracetamolo prescritta e predittore il peso P del paziente. Per verificare la validità del modello e inferire sui suoi parametri viene utilizzato il software R, ottenendo il seguente risultato: 3.1 Scrivere l equazione della retta di regressione stimata. ˆQ= 2.6641+12.7860P. 3.2 Commentare la validità del modello di regressione. Il modello utilizzato spiega buona parte della variabilità dei dati (il coefficiente di determinazione R 2 è molto alto, pari a0.9392). Le ipotesi gaussiane sugli errori sembrano essere verificate: il grafico dei residui è la classica nuvola e il Q-Q plot dei residui è abbastanza vicino a una retta (la coda destra si discosta un po dalla retta, ma questa può essere solo una fluttuazione dovuta allo scarso numero di dati utilizzati), ad indicare che l ipotesi di omoschedasticità e normalità degli errori sia verificata. Inoltre, il p-value del test di Shapiro-Wilk è alto (0.4007) quindi possiamo assumere gli errori normali. Il regressore P, e di conseguenza il modello di regressione stesso, sembra essere significativo (p-value del t test per β 1 =0 molto basso, pari a1.25e 13). L intercetta tuttavia non sembra essere significativamente diversa da zero. 3.3 Fornire una stima intervallare, di confidenza 99% (IC 99% ) di b 1 cioè della variazione media di Q corrispondente a un aumento unitario di P. 5
oppure IC 99% (β 1 )=ˆβ 1 ± (n 1) SS E t n 2 (0.995)=(10.72;14.86). IC 99% (β 1 )=ˆβ 1 ±SE(ˆβ 1 )t 0.995 (n 2)=(10.72;14.86). 3.4 Aiuta Ambra, fornendole un intervallo al 90% (IC 90% ) per la quantità di paracetamolo prescritta a ciascuno dei suoi due nuovi pazienti, che pesano rispettivamente 19 kg e 25 kg. Può essere utile ricordare che var[b 0 ]= σ2 p 2 i n = σ 2 ( 1 n + p2 ). Per una nuova osservazione p 0 l intervallo di previsione al 90% è dato da: oppure dove non conosciamo e p. Ricaviamo SE(ˆβ 0 )= Per quanto riguarda Q 19 si ha: IC 90% (Q 0 )=ˆβ 0 +ˆβ 1 p 0 ±t n 2 (0.95) 1+ 1 IC 90% (Q 0 )=ˆβ 0 +ˆβ 1 p 0 ±t 0.95 (n 2)ˆσ n +(p 0 p) 2 1+ 1 n +(p 0 p) 2 ˆσ 2 ˆσ 2 SE(ˆβ 1 )= = SE(ˆβ 1 ) =307.6 2 ˆσ 2 p 2 i 1 = ˆσ 2 n n + p2 SSE n 2.. p= SE(ˆβ 0 ) 2 Spp ˆσ 2 1 =17.08 n oppure IC 90% (Q 19 )= 2.6641+12.7860 19±13.12 t 20 (0.95)=(217.6,262.9), IC 90% (Q 19 )= 2.6641+12.7860 19±13.12 t 0.95 (20)=(217.6,262.9), Per quanto riguarda Q 25 si ha invece: oppure IC 90% (Q 25 )= 2.6641+12.7860 25±14.26 t 20 (0.95)=(292.4,341.58). IC 90% (Q 25 )= 2.6641+12.7860 25±14.26 t 0.95 (20)=(292.4,341.58). 3.5 Quale dei due intervalli è più attendibile? Perché? È più attendibile la previsione per il paziente che pesa 19 kg, in quanto, nonostante stiamo usando lo stesso buon modello e lo stesso livello, p 0 =19 è centrale rispetto ai dati utilizzati per elaborare e validare tale modello, mentre p 0 =25 è appena fuori dal range dei dati, e quindi potrebbe essere al di fuori del range di validità del modello. 6