Elementi di Probabilità e Statistica - 5AA - A.A. 4-5 Prova scritta - 4 settembre 5 Problema. Tornato a casa dal supermercato con la spesa, Alberto racconta ai suoi co-inquilini Bruno e Carlo che si potrebbe modellizzare il tempo di attesa T in fila ad una cassa come una variabile aleatoria avente legge Exp/n, se vi sono n persone in fila.. Sulla base del fatto che T, in realtà, sarebbe la somma di n tempi indipendenti, ciascuno con legge Exp, Bruno ritiene più appropriato che T sia una variabile aleatoria con legge Γn,. Confrontare media e varianza per un tempo di attesa avente questa legge, rispetto al modello di Alberto. Oltre ad arrivare al risultato utilizzando la formula nota per i momenti di una Γr, λ, si provi a trovare il risultato partendo dalla sola densità esponenziale, più l uso di teoremi di base ed alcuni calcoli.. Claudio, che ama generalizzare, propone quindi un modello più complicato, in cui alla persona i-esima in fila associamo un tempo T i con legge Exp/τ i, dove τ i è un parametro deterministico fissato valutato in base a certi fattori di cui non ci occupiamo, e i tempi T i sono indipendenti. Calcolare media e varianza del tempo di attesa totale T n i T i nel modello di Claudio. 3. Claudio si accorge che il suo modello è troppo complicato, e decide di ammettere soltanto due possibili valori a, b per i vari τ i. Ottenere un espressione coinvolgente integrali per la densità della legge di T nel caso in cui ci siano n a occorrenze di τ i a e quindi n b : n n a occorrenze di τ i b e, nel caso n a, n b ottenere un espressione senza integrali. Problema. Si consideri, per θ R, la funzione f θ, x {x>} exp log x θ πx.. Constatare che, per ogni θ R, è una densità di probabilità e, detta X una v.a. con tale densità, calcolare E θ [log X].. Calcolare il quantile di ordine / di X [Suggerimento facoltativo: trovare la densità di probabilità di Y log X] 3. Si consideri un campione di taglia n e densità f θ, x. Dopo aver scritto il modello statistico, calcolare la stima di massima verosimiglianza del parametro θ, dove esiste ed esaminarne correttezza e consistenza. Problema 3. Gli utenti che si rivolgono ad un certo sportello del Comune di Capanni sono infastiditi dalla durata T del tempo di servizio, che a dir loro non
poche volte è davvero eccessiva. Il Comune li informa innanzi tutto che un documento nazionale indica un giusto tempo medio di servizio pari a minuti cioè E [T ] e segnala una fisiologica elevata variabilità del tempo di servizio, per quel particolare tipo di sportello; e d accordo con una rappresentanza degli utenti, registra la durata del servizio di utenti a campione in momenti casuali e separati di alcuni giorni, in modo da supporre indipendenti le osservazioni, trovando una media empirica pari a. minuti ed una deviazione standard empirica pari a minuti. A questo punto l azienda, ipotizzando che la distribuzione di probabilità del tempo di servizio sia una gaussiana, da un lato nota la forte concordanza della media emprica con la prescrizione nazionale; dall altro, prendendo come veri i valori m. e σ, afferma: solo il 5% circa delle volte il tempo di servizio supera i fisiologici minuti; inoltre la probabilità che un servizio duri più di 3 minuti è...; ed il 95% delle volte il servizio dura meno di t... minuti lo studente calcoli questi due valori; questa è la prima domanda dell esercizio ed essendo queste probabilità o tempi accettabili, l azienda rigetta l accusa ricevuta. Paolo, che ha studiato un po di statistica, pur riconoscendo che i dati sono abbastanza favorevoli all azienda, completa l analisi dei dati nel seguente modo che smorza un poco la sicurezza che tutto vada bene. Il valore m. è in realtà solo la stima puntuale x; il valore vero di m sta, con probabilità.9, in un certo intervallo [ X ± δ ] ; quindi non è assurdo che il valore vero m sia pari a. + δ. Calcolare questo valore ed assumendolo come media vera ricalcolare la probabilità che un servizio duri più di 3 minuti. 3 Paolo traccia un istogramma dei valori sperimentali e da esso ha il dubbio che T sia una v.a. esponenziale; usando la stima puntuale di massima verosimiglianza si usi il risultato noto dagli esempi del corso del suo parametro λ come fosse il valore vero del parametro, calcolare le due grandezze descritte al punto. 4 Per confutare l ipotesi di gaussianità fatta dall azienda, oltre che basarsi sull impressione visiva dell istogramma, Paolo pensa al seguente test. Consideriamo la v.a. X che vale se T è inferiore a minuti, se è superiore; poniamo θ P X. Se fosse vera l ipotesi di gaussianità dell azienda, sarebbe θ /. Paolo allora esegue, per questa Bernoulli, un test con l ipotesi nulla H θ / contro H θ > /. Formalizzare matematicamente un buon test per questo problema cioè scrivere il modello statistico, basato sulla distribuzione di X e indicare una regione critica di livello α commentando perché la si sceglie. Poi scrivere una formula per calcolare il valore-p o soglia di accettazione relativamente all osservazione di 3 servizi di durata superiore a minuti su registrati.
Soluzioni Esercizio. Premessa: La media di una v.a. esponenziale X avente legge Expλ vale E[X] mentre per la varianza, calcoliamo prima E[X ] e otteniamo VarX E[X ] E[X] λ.. Nel modello di Alberto, vale xλe λx dx λ, x λe λx dx λ x e x dx λ, E A [T ] n, Var A T n. Nel modello di Bruno, T n i T i con T i i.i.d. Exp, da cui E B [T ] i E B [T i ] n, Var B [T ] Var B i T i Var B [T i ] n.. Nel modello di Claudio, basta semplicemente ripetere i calcoli del modello di Bruno tenendo conto delle diverse medie e varianze: E B [T ] E B [T i ] τ i, Var B [T ] Var B T i Var B [T i ] τi. i i i i i 3. Se vi sono n a occorrenze di tempi T i, con parametro τ i a ed n b occorrenze di tempi T i con parametro τ i b, possiamo scrivere T T i T i + T j T a + T b, i i:τ i a j:τ j b dove T a i:τ i a T i, T b j:τ j a T j. Per risultati noti Proposizione 4.3.7 del foglio riassuntivo, T a ha legge Γn a, /a, T b ha legge Γn b, /b, e sono indipendenti composizione di blocchi disgiunti di variabili indipendenti. Perciò la legge di T ha densità data dalla convoluzione delle due densità, ossia nulla per x e, per x >, fx Γn a, /ayγn b, /bx ydy R x i e x b y na x y nb e ya b dy a na b n b Γna Γn b x na+nb e x b t na t nb e λxt dt a na b n b na!n b!
dove abbiamo effettuato il cambio di variabili y xt e introdotto λ : b a. Nel caso in cui n a, n b, integrando per parti te λxt dt eλx λx λx da cui la densità in x > vale [ x e x b e λx a b λx eλx λx + ] λx Esercizio. e λxt dt eλx λx eλx λx + λx e x b + e x a a bλ xe x a. La funzione x f θ, x è non negativa, misurabile e vale log x θ f θ, x dx exp π exp π exp π perché π exp y θ è la densità N θ,. Infine E θ [log X] dove Y N θ,. log xf θ, x dx x b x a a bλ + e x a be a + b xe aa + b x dx log x θ D log xdx y θ dy y y θ exp dy E θ [Y ] θ π. Detto q il quantile cercato, esso è definito dall identità usiamo il fatto che sia una v.a. continua; inoltre, dev essere q > perché P X q.5 P X q exp π log q y exp π y θ dy. log x θ x dx Si può proseguire questo conto, oppure seguire il suggerimento dell esercizio
che servirà anche in seguito. Vale, per ogni φ continua e limitata, E [φ Y ] E [φ log X] φ log x f θ, x dx log x θ φ log x exp D log xdx π y θ φ y exp dy π da cui segue che Y ha legge N θ,. Pertanto.5 P θ X q P θ log X log q da cui log q θ, ovvero q exp θ. P θ Y θ log q θ Φ log q θ 3. Il modello statistico standard è Ω R n, F B R n, P θ avente densità L θ, x,..., x n rispetto alla misura di Lebesgue, con θ Θ : R, dove la verosimiglianza L θ, x,..., x n è n i L θ, x,..., x n exp log x i θ n/ π n {x>,...,x n>} x i Questa è, fissati x,..., x n in cui non è nulla, una funzione strettamente concava di θ, quindi ha un unico punto di massimo caratterizzato dalle equazioni di MV log x i θ θ che producono i n i θ log X i n dove X,..., X n indica il campione statistico canonico. Espandendo il quadrato log x θ si vede che il modello è esponenziale, quindi consistente. E corretto perché ] E [ θ θ E θ [log X ] E θ [Y ] θ essendo Y, per quanto visto sopra, una N θ,. Esercizio 3. i
. P m.,σ D > 3 P m,σ 3. Z > 3. Φ Φ.3..95 P m.,σ D t P m,σ Z t. t. q.95.64, t. +.64 6.9 t. Φ. δ σ q.95 n.64 3.575 da cui 3. 3.575 P m.+3.575,σ D > 3 Φ Φ.664.48. 3. La stima puntuale di λ è x..98, quindi P λ.98 D > 3 [ e λt] t3 e.98 3.58.95 P λ.98 D t e.98t e.98t.5,.98t log.5.995 t.995.98 3.56. 4. Il modello statistico standard, con campione statistico canonico X,..., X, è Ω {, }, F P Ω, P θ avente densità discreta L θ, k,..., k, con θ Θ : [, ], data da L θ, k,..., k i θ k i θ k i θ i k i θ n i k i, k,..., k Ω usiamo la convenzione per includere i casi θ,. In base al teorema sul rapporto di verosimiglianza crescente, prendiamo come regione critica { } C m : ω Ω : X i ω m i
dove m dev essere il più piccolo intero tale che P θ C m α. La regione è ottimale per gli α tali che, in questo calcolo, si ottiene l uguaglianza. Siccome i X i B, θ, la condizione è km θ k θ k α k che però non permette il calcolo esplicito di m. Il valore-p è dato da P θ/ X i 3.5 k.5 k k i k3.5.3. k k3