STATISTICA A K (60 ore) Marco Riani mriani@unipr.it http://www.riani.it Esercizio: si consideri una generica popolazione X con media µ e varianza σ 2 Siano T 1 =(X 1 +X 2 +X 3 +X 4 )/4 e T 2 =(3X 1 +4X 2 +X 3 +2X 4 )/10 due stimatori di µ per campioni di ampiezza n=4 Si effettuino le seguenti operazioni: Si verifichi che lo stimatore T 2 è non distorto Si determini la varianza dei due stimatori e si stabilisca quale dei due stimatori è più efficiente Hint: X 1 X 2 X 3 X 4 are random variables IID (independent and identically distributed) with the same distribution of X K 1
Soluzione Verifica che T 2 è non distorto E(T 2 )=(1/10)E(3X 1 +4X 2 +X 3 +2X 4 ) =(1/10) [3 E(X 1 )+4E(X 2 )+E(X 3 )+2E(X 4 )]= = (1/10) [ 3µ +4µ + µ + 2µ]=µ Calcolo della varianza dei due stimatori VAR(T 1 )=σ 2 /4=0,25σ 2 VAR(T 2 )= (1/100) [ 9σ 2 +16σ 2 + σ 2 +4σ 2 ] =(30/100) σ 2 =0,3σ 2 Dato che VAR(T 1 )<VAR(T 2 ) T 1 è più efficiente e quindi preferibile Esercizio Il tempo impiegato da un meccanico in un negozio di biciclette per assemblare un certo tipo di bicicletta può essere considerato una v.c. normale con media 32 minuti e deviazione standard 3,5 minuti. Si calcoli la probabilità che il tempo medio per assemblare 10 biciclette Non superi 33 minuti Sia compreso tra 28,5 e 31,5 minuti K 2
Soluzione X=v.c. tempo impiegato X~N(32, 3,5 2 ) n=10 Il valore 0.8169 è stato ottenuto dalla funzione di Excel =DISTRIB.NORM.ST(0,9035). Utilizzando le tavole F(0,90)=0,81594 Calcolo di I valori 0,32572 e 0,00078 sono stati ottenuti con le funzioni di Excel =DISTRIB.NORM.ST(-0,45175) e =DISTRIB.NORM.ST(-3,16228). Utilizzando le tavole si ottiene F(-0,45)-F(-3,16)= 0.32636-0.00079=0.32557 K 3
Esercizio Sia X 1 X 2, X 80 un campione casuale proveniente da una popolazione distribuita secondo il modello f(x)=3x 2 (0<x<1). Si determini la probabilità che la media campionaria sia minore di 0,8. Esercizio Sia X 1 X 2, X 80 un campione casuale proveniente da una popolazione distribuita secondo il modello f(x)=3x 2 (0<x<1). Si determini la probabilità che la media campionaria sia minore di 0,8. K 4
Distribuzione del fenomeno nell universo Rappresentazione grafica di f(x)=3x 2 (0<x<1) Dato che Soluzione Per calcolare la probabilità che la media campionaria sia minore di 0,8 è necessario trovare la media (µ) e la varianza (σ 2 ) dell universo K 5
Soluzione Passo 1. Calcolare la media e la varianza dell universo X che presenta densità f(x)=3x 2 (0<x<1) X presenta distribuzione (non normale) con E(X)=µ=3/4 e VAR(X)=σ 2 =3/80 X presenta distribuzione non normale con E(X)=µ=3/4 e VAR(X)=σ 2 =3/80 La media campionaria di un campione di 80 osservazioni estratte da X presenta la seguente distribuzione approssimata (per il teorema centrale del limite) K 6
Esercizio Si definisce errore quadratico medio (MSE=mean square error) di uno stimatore T di un parametro θ la quantità E(T-θ) 2. Dimostrare che se lo stimatore T è corretto il suo MSE coincide con la sua varianza Dimostrare che se lo stimatore T è distorto il suo MSE può essere scritto come: MSE(T)=VAR(T) + Bias 2 Soluzione: dimostrare che se lo stimatore T è corretto il suo MSE coincide con la sua varianza Se T è uno stimatore non distorto di θ allora E(T)= θ quindi MSE=E(T- θ) 2. MSE=E(T- θ) 2 = E(T- E(T)) 2 =VAR(T) K 7
Soluzione: Dimostrare che se lo stimatore T è distorto il suo MSE può essere scritto come: MSE(T)=VAR(T) + Bias 2 MSE(T)=E(T - θ) 2 = E(T- E(T) +E(T) - θ) 2 Svolgendo il quadrato si ottiene: MSE(T)=E(T E(T)) 2 + (E(T) - θ) 2 2*(E(T) - θ)*e(t E(T)) Il doppio prodotto è zero quindi MSE(T)= E(T E(T)) 2 + (E(T) - θ) 2 =VAR(T)+Bias 2 STIMA PER INTERVALLO K 8
Stima per intervallo Intervallo di confidenza di livello 1- α =intervallo che contiene il vero (ma ignoto) valore del parametro dell universo con probabilità 1-α 1-α= livello di confidenza Stima della media dell universo (grandi campioni n>100) Teorema centrale del limite K 9
Costruzione dell int. di confidenza per la media campionaria al 95% 0,025 0,025 0,95-1,96 1,96 Costruzione dell int. di confidenza per la media campionaria al 99% 0,005 0,005 0,99-2,58 2,58 K 10
Costruzione dell int. di confidenza per la media campionaria Costruzione dell int. di confidenza per la media campionaria al 95% Interpretazione: intervallo (simmetrico rispetto a X medio) entro il quale è compresa, con probabilità 0,95, la media d un campione estratto a caso da un universo di cui si conoscono la media μ e la varianza σ 2. K 11
Esempio Un azienda ha 25000 dipendenti; la retribuzione media di tutti i dipendenti è µ=1800 Euro con σ=700 Calcolare l intervallo in cui è compresa con prob. 0,95 la media di un campione di 200 dipendenti 1-α=0,95 z(α)=1,96 µ=1800 1-α=0,95 z(α)=1,96 µ=1800 Intervallo in cui è compresa con prob. 0,95 la media delle retribuzioni di un campione di 200 dipendenti K 12
Costruzione dell int. di confidenza per µ (p. 64) Intervallo di confidenza di µ Intervallo entro cui è compresa con prob. 1-α l ignota media dell universo µ Osservazione: la varianza dell universo è solitamente ignota stimata con s cor Errore standard K 13
Intervallo di confidenza di µ ad uso operativo (p. 65) Ipotesi: n>=100 Esempio: stima della durata media del funzionamento delle pile d un certo tipo n=160 =248 ore; s=26 ore Livello di confidenza =0,99 K 14
Osservazione Nell esempio precedente avevamo potuto applicare il teorema centrale del limite poiché n era elevato (n>30) Cosa faccio quando n è piccolo? Ip. Il fenomeno presenta distribuzione normale nell universo Se σ 2 è noto X~N(µ, σ 2 ) per qualunque n (anche n=1) Se σ 2 ignota e viene stimato con s cor allora Distribuzione t di Student con n-1 gradi di libertà K 15
Confronto tra una v.a. t di Student con g gradi di libertà ed una v.a. N(0,1) t(α) valori critici ( percentili ) nella v.a. t con g gradi di libertà F[-t(α)]= α/2 F[t(α)]= 1-α/2 Tavola in appendice: non riporta F(t) ma i percentili t(α) per α e g prefissati K 16
VALORI CRITICI t(α) DELLA VARIABILE ALEATORIA T DI STUDENT PER g GRADI DI LIBERTA ED AL LIVELLO DI SIGNIFICATIVITA α α 0,1 0,05 0,02 0,01 0,001 g 1 6,314 12,706 31,821 63,656 636,578 2 2,920 4,303 6,965 9,925 31,600 3 2,353 3,182 4,541 5,841 12,924 4 2,132 2,776 3,747 4,604 8,610 5 2,015 2,571 3,365 4,032 6,869 1 α 6 1,943 2,447 3,143 3,707 5,959 7 1,895 2,365 2,998 α/2 3,499 5,408 α/2 8 1,860 2,306 2,896 3,355 5,041 9 1,833 2,262 2,821 3,250 4,781 10 1,812 2,228 2,764 -t(α) 3,169 4,587 +t(α) 11 1,796 2,201 2,718 3,106 4,437 12 1,782 2,179 2,681 3,055 4,318 13 1,771 2,160 2,650 3,012 4,221 14 1,761 2,145 2,624 2,977 4,140........ 40 1,684 2,021 2,423 2,704 3,551 60 1,671 2,000 2,390 2,660 3,460 1,645 1,960 2,326 2,587 3,291 Dato che F[-t(α)]= α/2 F[t(α)]= 1-α/2 K 17
Intervallo di confidenza di livello 1 α per la media dell universo μ, nel caso di piccoli campioni e nell ipotesi che X~N(μ, σ 2 ) con σ ignoto: Esempio: stima della durata media del funzionamento delle pile d un certo tipo n=10 =248 ore; s=26 ore Livello di confidenza =0,99 K 18
Esempio: stima della durata media del funzionamento delle pile d un certo tipo n=10 =248 ore; s=26 ore Livello di confidenza =0,99 L ipotesi X~N(µ, σ 2 ) è ragionevole g=9 t(0,01)=3,250 Confronto tra i due intervalli di confidenza n elevato (v.a. normale standardizzata) n piccolo (v.a. T di Student) K 19
Elementi che fanno variare l ampiezza dell intervallo di confidenza (p. 70) s.q.m. dell universo σ Più σ è elevato, maggiore è la variabilità della v.a. media campionaria stima meno precisa Livello di confidenza 1-α Aumentando 1- α, si riduce α si incrementa z(α), t(α) (l intervallo aumenta) Elementi che fanno variare l ampiezza dell intervallo di confidenza Numerosità del campione n Per dimezzare l ampiezza occorre quadruplicare n Se n è piccolo non vale più il teorema centrale del limite t(α) sostituisce z(α) σ ignoto fattore correttivo (n/(n-1)) 0,5 K 20
Significato della probabilità associata all intervallo di confidenza Formulazione deduttiva Principio del campionamento ripetuto distribuzione campionaria di Formulazione induttiva μ è una costante (non una v.a.) come si può attribuire una probabilità ad un affermazione che riguarda μ? Principio del campionamento ripetuto gli estremi dell intervallo sono v.a. (v. esempio pp. 64-66) K 21
Stima della frequenza relativa (grandi campioni) V.a. Frequenza relativa campionaria, P: E(P) = π Teorema centrale del limite Intervallo di conf. della frequenza relativa Intervallo di confidenza di livello 1 α per la frequenza relativa dell universo π, nel caso di grandi campioni: K 22
Esempio: stima della quota di mercato n = 400 consumatori; 82 acquirenti p = 82/400 = 0,205 20,5% (stima campionaria di π) Calcolare l intervallo di confidenza di π al livello di confidenza di 0,95 Esempio: stima della quota di mercato n = 400 consumatori; 82 acquirenti p = 82/400 = 0,205 20,5% (stima campionaria di π errore standard della v.a. P: s(p) = = 0,020 Teorema centrale del limite 1 α=0,95 z(0,05) = 1,96 0,205±1,96 0,020 K 23
Esempio: stima della quota di mercato n = 400 consumatori; 82 acquirenti p = 82/400 = 0,205 20,5% (stima campionaria di π) Calcolare l intervallo di confidenza di π al livello di confidenza di 0,99 1 α= 0,99 z(0,01) = 2,58 0,205 ± 2,58 0,020 Intervalli ampi (stima poco precisa) aumentare n Cosa succede se n è piccolo? K 24
Esercizio Il direttore di un centro commerciale vuole modificare l orario di apertura del centro. In un campione casuale di 300 clienti, 246 si sono dichiarati favorevoli al nuovo orario proposto. Si determini l intervallo di confidenza della frequenza relativa dell universo con probabilità 0,95 con probabilità 0,995 e si commentino in termini comparati i suddetti intervalli Soluzione K 25
Esercizio: stima della percorrenza media delle vetture diesel di un certo modello al primo guasto n=400 =34.000 Km; s cor =9000 Km Calcolare l intervallo di confidenza di µ al 95% e al 99% Soluzione K 26
Esercizio La deviazione standard della statura degli studenti iscritti ad una università è 5,8 cm. Quanti studenti si devono estrarre a sorte dalla popolazione se si vuole con probabilità del 90% che l errore di stima della media non superi i 2 cm. Soluzione K 27
Esercizio I dati che seguono si riferiscono alla durata (in migliaia di Km) di una cinghia da automobile in un campione di 15 osservazioni 115,4 85,2 89,1 118,3 88,4 109,3 104,3 69,3 105,5 106,8 103,1 101,6 102,9 89,6 109,3 Facendo le opportune ipotesi, si costruisca un intervallo di confidenza per la media al 99% Soluzione K 28
Esercizio Di seguito sono riportati i Km percorsi in un giorno da un campione di taxi operante in una grande città 173 195 115 122 154 149 120 148 152 68 132 91 120 148 103 101 Sulla base di questo campione assumendo che la popolazione generatrice sia normale è stato determinato il seguente intervallo di confidenza (116,55 144,7). Si calcoli il livello di confidenza su cui è stato calcolato Soluzione K 29
Variante al precedente esercizio Se i dati di base fossero stati i seguenti: 172 195 115 122 154 149 120 148 152 68 132 91 120 148 103 101 Quale sarebbe stato il livello di confidenza dell intervallo (116,55 144,7)? Soluzione K 30
Esercizio Nella seguente distribuzione di frequenze è riportato il numero di dipendenti di 50 aziende tessili operanti in una determinata provincia. Numero di dipendenti Frequenze assolute 5 12 8 11 12 11 14 8 15 7 545 1 Si calcoli l'intervallo di confidenza al 99% della media dell'universo del numero di dipendenti commentando i risultati ottenuti (con o senza il valore anomalo) Soluzione K 31
Esercizio Un azienda produce rotoli di stoffa della lunghezza di 70m. Tali rotoli possono presentare difetti di diversa natura. L azienda è interessata a stimare il numero medio di difetti presenti nei rotoli prodotti. In un campione casuale di 85 rotoli si è trovata la seguente distribuzione n. difetti 0 1 2 3 4 5 6 Frequenza 16 26 22 13 5 2 1 Si determini l intervallo di confidenza al 99% per la media dei difetti presenti nei rotoli di stoffa Soluzione K 32
Esercizio Con riferimento all esercizio precedente, si consideri che un rotolo risulta vendibile se presenta un massimo di 3 difetti. Sulla base dello stesso campione di cui all esercizio precedente, si costruisca un intervallo di confidenza al 95% per la proporzione di rotoli considerati vendibili Soluzione K 33
Esercizio Nel processo di controllo del peso delle confezioni di un determinato prodotto l azienda esamina un campione di 800 confezioni e trova che 15 di esse hanno un peso fuori norma. Si determini l intervallo di confidenza al 97% della proporzione di pezzi fuori norma. Se la proporzione di pezzi fuori norma nell'universo fosse uguale a 1,5%, effettuando cinque estrazioni si calcoli la probabilità di trovare esattamente due pezzi fuori norma; si scriva e si calcoli l'espressione che consente di calcolare la probabilità di ottenere un numero di pezzi fuori norma compreso tra due e quattro (estremi compresi). rappresentare graficamente la densità Soluzione K 34
Esercizio Data una scheda telefonica da 5 euro di cui non si sa se sia mai stata usata e nel caso sia stata usata non si conosce l ammontare ancora disponibile, è ragionevole ipotizzare per tale ammontare X la seguente funzione di densità f(x)=1/5 per [0 x 5] Verificare che f(x)=1/5 per [0 x 5] sia una densità e rappresentarla graficamente Calcolare il credito residuo atteso (E(X)) Calcolare la varianza del credito residuo (VAR(X)) Devo fare una telefonata da 2 calcolare la prob che la scheda sia sufficiente per fare la telefonata Ho 60 schede tutte con un ammontare che si distribuisce come descritto sopra. Qual è la prob che l ammontare complessivo sia superiore a 180 K 35
Soluzione Esercizio La durata di un macchinario si distribuisce secondo una distribuzione normale di media 2 anni e scarto quadratico medio 0,5 anni. Si determini: 1. prob che il macchinario duri più di 28 mesi. 2. l intervallo di ampiezza 2 anni al quale corrisponde la massima prob di contenere la durata effettiva del macchinario. Calcolare tale probabilità. 3. Se il costo di acquisto del macchinario è di 1000 euro e il costo del suo funzionamento è stimato in 150 euro all anno, si calcolino la media e la varianza del costo complessivo del macchinario. K 36
Soluzione K 37