Statistica Alfoso Iodice D Eza iodicede@uicas.it Uiversità degli studi di Cassio () Statistica 1 / 29
Outlie 1 2 3 4 5 6 () Statistica 2 / 29
Importati disuguagliaze Variabili casuali co distribuzioi o ote Le disuguagliaze e Chebyshev soo due risultati importati perchè cosetoo di porre ua soglia superiore alle probabilità di eveti rari che riguardao variabili casuale di cui o si coosce la distribuzioe, ma solo valore atteso oppure valore atteso e. Sia X ua variabile casuale mai egativa, allora per qualuque valore a > 0 P (X a) E [X] a Sia X ua variabile casuale di cui si cooscoo solo la µ e σ 2, allora dato u qualuque valore k > 0, vale la seguete relazioe P ( X µ k) σ2 k 2 () Statistica 3 / 29
Importati disuguagliaze Sia X ua variabile casuale mai egativa, allora per qualuque valore a > 0 dimostrazioe P (X a) E [X] a Si suppoga che la v.c. X si distribuisca secodo ua fuzioe di desità icogita f a E [X] = xf(x)dx = xf(x)dx + xf(x)dx 0 0 } {{ } a } {{ } 0 0 xf(x)dx af(x)dx = a f(x)dx = a P (X a) a } {{ a } } a {{ } perchè x [a, ] quidi x a a è ua costate duque E [X] ap (X a) P (X a) E [X] a () Statistica 4 / 29
Importati disuguagliaze Sia X ua variabile casuale di cui si cooscoo solo la µ e σ 2, allora dato u qualuque valore k > 0, vale la seguete relazioe P ( X µ k) σ2 k 2 dimostrazioe Si cosideri l eveto per cui vale X µ k: i valori di X, µ e k per cui vale la soo gli stessi per cui vale la (X µ) 2 k 2. La probabilità che si verifichi ua delle disuguagliaze precedeti è duque la stessa. Ioltre la variabile casuale (X µ) 2 è o egativa (essedo u quadrato), duque si può applicare la, co a = k 2, quidi otare che = σ 2 {}}{ E [(X µ) 2] P ( X µ k) = P ((X µ) 2 k 2 ) } {{ k 2 } che verifica la P ( X µ k) σ2 k 2 () Statistica 5 / 29
Esempio Il umero di automobili prodotte da ua fabbrica i ua settimaa si distribuisce secodo ua variabile casuale X co pari a 50. svolgimeto Qual è la probabilità che la produzioe superi occasioalmete le 75 auto? Qual è la probabilità che la produzioe sia compresa tra 40 e 60 pezzi, sapedo che la della distribuzioe è pari a 25? Poichè l uica coosceza della distribuzioe di X è che E [X] = 50, per calcolare P (X 50) si ricorre alla. P (X a) E [X] a P (X 75) 50 75 = 0.67 I questo caso, oltre alla µ = 50, è ota ache la σ 2 = 25. Si vuole la probabilità che 40 X 60, quidi 60 50 = 40 50 = 10 = k, duque P ( X 50 10) rappreseta la probabilità che la produzioe si discosti di più di 10 uità dalla. P ( X 50 10) 25 10 2 = 0.25 duque la probabilità che la produzioe si discosti di meo di 10 uità dalla è P (40 X 60) = 1 P ( X 50 10) 1 0.25. P (40 X 60) 0.75 () Statistica 6 / 29
Distribuzioe delle statistiche Popolazioe e campioe La popolazioe è u isieme molto grade di oggetti a cui soo associate delle quatità misurabili. Il campioe è u sottoisieme ridotto della popolazioe. L obiettivo dell approccio statistico è aalizzare il campioe per trarre da esso iformazioi circa la popolazioe. campioe casuale Per effettuare ifereze sulla popolazioe i base al campioe, si assume che vi sia la popolazioe segua ua distribuzioe di probabilità F. Estraedo casualmete degli oggetti dalla popolazioe per formare il campioe, si assume che ciascu valore ad essi associato sia ua variabile casuale caratterizzata dalla distribuzioe F della popolazioe. defiizioe U isieme di X 1, X 2,..., X di variabili aleatorie idipedeti e distribuite secodo ua distribuzioe F, si defiisce campioe casuale della distribuzioe F. () Statistica 7 / 29
Distribuzioe delle statistiche Ifereza parametrica e o parametrica La distribuzioe F della popolazioe è o ota. I alcui casi è tuttavia possibile che si coosca la famiglia di distribuzioi di variabili casuali a cui F appartiee, e duque si utilizza il campioe per fare ifereza sui parametri che idetificao F : è il caso dell ifereza parametrica. I altri casi o si ha alcua iformazioe su F : i questi casi si fa ricorso a teciche di ifereza o parametrica. La statistica Uo stimatore è ua fuzioe dei dati campioari. Poichè le osservazioi soo v.c., e poichè ua fuzioe di v.c. è a sua volta ua v.c., allora lo stimatore è ua v.c. fuzioe dei dati campioari. Ua statistica è uo stimatore che utilizza i dati campioari per otteere la stima di u parametro della distribuzioe F. () Statistica 8 / 29
Defiizioe di stimatore putuale Sia X sia ua v.c. di cui si coosce la famiglia di distribuzioe (Normale, Biomiale, Espoeziale,...), ma di cui o si coosce il parametro θ che caratterizza la distribuzioe. L obiettivo è idetificare il parametro θ, co la quale idividuare la distribuzioe specifica della popolazioe. Si ricorre ad u campioe casuale X 1, X 2,..., X e ad ua fuzioe ota T (.) che riceve i iput il campioe casuale e, i base a questo, forisce u valore per il parametro icogito θ. () Statistica 9 / 29
Defiizioe di stimatore putuale Prima di aver osservato il campioe, X 1, X 2,..., X è ua v.c., e T (X 1, X 2,..., X ) = T è a sua volta ua v.c. e si defiisce stimatore del parametro θ Dopo aver osservato il campioe, si hao le osservazioi x 1, x 2,..., x che, date i iput a T (.), producoo la stima (ˆθ) del parametro icogito T (x 1, x 2,..., x ) = ˆθ a secoda del campioe estratto, si avrà ua stima (valore ˆθ) diversa, duque T (X 1, X 2,..., X ) = T avrà ua propria distribuzioe. () Statistica 10 / 29
() Statistica 11 / 29
() Statistica 12 / 29
() Statistica 13 / 29
() Statistica 14 / 29
Caratteristiche degli stimatori E ecessario defiire quali soo le caratteristiche desiderabili di uo stimatore T di u parametro θ la sufficieza di uo stimatore: questa caratteristica si riferisce alla capacità dello stimatore T di u parametro θ di catturare tutta l iformazioe riguardate θ che è presete el campioe X 1, X 2,..., X ; - Formalemete, se X 1, X 2,..., X è u campioe geerato dalla v.c. X co distribuzioe f(x; θ) e T è uo stimatore di θ, allora T è sufficiete se φ X (x 1, x 2,..., x T = ˆθ ) NON DIPENDE DA θ i altre parole, ua volta otteuta la stima ˆθ, l iformazioe su θ iizialmete coteuta el campioe, viee iteramete catturata dallo stimatore T. () Statistica 15 / 29
Proprietà degli stimatori: o distorsioe (ubiased estimators) Uo stimatore T è o distorto se la delle stime che produce (il valore atteso della v.c. T ) coicide col parametro oggetto di stima. Formalmete: E(T ) = θ la distorsioe, o bias = b(t ), dello stimatore T, rappreseta duque la differeza tra il valore atteso di T e il parametro θ. b(t ) = E(T ) θ uo stimatore o distorto è tale che b(t ) = 0. () Statistica 16 / 29
Proprietà degli stimatori: efficieza L efficieza di uo stimatore corrispode al grado di dispersioe della distribuzioe di T rispetto al parametro θ oggetto di stima. Se lo stimatore T è o distorto allora il grado di dispersioe/efficieza delle stime dipede dalla sua V ar(t ). Quado ivece lo stimatore è distorto, bisoga teere coto, ella misura della sua efficieza, ache del bias b(t ) e si ricorre al mea squared error (MSE) MSE(T ) = E(T θ) 2 = V ar(t ) + [b(t )] 2 l MSE, i caso di stimatori o distorti, coiciderà co la di T perché b(t ) = 0. () Statistica 17 / 29
Proprietà degli stimatori: efficieza (2) Dati due stimatori T 1, e T 2, si sceglierà il più efficiete, vale a dire, se MSE(T 2 ) > MSE(T 1 ), allora per stimare il parametro θ si sceglierà T 2 ; Ricorredo all MSE si può stabilire, tra due stimatori, quale sia migliore perché più efficiete, tuttavia o si può dire che lo stimatore scelto sia il più efficiete i assoluto. la di Cramer e Rao idica la miima che uo stimatore o distorto può raggiugere: quidi, se la di uo stimatore T, o distorto, raggiuge il limite idicato dalla di Cramer e Rao, allora T risulta lo stimatore di θ più efficiete i assoluto. () Statistica 18 / 29
Distribuzioe della Distribuzioe della Si cosideri ad esempio ua popolazioe - ad esempio i lavoratori dipedeti - su cui sia misurata ua quatità umerica - ad esempio il reddito auo percepito -; il campioe casuale estratto da tale popolazioe è X 1, X 2,..., X, i valori associati agli elemeti del campioe soo v.c. idipedeti e ideticamete distribuite (i.i.d.), tutte caratterizzate dalla stessa distribuzioe F i cui parametri soo µ e σ 2 ( e ). La statistica X := X 1 + X 2 +... + X fuzioe delle v.c. X 1, X 2,..., X del campioe: si tratta di ua variabile casuale. () Statistica 19 / 29
Distribuzioe della La statistica X := X 1 + X 2 +... + X fuzioe delle v.c. X 1, X 2,..., X del campioe: si tratta di ua variabile casuale. valore atteso di X E [ [ ] X1 + X 2 +... + X X] = E = = E [X 1] + E [X 2 ] +... + E [X ] = µ + µ +... + µ ota = µ = µ = di X var ( ( ) X1 + X 2 +... + X X) = var = ( ) ( ) ( ) X1 X2 X = var + var +... + var = = σ2 2 + σ 2 2 +... + σ 2 2 = σ 2 = σ 2 La distribuzioe di X risulta quidi cetrata su µ, metre la sua dimiuisce all aumetare di. () Statistica 20 / 29
Teorema del limite cetrale Teorema del limite cetrale (TLC) Tale teorema è u risultato molto importate della teoria della probabilità: esso afferma che la somma di u umero elevato di v.c. idipedeti si distribuisce approssimativamete secodo ua ormale. TLC: Se si cosiderao le v.c. X 1, X 2,..., X idipedeti e ideticamete distribuite, tutte co µ e σ 2, allora X 1 + X 2 +... + X N(µ, σ 2 ) Se alla somma i questioe si sottrae la µ e si divide per lo scarto quadratico medio σ 2 = σ si ottiee la relazioe precedete i versioe stadardizzata X 1 + X 2 +... + X µ σ N(0, 1) () Statistica 21 / 29
Ua compagia di assicurazioe ha 25000 polizze attive. Ciascu assicurato percepisce u risarcimeto auo che rappreseta ua v.c. che si distribuisce co pari a 320 euro e scarto quadratico medio pari a 540 euro. Qual è la probabilità che la compagia paghi complessivamete 8300000 euro? Svolgimeto Il risarcimeto di ciascu cliete è X i co i = 1,..., ed = 25000. La richiesta complessiva di risarcimeto da parte di tutti i clieti è X = i=1 X i. Poichè X è la somma delle v.c. X i che soo i.i.d., per il teorema del limite cetrale risulta che X si distribuisce come ua ormale co µ = 25000 320 = 8000000. e scarto quadratico medio σ 25000 = 85381. Si vuole duque P (X > 8300000). I uità stadard, il valore i questioe è duque Z = X µ σ = 8300000 8000000 85381 = 3.51 P (X > 8300000) = P (Z > 3.51) 0. () Statistica 22 / 29
Il umero ideale di studeti di u corso del primo ao di uiversità è 150. Il maagemet didattico dell uiversità sa che, i base agli ai precedeti, solo il 30% degli iscritti frequeta effettivamete i corsi, duque decide di accettare fio a 450 uove iscrizioi. Qual è la probabilità che il umero di studeti frequetati sia superiore a 150? Svolgimeto Si defiisca la v.c. X come il umero di studeti che frequetao, ciascuo studete iscritto corrispode ad ua prova Berulliaa il cui esito può essere frequeta o o frequeta. X si distribuisce pertato secodo ua distribuzioe biomiale di parametri = 450 e la probabilità di successo (lo studete iscritto frequeta) è p = 0.3. Per il teorema del limite cetrale, poichè X è la somma di v.c. Beroulliae X i, ciascua co E [X i ] = p e pari a var (X i ) = p(1 p), allora X si distribuisce approssimativamete come ua ormale co µ = p e pari a σ 2 = p(1 p). (Si tratta dell approssimazioe della biomiale alla ormale). La probabilità cercata è duque P (X > 150.5) (lo +0.5 i aggiuta è dovuto alla correzioe di cotiuità). Stadardizzado il problema si ha Z = X p 150.5 450 0.3 150.5 135 = = = 1.59 p(1 p) 450.3.7 9.72 da cui P (X > 150.5) = P (Z > 1.59) 0.06. () Statistica 23 / 29
Variaza Variaza Dato u campioe casuale X 1, X 2,..., X proveiete da ua distribuzioe co µ e σ 2. Sia X la. La statistica è valore atteso della S 2 = 1 ( Xi X ) 2 1 i=1 Ricordado la relazioe per la quale i=1 (x i x) 2 = i=1 x 2 i x2, dove x = i=1 x i / duque S 2 = 1 ( Xi X ) ( 2 1 ) = X 2 i 1 i=1 1 X 2 da cui i=1 ( 1)S 2 = X 2 i X 2 i=1 adado ad effettuare il valore atteso di etrambi i lati dell equazioe si ha [ [ ] ( 1)E S 2] = E X 2 [ ] i E X2 i=1 () Statistica 24 / 29
Variaza valore atteso della (secoda parte) [ [ ] ( 1)E S 2] = E X 2 [ ] [ i E X2 = E X 2 ] [ ] 1 E X2 i=1 [ poichè per qualuque v.c. Y vale la relazioe E Y 2] = var(y ) + E [Y ] 2 allora [ ( 1)E S 2] [ = E X 2 ] [ ] ( 1 E X2 = var(x 1 ) + E [X 1 ] 2) }{{} ( [ E X 1 2 ]) poichè sappiamo che E [X 1 ] = µ, var(x 1 ) = σ 2, E [ X] = µ, var( X) = σ 2, quidi ( var( X) + E [ ) 2 X] }{{} [ ] E X2 ( 1)E [S 2] = σ 2 + µ 2 σ2 µ2 = σ 2 σ 2 = σ 2 [ ( 1) E S 2] = σ 2 il valore atteso della è uguale alla della popolazioe (ota: ecco perchè il deomiatore di S 2 è ( 1) e o...) () Statistica 25 / 29
Variaza valore atteso della (secoda parte) [ [ ] ( 1)E S 2] = E X 2 [ ] [ i E X2 = E X 2 ] [ ] 1 E X2 i=1 [ poichè per qualuque v.c. Y vale la relazioe E Y 2] = var(y ) + E [Y ] 2 allora [ ( 1)E S 2] [ = E X 2 ] 1 E [ ] X2 = var(x 1 ) + E [X 1 ] 2 }{{} [ E X 1 2 ] ( var( X) + E [ ) 2 X] }{{} [ ] E X2 poichè sappiamo che E [X 1 ] = µ, var(x 1 ) = σ 2, E [ X] = µ, var( X) = σ 2, quidi ( 1)E [S 2] = σ 2 + µ 2 σ2 µ2 = σ 2 σ 2 = σ 2 [ ( 1) E S 2] = σ 2 il valore atteso della è uguale alla della popolazioe (ota: ecco perchè il deomiatore di S 2 è ( 1) e o...) () Statistica 26 / 29
Distribuzioe della La v.c. chi-quadrato La somma di v.c. ormali stadard Z N(0, 1) al quadrato i=1 Z2 i si distribuisce come ua v.c. chi-quadro χ2 () co gradi di libertà. () Statistica 27 / 29
Distribuzioe della Il valore atteso della v.c. chi-quadrato Data ua sigola variabile ormale stadard Z, si cosideri la var(z) = E[Z 2 ] (E[Z]) 2 poichè E[Z] = 0 allora var(z) = E[Z 2 ] (0) 2 = E[Z 2 ] poiché Z N(0, 1) segue che var(z) = 1 = E[Z 2 ]. E duque possibile dimostrare che il valore atteso della v.c. chi-quadrato è uguale ai suoi gradi di libertà: [ ] E Zi 2 = E [ Z 2 ] i = 1 = i=1 i=1 i=1 () Statistica 28 / 29
Distribuzioe della Ricordado che S 2 = 1 1 ( Xi X ) 2 i=1 Importate relazioe Vale la seguete relazioe perché se X µ σ i=1 (X µ) 2 ( 1)S 2 ( i=1 Xi X ) 2 σ 2 = σ 2 Z(0, 1), allora (X µ)2 σ 2 [Z(0, 1)] 2 duque i=1 [Z(0, 1)]2 ovvero si distribuisce secodo ua v.c. σ chi-quadro 2 co gradi di libertà; se si sostituisce il parametro µ co il suo stimatore X, si perde u grado di libertà, duque i=1 (X X) 2 si distribuiscoo come u chi-quadro co 1 gradi di σ libertà. 2 e ( 1)S2 σ 2 () Statistica 29 / 29