Statistica Alfonso Iodice D Enza iodicede@unicas.it Università degli studi di Cassino () Statistica 1 / 48
Outline 1 2 3 () Statistica 2 / 48
Variabili casuali continue Una variabile casuale X è continua se, per ogni valore x 0 è nota la probabilità che tale assuma valori in un intervallo (x 0, x 0 + dx). In particolare P (x 0 < X x 0 + dx) = f(x 0 )dx Perchè sia ben specificata la continua deve soddisfare i postulati di Kolmogorov, ovvero deve risultare che f(x) 0, e che + f(x)dx = 1 () Statistica 3 / 48
Variabili casuali continue La probabilità associata ad un intervallo di valori di una continua X è data dall area al di sotto della funzione di densità di probabilità, ovvero corrisponde all integrale della funzione di densità nell intervallo considerato () Statistica 4 / 48
Variabili casuali continue Se la variabile casuale continua, la probabilità che X assuma esattamente il valore x 0 nulla. Risulta infatti P (x 0 < X x 0 ) x0 x 0 f(x)dx = 0 Per calcolare la probabilità che la X assuma valori nell intervallo (x 1, x 2 ) P (x 1 < X x 2 ) x2 x 1 f(x)dx () Statistica 5 / 48
Funzione di ripartizione per La funzione di ripartizione F (x 0 ) di una continua calcolata nel punto x 0 data da F (x 0 ) = P (X x 0 ) = x0 f(x)dx Caratteristiche di F (x) La funzione di ripartizione non decrescente e tale che 0 F (x) 1 () Statistica 6 / 48
Variabili casuali continue generiche Una partita di football dura 60 minuti ed è suddivisa in 4 quarti da 15 minuti. Le sostituzioni dei giocatori sono illimitati. Si supponga che i minuti in cui un certo giocatore è impiegato seguano la seguente funzione di densità di probabilità Qual è la probabilità che il giocatore giochi terzo quarto in poi? Qual è la probabilità che il giocatore giochi i 20 minuti centrali della partita? Qual è la probabilità che il giocatore giochi i primi 40 minuti della partita? () Statistica 7 / 48
Variabili casuali continue generiche Qual è la probabilità che il giocatore giochi dal terzo quarto in poi? La probabilità cercata è P (X 30) P (X 30) = P (30 X 45) + P (45 X 60) = 15 (0.02333) + 15 (0.0167) = 0.35 + 0.25 = 0.6 () Statistica 8 / 48
Variabili casuali continue generiche Qual è la probabilità che il giocatore giochi i 20 minuti centrali della partita? La probabilità cercata è P (20 X 40) P (20 X 40) = P (20 X 30) + P (30 X 40) = 10 (0.0167) + 10 (0.02333) = 0.0167 + 0.2333 = 0.4 () Statistica 9 / 48
Variabili casuali continue generiche Qual è la probabilità che il giocatore giochi i primi 40 minuti della partita? La probabilità cercata è P (X 40) P (X 40) = P (0 X 15) + P (15 X 30) + P (30 X 40) = 15 (0.01) + 15 (0.0167) + 10 (0.02333) = 0.15 + 0.2505 +.23 = 0.6305 () Statistica 10 / 48
Variabili casuali continue generiche Alle 2 del pomeriggio uno studente comincia a studiare. Alle 6 del pomeriggio uscirà di casa, ma fino ad allora studierà. Tenendo conto delle varie ed eventuali distrazioni, prevede che l intensità del suo studio sarà caratterizzato dalla seguente funzione di densità di probabilità: Qual è l altezza della curva dopo 2 ore di studio? Qual è la probabilità che il tempo di studio superiore a 3 ore? Qual è la probabilità che il tempo di studio sia compreso tra 1 e 3 ore? () Statistica 11 / 48
Variabili casuali continue generiche Qual è l altezza della curva dopo 2 ore di studio? Per trovare l altezza in corrispondenza della seconda ora di studio basta tener conto di due cose: la formula per il calcolo dell area del triangolo A = b h ; l area del triangolo è A = 1. 2 A = b h 2 = 1 = 4 h 2 da cui h = A 2 b = 2/4 = 0.5 () Statistica 12 / 48
Variabili casuali continue generiche Qual è la probabilità che il tempo di studio superiore a 3 ore? L area del rettangolo dato da C + A è data dal prodotto tra la base b = 1 e l altezza h = 0.5 ottenuta in precedenza. Essendo Area(C + A) = 0.5 1 = 0.5, essa coincide con Area(C + B) = 0.5 in quanto corrisponde alla metà dell area del triangolo (densità totale, uguale ad 1 per definizione). Ne consegue che i triangoli rettangoli A e B sono uguali (hanno uguale area, uguale base (b = 1) ). Inoltre la somma dei due cateti dei triangoli (in blu e verde) deve essere pari a 0.5: ciascuno di essi è dunque pari a 0.25. Quindi Area(A) = Area(B) = 1 0.25 = 0.125, da cui P (X > 3) = 0.125. 2 () Statistica 13 / 48
Variabili casuali continue generiche Qual è la probabilità che il tempo di studio sia compreso tra 1 e 3 ore? Sulla base dei risultati ottenuti in precedenza, e data la simmetria della funzione di densità considerata, P (X < 1) = P (X > 3). La probabilità cercata è dunque. P (1 < X < 3) = 1 [P (X < 1) + P (X > 3)] = 1 [0.125 + 0.125] = 0.75 () Statistica 14 / 48
Variabile casuale Normale Una continua X una o Gaussiana, di parametri µ e σ 2, se definita la funzione di densità f(x 0 ) = 1 1 (x µ) 2 2πσ 2 e 2 σ 2 con < x < +, X N(µ, σ 2 ) E possibile definire il valore atteso e la varianza della Normale che corrispondono ai parametri della distribuzione, dal momento che E(X) = µ e V ar(x) = σ 2 () Statistica 15 / 48
La, µ = 10, σ = 5 () Statistica 16 / 48
La, µ σ < X < µ σ () Statistica 17 / 48
La, µ 2σ < X < µ 2σ () Statistica 18 / 48
La, µ 3σ < X < µ 3σ () Statistica 19 / 48
La, variazione al variare dei parametri () Statistica 20 / 48
La, variazione al variare dei parametri () Statistica 21 / 48
Variabile casuale Standardizzata Data la continua X distribuita come N(µ, σ 2 ), la standardizzazione di X, ovvero Z = X µ σ rappresenta la Normale Standardizzata Z si distribuisce come N(0, 1), con funzione di densità f(z) = 1 2π e z2 2 ; < z < + () Statistica 22 / 48
La standardizzata () Statistica 23 / 48
La In seguito ad uno studio interno di un istituto bancario è stato rilevato che i tempi di attesa per le operazioni di sportello si distribuiscono secondo una Normale con media pari a 20 e varianza pari a 9. Qual è la probabilità che il tempo di attesa... superi i 25 minuti; sia inferiore ai 16 minuti; sia compreso tra 18 e 21 minuti. () Statistica 24 / 48
La superi i 25 minuti; () Statistica 25 / 48
La superi i 25 minuti; la prima operazione da fare è standardizzare il problema 25 20 z = = 1.667 3 A questo punto è possibile utilizzare le tavole della distribuzione normale stardizzata per trovare la probabilità di interesse. () Statistica 26 / 48
La superi i 25 minuti; la prima operazione da fare è standardizzare il problema 25 20 z = = 1.667 3 A questo punto è possibile utilizzare le tavole della distribuzione normale stardizzata per trovare la probabilità di interesse. () Statistica 26 / 48
La superi i 25 minuti; la prima operazione da fare è standardizzare il problema 25 20 z = = 1.667 3 A questo punto è possibile utilizzare le tavole della distribuzione normale stardizzata per trovare la probabilità di interesse. () Statistica 26 / 48
La superi i 25 minuti; la prima operazione da fare è standardizzare il problema 25 20 z = = 1.667 3 A questo punto è possibile utilizzare le tavole della distribuzione normale stardizzata per trovare la probabilità di interesse. P (Z 1.66) = 1 P (Z 1.66) = 1 0.95254 = 0.047 () Statistica 26 / 48
La sia inferiore a 16 minuti; () Statistica 27 / 48
La sia inferiore a 16 minuti; la prima operazione da fare è standardizzare il problema 16 20 z = = 1.33 3 A questo punto è possibile utilizzare le tavole della distribuzione normale stardizzata per trovare la probabilità di interesse. () Statistica 28 / 48
La sia inferiore a 16 minuti; la prima operazione da fare è standardizzare il problema 16 20 z = = 1.33 3 A questo punto è possibile utilizzare le tavole della distribuzione normale stardizzata per trovare la probabilità di interesse. () Statistica 28 / 48
La sia inferiore a 16 minuti; la prima operazione da fare è standardizzare il problema 16 20 z = = 1.33 3 A questo punto è possibile utilizzare le tavole della distribuzione normale stardizzata per trovare la probabilità di interesse. P (Z 1.33) = P (Z 1.33) = 0.90824 () Statistica 28 / 48
La sia compreso tra 18 e 21 minuti; () Statistica 29 / 48
La sia compreso tra 18 e 21 minuti; la prima operazione da fare è standardizzare il problema 18 20 21 20 z 1 = = 0.66 e z 1 = = 0.33 3 3 A questo punto è possibile utilizzare le tavole della distribuzione normale stardizzata per trovare la probabilità di interesse. () Statistica 30 / 48
La sia compreso tra 18 e 21 minuti; la prima operazione da fare è standardizzare il problema 18 20 21 20 z 1 = = 0.66 e z 1 = = 0.33 3 3 A questo punto è possibile utilizzare le tavole della distribuzione normale stardizzata per trovare la probabilità di interesse. () Statistica 30 / 48
La sia compreso tra 18 e 21 minuti; la prima operazione da fare è standardizzare il problema 18 20 21 20 z 1 = = 0.66 e z 1 = = 0.33 3 3 A questo punto è possibile utilizzare le tavole della distribuzione normale stardizzata per trovare la probabilità di interesse. () Statistica 30 / 48
La sia compreso tra 18 e 21 minuti; la prima operazione da fare è standardizzare il problema 18 20 21 20 z 1 = = 0.66 e z 1 = = 0.33 3 3 A questo punto è possibile utilizzare le tavole della distribuzione normale stardizzata per trovare la probabilità di interesse. P ( 0.66 Z 0.33) = P (Z 0.33) P (Z 0.66) = P (Z 0.33) [1 P (Z 0.66)] = 0.629 (1.745) = 0.37 () Statistica 30 / 48
La Si consideri una variabile casuale X distribuita secondo una Normale con µ = 8 e σ = 3. indicare i quartili della distribuzione; indicare il 95 o percentile; () Statistica 31 / 48
La Primo quartile () Statistica 32 / 48
La Secondo quartile=mediana=media () Statistica 33 / 48
La Terzo quartile () Statistica 34 / 48
La indicare i quartili della distribuzione Con l aiuto delle tavole è necessario trovare i valori corrispondenti a Z 0.25 Z 0.5 Z 0.75 Essendo una distribuzione Normale, la mediana coincide con la media quindi Z 0.5 = 0.Utilizzando le tavole della distribuzione normale stardizzata per trovare i valori di Z restanti, Quindi... per la simmetria della curva Normale risulta essere inoltre Z 0.25 = 0.675. Per trovare i valori corrispondenti della variabile casuale X si utilizza la formula inversa di standardizzazione () Statistica 35 / 48
La indicare i quartili della distribuzione Con l aiuto delle tavole è necessario trovare i valori corrispondenti a Z 0.25 Z 0.5 Z 0.75 Essendo una distribuzione Normale, la mediana coincide con la media quindi Z 0.5 = 0.Utilizzando le tavole della distribuzione normale stardizzata per trovare i valori di Z restanti, () Statistica 35 / 48
La Quindi... indicare i quartili della distribuzione Con l aiuto delle tavole è necessario trovare i valori corrispondenti a Z 0.25 Z 0.5 Z 0.75 Essendo una distribuzione Normale, la mediana coincide con la media quindi Z 0.5 = 0.Utilizzando le tavole della distribuzione normale stardizzata per trovare i valori di Z restanti, P (Z Z 0.75 ) = 0.75 da cui Z 0.75 = 0.67+0.68 2 = 0.675 per la simmetria della curva Normale risulta essere inoltre Z 0.25 = 0.675. Per trovare i valori corrispondenti della variabile casuale X si utilizza la formula inversa di standardizzazione X 0.5 = 8 X 0.25 = Z 0.25 σ + µ = 0.675 3 + 8 = 5.975 X 0.75 = Z 0.75 σ + µ = 0.675 3 + 8 = 10.025 () Statistica 35 / 48
La indicare il 95 o percentile () Statistica 36 / 48
La indicare il 95 o percentile Con l aiuto delle tavole è necessario trovare il valore corrispondente a 0.95 Ricorrendo alle tavole... () Statistica 37 / 48
La Quindi... indicare il 95 o percentile Con l aiuto delle tavole è necessario trovare il valore corrispondente a 0.95 Z 0.95 = 1.64+1.65 2 = 1.645 Per ottenere il valore della variabile X X 0.95 = Z 0.95 σ + µ = 1.645 3 + 8 = 12.935 () Statistica 37 / 48
Approssimazione della Binomiale alla Normale Sia X una variabile casuale distribuita secondo una Binomiale di parametri n = 25 e p = 0.6. E possibile approssimare X con una continua Y N(µ, σ 2 ) dove µ = n p = 25 0.6 = 15 σ 2 = n p (1 p) = 25 0.6 0.4 = 6 σ = 6 = 2.45 Si supponga di essere interessati a P (X 13). calcolo Normale Per utilizzare l approssimazione normale è necessario standardizzare il problema calcolo Binomiale Z = X µ 13 15 Utilizzando il calcolo Binomiale si ha σ = = 0.82 dunque, 2.45 P (X 13) P (Y 13) = P (Z 0.82) = 0.206 13 ( ) 25 P (X 13) = 0.6 x 0.4 25 x = x=0 x Effettuando una correzione di continuità pari a 0.5 = 0.267 X + 0.5 µ 13.5 15 Z = σ = = 0.61 2.45 P (X 13) P (Y 13.5) = P (Z 0.61) = 0.271 Evidentemente 0.271 rappresenta un approssimazione migliore di 0.267 rispetto a 0.206. () Statistica 38 / 48
Approssimazione della Binomiale alla Normale Probabilità calcolate con p.m.f. Binomiale e con al c.d.f. Normale: l area in blue rappresenta la probabilità che si perderebbe approssimando senza correzione della continuità: in particolare l area vale 0.267 0.206=0.061 () Statistica 39 / 48
Approssimazione della Binomiale alla Normale Si consideri l esperimento consistente nel lancio di una moneta 120 volte. Trovare la probabilità che esca testa tra il 40% e il 60% dei lanci; più dei 5 del totale dei lanci. 8 () Statistica 40 / 48
Approssimazione della Binomiale alla Normale tra il 40% e il 60% dei lanci; () Statistica 41 / 48
Approssimazione della Binomiale alla Normale tra il 40% e il 60% dei lanci; È possibile determinare tale probabilità in due modi diversi. Il primo modo consiste nell utilizzare l approssimazione della binomiale alla normale. La numero di teste in 120 lanci si distribuisce come una binomiale di parametri (n = 120, p = 1 2 ). Il numero di successi corrispondenti al 40% del totale di 120 prove è 48, mentre il 60% corrisponde a 72. correzione della continuità La numero di teste è discreta,anche se approssimata da una continua. Si è interessati alla probabilità che essa assuma valori compresi nell interallo [47.5, 72.5] al fine di includere nel calcolo gli estremi 48 e 72. I parametri della normale cui si approssima la binomiale sono µ = np = 120 1 2 = 60 e σ = np(1 p) = 120 1 1 2 2 = 5.48. Standardizzando i valori z 1 = 47.5 60 5.48 = 2.28 e z 2 = 72.5 60 5.48 = 2.28 Dalla simmetria della normale, segue che P ( 2.28 <= X <= 2.28) = 2 P (0 <= X <= 2.28) = 2 0.4887 = 0.9774. () Statistica 42 / 48
Approssimazione della Binomiale alla Normale Il secondo metodo consiste nel ricorrere alla distribuzione delle proporzioni p(1 p) campionarie, la cui media è data da µ p = p e σ p = N. Rispetto ai dati del problema µ p = p = 0.5 e σ p = 0.25 120 = 0.0456. Standardizzando il problema rispetto ai parametri della distribuzione campionaria z 1 = 0.4 0.5 0.0456 = 2.19 e z 0.6 0.5 2 = 0.0456 = 2.19 La probabilità corrispondente è P ( 2.19 <= X <= 2.19) = 2 P (0 <= X <= 2.19) = 2 0.4857 = 0.9714. correzione di continuità Il risultato non coincide con quanto ottenuto utilizzando l approssimazione della binomiale alla normale perchè la proporzione è una variabile discreta. Per tenere conto di questo bisogna sottrarre (1/2N) = 1/(2 120) = 0.00417 a 0.4 ed aggiungere la stessa quantità a 0.6. Pertanto gli estremi dell intervallo di valori standardizzati è z 1 = 0.4 0.00417 0.5 0.0456 = 2.28 e z 2 = Che porta alla coincidenza tra i risultati nei due metodi. 0.6 + 0.00417 0.5 0.0456 = 2.28 () Statistica 43 / 48
Approssimazione della Binomiale alla Normale più di dei 5 8 del totale dei lanci. () Statistica 44 / 48
Approssimazione della Binomiale alla Normale più di dei 5 del totale dei lanci. 8 La proporzione corrispondente a 5 = 0.6250. Standardizzando il problema 8 tenendo conto del fatto che la proporzione è una variabile discreta si ottiene z = 0.6250 0.00417 0.5 0.0456 = 2.65 La probabilità corrispondente è P (z >= 2.65) = 1 P (z < 2.65)=1-0.996=0.004 () Statistica 45 / 48
Variabile Casuale La Variabile Casuale (Negativa) modellizza il tempo di attesa prima del verificarsi di un determinato evento. In particolare sia X il tempo di attesa f(x) = λe λx se x 0; f(x) = 0 altrimenti. in cui il parametro della distribuzione λ rappresenta il reciproco del tempo medio del verificarsi dell evento considerato. La funzione di ripartizione è F (X) = 1 e λx E(X) = 1 λ V ar(x) = 1 λ 2 Proprietà di assenza di memoria P (X > t + s X > t) = P (X > s) s, t 0 In sostanza l andamento esponenziale presuppone che se una lampadina ha funzionato per un certo tempo t, la probabilità che essa funzioni per un ulteriore tempo s non dipende dal tempo precedente di funzionamento. () Statistica 46 / 48
Variabile Casuale (Negativa) Il responsabile dell illuminazione di un palazzo ha a disposizione 3 lampadine di riserva. Ciascuna delle lampadine utilizzate dura in media 200 ore e il responsabile deve aspettare 24 ore perchè gli vengano consegnate nuove lampadine di riserva. In altre parole, se si fulminano pi di tre lampadine entro le 24 ore, il responsabile non sarà in grado di sostituirle. Qual è la probabilità che il responsabile non sia in grado di sostituire le eventuali lampadine fulminate. Svolgimento. Si consideri di ragionare in termini di centinaia di ore. Il tempo medio è dunque pari a 2 (in centinaia di ore). Il parametro della distribuzione esponenziale è dunque λ = 1 2 = 0.5. Il problema sorge se 3 lampadine si fulminano entro le 24h (ovvero 0.24 in centinaia di ore). () Statistica 47 / 48
Variabile Casuale (Negativa) La probabilità che il tempo di rottura di una singola lampadina nelle 24h P (X 0.24) si calcola facendo ricorso alla funzione di ripartizione esponenziale F (0.24) = P (X 0.24) = 1 e λ x = 1 e 0.5 0.24 = 1 0.887 = 0.113 Poichè la rottura di ciascuna lampadina è indipendente da quella delle altre, la probabilità della simultanea rottura di 3 lampadine è uguale al prodotto delle singole probabilità. P (X 1 0.24 X 2 0.24 X 3 0.24) = = P (X 1 0.24) P (X 2 0.24) P (X 3 0.24) = = 0.113 0.113 0.113 = 0.0014 () Statistica 48 / 48