PROBABILITÀ SCHEDA N. 3 VARIABILI ALEATORIE BINOMIALE E NORMALE In questa scheda vedremo due famiglie di variabili aleatorie (una discreta e una continua), che ci serviranno per descrivere uno dei risultati più utili della probabilità e che affronteremo con la prossima scheda: il Teorema Centrale del limite o del Limite Centrale. Il suo enunciato garantirà, sotto buone ipotesi, di poter trarre informazioni su una popolazione a partire dai dati osservati su un campione estratto dalla popolazione stessa. 1. La variabile aleatoria di Bernoulli e la variabile aleatoria binomiale In molte situazioni si è interessati a verificare se una determinata caratteristica si presenta oppure no (l efficacia di un vaccino, il manifestarsi di una malattia, la difettosità di un pezzo, ). Ciò corrisponde ad un esperimento con solo due possibili esiti (detto anche dicotomico), che può essere modellato con una variabile aleatoria Y che assume valore 1 (successo) con probabilità p e valore 0 (insuccesso) con probabilità 1-p, con 0<p<1. 1 con probabilità p Y = 0 con probabilità 1 p Una variabile aleatoria di questo tipo è chiamata di Bernoulli di parametro p. Il valore atteso e la varianza di Y sono E(Y) = 0 x (1-p) + 1 x p = p Var(Y)= E(Y ) (E(Y)) = (0 x (1-p) + 1 x p) - p = p (1-p) È modellabile con una variabile aleatoria di Bernoulli, ad esempio, il lancio di una moneta, non necessariamente equilibrata (p è la probabilità che esca ad esempio T). Ora consideriamo la ripetizione di n esperimenti indipendenti ciascuno dei quali è modellabile con una variabile aleatoria di Bernoulli con probabilità di successo p. Per avere il numero di successi in questi n esperimenti basta sommare i valori delle n variabili aleatorie di Bernoulli, consideriamo quindi la variabile aleatoria X n = Y i con i i = 1 Y v.a. indipendenti Bernoulli di parametro p I possibili valori assunti da X sono 0, 1,..., n. Vogliamo conoscere le probabilità con cui tali valori sono assunti, cioè vogliamo costruire la densità di probabilità di X. Riprendiamo l esempio della moneta; i singoli lanci sono indipendenti fra di loro. Siamo interessati al numero di uscite di testa in 10 lanci; quindi n = 10. Qual è la probabilità di ottenere 6 uscite di testa?
Consideriamo prima una prefissata sequenza di teste e croci; ad esempio, qual è la probabilità di ottenere la sequenza T T C T T C C T T C Essendo i lanci indipendenti, la probabilità cercata è data da p p (1-p) p p (1-p) (1-p) p p (1-p) = p 6 (1-p) 4. Si capisce subito che la probabilità di avere 6 teste (e quindi 4 croci) anche in posizioni diverse risulta la stessa. Allora la probabilità di avere una determinata sequenza di k teste e n-k croci in n lanci sarà p k (1-p) n-k. Se ora volessimo calcolare la probabilità di tutte le possibili sequenze di 10 lanci in cui ci siano 6 teste dobbiamo stabilire quante sono le sequenze che presentano 6 teste e 4 croci. Il problema è equivalente a contare tutti i modi in cui è possibile scegliere di mettere le 6 teste nei 10 lanci. Senza entrare nei dettagli del calcolo diciamo che questo 10! numero è che si indica con 10 e si chiama coefficiente binomiale 6!(10 6)! 6 Allora la probabilità di ottenere 6 teste lanciando la moneta 10 volte sarà 10 6 4 (1 ) 6 p p n n! In generale, il coefficiente binomiale vale: k =. Un modo più veloce per k!( n k)! calcolarlo è: n nn ( 1) ( n k+ 1 = ) k k! Parliamo di esperimento binomiale quando consideriamo un esperimento casuale in cui 1. interessa esclusivamente il successo (codificato con 1) o l insuccesso (codificato con 0). il successo ha probabilità p 3. si effettuano n prove indipendenti. Se X è la variabile che indica il numero di successi in n prove di un esperimento binomiale, avremo che la probabilità che X assuma il valore k è: n k n k P( X = k) = p (1 p) k per k=0,1,,,n. La variabile casuale X così definita è detta variabile casuale binomiale di parametri n (numero di prove) e p (probabilità di successo in una prova) e si indica con X B( n, p) Di seguito riportiamo alcuni grafici delle funzioni di densità per n = 0 e valori diversi di p.
Si può osservare che il grafico è simmetrico quando p=0.5; il grafico è più concentrato a sinistra quando p assume valori bassi (<0.5); i grafici con p=0. e 0.8 sono simmetrici l un l altro rispetto alla retta X=n/; ogni grafico ha solo un massimo che è vicino al valore atteso della variabile aleatoria. La variabile aleatoria di Bernoulli che rappresenta l esito di una sola prova è quindi una binomiale di parametri 1 e p. Come abbiamo già detto, siccome X rappresenta la somma dei successi in n prove, X può essere interpretata come somma di n variabili aleatorie binomiali B(1,p) indipendenti: X n = Y i con i i = 1 Y v.a. indipendenti Bernoulli di parametro p Utilizzando le proprietà del valore atteso e della varianza della somma di variabili aleatorie indipendenti, abbiamo: n n n E ( X ) = E Yi = E ( Yi) = p = np i = 1 i = 1 i = 1 n n n Var ( X ) = Var Yi = Var( Yi) = p ( 1 p) = np( 1 p) i = 1 i = 1 i = 1 Ricordiamo che il valore atteso della somma è sempre uguale alla somma dei valori attesi, mentre la varianza della somma è uguale alla somma delle varianze solo se le variabili sono indipendenti. Più in generale si può dimostrare che la somma di due binomiali indipendenti X 1 e X con densità B(n 1,p) e B(n,p) rispettivamente è ancora una densità binomiale B(n 1 +n,p).
ESEMPIO 1: Il rapporto dei sessi nella specie umana alla nascita è di 105 femmine su 100 maschi. Qual è la probabilità che in 6 nascite singole almeno la metà dei neonati siano di sesso femminile? Dai dati si desume che la probabilità della nascita di una femmina è p=105/0. Se indichiamo con X il numero di neonati di sesso femminile nelle 6 nascite prese in esame, la variabile aleatoria X avrà una densità binomiale B(6, 105/05). Vogliamo calcolare P( X 3) = P( X = 3) + P( X = 4) + P( X = 5) + P( X = 6) = 1- P( X = 0)- P( X = 1)- P( X = ) 6 1 5 4 105 6 100 105 6 100 105 = 1 = 0.63 05 1 05 05 05 05 Come varierebbe la probabilità se si considerassero 60 nascite singole? Sarebbe uguale alla precedente? (Rispondi intuitivamente senza fare i calcoli. Vedremo la risposta in una scheda successiva). La variabile aleatoria normale (o gaussiana) Una delle più importanti famiglie di distribuzioni continue è quella delle distribuzioni normali, in quanto molti fenomeni naturali sono modellabili con una variabile aleatoria normale (altezze, pesi, misure dei pezzi prodotti da una fabbrica secondo determinate specifiche, errori casuali nelle misurazioni fisiche, ). Una variabile aleatoria normale X assume valori su tutta la retta dei numeri reali. Se ha valore atteso μ e varianza σ la sua densità è e si indica con 1 fx ( x) = e πσ X N μ σ (, ) ( x μ) Quando il valore atteso è uguale a 0 e la varianza 1 si parla di normale standardizzata. I grafici delle densità normali al variare del valore atteso e della varianza hanno la classica forma a campana e sono riportati di seguito σ
0,9 0,8 0,7 0,6 0,5 0,4 0,3 0, 0,1 0,0 Variable N(0,1) N(0,4) N(0,0.5) N(,1) Si può osservare che: il grafico è simmetrico rispetto al valore atteso; densità con uguale varianza, ma media diversa, hanno la stessa forma ma sono traslate la varianza fa cambiare la forma del grafico: più la varianza cresce più il grafico si appiattisce; viceversa s la varianza è piccola, il grafico è appuntito. -5,0 -,5 0,0,5 5,0 7,5 10,0 La famiglia delle variabili aleatorie normali gode di buone proprietà matematiche, molto utili nelle applicazioni 1. Una variabile aleatoria Y ottenuta con una trasformazione lineare di una v.a. X con distribuzione N ( μ, σ ): Y = ax + b è ancora una normale, con valore atteso e varianza opportunamente trasformate: Y N( aμ + b, a σ ) In particolare se X N(0,1) allora Y N( b, a σ ). La somma di variabili aleatorie con distribuzione normale è una variabile aleatoria con distribuzione normale (senza ipotesi di indipendenza); 3. Se due variabili normali sono non correlate, allora sono indipendenti. La prima proprietà è fondamentale per il calcolo delle probabilità. Infatti, come abbiamo già visto, le probabilità di intervalli si calcolano come: b b ( x μ) 1 σ P ( a < X < b) = fx dx = e dx a a πσ ( x μ) 1 σ Poiché non esiste una primitiva della funzione di densità fx ( x) = e, NON si πσ possono calcolare esplicitamente gli integrali di f X su un generico intervallo (a,b). Per ovviare a questo problema, esistono tavole (riportate in fondo a questa scheda) che forniscono la funzione di distribuzione cumulata per la normale standardizzata N (0,1) e da queste si ricavano le informazioni per tutte le altre variabili aleatorie normali. Infatti se X è una variabile aleatoria normale con media μ e varianza σ, la variabile Z definita da μ Z = X σ è ancora una variabile aleatoria normale (essendo una trasformazione lineare di X) con Z N 0,1. Infatti Z è una trasformazione lineare di X, quindi: media 0 e varianza 1: ( )
X μ 1 1 μ E( Z) = E = E ( X μ) = E ( X ) = 0 σ σ σ σ X μ 1 1 Var( Z) = Var = Var ( X μ) = Var ( X ) = 1 σ σ σ P x X x La trasformazione di X in Z permette di calcolare ( < < ) usando P ( z Z z ) quindi di utilizzare le tavole. Ad esempio se X N ( 30.1, 5.76) corrispondenti valori z di una variabile aleatoria Z, con Z N ( 0,1) - se x = 7.9, allora z = (7.9-30.1) / 5.76 = -0.9 - se x = 34.4, allora z = (34.4-30.1) / 5.76 = 1.79 1 < < e 1, per i valori di X uguali a 7.9 e 34.4, calcoliamo i : Quindi: 7.9 30.01 X 30.1 34.4 30.1 P ( 7.9 < X < 34.4) = P < < = P ( 0.9 < Z < 1.79) 5.76 5.76 5.76 Z N 0,1, per i valori z di Z uguali a -1.04 e 0.73, calcoliamo i Viceversa se ( ) corrispondenti valori x di una variabile aleatoria X, con X N ( 30.1, 5.76) La trasformazione è: X = σz + μ : - se z = - 1.04, allora x = - 1.04 x.4 + 30.1 = 7.6 - se z = 0.73, allora x = 0.73 x.4 + 30.1 = 31.9 Quindi:. ( 1.04 < < 1.73) = ( 1.04 5.76 + 30.1 < 5.76 + 30.1 < 1.73 5.76 + 30.1) P Z P Z ( 7.6 31.9) = P < X < Uso delle tavole di una variabile aleatoria con distribuzione normale standardizzata Le tavole riportate in Appendice relative alla funzione di distribuzione cumulata di una variabile casuale con distribuzione N(0,1) si leggono nel seguente modo: i numeri posti nella tabella sulla sinistra (prima colonna) e in alto (prima riga) corrispondono ai valori z di Z (i numeri della prima colonna hanno una cifra decimale, il secondo decimale è indicato nella riga in alto); gli altri numeri della tabella sono i valori della funzione di distribuzione cumulata calcolata nel punto che ha come cifra intera e prima decimale quello posto sulla corrispondente riga e come seconda cifra decimale quello posto nella corrispondente colonna. Esempi. a) Se vogliamo calcolare il valore della funzione di distribuzione cumulata del valore z = 1.6, cioè P ( Z 1.6), ovvero l'area della curva della densità a sinistra del valore 1.6, bisogna cercare nella prima colonna della tabella il valore 1.6 e poi nella prima riga il valore : nel punto di incrocio di questa riga e questa colonna troviamo 0.9474; quindi: P ( Z 1.6) = 0.9474. Per la simmetria della funzione di densità avremo che: P Z 1.6 = P Z > 1.6 = 1 P Z 1.6 = 1-0.9474 = 0.056 ( ) ( ) ( )
b) Per calcolare P ( Z > 0.43) possiamo cercare P(Z < 0,43)=0,6664 e calcolare P(Z > P ( Z 0.43). 0,43)=1-0.6664 =0.3336 oppure cercare sulle tavole c) Se vogliamo calcolare P (0.43 < Z 1.6) dovremo calcolare, come già osservato, ( 1.6) ) P Z - P ( Z 0.43 cioè 0.9474-0.6664 = 0.810. N.B. Le disuguaglianze si possono porre indifferentemente larghe (, ) o strette (<, >). Calcoliamo ora alcune probabilità legate ai valori di μ e σ per una variabile aleatoria X, con X N( μ, σ ) a) P ( μ σ < X < μ + σ ); questa è uguale a μ σ μ X μ μ + σ μ Z 1 = 0.686 68% σ σ σ P μ σ < X < μ + σ ; questa è uguale, procedendo come sopra, a P < Z < = P < < = P ( 1< < ) b) ( ) 0.9544 95% P μ 3σ X μ 3 c) ( < < + σ ) ; questa è uguale a P ( 3< Z < 3) = 0.9974 99.7% ( ) Viceversa calcoliamo (in modo approssimato) alcuni dei quantili di Z ; in particolare cerchiamo quei valori di Z che comprendono il 50%, il 95% e il 99% dei dati centrali: a) il valore z di Z per cui 0.50 è circa z = 0.68 P ( z < Z < z) = (corrisponde al valore z di Z per cui P ( Z z) P ( z < Z < z) = (corrisponde al valore z di Z per cui P ( Z z) P ( z < Z < z) = (corrisponde al valore z di Z per cui P ( Z z) < = 0.5) b) il valore z di Z per cui 0.95 è circa z = 1.96 < = 0.05) c) il valore z di Z per cui 0.99 è circa z =.58 < = 0.005) Utilizziamo le tavole per calcolare probabilità e quantili per una variabile aletaria X, con X N ( 30.1, 5.76). P (7.9 < X < 34.4) P ( 7.9 < X < 34.4) = P ( 0.9 < Z < 1.79) P ( Z 1.79) P ( Z 0.9) a) Vogliamo calcolare utilizzando i calcoli precedenti e le tavole: = < < = 0.9633-0.1788 = 0.7845 b) Vogliamo calcolare i valori di X che individuano il 50% dei dati centrali; abbiamo visto che il valore z di Z per cui P z < Z < z = 0.50 ; è circa z = 0.68; quindi bisogna ( ) trasformare i due valori -0.68 e 0.68; se z =-0.68, allora x=-0.68 x.4 + 30.1 = 8.5 e se z = 0.68, allora x = 0.68 x.4 + 30.1 = 31.7; per cui P 8.5 < X < 31.7 =0.50. ( ) ESEMPIO : Un tipo di conserve è inscatolato in lattine di peso medio 400 grammi. Il confezionamento viene effettuato da una macchina che è tarata a 405 grammi (altrimenti metà delle confezioni avrebbero peso inferiore a quello dichiarato) ; supponiamo che il peso delle conserve sia modellabile con una normale di deviazione standard fissa 3 grammi. In un lotto di 10000 lattine quante si prevede che siano di peso inferiore a 400 grammi?
Indichiamo con X il peso delle conserve in una lattina: X è una variabile normale N (405, 9). Dobbiamo calcolare P(X < 400) utilizzando le tavole della normale standardizzata. Abbiamo che X 405 400 405 P( X < 400) = P < = P( Z < 1.67) = 0.0475 3 3 Se indichiamo con Y il numero di lattine con peso inferiore a 400 grammi in un lotto di 10000 lattine, Y è una variabile binomiale B(10000, 0.0475). Allora il numero medio di quelle con peso inferiore a quello dichiarato è 475 (=10000x0.0475) Supponiamo ora di voler cambiare la taratura della macchina in modo tale che la probabilità che una lattina abbia peso inferiore a 400 grammi sia minore del 1% (mantenendo lo stesso scarto). In questo caso X è una normale N(m,9). Come prima abbiamo che X μ 400 μ 400 μ P(X < 400)= P < = P Z < 3 3 3 Se imponiamo che questa quantità sia minore di 0.01, abbiamo (sempre leggendo dalle tavole) che 400 μ <.33, da cui si ricava che μ > 406.99. Quindi la macchina deve 3 essere tarata a 407 grammi.
Tavole della funzione di distribuzione Z N 0,1 cumulata di Z, con ( ) z x σ 1 P ( Z < z) = e dx π z 0 1 3 4 5 6 7 8 9-3.0 0.0013 0.0013 0.0013 0.001 0.001 0.0011 0.0011 0.0011 0.0010 0.0010 -.9 0.0019 0.0018 0.0018 0.0017 0.0016 0.0016 0.0015 0.0015 0.0014 0.0014 -.8 0.006 0.005 0.004 0.003 0.003 0.00 0.001 0.001 0.000 0.0019 -.7 0.0035 0.0034 0.0033 0.003 0.0031 0.0030 0.009 0.008 0.007 0.006 -.6 0.0047 0.0045 0.0044 0.0043 0.0041 0.0040 0.0039 0.0038 0.0037 0.0036 -.5 0.006 0.0060 0.0059 0.0057 0.0055 0.0054 0.005 0.0051 0.0049 0.0048 -.4 0.008 0.0080 0.0078 0.0075 0.0073 0.0071 0.0069 0.0068 0.0066 0.0064 -.3 0.0107 0.0104 0.010 0.0099 0.0096 0.0094 0.0091 0.0089 0.0087 0.0084 -. 0.0139 0.0136 0.013 0.019 0.015 0.01 0.0119 0.0116 0.0113 0.0110 -.1 0.0179 0.0174 0.0170 0.0166 0.016 0.0158 0.0154 0.0150 0.0146 0.0143 -.0 0.08 0.0 0.017 0.01 0.007 0.00 0.0197 0.019 0.0188 0.0183-1.9 0.087 0.081 0.074 0.068 0.06 0.056 0.050 0.044 0.039 0.033-1.8 0.0359 0.0351 0.0344 0.0336 0.039 0.03 0.0314 0.0307 0.0301 0.094-1.7 0.0446 0.0436 0.047 0.0418 0.0409 0.0401 0.039 0.0384 0.0375 0.0367-1.6 0.0548 0.0537 0.056 0.0516 0.0505 0.0495 0.0485 0.0475 0.0465 0.0455-1.5 0.0668 0.0655 0.0643 0.0630 0.0618 0.0606 0.0594 0.058 0.0571 0.0559-1.4 0.0808 0.0793 0.0778 0.0764 0.0749 0.0735 0.071 0.0708 0.0694 0.0681-1.3 0.0968 0.0951 0.0934 0.0918 0.0901 0.0885 0.0869 0.0853 0.0838 0.083-1. 0.1151 0.1131 0.111 0.1093 0.1075 0.1056 0.1038 0.100 0.1003 0.0985-1.1 0.1357 0.1335 0.1314 0.19 0.171 0.151 0.130 0.110 0.1190 0.1170-1.0 0.1587 0.156 0.1539 0.1515 0.149 0.1469 0.1446 0.143 0.1401 0.1379-0.9 0.1841 0.1814 0.1788 0.176 0.1736 0.1711 0.1685 0.1660 0.1635 0.1611-0.8 0.119 0.090 0.061 0.033 0.005 0.1977 0.1949 0.19 0.1894 0.1867-0.7 0.40 0.389 0.358 0.37 0.96 0.66 0.36 0.06 0.177 0.148-0.6 0.743 0.709 0.676 0.643 0.611 0.578 0.546 0.514 0.483 0.451-0.5 0.3085 0.3050 0.3015 0.981 0.946 0.91 0.877 0.843 0.810 0.776-0.4 0.3446 0.3409 0.337 0.3336 0.3300 0.364 0.38 0.319 0.3156 0.311-0.3 0.381 0.3783 0.3745 0.3707 0.3669 0.363 0.3594 0.3557 0.350 0.3483-0. 0.407 0.4168 0.419 0.4090 0.405 0.4013 0.3974 0.3936 0.3897 0.3859-0.1 0.460 0.456 0.45 0.4483 0.4443 0.4404 0.4364 0.435 0.486 0.447-0.0 0.5000 0.4960 0.490 0.4880 0.4840 0.4801 0.4761 0.471 0.4681 0.4641 0.0 0.5000 0.5040 0.5080 0.510 0.5160 0.5199 0.539 0.579 0.5319 0.5359 0.1 0.5398 0.5438 0.5478 0.5517 0.5557 0.5596 0.5636 0.5675 0.5714 0.5753 0. 0.5793 0.583 0.5871 0.5910 0.5948 0.5987 0.606 0.6064 0.6103 0.6141 0.3 0.6179 0.617 0.655 0.693 0.6331 0.6368 0.6406 0.6443 0.6480 0.6517 0.4 0.6554 0.6591 0.668 0.6664 0.6700 0.6736 0.677 0.6808 0.6844 0.6879 0.5 0.6915 0.6950 0.6985 0.7019 0.7054 0.7088 0.713 0.7157 0.7190 0.74 0.6 0.757 0.791 0.734 0.7357 0.7389 0.74 0.7454 0.7486 0.7517 0.7549 0.7 0.7580 0.7611 0.764 0.7673 0.7704 0.7734 0.7764 0.7794 0.783 0.785 0.8 0.7881 0.7910 0.7939 0.7967 0.7995 0.803 0.8051 0.8078 0.8106 0.8133 0.9 0.8159 0.8186 0.81 0.838 0.864 0.889 0.8315 0.8340 0.8365 0.8389 1.0 0.8413 0.8438 0.8461 0.8485 0.8508 0.8531 0.8554 0.8577 0.8599 0.861 1.1 0.8643 0.8665 0.8686 0.8708 0.879 0.8749 0.8770 0.8790 0.8810 0.8830 1. 0.8849 0.8869 0.8888 0.8907 0.895 0.8944 0.896 0.8980 0.8997 0.9015 1.3 0.903 0.9049 0.9066 0.908 0.9099 0.9115 0.9131 0.9147 0.916 0.9177 1.4 0.919 0.907 0.9 0.936 0.951 0.965 0.979 0.99 0.9306 0.9319 1.5 0.933 0.9345 0.9357 0.9370 0.938 0.9394 0.9406 0.9418 0.949 0.9441 1.6 0.945 0.9463 0.9474 0.9484 0.9495 0.9505 0.9515 0.955 0.9535 0.9545 1.7 0.9554 0.9564 0.9573 0.958 0.9591 0.9599 0.9608 0.9616 0.965 0.9633 1.8 0.9641 0.9649 0.9656 0.9664 0.9671 0.9678 0.9686 0.9693 0.9699 0.9706 1.9 0.9713 0.9719 0.976 0.973 0.9738 0.9744 0.9750 0.9756 0.9761 0.9767.0 0.977 0.9778 0.9783 0.9788 0.9793 0.9798 0.9803 0.9808 0.981 0.9817.1 0.981 0.986 0.9830 0.9834 0.9838 0.984 0.9846 0.9850 0.9854 0.9857. 0.9861 0.9864 0.9868 0.9871 0.9875 0.9878 0.9881 0.9884 0.9887 0.9890.3 0.9893 0.9896 0.9898 0.9901 0.9904 0.9906 0.9909 0.9911 0.9913 0.9916.4 0.9918 0.990 0.99 0.995 0.997 0.999 0.9931 0.993 0.9934 0.9936.5 0.9938 0.9940 0.9941 0.9943 0.9945 0.9946 0.9948 0.9949 0.9951 0.995.6 0.9953 0.9955 0.9956 0.9957 0.9959 0.9960 0.9961 0.996 0.9963 0.9964.7 0.9965 0.9966 0.9967 0.9968 0.9969 0.9970 0.9971 0.997 0.9973 0.9974.8 0.9974 0.9975 0.9976 0.9977 0.9977 0.9978 0.9979 0.9979 0.9980 0.9981.9 0.9981 0.998 0.998 0.9983 0.9984 0.9984 0.9985 0.9985 0.9986 0.9986 3.0 0.9987 0.9987 0.9987 0.9988 0.9988 0.9989 0.9989 0.9989 0.9990 0.9990