FACOLTA DI INGEGNERIA CORSO DI LAUREA IN INGEGNERIA CIVILE CORSO DI IDROLOGIA PROF. PASQUALE VERSACE SCHEDA DIDATTICA N 7 LA DISTRIBUZIONE NORMALE A.A. 01-13
La distribuzione NORMALE Uno dei più importanti esempi di distribuzione di probabilità continua è dato dalla distribuzione Normale (curva normale o distribuzione Gaussiana); è una delle più usate in statistica sia perché molti fenomeni si distribuiscono normalmente, sia perché altre funzioni di probabilità (ad es. la binomiale) possono essere approssimate da essa. Per i matematici è di grande utilità il ragionare su distribuzioni basate su un numero di casi infinitamente grandi. Infatti, il Teorema Limite Centrale stabilisce che la distribuzione della somma o della media di un campione casuale di n valori estratti da una popolazione ha una distribuzione normale per un numero elevato n. La distribuzione normale è detta anche curva degli errori accidentali o di Gauss. La distribuzione Normale è definita dall equazione: f ( x) 1 1 x μ = exp πσ σ con variabile casuale x = ]- ; + [ e parametri μ = media ]- ; + [ σ = varianza ]0 ; + [; (1) Per indicare una v.c. distribuita in maniera Normale con parametri μ e σ si usa in genere la notazione ~ N (μ, σ ). Sulla f (x) Normale si possono fare alcune considerazioni: 1) f (x) 0 x; + ) f ( xdx ) = 1 ; 3) f (x) è tanto più grande quanto più è piccolo l esponente, ovvero quanto più x è vicino a μ, e raggiunge il suo massimo per x = μ (moda, media e mediana coincidono); 4) f (x) possiede due flessi, cioè due punti in cui cambia concavità, in μ σ e μ+σ; 5) f (x) è simmetrica intorno ad x = μ, cioè per ogni coppia di ascisse x 1 =μ c e x =μ+c aventi la stessa distanza c dall asse di simmetria, f (x 1 ) = f (x );
Poiché π ed e sono costanti per conoscere l esatte forma della distribuzione è necessario conoscere la media μ e lo scarto quadratico medio σ. Si avranno, pertanto, diverse curve normali quanti sono le possibili combinazioni di medie e scarti quadratici medi. Per esempio, due curve con medie uguali e scarto diverso differiranno per quanto riguarda la forma che sarà più o meno appuntita: se minore è lo scarto quadratico medio, la curva è più appuntita. Come illustrato delle figure 1 e e nell esempio successivo, µ determina la posizione della curva sull asse delle ascisse. È il parametro di posizione, al variare del suo valore, la curva non cambia nella forma ma subisce una traslazione rispetto all asse orizzontale; σ determina la maggiore o minore concentrazione della curva intorno a µ. È il parametro di scala: al suo variare cambia la forma della curva di distribuzione. In particolare, per bassi valori di σ, l area sotto la curva è concentrata intorno alla media, mentre per alti valori la curva è schiacciata rispetto all asse orizzontale. f (x) μ 3 > μ >μ 1 μ 1 μ μ 3 Figura 1 - Distribuzione di una variabile casuale Normale con varianza fissa e differenti medie
f (x) σ 1 > σ > σ 3 σ 3 σ σ 1 Figura - Distribuzione di una variabile casuale Normale con media fissa e differenti varianze μ ESEMPIO: Altezza di uomini e donne Nella figura che segue la moda della curva che descrive la distribuzione dell altezza delle donne è più alta di quella degli uomini: significa che le donne sono più alte degli uomini? NO! Gli uomini sono in media più alti delle donne perché la loro curva è più a destra, cioè verso valori di (altezza) maggiori. Poiché le altezze dei maschi hanno una variabilità maggiore, la curva dei maschi è più bassa e larga (entrambe le aree sottese valgono 1).
Se un fenomeno si distribuisce secondo una distribuzione Normale si ha che: circa il 68% di tutti i valori cade nell intervallo di + e 1 deviazione standard dalla media P[μ σ x μ+σ] =0.686 analogamente: il 95% dei valori cade nell intervallo di + e 1.96 deviazioni standard dalla media P[μ 1.96σ x μ+1.96σ] =0.95 e per 3 sigma P[μ 3σ x μ+3σ] =0.9974.
Essendo infinite le curve normali al variare della media e dello scarto quadratico medio è sorta la necessità di costruire una curva a cui fare riferimento e di cui sono state calcolate le aree. Un caso particolare della v.c. Normale, utile nelle applicazioni, è la v.c. Normale Standardizzata, convenzionalmente indicata con Z (oppure U), così definita: Z e per la quale si ha E[Z ] = 0 e Var[Z ] = 1. La distribuzione normale standardizzata, infatti, è una particolare normale di valor medio nullo e varianza unitaria. E possibile dimostrare che: z f Z dz f xdx e verificare quindi: E x 1 Z z f Z zdz f xdx x f xdx f xdx 1 0 Var x Z z f zdz f xdx x f xdx 1 Z 1 1 1
Data una v.c. ~ N (μ, σ ) è possibile passare ad una v.c. Normale Standardizzata Z ~ N (0,1) ( e viceversa ) attraverso la relazione (). Per la variabile standardizzata la p.d.f. e la c.d.f. diventano rispettivamente: 1 1 fz ( z) = exp z π z ν exp π 1 FZ ( z) = dν Per la variabile casuale Z, non essendo la distribuzione dipendente da alcun parametro, sono stati tabulati i valori della p.d.f. e della c.d.f. (vedi Tabella 1 allegata). Inoltre è possibile dimostrare che: F Z (z) = F (x) (3) Graficamente:
Graficamente la trasformazione della variabile originaria in variabile standardizzata si ottiene passando dal sistema cartesiano ortogonale al sistema con asse Z con la curva al valore massimo nell origine e flessi a -1, +1. Fatta la trasformazione, si possono usare, quindi, le apposite tavole per il calcolo delle le porzioni di aree sottese. In tabella 1 è riportata la tavola delle aree sotto la curva normale standardizzata comprese tra l ascissa 0 e qualsiasi valore positivo fino a 3,99. Servendosi di questa tavola è possibile trovare la aree (e quindi probabilità) comprese tra due ascisse qualsiasi, ricordando la simmetria della curva intorno alla media che coincide con il valore z=0. Come si procede per calcolare le probabilità nel caso di una v.c. Normale con l ausilio della v.c. standardizzata? Si definiscono la v.c., i valori di µ e σ e l evento di interesse Si calcola il valore standardizzato z Si disegna la curva normale individuando sul grafico l area di interesse Si usano tavole, simmetria e probabilità dell evento complementare (1- ) per calcolare il valore della probabilità (area) che si desidera. Se ho un valore di z < 0? Si osserva che: F Z (-z)= 1- F Z (z) AREA A = AREA B AREA B =1 F Z (z) N.B.-Consultando la tavola è importante ricordare che i valori z sono sull asse delle ascisse e non confonderli con le aree. I valori di z possono essere negativi, le aree non lo sono mai!
ESEMPI: Variabile standardizzata 1) Si calcoli, utilizzando la tabella 1, la probabilità P[Z 3] ovvero F Z (3). Nella tabella 1 procedere verso il basso nella colonna segnata z fino a raggiungere il valore 3. Quindi procedere verso destra fino alla colonna segnata 0. Il valore 0.4987 che si individua è l area sottesa a partire dall ascissa 0; per ottenere l area richiesta, tenendo conto della simmetria della curva, bisogna aggiungere a tale valore 0.5. F Z (3)=0.4987 + 0.5 = 0.9987 rappresenta la probabilità che z sia minore od uguale a 3. ) Si calcoli la probabilità P[ -1.96 Z 1.96]. E necessario calcolare [F Z (1.96)- F Z (-1.96)] ovvero l area compresa tra z = -1.96 e z = 1.96. Per trovare l area compresa tra 0 e 1.96 procedere verso il basso nella colonna segnata z fino a raggiungere il valore 1.9. Quindi procedere a destra fino alla colonna segnata 6. Il valore 0.475 per simmetria rappresenta anche l area compresa tra 1.96 e 0. Pertanto la probabilità richiesta risulta P[ -1.96 Z 1.96] = 0.475 + 0.475= 0.95. f Z (z) 0.95 0.05 0.05 z = -1.96 z = 0 z = 1.96 3) Trovare la probabilità P[Z -0.6] ovvero F Z (-0.6). L area richiesta si trova a sinistra del valore z = 0; sulla tabella è, invece, possibile trovare il valore dell area compresa tra 0 e 0.6. che risulta pari a 0.58. Considerando la simmetria della curva si ha F Z (-z)= 1- F Z (z) da cui F Z (-0.6)= 1- F Z (0.6) = 1 (0.5 + 0.58) =0.74
4) Trovare la probabilità P[Z - 1.8]. L area richiesta = (area compresa tra z = -1.8 e z = 0) + (area a destra di z = 0). Sulla tabella troviamo il valore del primo termine individuando il valore per 1.8, mentre il secondo termine è pari a 0.5. Quindi si ha: P[Z - 1.8] = 0.3997 + 0.5 = 0.8997 5) Trovare la probabilità P[Z.05] = 1-F Z (.05). L area richiesta è l area a destra di z =.05. Sulla tabella troviamo il valore dell area compresa tra 0 e.05; per ottenere F Z (.05) aggiungiamo l area a sinistra di z=0 cioè 0.5. F Z (.05) = 0.4798 + 0.5 = 0.9798 Quindi si ha: P[Z.05] = 1-F Z (.05) = 1 0.9798 = 0.00. Analogamente partendo dal valore della probabilità è possibile, attraverso la tabella, individuarne il corrispondente frattile. 6) Trovare il valore della variabile standardizzata Z cui corrisponde una probabilità di non superamento pari a 0.95. E necessario, quindi, calcolare il frattile z 0.95 a cui corrisponde F Z (z 0.95 )=0.95. Poiché nella tabella sono riportate le aree a destra di z = 0, bisogna individuare il valore 0.45 = 0.95-0.5. Tale valore risulta compreso tra quelli riportati tra z = 1.64 e z = 1.65. Effettuando un interpolazione lineare tra tali valori si ha: 1.65 1.64 1.65 z = 0.4505 0.4495 0.4505 0.45 1.65 1.64 z = 1.65 (0.4505 0.45) = 1.645 0.4505 0.4495 ESEMPIO distribuzione Normale 1) Si assuma che la v.c. altezza delle donne di età maggiore ai 18 anni, in Calabria, è distribuita secondo la legge Normale. La media e lo scarto quadratico medio dell altezza delle donne sono rispettivamente 158 cm e 15 cm. a) Si calcoli la probabilità che l altezza di una donna sia compresa tra x 1 = 140 cm e x = 170 cm.
Per rispondere al quesito è necessario utilizzare la tabella e pertanto considerare i valori standardizzati. z x μ σ 140 158 15 1 1 = = = z x μ σ 170 158 15 = = = 1. 0.8 Dalla tabella si ha: F Z (-1.) = 1- F Z (1.) = 1- (0.5 + 0.3849) = 1-0.8849 = 0.1151 F Z (0.8) = 0.5 + 0.881 = 0.7881 Per la relazione (3) risulta: F Z (-1.) = F (140) F Z (0.8) = F (170) La probabilità richiesta è quindi: P[ 170 140] =F (170) F (140) = F Z (0.8) F Z (-1.) = 0.7881-0.1151= 0.673. Su un campione di 1000 donne ad esempio il 67.3 %, ovvero 673, hanno un altezza compresa tra 140 e 170 cm. b) si calcoli la probabilità che l altezza di una donna sia maggiore di 185 cm. Considerando la variabile standardizzata x μ 185 158 z = = = 1.8 σ 15 dalla tabella si ha : P[Z 1.8] = F Z (1.8) = 0.5 + 0.4641= 0.9641 Quindi: P[Z 1.8] =1- F Z (1.8) = 0.0359 P[ 185] = 1 - F (185) = 0.0359 c) l altezza cui corrisponde una probabilità di non superamento del 30%. F (x 0.3 ) = F Z (z 0.3 ) = 0.3. La variabile standardizzata z 0.3 in questo caso sarà negativa e, quindi, è necessario considerare la relazione F Z (-z)= 1- F Z (z) Si ha: F Z (-z)= 1- F Z (z) = 1-0.3 = 0.7 Poichè nella tabella sono riportati i valori per z > 0 è necessario cercare l area pari a 0.7-0.5 = 0..
Tale valore si ha in corrispondenza di 0.55 (è stata effetuata un interpolazione lineare) per cui z 0.3 = - 0.55. Per tornare alla v.c. (altezza in cm) si utilizza la relazione (). x0.3 = σ z0.3 + μ = 15 ( 0.55) + 158 =150.15 cm
Tabella 1- Aree sotto la curva Normale Standardizzata (SCHAUM)