LEZIONI DI STATISTICA MEDICA A.A. 2010/2011 - Distribuzione binomiale - Distribuzione Normale Sezione di Epidemiologia & Statistica Medica Università degli Studi di Verona
DISTRIBUZIONI TEORICHE DI PROBABILITA DISTRIBUZIONE DI PROBABILITA : insieme delle probabilità associate a tutti i possibili eventi casuali di uno spazio campionario La somma delle singole probabilità deve dare 1.
Esempio Il lancio di 3 monete può casualmente portare a ottenere da 0 a 3 teste. S = { CCC, CCT, CTC, TCC, CTT, TCT, TTC, TTT} La probabilità associata all evento testa per una moneta è 0.5.
L evento composto dei 3 lanci porta ad una probabilità specifica per ogni possibile esito. Regola probabilità indipendenti: P(0_T)=P(1 lancio sia C)*P(2 lancio sia C)*P(3 lancio sia C)= =(1-0.5)*(1-0.5)*(1-0.5)=0.125 P(1_T)=P(1 lancio sia T)*P(2 lancio sia C)*P(3 lancio sia C) + + P(1 lancio sia C)*P(2 lancio sia T)*P(3 lancio sia C) + + P(1 lancio sia C)*P(2 lancio sia C)*P(3 lancio sia T) = =(0.5)*(1-0.5)*(1-0.5)+ +(1-0.5)*(0.5)*(1-0.5)+ +(1-0.5)*(1-0.5)*(0.5) =0.375
P(2_T)= =0.375 P(3_T)= =0.125 OTTENIAMO: N. TESTA 0 1 2 3 EVENTI FAVOREVOLI 1 3 3 1 PROBABILITA 0.125 0.375 0.375 0.125
Esempi: Numero di figli maschi in una famiglia di 3 figli Numero di aborti su 4 gravidanze Numero di interventi di bypass coronarico riusciti su 10 interventi effettuati Numero di soggetti con ictus in un reparto di cardiologia con 23 soggetti
VARIABILI CASUALI DISCRETE La distribuzione di probabilità di una variabile casuale discreta prevede che ad ogni possibile determinazione della variabile casuale sia associata la probabilità del verificarsi di tale determinazione. Se le possibile determinazioni della variabile casuale sono k e se la probabilità della determinazione i-esima (i=1,,k) è indicata con p i, allora: 1) p i 0 2) Σ i p i =1
ESPERIMENTO BERNOULLIANO Solo 2 possibili esiti in ogni prova: Successo (S) Insuccesso (I) Prove indipendenti Pr(S)=π Pr(I)=1-Pr(S)=1-π Esempi: 1. Stato di vita 2. Lancio di una moneta
VARIABILE CASUALE BERNOULLIANA Variabile che assume solo due valori con definite probabilità X 0 1 f(x) 1-π π Esempio: Consideriamo la variabile casuale bernoulliana X= Avere gruppo sanguigno B ; sappiamo che la probabilità di appartenere a tale gruppo sanguigno vale 0.08. La sua distribuzione di probabilità sarà: X= 1 avere gruppo sanguigno B Pr(X=1)=0.08= π X= 0 non avere gruppo sanguigno B Pr(X=0)=1-0.08=0.92=1- π Distribuzione di probabilità di X: X f(x) 1 0.08 0 0.92
Esempio (N=2): Calcoliamo la distribuzione di probabilità della variabile casuale X= avere il gruppo B, su 2 soggetti presi a caso dalla popolazione (prove indipendenti9. X f(x) no B, no B 0 0.85 B, not B 1 0.07 not B, B 1 0.07 B, B 2 0.01 Pr(X=0)=(1- π)(1- π)=0.92*0.92=0.8464 Pr(X=1)=2*π(1- π)=2*0.08*0.92=0.1472 Pr(X=2)=π* π=0.08*0.08=0.0064 1.0 Esperimento bernoulliano ripetuto 0.5 0.0 0 1 2
DISTRIBUZIONE BINOMIALE La distribuzione binomiale modellizza la probabilità di n successi su N esperimenti ESEMPIO: Numero di maschi in una famiglia di 3 figli ( la probabilità che un neonato sia maschio è 0.52): N u m e r o d i m a s c h i P r o b a b i l i t à 0 0. 1 1 1 0. 3 6 2 0. 3 9 3 0. 1 4
DISTRIBUZIONE BINOMIALE P( X = x) = n! x!( n x)! { x ( n x p (1 p) ) } dove: n!= n*(n-1)+(n-2)* *2*1 Esempi: Numero di aborti su 4 gravidanze Numero di interventi di bypass coronarico riusciti su 10 interventi
Esempio: La probabilità per un bambino tra 0 e 3 anni di subire una lussazione della spalla è 0.3. In una famiglia con 3 gemellini di 3 anni, qual è la probabilità che 0, 1, 2 o tutti e 3 abbiano subito una lussazione della spalla? 1 2 3 NO NO NO 0 NO NO SI NO SI NO 1 SI NO NO NO SI SI SI NO SI 2 SI SI NO SI SI SI 3
DISTRIBUZIONE BINOMIALE P ( X = x ) = n! x! ( n x )! x { ( n x p (1 p ) ) } P( X = 0) = 3! 0!(3 0)! 0 (3 0) 3 { 0.3 (1 0.3) } = 1* { 1*(0.7) } = 0. 343 P( X = 1) = 3! 1!(3 1)! 1 (3 1) 2 { 0.3 (1 0.3) } = 3* { 0.3* (0.7) } = 0. 441 P( X = 2) = 3! 2!(3 2)! 2 (3 2) 2 1 { 0.3 (1 0.3) } = 3* { 0.3 *(0.7) } = 0. 189 P( X = 3) = 3! 3!(3 3)! 3 (3 3) 3 { 0.3 (1 0.3) } = 1* { 0.3 *1} = 0. 027 3 i= 0 P( X = i) = 0.343 + 0.441+ 0.189 + 0.027 = 1
0,5 0,4 Visualizzazione grafica della distribuzione binomiale di probabilità P(X=i) 0,3 0,2 0,1 0 0 1 2 3 Se in una scuola ci sono 16 famiglie con 3 gemellini ciascuna, quante famiglie mi aspetto aver avuto 0, 1, 2, 3 lussazioni? E = P(A) N E(0) = 0.343*16 = 5.49 E(1) = 0.441*16 = 7.06 E(2) = 0.189*16 = 3.02 1 0 E(3) = 0.027*16 = 0.43 N 8 7 6 5 4 3 2 0 1 2 3
ESERCIZIO In un ambulatorio di analisi arrivano successivamente due provette dal reparto di endocrinologia. Se la probabilità, per un paziente ricoverato, di avere diabete è di 0.2, qual è la probabilità che i risultati delle analisi di glicemia risultino alterati? P( X P( X = 0) = = 1) = 2! 0!(2 2! 1!(2 0)! 1)! 0 (2 0) { 0.2 *0.8 } = 0. 64 1 (2 1) { 0.2 *0.8 } = 0. 32 P( X = 2) = 2! 2!(2 2)! 0 (2 2) { 0.2 (0.8) } = 0. 04 Se arrivano allo stesso laboratorio 20 coppie di provette da reparti di endocrinologia differenti, in quanti reparti mio aspetto avere risultati della glicemia alterati per un solo valore? E(1) = 0.32*20= 6.4
VARIABILI CASUALI CONTINUE DISTRIBUZIONE NORMALE (o di Gauss) La distribuzione normale è particolarmente adatta a modellizzare e descrivere molte variabili sia fisiche che biologiche Si può immaginare come una distribuzione binomiale che, per un numero infinito di prove diventa continua ESEMPI Altezza di un campione di 10000 soggetti Livello di emoglobina nel sangue in 1000 soggetti
ESEMPI 30 Pressione arteriosa diastolica (mmhg) di 121 scolari 25 20 15 10 5 0 25-30 30-35 35-40 40-45 45-50 50-55 55-60 60-65 65-70 70-75 75-80 80-85
ESEMPI 14000 Distribuzione della frequenza assoluta dell'altezza (cm) in un campione di 71800 maschi adulti 12000 10000 8000 6000 4000 2000 0 150-152 152-154 154-156 156-158 158-160 160-162 162-164 164-166 166-168 168-170 170-172 172-174 174-176 176-178 178-180 180-182 182-184
CARATTERISTICHE DELLA DISTRIBUZIONE DI PROBABILITA NORMALE
CARATTERISTICHE DELLA DISTRIBUZIONE DI PROBABILITA NORMALE e univocamente determinata dai due parametri µ e σ, rispettivamente media e deviazione standard; e unimodale, simmetrica attorno alla media; media, moda, mediana coincidono;
CARATTERISTICHE DELLA DISTRIBUZIONE DI PROBABILITA NORMALE (continua) sono rappresentati tutti i valori compresi tra - e +, al tendere di x a - e + la curva tende asintoticamente a 0; l area sottesa dalla curva, come tutte le distribuzioni di probabilita continue e 1; la distanza dei punti di flesso dalla media e pari alla deviazione standard σ;
CARATTERISTICHE DELLA DISTRIBUZIONE DI PROBABILITA NORMALE (continua) La frazione di area compresa tra due valori della variabile e assimilabile alla probabilità di riscontrare casualmente una misura entro tale intervallo; La probabilità di un singolo punto e praticamente nulla.
f ( X ) 1 exp σ 2π ( x µ ) 2σ = 2 2 MA COME CALCOLARE L AREA?
DEVIATA NORMALE STANDARDIZZATA La forma specifica di ogni distribuzione normale dipende dai parametri µ e σ E possibile ricondurre qualsiasi distribuzione normale a un unica distribuzione che prende il nome di DEVIATA NORMALE STANDARDIZZATA
DEVIATA NORMALE STANDARDIZZATA TEOREMA Sia X una variabile aleatoria continua distribuita normalmente: N (µ, σ), allora la nuova variabile Z avrà una distribuzione normale con µ = 0 e σ = 1: N(0, 1) Z = x σ µ
ESEMPIO Tra i non diabetici il livello ematico di glucosio a digiuno è distribuito normalmente con media 105 mg/100 ml e deviazione standard 9 mg/100 ml. a) Calcolare la probabilità che un soggetto non diabetico abbia un livello di glicemia compreso tra 90 e 125 mg/100 ml. z z 1 2 = = x 1 2 µ σ x σ = µ = 90 105 = 1.67 9 125 105 = 2.22 9-1.67 2.22
Dalle tabelle della curva Gussiana: -1.67 2.22 P(-1.67<X<=0)=0.4525 P(0<=X<2.22)=0.4868 P(-1.67<X<2.22)= =0.4525+0.4868=0.9393
b) Qual è il livello di glicemia al di sotto del quale cade il 10% della popolazione dei non diabetici. x µ x 105 1.28 = =, σ 9 x = 1.28 9 + 105 = 93.5 mg /100 ml c) Determinare i livelli di glicemia entro i quali cadono il 95% dei non diabetici x µ x 1.96 = = σ x = 1.96 9 + 105 105, 9 = 87.36 mg / 100 ml x µ x 1.96 = = σ x = 1.96 9 + 105 105, 9 = 122.64 mg / 100 ml Livelli al 95% : (87.36, 122.64) NB: 95% p=0.95 0.475 a sx e 0.475 a dx di µ.
ESERCIZIO Il livello di colesterolo totale di una determinata popolazione sono approssimativamente distribuiti in modo normale con media 200 mg/100ml e d.s. 20 mg/100ml. 1) Qual è la probabilità che una persona presa a caso da tale popolazione abbia un valore di colesterolo compreso tra 160 e 175 mg/100ml cc
ESERCIZIO La durata della gestazione per donne sane e mediamente pari a 280 gg, con una deviazione standard di 10 gg. Supponendo che la durata della gestazione sia distribuita normalmente, determinate la proporzione di donne sane con durata superiore a 1 settimana e la proporzione con durata superiore a 2 settimane.
ESERCIZIO La durata della gestazione per donne sane e mediamente pari a 280 gg, con una deviazione standard di 10 gg. Supponendo che la durata della gestazione sia distribuita normalmente, determinate la proporzione di donne sane con durata superiore a 1 settimana e la proporzione con durata superiore a 2 settimane. P(x>287)=P(Z>(287-280)/10)=P(Z>0.7)=0.242 P(x>294)=P(Z>(294-280)/10)=P(Z>0.1.4)=0.0.81
Densità di probabilità µ = 5 5 K g σ = 4 K g µ = 8 5 K g σ = 1 0 K g 4 0 5 0 6 0 7 0 8 0 9 0 1 0 0 1 1 0 P e s o ( K g ) densità di probabilità -3-2 -1 0 +1 +2 +3 deviata normale standardizzata (z)
Esistono delle tavole (tavole della z) che danno la probabilità che Z sia maggiore di un valore qualsiasi. P(Z z) z 0,00 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09 0,0 0,5000 0,4960 0,4920 0,4880 0,4840 0,4801 0,4761 0,4721 0,4681 0,4641 0,1 0,4602 0,4562 0,4522 0,4483 0,4443 0,4404 0,4364 0,4325 0,4286 0,4247 0,2 0,4207 0,4168 0,4129 0,4090 0,4052 0,4013 0,3974 0,3936 0,3897 0,3859 0,3 0,3821 0,3783 0,3745 0,3707 0,3669 0,3632 0,3594 0,3557 0,3520 0,3483 0,4 0,3446 0,3409 0,3372 0,3336 0,3300 0,3264 0,3228 0,3192 0,3156 0,3121 0,5 0,3085 0,3050 0,3015 0,2981 0,2946 0,2912 0,2877 0,2843 0,2810 0,2776 0,6 0,2743 0,2709 0,2676 0,2643 0,2611 0,2578 0,2546 0,2514 0,2483 0,2451 0,7 0,2420 0,2389 0,2358 0,2327 0,2296 0,2266 0,2236 0,2206 0,2177 0,2148 0,8 0,2119 0,2090 0,2061 0,2033 0,2005 0,1977 0,1949 0,1922 0,1894 0,1867 0,9 0,1841 0,1814 0,1788 0,1762 0,1736 0,1711 0,1685 0,1660 0,1635 0,1611 1,0 0,1587 0,1562 0,1539 0,1515 0,1492 0,1469 0,1446 0,1423 0,1401 0,1379 1,1 0,1357 0,1335 0,1314 0,1292 0,1271 0,1251 0,1230 0,1210 0,1190 0,1170 1,2 0,1151 0,1131 0,1112 0,1093 0,1075 0,1056 0,1038 0,1020 0,1003 0,0985 1,3 0,0968 0,0951 0,0934 0,0918 0,0901 0,0885 0,0869 0,0853 0,0838 0,0823 1,4 0,0808 0,0793 0,0778 0,0764 0,0749 0,0735 0,0721 0,0708 0,0694 0,0681 1,5 0,0668 0,0655 0,06430 0,0630 0,0618 0,0606 0,0594 0,0582 0,0571 0,0559 1,6 0,0548 0,0537 0,0526 0,0516 0,0505 0,0495 0,0485 0,0475 0,0465 0,0455 1,7 0,0446 0,0436 0,0427 0,0418 0,0409 0,0401 0,0392 0,0384 0,0375 0,0367 1,8 0,0359 0,0351 0,0344 0,0336 0,0329 0,0322 0,0314 0,0307 0,0301 0,0294 1,9 0,0287 0,0281 0,0274 0,0268 0,0262 0,0256 0,0250 0,0244 0,0239 0,0233
Qual è la probabilità che Z sia maggiore o uguale a 1,87? P(Z z) 0,0307 = 3,07% z 0,00 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09 0,0 0,5000 0,4960 0,4920 0,4880 0,4840 0,4801 0,4761 0,4721 0,4681 0,4641 0,1 0,4602 0,4562 0,4522 0,4483 0,4443 0,4404 0,4364 0,4325 0,4286 0,4247 0,2 0,4207 0,4168 0,4129 0,4090 0,4052 0,4013 0,3974 0,3936 0,3897 0,3859 0,3 0,3821 0,3783 0,3745 0,3707 0,3669 0,3632 0,3594 0,3557 0,3520 0,3483 0,4 0,3446 0,3409 0,3372 0,3336 0,3300 0,3264 0,3228 0,3192 0,3156 0,3121 0,5 0,3085 0,3050 0,3015 0,2981 0,2946 0,2912 0,2877 0,2843 0,2810 0,2776 0,6 0,2743 0,2709 0,2676 0,2643 0,2611 0,2578 0,2546 0,2514 0,2483 0,2451 0,7 0,2420 0,2389 0,2358 0,2327 0,2296 0,2266 0,2236 0,2206 0,2177 0,2148 0,8 0,2119 0,2090 0,2061 0,2033 0,2005 0,1977 0,1949 0,1922 0,1894 0,1867 0,9 0,1841 0,1814 0,1788 0,1762 0,1736 0,1711 0,1685 0,1660 0,1635 0,1611 1,0 0,1587 0,1562 0,1539 0,1515 0,1492 0,1469 0,1446 0,1423 0,1401 0,1379 1,1 0,1357 0,1335 0,1314 0,1292 0,1271 0,1251 0,1230 0,1210 0,1190 0,1170 1,2 0,1151 0,1131 0,1112 0,1093 0,1075 0,1056 0,1038 0,1020 0,1003 0,0985 1,3 0,0968 0,0951 0,0934 0,0918 0,0901 0,0885 0,0869 0,0853 0,0838 0,0823 1,4 0,0808 0,0793 0,0778 0,0764 0,0749 0,0735 0,0721 0,0708 0,0694 0,0681 1,5 0,0668 0,0655 0,06430 0,0630 0,0618 0,0606 0,0594 0,0582 0,0571 0,0559 1,6 0,0548 0,0537 0,0526 0,0516 0,0505 0,0495 0,0485 0,0475 0,0465 0,0455 1,7 0,0446 0,0436 0,0427 0,0418 0,0409 0,0401 0,0392 0,0384 0,0375 0,0367 1,8 0,0359 0,0351 0,0344 0,0336 0,0329 0,0322 0,0314 0,0307 0,0301 0,0294 1,9 0,0287 0,0281 0,0274 0,0268 0,0262 0,0256 0,0250 0,0244 0,0239 0,0233
Qual è la probabilità che Z sia maggiore o uguale a 0,75? P(Z z) 0,2266 = 22,66% z 0,00 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09 0,0 0,5000 0,4960 0,4920 0,4880 0,4840 0,4801 0,4761 0,4721 0,4681 0,4641 0,1 0,4602 0,4562 0,4522 0,4483 0,4443 0,4404 0,4364 0,4325 0,4286 0,4247 0,2 0,4207 0,4168 0,4129 0,4090 0,4052 0,4013 0,3974 0,3936 0,3897 0,3859 0,3 0,3821 0,3783 0,3745 0,3707 0,3669 0,3632 0,3594 0,3557 0,3520 0,3483 0,4 0,3446 0,3409 0,3372 0,3336 0,3300 0,3264 0,3228 0,3192 0,3156 0,3121 0,5 0,3085 0,3050 0,3015 0,2981 0,2946 0,2912 0,2877 0,2843 0,2810 0,2776 0,6 0,2743 0,2709 0,2676 0,2643 0,2611 0,2578 0,2546 0,2514 0,2483 0,2451 0,7 0,2420 0,2389 0,2358 0,2327 0,2296 0,2266 0,2236 0,2206 0,2177 0,2148 0,8 0,2119 0,2090 0,2061 0,2033 0,2005 0,1977 0,1949 0,1922 0,1894 0,1867 0,9 0,1841 0,1814 0,1788 0,1762 0,1736 0,1711 0,1685 0,1660 0,1635 0,1611 1,0 0,1587 0,1562 0,1539 0,1515 0,1492 0,1469 0,1446 0,1423 0,1401 0,1379 1,1 0,1357 0,1335 0,1314 0,1292 0,1271 0,1251 0,1230 0,1210 0,1190 0,1170 1,2 0,1151 0,1131 0,1112 0,1093 0,1075 0,1056 0,1038 0,1020 0,1003 0,0985 1,3 0,0968 0,0951 0,0934 0,0918 0,0901 0,0885 0,0869 0,0853 0,0838 0,0823 1,4 0,0808 0,0793 0,0778 0,0764 0,0749 0,0735 0,0721 0,0708 0,0694 0,0681 1,5 0,0668 0,0655 0,06430 0,0630 0,0618 0,0606 0,0594 0,0582 0,0571 0,0559 1,6 0,0548 0,0537 0,0526 0,0516 0,0505 0,0495 0,0485 0,0475 0,0465 0,0455 1,7 0,0446 0,0436 0,0427 0,0418 0,0409 0,0401 0,0392 0,0384 0,0375 0,0367 1,8 0,0359 0,0351 0,0344 0,0336 0,0329 0,0322 0,0314 0,0307 0,0301 0,0294 1,9 0,0287 0,0281 0,0274 0,0268 0,0262 0,0256 0,0250 0,0244 0,0239 0,0233
Esercizio 1: A. Utilizzando le tavole di Z, calcolare la probabilità che: 1. Z>1.30 2. Z<-0.85 3. 0.50<Z<1.05 B. Utlizzando le tavole di Z, calcolare quel valore che ha una probabilità del 35% di essere superato.
Esercizio 2: Si supponga che nella popolazione maschile adulta italiana la variabile peso in kg sia: X~N(75, 8): A. Utilizzando le tavole di Z, calcolare la probabilità che: 1. Un soggetto preso a caso abbia un peso 63 kg 2. Un soggetto abbia un peso compreso tra 69 e 92 B. Qual è il valore del peso tale per cui l 80% ha valori inferiori?
Soluzione:
Esercizio 1: Si assuma che tra i non diabetici, il livello ematico di glucosio a digiuno sia distribuito in maniera approssimativamente normale con media=105 mg/ml ed una deviazione standard= 9 mg/ml. Calcolare: 1. Quale % di non diabetici ha livelli compresi tra 90 e 125 mg/ml 2. Qual è il valore di glicemia tale per cui il 90% dei soggetti ha valori superiori 3. Quali livelli di glicemia comprendono il 95% dei non diabetici Soluzione: X= livello ematico di glucosio 1. Calcoliamo il valore di Z relativo 90: z = (90-105)/9 =-1.67 e quello relativo a 125: z = (125-105)/9 =2.22 P(-1.67 Z 2.22)=1-[P(Z -1.67)+P(Z>2.22)]=1-[P(Z>1.67)+P(Z>2.22)]= =1-(0.049+0.013)=0.938=93.8%
2. Cerco il valore di Z tale per cui: P(Z c)=0.1 C=-1.28-1.28=(x-105)/9 X=93.5 3. Livelli di glicemia che comprendono il 95% dei non diabetici Pr(µ -1.96 σ x µ -1.96 σ)=0.95 Quindi l intervallo ricercato sarà: µ 1.96 σ= 105 1.96 9 87.4-122.6