LA DISTRIBUZIONE NORMALE http://www.biostatistica.unich.itit «È lo stesso delle cose molto piccole e molto grandi. Credi forse che sia tanto facile trovare un uomo o un cane o un altro essere qualunque molto grande o molto piccolo o, che so io, uno molto veloce o molto lento o molto brutto o molto bello o tutto bianco o tutto nero? Non ti sei mai accorto che in tutte le cose gli estremi sono rari mentre gli aspetti intermedi sono frequenti, anzi numerosi?» (Platone, Fedone, XXXIX) LA FORMA DELLA DISTRIBUZIONE DEGLI ERRORI DI MISURA Si supponga di eseguire, in condizioni simili e con lo stesso metodo analitico, un gran numero di misurazioni della emoglobina glicata, e di riportare in un grafico le frequenze relative dei valori ottenuti (x) con le prime 20, 40,... 5120 misure. All'aumentare del numero di misure, i valori tendono ad accentrarsi attorno alla loro media e l'istogramma assume una forma a campana sempre più regolare, che può essere approssimata con una funzione reale nota come funzione di Gauss o funzione normale. LA CURVA DI GAUSS La più importante distribuzione continua che trova numerose applicazioni nello studio dei fenomeni biologici. Proposta da Gauss (1809) nell ambito della teoria degli errori. Detta anche curva degli errori accidentali 0 5 10 15 20 25 30 35 40 45 50 55 Media µ (171.5 cm) Deviazione Standard σ ( cm) f ( x) = 1 e 2πσ 2 1 x µ 2 σ Distribuzione di frequenza della variabile altezza in una POPOLAZIONE di studenti 1
Le caratteristiche della distribuzione normale Caratteristiche È una distribuzione continua È simmetrica rispetto alla media Media, mediana e moda coincidono È definita da due parametri: media e deviazione standard (m, s) È una distribuzione di probabilità L area sotto la curva è = 1 (essendo la probabilità che si verifichi un qualsiasi valore di x) Importanza 1. È la distribuzione di molte variabili continue 2. È la distribuzione di molte variabili non-normali dopo una opportuna trasformazione di scala (log, radice) 3. È la distribuzione della media campionaria (vedi di seguito) µ=160 σ=8 µ=170 σ=4 µ=170 σ=16 µ=180 σ=8 σ=4 140 150 160 170 180 190 200 INTERVALLI NOTI DI PROBABILITÀ MEDIA COME PARAMETRO DI POSIZIONE Al variare della media aritmetica (a parità di dev.standard) la curva trasla sull asse delle x X~N() In una distribuzione normale teorica: 68.26% dei casi sono compresi fra -1 e +1 DS attorno alla media; DEV STANDARD COME PARAMETRO DI VARIABILITA Al variare della deviazione standard la curva modifica la sua forma 95.46% dei casi sono compresi fra -2 e +2 DS attorno alla media; 99.74% dei casi sono compresi fra -3 e +3 DS attorno alla media. DISTRIBUZIONE NORMALE STANDARDIZZATA Distribuzione normale Distribuzione normale standardizzata ( x x) s 2
-4.0-3.0-2.0-1.0 1.0 2.0 3.0 4.0 x -4.0-3.0-2.0-1.0 1.0 2.0 3.0 4.0 x -4.0-3.0-2.0-1.0 1.0 2.0 3.0 4.0 x La tavola della distribuzione Gaussiana Standardizzata Z 0 1 2 3 4 5 6 7 8 9 00 96 92 88 84 80 76 72 68 64 60 56 52 48 44 40 36 33 29 25 21 17 13 09 05 01 97 94 90 86 82 78 74 71 67 63 59 56 52 48 45 41 37 34 30 26 23 19 16 12 09 05 02 98 95 91 88 84 81 78 0.6 74 71 68 64 61 58 55 51 48 45 0.7 42 39 36 33 30 27 24 21 18 15 0.8 12 09 06 03 00 98 95 92 89 87 0.9 84 81 79 76 74 71 69 66 64 61 1.0 59 56 54 52 49 47 45 42 40 38 1.1 36 33 31 29 27 25 23 21 19 17 1.2 15 13 11 09 07 06 04 02 00 99 1.3 97 95 93 92 90 89 87 85 84 82 1.4 81 79 78 76 75 74 72 71 69 68 1.5 67 66 64 63 62 61 59 58 57 56 1.6 55 54 53 52 51 49 48 48 46 46 1.7 45 44 43 42 41 40 39 38 37 37 1.8 36 35 34 34 33 32 31 30 29 29 1.9 29 28 27 27 26 26 25 24 24 23 2.0 23 22 22 21 21 20 20 19 19 18 2.1 18 17 17 17 16 16 15 15 15 14 2.2 14 14 13 13 13 12 12 12 11 11 2.3 11 10 10 10 10 09 09 09 09 08 2.4 08 08 08 08 07 07 07 07 07 06 2.5 06 06 06 06 06 05 05 05 05 05 2.6 05 05 04 04 04 04 04 04 04 04 2.7 03 03 03 03 03 03 03 03 03 03 2.8 03 02 02 02 02 02 02 02 02 02 2.9 02 02 02 02 02 02 02 01 01 01 La tavola fornisce i valori delle aree sottese alla curva tra z e + Variabile Casuale Gaussiana ( µ= 171.5, σ= ) soggetto con altezza superiore a 180 cm? P(X >180) =? f(z) 180 171.5 = 1 ( µ= 0, σ=1 ) -4,0-3,0-2,0-1,0 1,0 2,0 3,0 4,0 z Tavola distribuzione Gaussiana Standardizzata Variabile Casuale Gaussiana ( µ= 171.5, σ= ) Z 0 1 2 3 4 5 6 7 8 9 00 96 92 88 84 80 76 72 68 64 60 56 52 48 44 40 36 33 29 25 21 17 13 09 05 01 97 94 90 86 82 78 74 71 67 63 59 56 52 48 45 41 37 34 30 26 23 19 16 12 09 05 02 98 95 91 88 84 81 78 0.6 74 71 68 64 61 58 55 51 48 45 0.7 42 39 36 33 30 27 24 21 18 15 0.8 12 09 06 03 00 98 95 92 89 87 0.9 84 81 79 76 74 71 69 66 64 61 1.0 59 56 54 52 49 47 45 42 40 38 1.1 36 33 31 29 27 25 23 21 19 17 1.2 15 13 11 09 07 06 04 02 00 99 1.3 97 95 93 92 90 89 87 85 84 82 1.4 81 79 78 76 75 74 72 71 69 68 1.5 67 66 64 63 62 61 59 58 57 56 1.6 55 54 53 52 51 49 48 48 46 46 1.7 45 44 43 42 41 40 39 38 37 37 1.8 36 35 34 34 33 32 31 30 29 29 1.9 29 28 27 27 26 26 25 24 24 23 2.0 23 22 22 21 21 20 20 19 19 18 2.1 18 17 17 17 16 16 15 15 15 14 2.2 14 14 13 13 13 12 12 12 11 11 2.3 11 10 10 10 10 09 09 09 09 08 2.4 08 08 08 08 07 07 07 07 07 06 2.5 06 06 06 06 06 05 05 05 05 05 2.6 05 05 04 04 04 04 04 04 04 04 2.7 03 03 03 03 03 03 03 03 03 03 2.8 03 02 02 02 02 02 02 02 02 02 2.9 02 02 02 02 02 02 02 01 01 01 La tavola fornisce i valori delle aree sottese alla curva tra z e + P(X >180) = 59 soggetto con altezza inferiore a 160 cm? P(X<160) =? 160 171.5 = 1.35 f(z) ( µ= 0, σ=1 ) -4,0-3,0-2,0-1,0 1,0 2,0 3,0 4,0 z Variabile Casuale Gaussiana ( µ= 171.5, σ= ) Z 0 1 2 3 4 5 6 7 8 9 00 96 92 88 84 80 76 72 68 64 60 56 52 48 44 40 36 33 29 25 21 17 13 09 05 01 97 94 90 86 82 78 74 71 67 63 59 56 52 48 45 41 37 34 30 26 23 19 16 12 09 05 02 98 95 91 88 84 81 78 0.6 74 71 68 64 61 58 55 51 48 45 0.7 42 39 36 33 30 27 24 21 18 15 0.8 12 09 06 03 00 98 95 92 89 87 0.9 84 81 79 76 74 71 69 66 64 61 1.0 59 56 54 52 49 47 45 42 40 38 1.1 36 33 31 29 27 25 23 21 19 17 1.2 15 13 11 09 07 06 04 02 00 99 1.3 97 95 93 92 9089 87 85 84 82 1.4 81 79 78 76 75 74 72 71 69 68 1.5 67 66 64 63 62 61 59 58 57 56 1.6 55 54 53 52 51 49 48 48 46 46 1.7 45 44 43 42 41 40 39 38 37 37 1.8 36 35 34 34 33 32 31 30 29 29 1.9 29 28 27 27 26 26 25 24 24 23 2.0 23 22 22 21 21 20 20 19 19 18 2.1 18 17 17 17 16 16 15 15 15 14 2.2 14 14 13 13 13 12 12 12 11 11 2.3 11 10 10 10 10 09 09 09 09 08 2.4 08 08 08 08 07 07 07 07 07 06 2.5 06 06 06 06 06 05 05 05 05 05 2.6 05 05 04 04 04 04 04 04 04 04 2.7 03 03 03 03 03 03 03 03 03 03 2.8 03 02 02 02 02 02 02 02 02 02 2.9 02 02 02 02 02 02 02 01 01 01 Ricordando la proprietà di simmetria della Distribuzione Gaussiana P(X <160) = 89 soggetto con altezza compresa tra 160 e 180 cm? P(160 <X<180) =? 160 171.5 = 1.35 180 171.5 = 1 f(z) ( µ= 0, σ=1 ) -4,0-3,0-2,0-1,0 1,0 2,0 3,0 4,0 z 3
-4.0-3.0-2.0-1.0 1.0 2.0 3.0 4.0 x -4.0-3.0-2.0-1.0 1.0 2.0 3.0 4.0 x La distribuzione delle medie campionarie Z 0 1 2 3 4 5 6 7 8 9 00 96 92 88 84 80 76 72 68 64 60 56 52 48 44 40 36 33 29 25 21 17 13 09 05 01 97 94 90 86 82 78 74 71 67 63 59 56 52 48 45 41 37 34 30 26 23 19 16 12 09 05 02 98 95 91 88 84 81 78 0.6 74 71 68 64 61 58 55 51 48 45 0.7 42 39 36 33 30 27 24 21 18 15 0.8 12 09 06 03 00 98 95 92 89 87 0.9 84 81 79 76 74 71 69 66 64 61 1.0 59 56 54 52 49 47 45 42 40 38 1.1 36 33 31 29 27 25 23 21 19 17 1.2 15 13 11 09 07 06 04 02 00 99 1.3 97 95 93 92 9089 87 85 84 82 1.4 81 79 78 76 75 74 72 71 69 68 1.5 67 66 64 63 62 61 59 58 57 56 1.6 55 54 53 52 51 49 48 48 46 46 1.7 45 44 43 42 41 40 39 38 37 37 1.8 36 35 34 34 33 32 31 30 29 29 1.9 29 28 27 27 26 26 25 24 24 23 2.0 23 22 22 21 21 20 20 19 19 18 2.1 18 17 17 17 16 16 15 15 15 14 2.2 14 14 13 13 13 12 12 12 11 11 2.3 11 10 10 10 10 09 09 09 09 08 2.4 08 08 08 08 07 07 07 07 07 06 2.5 06 06 06 06 06 05 05 05 05 05 2.6 05 05 04 04 04 04 04 04 04 04 2.7 03 03 03 03 03 03 03 03 03 03 2.8 03 02 02 02 02 02 02 02 02 02 2.9 02 02 02 02 02 02 02 01 01 01 P(160< x <180) = 1- (89+59) = 0.752 0 5 10 15 20 25 30 35 40 45 171.5 POPOLAZIONE Medie Campionarie Qual è la distribuzione dei 44 gruppi? La distribuzione delle medie campionarie 0 5 10 15 20 Media µ (171.5 cm) Deviazione standard della popolazione divisa per la radice di n: σ n =8.5 20= 1.9 Effetto della Numerosità del Campione Distribuzione delle medie campionarie n = 40 n = 20 n = 5 150 154 158 162 166 170 174 178 182 186 190 194 Media µ (171.5 cm) 0 5 0 5 0 5 0 Variabile Casuale Gaussiana ( µ= 171.5, σ= 1.9 ) 165 170 175 180 x Qual è la probabilità che l altezza media di un gruppo sia superiore a 175 cm? P( x > 175) =? 175 171.5 = 1.84 / 20 f(z) ( µ= 0, σ=1 ) -4.0-3.0-2.0-1.0 1.0 2.0 3.0 4.0 z Z 0 1 2 3 4 5 6 7 8 9 00 96 92 88 84 80 76 72 68 64 60 56 52 48 44 40 36 33 29 25 21 17 13 09 05 01 97 94 90 86 82 78 74 71 67 63 59 56 52 48 45 41 37 34 30 26 23 19 16 12 09 05 02 98 95 91 88 84 81 78 0.6 74 71 68 64 61 58 55 51 48 45 0.7 42 39 36 33 30 27 24 21 18 15 0.8 12 09 06 03 00 98 95 92 89 87 0.9 84 81 79 76 74 71 69 66 64 61 1.0 59 56 54 52 49 47 45 42 40 38 1.1 36 33 31 29 27 25 23 21 19 17 1.2 15 13 11 09 07 06 04 02 00 99 1.3 97 95 93 92 90 89 87 85 84 82 1.4 81 79 78 76 75 74 72 71 69 68 1.5 67 66 64 63 62 61 59 58 57 56 1.6 55 54 53 52 51 49 48 48 46 46 1.7 45 44 43 42 41 40 39 38 37 37 1.8 36 35 34 34 33 32 31 30 29 29 1.9 29 28 27 27 26 26 25 24 24 23 2.0 23 22 22 21 21 20 20 19 19 18 2.1 18 17 17 17 16 16 15 15 15 14 2.2 14 14 13 13 13 12 12 12 11 11 2.3 11 10 10 10 10 09 09 09 09 08 2.4 08 08 08 08 07 07 07 07 07 06 2.5 06 06 06 06 06 05 05 05 05 05 2.6 05 05 04 04 04 04 04 04 04 04 2.7 03 03 03 03 03 03 03 03 03 03 2.8 03 02 02 02 02 02 02 02 02 02 2.9 02 02 02 02 02 02 02 01 01 01 P( x > 175) =33 4
-4.0-3.0-2.0-1.0 1.0 2.0 3.0 4.0 x 5 0 5 0 165 170 Qual è la probabilità che l altezza media di un gruppo sia inferiore a 166.2 cm? P( x < 166.2 ) =? 166.2 171.5 = 2.79 / 20-4.0-3.0-2.0-1.0 Z 0 1 2 3 4 5 6 7 8 9 00 96 92 88 84 80 76 72 68 64 60 56 52 48 44 40 36 33 29 25 21 17 13 09 05 01 97 94 90 86 82 78 74 71 67 63 59 56 52 48 45 41 37 34 30 26 23 19 16 12 09 05 02 98 95 91 88 84 81 78 0.6 74 71 68 64 61 58 55 51 48 45 0.7 42 39 36 33 30 27 24 21 18 15 0.8 12 09 06 03 00 98 95 92 89 87 0.9 84 81 79 76 74 71 69 66 64 61 1.0 59 56 54 52 49 47 45 42 40 38 1.1 36 33 31 29 27 25 23 21 19 17 1.2 15 13 11 09 07 06 04 02 00 99 1.3 97 95 93 92 90 89 87 85 84 82 1.4 81 79 78 76 75 74 72 71 69 68 1.5 67 66 64 63 62 61 59 58 57 56 1.6 55 54 53 52 51 49 48 48 46 46 1.7 45 44 43 42 41 40 39 38 37 37 1.8 36 35 34 34 33 32 31 30 29 29 1.9 29 28 27 27 26 26 25 24 24 23 2.0 23 22 22 21 21 20 20 19 19 18 2.1 18 17 17 17 16 16 15 15 15 14 2.2 14 14 13 13 13 12 12 12 11 11 2.3 11 10 10 10 10 09 09 09 09 08 2.4 08 08 08 08 07 07 07 07 07 06 2.5 06 06 06 06 06 05 05 05 05 05 2.6 05 05 04 04 04 04 04 04 04 04 2.7 03 03 03 03 03 03 03 03 03 03 2.8 03 02 02 02 02 02 02 02 02 02 2.9 02 02 02 02 02 02 02 01 01 01 P( x<166.2)=03 La Distribuzione Delle Medie Campionarie Proprietà 1. La media della distribuzione campionaria è uguale alla media µ della popolazione; 2. La deviazione standard della distribuzione delle medie campionarie è uguale a σ/ n. Questa quantità è nota come Errore Standard; 3. La forma della distribuzione delle medie campionarie è approssimativamente normale, posto che n sia sufficientemente grande 5