DISTRIBUZIONE NORMALE (1) Nella popolazione generale molte variabili presentano una distribuzione a forma di campana, bene caratterizzata da un punto di vista matematico, chiamata distribuzione normale o curva di Gauss ( o ancora detta curva degli errori accidentali ). 1
DISTRIBUZIONE NORMALE (2) Storicamente la distribuzione normale è nata dall osservazione delle misurazioni ripetute di un fenomeno fisico. La maggior parte dei fenomeni che si osservano nella realtà assumono la forma di una distribuzione normale: fenomeni biomedici (colesterolo, pressione arteriosa, ceppo genetico, ecc.); fenomeni antropometrici (statura, peso, perimetro toracico, ecc.); fenomeni fisici (misure del periodo di un pendolo, ecc.). 2
DISTRIBUZIONE NORMALE (3) La formula relativa alla distribuzione normale è ( ) 1 f ( x) = e 2πσ dove: µ è la media; σ è la deviazione standard; π è una costante pari a 3,14159; e è una costante pari a 2,718282; ( x µ ) 2 i valori della x possono va da meno infinito a più infinito; f x 2σ corrisponde all'altezza della curva per ogni valore di x3 2
In termini meno matematici, la formula relativa alla distribuzione normale permette di stimare il valore di f(x) (il valore dell ordinata y o altezza della curva) per ogni valore di x (il valore della ascissa). 4
La media e la deviazione standard della popolazione risultano completamente rappresentative della distribuzione, essendo questa simmetrica rispetto alla media, con i punti di flesso corrispondenti alla deviazione standard. 5
La media individua la posizione della curva, infatti, facendo variare, la curva si sposta lungo l asse delle x. µ Tre distribuzioni normali con medie diverse ma con la stessa deviazione standard 6
La deviazione standard dà informazioni su come i valori sono più o meno concentrati intorno alla media, infatti, facendo variare, in più o in meno, si ottengono rispettivamente curve più appiattite o meno appiattite. σ 7
CARATTERISTICHE DELLA DISTRIBUZIONE NORMALE è simmetrica intorno alla sua media ; media, la moda e la mediana coincidono; l area sottesa alla curva è uguale ad 1. A causa della simmetria rispetto alla media a destra e a sinistra della perpendicolare alzata dalla media si trova il 50% dell area. presenta una diminuzione dell addensamento delle osservazioni man mano che ci si allontana dal valore medio; µ 8
la percentuale di casi che cade fra la media ed i multipli della deviazione standard e' costante: 9
10
11
12
Gli indici statistici, in particolare i percentili, costituiscono un buon sistema per valutare quanto una popolazione si adatti alla distribuzione normale. In una distribuzione normale, infatti, i valori associati a percentili assegnati sono i seguenti: 2,5 percentile media-2deviazione standard 16 percentile media-1deviazione standard 50 percentile(mediana) media 84 percentile media+1deviazione standard 97,5 percentile media+2deviazione standard 13
Se i valori associati ai percentili non sono troppo diversi da quelli attesi sulla base della media e della deviazione standard, allora la distribuzione normale è una buona rappresentazione della popolazione reale e, di conseguenza, media e deviazione standard descrivono in modo adeguato tale popolazione. 14
DISTRIBUZIONE NORMALE STANDARDIZZATA (1) µ σ Per ogni coppia di valori e si ottengono tante distribuzioni normali. Si può riportare l insieme di tali distribuzioni a un unica distribuzione ponendo z = x σ µ 15
DISTRIBUZIONE NORMALE STANDARDIZZATA (2) L equazione per la distribuzione normale standardizzata è data da 1 f ( z) = e 2π 2 z 2 Tale distribuzione ha media 0 e deviazione standard 1. 16
17
Esempio Da uno studio sulla malattia di Alzheimer, Dusheiko ha riportato i dati che sono compatibili con l'ipotesi che il peso del cervello delle vittime della malattia si distribuisca normalmente. Dai dati possiamo calcolare una media di 1076.80 grammi e una deviazione standard di 105.76 grammi. Se assumiamo che questi risultati sono applicabili a tutte le vittime della malattia di Alzheimer, ci chiediamo quale sia la probabilità che una vittima della malattia scelta a caso abbia un cervello che pesa meno di 800 grammi. 18
l'area tratteggiata corrisponde alla probabilità richiesta 19
Dobbiamo determinare quale valore di z corrisponde ad un x di 800. Per far questo usiamo la formula z = x σ µ (Tale formula trasforma ogni valore di qualsiasi distribuzione normale nel corrispondente valore di z della distribuzione normale standardizzata) 20
Distribuzione Normale Distribuzione Normale standardizzata 21
Dalla tabella troviamo che l'area a sinistra di z = - 2.62 è.0044. Possiamo sintetizzare quanto detto nel seguente modo: Quindi la probabilità che un paziente scelto a caso abbia un peso del cervello minore di 800 grammi è uguale a 0.0044 22
Quindi: qualsiasi distribuzione normale può essere trasformata in curva normale standardizzata con media 0 e d.s. 1; l uso della forma standardizzata ci consente di trovare, servendoci delle tavole apposite, la porzione di area compresa tra due valori qualsiasi. 23
Distribuzione binomiale al crescere di n L asimmetria diminuisce, a parità di p e q, al crescere di n e la distribuzione si approssima alla curva normale 24
Distribuzione di Poisson al crescere di λ λ > 20 Per si può ammettere senza grande rischio di errore che la v.c. di Poisson si distribuisce come una normale standardizzata del tipo k λ σ 25
Esercizio n. 1 Il 30% di una popolazione è immune da una malattia. Se si estrae un campione casuale di dimensione 10 da questa popolazione, ci si chiede qual è la probabilità che esso contenga esattamente quattro persone immuni. p = 0.3 q = 0.7 n = 10 x = 4 10! Px= = = 4!6! 6 4 ( 10) 0.7 0.3 0.2001 26
Allo stesso risultato si poteva arrivare attraverso l uso della tabella Binomiale: 27
Dalla tabella risulta che, in corrispondenza di p=0.3 e n=10 P X 3 = 0.6496 ( ) e che, in corrispondenza di p=0.4 e n=10 P X 4 = 0.8497 ( ) quindi P x= 4 = P X 4 P X 3 = ( ) ( ) ( ) = 0.8497 0.6496 = 0.2001 28
Esercizio n. 2 Il 10% di una popolazione è daltonico. Se estraiamo un campione casuale di 25 soggetti da questa popolazione, si vuole trovare la probabilità che: Un numero di soggetti minore o uguale a cinque sia daltonico: 29
con l uso della tabella binomiale, in corrispondenza di n=25 e p=0.1 si ha P( X 5) = 0,9666 Un numero di soggetti maggiore o uguale a sei sia daltonico: si considera P X 6 = 1 P X 5 = 1 0,9666 = 0, 0334 ( ) ( ) 30
Un numero di soggetti compreso tra sei e nove, estremi inclusi, sia daltonico: ( 6 9) ( 9) ( 5) P X = P X P X = 0,9999 0,9666 = 0,0333 Due, tre o quattro soggetti siano daltonici: ( 2 4) ( 4) ( 1) P X = P X P X = = 0.9020 0.2712 = 0.6308 31
Esercizio n. 3 In un certo organismo acquatico, è stato preso un gran numero di campioni da uno stagno ed è stato contato, in ciascun campione, il numero di organismi. Il numero medio di organismi è risultato uguale a due. Assumendo che il numero di organismi segua una distribuzione di Poisson, la probabilità che il prossimo campione preso contenga un numero di organismi minore o uguale ad uno si determina attraverso la tabella di Poisson infatti 32
Nella tabella di Poisson, per λ = 2 la probabilità X 1 che è 0.406. Analogamente, la probabilità che il prossimo campione contenga esattamente tre organismi è data da ( ) ( ) ( ) P X = 3 2 = P X 3 P X 2 = 0,857 0,677 = 0,180 La probabilità che il prossimo campione preso contenga più di cinque organismi è data da ( ) P( X ) P X > 52 = 1 5 = 1 0,983= 0,017 33
34
Esercizio n. 4 Supponendo che da alcuni dati ufficiali rilevati sulla popolazione nazionale, risulti che il valore medio dell HDL-colesterolo è. di 57 mg/100 ml con uno scarto quadratico medio σ = 5 Sapendo che la distribuzione è di tipo normale, si vuole determinare: 35
a)la percentuale di valori HDL-colesterolo superiori a 60 mg/100 ml In tal caso il valore empirico è x = 60 quindi z x µ 60 57 = = = σ 5 0,6 Dalla tabella, a tale valore di z corrisponde il valore 0,2257, che rappresenta l area compresa tra la media e z = 0,6. 36
Ma, poiché si vuole determinare la percentuale dei casi che supera z = 0,6 (e quindi l area compresa tra z = 0,6 e l infinito), sarà necessario sottrarre il valore trovato sulle tavole alla metà dell area sottesa dalla curva: 0,5-0,2257=0,2743 pertanto i valori di HDL-colesterolo superiori a 60 mg/100 ml corrispondono al 27,43% di tutti i valori osservati. 37
38
b) La percentuale di valori HDL-colesterolo compresi tra 40 mg/100 ml e 45 mg/100 ml. In tal caso i valori empirici sono x1 = 40 e x2 = 45 quindi z 40 57 5 1 = = 3.4 45 57 z = = 2,4 2 5 Dalla tabella, a tali valori di z corrispondono, rispettivamente, i valori 0,4996 e 0,4918. 39
Per determinare la percentuale dei casi che cadono tra i due valori -3,4 e -2,4 occorre sottrarre: 0,4996-0,4918 = 0,0078 pertanto i valori di HDL-colesterolo compresi tra 40 mg/100 ml e 45 mg/100 ml corrispondono allo 0,78% di tutti i valori osservati. 40
41
c) La percentuale di valori HDL-colesterolo compresi tra 55 mg/100 ml e 58 mg/100 ml. In tal caso i valori empirici sono x 1 = 55 e x 2 = 58 (in questo intervallo è compreso il valor medio) quindi z z 55 5 57 1 = = 58 57 5 2 = = 0.4 0,2. 42
Dalla tabella, a tali valori di z corrispondono rispettivamente i valori 0,1554 e 0,0793. Per determinare la percentuale dei casi che cadono tra i due valori -0,4 e 0,2 occorre sommare: 0,1554 + 0,0793 = 0,2347 pertanto i valori di HDL-colesterolo compresi tra 55 mg/100 ml e 58 mg/100 ml corrispondono al 23,47% di tutti i valori osservati. 43
Conclusioni: Sono stati trattati i concetti di variabili casuali discrete e continue e le loro distribuzioni di probabilità. In particolare, sono state esaminate due distribuzioni di probabilità discrete: Distribuzione Binomiale Distribuzione di Poisson Ed una distribuzione di probabilità continua: Distribuzione di Gauss Queste distribuzioni teoriche, opportunamente scelte in base al fenomeno considerato, permettono di fare considerazioni probabilistiche su alcune variabili casuali di interesse in campo 44 medico-sanitario.