La variabile standardizzata Utilizzando la terminologia generica di prima, la variabile standardizzata X si calcola quindi X'= X Media(X ) DS(X ) Visto l ampio uso in statistica di questa procedura, la variabile standardizzata si è meritata un nome nuovo, Z. Z= X Media(X ) DS(X ) Questa standardizzazione riduce ogni variabile ad una nuova variabile Z che ha l importante proprietà di avere sempre media uguale a 0 e varianza uguale a 1
X c=14200 c=10000 X = X - c X = X/c Z = (X- Media)/DS 15250 1050 1,525 0,456 15900 1700 1,590 1,613 14330 130 1,433-1,182 14250 50 1,425-1,324 15750 1550 1,575 1,346 14770 570 1,477-0,399 14200 0 1,420-1,413 15050 850 1,505 0,100 14700 500 1,470-0,523 15100 900 1,510 0,189 15120 920 1,512 0,225 15700 1500 1,570 1,257 14800 600 1,480-0,345 Media 14993,846 793,846 1,49938462 0 Varianza 315475,641 315475,641 0,00315476 1 Dev. St. 561.672 561.672 0.056 1
BASI DI PROBABILITÀ La teoria della probabilità è molto complessa, ma il concetto di probabilità è molto intuitivo Abbiamo una scatola (urna) con 3 palline rosse e 7 palline nere. Qual è la probabilità P di estrarre una pallina rossa? P = 0.3 (30%) Ma cosa significa esattamente che la probabilità è uguale a 0.3? Se ripetessi questa estrazione un numero elevatissimo di volte. La probabilità, quindi, è la rappresentazione teorica della frequenza, o il valore a cui tende la frequenza quando il numero di ripetizioni dell'evento è molto grande Questa definizione implica anche che una tabella di frequenza tende ad una tabella di probabilità se il campione è molto grande (le due cose coincidono se ho campionato tutta la popolazione). Se per esempio analizzo un campione molto grande di donne e trovo che il 41.3 % di loro ha avuto un solo figlio, posso dire che se chiedo ad una donna scelta a caso quanti figli ha, la probabilità di avere come risposta 1 è pari a 0.413. Come le frequenze relative, la probabilità non può mai essere inferiore a 0 o superiore a 1, e la somma delle probabilità associate a tutti i risultati (eventi) diversi possibili disgiunti (ovvero che non si possono verificare insieme) è per forza di cose pari a 1.
DISTRIBUZIONI DI FREQUENZA E DISTRIBUZIONI DI PROBABILITA Distribuzione di frequenza: ricostruita a partire dai dati campionati Distribuzione di probabilità: ricostruita a partire dai dati di tutta la popolazione Distribuzione teorica di probabilità: è definita da una funzione matematica di cui conosco le caratteristiche e che mi permette di calcolare una probabilità associata a ciascun valore o intervallo di valori DISTRIBUZIONI TEORICHE DISCRETE DI PROBABILITA Per variabili di tipo discreto La funzione specifica la probabilità che il valore assume uno specifico valore 1. f 2. 3. ( x) = P( X = x) ( x) 0 per f( x) 1 f = x tutti i valori che può assumere x
Per esempio: distribuzione uniforme discreta f ( x) = 1 n Lancio di una moneta equilibrata Lancio di un dado equilibrato Frequenza attesa di cattura in 4 tipi trappole ugualmente efficienti
0.18 0.16 0.14 0.12 0.1 0.08 0.06 0.04 0.02 0 1 2 3 4 5 6 Distribuzione teorica di probabilità dei valori possibili che si possono ottenere nel lancio di un dado equilibrato: è discreta e uniforme
0.25 0.2 0.15 0.1 0.05 0 0 2 4 6 8 10 12 14 16 18 20 22 24 26 28 30 Distribuzione teorica di probabilità discreta ma non uniforme
DISTRIBUZIONI TEORICHE CONTINUE DI PROBABILITA Per variabili di tipo continuo Sono distribuzioni di densità, perché l'altezza della curva non è una probabilità, ma una densità di probabilità (una probabilità divisa per un intervallo) Non conta l altezza della curva, ma l integrale tra due valori 1. 2. P f 2 ( x X x ) = f( x) 1 ( x) 0 2 x x 1 dx per tutti i valori che può assumere x 3. + f ( x) dx= 1 Vediamo una delle distribuzioni continue più utilizzate: la distribuzione normale
LA DISTRIBUZIONE NORMALE O GAUSSIANA Molto importante nella teoria degli errori Molto importante in biologia: approssima distribuzione di frequenza di molte variabili Molto importante in statistica: teorema del limite centrale f ( x µ, σ) ( x µ ) 1 2σ ; = e σ 2π 2 2 < x <+
Caratteristiche della distribuzione normale Definita interamente da due parametri, media (µ) e varianza (σ 2 ) La media ne definisce la posizione, la varianza la forma (a) Changing shifts the curve along the axis 1 = 2 = 6 (b) Increasing increases the spread and flattens the curve 1 = 6 2 = 12 140 160 180 1 = 160 2 =174 200 140 160 180 200 1 = 2 =170
Unimodale simmetrica, centrata sulla media (media, moda e mediana coincidono) F i g u r e 6. 2. 2 5 0 % 5 0 % M e a n L'area sottostante somma a 1 (come tutte le distribuzioni di probabilità) Esiste tra infinito e + infinito
(c) Probabilities and numbers of standard deviations Shaded area = 0.683 Shaded area = 0.954 Shaded area = 0.997 + 2 +2 3 +3 68% chance of falling between and + 95% chance of falling between 2 and +2 99.7% chance of falling between 3 and + 3 Media +- 1 deviazione standard = 68.3 % Media +- 2 deviazioni standard = 95.4 % Media +- 3 deviazioni standard = 99.7 % Media +- 1.96 deviazioni standard = 95 %
VARIABILI BIOLOGICHE E DISTRIBUZIONE NORMALE
VARIABILI BIOLOGICHE E DISTRIBUZIONE NORMALE Molte variabili biologiche si distribuiscono in modo normale (come gli errori in fisica, per esempio) Sono dovute alla combinazione di un numero molto alto di fattori Cosa dice il teorema del limite centrale (TLC)? Lancio 1000 volte un dado. La distribuzione della variabile punteggio nel lancio di un singolo dado, che varia tra 1 e 6, è uniforme. Il dado è il singolo fattore, ed esiste una singola variabile. Ora lancio 1000 volte due dadi insieme, e ogni lancio della coppia di dadi faccio la somma dei punteggi. Ora la nuova variabile è il punteggio totale nel lancio di due dadi, che varia tra 2 e 12, e può essere vista come costituita dalla combinazione (somma) di due fattori (i due dadi) ciascuno dei quali ha una distribuzione uniforme. Ma la nuova variabile non ha una distribuzione uniforme! Perché? Ora lancio 1000 volte 5 dadi, e ogni volta faccio la somma dei 5 punteggi. Ora la nuova variabile è il punteggio totale nel lancio di cinque dadi, e varia tra 5 e 30. Cosa ricorda?
E se la distribuzione di partenza non è uniforme? 450 400 350 300 250 200 150 100 50 0 0 1 2 3 4 5 Distribuzione di probabilità di una variabile
350 300 250 200 150 100 50 0 0 1 2 3 4 5 6 7 8 9 10 Distribuzione di probabilità della variabile ottenuta sommando due valori (ciascuno con distribuzione come sopra) 180 160 140 120 100 80 60 40 20 0 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 Distribuzione di probabilità della variabile ottenuta sommando sei valori (ciascuno con distribuzione come sopra)
Pensiamo alla statura, o agli errori sono combinazioni di tanti fattori
LA DISTRIBUZIONE GAUSSIANA PER CALCOLARE LE PROBABILITA A PARTIRE DA UNA MEDIA E UNA VARIANZA IN UN CAMPIONE 30 persone obese affette da una malattia cardiovascolare vengono sottoposte a cura dimagrante. La variazione di peso in chilogrammi ha una media pari a 0,59 con varianza pari a 0.11 Vogliamo stimare, per esempio, la P ( x> 0) ovvero, la frazione di persone (obese affette da una malattia cardiovascolare ) che seguendo questa dieta ingrassano. Assumiamo che il campione sia rappresentativo della popolazione e che la distribuzione della variabile sia gaussiana con media e varianza uguali a quelle stimate attraverso il campione
Ricorro alla distribuzione normale standardizzata e alla tabella relativa -4-3 -2-1 0 1 2 3 4 Unimodale simmetrica, centrata sulla media (media, moda e mediana coincidono) L'area sottostante somma a 1 (come tutte le distribuzioni di probabilità) Esiste tra infinito e + infinito 0 +- 1 = 68.3 % 0 +- 2 = 95.4 % 0 +- 3 = 99.7 % 0 +- 1.96 = 95 %
Distribuzione normale standardizzata (µ= 0 e σ = 1) -6-4 -2 0 2 4 Z x=12 = (0+0.59)/0.33 = 1.79 0 P(X>0) = P(Z>1.79) -2.5-2 -1.5-1 -0.5 0 0.5 1 Distribuzione normale con µ= -0.59 e σ = 0.33
TABELLA (SOLO PER ALCUNI VALORI DI Z) DELLA DISTRIBUZIONE NORMALE STANDARDIZZATA P(Z>1.96) = 2.5% P(Z>1.79) = 3.7%
ESEMPIO La NASA esclude dai corsi per diventare astronauti chiunque sia più alto di 193.0 cm o più basso di 148.6 cm. Negli uomini (popolazione USA), l altezza media è 175.6 cm, con s = 7.1 cm. Nelle donne (popolazione USA), l altezza media è 162.6 cm, con s = 6.4. Calcolare le frazioni di popolazione, separatamente per maschi e femmine, esclusi dai programmi NASA. Discutere i risultati.