1 Inferenza Statistica Descrittiva Distribuzioni campionarie Statistica Inferenziale: affronta problemi di decisione in condizioni di incertezza basandosi sia su informazioni a priori sia sui dati campionari Inferenza 3 Processo di stima 4 Inferenza 1) Stima puntuale ) Stima intervallare (intervalli di confidenza) 3) Test statistico (verifica di ipotesi) X f(, θ) CAMPIONE (n) UNIVERSO (N), p, s stima θ = µ, π, σ parametri Stima puntuale 1
Processo di stima 5 Processo di stima 6 Obiettivo: ottenere risultati accurati e precisi Evitare errori sistematici Minimizzare errori casuali Non è possibile valutare la bontà della stima ottenuta da un singolo campione. Si deve fare riferimento ad una situazione teorica in cui si considerano le stime ottenute da tutti i possibili campioni estraibili da una popolazione (universo). Rilevanza della fase di pianificazione di una ricerca La popolazione di marziani: 7 8 Supponiamo che la distribuzione della statura (X) dell intera popolazione di numerosità N=00 sia nota e pari a : X N(µ=40 cm, σ =5 cm ) Studiamo il processo di stima della statura media µ partendo dalle informazioni campionarie Le nostre risorse ci permettono di osservare al massimo campioni di n=10 marziani Estraiamo un campione di n=10 in maniera casuale (e con reinserimento) Ricaviamo da esso una stima del parametro µ
primo campione: n=10 9 secondo campione: n=10 10 = 41. 5cm = 36. 7 cm 11 1 terzo campione: n=10 = 40. 0cm Ripetiamo l estrazione di un campione di numerosità 10 molte altre volte e calcoliamo la media campionaria delle altezze 3
Distribuzione di campionamento Se si stimasse la media su tutti i possibili campioni di numerosità n=10 estraibili dalla popolazione, la distribuzione delle medie campionarie sarebbe... X N(µ=40 cm, σ=5) 13 Distribuzione di campionamento Lo stimatore della media campionaria (X) segue una distribuzione: Normale centrata sulla media vera (µ=40) con una deviazione standard pari a σ/ n (1.58) 14 Errore standard = ds di tutte le medie campionarie X N(µ=40 cm, σ=5) X N(µ=?? cm, σ=??) X N(µ=40 cm, σ=1.58) statura media (cm) statura media (cm) La distribuzione di campionamento 15 Processo di stima 16 Nello specifico: le medie calcolate sui diversi campioni sono le realizzazioni della v.c. media campionaria X (stimatore di µ). In generale: ogni statistica campionaria è una v.c. caratterizzata da una specifica distribuzione di probabilità (distribuzione campionaria dello stimatore) Non è possibile valutare la bontà della stima ottenuta da un singolo campione. Si deve fare riferimento ad una situazione teorica in cui si considerano le stime ottenute da tutti i possibili campioni. L inferenza si basa dunque sulla conoscenza delle caratteristiche teoriche della distribuzione di campionamento di uno stimatore. 4
17 Deviazione standard vs Errore standard La deviazione standard è un indice di variabilità del fenomeno. Fornisce informazioni su come si distribuiscono i dati intorno alla media Errore standard L errore standard quantifica il grado di incertezza dello stimatore, ovvero la sua precisione nello stimare il parametro. 18 X L errore standard è un indice di variabilità degli stimatori. Fornisce informazioni su come si distribuiscono le stime intorno al valore vero. In generale, il suo valore dipende: dalle caratteristiche della variabile misurata sulla popolazione, in particolare dal grado di variabilità (σ); dalla dimensione del campione (n); dalla strategia di campionamento. X Errore standard al variare di σ a parità di N(=00) ed n(=10) 19 Errore standard al variare di σ a parità di N (00) ed n (10) 0 0 0 40 60 80 100 0 0 40 60 80 100 Altezza dei venusiani (min-ma: -50 cm) X V N(µ=3 cm, σ=9 cm) Altezza dei marziani (min-ma: 5-55 cm) X M N(µ=40 cm, σ=5 cm) Altezza dei venusiani (min-ma: -50 cm) X V N(µ=3 cm, σ=9 cm) X V N(µ=3 cm, σ=9/ 10 cm) Altezza dei marziani (min-ma 5-55 cm) X M N(µ=40 cm, σ=5 cm) X M N(µ=40 cm, σ=5/ 10 cm) 0 0 40 60 80 100 Altezza dei saturniani (min-ma: 4-60 cm) X S N(µ=5 cm, σ=3 cm) Altezza dei saturniani (min-ma: 4-60 cm) X S N(µ=5 cm, σ=3 cm) X S N(µ=5 cm, σ=3/ 10 cm) 5
Errore standard al variare di n a parità di σ 1 Errore standard strategia campionamento a parità di N, n e σ n=100 n=5 Altezza dei marziani X M N(µ=40 cm, σ=5 cm) n=10 X M N(µ=40 cm, σ=5/ 10 cm) n=5 XM N(µ=40 cm, σ=5/ 5 cm) X Pr(X=) 6 0.5 10 0.5 1 0.5 0 0.5 E(X)=1 σ =6 n=10 30 35 40 45 50 X n=100 XM N(µ=40 cm, σ=5/ 100 cm) Costruire la distribuzione di campionamento considerando tutti i possibili campioni di n= ottenuti: 1) con reinserimento, ) senza reinserimento. 3 Errore standard strategia campionamento a parità di N, n e σ 1) Campioni di n= con reinserimento campione numero 1 X 1 6 6 6 6 10 8 3 6 1 9 4 6 0 13 5 10 6 8 6 10 10 10 7 10 1 11 8 10 0 15 9 1 6 9 10 1 10 11 11 1 1 1 1 1 0 16 13 0 6 13 14 0 10 15 15 0 1 16 16 0 0 0 X Prob 6 1/16 8 /16 9 /16 10 1/16 11 /16 1 1/16 13 /16 15 /16 16 /16 0 1/16 E(X)=1 σ =6 Distribuzione di campionamento della media E( X)=1 es( X)=3.6=σ/ n 4 Errore standard strategia campionamento a parità di N, n e σ 1) Campioni di n= senza reinserimento campione numero 1 X 1 6 10 8 6 1 9 3 6 0 13 4 10 6 8 5 10 1 11 6 10 0 15 7 1 6 9 8 1 10 11 9 1 0 16 10 0 6 13 11 0 10 15 1 0 1 16 X Prob 8 /1 9 /1 11 /1 13 /1 15 /1 16 /1 E(X)=1 σ =6 Distribuzione di campionamento della media E( X)=1 es( X)=.9= σ n N n N 1 6
Il teorema del Limite Centrale 5 Il teorema del limite centrale: Distribuzione dei livelli ematici di ALT 6 Data una variabile X, con media µ e varianza σ, e un campione di numerosità n, la distribuzione della media campionaria ( X) approssima, al crescere di n, una distribuzione gaussiana con media µ e varianza σ /n. Questo teorema è molto generale perché i suoi risultati sono validi qualunque sia la natura della vc X. Nella popolazione dei maschi adulti, la distribuzione di alanina amino-transferasi (ALT) è fortemente asimmetrica per la presenza di individui con danni epatici causati da alcol, farmaci, infezioni virali 0.04 f() 0.03 0.0 0.01 0 funzione asimmetrica funzione gaussiana 0 0 40 60 80 100 10 140 SGPT/ALT (mu/ml) µ = 31.4 σ = 5.5 Questa distribuzione è basata sullo studio del livello di ALT in 1000 soggetti maschi adulti f() - 0.10 0,1 0,08 µ = 31.4 σ = 5.5 f() - 0.10 0,1 0,08 7 µ = 31.4 σ/ 10=8.1 8 Al crescere di n, la distribuzione della media campionaria: 1. riduce la sua dispersione;. tende ad una Normale 0,06 0,04 0,0 0.10 0,1 0 0 0 40 60 80 100 10 140 f() - 0,08 0,06 SGPT/ALT (mu/ml) µ = 31.4 σ/ 0=5.7 0,06 0,04 0,0 0 0 0 40 60 80 100 10 140 n=10 0,08 0,06 SGPT/ALT (mu/ml) f() - 0.10 0,1 µ = 31.4 σ/ 40=4.0 Studiamo ora il processo per la stima della varianza σ della statura partendo dalle informazioni campionarie. Le nostre risorse ci permettono di osservare al massimo campioni di n=10 marziani. Estraiamo un campione di n=10 in maniera casuale (e con reinserimento) Ricaviamo da esso una stima del parametro σ attraverso due possibili stimatori: 0,04 0,04 0,0 0,0 0 0 0 0 40 60 80 100 10 140 0 0 40 60 80 100 10 140 n=0 SGPT/ALT (mu/ml) n=40 SGPT/ALT (mu/ml) S 1 = n 1 n i= 1 ( X) S 1 n B = ( X) n i= 1 7
primo campione: n=10 9 secondo campione: n=10 30 = 41.5cm; s = 3.8cm; sb = 3. 6cm = 36.7cm; s = 4.9cm; sb = 4. 6cm 31 Distribuzione di campionamento 3 terzo campione: n=10 Distribuzione di campionamento degli stimatori della varianza E(S )=5.0 es(s )=11.6 E(S B)=.4 es(s B)=10.5 = 40.0cm; s = 4.8cm; sb = 4. 5cm 0 0 40 60 80 100 S Bè uno stimatore affetto da errore sistematico, S invece produce stime non distorte Al crescere di n la correzione (n-1) diventa meno rilevante 8
Distribuzione di campionamento 33 La popolazione di marziani: la proporzione di blu 34 Qual è la distribuzione di campionamento di di S? La distribuzione è: Chi-quadro con n-1 gradi di libertà con media pari alla vera varianza σ e deviazione standard pari a: σ 4 /(n 1) Sino a questo momento il colore verde lo abbiamo dato per scontato Immaginiamo che su Marte ci siano anche una minoranza di marziani di colore blu Essi sono 4 su 00, π =4/00=0.1 π è la probabilità che incontrando per caso un marziano questo sia blu. N.B. questo risultato vale solo se la variabile X ha una distribuzione Normale La popolazione di marziani: la proporzione di blu La proporzione π è la media della caratteristica essere blu definita come 1 per i marziani 0 per i marziani La deviazione standard di essere blu è σ = π π ( 1 ) = 0,1 ( 1 0,1 ) = 0. 3 X~Be(π=0.0) 35 Ripetiamo il processo di stima della proporzione di marziani blu (π) già descritto su tutti i possibili campioni di numerosità n=10 estraibili dalla popolazione degli N=00 marziani Stimiamo π con la percentuale p di marziani blu nel campione: primo campione: p=1/10=0.10 secondo campione: p=7/10=0.70 terzo campione: p=/10=0.0 36 9
37 Qual è la distribuzione di campionamento della proporzione campionaria? Per valori di n sufficientemente elevati, la distribuzione è: Normale con media pari alla vera proporzione della popolazione π e deviazione standard pari a σ / n = π 1 π / ( ) n Esercizio Si supponga che il peso misurato su una certa popolazione di soggetti ha media 65 e deviazione standard 0.Si calcoli: 1) Il peso medio atteso e il suo errore standard in un campione di 5 individui E( X)=65 es( X)=0/ 5=10/5=4 1) Il peso medio atteso e il suo errore standard in un campione di 100 individui E( X)=65 es( X)=0/ 100=10/10= 1) Se si estraesse un campione di 5 individui e il loro peso medio fosse di 73 kg, quale sarebbe la probabilità di osservare un valore più estremo di quello effettivamente osservato? Pr( X>73)=Pr(Z>)=0.03 38 10