L indagine campionaria Lezione 3

Anno accademico 2007/08 L indagine campionaria Lezione 3 Docente: prof. Maurizio Pisati Variabile casuale Una variabile casuale è una quantità discreta o continua il cui valore è determinato dal risultato di un esperimento Il termine esperimento è qui usato in senso lato per indicare qualsiasi processo che può produrre due o più risultati diversi 1

Variabile casuale In quest ottica, possiamo chiamare esperimento cose diverse come il lancio di una moneta, l estrazione di un numero del lotto, la scelta del sindaco di una città, il conseguimento del reddito da lavoro, un operazione chirurgica, e così via Variabile casuale Come è facile vedere, ognuno di questi «esperimenti» può produrre due o più risultati diversi: il lancio di una moneta può dare testa o croce l estrazione di un numero del lotto può generare qualsiasi numero intero compreso fra 1 e 90 la scelta del sindaco di una città può manifestarsi nell elezione del candidato A, nell elezione del candidato B o nell elezione del candidato C 2

Variabile casuale Se assegniamo un valore numerico a ogni risultato possibile di un dato esperimento otteniamo una variabile casuale Variabile casuale In questo contesto l aggettivo «casuale» esprime l incertezza fondamentale che circonda l esito di ogni esperimento Tale incertezza può essere espressa come segue: prima che un esperimento si concluda noi sappiamo quali sono i suoi possibili risultati, ma non siamo in grado di dire quale specifico risultato si verificherà 3

Variabile casuale Spesso l incertezza che circonda l esito di un esperimento può essere quantificata assegnando a ciascun risultato possibile dell esperimento stesso e, quindi, a ciascun valore possibile della variabile casuale a esso corrispondente una data probabilità di verificarsi Variabile casuale In generale, l insieme dei valori possibili della variabile casuale Y e delle probabilità con cui ciascuno di questi valori si può verificare in ogni dato esperimento rappresenta la distribuzione di probabilità della variabile casuale Y, che indichiamo con il simbolo p(y) 4

Variabile casuale Di ogni variabile casuale di cui sia stata definita la distribuzione di probabilità è possibile calcolare due misure riassuntive importanti: il valore atteso la varianza Variabile casuale Il valore atteso di una variabile casuale Y, che indichiamo con il simbolo E(Y), equivale alla somma di tutti i possibili valori di Y moltiplicati per le rispettive probabilità Il valore atteso di una variabile casuale è noto anche come valore medio o media 5

Variabile casuale Il valore atteso di una variabile casuale può essere interpretato come segue: se l esperimento da cui trae origine la variabile casuale Y venisse ripetuto un numero molto elevato di volte (diciamo M), la somma di tutti i valori ottenuti (detti realizzazioni di Y), divisa per M, approssimerebbe E(Y) In altri termini, il valore atteso di Y esprime il risultato medio che si otterrebbe ripetendo l esperimento corrispondente un numero molto elevato di volte Variabile casuale La varianza di una variabile casuale Y, che indichiamo con il simbolo V(Y), esprime la dispersione di tutte le possibili realizzazioni di Y intorno al suo valore atteso Spesso la dispersione di una variabile casuale viene espressa mediante la radice quadrata di V(Y), denominata deviazione standard e indicata con il simbolo σ(y) 6

Distribuzione normale Le distribuzioni di probabilità delle variabili casuali possono assumere molte forme diverse Ai fini della nostra discussione, la forma più rilevante è quella «normale» Distribuzione normale La distribuzione di probabilità normale (o gaussiana) si applica alle variabili casuali continue e la sua forma la classica campana simmetrica è definita da due parametri: il valore atteso, generalmente indicato con il simbolo µ, e la varianza, generalmente indicata con il simbolo σ 2 7

Distribuzione normale Le variabili casuali con distribuzione normale possono essere rappresentate formalmente come segue: Y ~ N( µ, σ 2 ) che si legge: «la variabile casuale Y si distribuisce normalmente con valore atteso pari a µ e varianza pari a σ 2» Distribuzione normale µ 8

Distribuzione campionaria Da ogni popolazione di riferimento è possibile estrarre un certo numero di campioni diversi di ampiezza n In linea di principio, ognuno di questi campioni può essere usato per stimare la quantità di interesse θ Distribuzione campionaria Ne consegue che, per ogni data quantità di interesse θ e ogni data ampiezza campionaria n, è possibile calcolare un certo numero di stime θˆ 9

Distribuzione campionaria Se concepiamo il «calcolo della stima di θ su un campione di ampiezza n» come un esperimento che può dare luogo a un certo numero di risultati diversi, ognuno caratterizzato da una data probabilità di realizzarsi, allora la distribuzione di tutte le possibili stime di θ può essere vista come la distribuzione di probabilità della variabile casuale θˆ Distribuzione campionaria Questa distribuzione è detta distribuzione campionaria di θˆ e, nella maggior parte dei casi, ha una forma ben definita, cioè si configura come una curva approssimativamente normale. Formalmente: θˆ ~ N( E( θˆ), V ( θˆ)) 10

Accuratezza dello stimatore Tecnicamente la variabile casuale θˆ è detta stimatore del parametro θ L accuratezza di un dato stimatore è funzione di due elementi analiticamente distinti: correttezza precisione Correttezza dello stimatore La correttezza di uno stimatore ha a che fare con il suo valore atteso Uno stimatore è corretto se è esente da errore sistematico Si definisce errore sistematico o bias la differenza fra il valore atteso della distribuzione campionaria di θˆ e il vero valore di θ. Formalmente: B( θˆ) = E( θ ˆ ) θ 11

Correttezza dello stimatore Se E( θ ˆ) = θ, allora B( θˆ) = 0 e lo stimatore di θ può essere definito corretto In questo caso: θˆ ~ N( θ, V ( θˆ)) Precisione dello stimatore La precisione di uno stimatore ha a che fare con la sua varianza Uno stimatore è tanto più preciso quanto più piccola è la sua varianza La radice quadrata della varianza, detta errore standard e indicata con il simbolo σ (θˆ), esprime l ampiezza dell oscillazione casuale delle stime attribuibile al processo di campionamento 12

Precisione dello stimatore Quando lo stimatore di θ si distribuisce in modo approssimativamente normale: circa il 68% delle possibili stime di θ assumono valori compresi nell intervallo E( θ ˆ) ± σ ( θˆ) circa il 95% delle possibili stime di θ assumono valori compresi nell intervallo E( θ ˆ) ± 2σ ( θˆ) Precisione dello stimatore L errore standard di uno stimatore è tanto minore quanto maggiore è l ampiezza del campione n e quanto più efficiente è il disegno di campionamento adottato 13

Precisione dello stimatore n=10.000 n=100 n=1.000 150 200 250 300 350 400 450 ^ θ Accuratezza dello stimatore Formalmente, l accuratezza di uno stimatore può essere espressa in termini di errore quadratico medio (mean square error): MSE ˆ) ˆ) + 2 ( θ = E( ε ) = V ( θ B( θ ˆ) 2 Tanto minore è l errore quadratico medio, tanto maggiore è l accuratezza dello stimatore 14

Accuratezza dello stimatore Caso A: bias assente, varianza elevata Accuratezza dello stimatore Caso B: bias presente, varianza limitata 15

Accuratezza dello stimatore Caso C: bias assente, varianza limitata 16