STIMA DELLA VARIANZA CAMPIONARIA



Documenti analoghi
Teorema del limite centrale TCL

STATISTICHE, DISTRIBUZIONI CAMPIONARIE E INFERENZA

Distribuzioni campionarie. Antonello Maruotti

Statistica - metodologie per le scienze economiche e sociali /2e S. Borra, A. Di Ciaccio - McGraw Hill

Esercitazioni di statistica

CORSO DI STATISTICA (parte 2) - ESERCITAZIONE 5

Esercitazioni di Statistica

Teorema del limite centrale TCL Questo importante teorema della statistica inferenziale si applica a qualsiasi variabile aleatoria che sia combinazion

Carta di credito standard. Carta di credito business. Esercitazione 12 maggio 2016

Campionamento La statistica media campionaria e la sua distribuzione

Distribuzioni di Probabilità

Test delle ipotesi. Le differenze che vengono riscontrate possono essere ovviamente ricondotte a due possibilità:

X = X 1 + X X n. dove. 1 se alla i-esima prova si ha un successo 0 se alla i-esima prova si ha un insuccesso. X i =

E naturale chiedersi alcune cose sulla media campionaria x n

Statistica 2. Esercitazioni. Dott. Luigi Augugliaro 1. Università di Palermo

ESAME. 9 Gennaio 2017 COMPITO A

Statistica Inferenziale

Capitolo 11 Test chi-quadro

Esercitazioni di Statistica

ESAME. 9 Gennaio 2017 COMPITO B

Esercizi di Probabilità

Esercizi di Probabilità e Statistica

Università degli Studi Roma Tre Anno Accademico 2016/2017 ST410 Statistica 1

Corso di Laurea Triennale in Matematica Calcolo delle Probabilità I (docenti G. Nappo, F. Spizzichino)

Richiami di inferenza statistica. Strumenti quantitativi per la gestione. Emanuele Taufer

CP110 Probabilità: Esame 13 settembre Testo e soluzione

LA LUNGHEZZA DEI GENI UMANI (Es4.1)

Test di ipotesi. Test

Statistica Metodologica

La distribuzione normale

Statistica Inferenziale

Capitolo 7. Distribuzioni campionarie. Statistica. Levine, Krehbiel, Berenson

Statistica Inferenziale

Test di ipotesi su due campioni

Il campionamento e l inferenza. Il campionamento e l inferenza

Esercitazione # 6. a) Fissato il livello di significatività al 5% si tragga una conclusione circa l opportunità di avviare la campagna comparativa.

Contenuti: Capitolo 14 del libro di testo

Il test (o i test) del Chi-quadrato ( 2 )

Probabilità e Statistica

I appello di calcolo delle probabilità e statistica

Stima puntuale di parametri

PROBLEMI DI PROBABILITÀ 2

CORSO DI STATISTICA (parte 2) - ESERCITAZIONE 3

Probabilità classica. Distribuzioni e leggi di probabilità. Probabilità frequentista. Probabilità soggettiva

Università di Siena. Teoria della Stima. Lucidi del corso di. Identificazione e Analisi dei Dati A.A

APPUNTI DI STATISTICA INFERENZIALE. Avalle Fulvia, maggio 2014, ITSOS MARIE CURIE CLASSI 4A BIO e 4B BIO

STATISTICA ESERCITAZIONE

Statistica Inferenziale

Corso di laurea in Scienze Motorie Corso di Statistica Docente: Dott.ssa Immacolata Scancarello Lezione 15: Metodi non parametrici

NOTE DALLE LEZIONI DI STATISTICA MEDICA ED ESERCIZI

STATISTICA A K (60 ore)

STATISTICA: esercizi svolti sulle VARIABILI CASUALI

PROBABILITÀ SCHEDA N. 5 SOMMA E DIFFERENZA DI DUE VARIABILI ALEATORIE DISCRETE

Probabilità 1, laurea triennale in Matematica I prova scritta sessione estiva a.a. 2008/09

Esercitazioni di statistica

Transcript:

STIMA DELLA VARIANZA CAMPIONARIA Abbiamo visto che una stima puntuale corretta per il valore atteso µ delle variabili aleatorie X i è x n = (x 1 +.. + x n )/n. Una stima puntuale della varianza σ 2 delle variabili aleatorie X i è la varianza campionaria s 2 n s 2 n = (x 1 x) 2 + (x 2 x) 2 +...(x n x) 2 n 1 Mostriamo che anche questa stima puntuale è corretta ossia che il valore medio dello stimatore S 2 n = (X 1 X) 2 + (X 2 X) 2 +...(X n X) 2 n 1 è uguale alla varianza σ 2 delle variabili aleatorie X i.

Si consideri un campione di numerosità n da una popolazione: n variabili aleatorie X 1,.., X n, con stessa distribuzione di cui non si conosce la varianza σ 2. Otteniamo n numeri x 1,..x n (x i è il valore osservato della variabile aleatoria X i ). Sembra naturale prendere come stima di σ 2 il numero a n = (x 1 µ) 2 + (x 2 µ) 2 +...(x n µ) 2 n In effetti a n è una stima corretta se il valore atteso µ delle variabili X i è noto. Sia a n una realizzazione della variabile aleatoria A n (lo stimatore: stessa definizione di a n ma con le realizzazioni x i sostituite dalle corrispondenti variabili aleatorie X i ). Vericare che E(A n ) = σ 2 è semplice, infatti dalla equazione qui sopra, tenendo presente che le variabili X i sono identicamente distribuite, si ha che E(A n ) = E[(X 1 µ) 2 ] = σ 2

Tuttavia molto spesso anche il valore atteso è ignoto e quindi sembra ragionevole sostituire µ con la sua stima che è la media campionaria x n. b n = (x 1 x n ) 2 + (x 2 x n ) 2 +...(x n x n ) 2 n In effetti b n NON è una stima corretta. Vericare che E(B n ) σ 2 è semplice, infatti dalla equazione qui sopra, tenendo presente che le variabili X i sono identicamente distribuite, si ha [ ( E(B n ) = E[(X 1 X n ) 2 ] = E X 1 X ) ] 1 + X 2 +...X 2 n n

Tenendo presente che X i e X j sono indipendenti se i j si ha E(X i X j ) = E(X i )E(X j ) = µ 2 per i j (si noti che la prima uguaglianza, che non dimostriamo, è una diretta conseguenza dell indipendenza). Si ha inoltre E[Xi 2 ] = µ 2 + σ 2 per ogni i, usando questi risultati si ottiene E(B n ) = n 1 n σ2 e quindi B n non è uno stimatore corretto. Se invece di dividere per n si divide per n 1 si ottiene uno stimatore è corretto. In definitiva uno stimatore puntuale corretto della varianza σ 2 è S 2 n = (X 1 X) 2 + (X 2 X) 2 +...(X n X) 2 n 1 ossia è la varianza campionaria perchè E(S 2 n) = n n 1 E(B n) = σ 2.

DISTRIBUZIONE DELLA VARIANZA CAMPIONARIA Abbiamo visto S 2 n è uno stimatore corretto di σ 2. Si può inoltre dimostrare (sostanzialmente un applicazione della legge dei grandi numeri) che per ogni a positivo, P( S 2 n σ 2 > a) 0 quando n. Questo significa che S 2 n σ 2 per grandi n. Se la distribuzione della popolazione è normale (se le X i sono gaussiane) si può dimostrare un risultato più preciso col seguente teorema Teorema La variabile aleatoria (n 1) S2 n σ 2 = 1 σ 2 n (x i x) 2 ha una distribuzione del chi-quadrato a n 1 gradi di libertà. Non descriveremo qui questa distribuzione (in realtà una famiglia di distribuzioni di parametro n 1). i=1

RIASSUMENDO Per un campione di numerosità n estratto da una popolazione con distribuzione di media µ e varianza σ si ha che E(S 2 n) = σ 2 per ogni n, S 2 n σ 2 quando n (non realizzabile in pratica), (n 1) S2 n ha una distribuzione del chi-quadrato a n 1 gradi σ 2 di libertà se le X i sono gaussiane. (n 1) S2 n ha approssimativamente una distribuzione del σ 2 chi-quadrato a n 1 gradi di libertà se le X i non sono gaussiane. Si noti che la varianza campionaria è una stima della varianza σ 2. Dato che S n σ 2 per n, la sua precisione (efficienza) aumenta al crescere di n.

DISTRIBUZIONE DELLE MEDIA CAMPIONARIA (VARIANZA INCOGNITA). I risultati finora ottenuti ci permettono quindi di dire quindi che X n ha media µ e varianza σ/ n. Inoltre per n sufficientemente grandi, la variabile Z n = ( X n µ)/(σ/ n) è approssimativamnte una normale standard. Abbiamo infine visto che per n grandi la variabile aleatoria S n coincide colla varianza σ. Se non si conosce la varianza σ ha quindi senso rimpiazzarla con S n e definire la variabile aleatoria T n = X n µ S n / n Teorema. Se le X i sono normali, T n è una variabile aleatoria avente la distribuzione t di Student con grado di libertà n-1.

Non descriveremo qui la distribuzione t di Student, Tuttavia notiamo che al crescere di n la variabile aleatoria S 2 n coincide sempre più con la varianza σ 2 e quindi la variabile T n coincide con Z n (le due variabili sono legate dalla relazione T n = Z n σ/s n ). Per questo motivo la t di Student è sempre meglio approssimata da una normale standard al crescere di n. Normale standard comparata a una t di Student con n 1 = 4.

RIASSUMENDO Se le variabili X i non sono gaussiane, la variabile T n è solo approssimativamente distribuita come una t di Studente di parametro n 1. Quindi per un campione di numerosità n estratto da una popolazione con distribuzione di media µ e varianza σ si ha che T n ha una distribuzione t di Student a n 1 gradi di libertà se le X i sono gaussiane, T n ha approssimativamente una distribuzione t di Student a n 1 gradi di libertà se le X i non sono gaussiane, T n ha approssimativamente una distribuzione normale standard se n è grande (anche per X i non gaussiane).

Abbiamo visto che la media campionaria è uno stimatore corretto del valore atteso µ e la varianza campionaria è uno stimatore corretto della varianza σ 2. Lo stimatore di un parametro non è unico: per decidere quale tra 2 stimatori corretti sia il migliore si usa il criterio di scegliere quello più efficiente ossia quello per cui la varianza è minore. Esercizio 1. Si consideri un campione x 1,...,x n di variabili aleatorie discrete X i che assumono i tre valori 0, -1, 1 con probabilità p( 1) = a 2, p(0) = 1 a, p(1) = a 2 (1) Per quali a la funzione p è una distribuzione di probabilità? Risposta: deve essere 0 p(i) 1 per ogni i = 0, 1, 1 quindi a deve essere a [0, 1]. Inoltre deve essere p( 1) +p(0)+p(1) = 1, cosa vera per ogni a.

(2) Calcolare valore atteso e varianza. Risposta: E(X 1 ) = ( 1) a a + 0 (1 a) + 1 2 2 = 0. var(x 1 ) = E(X 2 1 ) = ( 1) 2 a 2 + 02 (1 a) + 1 2 a 2 = a (3). Si considerino i seguenti 2 stimatori di a: Γ = 1 n n X i, Λ = X n i=1 I due stimatori sono corretti? Risposta: E(Λ) = E( X n ) = 1 p( 1) + 0 p(0) + 1 p(1) = a

Poichè le X i. hanno stessa distribuzione: E(Γ) = 1 n n E( X i ) = 1 n i=1 n a = a i=1 Quindi sia Γ che Λ sono stimatori corretti. (4) Si calcoli la varianza dei due stimatori. Risposta: la varianza di Λ è ( var(λ) = E ( X n a) 2) = E ( X n 2) a 2 E ( X n 2) = ( 1) 2 p( 1) + 0 2 p(0) + 1 2 p(1) = a 2 + a 2 = a quindi var(λ) = a a 2 = a(1 a).

Poichè le variabili aleatorie sono indipendenti e con stessa distribuzione: var(γ) = var( 1 n n X i ) = 1 n n 2 var( X i ) i=1 i=1 = 1 n n 2 var( X n ) = 1 n 2 i=1 n i=1 (5) Quale è lo stimatore più efficiente? Risposta: si ha a(1 a) = 1 a(1 a) n var(γ) var(λ) = 1 < 1, per ogni n > 1 n Quindi Γ è più efficiente di Λ.

Esercizio 2. Si consideri un campione x 1,...,x n di variabili aleatorie discrete X i che assumono i due valori 0 e 1 con probabilità 1 p e p rispettivamente. (1) Si calcolino µ = E(X i ) e σ = var(x i ) in funzione di p. Risposta: Si deve avere µ = 0 (1 p) + 1 p = µ per cui µ = p, che implica µ [0, 1]. Inoltre σ 2 = E(X 2 i ) µ 2 = 0 2 (1 p) + 1 2 p p 2 = p(i p). (2) Lo stimatore di p Γ = 1 12 X 1 + 3(X 2 + X 3 ) è corretto? Risposta: Poichè le X i hanno stessa distribuzione: E(Γ) = 1 12 E(X 1)+3E(X 2 )+3E(X 3 ) = E(X 1 )[ 1 73 +6] = µ 12 12 = p 73 12 quindi Γ è distorto (il suo valore atteso non coincide con p).

(3) Si determini una costante c tale che posto Λ = cγ, Λ è uno stimatore corretto di p. Risposta: siccome E(Γ) = 73p/12), per c = 12 73 si ha che quindi E(Λ) = 12 73 E(Γ) = p Λ = 1 73 X 1 + 36 73 (X 2 + X 3 ) è uno stimatore corretto di p. (4) Si compari lo stimatore corretto di µ (e quindi di p = µ) X 3 = (X 1 + X 2 + X 3 )/3 con Λ e si dica quale è quello piú efficiente

Risposta: per le proprietà della varianza var(λ) = ( ) 1 2 var(x 1 ) + 73 ( ) 36 2 var(x 2 ) + 73 ( ) 36 2 var(x 3 ) 73 inoltre tenendo presente che le variabili X i sono identicamente distribuite con varianza σ 2 var(λ) = σ 2 [ ( 1 73) 2 + 2 ( ) ] 36 2 = 0.49 σ 2 73 Si ha invece var( X 3 ) = σ 2 /3 = 0, 33 σ 2 e quindi var( X 3 ) var(λ) = 0, 33 0, 49 < 1 Quindi X 3 è più efficiente di Λ.