STIMA DELLA VARIANZA CAMPIONARIA



Documenti analoghi
Teorema del limite centrale TCL

STATISTICHE, DISTRIBUZIONI CAMPIONARIE E INFERENZA

Campionamento e stima di parametri

Distribuzioni campionarie. Antonello Maruotti

Statistica - metodologie per le scienze economiche e sociali /2e S. Borra, A. Di Ciaccio - McGraw Hill

Esercitazioni di statistica

Alcune nozioni introduttive alla statistica

CORSO DI STATISTICA (parte 2) - ESERCITAZIONE 5

STATISTICA INDUTTIVA: STIMA DI PARAMETRI STIMA PUNTUALE

Esercitazioni di Statistica

Teorema del limite centrale TCL Questo importante teorema della statistica inferenziale si applica a qualsiasi variabile aleatoria che sia combinazion

Tecniche di sondaggio

Corso di Statistica - Prof. Fabio Zucca IV Appello - 5 febbraio Esercizio 1

Carta di credito standard. Carta di credito business. Esercitazione 12 maggio 2016

Campionamento La statistica media campionaria e la sua distribuzione

Distribuzioni di Probabilità

Test delle ipotesi. Le differenze che vengono riscontrate possono essere ovviamente ricondotte a due possibilità:

X = X 1 + X X n. dove. 1 se alla i-esima prova si ha un successo 0 se alla i-esima prova si ha un insuccesso. X i =

Contenuto del capitolo

E naturale chiedersi alcune cose sulla media campionaria x n

Statistica 2. Esercitazioni. Dott. Luigi Augugliaro 1. Università di Palermo

ESAME. 9 Gennaio 2017 COMPITO A

LA MEDIA CAMPIONARIA 14-1

Scritto del

Statistica Inferenziale

Capitolo 11 Test chi-quadro

Esercitazioni di Statistica

ESAME. 9 Gennaio 2017 COMPITO B

Università degli Studi Roma Tre Anno Accademico 2017/2018 ST410 Statistica 1

lezione 4 AA Paolo Brunori

STATISTICA A K (60 ore)

Gli intervalli di confidenza. Intervallo di confidenza per la media (σ 2 nota) nel caso di popolazione Gaussiana

II Esonero - Testo B

Distribuzioni campionarie

Teoremi limite. Enrico Ferrero. 27 febbraio 2007

Università degli Studi Roma Tre Anno Accademico 2014/2015 ST410 Statistica 1

Il Teorema del limite Centrale (TLC)

Esercizi di Probabilità

Esercizi di Probabilità e Statistica

UNIVERSITÀ DEGLI STUDI ROMA TRE Corso di Laurea in Matematica ST410 - Statistica 1 - A.A. 2014/2015 II Esonero - 15 Gennaio 2015

Università degli Studi Roma Tre Anno Accademico 2016/2017 ST410 Statistica 1

Statistica Applicata all edilizia: Stime e stimatori

Corso di Laurea Triennale in Matematica Calcolo delle Probabilità I (docenti G. Nappo, F. Spizzichino)

Richiami di inferenza statistica. Strumenti quantitativi per la gestione. Emanuele Taufer

Richiami di inferenza statistica Strumenti quantitativi per la gestione

CP110 Probabilità: Esame 13 settembre Testo e soluzione

LA LUNGHEZZA DEI GENI UMANI (Es4.1)

Tutorato di Complementi di Analisi Matematica e Statistica 30 maggio 2016

Test di ipotesi. Test

Statistica Metodologica

La distribuzione normale

Statistica Inferenziale

Esercitazione 4 Distribuzioni campionarie e introduzione ai metodi Monte Carlo

ESERCIZIO 1 Si considerino n v.c. Xi (i = 1,, n) tra loro indipendenti e somiglianti con media 10 e varianza 4. Si determini:

Matematica con elementi di Informatica

Capitolo 7. Distribuzioni campionarie. Statistica. Levine, Krehbiel, Berenson

Statistica Inferenziale

Test di ipotesi su due campioni

CP110 Probabilità: Esame 2 settembre Testo e soluzione

Il campionamento e l inferenza. Il campionamento e l inferenza

Stima puntuale di parametri

Esercitazione # 6. a) Fissato il livello di significatività al 5% si tragga una conclusione circa l opportunità di avviare la campagna comparativa.

Contenuti: Capitolo 14 del libro di testo

Costruzione di macchine. Modulo di: Progettazione probabilistica e affidabilità. Marco Beghini e Leonardo Bertini. Lezione 7: Basi di statistica

Il test (o i test) del Chi-quadrato ( 2 )

Probabilità e Statistica

ESERCIZIO 1. a) Calcolare il rendimento atteso del portafoglio:

I appello di calcolo delle probabilità e statistica

Intervallo di confidenza

Stima puntuale di parametri

Statistica 1- parte II

1. Quali sono i possibili campioni di numerosità 2 senza reimmissione? X 1 e X 2 sono indipendenti?

PROBLEMI DI PROBABILITÀ 2

CP110 Probabilità: Esame 30 gennaio Testo e soluzione

CORSO DI STATISTICA (parte 2) - ESERCITAZIONE 3

Probabilità classica. Distribuzioni e leggi di probabilità. Probabilità frequentista. Probabilità soggettiva

Statistica Inferenziale Soluzioni 3. Verifica di ipotesi

Università di Siena. Teoria della Stima. Lucidi del corso di. Identificazione e Analisi dei Dati A.A

APPUNTI DI STATISTICA INFERENZIALE. Avalle Fulvia, maggio 2014, ITSOS MARIE CURIE CLASSI 4A BIO e 4B BIO

Statistica inferenziale

STATISTICA ESERCITAZIONE

Statistica Inferenziale

Intervallo di confidenza.

Corso di laurea in Scienze Motorie Corso di Statistica Docente: Dott.ssa Immacolata Scancarello Lezione 15: Metodi non parametrici

Esercitazione del 29 aprile 2014

MODELLI PROBABILISTICI E STATISTICI

I modelli probabilistici

Presentazione dell edizione italiana

Statistica Matematica 3

NOTE DALLE LEZIONI DI STATISTICA MEDICA ED ESERCIZI

STATISTICA (modulo II - Inferenza Statistica) Soluzione Esercitazione I

Costruzione di macchine. Modulo di: Progettazione probabilistica e affidabilità. Marco Beghini. Lezione 7: Basi di statistica

STATISTICA A K (60 ore)

STATISTICA: esercizi svolti sulle VARIABILI CASUALI

CP110 Probabilità: Esame 4 giugno Testo e soluzione

PROBABILITÀ SCHEDA N. 5 SOMMA E DIFFERENZA DI DUE VARIABILI ALEATORIE DISCRETE

Elementi di Probabilità e Statistica - 052AA - A.A

Statistica inferenziale, Varese, 18 novembre 2009 Prima parte - Modalità D

Probabilità 1, laurea triennale in Matematica I prova scritta sessione estiva a.a. 2008/09

Esercitazioni di statistica

Transcript:

STIMA DELLA VARIANZA CAMPIONARIA Abbiamo visto che una stima puntuale corretta per il valore atteso µ delle variabili aleatorie X i è x n = (x 1 +.. + x n )/n. Una stima puntuale della varianza σ 2 delle variabili aleatorie X i è la varianza campionaria s 2 n s 2 n = (x 1 x) 2 + (x 2 x) 2 +...(x n x) 2 n 1 Mostriamo che anche questa stima puntuale è corretta ossia che il valore medio dello stimatore S 2 n = (X 1 X) 2 + (X 2 X) 2 +...(X n X) 2 n 1 è uguale alla varianza σ 2 delle variabili aleatorie X i.

Si consideri un campione di numerosità n da una popolazione: n variabili aleatorie X 1,.., X n, con stessa distribuzione di cui non si conosce la varianza σ 2. Otteniamo n numeri x 1,..x n (x i è il valore osservato della variabile aleatoria X i ). Sembra naturale prendere come stima di σ 2 il numero a n = (x 1 µ) 2 + (x 2 µ) 2 +...(x n µ) 2 n In effetti a n è una stima corretta se il valore atteso µ delle variabili X i è noto. Sia a n una realizzazione della variabile aleatoria A n (lo stimatore: stessa definizione di a n ma con le realizzazioni x i sostituite dalle corrispondenti variabili aleatorie X i ). Vericare che E(A n ) = σ 2 è semplice, infatti dalla equazione qui sopra, tenendo presente che le variabili X i sono identicamente distribuite, si ha che E(A n ) = E[(X 1 µ) 2 ] = σ 2

Tuttavia molto spesso anche il valore atteso è ignoto e quindi sembra ragionevole sostituire µ con la sua stima che è la media campionaria x n. b n = (x 1 x n ) 2 + (x 2 x n ) 2 +...(x n x n ) 2 n In effetti b n NON è una stima corretta. Vericare che E(B n ) σ 2 è semplice, infatti dalla equazione qui sopra, tenendo presente che le variabili X i sono identicamente distribuite, si ha [ ( E(B n ) = E[(X 1 X n ) 2 ] = E X 1 X ) ] 1 + X 2 +...X 2 n n

Tenendo presente che X i e X j sono indipendenti se i j si ha E(X i X j ) = E(X i )E(X j ) = µ 2 per i j (si noti che la prima uguaglianza, che non dimostriamo, è una diretta conseguenza dell indipendenza). Si ha inoltre E[Xi 2 ] = µ 2 + σ 2 per ogni i, usando questi risultati si ottiene E(B n ) = n 1 n σ2 e quindi B n non è uno stimatore corretto. Se invece di dividere per n si divide per n 1 si ottiene uno stimatore è corretto. In definitiva uno stimatore puntuale corretto della varianza σ 2 è S 2 n = (X 1 X) 2 + (X 2 X) 2 +...(X n X) 2 n 1 ossia è la varianza campionaria perchè E(S 2 n) = n n 1 E(B n) = σ 2.

DISTRIBUZIONE DELLA VARIANZA CAMPIONARIA Abbiamo visto S 2 n è uno stimatore corretto di σ 2. Si può inoltre dimostrare (sostanzialmente un applicazione della legge dei grandi numeri) che per ogni a positivo, P( S 2 n σ 2 > a) 0 quando n. Questo significa che S 2 n σ 2 per grandi n. Se la distribuzione della popolazione è normale (se le X i sono gaussiane) si può dimostrare un risultato più preciso col seguente teorema Teorema La variabile aleatoria (n 1) S2 n σ 2 = 1 σ 2 n (x i x) 2 ha una distribuzione del chi-quadrato a n 1 gradi di libertà. Non descriveremo qui questa distribuzione (in realtà una famiglia di distribuzioni di parametro n 1). i=1

RIASSUMENDO Per un campione di numerosità n estratto da una popolazione con distribuzione di media µ e varianza σ si ha che E(S 2 n) = σ 2 per ogni n, S 2 n σ 2 quando n (non realizzabile in pratica), (n 1) S2 n ha una distribuzione del chi-quadrato a n 1 gradi σ 2 di libertà se le X i sono gaussiane. (n 1) S2 n ha approssimativamente una distribuzione del σ 2 chi-quadrato a n 1 gradi di libertà se le X i non sono gaussiane. Si noti che la varianza campionaria è una stima della varianza σ 2. Dato che S n σ 2 per n, la sua precisione (efficienza) aumenta al crescere di n.

DISTRIBUZIONE DELLE MEDIA CAMPIONARIA (VARIANZA INCOGNITA). I risultati finora ottenuti ci permettono quindi di dire quindi che X n ha media µ e varianza σ/ n. Inoltre per n sufficientemente grandi, la variabile Z n = ( X n µ)/(σ/ n) è approssimativamnte una normale standard. Abbiamo infine visto che per n grandi la variabile aleatoria S n coincide colla varianza σ. Se non si conosce la varianza σ ha quindi senso rimpiazzarla con S n e definire la variabile aleatoria T n = X n µ S n / n Teorema. Se le X i sono normali, T n è una variabile aleatoria avente la distribuzione t di Student con grado di libertà n-1.

Non descriveremo qui la distribuzione t di Student, Tuttavia notiamo che al crescere di n la variabile aleatoria S 2 n coincide sempre più con la varianza σ 2 e quindi la variabile T n coincide con Z n (le due variabili sono legate dalla relazione T n = Z n σ/s n ). Per questo motivo la t di Student è sempre meglio approssimata da una normale standard al crescere di n. Normale standard comparata a una t di Student con n 1 = 4.

RIASSUMENDO Se le variabili X i non sono gaussiane, la variabile T n è solo approssimativamente distribuita come una t di Studente di parametro n 1. Quindi per un campione di numerosità n estratto da una popolazione con distribuzione di media µ e varianza σ si ha che T n ha una distribuzione t di Student a n 1 gradi di libertà se le X i sono gaussiane, T n ha approssimativamente una distribuzione t di Student a n 1 gradi di libertà se le X i non sono gaussiane, T n ha approssimativamente una distribuzione normale standard se n è grande (anche per X i non gaussiane).

Abbiamo visto che la media campionaria è uno stimatore corretto del valore atteso µ e la varianza campionaria è uno stimatore corretto della varianza σ 2. Lo stimatore di un parametro non è unico: per decidere quale tra 2 stimatori corretti sia il migliore si usa il criterio di scegliere quello più efficiente ossia quello per cui la varianza è minore. Esercizio 1. Si consideri un campione x 1,...,x n di variabili aleatorie discrete X i che assumono i tre valori 0, -1, 1 con probabilità p( 1) = a 2, p(0) = 1 a, p(1) = a 2 (1) Per quali a la funzione p è una distribuzione di probabilità? Risposta: deve essere 0 p(i) 1 per ogni i = 0, 1, 1 quindi a deve essere a [0, 1]. Inoltre deve essere p( 1) +p(0)+p(1) = 1, cosa vera per ogni a.

(2) Calcolare valore atteso e varianza. Risposta: E(X 1 ) = ( 1) a a + 0 (1 a) + 1 2 2 = 0. var(x 1 ) = E(X 2 1 ) = ( 1) 2 a 2 + 02 (1 a) + 1 2 a 2 = a (3). Si considerino i seguenti 2 stimatori di a: Γ = 1 n n X i, Λ = X n i=1 I due stimatori sono corretti? Risposta: E(Λ) = E( X n ) = 1 p( 1) + 0 p(0) + 1 p(1) = a

Poichè le X i. hanno stessa distribuzione: E(Γ) = 1 n n E( X i ) = 1 n i=1 n a = a i=1 Quindi sia Γ che Λ sono stimatori corretti. (4) Si calcoli la varianza dei due stimatori. Risposta: la varianza di Λ è ( var(λ) = E ( X n a) 2) = E ( X n 2) a 2 E ( X n 2) = ( 1) 2 p( 1) + 0 2 p(0) + 1 2 p(1) = a 2 + a 2 = a quindi var(λ) = a a 2 = a(1 a).

Poichè le variabili aleatorie sono indipendenti e con stessa distribuzione: var(γ) = var( 1 n n X i ) = 1 n n 2 var( X i ) i=1 i=1 = 1 n n 2 var( X n ) = 1 n 2 i=1 n i=1 (5) Quale è lo stimatore più efficiente? Risposta: si ha a(1 a) = 1 a(1 a) n var(γ) var(λ) = 1 < 1, per ogni n > 1 n Quindi Γ è più efficiente di Λ.

Esercizio 2. Si consideri un campione x 1,...,x n di variabili aleatorie discrete X i che assumono i due valori 0 e 1 con probabilità 1 p e p rispettivamente. (1) Si calcolino µ = E(X i ) e σ = var(x i ) in funzione di p. Risposta: Si deve avere µ = 0 (1 p) + 1 p = µ per cui µ = p, che implica µ [0, 1]. Inoltre σ 2 = E(X 2 i ) µ 2 = 0 2 (1 p) + 1 2 p p 2 = p(i p). (2) Lo stimatore di p Γ = 1 12 X 1 + 3(X 2 + X 3 ) è corretto? Risposta: Poichè le X i hanno stessa distribuzione: E(Γ) = 1 12 E(X 1)+3E(X 2 )+3E(X 3 ) = E(X 1 )[ 1 73 +6] = µ 12 12 = p 73 12 quindi Γ è distorto (il suo valore atteso non coincide con p).

(3) Si determini una costante c tale che posto Λ = cγ, Λ è uno stimatore corretto di p. Risposta: siccome E(Γ) = 73p/12), per c = 12 73 si ha che quindi E(Λ) = 12 73 E(Γ) = p Λ = 1 73 X 1 + 36 73 (X 2 + X 3 ) è uno stimatore corretto di p. (4) Si compari lo stimatore corretto di µ (e quindi di p = µ) X 3 = (X 1 + X 2 + X 3 )/3 con Λ e si dica quale è quello piú efficiente

Risposta: per le proprietà della varianza var(λ) = ( ) 1 2 var(x 1 ) + 73 ( ) 36 2 var(x 2 ) + 73 ( ) 36 2 var(x 3 ) 73 inoltre tenendo presente che le variabili X i sono identicamente distribuite con varianza σ 2 var(λ) = σ 2 [ ( 1 73) 2 + 2 ( ) ] 36 2 = 0.49 σ 2 73 Si ha invece var( X 3 ) = σ 2 /3 = 0, 33 σ 2 e quindi var( X 3 ) var(λ) = 0, 33 0, 49 < 1 Quindi X 3 è più efficiente di Λ.