Introduzione all inferenza statistica, II lezione

Documenti analoghi
Università degli Studi Roma Tre Anno Accademico 2016/2017 ST410 Statistica 1

Statistica Inferenziale

Il campionamento e l inferenza. Il campionamento e l inferenza

UNIVERSITA DEGLI STUDI DI BRESCIA-FACOLTA DI MEDICINA E CHIRURGIA CORSO DI LAUREA IN INFERMIERISTICA SEDE DI DESENZANO dg STATISTICA MEDICA.

Metodi Matematici Probabilità e Statistica. Correzione Compitino del

Statistica Inferenziale

Variabile casuale E 6 E 5 E 4. R S x1 E 2

Statistica 2. Esercitazioni. Dott. Luigi Augugliaro 1. Università di Palermo

SCHEDA DIDATTICA N 7

Capitolo 6 La distribuzione normale

Statistica Metodologica Avanzato Test 1: Concetti base di inferenza

Variabili casuali. - di Massimo Cristallo -

P ( X n X > ɛ) = 0. ovvero (se come distanza consideriamo quella euclidea)

LA DISTRIBUZIONE NORMALE o DI GAUSS

Capitolo 6. La distribuzione normale

Presentazione dell edizione italiana

Lezione n. 1 (a cura di Irene Tibidò)

5. Distribuzioni. Corso di Simulazione. Anno accademico 2009/10

Disuguaglianza di Cramér-Rao

IL CRITERIO DELLA MASSIMA VEROSIMIGLIANZA

Scheda n.3: densità gaussiana e Beta

Le variabili casuali o aleatorie

3. Distribuzioni. Corso di Simulazione. Anno accademico 2006/07

Ulteriori Conoscenze di Informatica e Statistica

Variabili aleatorie: parte 1. 1 Definizione di variabile aleatoria e misurabilitá

Matematica Applicata L-A Definizioni e teoremi

Statistica ARGOMENTI. Calcolo combinatorio

Calcolo delle Probabilità 2

Campionamento La statistica media campionaria e la sua distribuzione. Paola Giacomello Dip. Scienze Sociali ed Economiche Uniroma1

Statistica Metodologica

PROBABILITA. Distribuzione di probabilità

Distribuzioni campionarie. Antonello Maruotti

Corso di Fondamenti di Telecomunicazioni

Corso di Laurea: Diritto per le Imprese e le istituzioni a.a Statistica. Probabilità. Lezioni : 11, 12. Docente: Alessandra Durio

Variabile casuale Normale

Esercitazione: La distribuzione NORMALE

CALCOLO DELLE PROBABILITÀ - 9 giugno 1998 Scrivere le risposte negli appositi spazi Motivare dettagliatamente le risposte su fogli allegati

PROVE SCRITTE DI MATEMATICA APPLICATA, ANNO 2006/07

Teoria della probabilità Variabili casuali

Alcune v.a. discrete notevoli

Stima puntuale di parametri

Variabili aleatorie continue

Calcolo delle Probabilità e Statistica, Ingegneria Civile e A&T e Informatica I prova finale a.a. 2016/17

Indici di posizione e dispersione per distribuzioni di variabili aleatorie

VIII Indice 2.6 Esperimenti Dicotomici Ripetuti: Binomiale ed Ipergeometrica Processi Stocastici: Bernoul

DISTRIBUZIONI DI PROBABILITA

COPPIE DI VARIABILI ALEATORIE

Statistica Inferenziale

Nozioni preliminari... 1 Notazioni... 1 Alcunirichiamidianalisimatematica... 3 Sommeinfinite... 3

Facoltà di AGRARIA anno accademico 2009/10

Sommario. 2 I grafici Il sistema di coordinate cartesiane Gli istogrammi I diagrammi a torta...51

Leggi 0-1, successioni di v.a. stazionarie in senso stretto ed introduzione alla teoria ergodica

Esercitazioni di Statistica

Variabili casuali multidimensionali

Corso di Laurea in Ingegneria Informatica e Automatica (M-Z) Università di Roma La Sapienza

Matematica e Statistica per Scienze Ambientali

UNIVERSITÀ DEGLI STUDI ROMA TRE Corso di Laurea in Matematica ST410 - Statistica 1 - A.A. 2013/2014. I Esonero - 29 Ottobre Tot.

1 Funzioni reali di una variabile reale

La verifica delle ipotesi

PROBABILITÀ ELEMENTARE

λ è detto intensità e rappresenta il numero di eventi che si

Dispensa di Statistica

Distribuzioni e inferenza statistica

11. Misure con segno.

Capitolo 5 Variabili aleatorie discrete notevoli Insegnamento: Statistica Applicata Corso di Laurea in "Scienze e Tecnologie Alimentari"

tabelle grafici misure di

4. Si supponga che il tempo impiegato da una lettera spedita dall Italia per arrivare a destinazione segua una distribuzione normale con media

SESSIONE SUPPLETIVA QUESTIONARIO QUESITO 1

Statistica. Alfonso Iodice D Enza

Distribuzioni campionarie

Statistica Inferenziale

LA DISTRIBUZIONE NORMALE

Esercitazioni di Statistica Matematica A Lezione 2. Variabili con distribuzione gaussiana

Distribuzione Normale

Distribuzioni di Probabilità

Statistica Inferenziale

Variabili Casuali Continue

Esame di AM2 & EAP (270/04) a.a. 2009/10

SIMULAZIONE - 29 APRILE QUESITI

DISTRIBUZIONI DI PROBABILITA

2.3.1 Generazione di numeri pseudocasuali con distribuzione uniforme

Sistemi di equazioni differenziali

FUNZIONI TRA INSIEMI. Indice

Pulse Amplitude Modulation (PAM) 2 Scelta delle risposte impulsive dei filtri in trasmissione e ricezione

Misure Meccaniche e Termiche. punti massa. Valore atteso: Varianza:

Probabilità classica. Distribuzioni e leggi di probabilità. Probabilità frequentista. Probabilità soggettiva

7.6. Distribuzione Esponenziale. Un n.a. continuo X con densità di probabilità

Funzioni reali di variabile reale

Approssimazione normale alla distribuzione binomiale

Statistica - metodologie per le scienze economiche e sociali /2e S. Borra, A. Di Ciaccio - McGraw Hill

4.1 Variabili casuali discrete e continue, e loro distribuzioni

Probabilita' mediante l'analisi combinatoria D n,k =Disposizioni di n oggetti a k a k (o di classe k)

distribuzione normale

LEZIONI DI STATISTICA MEDICA

8. Completamento di uno spazio di misura.

Capitolo 1. Gli strumenti. 1.1 Relazioni

un elemento scelto a caso dello spazio degli esiti di un fenomeno aleatorio;

LE VARIABILI CASUALI A 1, A 2.,..., A k., p 2.,..., p k. generati da una specifica prova sono necessari ed incompatibili:

STATISTICA: esercizi svolti sulle VARIABILI CASUALI

CORSO DI STATISTICA (parte 2) - ESERCITAZIONE 3

Transcript:

T (X) è sufficiente? (2) Introduzione all inferenza statistica, II lezione Carla Rampichini Dipartimento di Statistica Giuseppe Parenti - Firenze - Italia carla@ds.unifi.it - www.ds.unifi.it/rampi/ TEOREMA Se p(x θ) è la funzione di densità (pdf )odi massa di probabilità (pmf ) congiunta di X e q(t (X θ)) èla pdf o la pmf di T (X), allora T (X) è una statistica sufficiente per θ se, per ogni xɛx, il rapporto p(x θ)/q(t (X θ)) è costante al variare di θ. Alcuni esempi di statistiche sufficienti: distribuzione binomiale: n. di successi T (X) = n i=1 X i distribuzione normale, σ 2 nota: media campionaria T (X) =(1/n) n i=1 X i = x statistiche d ordine: x (1) x (2)... x (n) Dottorato in METODOLOGIA DELLE SCIENZE SOCIALI, settembre 2008 p. 1/25 Dottorato in METODOLOGIA DELLE SCIENZE SOCIALI, settembre 2008 p. 2/25 Come si trova una statistica sufficiente? Il teorema precedente non aiuta! Bisognerebbe: 1. indovinare quale può essere T (X) 2. verificare che il rapporto tra le pdf olepmf non dipende da θ Halmos e Savage (1949) hanno proposto il seguente teorema, che consente di trovare una statistica sufficiente osservando la pdf o la pmf del campione. TEOREMA di FATTORIZZAZIONE Sia f(x θ) la pdf olapmf congiunta di un campione X. Una statistica T (X) è una statistica sufficiente per θ seesoloseesistono le funzioni g(t θ) e h(x) tali che, per ogni punto campionario xɛx e ogni valore di θɛθ vale: Teorema di fattorizzazione Il Teorema di fattorizzazione richiede che la fattorizzazione f(x θ) =g(t (x) θ)h(x) valga per ogni x e ogni θ. Se l insieme di punti campionari x per i quali f(x θ) è positiva dipende da θ: attenzione che il prodotto tra g e h sia nullo dove è nulla f(x θ)!!! Esempio: distribuzione uniforme discreta f(x θ) =g(t (x) θ)h(x) Esempi: distribuzione normale, distribuzione uniforme. Dottorato in METODOLOGIA DELLE SCIENZE SOCIALI, settembre 2008 p. 3/25 Dottorato in METODOLOGIA DELLE SCIENZE SOCIALI, settembre 2008 p. 4/25

Statistiche sufficienti multiple La statistica sufficiente può essere un vettore di funzioni: T (X) =(T 1 (X),T 2 (X),...,T r (X)) Questa situazione si presenta di solito quando anche il parametro è un vettore θ =(θ 1,θ 2,...,θ s ), spesso r = s. Ogni parte della f(x θ) che contiene un elemento di θ va inclusa in g(t (x) θ). Esempio: statistica sufficiente per la distribuzione normale T (X) =(T 1 (X),T 2 (X)) = (X,S 2 ) Ricordare SEMPRE che la definizione di statistica sufficiente dipende dal MODELLO!!! Se si calcola (X,S 2 ) e si ignora il resto dei dati piena fiducia nel modello Gaussiano! Dottorato in METODOLOGIA DELLE SCIENZE SOCIALI, settembre 2008 p. 5/25 Famiglia esponenziale Famiglie di distribuzioni per le quali la pdf o la pmf può assumere la forma: dove: f(x θ) =h(x)c(θ)exp( n j=k w j(θ)t j (x)) h(x) > 0, c(θ) > 0 t j (x) funzioni a valori reali che non dipendono da θ w j (θ) funzioni a valori reali che non dipendono da x Fanno parte della famiglia esponenziale le seguenti famiglie di distribuzioni: continue: normale, gamma, beta discrete: binomiale, poisson, binomiale negativa Le distribuzioni appartenenti alla famiglia esponenziale hanno proprietà statistiche interessanti! Dottorato in METODOLOGIA DELLE SCIENZE SOCIALI, settembre 2008 p. 6/25 Famiglie di locazione e scala Consideriamo tre tipi di famiglie di distribuzione continue che godono di proprietà matematiche e statistiche interessanti: famiglie di locazione famiglie di scala famiglie di locazione e scala Ognuna delle famiglie è costruita specificando un unica pdf f(x), detta distribuzione standard della famiglia, dalla quale è possibile generare tutte le altre distribuzioni appartenenti alla famiglia utilizzando una trasformazione opportuna. TEOREMA Sia f(x) una pdf qualunque, e µ, σ>0due costanti qualunque. Allora la funzione g(x µ, σ) = 1 σ f ( x µ ) σ è una pdf. Famiglie di locazione Definizione Sia f(x) una pdf qualunque. Allora la famiglia di pdf f(x µ), indicizzata dal parametro <µ< è detta famiglia di locazione con pdf standard f(x). µ è detto parametro di locazione della famiglia. L effetto di introdurre il parametro µ è quello di traslare il grafico della distribuzione: P (x 1 <X<x 2 µ =0)=P (x 1 + µ<x<x 2 + µ µ) le distribuzioni normale, di Cauchy e esponenziale doppia con varianza nota sono famiglie di locazione è possibile costruire famiglie di locazione a partire da qualunque pdf f(x), intrducendo un parametro di locazione se X è una v.c. con pdf f(x µ), possiamo rappresentare X come X = Z + µ, dovez è una v.c. con pdf f(x) Dottorato in METODOLOGIA DELLE SCIENZE SOCIALI, settembre 2008 p. 7/25 Dottorato in METODOLOGIA DELLE SCIENZE SOCIALI, settembre 2008 p. 8/25

Famiglie di scala Definizione Sia f(x) una pdf qualunque. Allora per ogni σ>0, la famiglia di pdf (1/σ)f(x/σ), indicizzata dal parametro σ è detta famiglia di scala con pdf standard f(x). σ è detto parametro di scala della famiglia. L effetto di introdurre il parametro σ è quello di allargare (σ > 1) o restringere (σ <1) il grafico di f(x). la distribuzione standard si ottiene ponendo σ =1 Famiglie di locazione e scala Definizione Sia f(x) una pdf qualunque. Allora per ogni <µ< e ogni σ>0, la famiglia di pdf (1/σ)f((x µ)/σ), indicizzata dai parametri (µ, σ) è detta famiglia di locazione-scala con pdf standard f(x). µ è detto parametro di locazione e σ è detto parametro di scala della famiglia. L effetto di introdurre i parametri σ è µ è quello di traslare e di allargare (σ > 1) o restringere (σ < 1) il grafico di f(x). la distribuzione standard si ottiene ponendo µ =0e σ =1 Teorema Sia f(.) una pdf qualunque. Sia µ un numero reale e σ>0. Allora X è una v.c. con pdf (1/σ)f((x µ)/σ) sse esite una v.c. Z con pdf f(z) e X = Zσ + µ. Dottorato in METODOLOGIA DELLE SCIENZE SOCIALI, settembre 2008 p. 9/25 Dottorato in METODOLOGIA DELLE SCIENZE SOCIALI, settembre 2008 p. 10/25 T (X) sufficiente e famiglia esponenziale TEOREMA Siano X 1,X 2,...,X n osservazioni i.i.d. da una pdf o pmf f(x θ) che appartiene alla famiglia esponenziale: f(x θ) =h(x)c(θ)exp( k j=1 w j(θ)t j (x)) con θ =(θ 1,θ 2,...,θ d ), d k. Allora la statistica: T (X) = ( n i=1 t 1(x i ), n i=1 t 2(x i ),..., n i=1 t k(x i ) ) è una statistica sufficiente per θ. Esempi per distribuzione: 1. binomiale: θ = p, 0 <p<1 2. normale: θ =(µ, σ), <µ<, 0 <σ< Statistica sufficiente minimale Per ogni problema di riduzione dei dati possiamo trovare più di una statistica sufficiente! Il campione completo X è SEMPRE una statistica sufficiente! Ogni funzione biunivoca r di una statistica sufficiente T (X) è ancora una statistica sufficiente: T (X) = r(t (X)). Qual è la statistica sufficiente migliore? Quella che sintetizza maggiormente i dati, conservando tutta l informazione su θ contenuta nel campione!! DEFINIZIONE Una statistica sufficiente T (X) è detta MINIMALE se, per ogni altra statistica sufficiente T (X), T (X) è funzione di T (X). Dottorato in METODOLOGIA DELLE SCIENZE SOCIALI, settembre 2008 p. 11/25 Dottorato in METODOLOGIA DELLE SCIENZE SOCIALI, settembre 2008 p. 12/25

Statistica sufficiente minimale (2) In base alla definizione data T (X) è sufficiente minimale se, per ogni altra statistica sufficiente T (X): T (X) =T (Y) T (X) =T (Y). in altri termini, se {B t : t ɛt } sono gli insiemi della partizione di X generata da T (X) e {A t : tɛt }sono gli insiemi della partizione di X generata da T (X), ogni B t è un sottoinsieme di qualche A t. La definizione di statistica sufficiente minimale non è pratica!!! Bisogna infatti: 1. indovinare che T (X) è sufficiente minimale 2. verificare la condizione data nella definizione Statistica sufficiente minimale (3) Il seguente TEOREMA di Lehmann e Scheffé (1950) fornisce un modo più pratico per trovare la statistica sufficiente minimale: TEOREMA Sia f(x θ) la pmf olapdf di un campione X. Supponiamo che esista una funzione T (X) tale che per ogni coppia di punti campionari x e y il rapporto f(x θ) f(y θ) sia costante rispetto a θ sse T (x) =T (y), allora T (X) è una statistica sufficiente minimale. Esempio: distribuzione normale (X,S 2 ). La statistica sufficiente minimale non è unica! Qualunque funzione biunivoca di una statistica sufficiente minimale è ancora sufficiente minimale!!! Esempio: distribuzione normale ( n i=1 X i, n i=1 X2 i ). Dottorato in METODOLOGIA DELLE SCIENZE SOCIALI, settembre 2008 p. 13/25 Dottorato in METODOLOGIA DELLE SCIENZE SOCIALI, settembre 2008 p. 14/25 Statistica ancillare Definizione Una statistica S(X) la cui distribuzione non dipende da θ è detta statistica ancillare. Una statistica ancillare, da sola, non contiene alcuna informazione su θ, può contenere informazione su θ se utilizzata insieme ad altre statistiche. Esempi: La statistica R = X (n) X (1) è una statistica ancillare per una famiglia di locazione con cdf F (x θ), <θ<. Ogni statistica che dipende dagli n 1 valori campionati X 1 /X n,...,x n 1 /X n è una statistica ancillare per una famiglia di scala con cdf F (x/σ), σ>0. Sufficienza, ancillarità e statistiche complete Definizione: Siaf(X θ) la pmf olapdf di un campione X e T (X) uno stimatore sufficiente per θ. T (X) è uno stimatore completo se, per qualsiasi funzione q(t (X)) tale che E[q(T (X))] = 0, θ vale q(t (X)) = 0, cioè uno stimatore è completo se l unica funzione di T (X) il cui valor medio è zero è la funzione identicamente nulla. La completezza è una proprietà di una famiglia di distribuzioni Per famiglie complete alcune procedure inferenziali sono uniche Il legame tra completezza, ancillarità e sufficienza è dato dal Teorema di Basu (1955) Dottorato in METODOLOGIA DELLE SCIENZE SOCIALI, settembre 2008 p. 15/25 Dottorato in METODOLOGIA DELLE SCIENZE SOCIALI, settembre 2008 p. 16/25

Teorema di Basu Teorema di Basu: Se T (X) è una statistica sufficiente completa ed è sufficiente minimale per θ, allora T (X) è indipendente da ogni statistica ancillare. Il teorema di Basu è utile perchè consente di dedurre l indipendenza tra due statistiche senza bisogno di ricavarne la distribuzione congiunta Vale inoltre la seguente importante proprietà delle statistiche complete: Teorema: Uno stimatore sufficiente completo è sempre minimale. Utilizzo del teorema di Basu per utilizzare il teorema di Basu è necessario provare la completezza della statitsica, il che non è facile per fortuna molti dei problemi che si incontrano soddisfano li seguente Teorema: Siano X 1,...,X n v.c. da una famiglia esponenziale con pdf o pmf della forma k f(x θ) =h(x)c(θ)exp w j (θ)t j (x) j=1 con θ =(θ 1,...,θ k ), allora la statitsica: T (X) =( n i=1 t 1(X i ),..., n i=1 t k(x i )) è completa se {(w 1 (θ),...,w k (θ)) : θ Θ} contiene un insieme aperto di R k. Dottorato in METODOLOGIA DELLE SCIENZE SOCIALI, settembre 2008 p. 17/25 Dottorato in METODOLOGIA DELLE SCIENZE SOCIALI, settembre 2008 p. 18/25