Disuguaglianza di Cramér-Rao (Appunti per gli studenti Silvano Holzer Dipartimento di Scienze Economiche, Aziendali, Matematiche e Statistiche Bruno de Finetti Università degli studi di Trieste Un esperimento statistico dominato (, ℵ, µ, (f Θ si chiama regolare se verifica le seguenti proprietà di regolarità 1 : P1 Θ è un intervallo (limitato o no della retta reale; P2 0 < f (x < + per ogni campione x e per ogni stato ; P3 Per ogni campione x esiste finita la derivata parziale f (x; P4 f (xµ(dx 0 per ogni stato 2. Esempio 0.1 I primi due esempi assicurano che il campionamento bernoulliano e quello normale con media incognita sono esperimenti statistici regolari; l ultimo, invece, fornisce un esempio di esperimento statistico non regolare. (i Posto Θ ]0, 1[, sia l osservabile costituito dalle v.a. 1,..., n indipendenti e distribuite secondo la distribuzione di Bernoulli Ber( in corrispondenza ad ogni. Allora, {0, 1} n, µ γ e f (x n x (1 n(1 x (1 per ogni x. Posto α n x e β n(1 x n α, otteniamo f (x n α 1 (1 β 1 ( x 1 Per quanto concerne i risultati e le nozioni preliminari, faremo sempre riferimento al testo: S. Holzer, Elementi di teoria delle decisioni statistiche, EUT (2007. 2 Condizione verificata se è possibile, qualunque sia x, derivare sotto il segno d integrale; risulta infatti 0 d d f dµ f dµ, osservato che f dµ 1 per ogni. 1
e quindi f (xµ(dx n 1 (1 1 ( x α (1 β γ (dx n 1 (1 1 E ( 0, ricordato che la media campionaria è uno stimatore non distorto. (ii Posto Θ R, sia l osservabile costituito dalle v.a. 1,..., n indipendenti e distribuite secondo la normale N(, σ 2 in corrispondenza ad ogni. Allora, R n, µ λ n e, per la formula (B.10 dell Esempio B.2.18(ii, n f (x (2πσ 2 n 2 exp [ (x i x 2 ] n( x ] 2 2σ 2 exp [ 2σ 2 (2 per ogni x. Posto otteniamo e quindi f (xµ(dx n σ 2 n K (2πσ 2 n 2 exp [ (x i x 2 ] 2σ 2 f (x n [ σ 2 ( x K exp n( x ] 2 2σ 2 R n ( x K exp n( x ] 2 [ 2σ 2 λ n (dx n σ 2 E ( 0, ricordato che la media campionaria è uno stimatore non distorto. (iii Posto Θ ]0, + [, sia l osservabile una v.a. distribuita uniformemente nell intervallo chiuso [0, ] in corrispondenza ad ogni. Allora, [0, + [, µ λ [0,+ [ e f 1 I [0,] per ogni. Conseguentemente, la proprietà P2 non è verificata. 1 Informazione di Fisher In questa sezione assumiamo che siano verificate la proprietà P2 e P3. Possiamo allora considerare su Θ la funzione - chiamata informazione di Fisher - così definita: [ ( ] 2 ( 2 I( E (x f (xµ(dx. Esempio 1.1 (i Con riferimento all Esempio 0.1(i, dalla (1 con n 1 otteniamo e quindi I( 1 2 (1 2 (x x 1 x 1 x (1 (x 2 f (x γ (dx 2 1 2 (1 2 Var 1 ( (1,
osservato che Var ( (1. (ii Con riferimento all Esempio 0.1(ii, dalla (2 con n 1 otteniamo e quindi I( 1 σ 4 osservato che Var ( σ 2. R (x x σ 2 (x 2 f (xdx 1 σ 4 Var ( 1 σ 2, Con riferimento agli esperimenti statistici regolari, il prossimo lemma assicura che, in ogni stato, l informazione di Fisher coincide con la varianza della v.a. definita sullo spazio campionario. Lemma 1.2 Sussista P4. Allora, E ( 0, qualunque sia. Dimostrazione Risulta 0 f (xµ(dx qualunque sia. ( [ ] (x f (xµ(dx E Passando al caso multidimensionale, introduciamo la nozione di esperimento statistico prodotto tramite il cosiddetto schema delle prove ripetute che formalizza, dal punto di vista intuitivo, la situazione dell esecuzione (simultanea o in un certo ordine di un numero finito di prove i cui risultati (relativi ad alcune di queste e considerati sia singolarmente che nel loro complesso DM ritiene non siano in grado di alterare le sue opinioni sui risultati delle rimanenti prove. Definizione 1.3 Dati gli esperimenti statistici ( i, ℵ i, µ i, (f (i Θ (i 1,..., n, si chiama esperimento statistico prodotto l esperimento statistico (n 1 n, ℵ (n ℵ 1 ℵ n, µ (n µ 1 µ n e f (n (x f (1 (x 1 f (n (x n per ogni x (x 1,..., x n e per ogni. Il teorema seguente, al quale premettiamo un lemma, assicura che l informazione di Fisher dell esperimento prodotto è la somma delle informazioni di Fisher dei suoi fattori. 3
Lemma 1.4 Dati gli spazi di misura (Ω i, A i, m ı, con m i σ-finita, sia Ω (n Ω 1 Ω n, A (n A 1 A n e m (n m 1 m n. Allora, se la funzione A i -Borel misurabile f i : Ω i R è non negativa (i 1,..., n o m i -integrabile (i 1,..., n, risulta Ω (n n f i (ω i m (n (dω 1 dω n n Ω i f i (ω i m i (dω i. Dimostrazione Poichè per n 1 la tesi è banale, procediamo per induzione assumendo che sussista per n e proviamola per k n + 1. Allora, posto f(ω 1,..., ω k f 1 (ω 1 f k (ω k, dal Lemma A.5.1(iii (via dimostrazione per induzione e il Teorema A.2.5(iii otteniamo che f è A (k -Borel misurabile e quindi, per il Teorema A.2.3(ii, anche f. Inoltre, f è m (k -sommabile, se f i 0 (i 1,..., n, ed è m (k -integrabile, se f i è m i -integrabile (i 1,..., n. Infatti, nel secondo caso, dal Teorema A.5.6 si ha ( ( ( f dm (k f (ω 1,..., ω k m k (dω k m n (dω n m 1 (dω 1 Ω (k Ω 1 Ω n Ω k ( ( ( n f i (ω i f k (ω k m k (dω k m n (dω n m 1 (dω 1 Ω 1 Ω n Ω k ( ( ( n f i (ω i m n (dω n m 1 (dω 1 f k (ω k m k (dω k Ω 1 Ω n Ω k ( n f i (ω i m (n (dω 1 dω n f k (ω k m k (dω k Ω k Ω (n da cui, per l ipotesi induttiva (applicata alle f i (i 1,..., n, risulta Ω (k f dm (k n Ω i f i (ω i m i (dω i. Ne segue, per il Teorema A.3.5(ii, che f è m (k -integrabile e quindi, per il medesimo teorema, lo è anche f. Possiamo quindi applicare, in ogni caso, il Teorema A.5.6 ottenendo (sostituendo nella precedente catena di uguaglianze f, f i con f, f i (i 1,... k la tesi. Teorema 1.5 Dati gli esperimenti statistici regolari ( h, ℵ h, µ h, (f (h Θ con informazione di Fisher I h finita (h 1,..., n, sia I (n quella dell esperimento prodotto. Risulta allora, I (n I 1 + + I n. 4
Dimostrazione L esperimento statistico prodotto verifica banalmente le proprietà P2, P3 per cui ha senso considerare la relativa informazione di Fisher. Dato, risulta ( I (n (n 2 (n ( n f dµ (n ( n 2 (i (x n i f (h (x h µ (n (dx n n n n 1 + 2 j>i h1 [ ( (i 2 i (x fi (x i n [( k {i,j} ] h i (k (x k da cui, tramite il Lemma 1.4, otteniamo I (n ( n i n 1 ( ( + 2 j>i (i i ( 2 (i f dµ i (i n n 1 ( I h ( + 2 E h1 j>i f (h (x h µ (n (dx ] (x k f (k ( ( f (i dµ i j ( (i E h i,j f (h (x h µ (n (dx (j f (j dµ j (j. Ricordato che gli esperimenti sono regolari, ne segue, tramite il Lemma 1.2, la tesi. 2 Disuguaglianza di Cramér-Rao Nel prossimo teorema si considera una celebre disuguaglianza che fornisce, nel caso della stima puntuale per parametri reali con errore quadratico, una limitazione inferiore per la funzione di rischio MSE δ ( Var (δ + Bias (δ 2 dello stimatore δ che, qualora sia non distorto, dipendente solamente dall informazione di Fisher. Inoltre, il teorema mette in evidenza che l appartenenza delle densità di campionamento alla classe esponenziale è con- 5
dizione necessaria affinchè la disuguaglianza in oggetto sia un uguaglianza 3. Teorema 2.1 Dato un esperimento statistico regolare con informazione di Fisher I( > 0 e finita per ogni, sia T : R una v.a. con speranza matematica E (T finita per ogni e tale che la funzione E (T sia derivabile e risulti: ( d E (T ( T (x ( f (x( µ(dx 4 (3 d per ogni. Riesce allora Var (T [( d d E (T ( ] 2 I( (disuguaglianza di Cramér-Rao qualunque sia. Inoltre, se 0 < Var (T < + per ogni e le funzioni I(, Var (T sono continue (in e sussiste l uguaglianza Var (T [( d d E (T ( ] 2 I( (uguaglianza di Cramér-Rao per ogni, allora esiste una versione delle densità di campionamento appartenente alla famiglia esponenziale. Dimostrazione (i Dato, sia Y (x ( (x( per ogni x. Allora, per il Lemma 1.2, E (Y 0 e, per (3, E (Y T ( d E d (T (. Quindi, Cov (Y T ( d E d (T ( e, per il Teorema B.1.8(i, Var (Y I(. Conseguentemente, dalla disuguaglianza di Cauchy-Schwarz (Teorema B.1.9(iii otteniamo [ 2 ( d E (T ( ] d Cov (Y T 2 Var (Y Var (T Var (T I( 3 Ricordiamo che una densità di campionamento g appartiene alla famiglia esponenziale se è della forma: [ n ] g (x c( h(x exp π i (t i (x. Ad esempio, appartengono a questa famiglia le densità delle distribuzioni continue Gamma, Chi-quadrato, Beta, Normale di media nulla (con riferimento alla misura di Lebesgue e le funzioni di probabilità delle distribuzioni discrete Bernoulliana, Binomiale, Poissoniana e binomiale negativa (con riferimento alla misura di conteggio. 4 Condizioni sufficienti che assicurano la derivabilità sotto il segno d integrale sono fornite dal Teorema A.3.13. 6
e quindi la disuguaglianza di Cramér-Rao. Passando alla seconda parte della tesi, sia [ ( d d E (T ( ] 2 Var (T I( (4 per ogni. Posto ne segue, ricordato che E (Y 0, c( I( Var (T E [ (c( (T E (T Y 2 ] c( 2 E [(T E (T 2 ] + E (Y 2 2c( E [(T E (T Y ] I( Var (T Var (T + Var (Y 2c( [E (T Y E (T E (Y ] I( + I( 2c( ( d d E (T ( da cui, per (4, otteniamo E [ (c( (T E (T Y 2 ] 2I( 2 I( Var (T I( Var (T 2I( 2I( 0. Conseguentemente, per il Teorema A.3.6(v, c( (T E (T Y 0 (µq.o. e quindi esiste 0 tale che µ( c 0 0 e ( (x( c( (T (x E (T per ogni x 0. Sia ora x 0. Data l arbitrarietà di e ricordata la proprietà P1, dal Teorema di Torricelli risulta allora, qualunque sia lo stato, (x T (x 0 c(t dt + 0 c(t E t (T dt + C(x, ove 0 è uno stato arbitrario. Posto β( 0 c(t dt e A( 0 c(t E t (T dt, si ha f (x exp[t (xβ(] exp A( exp C(x 7
e quindi, posto α( exp A(, si ottiene f (x α( exp C(x exp[β(t (x] per ogni. Considerata infine la funzione { exp C(x se x 0 γ(x, 0 se x 0 otteniamo che la funzione g (x α( γ(x exp[β(t (x] è una versione della densità di campionamento f, essendo µ( c 0 0. La dimostrazione è così conclusa. Osservazione 2.2 Uno stimatore non distorto δ che verifica l uguaglianza di Cramér-Rao, cioè tale che Var (δ 1 I( per ogni, viene detto stimatore non distorto con varianza uniformemente minima (o brevemente stimatore UMVUE dall inglese Uniformly Minimun Variance Unbiased Estimator. È uno stimatore di questo tipo la media campionaria nei campionamenti bernoulliano e normale con media incognita (considerati nell Esempio 1.1. Basta infatti notare che, per il Teorema 1.5, nei due campionamenti si ha, rispettivamente, Var ( (1 I( 1 e Var n ( σ2 n I( 1. È anche interessante osservare che, nei campionamenti considerati, l informazione di Fisher e la media campionaria (per il Teorema A.3.13 verificano le ipotesi del Teorema 2.1. 8