Modelli lineari generalizzati

Documenti analoghi
Modelli lineari generalizzati

MODELLO DI REGRESSIONE LINEARE. le ipotesi del modello di regressione classico, stima con i metodi dei minimi quadrati e di massima verosimiglianza,

Statistica Applicata all edilizia: il modello di regressione

0 altimenti 1 soggetto trova lavoroentro 6 mesi}

Analisi delle corrispondenze

Statistica Metodologica Avanzato Test 1: Concetti base di inferenza

Analisi della correlazione canonica

Elementi di statistica per l econometria

lezione n. 6 (a cura di Gaia Montanucci) Verosimiglianza: L = = =. Parte dipendente da β 0 e β 1

Variabili casuali multidimensionali

Analisi della correlazione canonica

Dispensa di Statistica

Il modello di regressione lineare multipla. Il modello di regressione lineare multipla

UNIVERSITÀ DEGLI STUDI DI PERUGIA

VIII Indice 2.6 Esperimenti Dicotomici Ripetuti: Binomiale ed Ipergeometrica Processi Stocastici: Bernoul

(a) Determinare lo stimatore di massima verosimiglianza θ di θ. (b) Calcolare la funzione di score e l informazione di Fisher.

Stima puntuale di parametri

STATISTICA (2) ESERCITAZIONE Dott.ssa Antonella Costanzo

Capitolo 8. Intervalli di confidenza. Statistica. Levine, Krehbiel, Berenson. Casa editrice: Pearson. Insegnamento: Statistica

Statistica ARGOMENTI. Calcolo combinatorio

La multicollinearità sorge quando c è un elevata correlazione tra due o più variabili esplicative.

Analisi delle corrispondenze

PROBABILITÀ ELEMENTARE

Capitolo 6. La distribuzione normale

Statistica Metodologica

Capitolo 6 La distribuzione normale

Metodi computazionali per i Minimi Quadrati

TEORIA DEI SISTEMI ANALISI DEI SISTEMI LTI

Appunti su Indipendenza Lineare di Vettori

STATISTICA: esercizi svolti sulle VARIABILI CASUALI

Calcolo delle Probabilità 2

Università della Calabria

Esercitazione 8 maggio 2014

STATISTICA ESERCITAZIONE

Metodi statistici per l economia (Prof. Capitanio) Slide n. 10. Materiale di supporto per le lezioni. Non sostituisce il libro di testo

Variabili indipendenti qualitative. In molte applicazioni si rende necessario l introduzione di un fattore a due o più livelli.

Esercitazione del

Politecnico di Milano - Scuola di Ingegneria Industriale. II Prova in Itinere di Statistica per Ingegneria Energetica 25 luglio 2011

Statistica Esercitazione. alessandro polli facoltà di scienze politiche, sociologia, comunicazione

Sviluppi e derivate delle funzioni elementari

Esercitazioni di Statistica

Test per l omogeneità delle varianze

4. Si supponga che il tempo impiegato da una lettera spedita dall Italia per arrivare a destinazione segua una distribuzione normale con media

IL CRITERIO DELLA MASSIMA VEROSIMIGLIANZA

Il campionamento e l inferenza. Il campionamento e l inferenza

Esercizi svolti di statistica. Gianpaolo Gabutti

PROVE SCRITTE DI MATEMATICA APPLICATA, ANNO 2006/07

Capitolo 5 Variabili aleatorie discrete notevoli Insegnamento: Statistica Applicata Corso di Laurea in "Scienze e Tecnologie Alimentari"

Laboratorio di Didattica di elaborazione dati 5 STIMA PUNTUALE DEI PARAMETRI. x i. SE = n.

05. Errore campionario e numerosità campionaria

Statistica. Alfonso Iodice D Enza

REGRESSIONE E CORRELAZIONE

Statistical Process Control

Intervallo di confidenza

Prefazione Ringraziamenti dell'editore Il sito web dedicato al libro Test online: la piattaforma McGraw-Hill Education Guida alla lettura

LE DISTRIBUZIONI CAMPIONARIE

ẋ 1 = 2x 1 + (sen 2 (x 1 ) + 1)x 2 + 2u (1) y = x 1

Corso di Calcolo Numerico

Distribuzioni campionarie

Esame di Statistica (10 o 12 CFU) CLEF 11 febbraio 2016

SOLUZIONI ESERCITAZIONE NR. 8 Test statistici

Probabilità classica. Distribuzioni e leggi di probabilità. Probabilità frequentista. Probabilità soggettiva

ESERCIZI EPOS. { C x 3 (1 x) 0 x 1 0 altrove

Statistica Descrittiva Soluzioni 6. Indici di variabilità, asimmetria e curtosi

Matematica Applicata L-A Definizioni e teoremi

Problema. Equazioni non lineari. Metodo grafico. Teorema. Cercare la soluzione di

Premessa: la dipendenza in media

STATISTICA esercizi svolti su: INTERPOLAZIONE PONDERATA, REGRESSIONE E CORRELAZIONE

Richiami di algebra delle matrici a valori reali

Funzioni implicite - Esercizi svolti

I teoremi della funzione inversa e della funzione implicita

MODELLO DI REGRESSIONE LINEARE. le ipotesi del modello di regressione classico, stima con i metodi dei minimi quadrati e di massima verosimiglianza,

Statistica. Alfonso Iodice D Enza

INTERPOLAZIONE. Introduzione

Analisi della varianza: I contrasti e il metodo di Bonferroni

Variabili casuali. - di Massimo Cristallo -

CORSO DI STATISTICA (parte 2) - ESERCITAZIONE 4

3.1 Classificazione dei fenomeni statistici Questionari e scale di modalità Classificazione delle scale di modalità 17

LEZIONE 12. v = α 1 v α n v n =

DISTRIBUZIONI DI PROBABILITA

Il modello di regressione lineare multipla con regressori stocastici

Massimi e minimi vincolati

UNIVERSITÀ DEGLI STUDI DI NAPOLI FEDERICO II DIPARTIMENTO DI INGEGNERIA AEROSPAZIALE D.I.A.S. STATISTICA PER L INNOVAZIONE. a.a.

Note sulla probabilità

Regressione Lineare e Regressione Logistica

CONTROLLO DI SISTEMI ROBOTICI Laurea Specialistica in Ingegneria Meccatronica

Distribuzioni e inferenza statistica

Corso di Statistica Industriale

Transcript:

Capitolo 5 Modelli lineari generalizzati I modelli lineari generalizzati costituiscono un estensione del modello lineare generale e servono anch essi allo studio della dipendenza in media di una variabile risposta da una o più variabili antecedenti. Nei modelli lineari generalizzati vengono attenuate alcune ipotesi fondamentali nel modello lineare generale, ovvero la linearità del modello di dipendenza, la normalità e l omoschedasticità delle osservazioni. Il modello distributivo assunto per le osservazioni della variabile conseguente costituisce un estensione di quello gaussiano. 5.1 Famiglia esponenziale di distribuzioni Sia Y una variabile aleatoria discreta o continua la cui distribuzione dipenda dal parametro unidimensionale θ. La distribuzione è detta appartenere alla famiglia esponenziale di distribuzioni se è esprimibile nella forma f(y, θ) s(y)t(θ) exp[a(y)b(θ)] (5.1) con s, t, a e b funzioni note. La forma appena vista può alternativamente esprimersi nel modo seguente con s(y) exp[d(y)] e t(θ) exp[c(θ)]. Osservazioni f(y, θ) exp[a(y)b(θ) + c(θ) + d(y)] (5.2) (i) quando a(y) y la famiglia esponenziale è detta espressa in forma canonica; 79

80 A. Pollice - Statistica Multivariata (ii) φ b(θ) è detto parametro naturale; (iii) se la distribuzione contiene altri parametri oltre a θ questi vengono detti parametri di disturbo; (iv) appartengono alla famiglia esponenziale le distribuzioni di Poisson, Binomiale, Normale, Gamma e altre. 5.1.1 Funzione score e informazione attesa di Fisher Definizione 5.1 Si definisce funzione score la seguente funzione di y e θ d log f(y, θ) u dθ Proprietà 5.2 La funzione score ha valore atteso nullo. (5.3) d log f(y, θ) E(u) f(y, θ)dy dθ 1 df(y, θ) f(y, θ)dy f(y, θ) dθ d f(y, θ)dy d dθ dθ 1 0 (5.4) La (5.4) vale se posso scambiare il segno di integrazione con quello di derivazione, e cioè sotto le condizioni di regolarità proprie del teorema di Fubini. Proprietà 5.3 Se u du/dθ, allora Var(u) E(u 2 ) E( u ) e la funzione E( u ) è denominata informazione attesa di Fisher. Infatti sotto le stesse condizioni vale: 0 d dθ E(u) d d log f(y, θ) f(y, θ)dy dθ dθ d 2 log f(y, θ) d log f(y, θ) df(y, θ) dθ 2 f(y, θ)dy + dy dθ dθ d 2 log f(y, θ) d log f(y, θ) d log f(y, θ) dθ 2 f(y, θ)dy + f(y, θ)dy dθ dθ E(u ) + E(u 2 ) (5.5) Si supponga ora di disporre di un campione di n osservazioni indipendenti e che ciascuna osservazione y i provenga da una distribuzione f(y i, θ i ) caratterizzata dal parametro θ i variabile per i 1,..., n. Siano y (y 1,..., y n ), θ (θ 1,..., θ n ) ed L(θ, y) n i1 f(y i, θ i ) la verosimiglianza.

Cap. 5: Modelli lineari generalizzati 81 Definizione 5.4 Si definisce total score il vettore U (U 1,..., U n ) con U i log L(θ, y) θ i i 1,..., n (5.6) Con procedimento analogo a quello utilizzato nella (5.4) si può dimostrare che E(U i ) 0. Inoltre l elemento generico della matrice di varianze e covarianze di U detta matrice di informazione attesa di Fisher, data da I E(UU ), è ottenuto come nella (5.5) ed è dato da [ ] I ij E(U i U j ) E 2 log L(θ, y) (5.7) θ i θ j 5.1.2 Famiglia esponenziale in forma canonica Si consideri ora la famiglia esponenziale in forma canonica f(y, θ) s(y)t(θ) exp[yb(θ)] exp[yb(θ) + c(θ) + d(y)] (5.8) In tal caso la funzione score è data da u d log f(y, θ) dθ quindi dalla Proprietà 5.2 si ricava E(Y ) c (θ) b (θ) ed inoltre poiché Var(u) [b (θ)] 2 Var(Y ) Si osservi che Var(u) E( u ) e che, poiché vale yb (θ) + c (θ) (5.9) (5.10) Var(Y ) Var(u) [b (θ)] 2 (5.11) E( u ) E[ Y b (θ) c (θ)] E(Y )b (θ) c (θ) c (θ) b (θ) b (θ) c (θ) (5.12) si ha che la varianza della variabile aleatoria Y con distribuzione appartenente alla famiglia esponenziale in forma canonica è data da Var(Y ) b (θ)c (θ) c (θ)b (θ) [b (θ)] 3 (5.13)

82 A. Pollice - Statistica Multivariata 5.2 Modelli lineari generalizzati L unitarietà di diverse di metodologie statistiche facenti riferimento a combinazioni lineari di parametri fu dimostrata da Nelder e Wedderburn (1972) partendo dall idea di un modello lineare generalizzato. La teoria dei modelli lineari generalizzati è stata in seguito codificata nel libro che costituisce il riferimento essenziale sull argomento, ad opera di Mc Cullagh e Nelder (1989). Siano Y 1,..., Y n variabili aleatorie indipendenti aventi la stessa distribuzione f(y i, θ i ) per i 1,..., n appartenente alla famiglia esponenziale ed in forma canonica f(y i, θ i ) exp[y i b(θ i ) + c(θ i ) + d(y i )] i 1,..., n (5.14) Si noti come con tale modello distributivo ciascuna osservazione possa essere associata ad un proprio parametro θ i. Tali parametri, qualora effettivamente diversi tra loro, non risultano particolarmente interessanti a fini investigativi poiché non forniscono alcuna sintesi della distribuzione delle osservazioni, ma servono a caratterizzarla in modo flessibile. Si considerino inoltre un vettore di p < n parametri β (β 1,..., β p ) e una funzione g che metta in relazione una combinazione lineare degli elementi di β con il valore atteso E(Y i ) µ i dell i-esima osservazione g(µ i ) X iβ η i i 1,..., n (5.15) in quanto precede g è una funzione monotona e differenziabile detta funzione link, X i è un vettore di p osservazioni di altrettante covariate o di indicatori di livello di fattori, β è il vettore dei parametri, mentre η i prende il nome di predittore lineare. In quanto segue vengono illustrate alcune forme distributive appartenenti alla famiglia esponenziale insieme alle funzioni link piu usate nei diversi casi. (i) Siano Y i,..., Y n variabili dicotomiche aventi distribuzione bernoulliana: { θi y f(y i, θ i ) i 1 i 1,..., n (5.16) 1 θ i y i 0 ovvero per y i 0, 1 e i 1,..., n f(y i, θ i ) θ y i i (1 θ i) 1 y i exp [ y i log ] θ i + log(1 θ i ) 1 θ i (5.17) pertanto la distribuzione bernoulliana appartiene alla famiglia esponenziale in forma canonica e φ i log[θ i /(1 θ i )] è il parametro naturale. Inoltre dalla (5.10) si ottiene µ i E(Y i ) θ i. Se per i dati

Cap. 5: Modelli lineari generalizzati 83 a disposizione si ipotizza una distribuzione bernoulliana una possibile forma di link è la cosiddetta funzione logit ( ) θi g(µ i ) g(θ i ) log (5.18) 1 θ i che dà luogo al modello di dipendenza per variabili binarie noto come modello logit o di regressione logistica µ i exp(x i β) exp(x i β) + 1 i 1,..., n (5.19) Indicando invece con Φ la funzione di ripartizione della normale standardizzata si definisce funzione probit la seguente funzione link g(µ i ) g(θ i ) Φ 1 (θ i ) (5.20) ed il conseguente modello di dipendenza per dati dicotomici è dato da µ i Φ(X iβ) i 1,..., n (5.21) Si può infine considerare la funzione link doppio logaritmica ed il modello g(µ i ) g(θ i ) log[ log(1 θ i )] (5.22) µ i 1 exp[ exp(x iβ)] i 1,..., n (5.23) (ii) Siano Y 1,..., Y n variabili continue aventi distribuzione normale [ 1 f(y i, θ i ) (2πσ 2 exp 1 ] ) 1/2 2σ 2 (y i θ i ) 2 [ exp y2 i 2σ 2 + y iθ i σ 2 θ2 i 2σ 2 1 ] 2 log(2πσ2 ) (5.24) nell espressione precedente siano θ i per i 1,..., n i parametri di interesse mentre σ sia un parametro di disturbo. Anche questa distribuzione ha dunque la forma canonica della famiglia esponenziale con parametro naturale φ i θ i /σ 2. E noto come anche in questo caso sia µ i E(Y i ) θ i. Se come funzione link si considera la funzione identità g(µ i ) g(θ i ) θ i (5.25) si ottiene come modello di dipendenza il modello lineare generale µ i X iβ i 1,..., n (5.26)

84 A. Pollice - Statistica Multivariata (iii) Si assuma ora che Y i abbia distribuzione di Poisson per i 1,..., n f(y i, θ i ) θy i i e θ i y i! exp[y i log θ i θ i log y i!] (5.27) dove φ i log θ i è il parametro naturale, mentre µ i E(Y i ) θ i. Una possibile funzione link è quella logaritmica g(µ i ) g(θ i ) log θ i (5.28) il modello che ne deriva detto regressione di Poisson è dato da µ i exp(x iβ) i 1,..., n (5.29) (iv) Nei casi precedenti in cui l espressione del link coincide con la funzione di θ che definisce il parametro naturale si parla di funzione link canonica. L uso delle funzioni link canoniche facilita molto le inferenze sui parametri dei modelli lineari generalizzati le cui stime godono in tal caso di importanti proprietà legate alle statistiche sufficienti. Per quanto appena detto se la distribuzione assunta alla base del modello è bernoulliana, normale o di Poisson le rispettive funzioni link canoniche sono la funzione logit, l identità e la funzione logaritmica. (v) In generale se la distribuzione delle Y i è continua si può utilizzare come link la funzione potenza g(µ i ) { µ α i α 0 log µ i α 0 (5.30) che, per α prefissato dà luogo al modello { µ α i X i β α 0 log µ i X i β α 0 i 1,..., n (5.31) 5.3 Stima dei parametri Nel caso della famiglia esponenziale in forma canonica la log-verosimiglianza di y (y 1,..., y n ) è data da l(θ, y) y i b(θ i ) + c(θ i ) + d(y i ) (5.32) i1 i1 i1

Cap. 5: Modelli lineari generalizzati 85 Ponendo l i y i b(θ i ) + c(θ i ) + d(y i ) per i 1,..., n, il j-esimo elemento della funzione total score rispetto a β j risulta definito da U(β j ) l(θ, y) β j i1 l i β j j 1,..., p (5.33) Si noti che l i-esimo addendo della (5.33) è fattorizzabile nel modo seguente Il primo fattore può essere calcolato direttamente l i β j l i θ i θ i β j (5.34) l i θ i y i b (θ i ) + c (θ i ) y i b (θ i ) b (θ i )µ i b (θ i )(y i µ i ) (5.35) L inverso del secondo fattore è dato da ( ) c (θ i ) θ i θ i b c (θ i )b (θ i ) c (θ i )b (θ i ) (θ i ) [b (θ i )] 2 b (θ i )var(y i ) (5.36) Il terzo fattore risulta β j η i η i β j η i X ij (5.37) Di conseguenza la (5.33) prende complessivamente la forma seguente U(β j ) i1 (y i µ i )X ij var(y i ) η i (5.38) La famiglia esponenziale di distribuzioni gode di numerose proprietà di regolarità che garantiscono che il massimo assoluto della funzione di verosimiglianza L(θ, y) sia dato dalla soluzione di dl(θ, y)/d(θ) 0 (in altri termini è superfluo il calcolo della derivata seconda), ovvero di U(β j ) l(θ, y)/ β j 0 per j 1,..., p. Quindi per determinare gli stimatori di massima verosimiglianza di β j bisogna risolvere rispetto a β j il sistema di p equazioni non lineari U(β j ) i1 (y i µ i )X ij var(y i ) η i 0 j 1,..., p (5.39)

86 A. Pollice - Statistica Multivariata 5.3.1 Metodo di Newton Raphson Il metodo iterativo di Newton Raphson consiste in generale nel considerare come m-esima approssimazione della soluzione dell equazione non lineare h(x) 0 l espressione x (m) x (m 1) h[x(m 1) ] h [x (m 1) ] (5.40) Nel caso della (5.39), detta U 1 ( ˆβ (m 1) ) la matrice delle derivate seconde, di generico elemento (j, k)-esimo 2 l(y, θ)/ β j β k β ˆβ(m 1) per j, k 1,..., p, la m-esima approssimazione della soluzione del sistema derivante dall applicazione del metodo della massima verosimiglianza è data da ˆβ (m) ˆβ (m 1) [U 1 ( ˆβ (m 1) )] 1 U( ˆβ (m 1) ) (5.41) 5.3.2 Metodo di scoring Un metodo iterativo alternativo per risolvere le equazioni di verosimiglianza si ottiene sostituendo nel metodo di Newton Raphson la matrice delle derivate seconde U 1 con il suo valore atteso, ovvero con la matrice di elemento generico [ 2 ] l E E[U(β j )U(β k )] I(β) jk j, k 1,..., p (5.42) β j β k Quindi detta I( ˆβ (m 1) ) la matrice informazione calcolata in corrispondenza di β ˆβ (m 1), si ha che l approssimazione della soluzione m-esima è data da ˆβ (m) ˆβ (m 1) + [I( ˆβ (m 1) )] 1 U( ˆβ (m 1) ) (5.43) ovvero I( ˆβ (m 1) ) ˆβ (m) I( ˆβ (m 1) ) ˆβ (m 1) + U( ˆβ (m 1) ) (5.44) Poiché in questo caso l elemento generico della matrice informazione è dato da [ ] li l i I(β) jk E[U(β j )U(β k )] E β i1 j β k [ (y i µ i ) 2 ( ) ] X ij X 2 ik µi E [var(y i1 i )] 2 η i ( ) X ij X 2 ik µi (5.45) var(y i ) η i i1

Cap. 5: Modelli lineari generalizzati 87 allora il generico elemento j-esimo del vettore I( ˆβ (m 1) ) ˆβ (m 1) +U( ˆβ (m 1) ) può essere espresso per j 1,..., p nel modo seguente p ( ) X ij X 2 ik µi (y ˆβ(m 1) i µ i )X ij var(y i ) η k + (5.46) i var(y i ) η i k1 i1 ovvero complessivamente la (5.44) diventa dove i1 X W X ˆβ (m) X W Z (5.47) ( ( ) 1 2 ( ) ) µ1 1 2 µn W diag,..., var(y 1 ) η 1 var(y n ) η n e Z (z 1,..., z n ), con z i p h1 (5.48) X ih ˆβ(m 1) + (y i µ i ) η i (5.49) Nelle due espressioni precedenti si intende che µ i dipende da β ˆβ (m 1). L espressione (5.47) che definisce il metodo iterativo di scoring ricorda l equazione normale del metodo dei minimi quadrati ponderati applicato al modello lineare generale. Il precedente sistema di equazioni va comunque risolto iterativamente poiché sia Z che W dipendono da ˆβ (m 1). In conclusione gli stimatori di massima verosimiglianza per i modelli lineari generalizzati possono essere ottenuti risolvendo iterativamente il metodo dei minimi quadrati ponderati. In genere un approssimazione iniziale ˆβ (0) è utilizzata per valutare Z e W, quindi si stima ˆβ (1). Dall equazione suddetta si ottengono nuovi valori per Z e W e così via sinchè non si raggiunge un adeguata convergenza, ovvero sino a quando la differenza tra due successive approssimazioni ˆβ (m) e ˆβ (m+1) non sia sufficientemente piccola. I metodi di scoring e di Newton Raphson coincidono nel caso di funzioni link canoniche. 5.4 Distribuzione campionaria degli stimatori Se lo stimatore ˆβ può essere assunto prossimo al valore del parametro β allora il calcolo dell espansione in serie di Taylor del primo ordine del vettore U(β) nel punto β ˆβ porta a U(β) U( ˆβ) + U 1 ( ˆβ)(β ˆβ) (5.50)

88 A. Pollice - Statistica Multivariata Al divergere dell ampiezza campionaria si può assumere che U 1 (β) e il suo valore atteso coincidano, quindi, poiché E[U 1 (β)] I(β) ed U( ˆβ) 0 essendo ˆβ stimatore di massima verosimiglianza, dalla (5.50) si ottiene ( ˆβ β) I 1 (β)u(β) (5.51) ammesso che I(β) sia non singolare. Inoltre, prendendo il valore atteso di ambo i membri della (5.51), poiché E[U(β)] 0, ˆβ risulta essere uno stimatore asintoticamente corretto di β. La matrice di varianze e covarianze di ˆβ è invece data da E[( ˆβ β)( ˆβ β) ] E[I 1 (β)u(β)u (β)i 1 (β)] I 1 (β)e[u(β)u (β)]i 1 (β) I 1 (β) (5.52) In conclusione per campioni numerosi si considera l approssimazione ovvero ˆβ β N p ( o, I 1 (β) ) (5.53) ( ˆβ β) I(β)( ˆβ β) χ 2 p (5.54) L ultima statistica detta statistica di Wald viene utilizzata per le inferenze sul vettore β dei parametri del modello. 5.5 Verifica dell adeguatezza del modello L adeguatezza di un modello lineare generalizzato nel descrivere la dipendenza all interno di un certo data-set può essere valutata confrontandone la verosimiglianza con quella di un modello massimale o saturato, ovvero di un modello lineare generalizzato basato sulla stessa forma distributiva e con la stessa funzione link del modello di interesse, ma il cui numero di parametri coincide con la numerosità n del collettivo. Pertanto, avendo fissato l assunzione distributiva e la funzione link, il modello massimale fornisce la descrizione più completa della dipendenza presente nei dati a disposizione. A tal fine può considerarsi il test del rapporto di verosimiglianze generalizzato ottenuto facendo il rapporto tra la massima verosimiglianza riferita al modello corrente e quella riferita al modello saturato λ L( ˆβ, y) L( ˆβ max, y) (5.55)

Cap. 5: Modelli lineari generalizzati 89 La sua distribuzione asintotica è ottenuta tramite l approssimazione di Wilks (3.23) con n p gradi di libertà. La statistica D 2 log λ 2[l( ˆβ, y) l( ˆβ max, y)] è denominata da Nelder e Wedderburn (1972) devianza. Quando l ipotesi distributiva è quella di normalità delle Y i, la distribuzione di D è esattamente (e non asintoticamente) χ 2 n p. Infine la devianza rappresenta la misura del miglior adattamento del modello saturato rispetto a quello con p < n variabili esplicative. 5.6 Quasi verosimiglianza (cenni) E questo un metodo di stima applicabile senza effettuare assunzioni distributive. La funzione di quasi verosimiglianza viene utilizzata per produrre stimatori con caratteristiche simili a quelle degli stimatori di massima verosimiglianza e funzioni test simili a quelle ottenute tramite il rapporto di verosimiglianze. Le assunzioni alla base di questo metodo non riguardano l intera distribuzione delle osservazioni, ma piuttosto i suoi momenti secondi (come nel caso dei minimi quadrati ordinari): (i) E(Y i ) µ i i 1,..., n (ii) µ i g 1 (X iβ) i 1,..., n (iii) cov(y ) σ 2 Ω(µ) essendo σ 2 ed Ω(µ) rispettivamente un parametro di dispersione ed una matrice n n di funzioni note di µ i per i 1,..., n. In questo caso per pervenire a una stima del vettore β dei parametri del modello si utilizza il metodo dei minimi quadrati ponderati che consiste nell individuare il vettore β che minimizza la forma quadratica [Y g 1 (X β)] [Ω(µ)] 1 [Y g 1 (X β)] (5.56) il che darebbe luogo, se Ω(µ) non dipendesse da β, alle equazioni di stima D [Ω(µ)] 1 [Y g 1 (X ˆβ)] o (5.57) dove con D si è indicata la matrice n p di elemento generico / β j. Poiché invece Ω(µ) dipende da β, la soluzione delle equazioni di stima, dette

90 A. Pollice - Statistica Multivariata in tal caso equazioni di quasi verosimiglianza, non porta alla minimizzazione della forma quadratica suddetta. Tuttavia se si indica la cosiddetta funzione di quasi verosimiglianza con q(β) D [Ω(µ)] 1 [Y g 1 (X β)] (5.58) si può dimostrare che valgono le seguenti tre proprietà (i) (ii) (iii) E[q(β)] o E[q (β)] D [Ω(µ)] 1 D σ 2 D [Ω(µ)] 1 D Cov[q(β)] Quindi, confrontando la (i) con la Proprietà 5.2 e la (ii) e la (iii) con la Proprietà 5.3 si può concludere che prescindendo dal fattore costante σ 2, la funzione q(β) si comporta in modo analogo alla funzione score dal punto di vista dei primi due momenti. Si può dimostrare che le proprietà appena viste implicano la consistenza e la normalità asintotica degli stimatori ˆβ ottenuti come soluzione dell equazione q( ˆβ) o. Inoltre se è possibile ricavare in forma esplicita una funzione l(β) tale che valga l(β) q(β) (5.59) β essa è detta funzione di quasi log-verosimiglianza e può essere utilizzata in modo simile ad una normale funzione di log-verosimiglianza (per costruire intervalli di confidenza e funzioni test).