Capitolo 5 Modelli lineari generalizzati I modelli lineari generalizzati costituiscono un estensione del modello lineare generale e servono anch essi allo studio della dipendenza in media di una variabile risposta da una o più variabili antecedenti. Nei modelli lineari generalizzati vengono attenuate alcune ipotesi fondamentali nel modello lineare generale, ovvero la linearità del modello di dipendenza, la normalità e l omoschedasticità delle osservazioni. Il modello distributivo assunto per le osservazioni della variabile conseguente costituisce un estensione di quello gaussiano. 5.1 Famiglia esponenziale di distribuzioni Sia Y una variabile aleatoria discreta o continua la cui distribuzione dipenda dal parametro unidimensionale θ. La distribuzione è detta appartenere alla famiglia esponenziale di distribuzioni se è esprimibile nella forma f(y, θ) s(y)t(θ) exp[a(y)b(θ)] (5.1) con s, t, a e b funzioni note. La forma appena vista può alternativamente esprimersi nel modo seguente con s(y) exp[d(y)] e t(θ) exp[c(θ)]. Osservazioni f(y, θ) exp[a(y)b(θ) + c(θ) + d(y)] (5.2) (i) quando a(y) y la famiglia esponenziale è detta espressa in forma canonica; 79
80 A. Pollice - Statistica Multivariata (ii) φ b(θ) è detto parametro naturale; (iii) se la distribuzione contiene altri parametri oltre a θ questi vengono detti parametri di disturbo; (iv) appartengono alla famiglia esponenziale le distribuzioni di Poisson, Binomiale, Normale, Gamma e altre. 5.1.1 Funzione score e informazione attesa di Fisher Definizione 5.1 Si definisce funzione score la seguente funzione di y e θ d log f(y, θ) u dθ Proprietà 5.2 La funzione score ha valore atteso nullo. (5.3) d log f(y, θ) E(u) f(y, θ)dy dθ 1 df(y, θ) f(y, θ)dy f(y, θ) dθ d f(y, θ)dy d dθ dθ 1 0 (5.4) La (5.4) vale se posso scambiare il segno di integrazione con quello di derivazione, e cioè sotto le condizioni di regolarità proprie del teorema di Fubini. Proprietà 5.3 Se u du/dθ, allora Var(u) E(u 2 ) E( u ) e la funzione E( u ) è denominata informazione attesa di Fisher. Infatti sotto le stesse condizioni vale: 0 d dθ E(u) d d log f(y, θ) f(y, θ)dy dθ dθ d 2 log f(y, θ) d log f(y, θ) df(y, θ) dθ 2 f(y, θ)dy + dy dθ dθ d 2 log f(y, θ) d log f(y, θ) d log f(y, θ) dθ 2 f(y, θ)dy + f(y, θ)dy dθ dθ E(u ) + E(u 2 ) (5.5) Si supponga ora di disporre di un campione di n osservazioni indipendenti e che ciascuna osservazione y i provenga da una distribuzione f(y i, θ i ) caratterizzata dal parametro θ i variabile per i 1,..., n. Siano y (y 1,..., y n ), θ (θ 1,..., θ n ) ed L(θ, y) n i1 f(y i, θ i ) la verosimiglianza.
Cap. 5: Modelli lineari generalizzati 81 Definizione 5.4 Si definisce total score il vettore U (U 1,..., U n ) con U i log L(θ, y) θ i i 1,..., n (5.6) Con procedimento analogo a quello utilizzato nella (5.4) si può dimostrare che E(U i ) 0. Inoltre l elemento generico della matrice di varianze e covarianze di U detta matrice di informazione attesa di Fisher, data da I E(UU ), è ottenuto come nella (5.5) ed è dato da [ ] I ij E(U i U j ) E 2 log L(θ, y) (5.7) θ i θ j 5.1.2 Famiglia esponenziale in forma canonica Si consideri ora la famiglia esponenziale in forma canonica f(y, θ) s(y)t(θ) exp[yb(θ)] exp[yb(θ) + c(θ) + d(y)] (5.8) In tal caso la funzione score è data da u d log f(y, θ) dθ quindi dalla Proprietà 5.2 si ricava E(Y ) c (θ) b (θ) ed inoltre poiché Var(u) [b (θ)] 2 Var(Y ) Si osservi che Var(u) E( u ) e che, poiché vale yb (θ) + c (θ) (5.9) (5.10) Var(Y ) Var(u) [b (θ)] 2 (5.11) E( u ) E[ Y b (θ) c (θ)] E(Y )b (θ) c (θ) c (θ) b (θ) b (θ) c (θ) (5.12) si ha che la varianza della variabile aleatoria Y con distribuzione appartenente alla famiglia esponenziale in forma canonica è data da Var(Y ) b (θ)c (θ) c (θ)b (θ) [b (θ)] 3 (5.13)
82 A. Pollice - Statistica Multivariata 5.2 Modelli lineari generalizzati L unitarietà di diverse di metodologie statistiche facenti riferimento a combinazioni lineari di parametri fu dimostrata da Nelder e Wedderburn (1972) partendo dall idea di un modello lineare generalizzato. La teoria dei modelli lineari generalizzati è stata in seguito codificata nel libro che costituisce il riferimento essenziale sull argomento, ad opera di Mc Cullagh e Nelder (1989). Siano Y 1,..., Y n variabili aleatorie indipendenti aventi la stessa distribuzione f(y i, θ i ) per i 1,..., n appartenente alla famiglia esponenziale ed in forma canonica f(y i, θ i ) exp[y i b(θ i ) + c(θ i ) + d(y i )] i 1,..., n (5.14) Si noti come con tale modello distributivo ciascuna osservazione possa essere associata ad un proprio parametro θ i. Tali parametri, qualora effettivamente diversi tra loro, non risultano particolarmente interessanti a fini investigativi poiché non forniscono alcuna sintesi della distribuzione delle osservazioni, ma servono a caratterizzarla in modo flessibile. Si considerino inoltre un vettore di p < n parametri β (β 1,..., β p ) e una funzione g che metta in relazione una combinazione lineare degli elementi di β con il valore atteso E(Y i ) µ i dell i-esima osservazione g(µ i ) X iβ η i i 1,..., n (5.15) in quanto precede g è una funzione monotona e differenziabile detta funzione link, X i è un vettore di p osservazioni di altrettante covariate o di indicatori di livello di fattori, β è il vettore dei parametri, mentre η i prende il nome di predittore lineare. In quanto segue vengono illustrate alcune forme distributive appartenenti alla famiglia esponenziale insieme alle funzioni link piu usate nei diversi casi. (i) Siano Y i,..., Y n variabili dicotomiche aventi distribuzione bernoulliana: { θi y f(y i, θ i ) i 1 i 1,..., n (5.16) 1 θ i y i 0 ovvero per y i 0, 1 e i 1,..., n f(y i, θ i ) θ y i i (1 θ i) 1 y i exp [ y i log ] θ i + log(1 θ i ) 1 θ i (5.17) pertanto la distribuzione bernoulliana appartiene alla famiglia esponenziale in forma canonica e φ i log[θ i /(1 θ i )] è il parametro naturale. Inoltre dalla (5.10) si ottiene µ i E(Y i ) θ i. Se per i dati
Cap. 5: Modelli lineari generalizzati 83 a disposizione si ipotizza una distribuzione bernoulliana una possibile forma di link è la cosiddetta funzione logit ( ) θi g(µ i ) g(θ i ) log (5.18) 1 θ i che dà luogo al modello di dipendenza per variabili binarie noto come modello logit o di regressione logistica µ i exp(x i β) exp(x i β) + 1 i 1,..., n (5.19) Indicando invece con Φ la funzione di ripartizione della normale standardizzata si definisce funzione probit la seguente funzione link g(µ i ) g(θ i ) Φ 1 (θ i ) (5.20) ed il conseguente modello di dipendenza per dati dicotomici è dato da µ i Φ(X iβ) i 1,..., n (5.21) Si può infine considerare la funzione link doppio logaritmica ed il modello g(µ i ) g(θ i ) log[ log(1 θ i )] (5.22) µ i 1 exp[ exp(x iβ)] i 1,..., n (5.23) (ii) Siano Y 1,..., Y n variabili continue aventi distribuzione normale [ 1 f(y i, θ i ) (2πσ 2 exp 1 ] ) 1/2 2σ 2 (y i θ i ) 2 [ exp y2 i 2σ 2 + y iθ i σ 2 θ2 i 2σ 2 1 ] 2 log(2πσ2 ) (5.24) nell espressione precedente siano θ i per i 1,..., n i parametri di interesse mentre σ sia un parametro di disturbo. Anche questa distribuzione ha dunque la forma canonica della famiglia esponenziale con parametro naturale φ i θ i /σ 2. E noto come anche in questo caso sia µ i E(Y i ) θ i. Se come funzione link si considera la funzione identità g(µ i ) g(θ i ) θ i (5.25) si ottiene come modello di dipendenza il modello lineare generale µ i X iβ i 1,..., n (5.26)
84 A. Pollice - Statistica Multivariata (iii) Si assuma ora che Y i abbia distribuzione di Poisson per i 1,..., n f(y i, θ i ) θy i i e θ i y i! exp[y i log θ i θ i log y i!] (5.27) dove φ i log θ i è il parametro naturale, mentre µ i E(Y i ) θ i. Una possibile funzione link è quella logaritmica g(µ i ) g(θ i ) log θ i (5.28) il modello che ne deriva detto regressione di Poisson è dato da µ i exp(x iβ) i 1,..., n (5.29) (iv) Nei casi precedenti in cui l espressione del link coincide con la funzione di θ che definisce il parametro naturale si parla di funzione link canonica. L uso delle funzioni link canoniche facilita molto le inferenze sui parametri dei modelli lineari generalizzati le cui stime godono in tal caso di importanti proprietà legate alle statistiche sufficienti. Per quanto appena detto se la distribuzione assunta alla base del modello è bernoulliana, normale o di Poisson le rispettive funzioni link canoniche sono la funzione logit, l identità e la funzione logaritmica. (v) In generale se la distribuzione delle Y i è continua si può utilizzare come link la funzione potenza g(µ i ) { µ α i α 0 log µ i α 0 (5.30) che, per α prefissato dà luogo al modello { µ α i X i β α 0 log µ i X i β α 0 i 1,..., n (5.31) 5.3 Stima dei parametri Nel caso della famiglia esponenziale in forma canonica la log-verosimiglianza di y (y 1,..., y n ) è data da l(θ, y) y i b(θ i ) + c(θ i ) + d(y i ) (5.32) i1 i1 i1
Cap. 5: Modelli lineari generalizzati 85 Ponendo l i y i b(θ i ) + c(θ i ) + d(y i ) per i 1,..., n, il j-esimo elemento della funzione total score rispetto a β j risulta definito da U(β j ) l(θ, y) β j i1 l i β j j 1,..., p (5.33) Si noti che l i-esimo addendo della (5.33) è fattorizzabile nel modo seguente Il primo fattore può essere calcolato direttamente l i β j l i θ i θ i β j (5.34) l i θ i y i b (θ i ) + c (θ i ) y i b (θ i ) b (θ i )µ i b (θ i )(y i µ i ) (5.35) L inverso del secondo fattore è dato da ( ) c (θ i ) θ i θ i b c (θ i )b (θ i ) c (θ i )b (θ i ) (θ i ) [b (θ i )] 2 b (θ i )var(y i ) (5.36) Il terzo fattore risulta β j η i η i β j η i X ij (5.37) Di conseguenza la (5.33) prende complessivamente la forma seguente U(β j ) i1 (y i µ i )X ij var(y i ) η i (5.38) La famiglia esponenziale di distribuzioni gode di numerose proprietà di regolarità che garantiscono che il massimo assoluto della funzione di verosimiglianza L(θ, y) sia dato dalla soluzione di dl(θ, y)/d(θ) 0 (in altri termini è superfluo il calcolo della derivata seconda), ovvero di U(β j ) l(θ, y)/ β j 0 per j 1,..., p. Quindi per determinare gli stimatori di massima verosimiglianza di β j bisogna risolvere rispetto a β j il sistema di p equazioni non lineari U(β j ) i1 (y i µ i )X ij var(y i ) η i 0 j 1,..., p (5.39)
86 A. Pollice - Statistica Multivariata 5.3.1 Metodo di Newton Raphson Il metodo iterativo di Newton Raphson consiste in generale nel considerare come m-esima approssimazione della soluzione dell equazione non lineare h(x) 0 l espressione x (m) x (m 1) h[x(m 1) ] h [x (m 1) ] (5.40) Nel caso della (5.39), detta U 1 ( ˆβ (m 1) ) la matrice delle derivate seconde, di generico elemento (j, k)-esimo 2 l(y, θ)/ β j β k β ˆβ(m 1) per j, k 1,..., p, la m-esima approssimazione della soluzione del sistema derivante dall applicazione del metodo della massima verosimiglianza è data da ˆβ (m) ˆβ (m 1) [U 1 ( ˆβ (m 1) )] 1 U( ˆβ (m 1) ) (5.41) 5.3.2 Metodo di scoring Un metodo iterativo alternativo per risolvere le equazioni di verosimiglianza si ottiene sostituendo nel metodo di Newton Raphson la matrice delle derivate seconde U 1 con il suo valore atteso, ovvero con la matrice di elemento generico [ 2 ] l E E[U(β j )U(β k )] I(β) jk j, k 1,..., p (5.42) β j β k Quindi detta I( ˆβ (m 1) ) la matrice informazione calcolata in corrispondenza di β ˆβ (m 1), si ha che l approssimazione della soluzione m-esima è data da ˆβ (m) ˆβ (m 1) + [I( ˆβ (m 1) )] 1 U( ˆβ (m 1) ) (5.43) ovvero I( ˆβ (m 1) ) ˆβ (m) I( ˆβ (m 1) ) ˆβ (m 1) + U( ˆβ (m 1) ) (5.44) Poiché in questo caso l elemento generico della matrice informazione è dato da [ ] li l i I(β) jk E[U(β j )U(β k )] E β i1 j β k [ (y i µ i ) 2 ( ) ] X ij X 2 ik µi E [var(y i1 i )] 2 η i ( ) X ij X 2 ik µi (5.45) var(y i ) η i i1
Cap. 5: Modelli lineari generalizzati 87 allora il generico elemento j-esimo del vettore I( ˆβ (m 1) ) ˆβ (m 1) +U( ˆβ (m 1) ) può essere espresso per j 1,..., p nel modo seguente p ( ) X ij X 2 ik µi (y ˆβ(m 1) i µ i )X ij var(y i ) η k + (5.46) i var(y i ) η i k1 i1 ovvero complessivamente la (5.44) diventa dove i1 X W X ˆβ (m) X W Z (5.47) ( ( ) 1 2 ( ) ) µ1 1 2 µn W diag,..., var(y 1 ) η 1 var(y n ) η n e Z (z 1,..., z n ), con z i p h1 (5.48) X ih ˆβ(m 1) + (y i µ i ) η i (5.49) Nelle due espressioni precedenti si intende che µ i dipende da β ˆβ (m 1). L espressione (5.47) che definisce il metodo iterativo di scoring ricorda l equazione normale del metodo dei minimi quadrati ponderati applicato al modello lineare generale. Il precedente sistema di equazioni va comunque risolto iterativamente poiché sia Z che W dipendono da ˆβ (m 1). In conclusione gli stimatori di massima verosimiglianza per i modelli lineari generalizzati possono essere ottenuti risolvendo iterativamente il metodo dei minimi quadrati ponderati. In genere un approssimazione iniziale ˆβ (0) è utilizzata per valutare Z e W, quindi si stima ˆβ (1). Dall equazione suddetta si ottengono nuovi valori per Z e W e così via sinchè non si raggiunge un adeguata convergenza, ovvero sino a quando la differenza tra due successive approssimazioni ˆβ (m) e ˆβ (m+1) non sia sufficientemente piccola. I metodi di scoring e di Newton Raphson coincidono nel caso di funzioni link canoniche. 5.4 Distribuzione campionaria degli stimatori Se lo stimatore ˆβ può essere assunto prossimo al valore del parametro β allora il calcolo dell espansione in serie di Taylor del primo ordine del vettore U(β) nel punto β ˆβ porta a U(β) U( ˆβ) + U 1 ( ˆβ)(β ˆβ) (5.50)
88 A. Pollice - Statistica Multivariata Al divergere dell ampiezza campionaria si può assumere che U 1 (β) e il suo valore atteso coincidano, quindi, poiché E[U 1 (β)] I(β) ed U( ˆβ) 0 essendo ˆβ stimatore di massima verosimiglianza, dalla (5.50) si ottiene ( ˆβ β) I 1 (β)u(β) (5.51) ammesso che I(β) sia non singolare. Inoltre, prendendo il valore atteso di ambo i membri della (5.51), poiché E[U(β)] 0, ˆβ risulta essere uno stimatore asintoticamente corretto di β. La matrice di varianze e covarianze di ˆβ è invece data da E[( ˆβ β)( ˆβ β) ] E[I 1 (β)u(β)u (β)i 1 (β)] I 1 (β)e[u(β)u (β)]i 1 (β) I 1 (β) (5.52) In conclusione per campioni numerosi si considera l approssimazione ovvero ˆβ β N p ( o, I 1 (β) ) (5.53) ( ˆβ β) I(β)( ˆβ β) χ 2 p (5.54) L ultima statistica detta statistica di Wald viene utilizzata per le inferenze sul vettore β dei parametri del modello. 5.5 Verifica dell adeguatezza del modello L adeguatezza di un modello lineare generalizzato nel descrivere la dipendenza all interno di un certo data-set può essere valutata confrontandone la verosimiglianza con quella di un modello massimale o saturato, ovvero di un modello lineare generalizzato basato sulla stessa forma distributiva e con la stessa funzione link del modello di interesse, ma il cui numero di parametri coincide con la numerosità n del collettivo. Pertanto, avendo fissato l assunzione distributiva e la funzione link, il modello massimale fornisce la descrizione più completa della dipendenza presente nei dati a disposizione. A tal fine può considerarsi il test del rapporto di verosimiglianze generalizzato ottenuto facendo il rapporto tra la massima verosimiglianza riferita al modello corrente e quella riferita al modello saturato λ L( ˆβ, y) L( ˆβ max, y) (5.55)
Cap. 5: Modelli lineari generalizzati 89 La sua distribuzione asintotica è ottenuta tramite l approssimazione di Wilks (3.23) con n p gradi di libertà. La statistica D 2 log λ 2[l( ˆβ, y) l( ˆβ max, y)] è denominata da Nelder e Wedderburn (1972) devianza. Quando l ipotesi distributiva è quella di normalità delle Y i, la distribuzione di D è esattamente (e non asintoticamente) χ 2 n p. Infine la devianza rappresenta la misura del miglior adattamento del modello saturato rispetto a quello con p < n variabili esplicative. 5.6 Quasi verosimiglianza (cenni) E questo un metodo di stima applicabile senza effettuare assunzioni distributive. La funzione di quasi verosimiglianza viene utilizzata per produrre stimatori con caratteristiche simili a quelle degli stimatori di massima verosimiglianza e funzioni test simili a quelle ottenute tramite il rapporto di verosimiglianze. Le assunzioni alla base di questo metodo non riguardano l intera distribuzione delle osservazioni, ma piuttosto i suoi momenti secondi (come nel caso dei minimi quadrati ordinari): (i) E(Y i ) µ i i 1,..., n (ii) µ i g 1 (X iβ) i 1,..., n (iii) cov(y ) σ 2 Ω(µ) essendo σ 2 ed Ω(µ) rispettivamente un parametro di dispersione ed una matrice n n di funzioni note di µ i per i 1,..., n. In questo caso per pervenire a una stima del vettore β dei parametri del modello si utilizza il metodo dei minimi quadrati ponderati che consiste nell individuare il vettore β che minimizza la forma quadratica [Y g 1 (X β)] [Ω(µ)] 1 [Y g 1 (X β)] (5.56) il che darebbe luogo, se Ω(µ) non dipendesse da β, alle equazioni di stima D [Ω(µ)] 1 [Y g 1 (X ˆβ)] o (5.57) dove con D si è indicata la matrice n p di elemento generico / β j. Poiché invece Ω(µ) dipende da β, la soluzione delle equazioni di stima, dette
90 A. Pollice - Statistica Multivariata in tal caso equazioni di quasi verosimiglianza, non porta alla minimizzazione della forma quadratica suddetta. Tuttavia se si indica la cosiddetta funzione di quasi verosimiglianza con q(β) D [Ω(µ)] 1 [Y g 1 (X β)] (5.58) si può dimostrare che valgono le seguenti tre proprietà (i) (ii) (iii) E[q(β)] o E[q (β)] D [Ω(µ)] 1 D σ 2 D [Ω(µ)] 1 D Cov[q(β)] Quindi, confrontando la (i) con la Proprietà 5.2 e la (ii) e la (iii) con la Proprietà 5.3 si può concludere che prescindendo dal fattore costante σ 2, la funzione q(β) si comporta in modo analogo alla funzione score dal punto di vista dei primi due momenti. Si può dimostrare che le proprietà appena viste implicano la consistenza e la normalità asintotica degli stimatori ˆβ ottenuti come soluzione dell equazione q( ˆβ) o. Inoltre se è possibile ricavare in forma esplicita una funzione l(β) tale che valga l(β) q(β) (5.59) β essa è detta funzione di quasi log-verosimiglianza e può essere utilizzata in modo simile ad una normale funzione di log-verosimiglianza (per costruire intervalli di confidenza e funzioni test).