Modelli lineari generalizzati Estensione del modello lineare generale Servono allo studio della dipendenza in media di una variabile risposta da una o più variabili antecedenti Vengono attenuate alcune ipotesi fondamentali nel modello lineare generale: linearità del modello di dipendenza normalità delle osservazioni A. Pollice - Statistica Multivariata
omoschedasticità delle osservazioni
Famiglia esponenziale di distribuzioni Y variabile aleatoria discreta o continua la cui distribuzione dipende dal parametro unidimensionale θ La distribuzione di Y appartiene alla famiglia esponenziale se è esprimibile nella forma f(y, θ) = exp[a(y)b(θ) + c(θ) + d(y)]
Osservazioni a(y) = y famiglia esponenziale espressa in forma canonica f(y, θ) = exp[yb(θ) + c(θ) + d(y)] φ = b(θ) parametro naturale altri parametri diversi da θ vengono detti parametri di disturbo La famiglia esponenziale comprende le distribuzioni di Poisson, Binomiale, Normale, Gamma e altre
Funzione score e informazione attesa Funzione score u = d log f(y, θ) dθ Per le distribuzioni della famiglia esponenziale in forma canonica u = d log (exp[yb(θ) + c(θ) + d(y)]) dθ = yb (θ) + c (θ) Vettore total score U = (U 1,..., U n ) con L(θ, y) = n i=1 f(y i, θ i ) U i = log L(θ, y) θ i i = 1,..., n
La funzione score ha valore atteso nullo E(u) = = 0 Per le distribuzioni della famiglia esponenziale in forma canonica implica E(Y ) = c (θ) b (θ) Elementi del vettore total score hanno valore atteso nullo E(U i ) = 0 i = 1,..., n
Informazione attesa di Fisher Var(u) = E(u 2 ) = E( u ) Per le distribuzioni della famiglia esponenziale in forma canonica implica Var(Y ) = b (θ)c (θ) c (θ)b (θ) [b (θ)] 3 Matrice di informazione attesa di Fisher E(UU ) = [I ij ] I ij = E(U i U j ) = E [ 2 log L(θ, y) θ i θ j ]
Modelli lineari generalizzati Y 1,..., Y n variabili aleatorie indipendenti con f(y i, θ i ) = exp[y i b(θ i ) + c(θ i ) + d(y i )] i = 1,..., n Ciascuna osservazione è associata ad un parametro θ i
Relazione tra il valore atteso dell i-esima osservazione E(Y i ) = µ i e una combinazione lineare degli elementi del vettore β = (β 1,..., β p ) di p < n parametri g(µ i ) = X i β = η i i = 1,..., n g funzione link monotona e differenziabile X i vettore di p osservazioni di altrettante covariate o di indicatori di livello di fattori β vettore dei parametri η i predittore lineare
Variabile risposta dicotomica Y i,..., Y n hanno distribuzione bernoulliana f(y i, θ i ) = { θi y i = 1 1 θ i y i = 0 i = 1,..., n Famiglia esponenziale in forma canonica f(y i, θ i ) = θ y i i (1 θ i) 1 y i = exp [ y i log parametro naturale φ i = log[θ i /(1 θ i )] θ i 1 θ i + log(1 θ i ) ] valore atteso µ i = E(Y i ) = θ i
funzione link logit g(µ i ) = log ( ) µi 1 µ i modello logit o di regressione logistica g(µ i ) = X i β µ i = exp(x i β) exp(x i β) + 1 i = 1,..., n
funzione link probit g(µ i ) = Φ 1 (µ i ) con Φ funzione di ripartizione della normale standardizzata modello di dipendenza per dati dicotomici µ i = Φ(X i β) i = 1,..., n
funzione link doppio logaritmica g(µ i ) = log[ log(1 µ i )] modello di dipendenza per dati dicotomici µ i = 1 exp[ exp(x i β)] i = 1,..., n
Variabile risposta continua (simmetrica) Y 1,..., Y n hanno distribuzione normale [ 1 f(y i, θ i ) = (2πσ 2 exp 1 ) 1/2 2σ 2(y i θ i ) 2 ] i = 1,..., n Famiglia esponenziale in forma canonica f(y i, θ i ) = exp parametro naturale φ i = θ i /σ 2 [ y2 i 2σ 2 + y iθ i σ 2 θ2 i 2σ 2 1 2 log(2πσ2 ) ] valore atteso µ i = E(Y i ) = θ i
funzione link identità g(µ i ) = µ i modello lineare generale µ i = X i β i = 1,..., n
Variabile risposta a valori interi positivi (conteggi) Y 1,..., Y n hanno distribuzione di Poisson f(y i, θ i ) = θy i i e θ i y i! i = 1,..., n Famiglia esponenziale in forma canonica f(y i, θ i ) = exp[y i log θ i θ i log y i!] parametro naturale φ i = log θ i valore atteso µ i = E(Y i ) = θ i
funzione link logaritmica g(µ i ) = log µ i modello di regressione di Poisson µ i = exp(x i β) i = 1,..., n
In generale Funzioni link canoniche: la forma funzionale del link coincide con la funzione di θ che definisce il parametro naturale Funzione link potenza (per variabili risposta continue) g(µ i ) = { µ α i α 0 log µ i α = 0
Stima dei parametri log-verosimiglianza di y = (y 1,..., y n ) l(θ, y) = n i=1 (y i b(θ i ) + c(θ i ) + d(y i )) = n l i i=1 vettore total score rispetto a β per j = 1,..., p U(β j ) = l(θ, y) β j = n i=1 l i β j = = n i=1 (y i µ i )X ij var(y i ) µ i η i p equazioni di verosimiglianza non lineari U(β j ) = 0 j = 1,..., p
Metodo di Newton Raphson m-esima approssimazione della soluzione dell equazione non lineare h(x) = 0 x (m) = x (m 1) h[x(m 1) ] h [x (m 1) ] m-esima approssimazione della soluzione del sistema U(β j ) = 0 per j = 1,..., p ˆβ (m) = ˆβ (m 1) [U 1 (ˆβ (m 1) )] 1 U(ˆβ (m 1) ) con U 1 (ˆβ (m 1) ) matrice delle derivate seconde di l(y, θ) rispetto agli elementi di β
Metodo di scoring la matrice delle derivate seconde U 1 è sostituita dal suo valore atteso [ I(β) jk ], essendo E [ 2 l β j β k ] = I(β) jk j, k = 1,..., p I metodi di scoring e di Newton Raphson coincidono nel caso di funzioni link canoniche
Distribuzione campionaria degli stimatori espansione in serie di Taylor del primo ordine del vettore U(β) nel punto β = ˆβ U(β) = U(ˆβ) + U 1 (ˆβ)(β ˆβ) al divergere dell ampiezza campionaria (ˆβ β) = I 1 (β)u(β) E[U(β)] = 0 implica che ˆβ è uno stimatore asintoticamente corretto di β La matrice di varianze e covarianze di ˆβ è data da E[(ˆβ β)(ˆβ β) ] = = I 1 (β)
per campioni numerosi si considera l approssimazione ˆβ β N p ( o, I 1 (β) ) statistica di Wald (ˆβ β) I(β)(ˆβ β) χ 2 p
Verifica dell adeguatezza del modello confronto tra un modello e il corrispondente modello massimale o saturato, basato sulla stessa forma distributiva e con la stessa funzione link, ma con un numero di parametri corrispondente alla numerosità del collettivo
test del rapporto di verosimiglianze generalizzato λ = L(ˆβ, y) L(ˆβ max, y) distribuzione asintotica è ottenuta tramite l approssimazione di Wilks con n p gradi di libertà devianza: rappresenta la misura del miglior adattamento del modello saturato rispetto a quello con p < n variabili esplicative D = 2 log λ = 2[l(ˆβ, y) l(ˆβ max, y)]
Quasi verosimiglianza metodo di stima applicabile senza assunzioni distributive assunzione sui momenti secondi cov(y ) = σ 2 Ω(µ) con σ 2 ed Ω(µ) rispettivamente parametro di dispersione e matrice n n di funzioni note di µ i per i = 1,..., n
minimi quadrati ponderati: si individua il vettore β che minimizza la forma quadratica [Y g 1 (X β)] [Ω(µ)] 1 [Y g 1 (X β)] se Ω(µ) non dipendesse da β si otterrebbero le equazioni di stima dette equazioni di quasi verosimiglianza D [Ω(µ)] 1 [Y g 1 (X ˆβ)] = o con D matrice n p di elemento generico µ i / β j
funzione di quasi verosimiglianza q(β) = D [Ω(µ)] 1 [Y g 1 (X β)] Proprietà E[q(β)] = o E[q (β)] = D [Ω(µ)] 1 D σ 2 D [Ω(µ)] 1 D = Cov[q(β)] la funzione q(β) si comporta in modo analogo alla funzione score dal punto di vista dei primi due momenti
le proprietà appena viste implicano la consistenza e la normalità asintotica degli stimatori ˆβ ottenuti come soluzione dell equazione q(ˆβ) = o