Modelli lineari generalizzati

Documenti analoghi
Modelli lineari generalizzati

Analisi delle componenti principali

Statistica Applicata all edilizia: il modello di regressione

MODELLO DI REGRESSIONE LINEARE. le ipotesi del modello di regressione classico, stima con i metodi dei minimi quadrati e di massima verosimiglianza,

Analisi della correlazione canonica

Statistica Inferenziale

Università degli Studi Roma Tre Anno Accademico 2016/2017 ST410 Statistica 1

Elementi di statistica per l econometria

VIII Indice 2.6 Esperimenti Dicotomici Ripetuti: Binomiale ed Ipergeometrica Processi Stocastici: Bernoul

Statistica Metodologica Avanzato Test 1: Concetti base di inferenza

0 altimenti 1 soggetto trova lavoroentro 6 mesi}

STATISTICA A K (60 ore)

I appello di calcolo delle probabilità e statistica

PROBABILITÀ ELEMENTARE

Dispensa di Statistica

Statistica Inferenziale

ESERCIZI EPOS. { C x 3 (1 x) 0 x 1 0 altrove

I VETTORI GAUSSIANI E. DI NARDO

Matematica Applicata L-A Definizioni e teoremi

Contenuti: Capitolo 14 del libro di testo

Analisi della correlazione canonica

Il modello di regressione lineare multipla. Il modello di regressione lineare multipla

Variabili casuali multidimensionali

MODELLO DI REGRESSIONE LINEARE. le ipotesi del modello di regressione classico, stima con i metodi dei minimi quadrati e di massima verosimiglianza,

STATISTICA 1, metodi matematici e statistici Introduzione al linguaggio R Esercitazione 7:

La dipendenza. Antonello Maruotti

Metodi statistici per l economia (Prof. Capitanio) Slide n. 10. Materiale di supporto per le lezioni. Non sostituisce il libro di testo

UNIVERSITÀ DEGLI STUDI DI PERUGIA

Richiami di algebra delle matrici a valori reali

lezione n. 6 (a cura di Gaia Montanucci) Verosimiglianza: L = = =. Parte dipendente da β 0 e β 1

Stima puntuale di parametri

Previsioni Statistiche

Esercizi di statistica

(a) Determinare lo stimatore di massima verosimiglianza θ di θ. (b) Calcolare la funzione di score e l informazione di Fisher.

Esercitazioni di Statistica

Analisi delle corrispondenze

Capitolo 5 Variabili aleatorie discrete notevoli Insegnamento: Statistica Applicata Corso di Laurea in "Scienze e Tecnologie Alimentari"

Lezione 18. Statistica. Alfonso Iodice D Enza Università degli studi di Cassino. Lezione 18. A. Iodice

Statistica 2. Esercitazioni. Dott. Luigi Augugliaro 1. Università di Palermo

R - Esercitazione 6. Andrea Fasulo Venerdì 22 Dicembre Università Roma Tre

Prefazione Ringraziamenti dell'editore Il sito web dedicato al libro Test online: la piattaforma McGraw-Hill Education Guida alla lettura

Probabilità classica. Distribuzioni e leggi di probabilità. Probabilità frequentista. Probabilità soggettiva

Capitolo 6. La distribuzione normale

Introduzione alla Regressione Logistica

La regressione logistica

Probabilità e Statistica

3.1 Classificazione dei fenomeni statistici Questionari e scale di modalità Classificazione delle scale di modalità 17

Capitolo 6 La distribuzione normale

Psicometria. 9-Analisi fattoriale confermativa vers. 1.0

Variabili indipendenti qualitative. In molte applicazioni si rende necessario l introduzione di un fattore a due o più livelli.

Statistica Metodologica

Indici di posizione e dispersione per distribuzioni di variabili aleatorie

Statistica multivariata Donata Rodi 17/10/2016

Statistica Inferenziale

DISTRIBUZIONI DI PROBABILITA

Modelli Multilineari e Misure di adeguatezza del modello

Regressione multipla

STATISTICA (2) ESERCITAZIONE Dott.ssa Antonella Costanzo

CALCOLO DELLE PROBABILITÀ - 9 giugno 1998 Scrivere le risposte negli appositi spazi Motivare dettagliatamente le risposte su fogli allegati

Analisi delle corrispondenze

Corso di Statistica Industriale

La multicollinearità sorge quando c è un elevata correlazione tra due o più variabili esplicative.

Il modello di regressione lineare multipla con regressori stocastici

1 Endogeneità, variabili strumentali

Esercitazione 3 - Statistica II - Economia Aziendale Davide Passaretti 23/5/2017

ANALISI DELLE SERIE STORICHE

Politecnico di Milano - Scuola di Ingegneria Industriale. II Prova in Itinere di Statistica per Ingegneria Energetica 25 luglio 2011

Test per l omogeneità delle varianze

Statistica per le ricerche di mercato. 16. Il modello di regressione logistica: definizione, specificazione e

Esercitazione 5 - Statistica (parte II) Davide Passaretti 9/3/2017

Minimi quadrati vincolati e test F

Intervallo di confidenza

Premessa: la dipendenza in media

Calcolo delle Probabilità e Statistica, Ingegneria Civile e A&T e Informatica I prova finale a.a. 2016/17

Transcript:

Modelli lineari generalizzati Estensione del modello lineare generale Servono allo studio della dipendenza in media di una variabile risposta da una o più variabili antecedenti Vengono attenuate alcune ipotesi fondamentali nel modello lineare generale: linearità del modello di dipendenza normalità delle osservazioni A. Pollice - Statistica Multivariata

omoschedasticità delle osservazioni

Famiglia esponenziale di distribuzioni Y variabile aleatoria discreta o continua la cui distribuzione dipende dal parametro unidimensionale θ La distribuzione di Y appartiene alla famiglia esponenziale se è esprimibile nella forma f(y, θ) = exp[a(y)b(θ) + c(θ) + d(y)]

Osservazioni a(y) = y famiglia esponenziale espressa in forma canonica f(y, θ) = exp[yb(θ) + c(θ) + d(y)] φ = b(θ) parametro naturale altri parametri diversi da θ vengono detti parametri di disturbo La famiglia esponenziale comprende le distribuzioni di Poisson, Binomiale, Normale, Gamma e altre

Funzione score e informazione attesa Funzione score u = d log f(y, θ) dθ Per le distribuzioni della famiglia esponenziale in forma canonica u = d log (exp[yb(θ) + c(θ) + d(y)]) dθ = yb (θ) + c (θ) Vettore total score U = (U 1,..., U n ) con L(θ, y) = n i=1 f(y i, θ i ) U i = log L(θ, y) θ i i = 1,..., n

La funzione score ha valore atteso nullo E(u) = = 0 Per le distribuzioni della famiglia esponenziale in forma canonica implica E(Y ) = c (θ) b (θ) Elementi del vettore total score hanno valore atteso nullo E(U i ) = 0 i = 1,..., n

Informazione attesa di Fisher Var(u) = E(u 2 ) = E( u ) Per le distribuzioni della famiglia esponenziale in forma canonica implica Var(Y ) = b (θ)c (θ) c (θ)b (θ) [b (θ)] 3 Matrice di informazione attesa di Fisher E(UU ) = [I ij ] I ij = E(U i U j ) = E [ 2 log L(θ, y) θ i θ j ]

Modelli lineari generalizzati Y 1,..., Y n variabili aleatorie indipendenti con f(y i, θ i ) = exp[y i b(θ i ) + c(θ i ) + d(y i )] i = 1,..., n Ciascuna osservazione è associata ad un parametro θ i

Relazione tra il valore atteso dell i-esima osservazione E(Y i ) = µ i e una combinazione lineare degli elementi del vettore β = (β 1,..., β p ) di p < n parametri g(µ i ) = X i β = η i i = 1,..., n g funzione link monotona e differenziabile X i vettore di p osservazioni di altrettante covariate o di indicatori di livello di fattori β vettore dei parametri η i predittore lineare

Variabile risposta dicotomica Y i,..., Y n hanno distribuzione bernoulliana f(y i, θ i ) = { θi y i = 1 1 θ i y i = 0 i = 1,..., n Famiglia esponenziale in forma canonica f(y i, θ i ) = θ y i i (1 θ i) 1 y i = exp [ y i log parametro naturale φ i = log[θ i /(1 θ i )] θ i 1 θ i + log(1 θ i ) ] valore atteso µ i = E(Y i ) = θ i

funzione link logit g(µ i ) = log ( ) µi 1 µ i modello logit o di regressione logistica g(µ i ) = X i β µ i = exp(x i β) exp(x i β) + 1 i = 1,..., n

funzione link probit g(µ i ) = Φ 1 (µ i ) con Φ funzione di ripartizione della normale standardizzata modello di dipendenza per dati dicotomici µ i = Φ(X i β) i = 1,..., n

funzione link doppio logaritmica g(µ i ) = log[ log(1 µ i )] modello di dipendenza per dati dicotomici µ i = 1 exp[ exp(x i β)] i = 1,..., n

Variabile risposta continua (simmetrica) Y 1,..., Y n hanno distribuzione normale [ 1 f(y i, θ i ) = (2πσ 2 exp 1 ) 1/2 2σ 2(y i θ i ) 2 ] i = 1,..., n Famiglia esponenziale in forma canonica f(y i, θ i ) = exp parametro naturale φ i = θ i /σ 2 [ y2 i 2σ 2 + y iθ i σ 2 θ2 i 2σ 2 1 2 log(2πσ2 ) ] valore atteso µ i = E(Y i ) = θ i

funzione link identità g(µ i ) = µ i modello lineare generale µ i = X i β i = 1,..., n

Variabile risposta a valori interi positivi (conteggi) Y 1,..., Y n hanno distribuzione di Poisson f(y i, θ i ) = θy i i e θ i y i! i = 1,..., n Famiglia esponenziale in forma canonica f(y i, θ i ) = exp[y i log θ i θ i log y i!] parametro naturale φ i = log θ i valore atteso µ i = E(Y i ) = θ i

funzione link logaritmica g(µ i ) = log µ i modello di regressione di Poisson µ i = exp(x i β) i = 1,..., n

In generale Funzioni link canoniche: la forma funzionale del link coincide con la funzione di θ che definisce il parametro naturale Funzione link potenza (per variabili risposta continue) g(µ i ) = { µ α i α 0 log µ i α = 0

Stima dei parametri log-verosimiglianza di y = (y 1,..., y n ) l(θ, y) = n i=1 (y i b(θ i ) + c(θ i ) + d(y i )) = n l i i=1 vettore total score rispetto a β per j = 1,..., p U(β j ) = l(θ, y) β j = n i=1 l i β j = = n i=1 (y i µ i )X ij var(y i ) µ i η i p equazioni di verosimiglianza non lineari U(β j ) = 0 j = 1,..., p

Metodo di Newton Raphson m-esima approssimazione della soluzione dell equazione non lineare h(x) = 0 x (m) = x (m 1) h[x(m 1) ] h [x (m 1) ] m-esima approssimazione della soluzione del sistema U(β j ) = 0 per j = 1,..., p ˆβ (m) = ˆβ (m 1) [U 1 (ˆβ (m 1) )] 1 U(ˆβ (m 1) ) con U 1 (ˆβ (m 1) ) matrice delle derivate seconde di l(y, θ) rispetto agli elementi di β

Metodo di scoring la matrice delle derivate seconde U 1 è sostituita dal suo valore atteso [ I(β) jk ], essendo E [ 2 l β j β k ] = I(β) jk j, k = 1,..., p I metodi di scoring e di Newton Raphson coincidono nel caso di funzioni link canoniche

Distribuzione campionaria degli stimatori espansione in serie di Taylor del primo ordine del vettore U(β) nel punto β = ˆβ U(β) = U(ˆβ) + U 1 (ˆβ)(β ˆβ) al divergere dell ampiezza campionaria (ˆβ β) = I 1 (β)u(β) E[U(β)] = 0 implica che ˆβ è uno stimatore asintoticamente corretto di β La matrice di varianze e covarianze di ˆβ è data da E[(ˆβ β)(ˆβ β) ] = = I 1 (β)

per campioni numerosi si considera l approssimazione ˆβ β N p ( o, I 1 (β) ) statistica di Wald (ˆβ β) I(β)(ˆβ β) χ 2 p

Verifica dell adeguatezza del modello confronto tra un modello e il corrispondente modello massimale o saturato, basato sulla stessa forma distributiva e con la stessa funzione link, ma con un numero di parametri corrispondente alla numerosità del collettivo

test del rapporto di verosimiglianze generalizzato λ = L(ˆβ, y) L(ˆβ max, y) distribuzione asintotica è ottenuta tramite l approssimazione di Wilks con n p gradi di libertà devianza: rappresenta la misura del miglior adattamento del modello saturato rispetto a quello con p < n variabili esplicative D = 2 log λ = 2[l(ˆβ, y) l(ˆβ max, y)]

Quasi verosimiglianza metodo di stima applicabile senza assunzioni distributive assunzione sui momenti secondi cov(y ) = σ 2 Ω(µ) con σ 2 ed Ω(µ) rispettivamente parametro di dispersione e matrice n n di funzioni note di µ i per i = 1,..., n

minimi quadrati ponderati: si individua il vettore β che minimizza la forma quadratica [Y g 1 (X β)] [Ω(µ)] 1 [Y g 1 (X β)] se Ω(µ) non dipendesse da β si otterrebbero le equazioni di stima dette equazioni di quasi verosimiglianza D [Ω(µ)] 1 [Y g 1 (X ˆβ)] = o con D matrice n p di elemento generico µ i / β j

funzione di quasi verosimiglianza q(β) = D [Ω(µ)] 1 [Y g 1 (X β)] Proprietà E[q(β)] = o E[q (β)] = D [Ω(µ)] 1 D σ 2 D [Ω(µ)] 1 D = Cov[q(β)] la funzione q(β) si comporta in modo analogo alla funzione score dal punto di vista dei primi due momenti

le proprietà appena viste implicano la consistenza e la normalità asintotica degli stimatori ˆβ ottenuti come soluzione dell equazione q(ˆβ) = o