Il modello di regressione lineare multivariata

Похожие документы
Il modello di regressione lineare multivariata

Il modello di regressione lineare multipla con regressori stocastici

Regressione lineare multipla

Università di Pavia. Test diagnostici. Eduardo Rossi

Il modello di regressione lineare multipla. Il modello di regressione lineare multipla

Statistica Applicata all edilizia: il modello di regressione

Il modello di regressione lineare classico

Regressione lineare semplice: inferenza

Regressione lineare con un solo regressore

Esercitazione 5 Sta/s/ca Aziendale

Regressione Mario Guarracino Laboratorio di Sistemi Informativi Aziendali a.a. 2006/2007

MODELLO DI REGRESSIONE LINEARE. le ipotesi del modello di regressione classico, stima con i metodi dei minimi quadrati e di massima verosimiglianza,

R - Esercitazione 6. Andrea Fasulo Venerdì 22 Dicembre Università Roma Tre

Statistica. Capitolo 12. Regressione Lineare Semplice. Cap. 12-1

Esercitazione del

IL MODELLO DI REGRESSIONE LINEARE SEMPLICE E MULTIPLA* La violazione delle ipotesi. Statistica Economica A.A. 2011/2012. Prof.ssa Tiziana Laureti

STATISTICA A K (60 ore)

Regressione lineare semplice

Statistica 1 A.A. 2015/2016

ANALISI DELLE SERIE STORICHE

Analisi della correlazione canonica

La multicollinearità sorge quando c è un elevata correlazione tra due o più variabili esplicative.

La regressione fuzzy. Capitolo I limiti della regressione classica. a cura di Fabrizio Maturo

lezione n. 6 (a cura di Gaia Montanucci) Verosimiglianza: L = = =. Parte dipendente da β 0 e β 1

Dispensa di Statistica

Statistica. Alfonso Iodice D Enza

Regressione multipla

Statistica multivariata Donata Rodi 17/10/2016

Metodi statistici per l economia (Prof. Capitanio) Slide n. 10. Materiale di supporto per le lezioni. Non sostituisce il libro di testo

Statistica di base per l analisi socio-economica

Appunti di Econometria

Verifica di ipotesi e intervalli di confidenza nella regressione multipla

Statistica per le ricerche di mercato. 11. La regressione lineare multipla

Elementi di statistica per l econometria

Regressione Lineare Semplice e Correlazione

Variabili indipendenti qualitative. In molte applicazioni si rende necessario l introduzione di un fattore a due o più livelli.

Confronto fra gruppi: il metodo ANOVA. Nicola Tedesco (Statistica Sociale) Confronto fra gruppi: il metodo ANOVA 1 / 23

Statistica. Alfonso Iodice D Enza

LEZIONI IN LABORATORIO Corso di MARKETING L. Baldi Università degli Studi di Milano. Strumenti statistici in Excell

Modelli lineari generalizzati

1 Endogeneità, variabili strumentali

Metodi di analisi statistica multivariata

Corso di Statistica Industriale

Settimana 3. G. M. Marchetti. Marzo 2017

Funzioni di regressione non lineari

PROBABILITÀ ELEMENTARE

MODELLO DI REGRESSIONE PER DATI DI PANEL

Test delle Ipotesi Parte I

Appunti di Econometria

Lezione 18. Statistica. Alfonso Iodice D Enza Università degli studi di Cassino. Lezione 18. A. Iodice

x, y rappresenta la coppia di valori relativa La rappresentazione nel piano cartesiano dei punti ( x, y ),( x, y ),...,( x, y )

Schema della lezione. 1. Non correttezza ( bias ) dovuta a variabili omesse

Minimi quadrati vincolati e test F

3.1 Classificazione dei fenomeni statistici Questionari e scale di modalità Classificazione delle scale di modalità 17

La regressione (S. Terzi) 1. Retta di regressione (regressione lineare semplice)

Test F per la significatività del modello

STATISTICA (2) ESERCITAZIONE Dott.ssa Antonella Costanzo

Sommario. Capitolo 1 I dati e la statistica 1. Capitolo 2 Statistica descrittiva: tabelle e rappresentazioni grafiche 25

PROCEDURE/TECNICHE DI ANALISI / MISURE DI ASSOCIAZIONE A) ANALISI DELLA VARIANZA

Stima dei sistemi di equazioni simultanee

Regressioni Non Lineari

Statistica Inferenziale

Il modello lineare misto

CORSO DI STATISTICA (parte 2) - ESERCITAZIONE 5

Introduzione al corso di Econometria

Teoria e tecniche dei test. Concetti di base

STATISTICA 1, metodi matematici e statistici Introduzione al linguaggio R Esercitazione 7:

Statistica a lungo termine: calcolo dell onda di progetto

Proprietà asintotiche stimatori OLS e statistiche collegate

Esercizi di statistica

La regressione logistica

Concetti di teoria dei campioni ad uso degli studenti di Statistica Economica e Finanziaria, A.A. 2016/2017. Giovanni Lafratta

Laboratorio di Didattica di elaborazione dati 5 STIMA PUNTUALE DEI PARAMETRI. x i. SE = n.

Università del Piemonte Orientale Specializzazioni di area sanitaria Statistica Medica

Statistica. Alfonso Iodice D Enza

Analisi descrittiva: calcolando medie campionarie, varianze campionarie e deviazioni standard campionarie otteniamo i dati:

Analisi della correlazione canonica

LE DISTRIBUZIONI CAMPIONARIE

Data Mining. Prova parziale del 20 aprile 2017: SOLUZIONE

Il modello di regressione (VEDI CAP 12 VOLUME IEZZI, 2009)

Транскрипт:

Il modello di regressione lineare multivariata Eduardo Rossi 2 2 Università di Pavia (Italy) Aprile 2015 Rossi MRLM Econometria - 2015 1 / 39

Outline 1 Notazione 2 il MRLM - Assunzioni 3 OLS 4 Proprietà stimatore OLS 5 Geometria degli OLS 6 Il modello partizionato 7 La distribuzione degli OLS nel MRLM con due regressori 8 Collinearità Rossi MRLM Econometria - 2015 2 / 39

Notazione Il MRLM Il modello di regressione lineare multipla: Y i = β 0 + β 1 X 1i +... + β k X ki + u i i = 1, 2,..., n β 0, β 1,... β k parametri fissi ma ignoti, u i ignoto, Y i regredendo, v.casuale, X ik regressore, covariata casuale. 1 β = [β 0, β 1, β 2,..., β k ] X 1i ((k + 1) 1) X i = ((k + 1) 1). 1 y i = [β 0, β 1,..., β k ] X 1i. + u i X ki Y i = β X i + u i X ki i = 1, 2,..., n Rossi MRLM Econometria - 2015 3 / 39

Notazione Notazione Notazione matriciale Y = X = Y 1. Y n X 1. X n (n 1) = 1 X 11 X 21... X k1 1 X 12 X 22... X k2.... 1 X 1n X 2n... X kn u 1 u 2 u =. u n (n 1) (n (k + 1)) Rossi MRLM Econometria - 2015 4 / 39

Notazione X 1 β. X nβ = Xβ Il vettore Y raccoglie tutte le osservazioni della variabile dipendente. La matrice X raccoglie le osservazioni sulle variabili esplicative. Ogni colonna di X contiene tutte le osservazioni per la singola variabile esplicativa. Il MRLM in notazione matriciale: Y = Xβ + u Rossi MRLM Econometria - 2015 5 / 39

il MRLM - Assunzioni MRLM - Assunzioni 1. La media condizionale è lineare: E[Y i X i ] = X iβ 2. Campionamento casuale. Per ogni istante (unità) i un nuovo vettore (Y i, X i ) è estratto dalla popolazione in modo indipendente. Rossi MRLM Econometria - 2015 6 / 39

il MRLM - Assunzioni MRLM - Assunzioni La conoscenza di x j per ogni j i non può aiutare nella previsione di Y i : (Y i, X i ) sono estratti in modo indipendente, questo significa: E[Y i X 1,..., X i,..., X n ] = X iβ i = 1,..., n e E[Y i X 1,..., X i,..., X n, Y 1,..., Y i 1, Y i+1,..., Y n ] = X iβ Rossi MRLM Econometria - 2015 7 / 39

il MRLM - Assunzioni 3. Il rango di X è k + 1. 4. Il termine di disturbo E[u X] = 0 E[uu X] = σui 2 N In modo non condizionale, per la legge delle aspettative iterate: E{E[u X]} = E[u] = 0 E{E[uu X]} = E[uu ] = σui 2 N Rossi MRLM Econometria - 2015 8 / 39

OLS Il metodo dei minimi quadrati I caratteri variano simultaneamente tra gli individui. Il metodo dei minimi quadrati ordinari è un modo per scomporre le differenze nella variabile dipendente fra diverse caratteristiche osservate (variabili esplicative) per le diverse unità nel campione. Il metodo dei minimi quadrati ordinari (in inglese Ordinary Least Squares, OLS) è usato per stimare il valore di β i, i = 1,..., k. Questi sono scelti in modo tale che siano la soluzione al seguente problema: min β 0,β 1,...,β K n [Y i (β 0 + β 1 X 1i + β 2 X 2i +... + β k X ki )] 2 i=1 Il termine minimi quadrati si riferisce alla minimizzazione della somma delle differenze al quadrato: gli scarti. [Y i (β 0 + β 1 X 1i +... + β k X ki )] Rossi MRLM Econometria - 2015 9 / 39

OLS La somma dei quadrati La funzione obiettivo f(β 0, β 1,..., β k ) = n [Y i (β 0 + β 1 X 1i + β 2 X 2i +... + β k X ik )] 2 (1) i=1 è la sum of squared residuals (somma dei quadrati dei residui). Quando i residui sono valutati in β 1,..., β k i residui sono detti fitted residuals (residui fittati, o residui della regressione). Rossi MRLM Econometria - 2015 10 / 39

OLS Lo stimatore dei minimi quadrati (OLS) Il metodo dei minimi quadrati risolve il problema Definiamo β arg min(y Xβ) (Y Xβ) β S(β) (Y Xβ) (Y Xβ) = i (Y i X iβ) 2 Rossi MRLM Econometria - 2015 11 / 39

OLS Lo stimatore dei minimi quadrati (OLS) S(β) β = i (Y i X i β)2 β i = (Y i X i β)2 β i = 2 (Y i X i β) (β X i ) β ma segue che β β X i = I k X i = X i i 2 (Y i β X i ) (β X i ) = 2 β i (Y i X iβ)x i Rossi MRLM Econometria - 2015 12 / 39

OLS Lo stimatore dei minimi quadrati (OLS) Condizione del primo ordine: (Y i X i β)x i = 0 ovvero i X i Y i = X i X i β i i [ ] 1 β = X i X i X i Y i i β = ( X X ) 1 X Y Gli OLS sono delle somme ponderate delle {Y i }, cioè sono funzioni lineari della variabile dipendente. Questa linearità in {Y i } semplifica l analisi statistica degli OLS. i Rossi MRLM Econometria - 2015 13 / 39

Proprietà stimatore OLS Non distorsione β = (X X) 1 X Y = β + (X X) 1 X u E[ β X] = β + (X X) 1 X E[u X] = β + (X X) 1 X 0 = β Lo stimatore OLS è condizionalmente non distorto, ma anche non condizionatamente (per la legge delle aspettative iterate): E{E[ β X]} = E[ β] = β Rossi MRLM Econometria - 2015 14 / 39

Proprietà stimatore OLS inoltre, [ ] E X β X = Xβ [ E [ ɛ X] = E ] Y X β X = E [Y X] E = Xβ XE[ β X] = Xβ Xβ = 0 [ X β X ] Rossi MRLM Econometria - 2015 15 / 39

Proprietà stimatore OLS Proprietà stimatore OLS Varianza dello stimatore OLS: Var[ β X] = E[( β β)( β β) X] = E[(X X) 1 X uu X(X X) 1 X] = (X X) 1 X E[uu X]X(X X) 1 = σ 2 u(x X) 1 La matrice di covarianza misura quanto informatico è il campione per i parametri. La varianza non condizionale Var[ β] = E{Var[ β X]} = σ 2 ue[(x X) 1 ] Se viene ripetuto l esperimento casuale con estrazioni casuali di X, la distribuzione di β è descritta da Var[ β]. Rossi MRLM Econometria - 2015 16 / 39

Geometria degli OLS Matrici di proiezione Data Simmetrica: P X = X(X X) 1 X P X = P X Idempotente: P X P X = [X(X X) 1 X ][X(X X) 1 X ] = X(X X) 1 (X X)(X X) 1 X = X(X X) 1 X = P X con P X X = [X(X X) 1 X ]X = X Rossi MRLM Econometria - 2015 17 / 39

Geometria degli OLS Valori stimati Valori stimati: Ŷ = X β = X(X X) 1 X Y = P X Y Rossi MRLM Econometria - 2015 18 / 39

Geometria degli OLS Residui Residui û = Y X β = Y (X X) 1 X Y = [ I n X(X X) 1 X ] Y = [I n P X ] Y = M X Y con dove M X = I n P X M X X = (I n P X )X = X X = 0 û = M X Y = M X (Xβ + u) = M X u Rossi MRLM Econometria - 2015 19 / 39

Geometria degli OLS Matrici di proiezione M X è simmetrica ed idempotente (come P X ). Inoltre, M X e P X sono ortogonali. P X M X = P X (I n P X ) = P X P X = 0 Rossi MRLM Econometria - 2015 20 / 39

Geometria degli OLS I residui û = M X Y = M X (Xβ + u) = M X Xβ + M X u = M X u Sebbene i residui siano stime di variabili non correlate per assunzione risultano correlati E[ûû X] = E[M X uu M X X] = σ 2 um X la distribuzione è singolare, la matrice di varianza-covarianza è singolare con rango n k 1. Questa è la conseguenza dell ortogonalità con X. Rossi MRLM Econometria - 2015 21 / 39

Geometria degli OLS Stima della varianza dell errore E[u 2 i X] = σ 2 u Per la legge delle aspettative iterate: Stimatore non distorto: E{E[u 2 i X]} = E[u 2 i ] = σ 2 u s 2 u = û û n k 1 Per dimostrare la correttezza usiamo le seguenti proprietà della traccia a = tr(a) a R tr(ab) = tr(ba) Rossi MRLM Econometria - 2015 22 / 39

Geometria degli OLS Stima della varianza dell errore E[s 2 u X] = E[u M X u X] n k 1 = E[tr(u M X u) X] n k 1 = E[tr(M Xuu ) X] = tr[e(m Xuu X)] n k 1 n k 1 = tr[m XE(uu X)] n k 1 = tr(m XσuI 2 N ) = tr(σ2 um X ) N K n k 1 = tr(m X ) σ2 u n k 1 = n k 1 σ2 u n k 1 = σu 2 Rossi MRLM Econometria - 2015 23 / 39

Geometria degli OLS Stima della varianza dell errore Non condizionatamente: [ û ] û E n k 1 = σ 2 u s 2 u è corretto solo nel caso di disturbi omoschedastici (E[uu ] = σ 2 ui n ). Rossi MRLM Econometria - 2015 24 / 39

Il modello partizionato Il modello partizionato Assunzioni X, (n (k + 1)), è una matrice di rango-colonna pieno, n > k + 1. Il modello partizionato è utile per descrivere come gli OLS assegnano valori agli elementi di β quando tutte le variabili esplicative cambiano da osservazione a osservazione. Y = Xβ + u = [ X 1 X 2 ] [ β 1 β 2 X 1 (n k 1 ) X 2 (n k 2 ) β 1 (k 1 1) β 2 (k 2 1) ] = X 1 β 1 + X 2 β 2 + u Rossi MRLM Econometria - 2015 25 / 39

Il modello partizionato Il modello partizionato Frisch e Waugh (1933), Lowell (1963). Y = P X Y + (I n P X )Y = P X Y + M X Y P X Y = X 1 β1 + X 2 β2 Y = X 1 β1 + X 2 β2 + M X Y M X2 = I n X 2 (X 2X 2 ) 1 X 2 Premoltiplichiamo con X 1 M X 2 : X 1M X2 Y = X 1M X2 X 1 β1 + X 1M X2 X 2 β2 + X 1M X2 M X Y ma M X2 X 2 = 0 M X M X2 X 1 = 0 perchè M X2 X 1 Col(X). Rossi MRLM Econometria - 2015 26 / 39

Il modello partizionato Il modello partizionato Risolvendo per β 1 si ottiene β 1 = ( X 1M X2 X 1 ) 1 X 1 M X2 Y Quindi lo stimatore β 1 può essere trovato con una procedura a due stadi: 1 regressione di X 1 su X 2, da cui si ottengono i residui M X2 X 1 ; 2 regressione di Y sui residui della regressione del primo stadio, M X2 X 1. β 1 cattura la componente di y collineare con X 1 che non può essere spiegata da X 2. Rossi MRLM Econometria - 2015 27 / 39

Il modello partizionato Il modello partizionato Con errori omoschedastici: ˆβ 1 = ( X ) 1 1M X2 X 1 X 1 M X2 Y = ( X ) 1 1M X2 X 1 X 1 M X2 [X 1 β 1 + X 2 β 2 + u] = β 1 + ( X ) 1 1M X2 X 1 X 1 M X2 u Var[ˆβ 1 X] = E[(β 1 ˆβ 1 )(β 1 ˆβ 1 ) X] = E[ ( X ) 1 1M X2 X 1 X 1 M X2 uu ( ) M X2 X 1 X 1 1 M X2 X 1 X] = ( X ) 1 1M X2 X 1 X 1 M X2 E[uu ( ) X]M X2 X 1 X 1 1 M X2 X 1 = σu 2 ( ) X 1 ( ) 1 M X2 X 1 X 1 M X2 X 1 X 1 1 M X2 X 1 = σu 2 ( ) X 1 1 M X2 X 1 Rossi MRLM Econometria - 2015 28 / 39

Il modello partizionato La distribuzione degli stimatori OLS nel MRLM Sotto le quattro assunzioni dei minimi quadrati: La distribuzione campionaria di ˆβ 1 ha media β 1 Var( ˆβ 1 ) è inversamente proporzionale a n. Al di là di media e varianza, la distribuzione esatta (n-finita) di ˆβ i molto complessa; ma per n grande... p è consistente: ˆβ1 β1 (legge dei grandi numeri) è approssimata da una distribuzione N(0,1) (TLC) Queste proprietà valgono per ˆβ 2,..., ˆβ k Concettualmente, non vi è nulla di nuovo! Rossi MRLM Econometria - 2015 29 / 39

La distribuzione degli OLS nel MRLM con due regressori La distribuzione degli stimatori OLS nella regressione con due regressori Y i = β 1 X 1i + β 2 X 2i + u i Errori omoschedastici: Var[u i X 1i, X 2i ] = σu 2 notazione matriciale: Y = β 1 X 1 + β 2 X 2 + u ˆβ 1 = ( X ) 1 1M X2 X 1 X 1 M X2 Y X 2 = I n X 2 (X 2X 2 ) 1 X 2 In grandi campioni, la distribuzione di ˆβ 1 ˆβ 1 N(β 1, σ 2ˆβ1 ) Rossi MRLM Econometria - 2015 30 / 39

La distribuzione degli OLS nel MRLM con due regressori La distribuzione degli stimatori OLS nella regressione con due regressori Var( ˆβ 1 X) = σu 2 ( ) X 1 1 M X2 X 1 [ X 1 X 1 X 1X 2 (X 2X 2 ) 1 X ] 1 2X 1 = σu 2 = σu 2 1 X 1 X 1 = σu 2 1 X 1 X 1 [ 1 [ 1 (X 1 X 2) 2 ] (X 2 X 2)(X 1 X 1) (X 1 X 2) 2 (X 2 X 2)(X 1 X 1) σ 2 u Var( ˆβ 1 ) = σ 2ˆβ1 = 1 n σx 2 (1 ρ 2 X 1,X 2 ) 1 1 ] 1 Se X 1 e X 2 sono fortemente correlati allora 1 ρ 2 X 1,X 2 0 e la varianza di ˆβ 1 è più grande di quella che si avrebbe se ρ 2 X 1,X 2 0. Rossi MRLM Econometria - 2015 31 / 39

Collinearità Collinearità perfetta La collinearità perfetta si ha quando uno dei regressori è una funzione lineare esatta degli altri. Esempi di collinearità perfetta Includere STR due volte, Eseguite la regressione di TestScore su una costante e due variabili dummy, D e B { 1 se STR 20 D i = 0 altrimenti { 1 se STR > 20 B i = 0 altrimenti perciò B i = 1 D i e vi è collinearità perfetta. Ci sarebbe collinearità perfetta se l intercetta (costante) fosse esclusa da questa regressione? Questo esempio è un caso di trappola della dummy. Rossi MRLM Econometria - 2015 32 / 39

Collinearità Dummy per fenomeni stagionali Consumo: C i = β 0 + β 1 D 1i + β 2 D 2i + βd 3i + β 4 X i + u i { 0 i = secondo, terzo e quarto trimestre D 1i = 1 i = primo trimestre { 0 i = primo, terzo e quarto trimestre D 2i = 1 i = secondo trimestre { 0 i = primo, secondo e quarto trimestre D 3i = 1 i = terzo trimestre La quarta equazione non ha dummy. E l equazione di riferimento cioè la base di partenza rispetto alla quale c è la correzione di intercetta. Rossi MRLM Econometria - 2015 33 / 39

Collinearità Dummy per fenomeni stagionali n = 8, 8 trimestri X = 1 X 1 1 0 0 1 X 2 0 1 0 1 X 3 0 0 1 1 X 4 0 0 0 1 X 5 1 0 0 1 X 6 0 1 0 1 X 7 0 0 1 1 X 8 0 0 0 Le ultime tre colonne rappresentano le 3 dummy. Rossi MRLM Econometria - 2015 34 / 39

Collinearità Dummy per fenomeni stagionali Attenzione: Se inseriamo la quarta dummy la prima colonna X = 1 X 1 1 0 0 0 1 X 2 0 1 0 0 1 X 3 0 0 1 0 1 X 4 0 0 0 1 1 X 5 1 0 0 0 1 X 6 0 1 0 0 1 X 7 0 0 1 0 1 X 8 0 0 0 1 X 1 = X 3 + X 4 + X 5 + X 6 abbiamo una matrice di rango ridotto (collinearità perfetta). Rossi MRLM Econometria - 2015 35 / 39

Collinearità Dummy per fenomeni stagionali Con dati trimestrali si usano 3 dummy, con dati mensili si usano 11 dummy. La presenza di outlier la si può accertare, in prima istanza, attraverso l analisi dei residui. Quando vi sono residui molto grandi è probabile che siamo in presenza di un outlier. Rossi MRLM Econometria - 2015 36 / 39

Collinearità Collinearità perfetta Con G variabili binarie, Se ogni osservazione rientra in una e una sola categoria. se c è un intercetta nella regressione. se tutte le variabili binarie G sono incluse come regressori. allora ci sarà collinearità perfetta. Per eliminare la collinearità perfetta dobbiamo escludere una delle variabili binarie. In questo caso i coefficienti associati con le variabili binarie incluse devono essere interpretati come deviazione dal livello medio. Rossi MRLM Econometria - 2015 37 / 39

Collinearità Collinearità perfetta La collinearità perfetta solitamente riflette un errore nelle definizioni dei regressori, o una stranezza nei dati Se avete collinearità perfetta, il software statistico ve lo farà sapere bloccandosi, o mostrando un messaggio di errore, o scaricando arbitrariamente una delle variabili La soluzione alla collinearità perfetta consiste nel modificare l elenco di regressori. Rossi MRLM Econometria - 2015 38 / 39

Collinearità Collinearità imperfetta La collinearità imperfetta è ben diversa dalla collinearità perfetta, nonostante la somiglianza dei nomi La collinearità imperfetta si verifica quando due o più regressori sono altamente correlati. Perchè si usa il termine collinearità? Se due regressori sono altamente correlati, allora il loro diagramma a nuvola apparirà molto simile a una retta sono co-lineari ma a meno che la correlazione sia esattamente = 1, tale collinearità è imperfetta. Rossi MRLM Econometria - 2015 39 / 39