Il modello di regressione lineare multivariata

Il modello di regressione lineare multivariata Eduardo Rossi 2 2 Università di Pavia (Italy) Aprile 2015 Rossi MRLM Econometria - 2015 1 / 39

Outline 1 Notazione 2 il MRLM - Assunzioni 3 OLS 4 Proprietà stimatore OLS 5 Geometria degli OLS 6 Il modello partizionato 7 La distribuzione degli OLS nel MRLM con due regressori 8 Collinearità Rossi MRLM Econometria - 2015 2 / 39

Notazione Il MRLM Il modello di regressione lineare multipla: Y i = β 0 + β 1 X 1i +... + β k X ki + u i i = 1, 2,..., n β 0, β 1,... β k parametri fissi ma ignoti, u i ignoto, Y i regredendo, v.casuale, X ik regressore, covariata casuale. 1 β = [β 0, β 1, β 2,..., β k ] X 1i ((k + 1) 1) X i = ((k + 1) 1). 1 y i = [β 0, β 1,..., β k ] X 1i. + u i X ki Y i = β X i + u i X ki i = 1, 2,..., n Rossi MRLM Econometria - 2015 3 / 39

Notazione Notazione Notazione matriciale Y = X = Y 1. Y n X 1. X n (n 1) = 1 X 11 X 21... X k1 1 X 12 X 22... X k2.... 1 X 1n X 2n... X kn u 1 u 2 u =. u n (n 1) (n (k + 1)) Rossi MRLM Econometria - 2015 4 / 39

Notazione X 1 β. X nβ = Xβ Il vettore Y raccoglie tutte le osservazioni della variabile dipendente. La matrice X raccoglie le osservazioni sulle variabili esplicative. Ogni colonna di X contiene tutte le osservazioni per la singola variabile esplicativa. Il MRLM in notazione matriciale: Y = Xβ + u Rossi MRLM Econometria - 2015 5 / 39

il MRLM - Assunzioni MRLM - Assunzioni 1. La media condizionale è lineare: E[Y i X i ] = X iβ 2. Campionamento casuale. Per ogni istante (unità) i un nuovo vettore (Y i, X i ) è estratto dalla popolazione in modo indipendente. Rossi MRLM Econometria - 2015 6 / 39

il MRLM - Assunzioni MRLM - Assunzioni La conoscenza di x j per ogni j i non può aiutare nella previsione di Y i : (Y i, X i ) sono estratti in modo indipendente, questo significa: E[Y i X 1,..., X i,..., X n ] = X iβ i = 1,..., n e E[Y i X 1,..., X i,..., X n, Y 1,..., Y i 1, Y i+1,..., Y n ] = X iβ Rossi MRLM Econometria - 2015 7 / 39

il MRLM - Assunzioni 3. Il rango di X è k + 1. 4. Il termine di disturbo E[u X] = 0 E[uu X] = σui 2 N In modo non condizionale, per la legge delle aspettative iterate: E{E[u X]} = E[u] = 0 E{E[uu X]} = E[uu ] = σui 2 N Rossi MRLM Econometria - 2015 8 / 39

OLS Il metodo dei minimi quadrati I caratteri variano simultaneamente tra gli individui. Il metodo dei minimi quadrati ordinari è un modo per scomporre le differenze nella variabile dipendente fra diverse caratteristiche osservate (variabili esplicative) per le diverse unità nel campione. Il metodo dei minimi quadrati ordinari (in inglese Ordinary Least Squares, OLS) è usato per stimare il valore di β i, i = 1,..., k. Questi sono scelti in modo tale che siano la soluzione al seguente problema: min β 0,β 1,...,β K n [Y i (β 0 + β 1 X 1i + β 2 X 2i +... + β k X ki )] 2 i=1 Il termine minimi quadrati si riferisce alla minimizzazione della somma delle differenze al quadrato: gli scarti. [Y i (β 0 + β 1 X 1i +... + β k X ki )] Rossi MRLM Econometria - 2015 9 / 39

OLS La somma dei quadrati La funzione obiettivo f(β 0, β 1,..., β k ) = n [Y i (β 0 + β 1 X 1i + β 2 X 2i +... + β k X ik )] 2 (1) i=1 è la sum of squared residuals (somma dei quadrati dei residui). Quando i residui sono valutati in β 1,..., β k i residui sono detti fitted residuals (residui fittati, o residui della regressione). Rossi MRLM Econometria - 2015 10 / 39

OLS Lo stimatore dei minimi quadrati (OLS) Il metodo dei minimi quadrati risolve il problema Definiamo β arg min(y Xβ) (Y Xβ) β S(β) (Y Xβ) (Y Xβ) = i (Y i X iβ) 2 Rossi MRLM Econometria - 2015 11 / 39

OLS Lo stimatore dei minimi quadrati (OLS) S(β) β = i (Y i X i β)2 β i = (Y i X i β)2 β i = 2 (Y i X i β) (β X i ) β ma segue che β β X i = I k X i = X i i 2 (Y i β X i ) (β X i ) = 2 β i (Y i X iβ)x i Rossi MRLM Econometria - 2015 12 / 39

OLS Lo stimatore dei minimi quadrati (OLS) Condizione del primo ordine: (Y i X i β)x i = 0 ovvero i X i Y i = X i X i β i i [ ] 1 β = X i X i X i Y i i β = ( X X ) 1 X Y Gli OLS sono delle somme ponderate delle {Y i }, cioè sono funzioni lineari della variabile dipendente. Questa linearità in {Y i } semplifica l analisi statistica degli OLS. i Rossi MRLM Econometria - 2015 13 / 39

Proprietà stimatore OLS Non distorsione β = (X X) 1 X Y = β + (X X) 1 X u E[ β X] = β + (X X) 1 X E[u X] = β + (X X) 1 X 0 = β Lo stimatore OLS è condizionalmente non distorto, ma anche non condizionatamente (per la legge delle aspettative iterate): E{E[ β X]} = E[ β] = β Rossi MRLM Econometria - 2015 14 / 39

Proprietà stimatore OLS inoltre, [ ] E X β X = Xβ [ E [ ɛ X] = E ] Y X β X = E [Y X] E = Xβ XE[ β X] = Xβ Xβ = 0 [ X β X ] Rossi MRLM Econometria - 2015 15 / 39

Proprietà stimatore OLS Proprietà stimatore OLS Varianza dello stimatore OLS: Var[ β X] = E[( β β)( β β) X] = E[(X X) 1 X uu X(X X) 1 X] = (X X) 1 X E[uu X]X(X X) 1 = σ 2 u(x X) 1 La matrice di covarianza misura quanto informatico è il campione per i parametri. La varianza non condizionale Var[ β] = E{Var[ β X]} = σ 2 ue[(x X) 1 ] Se viene ripetuto l esperimento casuale con estrazioni casuali di X, la distribuzione di β è descritta da Var[ β]. Rossi MRLM Econometria - 2015 16 / 39

Geometria degli OLS Matrici di proiezione Data Simmetrica: P X = X(X X) 1 X P X = P X Idempotente: P X P X = [X(X X) 1 X ][X(X X) 1 X ] = X(X X) 1 (X X)(X X) 1 X = X(X X) 1 X = P X con P X X = [X(X X) 1 X ]X = X Rossi MRLM Econometria - 2015 17 / 39

Geometria degli OLS Valori stimati Valori stimati: Ŷ = X β = X(X X) 1 X Y = P X Y Rossi MRLM Econometria - 2015 18 / 39

Geometria degli OLS Residui Residui û = Y X β = Y (X X) 1 X Y = [ I n X(X X) 1 X ] Y = [I n P X ] Y = M X Y con dove M X = I n P X M X X = (I n P X )X = X X = 0 û = M X Y = M X (Xβ + u) = M X u Rossi MRLM Econometria - 2015 19 / 39

Geometria degli OLS Matrici di proiezione M X è simmetrica ed idempotente (come P X ). Inoltre, M X e P X sono ortogonali. P X M X = P X (I n P X ) = P X P X = 0 Rossi MRLM Econometria - 2015 20 / 39

Geometria degli OLS I residui û = M X Y = M X (Xβ + u) = M X Xβ + M X u = M X u Sebbene i residui siano stime di variabili non correlate per assunzione risultano correlati E[ûû X] = E[M X uu M X X] = σ 2 um X la distribuzione è singolare, la matrice di varianza-covarianza è singolare con rango n k 1. Questa è la conseguenza dell ortogonalità con X. Rossi MRLM Econometria - 2015 21 / 39

Geometria degli OLS Stima della varianza dell errore E[u 2 i X] = σ 2 u Per la legge delle aspettative iterate: Stimatore non distorto: E{E[u 2 i X]} = E[u 2 i ] = σ 2 u s 2 u = û û n k 1 Per dimostrare la correttezza usiamo le seguenti proprietà della traccia a = tr(a) a R tr(ab) = tr(ba) Rossi MRLM Econometria - 2015 22 / 39

Geometria degli OLS Stima della varianza dell errore E[s 2 u X] = E[u M X u X] n k 1 = E[tr(u M X u) X] n k 1 = E[tr(M Xuu ) X] = tr[e(m Xuu X)] n k 1 n k 1 = tr[m XE(uu X)] n k 1 = tr(m XσuI 2 N ) = tr(σ2 um X ) N K n k 1 = tr(m X ) σ2 u n k 1 = n k 1 σ2 u n k 1 = σu 2 Rossi MRLM Econometria - 2015 23 / 39

Geometria degli OLS Stima della varianza dell errore Non condizionatamente: [ û ] û E n k 1 = σ 2 u s 2 u è corretto solo nel caso di disturbi omoschedastici (E[uu ] = σ 2 ui n ). Rossi MRLM Econometria - 2015 24 / 39

Il modello partizionato Il modello partizionato Assunzioni X, (n (k + 1)), è una matrice di rango-colonna pieno, n > k + 1. Il modello partizionato è utile per descrivere come gli OLS assegnano valori agli elementi di β quando tutte le variabili esplicative cambiano da osservazione a osservazione. Y = Xβ + u = [ X 1 X 2 ] [ β 1 β 2 X 1 (n k 1 ) X 2 (n k 2 ) β 1 (k 1 1) β 2 (k 2 1) ] = X 1 β 1 + X 2 β 2 + u Rossi MRLM Econometria - 2015 25 / 39

Il modello partizionato Il modello partizionato Frisch e Waugh (1933), Lowell (1963). Y = P X Y + (I n P X )Y = P X Y + M X Y P X Y = X 1 β1 + X 2 β2 Y = X 1 β1 + X 2 β2 + M X Y M X2 = I n X 2 (X 2X 2 ) 1 X 2 Premoltiplichiamo con X 1 M X 2 : X 1M X2 Y = X 1M X2 X 1 β1 + X 1M X2 X 2 β2 + X 1M X2 M X Y ma M X2 X 2 = 0 M X M X2 X 1 = 0 perchè M X2 X 1 Col(X). Rossi MRLM Econometria - 2015 26 / 39

Il modello partizionato Il modello partizionato Risolvendo per β 1 si ottiene β 1 = ( X 1M X2 X 1 ) 1 X 1 M X2 Y Quindi lo stimatore β 1 può essere trovato con una procedura a due stadi: 1 regressione di X 1 su X 2, da cui si ottengono i residui M X2 X 1 ; 2 regressione di Y sui residui della regressione del primo stadio, M X2 X 1. β 1 cattura la componente di y collineare con X 1 che non può essere spiegata da X 2. Rossi MRLM Econometria - 2015 27 / 39

Il modello partizionato Il modello partizionato Con errori omoschedastici: ˆβ 1 = ( X ) 1 1M X2 X 1 X 1 M X2 Y = ( X ) 1 1M X2 X 1 X 1 M X2 [X 1 β 1 + X 2 β 2 + u] = β 1 + ( X ) 1 1M X2 X 1 X 1 M X2 u Var[ˆβ 1 X] = E[(β 1 ˆβ 1 )(β 1 ˆβ 1 ) X] = E[ ( X ) 1 1M X2 X 1 X 1 M X2 uu ( ) M X2 X 1 X 1 1 M X2 X 1 X] = ( X ) 1 1M X2 X 1 X 1 M X2 E[uu ( ) X]M X2 X 1 X 1 1 M X2 X 1 = σu 2 ( ) X 1 ( ) 1 M X2 X 1 X 1 M X2 X 1 X 1 1 M X2 X 1 = σu 2 ( ) X 1 1 M X2 X 1 Rossi MRLM Econometria - 2015 28 / 39

Il modello partizionato La distribuzione degli stimatori OLS nel MRLM Sotto le quattro assunzioni dei minimi quadrati: La distribuzione campionaria di ˆβ 1 ha media β 1 Var( ˆβ 1 ) è inversamente proporzionale a n. Al di là di media e varianza, la distribuzione esatta (n-finita) di ˆβ i molto complessa; ma per n grande... p è consistente: ˆβ1 β1 (legge dei grandi numeri) è approssimata da una distribuzione N(0,1) (TLC) Queste proprietà valgono per ˆβ 2,..., ˆβ k Concettualmente, non vi è nulla di nuovo! Rossi MRLM Econometria - 2015 29 / 39

La distribuzione degli OLS nel MRLM con due regressori La distribuzione degli stimatori OLS nella regressione con due regressori Y i = β 1 X 1i + β 2 X 2i + u i Errori omoschedastici: Var[u i X 1i, X 2i ] = σu 2 notazione matriciale: Y = β 1 X 1 + β 2 X 2 + u ˆβ 1 = ( X ) 1 1M X2 X 1 X 1 M X2 Y X 2 = I n X 2 (X 2X 2 ) 1 X 2 In grandi campioni, la distribuzione di ˆβ 1 ˆβ 1 N(β 1, σ 2ˆβ1 ) Rossi MRLM Econometria - 2015 30 / 39

La distribuzione degli OLS nel MRLM con due regressori La distribuzione degli stimatori OLS nella regressione con due regressori Var( ˆβ 1 X) = σu 2 ( ) X 1 1 M X2 X 1 [ X 1 X 1 X 1X 2 (X 2X 2 ) 1 X ] 1 2X 1 = σu 2 = σu 2 1 X 1 X 1 = σu 2 1 X 1 X 1 [ 1 [ 1 (X 1 X 2) 2 ] (X 2 X 2)(X 1 X 1) (X 1 X 2) 2 (X 2 X 2)(X 1 X 1) σ 2 u Var( ˆβ 1 ) = σ 2ˆβ1 = 1 n σx 2 (1 ρ 2 X 1,X 2 ) 1 1 ] 1 Se X 1 e X 2 sono fortemente correlati allora 1 ρ 2 X 1,X 2 0 e la varianza di ˆβ 1 è più grande di quella che si avrebbe se ρ 2 X 1,X 2 0. Rossi MRLM Econometria - 2015 31 / 39

Collinearità Collinearità perfetta La collinearità perfetta si ha quando uno dei regressori è una funzione lineare esatta degli altri. Esempi di collinearità perfetta Includere STR due volte, Eseguite la regressione di TestScore su una costante e due variabili dummy, D e B { 1 se STR 20 D i = 0 altrimenti { 1 se STR > 20 B i = 0 altrimenti perciò B i = 1 D i e vi è collinearità perfetta. Ci sarebbe collinearità perfetta se l intercetta (costante) fosse esclusa da questa regressione? Questo esempio è un caso di trappola della dummy. Rossi MRLM Econometria - 2015 32 / 39

Collinearità Dummy per fenomeni stagionali Consumo: C i = β 0 + β 1 D 1i + β 2 D 2i + βd 3i + β 4 X i + u i { 0 i = secondo, terzo e quarto trimestre D 1i = 1 i = primo trimestre { 0 i = primo, terzo e quarto trimestre D 2i = 1 i = secondo trimestre { 0 i = primo, secondo e quarto trimestre D 3i = 1 i = terzo trimestre La quarta equazione non ha dummy. E l equazione di riferimento cioè la base di partenza rispetto alla quale c è la correzione di intercetta. Rossi MRLM Econometria - 2015 33 / 39

Collinearità Dummy per fenomeni stagionali n = 8, 8 trimestri X = 1 X 1 1 0 0 1 X 2 0 1 0 1 X 3 0 0 1 1 X 4 0 0 0 1 X 5 1 0 0 1 X 6 0 1 0 1 X 7 0 0 1 1 X 8 0 0 0 Le ultime tre colonne rappresentano le 3 dummy. Rossi MRLM Econometria - 2015 34 / 39

Collinearità Dummy per fenomeni stagionali Attenzione: Se inseriamo la quarta dummy la prima colonna X = 1 X 1 1 0 0 0 1 X 2 0 1 0 0 1 X 3 0 0 1 0 1 X 4 0 0 0 1 1 X 5 1 0 0 0 1 X 6 0 1 0 0 1 X 7 0 0 1 0 1 X 8 0 0 0 1 X 1 = X 3 + X 4 + X 5 + X 6 abbiamo una matrice di rango ridotto (collinearità perfetta). Rossi MRLM Econometria - 2015 35 / 39

Collinearità Dummy per fenomeni stagionali Con dati trimestrali si usano 3 dummy, con dati mensili si usano 11 dummy. La presenza di outlier la si può accertare, in prima istanza, attraverso l analisi dei residui. Quando vi sono residui molto grandi è probabile che siamo in presenza di un outlier. Rossi MRLM Econometria - 2015 36 / 39

Collinearità Collinearità perfetta Con G variabili binarie, Se ogni osservazione rientra in una e una sola categoria. se c è un intercetta nella regressione. se tutte le variabili binarie G sono incluse come regressori. allora ci sarà collinearità perfetta. Per eliminare la collinearità perfetta dobbiamo escludere una delle variabili binarie. In questo caso i coefficienti associati con le variabili binarie incluse devono essere interpretati come deviazione dal livello medio. Rossi MRLM Econometria - 2015 37 / 39

Collinearità Collinearità perfetta La collinearità perfetta solitamente riflette un errore nelle definizioni dei regressori, o una stranezza nei dati Se avete collinearità perfetta, il software statistico ve lo farà sapere bloccandosi, o mostrando un messaggio di errore, o scaricando arbitrariamente una delle variabili La soluzione alla collinearità perfetta consiste nel modificare l elenco di regressori. Rossi MRLM Econometria - 2015 38 / 39

Collinearità Collinearità imperfetta La collinearità imperfetta è ben diversa dalla collinearità perfetta, nonostante la somiglianza dei nomi La collinearità imperfetta si verifica quando due o più regressori sono altamente correlati. Perchè si usa il termine collinearità? Se due regressori sono altamente correlati, allora il loro diagramma a nuvola apparirà molto simile a una retta sono co-lineari ma a meno che la correlazione sia esattamente = 1, tale collinearità è imperfetta. Rossi MRLM Econometria - 2015 39 / 39