Il modello di regressione lineare multivariata Eduardo Rossi 2 2 Università di Pavia (Italy) Aprile 2013 Rossi MRLM Econometria - 2013 1 / 39
Outline 1 Notazione 2 il MRLM 3 Il modello partizionato 4 Collinearità Rossi MRLM Econometria - 2013 2 / 39
Notazione Il MRLM Il modello di regressione lineare multipla: Y i = β 0 + β 1 X 1i +... + β k X ki + u i i = 1, 2,..., n β 0, β 1,... β k parametri fissi ma ignoti, u i ignoto, Y i regredendo, v.casuale, X ik regressore, covariata casuale. 1 β = [β 0, β 1, β 2,..., β k ] X 1i ((k + 1) 1) X i = ((k + 1) 1). 1 y i = [β 0, β 1,..., β k ] X 1i. + u i X ki Y i = β X i + u i X ki i = 1, 2,..., n Rossi MRLM Econometria - 2013 3 / 39
Notazione Notazione Notazione matriciale Y = X = Y 1. Y n X 1. X n (n 1) = 1 X 11 X 21... X k1 1 X 12 X 22... X k2.... 1 X 1n X 2n... X kn u 1 u 2 u =. u n (n 1) (n (k + 1)) Rossi MRLM Econometria - 2013 4 / 39
Notazione X 1 β. X nβ = Xβ Il vettore Y raccoglie tutte le osservazioni della variabile dipendente. La matrice X raccoglie le osservazioni sulle variabili esplicative. Ogni colonna di X contiene tutte le osservazioni per la singola variabile esplicativa. Il MRLM in notazione matriciale: Y = Xβ + u Rossi MRLM Econometria - 2013 5 / 39
il MRLM MRLM - Assunzioni 1. La media condizionale è lineare: E[Y i X i ] = X iβ 2. Campionamento casuale. Per ogni istante (unità) i un nuovo vettore (Y i, X i ) è estratto dalla popolazione in modo indipendente. Rossi MRLM Econometria - 2013 6 / 39
il MRLM MRLM - Assunzioni La conoscenza di x j per ogni j i non può aiutare nella previsione di Y i : (Y i, X i ) sono estratti in modo indipendente, questo significa: E[Y i X 1,..., X i,..., X n ] = X iβ i = 1,..., n e E[Y i X 1,..., X i,..., X n, Y 1,..., Y i 1, Y i+1,..., Y n ] = X iβ Rossi MRLM Econometria - 2013 7 / 39
il MRLM 3. Il rango di X è k + 1. 4. Il termine di disturbo E[u X] = 0 E[uu X] = σui 2 N In modo non condizionale, per la legge delle aspettative iterate: E{E[u X]} = E[u] = 0 E{E[uu X]} = E[uu ] = σui 2 N Rossi MRLM Econometria - 2013 8 / 39
il MRLM Il metodo dei minimi quadrati I caratteri variano simultaneamente tra gli individui. Il metodo dei minimi quadrati ordinari è un modo per scomporre le differenze nella variabile dipendente fra diverse caratteristiche osservate (variabili esplicative) per le diverse unità nel campione. Il metodo dei minimi quadrati ordinari (in inglese Ordinary Least Squares, OLS) è usato per stimare il valore di β i, i = 1,..., k. Questi sono scelti in modo tale che siano la soluzione al seguente problema: min β 0,β 1,...,β K n [Y i (β 0 + β 1 X 1i + β 2 X 2i +... + β k X ki )] 2 i=1 Il termine minimi quadrati si riferisce alla minimizzazione della somma delle differenze al quadrato: gli scarti. [Y i (β 0 + β 1 X 1i +... + β k X ki )] Rossi MRLM Econometria - 2013 9 / 39
il MRLM La somma dei quadrati La funzione obiettivo f(β 0, β 1,..., β k ) = n [Y i (β 0 + β 1 X 1i + β 2 X 2i +... + β k X ik )] 2 (1) i=1 è la sum of squared residuals (somma dei quadrati dei residui). Quando i residui sono valutati in β 1,..., β k i residui sono detti fitted residuals (residui fittati, o residui della regressione). Rossi MRLM Econometria - 2013 10 / 39
il MRLM Lo stimatore dei minimi quadrati (OLS) Il metodo dei minimi quadrati risolve il problema Definiamo β arg min(y Xβ) (Y Xβ) β S(β) (Y Xβ) (Y Xβ) = i (Y i X iβ) 2 Rossi MRLM Econometria - 2013 11 / 39
il MRLM Lo stimatore dei minimi quadrati (OLS) S(β) β = i (Y i X i β)2 β i = (Y i X i β)2 β i = 2 (Y i X i β) (β X i ) β ma segue che β β X i = I k X i = X i i 2 (Y i β X i ) (β X i ) = 2 β i (Y i X iβ)x i Rossi MRLM Econometria - 2013 12 / 39
il MRLM Lo stimatore dei minimi quadrati (OLS) Condizione del primo ordine: (Y i X i β)x i = 0 ovvero i X i Y i = X i X i β i i [ ] 1 β = X i X i X i Y i i β = ( X X ) 1 X Y Gli OLS sono delle somme ponderate delle {Y i }, cioè sono funzioni lineari della variabile dipendente. Questa linearità in {Y i } semplifica l analisi statistica degli OLS. i Rossi MRLM Econometria - 2013 13 / 39
il MRLM Non distorsione β = (X X) 1 X Y = β + (X X) 1 X u E[ β X] = β + (X X) 1 X E[u X] = β + (X X) 1 X 0 = β Lo stimatore OLS è condizionalmente non distorto, ma anche non condizionatamente (per la legge delle aspettative iterate): E{E[ β X]} = E[ β] = β Rossi MRLM Econometria - 2013 14 / 39
il MRLM inoltre, [ ] E X β X = Xβ [ E [ ɛ X] = E ] Y X β X = E [Y X] E = Xβ XE[ β X] = Xβ Xβ = 0 [ X β X ] Rossi MRLM Econometria - 2013 15 / 39
il MRLM Proprietà stimatore OLS Varianza dello stimatore OLS: Var[ β X] = E[( β β)( β β) X] = E[(X X) 1 X uu X(X X) 1 X] = (X X) 1 X E[uu X]X(X X) 1 = σ 2 (X X) 1 La matrice di covarianza misura quanto informatico è il campione per i parametri. La varianza non condizionale Var[ β] = E{V ar[ β X]} = σ 2 E[(X X) 1 ] Se viene ripetuto l esperimento casuale con estrazioni casuali di X, la distribuzione di β è descritta da Var[ β]. Rossi MRLM Econometria - 2013 16 / 39
il MRLM Matrici di proiezione Data Simmetrica: P X = X(X X) 1 X P X = P X Idempotente: P X P X = [X(X X) 1 X ][X(X X) 1 X ] = X(X X) 1 (X X)(X X) 1 X = X(X X) 1 X = P X con P X X = [X(X X) 1 X ]X = X Rossi MRLM Econometria - 2013 17 / 39
il MRLM Valori stimati Valori stimati: Ŷ = X β = X(X X) 1 X Y = P X Y Rossi MRLM Econometria - 2013 18 / 39
il MRLM Residui Residui û = Y X β = Y (X X) 1 X Y = [ I n X(X X) 1 X ] Y = [I n P X ] Y = M X Y con dove M X = I n P X M X X = (I n P X )X = X X = 0 û = M X Y = M X (Xβ + u) = M X u Rossi MRLM Econometria - 2013 19 / 39
il MRLM Matrici di proiezione M X è simmetrica ed idempotente (come P X ). Inoltre, M X e P X sono ortogonali. P X M X = P X (I n P X ) = P X P X = 0 Rossi MRLM Econometria - 2013 20 / 39
il MRLM I residui û = M X Y = M X (Xβ + u) = M X Xβ + M X u = M X u Sebbene i residui siano stime di variabili non correlate per assunzione risultano correlati E[ûû X] = E[M X uu M X X] = σ 2 um X la distribuzione è singolare, la matrice di varianza-covarianza è singolare con rango n k 1. Questa è la conseguenza dell ortogonalità con X. Rossi MRLM Econometria - 2013 21 / 39
Il modello partizionato Il modello partizionato Assunzioni X, (n (k + 1)), è una matrice di rango-colonna pieno, n > k + 1. Il modello partizionato è utile per descrivere come gli OLS assegnano valori agli elementi di β quando tutte le variabili esplicative cambiano da osservazione a osservazione. Y = Xβ = [ X 1 X 2 ] [ β 1 β 2 X 1 (n k 1 ) X 2 (n k 2 ) β 1 (k 1 1) β 2 (k 2 1) ] = X 1 β 1 + X 2 β 2 Rossi MRLM Econometria - 2013 22 / 39
Il modello partizionato Il modello partizionato Frisch e Waugh (1933), Lowell (1963). Y = P X Y + (I n P X )Y = P X Y + M X Y P X Y = X 1 β1 + X 2 β2 Y = X 1 β1 + X 2 β2 + M X Y M X2 = I n X 2 (X 2X 2 ) 1 X 2 Premoltiplichiamo con X 1 M X 2 : X 1M X2 Y = X 1M X2 X 1 β1 + X 1M X2 X 2 β2 + X 1M X2 M X Y ma M X2 X 2 = 0 M X M X2 X 1 = 0 perchè M X2 X 1 Col(X). Rossi MRLM Econometria - 2013 23 / 39
Il modello partizionato Il modello partizionato Risolvendo per β 1 si ottiene β 1 = ( X 1M X2 X 1 ) 1 X 1 M X2 Y Quindi lo stimatore β 1 può essere trovato con una procedura a due stadi: 1 regressione di X 1 su X 2, da cui si ottengono i residui M X2 X 1 ; 2 regressione di y sui residui della regressione del primo stadio, M X2 X 1. β 1 cattura la componente di y collineare con X 1 che non può essere spiegata da X 2. Rossi MRLM Econometria - 2013 24 / 39
Il modello partizionato Il modello partizionato Con errori omoschedastici: ˆβ 1 = ( X ) 1 1M X2 X 1 X 1 M X2 Y = ( X ) 1 1M X2 X 1 X 1 M X2 [X 1 β 1 + X 2 β 2 + u] = β 1 + ( X ) 1 1M X2 X 1 X 1 M X2 u Var[ˆβ 1 X] = E[(β 1 ˆβ 1 )(β 1 ˆβ 1 ) X] = E[ ( X ) 1 1M X2 X 1 X 1 M X2 uu ( ) M X2 X 1 X 1 1 M X2 X 1 X] = ( X ) 1 1M X2 X 1 X 1 M X2 E[uu ( ) X]M X2 X 1 X 1 1 M X2 X 1 = σu 2 ( ) X 1 ( ) 1 M X2 X 1 X 1 M X2 X 1 X 1 1 M X2 X 1 = σu 2 ( ) X 1 1 M X2 X 1 Rossi MRLM Econometria - 2013 25 / 39
Il modello partizionato La distribuzione degli stimatori OLS nella regressione multipla Sotto le quattro assunzioni dei minimi quadrati, La distribuzione campionaria di ˆβ 1 ha media β 1 Var( ˆβ 1 ) è inversamente proporzionale a n. Al di là di media e varianza, la distribuzione esatta (n-finita) di ˆβ i molto complessa; ma per n grande... p è consistente: ˆβ1 β1 (legge dei grandi numeri) è approssimata da una distribuzione N(0,1) (TLC) Queste proprietà valgono per ˆβ 2,..., ˆβ k Concettualmente, non vi è nulla di nuovo! Rossi MRLM Econometria - 2013 26 / 39
Il modello partizionato Stima della varianza dell errore E[u 2 i X] = σ 2 Per la legge delle aspettative iterate: Stimatore non distorto: E{E[u 2 i X]} = E[u 2 i ] = σ 2 s 2 = û û n k 1 Per dimostrare la correttezza usiamo le seguenti proprietà della traccia a = tr(a) a R tr(ab) = tr(ba) Rossi MRLM Econometria - 2013 27 / 39
Il modello partizionato Stima della varianza dell errore E[s 2 X] = E[u M X u X] n k 1 = E[tr(u M X u) X] n k 1 = E[tr(M Xuu ) X] = tr[e(m Xuu X)] n k 1 n k 1 = tr[m XE(uu X)] n k 1 = tr(m Xσ 2 I N ) = tr(σ2 um X ) N K n k 1 = tr(m X ) σ2 u n k 1 = n k 1 σ2 u n k 1 = σu 2 Rossi MRLM Econometria - 2013 28 / 39
Il modello partizionato Stima della varianza dell errore Non condizionatamente: [ û ] û E n k 1 = σ 2 u s 2 è corretto solo nel caso di disturbi omoschedastici (E[uu ] = σ 2 ui n ). Rossi MRLM Econometria - 2013 29 / 39
Il modello partizionato La distribuzione degli stimatori OLS nella regressione con due regressori Y i = β 1 X 1i + β 2 X 2i + u i Errori omoschedastici: Var[u i X 1i, X 2i ] = σu 2 notazione matriciale: Y = β 1 X 1 + β 2 X 2 + u ˆβ 1 = ( X ) 1 1M X2 X 1 X 1 M X2 Y X 2 = I n X 2 (X 2X 2 ) 1 X 2 In grandi campioni, la distribuzione di ˆβ 1 ˆβ 1 N(β 1, σ 2ˆβ1 ) Rossi MRLM Econometria - 2013 30 / 39
Il modello partizionato La distribuzione degli stimatori OLS nella regressione con due regressori Var( ˆβ 1 X) = σu 2 ( ) X 1 1 M X2 X 1 [ X 1 X 1 X 1X 2 (X 2X 2 ) 1 X ] 1 2X 1 = σu 2 = σu 2 1 X 1 X 1 = σu 2 1 X 1 X 1 σ 2 u [ 1 [ 1 (X 1 X 2) 2 ] (X 2 X 2)(X 1 X 1) (X 1 X 2) 2 (X 2 X 2)(X 1 X 1) σ 2ˆβ1 = 1 n σx 2 (1 ρ 2 X 1,X 2 ) 1 1 ] 1 Se X 1 e X 2 sono fortemente correlati allora 1 ρ 2 X 1,X 2 0 e la varianza di ˆβ 1 è più grande di quella che si avrebbe se ρ 2 X 1,X 2 0. Rossi MRLM Econometria - 2013 31 / 39
Collinearità Collinearità perfetta La collinearità perfetta si ha quando uno dei regressori è una funzione lineare esatta degli altri. Esempi di collinearità perfetta Includere STR due volte, Eseguite la regressione di TestScore su una costante e due variabili dummy, D e B { 1 se STR 20 D i = 0 altrimenti { 1 se STR > 20 B i = 0 altrimenti perciò B i = 1 D i e vi è collinearità perfetta. Ci sarebbe collinearità perfetta se l intercetta (costante) fosse esclusa da questa regressione? Questo esempio è un caso di trappola della dummy. Rossi MRLM Econometria - 2013 32 / 39
Collinearità Dummy per fenomeni stagionali Consumo: C i = β 0 + β 1 D 1i + β 2 D 2i + βd 3i + β 4 X i + u i { 0 i = secondo, terzo e quarto trimestre D 1i = 1 i = primo trimestre { 0 i = primo, terzo e quarto trimestre D 2i = 1 i = secondo trimestre { 0 i = primo, secondo e quarto trimestre D 3i = 1 i = terzo trimestre La quarta equazione non ha dummy. E l equazione di riferimento cioè la base di partenza rispetto alla quale c è la correzione di intercetta. Rossi MRLM Econometria - 2013 33 / 39
Collinearità Dummy per fenomeni stagionali n = 8, 8 trimestri X = 1 Y 1 1 0 0 1 Y 2 0 1 0 1 Y 3 0 0 1 1 Y 4 0 0 0 1 Y 5 1 0 0 1 Y 6 0 1 0 1 Y 7 0 0 1 1 Y 8 0 0 0 Le ultime tre colonne rappresentano le 3 dummy. Rossi MRLM Econometria - 2013 34 / 39
Collinearità Dummy per fenomeni stagionali Attenzione: Se inseriamo la quarta dummy la prima colonna X = 1 Y 1 1 0 0 0 1 Y 2 0 1 0 0 1 Y 3 0 0 1 0 1 Y 4 0 0 0 1 1 Y 5 1 0 0 0 1 Y 6 0 1 0 0 1 Y 7 0 0 1 0 1 Y 8 0 0 0 1 X 1 = X 3 + X 4 + X 5 + X 6 abbiamo una matrice di rango ridotto (collinearità perfetta). Rossi MRLM Econometria - 2013 35 / 39
Collinearità Dummy per fenomeni stagionali Con dati trimestrali si usano 3 dummy, con dati mensili si usano 11 dummy. La presenza di outlier la si può accertare, in prima istanza, attraverso l analisi dei residui. Quando vi sono residui molto grandi è probabile che siamo in presenza di un outlier. Rossi MRLM Econometria - 2013 36 / 39
Collinearità Collinearità perfetta Con G variabili binarie, Se ogni osservazione rientra in una e una sola categoria. se c è un intercetta nella regressione. se tutte le variabili binarie G sono incluse come regressori. allora ci sarà collinearità perfetta. Per eliminare la collinearità perfetta dobbiamo escludere una delle variabili binarie. In questo caso i coefficienti associati con le variabili binarie incluse devono essere interpretati come deviazione dal livello medio. Rossi MRLM Econometria - 2013 37 / 39
Collinearità Collinearità perfetta La collinearità perfetta solitamente riflette un errore nelle definizioni dei regressori, o una stranezza nei dati Se avete collinearità perfetta, il software statistico ve lo farà sapere bloccandosi, o mostrando un messaggio di errore, o scaricando arbitrariamente una delle variabili La soluzione alla collinearità perfetta consiste nel modificare l elenco di regressori. Rossi MRLM Econometria - 2013 38 / 39
Collinearità Collinearità imperfetta La collinearità imperfetta è ben diversa dalla collinearità perfetta, nonostante la somiglianza dei nomi La collinearità imperfetta si verifica quando due o più regressori sono altamente correlati. Perchè si usa il termine collinearità? Se due regressori sono altamente correlati, allora il loro diagramma a nuvola apparirà molto simile a una retta sono co-lineari ma a meno che la correlazione sia esattamente = 1, tale collinearità è imperfetta. Rossi MRLM Econometria - 2013 39 / 39