Il modello di regressione lineare classico

Università di Pavia Il modello di regressione lineare classico Eduardo Rossi

Ipotesi Il modello di regressione lineare classico y t = x tβ + ε t t = 1,...,N Y = Xβ + ε Se il modello ha un intercetta allora una colonna di X è uguale a un vettore di 1. Per convenzione 1 X 1 =. 1 Eduardo Rossi c - Macroeconometria 2

Ipotesi A.1 Il modello è lineare nei parametri. A.2 I termini di disturbo sono additivi. A.3 I parametri sono costanti. A.4 Tutte le variabili rilevanti sono comprese nella X mentre le grandezze irrilevanti sono comprese nel termine di disturbo. A.5 Non ci sono variabili omesse. Eduardo Rossi c - Macroeconometria 3

Ipotesi A.6 La X è non stocastica. (In seguito rimuoveremo questa ipotesi). A.7 La X ha rango colonna pieno, uguale a K. A.8 Il termine di disturbo è un white noise (rumore bianco) E[ε t ] = 0 media zero E[ε 2 t] = σ 2 omoschedasticità E[ε t ε τ ] = 0 t τ assenza di correlazione seriale Eduardo Rossi c - Macroeconometria 4

Ipotesi In forma matriciale E[ε] = 0 V ar[ε] E[εε ] = σ 2 I N Eduardo Rossi c - Macroeconometria 5

Esempio N = 3 E[εε ] = E = E ε 1 ε 2 ε 3 [ ε 2 1 ε 1 ε 2 ε 1 ε 3 ε 2 ε 1 ε 2 2 ε 2 ε 3 ] ε 1 ε 2 ε 3 = ε 3 ε 1 ε 3 ε 2 ε 2 3 σ 2 0 0 0 σ 2 0 = σ2 I N 0 0 σ 2 Eduardo Rossi c - Macroeconometria 6

Stima OLS Stimatore OLS min β (y Xβ) (y Xβ) β = (X X) 1 X y Proprietà stimatore OLS in campioni finiti β = (X X) 1 X y = (X X) 1 X [Xβ + ε] β = β + (X X) 1 X ε E( β) = β + E[(X X) 1 X ε] = β + E[(X X) 1 X ε] E( β) = β + (X X) 1 X E[ε] = β + (X X) 1 X 0 Eduardo Rossi c - Macroeconometria 7

Proprietà stimatore OLS 1. β è uno stimatore corretto (non distorto): E( β) = β 2. la matrice di varianza e covarianza di β è: E[( β β)( β β) ] = E[((X X) 1 X ε)((x X) 1 X ε) ] = (X X) 1 X E[εε ]X(X X) 1 = (X X) 1 X σ 2 I N X(X X) 1 = σ 2 (X X) 1 X X(X X) 1 = σ 2 (X X) 1 3. Lo stimatore OLS β è BLUE (Best Linear Unbiased Estimator)(Teorema di Gauss-Markov). Eduardo Rossi c - Macroeconometria 8

Teorema di Gauss-Markov Lo stimatore OLS è BLUE nel senso che rispetto ad ogni altro stimatore lineare (ottenuto attraverso una trasformazione lineare di y) del tipo b = Cy dove C : (K N) V ar(b) V ar( β) è una matrice semidefinita positiva. Eduardo Rossi c - Macroeconometria 9

Teorema di Gauss-Markov Prova: Consideriamo i seguenti stimatori, lineari in y, di β b = (A + C)y β = Ay con C 0, A = (X X) 1 X. b = (A + C)y = (A + C)Xβ + (A + C)ε b = AXβ + CXβ + (A + C)ε ma AX = I K b = β + CXβ + (A + C)ε Eduardo Rossi c - Macroeconometria 10

Teorema di Gauss-Markov E[b] = β + CXβ + (A + C)E[ε] E[b] = β + CXβ Per la correttezza (non distorsione) di b è sufficiente che b = (A + C)y CX = 0 Eduardo Rossi c - Macroeconometria 11

Teorema di Gauss-Markov Ora, b β = (A + C)ε V ar[b] E[(b β)(b β) ] = E[(A + C)εε (A + C) ] = (A + C)E[εε ](A + C) = (A + C)σ 2 I N (A + C) = σ 2 (A + C)(A + C) ma CA = CX(X X) 1 = 0 perchè CX = 0 per la correttezza (AC = 0). Quindi, V ar[b] = σ 2 (AA + CC ) Eduardo Rossi c - Macroeconometria 12

Teorema di Gauss-Markov V ar[ β] = σ 2 (X X) 1 = σ 2 AA V ar[b] = σ 2 [(X X) 1 + CC ] = V ar[ β] + σ 2 CC V ar[b] V ar[ β] = σ 2 CC CC è una matrice almeno semidefinita positiva, α (CC )α 0 α indichiamo con γ α C, per ogni γ è verificato che: γ γ 0. Eduardo Rossi c - Macroeconometria 13

Teorema di Gauss-Markov Se C 0 allora almeno un elemento lungo la diagonale principale di CC è diverso da zero con u i{v ar[b] V ar[ β]}u i = σ 2 u i{cc }u i > 0 u i = [0,...,0, 1, 0,...,0] quindi per almeno un i è vero che V ar[b i ] V ar[ β i ] > 0. Eduardo Rossi c - Macroeconometria 14

Coefficiente di Determinazione Bontà della regressione (Goodness of Fit) y = ŷ + ε = X β + ε per un osservazione: y t = ŷ t + ε t = x t β + ε t Se la regressione contiene l intercetta: ε t = 0 t y t = t t y = ŷ ŷ t + ε t = t t ŷ t Eduardo Rossi c - Macroeconometria 15

Coefficiente di Determinazione Se esprimiamo le variabili in deviazione dalla loro media (variabili centrate): y t y = ŷ t y + ε t = (x t x) β + εt = (x 2t x 2 ) β 2 + (x 3t x 3 ) β 3 +... + (x Kt x K ) β K + ε t Le variabili centrate sono ortogonali a ι = [1, 1,...,1]. Per tutte le osservazioni: M ι y = M ι X β + M ι ε M ι [I N ι(ι ι) 1 ι ] = [I N 1 N ιι ] Eduardo Rossi c - Macroeconometria 16

Coefficiente di Determinazione M ι X = [I N 1N ] ιι X = X ι [ ] X 1...X K = [X 1...X K ] [ ] ιx 1...ιX K = [ (X 1 ιx 1 )...(X K ιx K ) ] M ι X 1 = [I N 1N ] ιι X 1 = 0 M ι è simmetrica e idempotente M ι = M ι M ι M ι = M ι Eduardo Rossi c - Macroeconometria 17

Coefficiente di Determinazione M ι ε = ε data l ortogonalità con X: ε M ι X = ε X = 0 Eduardo Rossi c - Macroeconometria 18

Coefficiente di Determinazione La Total Sum of Squares (TSS): (y t y) 2 = y M ι y t R 2 = β X M ι X β y M ι y = (X β + ε) M ι (X β + ε) = βx M ι X β + 2 ε M ι X β + ε ε = β X M ι X β + ε ε = 1 ε ε y M ι y β X M ι X β è la Explained Sum of Squares (ESS), ε ε è la Sum of Squared Residuals (SSR). R 2 è il coefficiente di determinazione. L R 2 è compreso tra 0 e 1 ed è una misura della proporzione della variabilità in y attribuibile alla variabilità delle variabili esplicative. Eduardo Rossi c - Macroeconometria 19

Coefficiente di Determinazione L R 2 è anche interpretabile come il coefficiente di correlazione multipla y e ŷ. Infatti, dato Ora ŷ M ι ŷ = β X M ι X β ŷ = X β ŷ = y ε ŷ M ι ŷ = ŷ M ι (y ε) = ŷ M ι y ŷ M ι ε = ŷ M ι y β X ε = ŷ M ι y. Eduardo Rossi c - Macroeconometria 20

Coefficiente di Determinazione R 2 = ŷ M ι ŷ y M ι y = (ŷ M ι y)(ŷ M ι ŷ) (y M ι y)(ŷ M ι ŷ) = = = (ŷ M ι y) 2 (y M ι y)(ŷ M ι ŷ) (ŷ M ιm ι y) 2 (y M ιm ι y)(ŷ M ιm ι ŷ) [ t (ŷ t ŷ)(y t y)] 2 /N 2 t (y t y) 2 /N t (ŷ t ŷ) 2 /N questo è il coefficiente di correlazione tra y e i valori stimati ŷ. Eduardo Rossi c - Macroeconometria 21

Interpretazione geometrica di R 2 R 2 non centrato. Dal teorema di Pitagora: y = P X y + (I P X )y = P X y + M X y y y = y P X y + y M X y = y P XP X y + y M XM X y y 2 = P X y 2 + M X y 2 = ESS + SSR Ru 2 = ESS TSS = P Xy 2 y 2 = 1 M Xy 2 y 2 θ è l angolo fra y e P X y. = cos 2 (θ) Eduardo Rossi c - Macroeconometria 22

Interpretazione geometrica di R 2 Per ogni θ, 1 cos(θ) 1 allora 0 R 2 u 1. Se θ = 0 y = X β, R 2 u = 1. Se θ = 1 y = ε, R 2 u = 0. R 2 u dipende dai dati solo attraverso i residui ed i valori stimati. E invariante a trasformazioni non singolaridei regressori. Il valore di R 2 u è invariante a cambiamenti nella scala di y. Tuttavia l R 2 u non è invariante ai cambiamenti nelle unità che cambiano l angolo θ. Eduardo Rossi c - Macroeconometria 23

Interpretazione geometrica di R 2 Consideriamo un semplice cambiamento di unità di misura, aggiungiamo una costante α ad ogni elemento di y: y + αι = Xβ + ε Se assumiano che la matrice includa una costante segue che P X ι = ι M X ι = 0 y + αι = P X (y + αι) + M X (y + αι) = P X y + αι + M X y R 2 u = P Xy + αι 2 y + αι 2 Eduardo Rossi c - Macroeconometria 24

Interpretazione geometrica di R 2 Scegliendo un α sufficientemente grande, possiamo aumentare l R 2 u ed avvicinarlo ad 1, perchè per ogni α molto grande il termine αι domina completamente i termini P X y e y nel numeratore e denominatore. L R 2 dalla regressione che usa variabili centrate è chiamato R 2 centrato : Rc 2 = P XM ι y 2 M ι y 2 = 1 M Xy 2 M ι y 2 non è influenzato dall aggiunta di una costante al regredendo. L R 2 centrato è molto più usato dell R 2 u. R 2 u non ha senso nelle regressioni senza un termine costante o di suoi equivalenti in termini di variabili dummy. Quando una regressione non include una costante R 2 c > 1 o R 2 c < 0, secondo il tipo di calcolo adottato. Eduardo Rossi c - Macroeconometria 25

Interpretazione geometrica di R 2 Entrambe le versioni dell R 2 sono una valida misura della bontà della regressione solo quando le stime sono OLS β. Per ogni altro stimatore β, che non implichi X β (y X β): 1 y X β 2 y 2 X β y 2 Se si sceglie di definire R 2 nei termini dei residui, usando la prima delle espressioni, non si può garantire che questa sia positiva e se scegliamo di definirlo in termini di X β non possiamo garantire che sia minore di 1. Quando sono usati altri stimatori diversi dall OLS allora dobbiamo essere molto cauti nell interpretare l R 2. Eduardo Rossi c - Macroeconometria 26

Osservazioni influenti e leverage Regressione semplice: y = β 1 ι + β 2 x + ε I valori stimati appartengono alla retta di regressione: ŷ t = β 1 + β 2 x t t = 1,...,N E la coordinata x che dà al punto la sua posizione di alto leverage, ma è la coordinata y che determina se la posizione di alto leverage è realmente effettivo risultando in una sostanziale influenza sulla linea di regressione. Se una o poche osservazioni in una regressione sono altamente influenti, nel senso che una loro cancellazione dal campione cambierebbe alcuni elementi di β in modo sostanziale, allora dovremo analizzare con molta attenzione i dati che stiamo utilizzando. Eduardo Rossi c - Macroeconometria 27

Osservazioni influenti e leverage Per rimuovere l effetto della t-th osservazione usiamo una variabile dummy, e t, un vettore N 1 che ha il t-esimo elemento uguale a 1 e tutti gli altri 0 (vettore di una base naturale). Includendo e t come regressore y = Xβ + αe t + ε usando il teorema FWL abbiamo le stesse stime dei parametri e gli stessi residui della regressione di M t y su M t Xβ, dove M t = I e t (e te t ) 1 e t = I e t e t M t y = y e t e ty = y y t e t M t X = X e t e tx = X e t x t dove la t-esima riga di X è rimpiazzata da zeri. Eduardo Rossi c - Macroeconometria 28

Osservazioni influenti e leverage La regressione di M t y su M t Xβ dà le stesse stime che avremmo ottenuto se avessimo cancellato la t-esima osservazione. Siano P Z e M Z proiettori ortogonali su e da i sottospazi coperti da (X,e t ). I valori stimati e i residui della regressione: sono y = Xβ + αe t + ε y = P Z y + M Z y = X β (t) + αe t + M Z y Premoltiplicando per P X per ottenere P X y = X β (t) + αp X e t dove usiamo M Z P X = 0 perchè annulla sia X che e t. Eduardo Rossi c - Macroeconometria 29

Osservazioni influenti e leverage Ma P X y = X β e così X( β (t) β) = αp X e t Possiamo calcolare la differenza β (t) β. Attraverso il teorema FWL la stima di α da y = Xβ + αe t + ε è la stessa che si ottiene dalla regressione di M X y su M X e t α = (e tm XM X e t ) 1 e tm XM X y = e tm X y e tm X e t ε t = e tm X y è il t-esimo elemento di M X y, i residui dalla regressione che include tutte le osservazioni. Eduardo Rossi c - Macroeconometria 30

Osservazioni influenti e leverage e tm X e t è l elemento diagonale t-esimo di M X : e tm X e t = e t(i P X )e t = e tie t e tp X e t = 1 h t dove h t = e tp X e t. Sustituendo α = ε t 1 h t Premoltiplicando X( β (t) β) = αp X e t per (X X) 1 X (X X) 1 X X( β (t) β) = α(x X) 1 X P X e t β (t) β = α(x X) 1 X e t Eduardo Rossi c - Macroeconometria 31

Osservazioni influenti e leverage Sostituendo α: β (t) β = α(x X) 1 X e t = ε t (X X) 1 x t 1 h t quando o è grande ε t o lo è h t o lo sono entrambi, l effetto della t-esima osservazione su almeno alcuni elementi di β è verosimilmente sostanziale. Una tale osservazione è detta influente. E evidente che l influenza di un osservazione dipende sia da ε t che da h t. E più grande se l osservazione ha un ampio residuo, che è collegato alla sua coordinata y. h t è collegato alla coordinata x di un punto che determina il leverage, o l influenza potenziale, della corrispondente osservazione. Osservazioni con un ampio h t hanno un alto leverage. Un punto di leverage non è necessariamente influente ma ha il potenziale per esserlo. Eduardo Rossi c - Macroeconometria 32

Osservazioni influenti e leverage Gli elementi diagonali di P X. Possiamo esprimere h t come h t = e tp X e t = P X e t 2 allora h t 0. Poichè e t = 1 h t = P X e t e t 2 per ogni proiettore ortogonale P X ed ogni vettore y R N P X y y l ipotenusa è più lunga di entrambi i lati di un triangolo rettangolo. Così 0 h t 1 Quando vi è un termine costante, nessuno delle h t può essere minore di 1/N. Eduardo Rossi c - Macroeconometria 33

Osservazioni influenti e leverage Se X consistesse solo di una costante ι, e tp ι e t = e t(ι(ι ι) 1 ι )e t = 1 N h t = P ι e t 2 = 1 N Se ci sono altri regressori perchè 1 N = P ιe t 2 = P ι P X e t 2 P X e t 2 = h t P ι P X = P ι dato che ι sta in Col(X), ι = Xe 1 P ι = (Xe 1 (e 1X Xe 1 ) 1 e 1X ) Eduardo Rossi c - Macroeconometria 34

Osservazioni influenti e leverage P ι P X = (Xe 1 (e 1X Xe 1 ) 1 e 1X )P X = (Xe 1 (e 1X Xe 1 ) 1 e 1X ) = P ι Sebbene h t non possa essere zero in condizioni normali, c è un caso speciale nel quale è uguale a 1. Se una colonna di X è la variabile dummy e t : h t = e tp X e t = e te t = 1 In una regressione con N osservazioni and K regressori, la media di h t è uguale a K/N: N h t = t=1 N e tp X e t = tr(p X ) = tr(x(x X) 1 X ) = K t=1 Eduardo Rossi c - Macroeconometria 35

Osservazioni influenti e leverage Quando per una data matrice di regressori, gli elementi diagonali di P X sono tutti vicini al loro valore medio nessuna osservazione ha molto leverage. X ha un balanced design. Se alcuni degli h t > K/N ed altri sono conseguentemente più piccoli, la X ha un unbalanced design. La h t tende ad essere più grande per valori dei regressori che sono lontani dai valori medi del campione. Eduardo Rossi c - Macroeconometria 36

Inclusione ed esclusione di osservazioni Sensitività delle stime OLS all inclusione o esclusione di osservazioni. β stima ottenuta con y,x di N osservazioni. La stima con N + 1 osservazioni ottenute con l inclusione di un punto arbitrario (y,x) aggiunto alle osservazioni iniziale: Y N+1 = y y X N+1 = X x X N+1X N+1 = [ X x ] X x = X X + xx β N+1 = (X N+1X N+1 ) 1 X N+1Y N+1 Eduardo Rossi c - Macroeconometria 37

Inclusione ed esclusione di osservazioni β N+1 = (X X + xx ) 1 (X y + xy) Lemma: Se A e D sono matrici nonsingulari, allora (A + BDC) 1 = A 1 A 1 B(D 1 + CA 1 B) 1 CA 1 Ponendo A = X X B = x C = x D = 1 Eduardo Rossi c - Macroeconometria 38

Inclusione ed esclusione di osservazioni (X X + xx ) 1 = (X X) 1 (X X) 1 xx (X X) 1 1 + h con h = x (X X) 1 x. β N+1 = [(X X) 1 (X X) 1 xx (X X) 1 ] (X y + xy) 1 + h = β (X X) 1 xx 1 + h = β + (X X) 1x(y β x) 1 + h β + (X X) 1 xy 1 + h Eduardo Rossi c - Macroeconometria 39