Regressone lneare con un sngolo regressore Eduardo Ross 2 2 Unverstà d Pava (Italy) Marzo 2013 Ross Regressone lneare semplce Econometra - 2013 1 / 45
Outlne 1 Introduzone 2 Lo stmatore OLS 3 Esempo 4 Assunzon OLS 5 Dstrbuzone camponara degl stmator OLS 6 Meda e varanza camponara stmator OLS Ross Regressone lneare semplce Econometra - 2013 2 / 45
Introduzone Captolo 4 - Regressone lneare con un sngolo regressore Il modello d regressone lneare semplce Lo stmatore de mnm quadrat ordnar (OLS) e la retta d regressone camponara Msure d bontà della regressone camponara Le assunzon de mnm quadrat La dstrbuzone camponara dello stmatore OLS Ross Regressone lneare semplce Econometra - 2013 3 / 45
Introduzone Regressone lneare con un sngolo regressore La regressone lneare consente d stmare la pendenza della retta d regressone La pendenza della retta d regressone è l effetto atteso su Y d una varazone untara n X. Il nostro scopo ultmo è quello d stmare l effetto causale su Y d una varazone untara n X - ma per ora c lmtamo a consderare l problema dell adattamento d una retta a dat su due varabl Y e X. Ross Regressone lneare semplce Econometra - 2013 4 / 45
Introduzone Regressone lneare con un sngolo regressore Il problema dell nferenza statstca per la regressone lneare è, a lvello generale, dentco a quello della stma della meda o delle dfferenze tra mede. L nferenza statstca, o econometrca, sulla pendenza comporta: 1 Stma: Come traccare una retta attraverso dat per stmare la pendenza della regressone? Rsposta: mnm quadrat ordnar (OLS). Qual sono vantagg e svantagg de mnm quadrat ordnar? 2 Verfca d potes: Come verfcare se la pendenza è zero? 3 Intervall d confdenza: Come costrure un ntervallo d confdenza per la pendenza? Ross Regressone lneare semplce Econometra - 2013 5 / 45
Introduzone Il modello d regressone lneare La retta d regressone TestScore = β 0 + β 1 STR Test Score β 1 = pendenza della retta d regressone = STR = varazone nel punteggo ne test per una varazone untara n STR Perchè β 0 e β 1 sono parametr della popolazone? Vorremmo conoscere l valore d β 1. Non conoscamo β 1, perchè dobbamo stmarlo utlzzando dat. Ross Regressone lneare semplce Econometra - 2013 6 / 45
Introduzone Il modello d regressone lneare Y = β 0 + β 1 X + u = 1, 2,..., n Abbamo n osservazon,(y, X ), = 1, 2,..., n X è la varable ndpendente o regressore Y è la varable dpendente β 0 = ntercetta β 1 = pendenza u = errore della regressone L errore d regressone è costtuto da fattor omess. In generale quest fattor omess sono altr fattor, dvers dalla varable X, che nfluenzano Y. L errore d regressone nclude anche l errore nella msura d Y. Ross Regressone lneare semplce Econometra - 2013 7 / 45
Introduzone Il modello d regressone lneare: esempo Osservazon su Y e X (n = 7); la retta d regressone; l errore d regressone (l termne d errore): Ross Regressone lneare semplce Econometra - 2013 8 / 45
Lo stmatore OLS Lo stmatore OLS Come possamo stmare β 0 e β 1 da dat? S rcord che lo stmatore OLS d µ Y : Ȳ è mn m m (Y m) 2 Per analoga, c concentreremo sullo stmatore de mnm quadrat (OLS) ordnary least squares de parametr gnot β 0 e β 1. Lo stmatore OLS è dato da mn β 0,β 1 m (Y β 0 β 1 X ) 2 Ross Regressone lneare semplce Econometra - 2013 9 / 45
Lo stmatore OLS Meccansmo de mnm quadrat ordnar La retta d regressone: TestScore = β 0 + β 1 STR β 1 =?? Ross Regressone lneare semplce Econometra - 2013 10 / 45
Lo stmatore OLS Lo stmatore OLS Lo stmatore OLS mnmzza la dfferenza quadratca meda tra valor real d Y e la prevsone ( valor prevst ) basata sulla retta stmata. Questo problema d mnmzzazone s può rsolvere con l calcolo dfferenzale (App. 4.2). Il rsultato sono gl stmator OLS d β 0 e β 1. Ross Regressone lneare semplce Econometra - 2013 11 / 45
Dato: Problema: Lo stmatore OLS S(β 0, β 1 ) = n ) 2 (Y β 0 β 1 X { ˆβ 0, ˆβ 1 } = mn β 0,β 1 S(β 0, β 1 ) S(β 0, β 1 ) β 0 S(β 0, β 1 ) β 1 = 2 = 2 n (Y ˆβ 0 ˆβ ) 1 X = 0 n (Y ˆβ 0 ˆβ ) 1 X X = 0 ˆβ 0 = 1 n n ˆβ n 0 = (Y ˆβ ) 1 X n (Y ˆβ ) 1 X = Ȳ ˆβ 1 X Ross Regressone lneare semplce Econometra - 2013 12 / 45
Lo stmatore OLS n (Y (Ȳ ˆβ ) 1 X) ˆβ1 X X = 0 n ( Y Ȳ ˆβ 1 (X X) ) X = 0 n ( Y )X Ȳ ˆβ n ( 1 X X ) X = 0 n ( Y Ȳ ˆβ 1 ˆβ 1 n n ( ) X [ n ( )] Y Ȳ X ( X X )X + ˆβ n ( X) 1 X X = 0 X X ) 2 n ( = Y Ȳ )( X X ) Ross Regressone lneare semplce Econometra - 2013 13 / 45
Lo stmatore OLS Lo stmatore OLS ˆβ 1 = n (X X)(Y Ȳ ) (X X) 2 ˆβ 0 = Ȳ ˆβ 1 X = s XY s 2 X Valor prevst Resdu: Ŷ = ˆβ 0 + ˆβ 1 X = 1, 2,..., n û = Y Ŷ = Y ˆβ 0 ˆβ 1 X Ross Regressone lneare semplce Econometra - 2013 14 / 45
Lo stmatore OLS Resdu û = Y Ŷ = Y ˆβ 0 ˆβ 1 X = Y (Ȳ ˆβ 1 X) ˆβ1 X = (Y Ȳ ) ˆβ 1 (X X) ne segue che û = = 0 (Y Ȳ ) ˆβ 1 (X X) Ross Regressone lneare semplce Econometra - 2013 15 / 45
Esempo Applcazone a dat de puntegg ne test della Calforna Punteggo ne test - Dmenson delle class ˆβ 1 = Pendenza stmata = -2,28 ˆβ 0 = Intercetta stmata = 698,9 Retta d regressone stmata: TestScore = 698, 9 2, 28 ŜTR Ross Regressone lneare semplce Econometra - 2013 16 / 45
Esempo Interpretazone delle stme d pendenza e ntercetta I dstrett con uno studente n pù per nsegnante n meda ottengono puntegg ne test nferor d 2,28 punt. Coè TestScore STR = 2, 28. L ntercetta (letteralmente) sgnfca che, secondo questa retta stmata, dstrett con zero student per nsegnante otterrebbero un punteggo ne test stmato n 698,9. Ma questa nterpretazone dell ntercetta non ha senso - estrapola la lnea al d fuor dell ntervallo de dat - n questo caso, l ntercetta non ha sgnfcato dal punto d vsta economco. Ross Regressone lneare semplce Econometra - 2013 17 / 45
Esempo Valor prevst e resdu Uno de dstrett nella banca dat è Antelope, CA, con STR = 19,33 e TestScore = 657,8 Valore prevsto: Ŷ Antelope = 698, 9 2, 28 19, 33 = 654, 8 resduo: û Antelope = 657, 8 654, 8 Ross Regressone lneare semplce Econometra - 2013 18 / 45
Esempo Msure d bontà dell adattamento Due statstche d regressone fornscono msure complementar della bonta dell adattamento della regressone a dat: L R 2 della regressone msura la frazone della varanza d Y spegata da X; è prva d untà e può varare tra zero (nessun adattamento) e uno (perfetto adattamento); L errore standard della regressone (SER) msura la dmensone d un tpco resduo d regressone nelle untà d Y. Ross Regressone lneare semplce Econometra - 2013 19 / 45
Esempo Rsultat della regressone Dato che u = Y ˆβ 0 ˆβ 1 X û = 0 Y = Ŷ + û 1 Y = 1 n n Ȳ = Ŷ Ŷ Ross Regressone lneare semplce Econometra - 2013 20 / 45
Esempo Rsultat della regressone Inoltre, resdu û sono ortogonal a X X û = X (Y ˆβ 0 ˆβ 1 X ) X û = (Y ˆβ 0 ˆβ 1 X )X con = = (Y (Ȳ ˆβ 1 X) ˆβ1 X )X (Y Ȳ )X ˆβ 1 (X X)X ˆβ 1 = n (Y Ȳ )X (X X)X X û = (Y Ȳ )X n (Y Ȳ )X (X X)X (X X)X = 0 Ross Regressone lneare semplce Econometra - 2013 21 / 45
Esempo Rsultat della regressone TSS = total sum of squares SSR = sum of squared resduals ESS = Explaned sum of squares T SS = (Y Ȳ) 2 = (Y Ŷ + Ŷ Ȳ) 2 = (Y Ŷ) 2 + (Ŷ Ȳ) 2 + 2 (Y Ŷ)(Ŷ Ȳ) = SSR + ESS + 2 û Ŷ = SSR + ESS perché û Ŷ = û ( ˆβ 0 + ˆβ 1 X ) = ˆβ 0 û + ˆβ 1 û X = 0 Ross Regressone lneare semplce Econometra - 2013 22 / 45
Esempo L R 2 della regressone L R 2 è la frazone della varanza camponara d Y spegata dalla regressone. Y = Ŷ + û = stma OLS + resduo OLS Var camp.(y ) = Var camp.(ŷ) + Var camp.(û ) Somma de quadrat = SS spegata + SS resdua Defnzone R 2 : R 2 = 0 sgnfca ESS = 0 R 2 = 1 sgnfca ESS = TSS 0 R 2 1 R 2 = ESS T SS = (Ŷ Ŷ ) 2 (Y Ȳ )2 Per la regressone con una sngola X, R 2 concde con l quadrato del coeffcente d correlazone tra X e Y. Ross Regressone lneare semplce Econometra - 2013 23 / 45
Esempo L errore standard della regressone (SER) Il SER msura la dspersone della dstrbuzone d u. È (quas) la devazone standard camponara de resdu OLS: SER = 1 n (û n 2 û) 2 = 1 n û 2 n 2 La seconda uguaglanza vale perché û = 1 n n û = 0 Ross Regressone lneare semplce Econometra - 2013 24 / 45
Esempo L errore standard della regressone (SER) Il SER ha le untà d u, che sono le untà d Y msura la dmensone meda del resduo OLS (l errore medo della retta d regressone OLS) La radce dell errore quadratco medo (RMSE, Root Mean Squared Error) è strettamente legata al SER: RMSE = 1 n û 2 n Msura la stessa cosa del SER: la dfferenza sta nel fattore 1/n anzchè 1/(n 2). Ross Regressone lneare semplce Econometra - 2013 25 / 45
Esempo Nota tecnca Perchè dvdere per n 2 anzchè per n 1? SER = 1 n n 2 û 2 La dvsone per n 2 è una correzone de grad d lbertà - esattamente come la dvsone per n 1, con la dfferenza che per l SER sono stat stmat due parametr β 0 e β 1 ), mentre n s 2 Y ne è stato stmato solo uno µ Y. Quando n è grande non mporta se s utlzza n, n 1 o n 2, anche se la formula convenzonale utlzza n 2 quando c è un sngolo regressore. Ross Regressone lneare semplce Econometra - 2013 26 / 45
Esempo Esempo d R 2 e SER R 2 = 0, 05 SER = 18, 6 STR spega soltanto una pccola frazone della varazone ne puntegg ne test. Ha senso questo? Sgnfca che STR non è una varable mportante? Ross Regressone lneare semplce Econometra - 2013 27 / 45
Assunzon OLS Le assunzon de mnm quadrat Qual sono, precsamente, le propretà della dstrbuzone camponara dello stmatore OLS? Quando lo stmatore sarà non dstorto? Qual è la sua varanza? Per rspondere a queste domande dobbamo fare alcune assunzon sulla relazone tra Y e X e su come sono ottenute (lo schema d camponamento) Queste assunzon - sono tre - sono note come assunzon de mnm quadrat. ved Paragrafo 4.4. Ross Regressone lneare semplce Econometra - 2013 28 / 45
Assunzon OLS Le assunzon de mnm quadrat Y = β 0 + β 1 X + u = 1, 2,..., n La dstrbuzone d u condzonata a X ha meda nulla, coè E[u X ] = 0 u rappresenta l nfluenza che altr fattor hanno sulla relazone tra Y e X. Quando u > 0, Y < E[Y X ]; u < 0, Y > E[Y X ]. L assunzone esclude che fattor n u sano correlat con X. Questo mplca che ˆβ 1 è non dstorto. {X, Y }, = 1,..., n, sono..d. Questo è vero se {X, Y } sono ottenut medante camponamento casuale Questo fornsce la dstrbuzone camponara d e Gl outler n X e/o Y sono rar. Tecncamente, X e Y hanno moment quart fnt. Gl outler possono rsultare n valor prv d senso d ˆβ 1. Ross Regressone lneare semplce Econometra - 2013 29 / 45
Assunzon OLS Assunzone de mnm quadrat n. 1 Per ogn dato valore d X, la meda d u è zero E[u X ] = 0 Ross Regressone lneare semplce Econometra - 2013 30 / 45
Assunzon OLS Mnm quadrat, Assunzone 1 Consderamo un espermento controllato casualzzato deale: X è assegnato casualmente a persone (student assegnat casualmente a class d dmenson dverse; pazent assegnat casualmente a trattament medc). La casualzzazone è svolta dal computer - senza utlzzare nformazon sull ndvduo. Poché X è assegnata casualmente, tutte le altre caratterstche ndvdual - gl aspett rassunt da u - sono dstrbute ndpendentemente da X, percò u e X sono ndpendent. Qund, n un espermento controllato casualzzato deale, E[u X ] = 0 (coè vale l assunzone 1) In esperment real, o con dat non spermental, dovremo rflettere bene sul fatto che E[u X = x] = 0 valga o meno. Ross Regressone lneare semplce Econometra - 2013 31 / 45
Assunzon OLS Mnm quadrat, Assunzone 2 {Y, X }, = 1, 2,..., n sono..d. Questo s verfca automatcamente se l untà (ndvduo, dstretto) è camponata medante camponamento casuale semplce: Le untà sono scelte dalla stessa popolazone, percò {X, Y } sono dentcamente dstrbute per ogn = 1, 2,..., n. Le untà sono scelte a caso, percò valor d {X, Y } per untà dverse sono ndpendentemente dstrbute. I camponament non..d. s ncontrano prncpalmente quando s regstrano dat nel tempo per la stessa untà (dat panel e sere temporal). Ross Regressone lneare semplce Econometra - 2013 32 / 45
Assunzon OLS Mnm quadrat, Assunzone 3 Gl outler sono rar E[Y 4 ] < E[X 8 ] < Un outler è un valore estremo d X o Y A lvello tecnco, se X e Y sono lmtate, allora hanno moment quart fnt ( puntegg ne test standardzzat soddsfano questa condzone, come anche STR, reddto famlare, ecc.) La sostanza d questa assunzone è che un outler può nfluenzare fortemente rsultat, percò dobbamo escludere valor estrem. Esamnate dat! Se avete un outler, s tratta d un refuso? Non appartene al dataset? Perchè è un outler? Ross Regressone lneare semplce Econometra - 2013 33 / 45
Assunzon OLS Lo stmatore OLS può essere sensble a un outler Il punto solato è un outler n X o Y? In pratca, gl outler sono spesso dstorson de dat (problem nella codfca o nella regstrazone). Talvolta sono osservazon che non dovrebbero stare nel dataset. Ross Regressone lneare semplce Econometra - 2013 34 / 45
Dstrbuzone camponara degl stmator OLS Dstrbuzone camponara degl stmator OLS (Paragrafo 4.5) Lo stmatore OLS è calcolato da un campone d dat. Un campone dverso porta a un valore dverso d ˆβ 1. Questa è l orgne della ncertezza camponara d ˆβ 1. Voglamo: quantfcare l ncertezza camponara assocata a ˆβ 1 usare ˆβ 1 per verfcare potes qual β 1 = 0. costrure un ntervallo d confdenza per β 1 = 0. Tutt quest punt rchedono d determnare la dstrbuzone camponara dello stmatore OLS. Due passagg... Quadro d rfermento probablstco per la regressone lneare Dstrbuzone dello stmatore OLS Ross Regressone lneare semplce Econometra - 2013 35 / 45
Dstrbuzone camponara degl stmator OLS Quadro d rfermento probablstco per la regressone lneare Il quadro d rfermento probablstco per la regressone lneare è replogato dalle tre assunzon de mnm quadrat. 1 Popolazone Il gruppo d nteresse (esempo: tutt possbl dstrett scolastc) 2 Varabl casual: Y, X Esempo: TestScore, STR 3 Dstrbuzone congunta d Y, X. Assumamo: La funzone d regressone è lneare E[u X ] = 0 (prma assunzone de mnm quadrat) X, Y hanno moment quart fnt non null (terza assunzone) 4 La raccolta de dat medante camponamento casuale semplce mplca: {Y, X }, = 1, 2,..., n sono..d. (seconda assunzone). Ross Regressone lneare semplce Econometra - 2013 36 / 45
Dstrbuzone camponara degl stmator OLS Dstrbuzone camponara d ˆβ 1 ˆβ 1 ha una dstrbuzone camponara. Qual è E[ ˆβ 1 ]? Se E[ ˆβ 1] = β 1, allora lo stmatore OLS è non dstorto. Qual è V ar[ ˆβ 1 ]? (msura d ncertezza camponara) Dobbamo dervare una formula per poter calcolare l errore standard d. Qual è la dstrbuzone d n pccol campon? E molto complessa, n generale. Qual è la dstrbuzone d ˆβ 1 n grand campon? In grand campon, ˆβ 1 ha dstrbuzone normale. Ross Regressone lneare semplce Econometra - 2013 37 / 45
Meda e varanza camponara stmator OLS Meda e varanza della dstrbuzone camponara d ˆβ 1 ˆβ 1 = = Y = β 0 + β 1 X + u Ȳ = β 0 + β 1 X + ū Y Ȳ = β 1(X X) + (u ū) n (X X)(Y Ȳ ) (X X) 2 n (X X)(β 1 (X X) + (u ū)) (X X) 2 = β 1 n (X X)(X X) (X X) 2 + n = β 1 + (u ū)(x X) (X X) 2 n ˆβ 1 β 1 = (u ū)(x X) (X X) 2 n (u ū)(x X) (X X) 2 Ross Regressone lneare semplce Econometra - 2013 38 / 45
Meda e varanza camponara stmator OLS Meda e varanza della dstrbuzone camponara d ˆβ 1 Il numeratore: Segue che n (X X)(u ū) = ˆβ 1 β 1 = = = n (X X)u [ n (X X) ] ū n (X X)u 0 ū n (X X)u n (u ū)(x X) n (X X) = (X X)u 2 (X X) 2 Ross Regressone lneare semplce Econometra - 2013 39 / 45
Meda e varanza camponara stmator OLS Meda d ˆβ 1 E[ ˆβ 1 ] β 1 = E [ n (X X)u ] (X X) 2 per la legge de valor attes terat: { [ n E[ ˆβ 1 ] β 1 = E E (X X)u ]} (X X) X 2 1, X 2,..., X n { n = E (X X)E } [u X 1, X 2,..., X n ] (X X) 2 = 0 per l Assunzone 1, coè E [u X 1, X 2,..., X n ] = E[u X ] = 0. ˆβ 1 è non dstorto: E[ ˆβ 1 ] = β 1. Ross Regressone lneare semplce Econometra - 2013 40 / 45
Meda e varanza camponara stmator OLS Varanza d ˆβ 1 dove Se n è grande ˆβ 1 β 1 = n (X X)u (X X) 2 = v = (X X)u s 2 X σ 2 X e n 1 n 1. Qund ˆβ1 β 1 1 n v σx 2 1 n v n 1 n s2 X dato E[ ˆβ 1 ] = β 1 V ar[ ˆβ 1 β 1 ] = V ar[ ˆβ 1 ] V ar[ ˆβ 1 ] V ar [ 1 n v ] (σx 2 )2 Ross Regressone lneare semplce Econometra - 2013 41 / 45
Meda e varanza camponara stmator OLS Varanza d ˆβ 1 V ar [ 1 n ] v = V ar [ 1 n ] (X X)u Per l assunzone 1: [ ] E (X X)u = Per l assunzone 2: Per l assunzone 3: v..d. E [ (X X)u ] = 0 V ar [ (X X)u ] = E[(X X) 2 u 2 ] = σv 2 < [ ] 1 V ar (X n X)u = 1 n 2 nσ2 v < Ross Regressone lneare semplce Econometra - 2013 42 / 45
Meda e varanza camponara stmator OLS Varanza d ˆβ 1 E[ ˆβ 1 ] = β 1. V ar[ ˆβ 1 ] = 1 n V ar [v ] (σx 2 = 1 )2 n V ar[ ˆβ 1 ] è nversamente proporzonale a n. σv 2 (σx 2 )2 Ross Regressone lneare semplce Econometra - 2013 43 / 45
Meda e varanza camponara stmator OLS Dstrbuzone asntotca d ˆβ 1 v = 1 n v soddsfa le condzon per l applcazone de TLC v σ v / N(0, 1) n ˆβ 1 β 1 = 1 n v n 1 n s2 X v 1 n v V ar[x ] V ar[ ˆβ 1 ] = V ar[ v] [V ar(x )] 2 = 1 V ar[v ] n [V ar(x )] 2 Qund, per n grande, la dstrbuzone d ˆβ 1 ( σ ˆβ 2 ) v 1 N β 1, n(σx 2 )2 Ross Regressone lneare semplce Econometra - 2013 44 / 45
Meda e varanza camponara stmator OLS Dstrbuzone asntotca d ˆβ 1 Anche la dstrbuzone approssmata d ˆβ 0 è gaussana ( ˆβ 0 N β 0, V ar[h u ] ) n[e(h 2)]2 [ µx ] H = 1 E(X 2) X La dstrbuzone congunta d ˆβ 0 e ˆβ 1 è bene approssmata dalla gaussana bvarata. Ross Regressone lneare semplce Econometra - 2013 45 / 45