Regressioni Non Lineari Fino ad ora abbiamo solo considerato realazioni lineari Ma le relazioni lineari non costituiscono sempre le migliori approssimazioni La regressione multipla può anche essere formulata utilizzando relazioni non lineari Sommario 1. Funzioni di Regressioni Non Lineari commenti generali 2. Funzioni Non Lineari di una variabile 3. Funzioni Non Lineari di due variabile: interazioni 1
Voti e STR sembra lineare 2
Voti e Reddito sembra non lineare... 3
Considerazioni generali Se la relazione fra X e Y è non lineare: L effetto su Y di un cambio in X dipende dai valori di X cioè, l effetto marginale di X non è costante Una regressione lineare non è specificato correttamente (misspecified) la forma funzionale è errata Lo stimatore dell effetto su Y di X è biased La soluzione è di stimare una funzione di regressione non lineare in X 4
Funzioni di regressione non lineari Y i = f(x 1i, X 2i,, X ki ) + u i, i = 1,, n Assunzioni 1. E(u i X 1i,X 2i,,X ki ) = 0. 2. (X 1i,,X ki,y i ) sono i.i.d. 3. Grandi outliers sono rari. 4. Non c è multicollinearità perfetta. 5
Funzioni Nonlineari di una Singola Variabile Independente 2 approcci complementari: 1. Polinomio in X quadratico, cubico, o di ordine maggiore 2. Trasformazioni logaritmiche Y e/o X sono trasformate prendendo i logaritmi Ciò conduce ad una interpretazione in percentuale 6
1. Polinomi in X 2 r Y i = β 0 + β 1 X i + β 2 X i + + β r X i + u i Questo è come un modello di regressione multipla eccetto che i regressori sono elevate a potenza! (lineare nei parametri) Stima e test d ipotesi come per OLS I coefficienti hanno diversa interpretazione 7
Es: Voti e Reddito Income i = reddito medio nell i mo distretto Specificazione quadratica: Voti i = β 0 + β 1 Reddito i + β 2 (Reddito i ) 2 + u i Cubica: Voti i = β 0 + β 1 Reddito i + β 2 (Reddito i ) 2 + + β 3 (Reddito i ) 3 +u i 8
Stima della specificazione quadratica generate avginc2 = avginc*avginc; Create a new regressor reg testscr avginc avginc2, r; Regression with robust standard errors Number of obs = 420 F( 2, 417) = 428.52 Prob > F = 0.0000 R-squared = 0.5562 Root MSE = 12.724 ------------------------------------------------------------------------------ Robust testscr Coef. Std. Err. t P> t [95% Conf. Interval] -------------+---------------------------------------------------------------- avginc 3.850995.2680941 14.36 0.000 3.32401 4.377979 avginc2 -.0423085.0047803-8.85 0.000 -.051705 -.0329119 _cons 607.3017 2.901754 209.29 0.000 601.5978 613.0056 ------------------------------------------------------------------------------ È come testare la specificazione quadratica vs quella lineare 9
Interpretazione del coefficiente: (a) guardiamo ai valori previsti oti Vˆ = 607.3 + 3.85Reddito i 0.0423(Reddito i ) 2 (2.9) (0.27) (0.0048) 10
(b) Calcoliamo gli effetti per diversi valori di X Vˆ oti= 607.3 + 3.85Reddito i 0.0423(Reddito i ) 2 (2.9) (0.27) (0.0048) Variazione predetta nei Voti medi dovuta ad una variazione del reddito da $5,000 a $6,000: Vˆ oti = 607.3 + 3.85 6 0.0423 6 2 = 3.4 (607.3 + 3.85 5 0.0423 5 2 ) 11
Vˆ oti = 607.3 + 3.85Reddito i 0.0423(Reddito i ) 2 Effetti previsti per diversi valori di X: Reddito ($1000 per capita) Vˆ oti da 5 a 6 3.4 da 25 a 26 1.7 da 45 a 46 0.0 L effetto è maggiore per livelli di reddito più bassi 12
Stima della specificazione cubica gen avginc3 = avginc*avginc2; Create the cubic regressor reg testscr avginc avginc2 avginc3, r; Regression with robust standard errors Number of obs = 420 F( 3, 416) = 270.18 Prob > F = 0.0000 R-squared = 0.5584 Root MSE = 12.707 ------------------------------------------------------------------------------ Robust testscr Coef. Std. Err. t P> t [95% Conf. Interval] -------------+---------------------------------------------------------------- avginc 5.018677.7073505 7.10 0.000 3.628251 6.409104 avginc2 -.0958052.0289537-3.31 0.001 -.1527191 -.0388913 avginc3.0006855.0003471 1.98 0.049 3.27e-06.0013677 _cons 600.079 5.102062 117.61 0.000 590.0499 610.108 ------------------------------------------------------------------------------ 13
Testare l ipotesi nulla di linearità, contro l alternativa che la regressione è quadratica e/o cubica: H 0 : i coefficienti di Reddito 2 e Reddito 3 = 0 H 1 : almeno uno dei due è diverso da zero. test avginc2 avginc3; Execute the test command after running the regression. ( 1) avginc2 = 0.0 ( 2) avginc3 = 0.0 F( 2, 416) = 37.69 Prob > F = 0.0000 14
Riassunto Y i = β 0 + β 1 X i + β 2 2 r X i + + β r X i + u i Stima: con OLS dopo aver definito dei i nuovi regressori I coefficienti hanno un interpretazine più complicata Per interpretare le funzioni di regressione stimate: Fare un plot dei valori predetto come funzione di X Calcolare Y/ X a diversi valori di X Le varie ipotesi possono essere testate usando t- e F-tests Scelta del grado del polinomio, r plot; t- e F-tests, Oppure usiamo criteri di selezione che vedremo successivamente (Cap.7) 15
2. Funzioni logaritmiche di Y e/o X ln(x) = logaritmo naturale di X La trasformazione logaritmica permette di considerare le relazioni in termini di percentuale (come l elasticità), piuttosto che linearmente. Logaritmi e percentuali: quando x è piccolo ln( x+ x) x ln(x+ x) ln(x) = ln( x) = ln 1+ x x x variazione percentuale di x divisa per 100. Numericamente: ln(1 + 0.01) = ln(1.01) =.00995 0.01; ln(1 + 0.10) = ln(1.10) =.0953 0.10 (approx) 16
3 specificazioni: Casi Funzioni di regressione della popolazione I. lineare-log Y i = β 0 + β 1 ln(x i ) + u i II. log-lineare III. log-log ln(y i ) = β 0 + β 1 X i + u i ln(y i ) = β 0 + β 1 ln(x i ) + u i L interpretazione del coefficiente β 1 è diversa in ogni caso. 17
I. Lineare-logaritmica Prima: Y = β 0 + β 1 ln(x) (b) Dopo X: Y + Y = β 0 + β 1 ln(x + X) (a) (a) (b): Y = β 1 [ln(x + X) ln(x)] poichè X ln(x + X) ln(x), X dunque X Y β 1 X oppure Y β 1 X / X (per piccoli X) 18
Y i = β 0 + β 1 ln(x i ) + u i Per piccoli X, β 1 Y X / X In termini percentuali 100 X è la percentuale di variazione in X, X un incremento di 1% di X [ X X =0.01] 0.01β1 di incremento in Y 19
Definiamo il nuovo regressore, ln(reddito) Il modello lineare-log può essere stimato usando OLS: Vˆ oti = 557.8 + 36.42 ln(reddito i ) (3.8) (1.40) Un incremento di 1% del Reddito corrisponde ad un incremento dei Voti di (0.01*36.42)=0.36 punti. Errori standard, intervalli di confidenza, R 2,come al solito. 20
La regressione lineare-log e la regressione cubica 21
II. Log-lineare Prima: ln(y) = β 0 + β 1 X (b) Dopo X: ln(y + Y) = β 0 + β 1 (X + X) (a) (a) (b): ln(y + Y) ln(y) = β 1 X dunque Y Y oppure β 1 β1 X Y / Y (per piccoli X) X 22
ln(y i ) = β 0 + β 1 X i + u i Y / Y per piccoli X, β 1 X In termini percentuali 100 Y = cambio in percentuale in Y, una Y variazione di una unità in X ( X = 1) è associata ad una variazione di 100β 1 % in Y. X β 1 = ( Y/Y) un aumento di una unità in X aumento pari a β 1 in ln(y) aumento di 100β 1 % in Y 23
III. Log-log Prima: ln(y i ) = β 0 + β 1 ln(x i ) + u i (b) Dopo X: ln(y + Y) = β 0 + β 1 ln(x + X) (a) (a)-(b): ln(y + Y) ln(y) = β 1 [ln(x + X) ln(x)] dunque o β 1 Y X β1 Y X Y / Y (per piccoli X) X / X 24
ln(y i ) = β 0 + β 1 ln(x i ) + u i per piccoli X, Y / Y β 1 X / X qui 100 Y X = variazione in percentuale di Y, e 100 = Y X variazione in percentuale di X, un variazione pari all 1% di X è associata a una variazione pari al β 1 % in Y. Nella specificazione log-log, β 1 ha si interpreta come elasticità. 25
Definiamo una nuova variabile dipendente, ln(voti), e un nuovo regressore, ln(reddito) Il modello è lineare e può essere stimato usando OLS: ln( Vˆ oti )= 6.336 + 0.0554 ln(income i ) (0.006) (0.0021) Una variazione dell 1% nel Reddito è associata ad una variazione dello 0.0554% dei Voti (se il Reddito cresce di un fattore 1.01, Voti salgono di un fattore 1.000554) 26
ln( Vˆ oti)= 6.336 + 0.0554 ln(income i ) (0.006) (0.0021) Per esempio, supponiamo che il reddito cresca da $10,000 a $11,000, o del 10%. Allora la variabile Voti cresce approx di 0.0554 10% =.554%. Se Voti = 650 0.00554 650 = 3.6 punti. Come paragonare questo con il modello lineare-log? Teoria economica e interpretazione percentuale, R 2 non utile 27
Le specificazioni log-lineare e log-log : Nota l asse verticale Nessuna delle due sembra approssimarsi tanto bene Quanto la cubica o la lineare-log 28
Riassunto delle trasformazioni lineari 3 casi distinti. Le regressioni sono lineari e possono essere stimate con OLS. Test d ipotesi e intervalli di confidenza come al solito L iterpretazione di β 1 cambia da caso a caso. La scelta fra le diverse specificazioni dipende dal giudizio del ricercatore, guidato da test di significatività e plot dei valori previsti 29
Interazioni fra Variabili indipendenti Forse la grandezza della classe può essere più importante in alcuni casi rispetto ad altri classi più piccole sono più opportune quando ci sono molti bimbi non di madre lingua (possono avere più attenzione) TestScore cioè, potrebbe dipendere da PctEL STR Y e potrebbe dipendere da X 2 X 1 Come modellare queste interazioni fra X 1 e X 2? Prima di tutto consideriamo una specificazione di X binaria piuttosto che continua. 30
(a) Interazioni fra 2 variabili binarie Y i = β 0 + β 1 D 1i + β 2 D 2i + u i D 1i, D 2i sono binarie β 1 è l effetto di una variazione da D 1 =0 a D 1 =1. Qui questo effetto non dipende dal valore di D 2. Per permettere a D 1 di dipendere da D 2, includiamo un termine di interazione D 1i D 2i come regressoe: Y i = β 0 + β 1 D 1i + β 2 D 2i + β 3 (D 1i D 2i ) + u i 31
Interpretazione dei coefficienti Y i = β 0 + β 1 D 1i + β 2 D 2i + β 3 (D 1i D 2i ) + u i Regola generale: paragonare i vari casi E(Y i D 1i =0, D 2i =d 2 ) = β 0 + β 2 d 2 (b) E(Y i D 1i =1, D 2i =d 2 ) = β 0 + β 1 + β 2 d 2 + β 3 d 2 (a) (a) (b): E(Y i D 1i =1, D 2i =d 2 ) E(Y i D 1i =0, D 2i =d 2 ) = β 1 + β 3 d 2 L effetto di D 1 depende da d 2 β 3 = in/decremento all effetto di D 1, quando D 2 = 1 32
Poniamo HiSTR = 1 if STR 20 0 if STR < 20 e HiEL = 1 if PctEL l0 0 if PctEL < 10 Vˆ oti = 664.1 18.2HiEL 1.9HiSTR 3.5(HiSTR HiEL) (1.4) (2.3) (1.9) (3.1) L effetto di HiSTR quando HiEL = 0 è 1.9 L effetto di HiSTR quando HiEL = 1 è ( 1.9 3.5) = 5.4 Si stima che una riduzione delle classi abbia un effetto maggiore quando la percentuale di bambini che non sono di lingua madre è grande Tuttavia questa iterazione non è statisticamente significativa: t = 3.5/3.1 33
(b) Interazione fra una variabile continua ed una binaria Y i = β 0 + β 1 D i + β 2 X i + u i D i è binaria, X è continua Come specificato sopra, l effetto di X su Y(tenendo costante D) = β 2, non dipende da D Per far si che l effetto di X dipenda da D, includiamo un termine di interazione D i X i come reressore: Y i = β 0 + β 1 D i + β 2 X i + β 3 (D i X i ) + u i 34
Y i = β 0 + β 1 D i + β 2 X i + β 3 (D i X i ) + u i Per le osservazioni per cui D i = 0 (il gruppo D = 0 ) vale la: Y i = β 0 + β 2 X i + u i regressione D=0 Per le osservazioni per cui D i = 1 (il gruppo D = 1 ) vale la: Y i = β 0 + β 1 + β 2 X i + β 3 X i + u i = (β 0 +β 1 ) + (β 2 +β 3 )X i + u i regressione D=1 35
36
Interpretazione dei coefficienti Y i = β 0 + β 1 D i + β 2 X i + β 3 (D i X i ) + u i Regola generale, Prima Y = β 0 + β 1 D + β 2 X + β 3 (D X) (b) Dopo X: Y + Y = β 0 + β 1 D + β 2 (X+ X) + β 3 [D (X+ X)](a) (a) (b): Y = β 2 X + β 3 D X or L effetto di X dipende da D Y X = β 2 + β 3 D β 3 = incremento dell effetto di X, quando D = 1 37
Es Vˆ oti = 682.2 0.97STR + 5.6HiEL 1.28(STR HiEL) (11.9) (0.59) (19.5) (0.97) se HiEL = 0: se HiEL = 1, Vˆ oti = 682.2 0.97STR Vˆ oti= 682.2 0.97STR + 5.6 1.28STR = 687.8 2.25STR due rette di regressione: una per ogni gruppo di HiSTR. Si stima che una riduzione della grandezza delle classi abbia un effetto maggiore nel caso in cui la percentuale dei bimbi non di madre lingua sia più alta 38
Vˆ oti = 682.2 0.97STR + 5.6HiEL 1.28(STR HiEL) (11.9) (0.59) (19.5) (0.97) Le due regressioni hanno lo stesso coefficiente angolare il coefficiente di STR HiEL è zero: t = 1.28/0.97 = 1.32 Le due regressioni hanno la stessa intercetta il coefficiente di HiEL è zero: t = 5.6/19.5 = 0.29 Le due rette di regressione sono uguali HiEL = 0 e STR HiEL = 0: F = 89.94 (p-value <.001) Rifiutiamo l ipotesi congiunta ma non quelle individuali (correlazione alta fra STR HiEL e HiEL) Esempio: Test Chow. Break strutturale. 39
(c) Interazioni fra due variabili continue Y i = β 0 + β 1 X 1i + β 2 X 2i + u i X 1, X 2 sono continue L effetto di X 1 non dipende da X 2 L effetto di X 2 non dipende da X 1 Per permettere a X 1 di influenzare X 2, includiamo il termine di interazione X 1i X 2i come regressore: Y i = β 0 + β 1 X 1i + β 2 X 2i + β 3 (X 1i X 2i ) + u i 40
Interpretazione dei coefficienti: Y i = β 0 + β 1 X 1i + β 2 X 2i + β 3 (X 1i X 2i ) + u i Prima Y = β 0 + β 1 X 1 + β 2 X 2 + β 3 (X 1 X 2 ) (b) Dopo X 1 : Y+ Y = β 0 + β 1 (X 1 + X 1 ) + β 2 X 2 + β 3 [(X 1 + X 1 ) X 2 ] (a) (a) (b): Y Y = β 1 X 1 + β 3 X 2 X 1 or X1 = β 1 + β 3 X 2 L effetto di X 1 depende da X 2 β 3 = l incremento in X 1 dovuto a un cambio unitario in X 2 41
Es Vˆ oti = 686.3 1.12STR 0.67PctEL +.0012(STR PctEL), (11.8)(0.59) (0.37) (0.019) L effetto di una riduzione della grandezza della classe è non lineare poichè la grandezza dell effetto dipende da PctEL: TestScore = 1.12 +.0012PctEL STR PctEL TestScore STR 0 1.12 20% 1.12+.0012 20 = 1.10 42
Vˆ oti = 686.3 1.12STR 0.67PctEL +.0012(STR PctEL), (11.8)(0.59) (0.37) (0.019) Il coefficiente di STR PctEL = 0? t =.0012/.019 =.06 Il coefficiente di STR = 0? t = 1.12/0.59 = 1.90 Il coefficiente di STR e STR PctEL = 0? F = 3.89 (p-value =.021) (Multicollinearità imperfetta) 43
Applicazione 1. Ci sono degli effetti non lineari della riduzione della grandezza delle classi nei voti medi? (Una riduzione da 35 a 30 ha lo stesso effetto di una riduzione da 20 a 15?) 2. è opportuno includere delle interazioni non lineari fra PctEL e STR? (Le classi più piccole sono più efficaci quando ci sono più studenti di madre lingua non inglese?) 44
Domanda #1 Stimiamo funzioni lineari e non lineari di STR, tenendo costante variabili demografiche rilevanti PctEL Reddito LunchPCT Vediamo se inserire dei termini nonlineari migliora nel senso dell interpretazione economica le nostre stime. Testiamo se i termini non lineari sono significativi 45
Domanda #2 Stimiamo le funzioni, lineari e non, di STR, iterate con PctEL. Usiamo anche interazioni fra variabili binarie e continue HiEL STR, HiEL STR 2, e HiEL STR 3. 46
Quale può essere considerata una buona specificazione di base? Voti Reddito La specificazione logaritmica si comporta meglio agli estremi del campione, specialmente per grandi valori del reddito. 47
48
Test di ipotesi congiunta Cosa possiamo dire rispetto alla domanda #1 e # 2? 49
Interpretazione della funzione di regressione usando i grafici: Specificazioni lineari e non lineari, Voti previsti in base a STR tenendo fissi i valori delle altre variabili: 50
Paragoniamo le regressioni con le interazioni modello (6): a parte uno scarto di 10 punti per valori di STR centrali non c è molta differenza nella pendenza 51
1. Controllando per la condizione economica, il fatto che ci siamo molti o pochi studenti con madre lingua non inglese non ha un influenza sostanziale sul modo in cui i test vengono influenzati da una variazione di STR 2. Controllando per la condizione economica, c è evidenza di un effetto non lineare di STR 52
Riassunto: Usando ln(x) o X 1 X 2, possiamo catturare l effetto di numerose relazioni nonlineari. Stima e inferenza, come prima. Interpretazione dei coefficienti e specifica rispetto ai vari modelli Dobbiamo sempre chiederci: Che effetto non lineare vogliamo analizzare? Cosa ha senso nella nostra applicazione? 53