Funzioni di regressione non lineari Eduardo Rossi 2 2 Università di Pavia (Italy) Maggio 2013 Rossi Regressione nonlineare Econometria - 2013 1 / 25
Sommario Funzioni di regressione non lineari - note generali Funzioni non lineari a una variabile Funzioni non lineari a due variabili: interazioni Applicazione al dataset dei punteggi nei test della California Rossi Regressione nonlineare Econometria - 2013 2 / 25
Funzioni di regressione non lineari Le funzioni di regressione viste finora erano lineari rispetto alla variabile X Ma l approssimazione lineare non è sempre la migliore Il modello di regressione multipla può gestire funzioni di regressione non lineari in una o più X. Rossi Regressione nonlineare Econometria - 2013 3 / 25
La relazione tra punteggio nei test e reddito distrettuale sembra non lineare Rossi Regressione nonlineare Econometria - 2013 4 / 25
Funzioni di regressione non lineari: concetti generali Se una relazione tra Y e X è non lineare: L effetto su Y di una variazione in X dipende dal valore di X ovvero, l effetto marginale di X non è costante Una regressione lineare è mal specificata: la forma funzionale è errata Lo stimatore dell effetto su Y di X è distorto: in generale non è corretto nemmeno sulla media La soluzione consiste nell applicare una funzione di regressione che sia non lineare in X Rossi Regressione nonlineare Econometria - 2013 5 / 25
Funzione di regressione non lineare Y i = f(x 1i,..., X ki ) + u i i = 1,..., n Assunzioni E[u i X 1i,..., X ki ] = 0 (identica); implica che f è il valore atteso di Y condizionato alle X. X 1i,..., X ki sono i.i.d. (identica). Gli outlier sono rari (stessa idea; la condizione matematica precisa dipende dalla f in esame). Assenza di multicollinearità perfetta (stessa idea; la formulazione precisa dipende dalla f in esame). La variazione in Y associata a una variazione in X 1, mantenendo X 2,..., X k costanti è: Y i = f(x 1i + X 1i,..., X ki ) f(x 1i,..., X ki ) Rossi Regressione nonlineare Econometria - 2013 6 / 25
Funzione di regressione non lineare Rossi Regressione nonlineare Econometria - 2013 7 / 25
Funzioni non lineari di un unica variabile indipendente Vedremo due approcci complementari: Polinomiali in X: La funzione di regressione della popolazione viene approssimata da una quadratica, una cubica o una polinomiale di grado più alto. Trasformazioni logaritmiche: Le Y e/o le X vengono trasformate prendendone il logaritmo, che ne fornisce un approssimazione percentuale utile in molte applicazioni. Rossi Regressione nonlineare Econometria - 2013 8 / 25
Polinomiali X Approssimiamo la funzione di regressione della popolazione con una polinomiale: Y i = β 0 + β 1 X i + β 2 X 2 i +... + β r X r i + u i E proprio il modello di regressione lineare multipla salvo che i regressori sono potenze di X! Per stima, verifica delle ipotesi, ecc. si procede come nel modello di regressione multipla con OLS. I coefficienti sono difficili da interpretare, ma la funzione risultante è interpretabile Rossi Regressione nonlineare Econometria - 2013 9 / 25
Esempio: la relazione tra punteggio nei test e reddito distrettuale Income i = reddito distrettuale medio nel distretto iesimo (migliaia di dollari pro capite) Approssimazione quadratica: TestScore i = β 0 + β 1 Income i + β 2 Income 2 i + u i Approssimazione cubica: TestScore i = β 0 + β 1 Income i + β 2 Income 2 i + β 3 Income 3 i + u i Rossi Regressione nonlineare Econometria - 2013 10 / 25
Interpretazione della funzione di regressione stimata : Testscr = 607, 302 (3,0462) + 3, 85099 (0,30426) Income 0, 0423085 Income 2 (0,0062601) T = 420 R2 = 0, 5540 F (2, 417) = 261, 28 ˆσ = 12, 724 (errori standard tra parentesi) Rappresentiamo graficamente i valori della stima 720 Effettivi Stime testscr: valori effettivi e stimati, rispetto a avginc 700 680 testscr 660 640 620 600 10 20 30 40 50 avginc Rossi Regressione nonlineare Econometria - 2013 11 / 25
Interpretazione della funzione di regressione stimata Variazione predetta in TestScore per una variazione del reddito da $5.000 pro capite a $6.000 pro capite: TestScore i = β 0 + β 1 (Income i + Income i ) + β 2 (Income i + Income i ) 2 TestScore i = 607, 3 + 3, 85 6 0, 0423 6 2 (607, 3 + 3, 85 5 0, 0423 5 2 ) = 3, 4 Rossi Regressione nonlineare Econometria - 2013 12 / 25
Interpretazione della funzione di regressione stimata Testscr = 607, 302 (3,0462) + 3, 85099 (0,30426) Effetti attesi in base ai diversi valori di X: Income 0, 0423085 Income 2 (0,0062601) Variazione del reddito ($1000 pro capite) Testscr da 5 a 6 3,4 da 25 a 26 1,7 da 45 a 46 0,0 L effetto di un cambiamento del reddito è maggiore per i redditi più bassi (forse un beneficio marginale decrescente con l aumento dei budget delle scuole?) Attenzione! Qual è l effetto di una variazione da 65 a 66? Non estrapolate al di fuori dell intervallo dei dati! Rossi Regressione nonlineare Econometria - 2013 13 / 25
Verifica dell ipotesi nulla di linearità Verifica dell ipotesi nulla di linearità, contro l alternativa che la funzione di regressione della popolazione sia quadratica e/o cubica, ovvero sia una polinomiale di grado fino a 3. Modello non vincolato: TestScore i = β 0 + β 1 Income i + β 2 Income 2 i + β 3 Income 3 i + u i H 0 : β 2 = β 3 = 0 H 1 : β 2 0 e/o β 3 0 F (2, 416) = 37, 69 L ipotesi che la funzione di regressione della popolazione sia lineare viene rigettata al livello di significatività dell 1% contro l alternativa che sia una polinomiale di grado fino a 3. Rossi Regressione nonlineare Econometria - 2013 14 / 25
Riepilogo: funzioni di regressione polinomiali Y i = β 0 + β 1 X i + β 2 X 2 i +... + β r X r i + u i Stima: via OLS dopo aver definito nuovi regressori I coefficienti hanno interpretazioni complicate Per interpretare la funzione di regressione stimata: rappresentare graficamente i valori predetti come funzione di X calcolare gli scarti predetti Y/ X per i diversi valori di X Le ipotesi sul grado r possono essere verificate tramite test t e F sugli appropriati blocchi di variabili. Scelta del grado r rappresentare i dati graficamente, effettuare i test t e F. In alternativa usare il criterio di scelta del modello. Rossi Regressione nonlineare Econometria - 2013 15 / 25
Funzioni logaritmiche di Y e/o X Le trasformazioni logaritmiche permettono di modellare le relazioni in termini percentuali (come l elasticità) invece che linearmente. Ecco perchè: ( ln(x + x) ln(x) = ln 1 + x ) x x x Numericamente: d ln x dx = 1 x ln (1, 01) = 0, 00995 0, 01 ln (1, 10) = 0, 0953 0, 10 circa Rossi Regressione nonlineare Econometria - 2013 16 / 25
Tre specificazioni della regressione logaritmica Caso lineare-log log-lineare log-log Funzione di regressione della popolazione Y i = β 0 + β 1 ln X i + u i ln Y i = β 0 + β 1 X i + u i ln Y i = β 0 + β 1 ln X i + u i L interpretazione del coefficiente pendenza è diversa in ciascun caso. L interpretazione si trova applicando la regola generale prima e dopo : predire la variazione in Y per una data variazione in X. Ogni caso ha una diversa interpretazione naturale (per piccole variazioni in X) Rossi Regressione nonlineare Econometria - 2013 17 / 25
Funzione di regressione della popolazione lineare-logaritmica Calcolare Y prima e dopo aver modificato la X. Prima: Y i = β 0 + β 1 ln X i + u i Dopo: ora quindi o Y i + Y i = β 0 + β 1 ln (X i + X i ) + u i Y i = β 1 [ln (X i + X i ) ln X i ] ln (X i + X i ) ln X i X i X i Y i β 1 X i X i β 1 Y i X i /X i Rossi Regressione nonlineare Econometria - 2013 18 / 25
Funzione di regressione della popolazione lineare-logaritmica Per piccole variazioni X, β 1 Y i X i /X i Ora 100 X i X i = variazione percentuale in X, quindi un incremento dell 1% in X è associato a una variazionedi 0,01 β 1 in Y. 1% incremento in X 0,01 incremento in ln (X) 0,01 β 1 incremento in Y. Rossi Regressione nonlineare Econometria - 2013 19 / 25
Funzione di regressione della popolazione log-lineare ln Y = β 0 + β 1 X Variamo X: Sottraiamo: da cui o per X piccole. ln (Y + Y ) = β 0 + β 1 (X + X) ln (Y + Y ) ln Y = β 1 X Y Y β 1 X β 1 Y/Y X Rossi Regressione nonlineare Econometria - 2013 20 / 25
Caso log-lineare per X piccole. β 1 Y/Y X 100 β 1 X = 100 Y Y = percentuale di variazione in Y. quindi una variazione in X di un unità, X = 1, si associa a una variazione di 100 β 1 % incremento in Y. Un unità di incremento in X produce: una variazione pari a β 1 in ln Y. una variazione pari a 100 β 1 % in Y. Rossi Regressione nonlineare Econometria - 2013 21 / 25
Funzione di regressione della popolazione log-log Variamo X: sottraiamo: ln (Y i ) = β 0 + β 1 ln (X i ) + u i E[ln (Y i ) X i ] = β 0 + β 1 ln (X i ) E[ln (Y i + Y ) X i ] = β 0 + β 1 ln (X i + X) E[ln (Y i + Y ) X i ] E[ln (Y i ) X i ] = β 1 [ln (X i + X) ln (X i )] con l approssimazione ln (Y + Y ) ln (Y ) Y Y [ ] Y E Y X X β 1 X per X piccolo. β 1 Y Y X X Rossi Regressione nonlineare Econometria - 2013 22 / 25
Funzione di regressione della popolazione log-log Y 100 Y β 1 100 X X β 1 rapporto tra la variazione percentuale di Y e quella di X. Se la variazione di X è dell 1%, ( X/X = 0, 01), β 1 misura la variazione percentuale di Y. Nella specifica log-log, β 1 ha l interpretazione di un coefficiente di elasticità. Esempio: ln (T estscore i ) = 6, 336 + 0, 0554 ln (Income i ) A un aumento dell 1% in Income si associa un aumento dello 0.0554% in TestScore (Income aumenta di un fattore 1,01, TestScore di un fattore 1,000554). Rossi Regressione nonlineare Econometria - 2013 23 / 25
Esempio ln (T estscore i ) = 6, 336 + 0, 0554 ln (Income i ) Per esempio, supponiamo che il reddito salga da 10.000$ a 11.000$, o del 10%. Quindi TestScore cresce approssimativamente di 0, 0554 10% = 0, 554%. Rossi Regressione nonlineare Econometria - 2013 24 / 25
Riepilogo: trasformazioni logaritmiche Tre casi, differiscono in base alla o alle variabili Y e/o X trasformate in logaritmi. La regressione diventa lineare sulla(e) nuova(e) variabile(i) ln(y) e/o ln(x), mentre i coefficienti possono essere stimati attraverso l OLS. I test di ipotesi e gli intervalli di affidabilità possono essere implementati e interpretati nel solito modo L interpretazione di β 1 differisce caso per caso. La scelta della specificazione (forma funzionale) dev essere guidata dal ragionamento - quale interpretazione ha più senso nella vostra applicazione? - da test e dall analisi grafica dei valori predetti Rossi Regressione nonlineare Econometria - 2013 25 / 25