LA MODELLAZIONE EMPIRICA DELLE RELAZIONI ECONOMICHE: APPLICAZIONI IN STATA 7. Maria Elena Bontempi e.bontempi@economia.unife.it

LA MODELLAZIONE EMPIRICA DELLE RELAZIONI ECONOMICHE: APPLICAZIONI IN STATA 7 Maria Elena Bontempi e.bontempi@economia.unife.it VI LEZIONE: Analisi dei residui di stima: outlier, eteroschedasticità. Leverage. Stimatori robusti. Esempio di perfetta collinearità: dummy variable trap Banca dati scolari list y eta f m y eta f m 1. 10.71694 6 0 1 2. 12.19278 7 0 1 3. 13.29217 8 0 1 4. 16.77769 9 0 1 5. 9.344237 6 1 0 6. 10.14903 7 1 0 7. 11.76214 7 1 0 8. 13.90402 8 1 0 9. 14.03758 9 1 0 10. 13.79559 9 1 0 Percentuale di femmine tab f F Freq. Percent Cum. ------------+----------------------------------- 0 4 40.00 40.00 1 6 60.00 100.00 ------------+----------------------------------- Total 10 100.00 La regressione con variabile dipendente la dummy e regressore la sola costante dà come stima la media della dummy, ossia la frequenza di osservazioni relative alle femmine. reg f Source SS df MS Number of obs = 10 -------------+------------------------------ F( 0, 9) = 0.00 Model 0.00 0. Prob > F =. Residual 2.40 9.266666667 R-squared = 0.0000 -------------+------------------------------ Adj R-squared = 0.0000 Total 2.40 9.266666667 Root MSE =.5164 f Coef. Std. Err. t P> t [95% Conf. Interval] _cons.6.1632993 3.67 0.005.2305913.9694087 Media dell'abilità di lettura nei maschi e nelle femmine sort f 1

by f: summ y -> f = 0 Variable Obs Mean Std. Dev. Min Max -------------+----------------------------------------------------- y 4 13.24489 2.580724 10.71694 16.77769 -> f = 1 Variable Obs Mean Std. Dev. Min Max -------------+----------------------------------------------------- y 6 12.16543 2.067495 9.344237 14.03758 TRE specificazioni alternative del modello con dummy: A B C Costante: valore medio di y quando x=0; pertanto, indica l'abilità di lettura media nei maschi (se includo la dummy femmine, come in A) oppure nelle femmine (se includo la dummy maschi, come in B). Coefficiente associato alla dummy: differenza tra abilità di lettura media dei maschi e delle femmine; se non significativo, il genere non conta nello spiegare l'abilità di lettura, ossia l'abilità di lettura media delle femmine non è statisticamente diversa da quella dei maschi. Nella specificazione C si ottengono le due medie, maschi e femmine. Dummy variable trap: se si utilizzano come esplicative p dummy o si includono tutte le p dummy e si omette la costante, oppure si includono p-1 dummy e la costante (specificazione più utile per verificare la presenza di differenze significative rispetto all'individuo-base rappresentato dalla costante). Non includere p dummy e costante (specificazione D) perchè si ottiene perfetta collinearità! A. reg y f Source SS df MS Number of obs = 10 -------------+------------------------------ F( 1, 8) = 0.54 Model 2.79657197 1 2.79657197 Prob > F = 0.4830 Residual 41.3530825 8 5.16913531 R-squared = 0.0633 -------------+------------------------------ Adj R-squared = -0.0537 Total 44.1496545 9 4.90551716 Root MSE = 2.2736 y Coef. Std. Err. t P> t [95% Conf. Interval] f -1.079462 1.467585-0.74 0.483-4.46372 2.304796 _cons 13.24489 1.136787 11.65 0.000 10.62346 15.86633 B. reg y m Source SS df MS Number of obs = 10 -------------+------------------------------ F( 1, 8) = 0.54 Model 2.79657197 1 2.79657197 Prob > F = 0.4830 Residual 41.3530825 8 5.16913531 R-squared = 0.0633 -------------+------------------------------ Adj R-squared = -0.0537 Total 44.1496545 9 4.90551716 Root MSE = 2.2736 y Coef. Std. Err. t P> t [95% Conf. Interval] m 1.079462 1.467585 0.74 0.483-2.304796 4.46372 _cons 12.16543.9281824 13.11 0.000 10.02504 14.30583 2

C. reg y f m, noconst Source SS df MS Number of obs = 10 -------------+------------------------------ F( 2, 8) = 153.77 Model 1589.69552 2 794.847761 Prob > F = 0.0000 Residual 41.3530825 8 5.16913531 R-squared = 0.9746 -------------+------------------------------ Adj R-squared = 0.9683 Total 1631.04861 10 163.104861 Root MSE = 2.2736 y Coef. Std. Err. t P> t [95% Conf. Interval] f 12.16543.9281824 13.11 0.000 10.02504 14.30583 m 13.24489 1.136787 11.65 0.000 10.62346 15.86633 D. reg y f m Source SS df MS Number of obs = 10 -------------+------------------------------ F( 1, 8) = 0.54 Model 2.79657197 1 2.79657197 Prob > F = 0.4830 Residual 41.3530825 8 5.16913531 R-squared = 0.0633 -------------+------------------------------ Adj R-squared = -0.0537 Total 44.1496545 9 4.90551716 Root MSE = 2.2736 y Coef. Std. Err. t P> t [95% Conf. Interval] f -1.079462 1.467585-0.74 0.483-4.46372 2.304796 m (dropped) _cons 13.24489 1.136787 11.65 0.000 10.62346 15.86633 Risposte all'esercizio A CASA associato alla lezione V Banca dati URBAN.DTA Regressione semplice reg homic poor Source SS df MS Number of obs = 20 -------------+------------------------------ F( 1, 18) = 6.14 Model 181.370325 1 181.370325 Prob > F = 0.0233 Residual 531.573154 18 29.5318419 R-squared = 0.2544 -------------+------------------------------ Adj R-squared = 0.2130 Total 712.943479 19 37.523341 Root MSE = 5.4343 homic Coef. Std. Err. t P> t [95% Conf. Interval] poor.9438495.3808596 2.48 0.023.1436932 1.744006 _cons -.8151891 3.344025-0.24 0.810-7.840726 6.210348 Regressione multivariata: ora il coefficiente associato a poor misura l'incremento del tasso di omicidi per un incremento 3

unitario della % di famiglie sotto la soglia di povertà, se la popolazione delle città rimane immutata. reg homic poor pop Source SS df MS Number of obs = 20 -------------+------------------------------ F( 2, 17) = 36.30 Model 577.667334 2 288.833667 Prob > F = 0.0000 Residual 135.276144 17 7.95742026 R-squared = 0.8103 -------------+------------------------------ Adj R-squared = 0.7879 Total 712.943479 19 37.523341 Root MSE = 2.8209 homic Coef. Std. Err. t P> t [95% Conf. Interval] poor.6562371.2018567 3.25 0.005.2303567 1.082117 pop.0222329.0031504 7.06 0.000.015586.0288797 _cons -3.899011 1.790002-2.18 0.044-7.675584 -.1224378 Il coefficiente associato a poor scende da 0.94 a 0.65: parte dell'effetto di poor nella regressione semplice era dovuto al fatto che la % di famiglie sotto la soglia di povertà ed il tasso di omicidi sono entrambi maggiori in città con popolazione più elevata. graph homic poor pop, matrix half label s([city]) Homicides/100,000 people 15 Columbus Rocheste 10 5 Berkeley Erie Salt Lak Peoria Albuquer AllentowPortland Virginia Honolulu Tulsa Milwauke Tempe Fullerto Concord Independ Sunnyval Sterling Dallas Percent families below poverty 0 Dallas Dallas Milwauke Portland Honolulu Albuquer Tulsa Virginia Rocheste Salt Lak Columbus Sterling Sunnyval Fullerto Concord Independ Allentow Tempe Peoria Erie Berkeley Milwauke Honolulu Tulsa Portland Albuquer Virginia Rocheste Salt Lak Columbus Sterling Sunnyval Concord Independ Fullerto Tempe Allentow Peoria ErieBerkeley Population in 1,000s 0 10 20 30 0 500 1000 La correlazione positiva tra poor e pop è dovuta principalmente a Dallas corr poor pop (obs=20) poor pop -------------+------------------ 4

poor 1.0000 pop 0.2019 1.0000 corr poor pop if city!="dallas" (obs=19) poor pop -------------+------------------ poor 1.0000 pop 0.0946 1.0000 Tuttavia, la correlazione tra poor e pop non è tale da fare temere problemi di multicollinearità. Inoltre, test t e F sono tra loro coerenti. In generale, per analizzare le correlazioni tra variabili può essere utile il comando pwcorr homic poor pop, star(.05) homic poor pop -------------+--------------------------- homic 1.0000 poor 0.5044* 1.0000 pop 0.8320* 0.2019 1.0000 A differenza di corr, pwcorr permette l'opzione star(.05) che aggiunge un asterisco per le correlazioni significative al 5%. Analisi preliminare dei residui di regressione Data la regressione su cui (si spera!) avete svolto l'esercizio associato alla lezione V (reg homic poor pop), si costruiscono i dati fitted e si calcolano i residui della regressione: predict homichat g res=homic-homichat summ homic homichat res Variable Obs Mean Std. Dev. Min Max -------------+----------------------------------------------------- homic 20 6.9055 6.12563.55 29.98 homichat 20 6.9055 5.513941.5587064 23.28908 res 20 2.09e-08 2.668295-6.877952 6.690916 (nota che la media di res è zero e che y e fit hanno la stessa media) L analisi dei residui della regressione (res) è la principale fase diagnostica della specificazione del modello; su di essa si basano i test di scorretta specificazione, da effettuare prima di procedere ai test di significatività (fondati sull'assioma di corretta specificazione del modello). I residui sono la stima degli errori ε (variabili casuali non osservabili). Ispezione preliminare dei residui. Una prima ispezione grafica dei residui contro i dati fitted può essere illuminante perché è in grado di evidenziare una serie di potenziali problematiche. (Si ricordano i temi dell' analisi univariata e multivariata dei dati, lezioni I e II). rvfplot,oneway twoway box yline(0) ylabel xlabel 5

10 5 Residuals 0-5 -10 0 10 20 30 Fitted values (nota che la retta in corrispondenza di 0 indica la media zero dei residui) rvfplot effettua il grafico residui contro fitted dell'ultima regressione effettuata. Nel caso di un modello ideale (con residui ideali), la retta di regressione (iperpiano nel caso di più regressori) riproduce abbastanza fedelmente l andamento dello scatter y - x e, quindi, i residui dovrebbero disporsi casualmente sopra e sotto tale retta. Quando invece i residui presentano un pattern non casuale, come in questo caso, allora è meglio rivedere la specificazione del modello perché tale pattern anomalo segnala problemi interpretativi della regressione proposta. Il fatto più evidente dall analisi grafica è che Dallas è, al contempo, caratterizzata da un elevato fit di homic e da un elevato errore positivo (il modello stimato sottostima il dato effettivo). Inoltre, nel complesso, si nota la tendenza ad ampliarsi della dispersione dei punti sopra e sotto la retta a mano a mano che aumentano i fitted values. Una dispersione dei residui crescente con il fit porta a pensare a rischi di eteroschedasticità (vedi test sotto) Simmetria e outlier della distribuzione dei residui: statistiche descrittive dei residui, test di normalità dei residui e boxplot del grafico precedente indicano una molto modesta asimmetria dei residui e una non particolarmente grave presenza di curtosi. Al 5% non si rifiuta l ipotesi di normalità dei residui (p-value = 9.3% nel complesso) e questo è particolarmente utile in piccoli campioni (quali quello in uso) in cui non ci si può riferire alla teoria asintotica; ciò garantisce distribuzioni «abbastanza» standard per le statistiche test (t, F, chi-quadro). In particolare, si nota che l outlier Dallas provoca un segnale di curtosi (il p-value è 3.2%). summ res, d Residuals ------------------------------------------------------------- Percentiles Smallest 1% -6.877952-6.877952 5% -5.034405-3.190859 10% -3.182166-3.173472 Obs 20 25% -.8717402-1.205127 Sum of Wgt. 20 50% -.0794083 Mean -2.19e-08 6

Largest Std. Dev. 2.668295 75% 1.612288 1.777815 90% 2.240921 2.03746 Variance 7.119797 95% 4.567649 2.444383 Skewness -.1587214 99% 6.690915 6.690915 Kurtosis 4.948724 sktest res Skewness/Kurtosis tests for Normality ------- joint ------ Variable Pr(Skewness) Pr(Kurtosis) adj chi2(2) Prob>chi2 -------------+------------------------------------------------------- res 0.722 0.032 4.76 0.0926 E accettata l ipotesi nulla di simmetria, è rifiutata al 5% l ipotesi nulla di kurtosis pari a 3, congiuntamente la normalità è rifiutata al 5% ed accettata al 10%: possibile eteroschedasticità e presenza di un outlier. Test di scorretta specificazione: test di eteroschedasticità Le ipotesi sugli errori del modello classico di regressione lineare sono ε ~ iid(0,σ 2 ). L ipotesi E(ε) = 0 è sempre verificata alla luce dei residui: la somma dei residui è sempre zero a patto che la specificazione del modello includa la costante (vedi summ res). L ipotesi di errori independently distributed (non correlazione fra gli errori relativi ad osservazioni diverse) spesso non ha senso in modelli cross-section (l ordine delle osservazioni non è univoco e, comunque, il problema è evitato con opportune tecniche di campionamento casuale delle osservazioni). Al contrario, la correlazione tra gli errori (autocorrelazione) è molto rilevante nelle analisi delle serie storiche. Nel caso di modelli per cross-section (i cui dati sono caratterizzati da forte variabilità), il principale problema di scorretta specificazione è l eteroschedasticità (la varianza degli errori non è la stessa per tutte le osservazioni) e la non validità dell assunzione di errori identically distributed. In generale, la validità delle ipotesi del modello classico di regressione lineare è verificata con l ausilio dei test di scorretta specificazione i quali: (a) si basano sui residui (b) sotto la nulla hanno la validità della corrispondente ipotesi del modello classico; più problematica è la specificazione dell'ipotesi alternativa (c) vengono logicamente prima dei test di significatività (la significatività dei parametri del modello va valutata solo quando si è "sicuri" della corretta specificazione del modello, ossia i residui sono well behaved) Il test di eteroschedasticità ha sotto l ipotesi nulla errori omoschedastici (H0: σ 2 costante per tutte le ossevazioni), ma come specificare l ipotesi alternativa? Varianza non costante implica la scelta di uno specifico modello di riferimento per tale assenza di costanza. Una classica ipotesi alternativa è che la variabilità degli errori (eteroschedasticità) cambi al cambiare del quadrato dei regressori oppure del fitted. hettest poor pop Cook-Weisberg test for heteroskedasticity using variables specified Ho: Constant variance chi2(2) = 28.80 Prob > chi2 = 0.0000 hettest Cook-Weisberg test for heteroskedasticity using fitted values of homic Ho: Constant variance chi2(1) = 21.13 Prob > chi2 = 0.0000 Rifiutando la nulla, il test conferma i dubbi dell analisi grafica: i residui del modello sono tali da spingerci a rifiutare che gli 7

errori siano omoschedastici. Si sottolinea che, in presenza di eteroschedasticità degli errori, lo stimatore OLS perde la proprietà dell efficienza (varianza minima) e, quindi, l inferenza sui parametri (l analisi t e F di significatività ) ne è contaminata. Un modo di superare l eteroschedasticità evitando la rispecificazione del modello è quello di utilizzare tecniche di stima della varianza robuste al problema dell'eteoschedasticità: reg homic poor pop, robust Regression with robust standard errors Number of obs = 20 F( 2, 17) = 24.36 Prob > F = 0.0000 R-squared = 0.8103 Root MSE = 2.8209 Robust homic Coef. Std. Err. t P> t [95% Conf. Interval] poor.6562371.1328392 4.94 0.000.3759708.9365034 pop.0222329.006886 3.23 0.005.0077046.0367611 _cons -3.899011 1.484662-2.63 0.018-7.031375 -.7666471 Si noti che la stima dei parametri è la stessa; ciò che cambia sono solo gli standar errors delle stime. Le conclusioni del modello OLS non vengono modificate: entrambi i parametri sono significativamente diversi da zero. Test di scorretta specificazione: test RESET Un test generale di scorretta specificazione è il test RESET di Ramsey (1969): RE(gression) S(pecification) E(rror) T(est). Talvolta, tale test è detto di linearità perché regredisce la variabile dipendente y sulle esplicative e sulle potenze seconde, terze e quarte di fit, dopodiché effettua un test F di significatività degli ultimi tre parametri: ovtest Ramsey RESET test using powers of the fitted values of homic Ho: model has no omitted variables F(3, 14) = 17.40 Prob > F = 0.0001 Il rifiuto dell ipotesi nulla implica il rischio di omissione di elementi non lineari (ad esempio quadratici) nella relazione, con l evidente rischio di stimatori distorti e inconsistenti. Nel presente caso, però, il fatto può essere in gran parte attribuibile alla presenza dell outlier Dallas (elevato homic ed elevato residuo). Esercizio PER GLI STUDENTI: Fino a che punto i problemi sopra sono ricollegabili alla presenza di outlier? [suggerimento: regredisci il modello senza Dallas e poi analizza i residui della nuova stima.] La tecnica dell'esercizo per gli studenti di escludere alcune osservazioni «anomale» dal campione di stima del modello e «vedere cosa succede alla regressione» è un modo naive di affrontare il problema dei dati influenti. L uso dell indicatore di leverage Cook s D misura la rilevanza di ciascuna osservazione nell influenzare i risultati di stima. predict D, cooksd graph res homichat [iweight=d], ylabel xlabel yline(0) 8

10 5 Residuals 0-5 -10 0 10 20 30 Fitted values Come lecito attendersi dalle precedenti analisi, il dato di Dallas è influente e sicuramente è anche un outlier della distribuzione di homic. In questi casi è bene cercare di capire quanto è influente. La nota fragilità degli OLS nei confronti di outliers può essere fortunatamente superata dall uso di uno stimatore robusto per i parametri del modello. Essenzialmente, la tecnica assegna un peso (influenza) ridotto alle osservazioni a cui si associano outliers. Quando un outlier è particolarmente severo, l osservazione è esclusa, cioè il suo peso è = 0; nella regressione robusta che segue N=19, ossia Dallas è stata esclusa. rreg homic poor pop Huber iteration 1: maximum difference in weights =.07022616 Huber iteration 2: maximum difference in weights =.00948742 Biweight iteration 3: maximum difference in weights =.13951425 Biweight iteration 4: maximum difference in weights =.00351232 Robust regression estimates Number of obs = 19 F( 2, 16) = 25.59 Prob > F = 0.0000 homic Coef. Std. Err. t P> t [95% Conf. Interval] poor.6131628.1100947 5.57 0.000.3797724.8465532 pop.0098952.0025097 3.94 0.001.0045748.0152157 _cons -1.32179 1.047453-1.26 0.225-3.542292.8987113 Le stime e l inferenza non risultano troppo modificate. In particolare, l esito «robusto» in questo caso è molto simile a ciò che si è ottenuto (come esercizio) escludendo Dallas: reg homic poor pop if homic<25 Source SS df MS Number of obs = 19 9

-------------+------------------------------ F( 2, 16) = 31.77 Model 121.812351 2 60.9061756 Prob > F = 0.0000 Residual 30.6758323 16 1.91723952 R-squared = 0.7988 -------------+------------------------------ Adj R-squared = 0.7737 Total 152.488184 18 8.47156576 Root MSE = 1.3846 homic Coef. Std. Err. t P> t [95% Conf. Interval] poor.6128833.0992558 6.17 0.000.4024704.8232961 pop.0100326.0022627 4.43 0.000.0052359.0148292 _cons -1.342754.9443303-1.42 0.174-3.344645.6591368 10