LA MODELLAZIONE EMPIRICA DELLE RELAZIONI ECONOMICHE: APPLICAZIONI IN STATA 7. Maria Elena Bontempi e.bontempi@economia.unife.it



Documenti analoghi
OLS multivariato: effetti parziali, multicollinearità

FACOLTÀ DI ECONOMIA Soluzione della Prova di autovalutazione 2012 (primi 6 CFU) ANALISI STATISTICA PER L IMPRESA

Capitolo 12 La regressione lineare semplice

LEZIONE n. 5 (a cura di Antonio Di Marco)

Regressione Mario Guarracino Data Mining a.a. 2010/2011

1) Si consideri un esperimento che consiste nel lancio di 5 dadi. Lo spazio campionario:

Relazioni statistiche: regressione e correlazione

Regressione Lineare con un Singolo Regressore

VERIFICA DELLE IPOTESI

STATISTICA DESCRITTIVA SCHEDA N. 5: REGRESSIONE LINEARE

Statistica. Lezione 6

CORSO DI STATISTICA (parte 2) - ESERCITAZIONE 8

ANALISI DI CORRELAZIONE

Soluzioni degli Esercizi del Parziale del 30/06/201 (Ippoliti-Fontanella-Valentini)

Inferenza statistica. Statistica medica 1

Analisi di dati di frequenza

STATISTICA IX lezione

Lineamenti di econometria 2

Corso di laurea in Scienze Motorie Corso di Statistica Docente: Dott.ssa Immacolata Scancarello Lezione 14: Analisi della varianza (ANOVA)

> d = alimentazione == "benz" > mean(percorr.urbana[!d]) - mean(percorr.urbana[d]) [1] > sd(percorr.urbana[d]) [1] 2.

Università di Firenze - Corso di laurea in Statistica Seconda prova intermedia di Statistica. 18 dicembre 2008

Elementi di Psicometria con Laboratorio di SPSS 1

Statistiche campionarie

Corso di Psicometria Progredito

1a) Calcolare gli estremi dell intervallo di confidenza per µ al 90% in corrispondenza del campione osservato.

(a cura di Francesca Godioli)

Statistica. Esercitazione 15. Alfonso Iodice D Enza iodicede@unicas.it. Università degli studi di Cassino. Statistica. A. Iodice

Lineamenti di econometria 2

Metodi Matematici e Informatici per la Biologia Maggio 2010

Capitolo 13: L offerta dell impresa e il surplus del produttore

3. Confronto tra medie di due campioni indipendenti o appaiati

Statistica multivariata. Statistica multivariata. Analisi multivariata. Dati multivariati. x 11 x 21. x 12 x 22. x 1m x 2m. x nm. x n2.

Esercizio 1. Verifica di ipotesi sulla media (varianza nota), p-value del test

Metodi statistici per l economia (Prof. Capitanio) Slide n. 9. Materiale di supporto per le lezioni. Non sostituisce il libro di testo

Il metodo della regressione

Un po di statistica. Christian Ferrari. Laboratorio di Matematica

ANALISI DELLE FREQUENZE: IL TEST CHI 2

Pro e contro delle RNA

CORSO DI STATISTICA (parte 2) - ESERCITAZIONE 7

Titolo della lezione. Analisi dell associazione tra due caratteri: indipendenza e dipendenza

Statistica descrittiva

Verifica di ipotesi e intervalli di confidenza nella regressione multipla

LA CORRELAZIONE LINEARE

Analisi della performance temporale della rete

Analisi bivariata. Dott. Cazzaniga Paolo. Dip. di Scienze Umane e Sociali paolo.cazzaniga@unibg.it

Siamo così arrivati all aritmetica modulare, ma anche a individuare alcuni aspetti di come funziona l aritmetica del calcolatore come vedremo.

IL TEST CHI QUADRATO χ 2

Esercizi test ipotesi. Prof. Raffaella Folgieri aa 2009/2010

Disegni di Ricerca e Analisi dei Dati in Psicologia Clinica. Indici di Affidabilità

Calcolo delle probabilità

lezione 18 AA Paolo Brunori

I ESERCITAZIONE. Gruppo I 100 individui. Trattamento I Nuovo Farmaco. Osservazione degli effetti sul raffreddore. Assegnazione casuale

Test statistici di verifica di ipotesi

Verifica di ipotesi

11. Analisi statistica degli eventi idrologici estremi

Corso di Psicometria Progredito

INDICE PREFAZIONE VII

VALORE DELLE MERCI SEQUESTRATE

MODELLO DI REGRESSIONE PER DATI DI PANEL

Esercitazione #5 di Statistica. Test ed Intervalli di Confidenza (per una popolazione)

1 BREVE RIPASSO DEI TEST STATISTICI 2 I TEST STATISTICI NEI SOFTWARE ECONOMETRICI E IL P-VALUE 3 ESERCIZI DI ALLENAMENTO

Elementi di Psicometria con Laboratorio di SPSS 1

Misure della dispersione o della variabilità

Analisi della varianza (anova) a due vie

L Analisi della Varianza ANOVA (ANalysis Of VAriance)

3 Confronto fra due popolazioni attraverso il test t e test analoghi

βˆ (pendenza della retta) =

Abbiamo costruito il grafico delle sst in funzione del tempo (dal 1880 al 1995).

Analisi di scenario File Nr. 10

Excel Terza parte. Excel 2003

4. Confronto tra medie di tre o più campioni indipendenti

Introduzione alle relazioni multivariate. Introduzione alle relazioni multivariate

Relazioni tra variabili

6. Modelli statistici: analisi della regressione lineare

RELAZIONE TRA VARIABILI QUANTITATIVE. Lezione 7 a. Accade spesso nella ricerca in campo biomedico, così come in altri campi della

Esercitazione Statistica Computazionale B Modelli di regressione lineare semplice Verifica di ipotesi - Analisi della varianza

RAPPRESENTAZIONE GRAFICA E ANALISI DEI DATI SPERIMENTALI CON EXCEL

ALLEGATO 1 Analisi delle serie storiche pluviometriche delle stazioni di Torre del Lago e di Viareggio.

Applicazione reale dell AMP Forecast del Mercato IT

Il concetto di valore medio in generale

1. Distribuzioni campionarie

Laboratorio di Didattica dell analisi: Analisi a priori sulla funzione valore assoluto

AND NON CAP WEIGHTED PORTFOLIO

La regressione lineare multipla


Elementi di Psicometria con Laboratorio di SPSS 1

LEZIONE 3. Ing. Andrea Ghedi AA 2009/2010. Ing. Andrea Ghedi AA 2009/2010

Metodologia per l analisi dei dati sperimentali L analisi di studi con variabili di risposta multiple: Regressione multipla

Regressione logistica. Strumenti quantitativi per la gestione

Modello di regressione lineare

Lineamenti di econometria 2

PROGETTO INDAGINE DI OPINIONE SUL PROCESSO DI FUSIONE DEI COMUNI NEL PRIMIERO

Metodi statistici per le ricerche di mercato

Il significato della MEDIA e della MEDIANA in una raccolta di dati numerici

ESERCIZI SVOLTI PER LA PROVA DI STATISTICA

GRUPPO QUATTRO RUOTE. Alessandro Tondo Laura Lavazza Matteo Scordo Alessandro Giosa Gruppo Quattro Ruote 1

STATISTICA INFERENZIALE PER VARIABILI QUALITATIVE

ANALISI DEI DATI PER IL MARKETING 2014

Modelli statistici per l analisi dei dati e la valutazione d efficacia Il caso del Comune di Perugia

Per studio di funzione intendiamo un insieme di procedure che hanno lo scopo di analizzare le proprietà di una funzione f ( x) R R

Transcript:

LA MODELLAZIONE EMPIRICA DELLE RELAZIONI ECONOMICHE: APPLICAZIONI IN STATA 7 Maria Elena Bontempi e.bontempi@economia.unife.it VI LEZIONE: Analisi dei residui di stima: outlier, eteroschedasticità. Leverage. Stimatori robusti. Esempio di perfetta collinearità: dummy variable trap Banca dati scolari list y eta f m y eta f m 1. 10.71694 6 0 1 2. 12.19278 7 0 1 3. 13.29217 8 0 1 4. 16.77769 9 0 1 5. 9.344237 6 1 0 6. 10.14903 7 1 0 7. 11.76214 7 1 0 8. 13.90402 8 1 0 9. 14.03758 9 1 0 10. 13.79559 9 1 0 Percentuale di femmine tab f F Freq. Percent Cum. ------------+----------------------------------- 0 4 40.00 40.00 1 6 60.00 100.00 ------------+----------------------------------- Total 10 100.00 La regressione con variabile dipendente la dummy e regressore la sola costante dà come stima la media della dummy, ossia la frequenza di osservazioni relative alle femmine. reg f Source SS df MS Number of obs = 10 -------------+------------------------------ F( 0, 9) = 0.00 Model 0.00 0. Prob > F =. Residual 2.40 9.266666667 R-squared = 0.0000 -------------+------------------------------ Adj R-squared = 0.0000 Total 2.40 9.266666667 Root MSE =.5164 f Coef. Std. Err. t P> t [95% Conf. Interval] _cons.6.1632993 3.67 0.005.2305913.9694087 Media dell'abilità di lettura nei maschi e nelle femmine sort f 1

by f: summ y -> f = 0 Variable Obs Mean Std. Dev. Min Max -------------+----------------------------------------------------- y 4 13.24489 2.580724 10.71694 16.77769 -> f = 1 Variable Obs Mean Std. Dev. Min Max -------------+----------------------------------------------------- y 6 12.16543 2.067495 9.344237 14.03758 TRE specificazioni alternative del modello con dummy: A B C Costante: valore medio di y quando x=0; pertanto, indica l'abilità di lettura media nei maschi (se includo la dummy femmine, come in A) oppure nelle femmine (se includo la dummy maschi, come in B). Coefficiente associato alla dummy: differenza tra abilità di lettura media dei maschi e delle femmine; se non significativo, il genere non conta nello spiegare l'abilità di lettura, ossia l'abilità di lettura media delle femmine non è statisticamente diversa da quella dei maschi. Nella specificazione C si ottengono le due medie, maschi e femmine. Dummy variable trap: se si utilizzano come esplicative p dummy o si includono tutte le p dummy e si omette la costante, oppure si includono p-1 dummy e la costante (specificazione più utile per verificare la presenza di differenze significative rispetto all'individuo-base rappresentato dalla costante). Non includere p dummy e costante (specificazione D) perchè si ottiene perfetta collinearità! A. reg y f Source SS df MS Number of obs = 10 -------------+------------------------------ F( 1, 8) = 0.54 Model 2.79657197 1 2.79657197 Prob > F = 0.4830 Residual 41.3530825 8 5.16913531 R-squared = 0.0633 -------------+------------------------------ Adj R-squared = -0.0537 Total 44.1496545 9 4.90551716 Root MSE = 2.2736 y Coef. Std. Err. t P> t [95% Conf. Interval] f -1.079462 1.467585-0.74 0.483-4.46372 2.304796 _cons 13.24489 1.136787 11.65 0.000 10.62346 15.86633 B. reg y m Source SS df MS Number of obs = 10 -------------+------------------------------ F( 1, 8) = 0.54 Model 2.79657197 1 2.79657197 Prob > F = 0.4830 Residual 41.3530825 8 5.16913531 R-squared = 0.0633 -------------+------------------------------ Adj R-squared = -0.0537 Total 44.1496545 9 4.90551716 Root MSE = 2.2736 y Coef. Std. Err. t P> t [95% Conf. Interval] m 1.079462 1.467585 0.74 0.483-2.304796 4.46372 _cons 12.16543.9281824 13.11 0.000 10.02504 14.30583 2

C. reg y f m, noconst Source SS df MS Number of obs = 10 -------------+------------------------------ F( 2, 8) = 153.77 Model 1589.69552 2 794.847761 Prob > F = 0.0000 Residual 41.3530825 8 5.16913531 R-squared = 0.9746 -------------+------------------------------ Adj R-squared = 0.9683 Total 1631.04861 10 163.104861 Root MSE = 2.2736 y Coef. Std. Err. t P> t [95% Conf. Interval] f 12.16543.9281824 13.11 0.000 10.02504 14.30583 m 13.24489 1.136787 11.65 0.000 10.62346 15.86633 D. reg y f m Source SS df MS Number of obs = 10 -------------+------------------------------ F( 1, 8) = 0.54 Model 2.79657197 1 2.79657197 Prob > F = 0.4830 Residual 41.3530825 8 5.16913531 R-squared = 0.0633 -------------+------------------------------ Adj R-squared = -0.0537 Total 44.1496545 9 4.90551716 Root MSE = 2.2736 y Coef. Std. Err. t P> t [95% Conf. Interval] f -1.079462 1.467585-0.74 0.483-4.46372 2.304796 m (dropped) _cons 13.24489 1.136787 11.65 0.000 10.62346 15.86633 Risposte all'esercizio A CASA associato alla lezione V Banca dati URBAN.DTA Regressione semplice reg homic poor Source SS df MS Number of obs = 20 -------------+------------------------------ F( 1, 18) = 6.14 Model 181.370325 1 181.370325 Prob > F = 0.0233 Residual 531.573154 18 29.5318419 R-squared = 0.2544 -------------+------------------------------ Adj R-squared = 0.2130 Total 712.943479 19 37.523341 Root MSE = 5.4343 homic Coef. Std. Err. t P> t [95% Conf. Interval] poor.9438495.3808596 2.48 0.023.1436932 1.744006 _cons -.8151891 3.344025-0.24 0.810-7.840726 6.210348 Regressione multivariata: ora il coefficiente associato a poor misura l'incremento del tasso di omicidi per un incremento 3

unitario della % di famiglie sotto la soglia di povertà, se la popolazione delle città rimane immutata. reg homic poor pop Source SS df MS Number of obs = 20 -------------+------------------------------ F( 2, 17) = 36.30 Model 577.667334 2 288.833667 Prob > F = 0.0000 Residual 135.276144 17 7.95742026 R-squared = 0.8103 -------------+------------------------------ Adj R-squared = 0.7879 Total 712.943479 19 37.523341 Root MSE = 2.8209 homic Coef. Std. Err. t P> t [95% Conf. Interval] poor.6562371.2018567 3.25 0.005.2303567 1.082117 pop.0222329.0031504 7.06 0.000.015586.0288797 _cons -3.899011 1.790002-2.18 0.044-7.675584 -.1224378 Il coefficiente associato a poor scende da 0.94 a 0.65: parte dell'effetto di poor nella regressione semplice era dovuto al fatto che la % di famiglie sotto la soglia di povertà ed il tasso di omicidi sono entrambi maggiori in città con popolazione più elevata. graph homic poor pop, matrix half label s([city]) Homicides/100,000 people 15 Columbus Rocheste 10 5 Berkeley Erie Salt Lak Peoria Albuquer AllentowPortland Virginia Honolulu Tulsa Milwauke Tempe Fullerto Concord Independ Sunnyval Sterling Dallas Percent families below poverty 0 Dallas Dallas Milwauke Portland Honolulu Albuquer Tulsa Virginia Rocheste Salt Lak Columbus Sterling Sunnyval Fullerto Concord Independ Allentow Tempe Peoria Erie Berkeley Milwauke Honolulu Tulsa Portland Albuquer Virginia Rocheste Salt Lak Columbus Sterling Sunnyval Concord Independ Fullerto Tempe Allentow Peoria ErieBerkeley Population in 1,000s 0 10 20 30 0 500 1000 La correlazione positiva tra poor e pop è dovuta principalmente a Dallas corr poor pop (obs=20) poor pop -------------+------------------ 4

poor 1.0000 pop 0.2019 1.0000 corr poor pop if city!="dallas" (obs=19) poor pop -------------+------------------ poor 1.0000 pop 0.0946 1.0000 Tuttavia, la correlazione tra poor e pop non è tale da fare temere problemi di multicollinearità. Inoltre, test t e F sono tra loro coerenti. In generale, per analizzare le correlazioni tra variabili può essere utile il comando pwcorr homic poor pop, star(.05) homic poor pop -------------+--------------------------- homic 1.0000 poor 0.5044* 1.0000 pop 0.8320* 0.2019 1.0000 A differenza di corr, pwcorr permette l'opzione star(.05) che aggiunge un asterisco per le correlazioni significative al 5%. Analisi preliminare dei residui di regressione Data la regressione su cui (si spera!) avete svolto l'esercizio associato alla lezione V (reg homic poor pop), si costruiscono i dati fitted e si calcolano i residui della regressione: predict homichat g res=homic-homichat summ homic homichat res Variable Obs Mean Std. Dev. Min Max -------------+----------------------------------------------------- homic 20 6.9055 6.12563.55 29.98 homichat 20 6.9055 5.513941.5587064 23.28908 res 20 2.09e-08 2.668295-6.877952 6.690916 (nota che la media di res è zero e che y e fit hanno la stessa media) L analisi dei residui della regressione (res) è la principale fase diagnostica della specificazione del modello; su di essa si basano i test di scorretta specificazione, da effettuare prima di procedere ai test di significatività (fondati sull'assioma di corretta specificazione del modello). I residui sono la stima degli errori ε (variabili casuali non osservabili). Ispezione preliminare dei residui. Una prima ispezione grafica dei residui contro i dati fitted può essere illuminante perché è in grado di evidenziare una serie di potenziali problematiche. (Si ricordano i temi dell' analisi univariata e multivariata dei dati, lezioni I e II). rvfplot,oneway twoway box yline(0) ylabel xlabel 5

10 5 Residuals 0-5 -10 0 10 20 30 Fitted values (nota che la retta in corrispondenza di 0 indica la media zero dei residui) rvfplot effettua il grafico residui contro fitted dell'ultima regressione effettuata. Nel caso di un modello ideale (con residui ideali), la retta di regressione (iperpiano nel caso di più regressori) riproduce abbastanza fedelmente l andamento dello scatter y - x e, quindi, i residui dovrebbero disporsi casualmente sopra e sotto tale retta. Quando invece i residui presentano un pattern non casuale, come in questo caso, allora è meglio rivedere la specificazione del modello perché tale pattern anomalo segnala problemi interpretativi della regressione proposta. Il fatto più evidente dall analisi grafica è che Dallas è, al contempo, caratterizzata da un elevato fit di homic e da un elevato errore positivo (il modello stimato sottostima il dato effettivo). Inoltre, nel complesso, si nota la tendenza ad ampliarsi della dispersione dei punti sopra e sotto la retta a mano a mano che aumentano i fitted values. Una dispersione dei residui crescente con il fit porta a pensare a rischi di eteroschedasticità (vedi test sotto) Simmetria e outlier della distribuzione dei residui: statistiche descrittive dei residui, test di normalità dei residui e boxplot del grafico precedente indicano una molto modesta asimmetria dei residui e una non particolarmente grave presenza di curtosi. Al 5% non si rifiuta l ipotesi di normalità dei residui (p-value = 9.3% nel complesso) e questo è particolarmente utile in piccoli campioni (quali quello in uso) in cui non ci si può riferire alla teoria asintotica; ciò garantisce distribuzioni «abbastanza» standard per le statistiche test (t, F, chi-quadro). In particolare, si nota che l outlier Dallas provoca un segnale di curtosi (il p-value è 3.2%). summ res, d Residuals ------------------------------------------------------------- Percentiles Smallest 1% -6.877952-6.877952 5% -5.034405-3.190859 10% -3.182166-3.173472 Obs 20 25% -.8717402-1.205127 Sum of Wgt. 20 50% -.0794083 Mean -2.19e-08 6

Largest Std. Dev. 2.668295 75% 1.612288 1.777815 90% 2.240921 2.03746 Variance 7.119797 95% 4.567649 2.444383 Skewness -.1587214 99% 6.690915 6.690915 Kurtosis 4.948724 sktest res Skewness/Kurtosis tests for Normality ------- joint ------ Variable Pr(Skewness) Pr(Kurtosis) adj chi2(2) Prob>chi2 -------------+------------------------------------------------------- res 0.722 0.032 4.76 0.0926 E accettata l ipotesi nulla di simmetria, è rifiutata al 5% l ipotesi nulla di kurtosis pari a 3, congiuntamente la normalità è rifiutata al 5% ed accettata al 10%: possibile eteroschedasticità e presenza di un outlier. Test di scorretta specificazione: test di eteroschedasticità Le ipotesi sugli errori del modello classico di regressione lineare sono ε ~ iid(0,σ 2 ). L ipotesi E(ε) = 0 è sempre verificata alla luce dei residui: la somma dei residui è sempre zero a patto che la specificazione del modello includa la costante (vedi summ res). L ipotesi di errori independently distributed (non correlazione fra gli errori relativi ad osservazioni diverse) spesso non ha senso in modelli cross-section (l ordine delle osservazioni non è univoco e, comunque, il problema è evitato con opportune tecniche di campionamento casuale delle osservazioni). Al contrario, la correlazione tra gli errori (autocorrelazione) è molto rilevante nelle analisi delle serie storiche. Nel caso di modelli per cross-section (i cui dati sono caratterizzati da forte variabilità), il principale problema di scorretta specificazione è l eteroschedasticità (la varianza degli errori non è la stessa per tutte le osservazioni) e la non validità dell assunzione di errori identically distributed. In generale, la validità delle ipotesi del modello classico di regressione lineare è verificata con l ausilio dei test di scorretta specificazione i quali: (a) si basano sui residui (b) sotto la nulla hanno la validità della corrispondente ipotesi del modello classico; più problematica è la specificazione dell'ipotesi alternativa (c) vengono logicamente prima dei test di significatività (la significatività dei parametri del modello va valutata solo quando si è "sicuri" della corretta specificazione del modello, ossia i residui sono well behaved) Il test di eteroschedasticità ha sotto l ipotesi nulla errori omoschedastici (H0: σ 2 costante per tutte le ossevazioni), ma come specificare l ipotesi alternativa? Varianza non costante implica la scelta di uno specifico modello di riferimento per tale assenza di costanza. Una classica ipotesi alternativa è che la variabilità degli errori (eteroschedasticità) cambi al cambiare del quadrato dei regressori oppure del fitted. hettest poor pop Cook-Weisberg test for heteroskedasticity using variables specified Ho: Constant variance chi2(2) = 28.80 Prob > chi2 = 0.0000 hettest Cook-Weisberg test for heteroskedasticity using fitted values of homic Ho: Constant variance chi2(1) = 21.13 Prob > chi2 = 0.0000 Rifiutando la nulla, il test conferma i dubbi dell analisi grafica: i residui del modello sono tali da spingerci a rifiutare che gli 7

errori siano omoschedastici. Si sottolinea che, in presenza di eteroschedasticità degli errori, lo stimatore OLS perde la proprietà dell efficienza (varianza minima) e, quindi, l inferenza sui parametri (l analisi t e F di significatività ) ne è contaminata. Un modo di superare l eteroschedasticità evitando la rispecificazione del modello è quello di utilizzare tecniche di stima della varianza robuste al problema dell'eteoschedasticità: reg homic poor pop, robust Regression with robust standard errors Number of obs = 20 F( 2, 17) = 24.36 Prob > F = 0.0000 R-squared = 0.8103 Root MSE = 2.8209 Robust homic Coef. Std. Err. t P> t [95% Conf. Interval] poor.6562371.1328392 4.94 0.000.3759708.9365034 pop.0222329.006886 3.23 0.005.0077046.0367611 _cons -3.899011 1.484662-2.63 0.018-7.031375 -.7666471 Si noti che la stima dei parametri è la stessa; ciò che cambia sono solo gli standar errors delle stime. Le conclusioni del modello OLS non vengono modificate: entrambi i parametri sono significativamente diversi da zero. Test di scorretta specificazione: test RESET Un test generale di scorretta specificazione è il test RESET di Ramsey (1969): RE(gression) S(pecification) E(rror) T(est). Talvolta, tale test è detto di linearità perché regredisce la variabile dipendente y sulle esplicative e sulle potenze seconde, terze e quarte di fit, dopodiché effettua un test F di significatività degli ultimi tre parametri: ovtest Ramsey RESET test using powers of the fitted values of homic Ho: model has no omitted variables F(3, 14) = 17.40 Prob > F = 0.0001 Il rifiuto dell ipotesi nulla implica il rischio di omissione di elementi non lineari (ad esempio quadratici) nella relazione, con l evidente rischio di stimatori distorti e inconsistenti. Nel presente caso, però, il fatto può essere in gran parte attribuibile alla presenza dell outlier Dallas (elevato homic ed elevato residuo). Esercizio PER GLI STUDENTI: Fino a che punto i problemi sopra sono ricollegabili alla presenza di outlier? [suggerimento: regredisci il modello senza Dallas e poi analizza i residui della nuova stima.] La tecnica dell'esercizo per gli studenti di escludere alcune osservazioni «anomale» dal campione di stima del modello e «vedere cosa succede alla regressione» è un modo naive di affrontare il problema dei dati influenti. L uso dell indicatore di leverage Cook s D misura la rilevanza di ciascuna osservazione nell influenzare i risultati di stima. predict D, cooksd graph res homichat [iweight=d], ylabel xlabel yline(0) 8

10 5 Residuals 0-5 -10 0 10 20 30 Fitted values Come lecito attendersi dalle precedenti analisi, il dato di Dallas è influente e sicuramente è anche un outlier della distribuzione di homic. In questi casi è bene cercare di capire quanto è influente. La nota fragilità degli OLS nei confronti di outliers può essere fortunatamente superata dall uso di uno stimatore robusto per i parametri del modello. Essenzialmente, la tecnica assegna un peso (influenza) ridotto alle osservazioni a cui si associano outliers. Quando un outlier è particolarmente severo, l osservazione è esclusa, cioè il suo peso è = 0; nella regressione robusta che segue N=19, ossia Dallas è stata esclusa. rreg homic poor pop Huber iteration 1: maximum difference in weights =.07022616 Huber iteration 2: maximum difference in weights =.00948742 Biweight iteration 3: maximum difference in weights =.13951425 Biweight iteration 4: maximum difference in weights =.00351232 Robust regression estimates Number of obs = 19 F( 2, 16) = 25.59 Prob > F = 0.0000 homic Coef. Std. Err. t P> t [95% Conf. Interval] poor.6131628.1100947 5.57 0.000.3797724.8465532 pop.0098952.0025097 3.94 0.001.0045748.0152157 _cons -1.32179 1.047453-1.26 0.225-3.542292.8987113 Le stime e l inferenza non risultano troppo modificate. In particolare, l esito «robusto» in questo caso è molto simile a ciò che si è ottenuto (come esercizio) escludendo Dallas: reg homic poor pop if homic<25 Source SS df MS Number of obs = 19 9

-------------+------------------------------ F( 2, 16) = 31.77 Model 121.812351 2 60.9061756 Prob > F = 0.0000 Residual 30.6758323 16 1.91723952 R-squared = 0.7988 -------------+------------------------------ Adj R-squared = 0.7737 Total 152.488184 18 8.47156576 Root MSE = 1.3846 homic Coef. Std. Err. t P> t [95% Conf. Interval] poor.6128833.0992558 6.17 0.000.4024704.8232961 pop.0100326.0022627 4.43 0.000.0052359.0148292 _cons -1.342754.9443303-1.42 0.174-3.344645.6591368 10