Lineamenti di econometria 2 Camilla Mastromarco Università di Lecce Master II Livello "Analisi dei Mercati e Sviluppo Locale" (PIT 9.4)
Aspetti Statistici della Regressione
Aspetti Statistici della Regressione αˆ e βˆ sono solo stime di α e β Domanda chiave: Quanto accurate sono queste stime? Tecniche statistiche ci permettono di rispondere formalmente a questa domanda.
Quali Fattori Influenzano l Accuratezza delle Stime OLS? Intuizione Grafica: Figure 5.1 (numero basso di osservazioni) Figure 5.2 (numero alto di osservazioni ma molto disperse) Figure 5.3 (basso numero di osservazioni ma non molto disperse) Figure 5.4 (numero alto di osservazioni, ma concentrate vicino ad un unico valore della X)
Quali Fattori Influenzano l Accuratezza delle Stime OLS? Supponiamo di interpolare una linea tra I punti del grafico a dispersione (XY-plots) mostrano nelle figure 5.1-5.4. Intuitivamente la retta che interpola la nuvola di punti della figura 5.3 dovrebbe essere quella più accurata Disporre di più osservazione + errori più ridotti (perciò minore variabilità negli errori ) + disporre di una più ampia gamma di valori (ossia maggiore variabilità) della variabile esplicativa = migliore l accuratezza della stima. Nota: Le Figure 5.1, 5.2, 5.3 e 5.4 sono costruite con 4 data set per X e Y, artificialmente simulati da modelli di regressione con α=0, β=1.
L intervallo di Confidenza di β L intervallo di confidenza riflette l incertezza che circonda l accuratezza della stima puntuale La formula analitica per l intervallo di confidenza di β (di solito al 95%) è: [ ˆ β t s, ˆ β + b b t s b b ] t b è il valore critico dalla distribuzione t di Student --- calcolato automaticamente in Excel (o altri softwares econometrici es. Gretl) s b = errore standard (deviazione standard) di βˆ, è una misura dell accuratezza di βˆ s b = ( N SSR 2) ( X i X 2 )
L intervallo di Confidenza di βˆ (cont.) t b aumenta al crescere del livello di confidenza (perciò t b è più grande per un intervallo di confidenza del 95% rispetto ad uno di 90%). s b misura la variabilità o incertezza di beta stimato. s b varia direttamente con SSR (ossia tanto più sono variabili gli errori/residui tanto meno accurata è la stima) s b varia inversamente con N, ( numero di osservazioni) s b varia inversamente con (X X ) 2 i, che è una componente chiave della deviazione standard di X (varianza/variabilità di X). Nota: Excel (e softwares e econometrici) calcola automaticamente l intervallo di confidenza e denomina gli estremi dell intervallo con il termine 95% inferiore e 95% superiore
Intervallo di Confidenza: Un Interpretazione Intuitiva Utile (anche se formalmente sbagliata) approssimazione sugli intervalli di confidenza del 95%: Esiste una probabilità del 95% che il vero valore del coefficiente β cada nell intervallo di confidenza al 95%. Interpretazione corretta (anche se meno intuitiva): Se usate ripetutamente la precedente formula per calcolare gli intervalli di confidenza, il 95% degli intervalli così costruiti conterrà il vero valore del coefficiente β. Analoghe affermazioni valgono per intervalli di confidenza diversi (per esempio al 90%, 99%).
Esempio: Intervalli di Confidenza per I Data set nelle Figure 5.1-5.4 Data Set βˆ 90% Confid. Interval 95% Confid. Interval 99% Confid. Interval Figure 5.1.91 [-.92,2.75] [-1.57,3.39] [-3.64,5.47] Figure 5.2 1.04 [.75,1.32] [.70,1.38] [.59,1.49] Figure 5.3 1.00 [.99,1.01] [.99,1.02] [.98,1.03] Figure 5.4 1.52 [-1.33,4.36] [-1.88,4.91] [-2.98,6.02]
Esempio: La Regressione della Deforestazione sulla Densità della Popolazione Y = deforestazione X = densità della popolazione βˆ =.000842 95% Intervallo di confidenza: [.00061,.001075]
Esempio: La Determinazione del Prezzo delle Abitazioni Risultati OLS : Y = 34,136 + 6.59X, La stima OLS dell effetto marginale di X su Y è pari a 6.59. La nostra previsione migliore dice dunque che L aumento dell ampiezza del lotto di un metro quadrato è associato a un incremento di $6.59 nel prezzo della casa. L intervallo di confidenza al 95% per β è [5.72,7.47]. Siamo fiduciosi al 95% che l effetto della dimensione del lotto sul prezzo dell abitazione sia almeno di $5.72 e al massimo di $7.47.
Verifica delle Ipotesi La verifica di β=0 (perciò se X non ha alcun potere esplicativo sulla variabile dipendente). Un modo per verificare questa ipotesi: accertarsi che l intervallo di confidenza per β contenga il valore zero. Se non lo contiene, siamo fiduciosi che β 0. Un modo alternativo (ma equivalente) è quello di calcolare una statistica test. Nel caso della verifica β=0, la statistica test è nota come statistica t ( o t-ratio ). ˆ β t = s b Elevati valori di t indicano che β 0. Bassi valori di t indicano che β = 0.
Verifica delle Ipotesi (cont.) Domanda: Il problema è su cosa si intende per t alto e basso? Risposta: Il P-value fornisce una misura diretta per vedere se t è elevato o basso. Se il P-value.05 allora t è alto e si può concludere che β 0. If P-value >.05 allora t è basso e si può concludere che β=0. Utile (sebbene formalmente non corretta) intuizione: P-value fornisce una misura della probabilità che β = 0..05 = 5% = livello di significatività Altri livelli di significatività (per esempio 1% o 10%)
Esempio: La Regressione della Deforestazione sulla Densità della Popolazione (cont.) 95% Intervallo di Confidenza: [.00061,.001075] L intervallo di confidenza non include zero, pertanto siamo fiduciosi al 95% che β 0. Alternativamente: t-ratio è 7.227937. E alto? Si, il P-value è 5.5 10-10 pertanto molto inferiore a.05. Perciò, questo significa che β 0.
Terminologia Il coefficiente della densità della popolazione è significativamente diverso da zero. La densità della popolazione ha un potere esplicativo statisticamente significativo sulla deforestazione. L ipotesi che β = 0 può essere rifiutata al 5% livello di significatività.
La verifica delle Ipotesi Riguardanti R 2 : La Statistica F Verificare l ipotesi che R 2 =0 (perciò se X non ha un potere esplicativo su Y) Nota: Nel caso della regressione semplice, questo test R 2 =0 è equivalente al test per β=0, ma nel caso della regressione multipla i due test sono differenti. La statistica test F è simile alla statistica test t (perciò bassi valori indicano R 2 =0). F ( N 2) R 2 = (1 R 2 )
La verifica delle Ipotesi Riguardanti R 2 : La Statistica F (cont.) Nel caso di test al 5% livello di significatività: Se P-value è >.05 concludiamo che R 2 =0. Se P-value è.05 concludiamo che R 2 0. Excel (Gretl, ecc-) indica il P-value per questa statistica test come Significatività di F
Esempio: La Regressione della Deforestazione sulla Densità della Popolazione (cont.) P-value = Significatività di F= 5.5 10-10. Poiché P-value <.05 possiamo concludere che R 2 0. La densità della popolazione ha un potere esplicativo statisticamente significativo su Y.