Econometria applicata all intermediazione finanziaria Esercizi regressione multipla Tiziano Razzolini Università di Siena. mail: razzolini4@unisi.it 3 aprile 2012
Esercizi 6.1-6.4 e 7.1-7.4 Questi esercizi si riferiscono alle tabelle di regressioni stimate che si trovano a pag. 187 e 218 (184 vecchia edizione) dello SW. I dati - relativi al 1998 - sono tratti dal Current Population Survey e contengono informazioni su 4.000 individui che hanno lavorato a tempo pieno per l intero anno. Il titolo di studio più alto raggiunto da ciascun lavoratore è o il diploma di scuola secondaria o una laurea. L età dei lavoratori varia tra 25-34 anni. I dati contengono anche informazioni sulla regione del paese in cui la persona ha vissuto, lo stato civile e il numero di figli. Definizione delle variabili AHE = retribuzione oraria media (in dollari 1998) College = variabile binaria (1 se università, 0 se scuola superiore) Female = variabile binaria (1 se femmina, 0 se maschio) Age = età misurata in anni Northeast = variabile binaria (1 se regione = nord-est, 0 altrimenti Midwest = variabile binaria (1 se regione = centro-ovest, 0 altrimenti) South = variabile binaria (1 se regione = sud; 0 altrimenti) West = variabile binaria (1 se regione = ovest, 0 altrimenti)
Esercizi 6.1-6.4 e 7.1-7.4
Esercizio 6.1 e 7.1 1. Si calcoli l R 2 per ognuna delle regressioni La formula (6.15) nel testo ci dice che ( ) n 1 SSR R 2 =1 n k 1 TSS Pertanto, i valori sono 0, 175, 0, 189, e 0, 193 per le colonne (1)-(3). 2. Si aggiungano * (5%) e ** (1%) alla tavola per indicare la significatività statistica dei coefficienti Gli appropriati valori critici della distribuzione normale sono rispettivamente 1, 960 (5%) e 2, 576 (1%). Si rifiuta ad un livello di significatività del 5% se t > 1, 960 Si rifiuta ad un livello di significatività dell 1% se t > 2, 576 È quindi necessario calcolare la statistica t per ogni parametro stimato e procedere poi all assegnazione degli asterischi
Esercizi 6.1-6.4 e 7.1-7.4 Regressor (1) (2) (3) College (X 1 ) 5.46** (0.21) 5.48** (0.21) 5.44** (0.21) Female (X 2 ) 2.64** (0.20) 2.62** (0.20) 2.62** (0.20) Age (X 3 ) 0.29** (0.04) 0.29** (0.04) Ntheast (X 4 ) 0.69* (0.30) Midwest (X 5 ) 0.60* (0.28) South (X 6 ) 0.27 (0.26) Intercept 12.69** (0.14) 4.40** (1.05) 3.75** (1.06)
Esercizio 6.2 e 7.2 Si utilizzino i risultati della regressione nella colonna (1) 1. I lavoratori laureati guadagnano di più, in media, rispetto ai lavoratori con un diploma di scuola superiore? Quanto di più? È la differenza stimata tra le retribuzioni di questa regressione statisticamente significativa al livello 5%? Si costruisca un intervallo di confidenza della differenza al 95%. Sì 5, 46 dollari all ora Sì. { Infatti t = (5, 46 0)/0, 21 = 26 ˆβ 1 ± 1, 96 SE ( ˆβ 1 ) } = {5, 46 ± 1, 96 0, 21} = (5, 05; 5, 87) 2. In media, gli uomini guadagnano più delle donne? Quanto di più? È la differenza tra le retribuzioni stimate sulla base di questa regressione statisticamente significativa al livello 5%? Si costruisca un intervallo di confidenza della differenza al 95%. Sì 2, 64 dollari all ora Sì. { Infatti t = ( 2, 64 0)/0, 20 = 13, 2 ˆβ 2 ± 1, 96 SE ( ˆβ 2 ) } = { 2, 64 ± 1, 96 0, 20} = ( 2, 25; 3, 03)
Esercizio 6.3 e 7.3 Si utilizzino ora i risultati della regressione nella colonna (2) 1. L età è un importante determinante delle retribuzioni? Si argomenti la risposta sulla base di un appropriato test statistico o di un intervallo di confidenza L età ha un effetto positivo sul reddito (anche controllando per sesso e titolo di studio) stimato in 29 centesimi per anno. Il coefficiente è statisticamente significativo al livello dell 1%. Infatti t = (0, 29 0)/0, 04 = 7, 25 Da un punto di vista economico l effetto non è grandissimo (siete d accordo?). 2. Sally è una laureata di 29 anni. Betty è una laureata di 34 anni. Si prevedano le retribuzioni di Sally e di Betty. Si costruisca un intervallo di confidenza di livello 95% per la differenza tra le loro retribuzioni attese AHE Sally = 4, 40 + 5, 48 2, 62 + 0, 29 29 = 15, 67 AHE Betty = 4, 40 + 5, 48 2, 62 + 0, 29 34 = 17, 12 { } ˆβ 1 X 1 ± 1, 96 SE ( ˆβ 1 ) X 1 = {1, 45 ± 1, 96 (5 0, 04)} = (1, 06; 1, 84)
Esercizio 6.4 e 7.4 Si utilizzino infine i risultati della regressione nella colonna (3) 1. C è qualche evidenza di differenze regionali rilevanti? Sì. Infatti la statistica-f per gli effetti di zona = 0 conduce al rifiuto dell ipotesi nulla dal momento che la statistica F (= 6,10) eccede il valore critico basato sulla distribuzione F 3, = 3, 78 (livello di significatività dell 1%) 2. Perché il regressore West viene omesso dalla regressione? Cosa accadrebbe se lo si includesse? In caso contrario ci troveremmo in un caso di perfetta multicollinearità in cui D west = 1 D northeast D midwest D south
Esercizio 6.4 e 7.4 3. Sia Juanita una laureata di 28 anni proveniente dal sud. Sia Molly una laureata di 28 anni proveniente dall ovest. Sia Jennifer una laureata di 28 anni proveniente dal centro-ovest. i. Si costruisca un intervallo di confidenza di livello 95% per la differenza tra le retribuzioni attese di Juanita e Molly ˆβ 1 ± 1, 96 SE ( ˆβ 1 ) = 0, 27 ± 1, 96 0, 26 = ( 0, 78; 0, 24) ii. Si calcoli la differenza tra le retribuzioni attese di Juanita e Jennifer Dal momento che Juanita ha un differenziale negativo rispetto al salario nel West di 0, 27 dollari e Jennifer un differenziale positivo di 0, 60 dollari, la differenza stimata tra le due retribuzioni è pari a 0, 87 dollari.
Esercizio 6.4 e 7.4 4. Si spieghi come si potrebbe costruire un intervallo di confidenza per la differenza tra le retribuzioni attese di Juanita e Jennifer (suggerimento: cosa accadrebbe se si includesse West e si escludesse Midwest dalla regressione) Si potrebbe ristimare il modello includendo la variabile West ed escludendo la variabile Midwest dalla regressione. Così facendo il coefficiente sulla variabile South misurerebbe direttamente il differenziale stimato di reddito tra Juanita (South) e Jennifer (Midwest). Utilizzando l errore standard....
Esercizio 6.5 I dati sono stati raccolti da un campione casuale di 220 vendite di case in una determinata località nel 2003. Sia Price il prezzo di vendita (in 1000$), BDR il numero di camere da letto, Bath il numero di bagni, Hsize la dimensione della casa (in piedi quadrati), Lsize la dimensione del lotto (in piedi quadrati), Age l età della casa (in anni) e Poor una variabile binaria che è uguale a 1 se si riporta che la condizione della casa è malandata. La regressione stimata dà come risultato Price = 119, 2 + 0, 485 BDR + 23, 4 Bath + 0, 156 Hsize + 0, 002 Lsize + 0, 090 Age 48, 8 Poor R 2 = 0, 72 SER = 41, 5 (1) 1. Si supponga che una proprietaria trasformi parte di una preesistente camera dei giochi nella sua casa di un nuovo bagno. Qual è l aumento atteso nel valore della casa?. 2. Si supponga che una proprietaria aggiunga un nuovo bagno alla sua casa, la cui dimensione aumenta di 100 piedi quadrati. Qual è l aumento atteso nel valore della casa?. 3. Qual è la perdita nel valore della casa se un proprietario non la cura e lascia che la sua condizione diventi malandata? 4. Si calcoli l R 2 per la regressione.
Esercizio 6.5 1. Si supponga che una proprietaria trasformi parte di una preesistente camera dei giochi nella sua casa di un nuovo bagno. Qual è l aumento atteso nel valore della casa?. 23.400$ (si ricordi che Price è misurato in migliaia di $). 2. Si supponga che una proprietaria aggiunga un nuovo bagno alla sua casa, la cui dimensione aumenta di 100 piedi quadrati. Qual è l aumento atteso nel valore della casa?. In questo caso Bath = 1 e Hsize = 100. Il conseguente cambiamento atteso nel prezzo sarà 23, 4 + 0.156 100 = 39, 0 mila dollari, o 39.000$. 3. Qual è la perdita nel valore della casa se un proprietario non la cura e lascia che la sua condizione diventi malandata? La perdita è pari a 48.800$. 4. Si calcoli l R 2 per la regressione. Dal testo sappiamo che R 2 = 1 n 1 n k 1 (1 R2 ), di modo che R 2 = 1 n k 1 n 1 (1 R 2 ) e R 2 = 0,727.
Esercizio 6.6 Un ricercatore intende studiare l effetto causale della polizia sul rimine usando dati ottenuti da un campione casuale di contee degli Stati Uniti. Egli intende effettuare una regressione del tasso di criminalità della contea sulla dimensione (pro capite) delle forze di polizia della contea. 1. Si spieghi perché è probabile che questa regressione subisca una distorsione da variabile omesse. Quali variabili si dovrebbero aggiungere alla regressione per controllare per le variabili omesse importanti?. 2. Si usi la risposta della (1.) e l espressione per la distorsione da variabili omesse nella (6.1) per determinare se la regressione probabilmente sovrastimerà o sottostimerà l effetto della polizia sul tasso di criminalità. (Cioè, si ritiene che β 1 > β 1 o β 1 < β 1?)
Esercizio 6.6 1. Si spieghi perché è probabile che questa regressione subisca una distorsione da variabile omesse. Quali variabili si dovrebbero aggiungere alla regressione per controllare per le variabili omesse importanti?. Ci sono altre importanti determinanti del tasso di criminalità di una contea, tra cui le caratteristiche demografiche della popolazione. 2. Si usi la risposta della (1.) e l espressione per la distorsione da variabili omesse nella (6.1) per determinare se la regressione probabilmente sovrastimerà o sottostimerà l effetto della polizia sul tasso di criminalità. (Cioè, si ritiene che β 1 > β 1 o β 1 < β 1?) Si supponga che il tasso di criminalità sia influenzato positivamente dalla frazione di giovani di sesso maschile nella popolazione e che le contee con più alti tassi di criminalità tendano ad assumere un maggior numero di poliziotti. In tal caso, è probabile che la dimensione del corpo di polizia sia correlata positivamente con la frazione di giovani di sesso maschile nella popolazione, inducendo in tal modo a un valore positivo della distorsione da variabile omessa di modo che ˆβ 1 > β 1.
Esercizio 6.7 Si critichi ognuno dei seguenti piani di ricerca proposti. Tale critica dovrebbe spiegare i problemi connessi alla ricerca proposta e descrivere come si potrebbe migliorare il piano di ricerca. Si includa una discussione degli ulteriori dati che dovrebbero essere raccolti e sulle tecniche statistiche appropriate per analizzare tali dati. 1. Un ricercatore è interessato a stabilire se una grande azienda aerospaziale è colpevole di discriminazione di genere nel fissare le retribuzioni. Per determinare la potenziale distorsione, il ricercatore raccoglie informazioni sulle retribuzioni e sul genere di tutti gli ingegneri dell azienda. In seguito il ricercatore intende condurre un test della differenza tra medie al fine di determinare se la retribuzione media delle donne è significativamente minore di quella degli uomini.
Esercizio 6.7 2. Un ricercatore è interessato a determinare se il tempo trascorso in prigione ha un effetto permanente sul livello retributivo. Egli raccoglie dati su un campione casuale di persone che sono fuori dalla prigione da almeno quindici anni. Raccoglie poi dati simili su un campione casuale di persone che non sono mai state in prigione. I dati includono informazioni sulla retribuzione corrente di ogni persona, sull istruzione, l età, l etnia il genere,l anzianità di servizio (il tempo nell attuale lavoro), la professione e lo stato sindacale, così come sul fatto che la persona sia mai stata in carcere. Il ricercatore intende stimare l effetto dell incarcerazione sulle retribuzioni effettuando una regressione delle retribuzioni su un indicatore per l incarcerazione, includendo nelle regressione le altre potenziali determinanti delle retribuzioni (l educazione, la permanenza, lo stato sindacale e così via).
Esercizio 6.8 Un recente studio ha scoperto che il tasso di mortalità per persone che dormono da sei a sette ore per notte è minore rispetto al tasso di mortalità di persone che dormono otto o più ore per notte, e maggiore rispetto a persone che dormono cinque ore o meno. L 1,1 milione di osservazioni usate per questo studio è stato ottenuto da un indagine casuale sugli americani di età compresa tra i 30 e i 102 anni. Ogni intervistato è stato seguito per 4 anni. Il tasso di mortalità per le persone che dormono sette ore è stato calcolato come rapporto tra il numero di morti nell arco dello studio tra le persone che dormivano sette ore e il numero totale di intervistati che dormivano sette ore. Questo calcolo è stato quindi ripetuto per le persone che dormivano sei ore, e cosi via. Basandosi su questa sintesi, si raccomanderebbe agli americani che dormono nove ore per notte di considerare la possibilità di ridurre le loro ore di sonno a sei o sette se vogliono prolungare le loro vite? Perchè sì o perché no? Si argomenti la risposta.
Esercizio 6.9 (Y i, X 1i, X 2i ) soddisfano le assunzioni nel concetto chiave 6.4. Si è interessati a β 1, l effetto causale di X 1 su Y. Si supponga che X 1 e X 2 siano incorrelate. Si stimi β 1 effettuando una regressione di Y su X 1 (così che X 2 non sia inclusa nella regressione). Questo stimatore soffre di distorsione da variabili omesse? Si argomenti la risposta.
Esercizio 6.10 (Y i, X 1i, X 2i ) soddisfano le assunzioni nel concetto chiave 6.4; inoltre, var(u X 1i, X 2i ) = 4 e var(x ) = 6. Si estrae dalla popolazione un campione casuale di dimensione n = 400. 1. Si assuma che X 1 e X 2 siano incorrelate. Si calcoli la varianza di β 1 (Suggerimento: si guardi la (6.17) nell appendice 6.2). 2. Si assuma che cor(x 1, X 2 ) = 0, 5. Si calcoli la varianza di β 1. 3. Si commentino le seguenti affermazioni: Quando X 1 e X 2 sono correlate, la varianza di β 1 è maggiore di quanto lo sarebbe se X 1 e X 2 fossero incorrelate. Pertanto, se si è interessati a β 1 è meglio escludere X 2 dalla regressione se è correlata con X 1.
Esercizio 6.10 σˆβ 1 = 1 n [ ] 1 1 ρ 2 X 1,X 2 σu 2 σx 2 1 Se X 1 e X 2 sono incorrelate: ρ 2 X 1,X 2 = 0 σˆβ 1 = 1 [ 1 400 σˆβ 1 = 1 4 400 Se ρ X1,X 2 = 0.5 [ σˆβ 1 = 1 400 1 0] 4 6 = 6 = 0.00167 1 σˆβ 1 = 1 1 4 400 0.75 1 0.5 2 ] 4 6 = 6 = 0.0022 Quindi maggiore è la correlazione tra X 1 e X 2 maggiore è la varianza di ˆβ 1. Tuttavia l esclusione di X 2 non nè corretta se X 2 determina Y ed è correlata con X 1. L esclusione porterebbe ad una distorsione da variabili omesse e quindi ad un ˆβ 1 distorto
Esercizio 7.5 La regressione mostrata nella colonna (2) è stata stimata ancora una volta usando i dati relativi al 1992 (4.000 osservazioni selezionate casualmente dal CPS del marzo 1993, convertite in dollari 1998 usando l indice dei prezzi al consumo). I risultati sono ÂHE = 0, 77 (0,98) + 5, 29 (0,20) College 2, 59 (0,18) Female + 0, 40 Age SER = 5, 85 R (0,03) (2) Paragonando questa regressione a quella per il 1998, mostrata nella colonna (2), si evidenzia una variazione statisticamente significativa del coefficiente di College?
Esercizio 7.5 Paragonando questa regressione a quella per il 1998, mostrata nella colonna (2), si evidenzia una variazione statisticamente significativa del coefficiente di College? La statistica-t per la differenza nei coefficienti di College è t = ˆβ college, 1998 ˆβ college, 1992 SE ( ˆβ college, 1998 ˆβ college, 1992 ) Poiché ˆβ college 1998 e ˆβ college 1992 sono calcolati su campioni indipendenti, esse sono indipendenti, il che implica che cov( ˆβ college 1998, ˆβ college 1992 ) = 0 Pertanto, var( ˆβ college, 1998 ˆβ college, 1992 ) = var( ˆβ college, 1998 ) + var( ˆβ college, 1998 ) Ciò implica che Pertanto, SE ( ˆβ college, 1998 ˆβ college 1992 ) = 0, 21 2 + 0, 20 2 t act = 5, 48 5, 29 = 0, 6552 0, 212 + 0, 202 La differenza non è significativa dato che la statistica-t calcolata è minore di 1,96, il valore critico al 5%.
Esercizio 7.6 Si valuti la seguente affermazione: in tutte le regressioni, il coefficiente di Female è negativo, elevato e statisticamente significativo. Ciò supporta una forte evidenza statistica di discriminazione dovuta al genere nel mercato del lavoro degli USA.
Esercizio 7.7 La domanda 6.5 riportava la seguente regressione (in cui sono stati aggiunti gli errori standard): Price = 119, 2 (23,9) + 0, 090 (0,311) + 0, 485 (2,61) BDR + 23, 4 (8,94) Bath + 0, 156 Hsize + 0, 002 Lsize (0,011) (0,00048) Age 48, 8 Poor R 2 = 0, 72 SER = 41, 5 (3) (10,5) 1. Il coefficiente di BDR è statisticamente e significativamente diverso da zero? 2. Le case con cinque camere da letto si vendono tipicamente a un prezzo maggiore rispetto a quelle con due camere. Ciò è coerente con la risposta data nella (1.) e, più in generale, con la regressione?. 3. Una proprietaria acquista 2000 piedi quadrati da un lotto adiacente. Si costruisca unintervallo di confidenza al 99% per la variazione del valore della sua casa. 4. La dimensione di un lotto è misurata in piedi quadrati. Si ritiene che un altra scala possa essere più appropriata? Perché sì o perché no? 5. La statistica-f per l omissione di BDR e Age dalla regressione è F = 0, 08. I coefficienti di BDR e Age sono statisticamente diversi da zero al livello 10%?
Esercizio 7.7 1. La t-statistica è 0.485 2.61 = 0.186. Quindi il coefficiente di BDR non è significativamente diverso da zero. 2. Il coefficiente di BDR misura l effetto parziale del numero di camere da letto tenendo costante la dimensione della casa (Hsize). Chiaramente, le case con 5 camere da letto sono molto piu grandi delle case con due sole camere. Quindi la risposta sull effetto del numero di camere non è del tutto veritiera. 3. L intervallo di confidenza al 99% per l effetto dovuto all acquisto del lotto è 2000[.0022.58.00048] = [1.52, 6.48] (in migliaia di dollari). 4. La scelta dell unità di misura deve facilitare la lettura dei risultati. Se il lotto fosse stato misurato in migliaia di piedi, il coefficiente sarebbe pari a 2 invece di 0.002. 5. Il valore critico al 10% è 2.30. Poichè 0.08 < 2.30,i coefficienti non sono congiuntamente significativi al 10%
Esercizio 7.8 Facendo il riferimento alla tabella 7.1 nel testo: 1. Si costruisca l R 2 per ognuna delle regressioni. 2. Si costruisca la statistica-f classica per verificare l ipotesi che β 3 = β 4 = 0 nella regressione mostrata nella colonna (5). La statistica è significativa al livello 5%? 3. Si verifichi l ipotesi che β 3 = β 4 = 0 nella regressione mostrata nella colonna (5) usando il test di Bonferroni discusso nell appendice 7.1
Esercizio 7.8 Dalle formule su R 2 e R 2 sappiamo che: R 2 = 1 n 1 n k 1 (1 R2 ) quindi R 2 = 1 n k 1 n 1 (1 R 2 ) Colonna 1: R 2 = 1 420 1 1 420 1 (1 0.049) = 0.051 Colonna 2: R 2 = 1 420 2 1 420 1 (1 0.424) = 0.427 Colonna 3: R 2 = 1 420 3 1 420 1 (1 0.773) = 0.775 Colonna 4: R 2 = 1 420 3 1 420 1 (1 0.626) = 0.629 Colonna 5: R 2 = 1 420 4 1 420 1 (1 0.773) = 0.775 H 0 : β 3 = β 4 = 0 H 1 : β 3 = β 4 = 0
Esercizio 7.8 (b) Regressione non vincolata (colonna 5): Y = β 0 + β 1 X 1 + β 2 X 2 + β 3 X 3 + β 4 X 4, R 2 nonvincolato = 0.775 Regressione vincolata: Y = β 0 + β 1 X 1 + β 2 X 2, R 2 vincolato = 0.427 F = (R2 nonvincolato R2 vincolato )/q (1 Rnonvincolato 2 )/(n k 1), n = 400, k nonvincolato = 4, q = 2 F = (0.775 0.427)/2 (1 0.775)/(420 4 1) = 0.348/2 (0.225)/415 = 0.174 0.00054 = 322.22 Il valore critico da F 2,inf = 4.61, F omoschedastica > F 2,inf quindi H 0 è rigettata al 5%. (c) t 3 = 13.921, t 4 = 0.814,q = 2, t 3 > c con c pari a 2, 807, il valore critico al 1% dalla Tabella 7.3. L ipotesi nulla è rigettata al 1%. (d) 1.01 ± 2.58 0.27
Esercizio 7.9 Si consideri il modello di regressione Y i = β 0 + β 1 X 1i + β 2 X 2i + u i (4) Si usi l approccio 2 del par. 7.3, cioè si trasformi la regressione in modo che si possa usare direttamente una statistica-t per verificare a) β 1 = β 2 b) β 1 + αβ 2 = 0, dove α è una costante c) β 1 + β 2 = 1
Esercizio 7.9 a) β 1 = β 2 Y i = β 0 + β 1 X 1i + β 2 X 2i + u i Aggiungendo e sottraendo β 2 X 1i : o Y i = β 0 + (β 1 β 2 ) X 1i + β 2 (X 1i + X 2i ) + u } {{ } } {{ } i (5) γ 1 W i Y i = β 0 + γ 1 X 1i + β 2 W i + u i (6) Un test H 0 : β 1 = β 2 è quindi equivalente a un test H 0 : γ 1 = 0
Esercizio 7.9 b) β 1 + αβ 2 = 0, dove α è una costante Y i = β 0 + β 1 X 1i + β 2 X 2i + u i (7) Aggiungendo e sottraendo αβ 2 X 1i : o Y i = β 0 + (β 1 + αβ 2 ) X 1i + β 2 (X 2i αx 1i ) + u } {{ } } {{ } i (8) γ 1 W i Y i = β 0 + γ 1 X 1i + β 2 W i + u i (9) Un test H 0 : β 1 + αβ 2 = 0 è quindi equivalente a un test H 0 : γ 1 = 0
Esercizio 7.9 c) β 1 + β 2 = 1 Aggiungendo e sottraendo β 2 X 1i : o Y i = β 0 + β 1 X 1i + β 2 X 2i + u i (10) Y i = β 0 + (β 1 + β 2 ) X 1i + β 2 (X 2i X 1i ) + u } {{ } } {{ } i (11) γ 1 W i Y i = β 0 + γ 1 X 1i + β 2 W i + u i (12) Il test H 0 : β 1 + β 2 = 1 è equivalente a un test H 0 : γ 1 = 1. Alternativamente, si potrebbe ulteriormente sottrare X 1i a entrambi i membri per ottenere Y i X 1i = β 0 + (β 1 + β 2 1)X 1i + β 2 (X 2i X 1i ) + u i (13) o dove Z i = β 0 + γ 2 X 1i + β 2 W i + u i (14) Z i = Y i X 1i γ 2 = β 1 + β 2 1 W i = X 2i X 1i (15) e sottoporre a test H 0 : γ 2 = 0