Il metodo della regressione Consideriamo il coefficiente beta di una semplice regressione lineare, cosa significa? È una differenza tra valori attesi Anche nel caso classico di variabile esplicativa continua
Reddito i = + (Anni di istruzione i ) + i = Reddito atteso con X anni di istruzione - Reddito atteso con X-1 anni di istruzione Reddito atteso con 1 anno di istruzione in più= E(Reddito istruzione = X) = + (X) - E(Reddito istruzione = X-1) = + (X-1) E(Reddito X) - E(Reddito X-1) =
Il fatto che un coefficiente di regressione sia sempre una differenza tra medie lo si vede ancora meglio nel caso di una variabile esplicativa dicotomica Dicotomizziamo la variabile Istruzione in due soli livelli 1: Ha il diploma della media superiore 0: Non ha il diploma della media superiore
Reddito i = + Diploma + i Diploma = 1 con diploma, = 0 senza diploma = Reddito atteso con il Diploma ( + ) - Reddito atteso senza il Diploma ( )
Ovvero: = E(R i D i = 1) - E(R i D i = 0) Oppure, se introduciamo il trattamento: E(Y i T i = 1) - E(Y i T i = 0)
Nel caso di una sola variabile esplicativa dicotomica, non serve neppure applicare il metodo della regressione lineare per stimare e : basta calcolare la semplice differenza tra le medie del reddito dei due campioni di diplomati e non diplomati + = reddito medio dei diplomati = reddito medio dei non diplomati = differenza tra i redditi medi dei due gruppi
Cosa rappresenta un altra variabile esplicativa? Reddito i = + Diploma i + Anni di lavoro i + i è l effetto degli anni di lavoro sul reddito (probabilmente positivo) Quindi ora rappresenta l effetto del diploma A PARITA di anni di lavoro Ma si può ancora interpretare come differenza tra medie?
Sì, se riscriviamo l equazione così: Reddito i - Anni di lavoro i = + Diploma i (reddito depurato dall influenza degli anni di lavoro) + i = Reddito atteso (al netto dell effetto degli anni di lavoro) con Diploma - Reddito atteso ( ) senza Diploma
Ora non è più possibile stimare il coefficiente con semplici operazioni = Cov(x,y)/Var(x) = Media(y) - Media(x) Non possiamo fare a meno della regressione lineare, per ottenere una stima dell effetto della variabile dicotomica al netto dell influenza delle altre variabili. La regressione serve appunto a questo, o meglio ad includere tutte le variabili esplicative disponibili, pena l errore di variabile omessa
IL PROGRAMMA URBAN Prendiamo in considerazione il programma europeo Urban, si offrono sussidi agli stati membri per affrontare la problematica urbana in forma integrata, con azioni che associno: promozione dell'attività economica miglioramento dell'infrastruttura e dell'ambiente formazione personalizzata azioni a favore delle pari opportunità adeguamento dei servizi sociali
I dati
(3) Y i,t = + T i + P t + T i P t + i,t i = 1,300 t = 2000 i = 1,300 t = 2004 P t rappresenta il periodo di osservazione: 1 per il 2004 0 per il 2000; T i indica ora l assegnazione del quartiere a U o a NU, nel 2004 come nel 2000 T i P t rappresenta la variabile trattamento: uguale a 1 nel 2004 per i quartieri Urban, altrimenti. T i P t è l interazione (prodotto) tra la variabile assegnazione T i e il periodo di osservazione P t, assume quindi valore 1 se e solo se: T i =1 e P t = 1.
= E (Y i,t T i = 0, P t = 0) stima la media del vandalismo nei quartieri NONUrban nel 2000 + = E (Y i,t T i = 1, P t = 0) stima la media nei quartieri Urban nel 2000 (quando non sapevano di esserlo) NB: T i P t =0 cosa rappresenta ora?
stima le differenze di partenza (la differenza tra le medie del vandalismo osservate nel 2000 tra U e NU)
+ = E (Y i,t T i = 0, P t = 1) stima la media nei quartieri NONUrban nel 2004 e cosa stima, cosa rappresenta ora? la dinamica spontanea la sua stima è equivalente alla differenza nel vandalismo nei quartieri NU 2004-2000
+ + + = E(Y i,t T i = 1, P t = 1) stima la media nei quartieri Urban nel 2004 (il fattuale ) In pratica la regressione dice che il livello atteso di vandalismo nel 2004 (il fattuale ) è dato dal: livello base ( non Urban 2000 differenze di partenza : differenza U-NU nel 2000) + dinamica spontanea ( : differenza NU 2004-2000) Che fine ha fatto il controfattuale? L effetto di Urban come lo stimiamo?
+ + stima il controfattuale stima l effetto di Urban
Tipo di quartiere Media del tasso di vandalismo nel Differenze (2004-2000) 2000 2004 Urban 62,90 66,37 3,47 NonUrban 46,37 57,50 11,13 Differenze (U-NU) 16,53 8,87 7,66
Che valenza ha il risultato attuale rispetto a quello Diff&Diff? Identica, ma risultato è ora molto più accurato: Ora possiamo valutare se è significativo, con Diff&Diff non era ovviamente possibile, Possiamo vedere i residui e il comportamento degli outliers sulle stime, per quanto con variabili dummy questo sia meno informativo disponiamo di indicatori di adattamento globale del modello, come R 2 possiamo aggiungere altri predittori
3 - La regressione con variabile dipendente ΔY ΔY i = Y i, 2004 - Y i,2000
(4) Y i = + T i + i i = 1-300 = E( Y i, T i = 0 ) = E (Y i, 2004 - Y i, 2000 T i = 0) stima la dinamica spontanea per i quartieri NonUrban
+ = E( Yi, Ti = 1 ) = E(Yi, 2004 - Yi, 2000 Ti = 1) stima la dinamica per i quartieri Urban, da cui si ricava per differenza che = E(Y i, 2004 - Y i, 2000 T i =1)-E(Y i, 2004 - Y i, 2000 T i =0) cioè nuovamente la stima diff-diff dell effetto di Urban su Y i
Con ΔY Con Y