Il metodo della regressione Consideriamo il coefficiente beta di una semplice regressione lineare, cosa significa? È una differenza tra valori attesi Anche nel caso classico di variabile esplicativa continua Reddito i = α + β (Anni di istruzione i ) + ε i β = Reddito atteso con X anni di istruzione - Reddito atteso con X-1 anni di istruzione Reddito atteso con 1 anno di istruzione in più= E(Reddito istruzione = X) = α + β (X) - E(Reddito istruzione = X-1) = α + β (X-1) E(Reddito X) - E(Reddito X-1) = β 1
Il fatto che un coefficiente di regressione sia sempre una differenza tra medie lo si vede ancora meglio nel caso di una variabile esplicativa dicotomica Dicotomizziamo la variabile Istruzione in due soli livelli 1: Ha il diploma della media superiore 0: Non ha il diploma della media superiore Reddito i = α + β Diploma + ε i Diploma = 1 con diploma, = 0 senza diploma β = Reddito atteso con il Diploma - Reddito atteso senza il Diploma 2
Ovvero: β = E(R i D i = 1) - E(R i D i = 0) Oppure, se introduciamo il trattamento: E(Y i T i = 1) - E(Y i T i = 0) Nel caso di una sola variabile esplicativa dicotomica, non serve la regressione per stimare α e β, basta calcolare la semplice differenza tra le medie del reddito dei due campioni di diplomati e non diplomati α + β = reddito medio dei diplomati α = reddito medio dei non diplomati β = differenza tra i redditi medi dei due gruppi 3
Cosa rappresenta un altra variabile esplicativa? Reddito i = α + β Diploma i + γ Anni di lavoro i + ε i γ è l effetto degli anni di lavoro sul reddito (probabilmente positivo) Quindi ora β rappresenta l effetto del diploma A PARITA di anni di lavoro Ma β si può ancora interpretare come differenza tra medie? Sì, se riscriviamo l equazione così: Reddito i - γ Anni di lavoro i = α + β Diploma i (reddito depurato dall influenza degli anni di lavoro) + ε i β = Reddito atteso (al netto dell effetto degli anni di lavoro) con Diploma - Reddito atteso ( ) senza Diploma 4
Ora non è più possibile stimare il coefficiente β con semplici operazioni β= Cov(x,y)/Var(x) α= Media(y) - β Media(x) Non possiamo fare a meno della regressione, perché vogliamo ottenere una stima dell effetto della variabile dicotomica al netto dell influenza di altre variabili: la regressione serve appunto a questo e ovviamente ad includere tutte le variabili esplicative disponibili, pena l errore di variable omessa IL PROGRAMMA URBAN Riprendiamo Urban, affronta la problematica urbana in forma integrata, associando promozione dell'attività economica miglioramento dell'infrastruttura e dell'ambiente formazione personalizzata azioni a favore delle pari opportunità adeguamento dei servizi sociali 5
I dati id vandalismo anno urban immigrazione disoccupazione punteggio 248 84,45 2004 NonUrban 4,87 18,59 71,4 248 75,24 2000 NonUrban 4,87 18,59 71,4 248 70,90 1996 NonUrban 4,87 18,59 71,4 249 66,99 2004 NonUrban 16,80 10,92 71,4 249 52,29 2000 NonUrban 16,80 10,92 71,4 249 42,68 1996 NonUrban 16,80 10,92 71,4 250 72,19 2004 NonUrban 14,93 12,28 71,4 250 60,09 2000 NonUrban 14,93 12,28 71,4 250 55,52 1996 NonUrban 14,93 12,28 71,4 251 59,47 2004 Urban 13,96 12,10 71,5 251 57,80 2000 Urban 13,96 12,10 71,5 251 49,16 1996 Urban 13,96 12,10 71,5 252 69,19 2004 Urban 13,84 14,42 71,7 252 66,51 2000 Urban 13,84 14,42 71,7 252 59,25 1996 Urban 13,84 14,42 71,7 Poniamo di misurare il tasso di vandalismo solo nel 2004, ma di conoscere il valore delle caratteristiche del quartiere che possono averlo influenzato. Supponiamo solo L accesso al programma URBAN Vogliamo quindi ottenere una stima dell effetto di URBAN sul vandalismo nel 2004, al netto dell influenza delle altre variabili osservate prima del programma, poniamo nel 2000 6
(1) Y i = α + βt i + ε i (i=1-300: 50+250) dove: Y i rappresenta il tasso di vandalismo osservato nel quartiere i-esimo; T i rappresenta la variabile trattamento 1 per i quartieri Urban 0 per i quartieri NonUrban; ε i è il termine di errore, assumendo : Cov [ε,t] = 0 E [ε T]=0 I coefficienti hanno il seguente significato: α = E(Y i T i = 0 ) vandalismo nel 2004 senza URBAN α + β = E(Y i T i = 1 ) vandalismo nel 2004 con URBAN da cui si ricava per differenza che: β = E(Y i T i = 1 ) - E(Y i T i = 0 ) effetto atteso di URBAN nel 2004??? 7
100 90 Osservazioni sull'anno 2004 tasso di vandalismo 80 70 60 50 40 30 20 Senza 0Urban: Ti=0 Con Urban: 1 Ti=1 Statistica della regressione R multiplo 0,225292357 R al quadrato 0,050756646 R al quadrato corretto 0,047571266 Errore standard 14,33737598 Osservazioni 300 ANALISI VARIANZA gdl SQ MQ F Significatività F Regressione 1 3275,45 3275,45 15,93424964 8,26392E-05 Residuo 298 61256,98 205,5603 Totale 299 64532,43 Coefficienti Err.st. Stat t Significatività Inferiore 95% Superiore 95% Intercetta 57,50261032 0,906775 63,4144 4,5732E-175 55,71811608 59,28710456 T 8,86627308 2,221137 3,991773 8,26392E-05 4,495172732 13,23737343 Stima dell effetto di Urban = + 8,87 atti di vandalismo (identico alla differenza tra medie con-senza ) 8
Il risultato ottenuto con la regressione è maggiormente credibile di quello ottenuto attraverso con-senza? Occiamente no, per migliorare una stima non basta la regressione in quanto tale. Occorrono variabili esplicative che servano a ridurre la distorsione dovuta alle differenze di partenza, come immigrazione e disoccupazione osservati prima della politica in esame, poniamo nel 2000. (2) Y i = α + βt i + θ IMM i + λ DIS i + ε i i = 1-300 9
Statistica della regressione R multiplo 0,895974313 R al quadrato 0,80276997 R al quadrato corretto 0,800771017 Errore standard 6,557369986 Osservazioni 300 ANALISI VARIANZA gdl SQ MQ F Significatività F Regressione 3 51804,7 17268,23 401,5952186 5,5892E-104 Residuo 296 12727,73 42,9991 Totale 299 64532,43 Coefficienti Err.st. Stat t Significatività Inferiore 95% Superiore 95% Intercetta -23,0023726 2,460117-9,35011 2,23195E-18-27,84390953-18,16083575 T -0,16375709 1,074617-0,15239 0,878985922-2,278614308 1,951100135 immigr 3,685853998 0,131201 28,09329 1,69172E-85 3,427649959 3,944058038 disocc 2,710303511 0,129999 20,84871 4,99171E-60 2,454464877 2,966142145 Stima dell effetto di Urban = 0,16 atti di vandalismo cioè 0: le variabili di controllo hanno annullato la precedente stima positiva in senso algebrico, ma negativa in senso sociale e di utilità del programma. Ora l effetto Urban (Ti=1) è quello di ridurre il tasso di vandalismo Yi (3) Y i,t = α + βt i + γp t + δt i P t + ε i,t i = 1,300 t = 2000 + 2004 P t rappresenta il periodo di osservazione: 1 per il 2004 0 per il 2000; T i indica ora l assegnazione del quartiere a U o a NU e questo vale nel 2004 come nel 2000 T i P t rappresenta adesso la variabile trattamento, ed è uguale a 1 solo nel 2004 per i quartieri Urban, e uguale a zero in tutti gli altri casi. T i P t è costruita come interazione (prodotto) tra la variabile assegnazione T i e il periodo di osservazione P t, assume quindi valore 1 se e solo se: T i =1 e P t = 1. 10
α = E (Y i,t T i = 0, P t = 0) stima la media del vandalismo nei quartieri NonUrban nel 2000 α + β = E (Y i,t T i = 1, P t = 0) stima la media nei quartieri Urban nel 2000 (quando non sapevano di esserlo) e β cosa rappresenta ora? β stima le differenze di partenza (la differenza tra le medie del vandalismo osservate nel 2000 tra U e NU) 11
α + γ = E (Y i,t T i = 0, P t = 1) stima la media nei quartieri NonUrban nel 2004 e γ cosa stima, cosa rappresenta ora? la dinamica spontanea la sua stima è equivalente alla differenza nel vandalismo nei quartieri NU 2004-2000 α + β + γ + δ = E(Y i,t T i = 1, P t = 1) stima la media nei quartieri Urban nel 2004 (il fattuale ) In pratica la regressione dice che il livello atteso di vandalismo nel 2004 (il fattuale ) è dato dal: livello base (α: non Urban 2000) + differenze di partenza (β: differenza U-NU nel 2000) + dinamica spontanea (γ: differenza NU 2004-2000) E che fine ha fatto il controfattuale? E l effetto come lo stimiamo? 12
α + β + γ stima il controfattuale δ stima l effetto di Urban 80 tasso di vandalismo 70 60 50 40 30 20 β δ γ α β 10 0 2000 2004 Urban NonUrban controfattuale 13
Statistica della regressione R multiplo 0,441143919 R al quadrato 0,194607957 R al quadrato corretto 0,190553971 Errore standard 14,24470836 Osservazioni 600 ANALISI VARIANZA gdl SQ MQ F Significatività F Regressione 3 29221,78 9740,593 48,00409258 8,46935E-28 Residuo 596 120935,4 202,9117 Totale 599 150157,2 Coefficienti Err.st. Stat t Significatività Inferiore 95% Superiore 95% Intercetta 46,371554 0,900914 51,47165 1,6836E-221 44,60220109 48,14090691 T 16,5263578 2,206781 7,488899 2,51462E-13 12,19234599 20,86036961 Periodo 11,13105632 1,274085 8,736507 2,42972E-17 8,628813434 13,63329921 T*P -7,66008472 3,120859-2,45448 0,01439371-13,789303-1,530866437 Tipo di quartiere Urban NonUrban Differenze (U-NU) Media del tasso di vandalismo nel 2000 2004 62,90 66,37 46,37 57,50 16,53 8,87 Differenze (2004-2000) 3,47 11,13 7,66 Che valenza ha il risultato attuale rispetto a quello Diff&Diff? Identica, ma risultato è ora molto più accurato: possiamo valutare che δ è significativo, con Diff&Diff non era possibile, possiamo vedere i residui e il comportamento degli outliers sulle stime, per quanto con variabili dummy disponiamo tuttavia di indicatori di adattamento globale del modello, come R 2 possiamo aggiungere altri predittori 14
3 - La regressione con variabile dipendente ΔY ΔY i = Y i, 2004 - Y i,2000 (4) ΔY i = α + βt i + ε i i = 1-300 α= E(ΔY i, T i = 0 ) = E (Y i, 2004 - Y i, 2000 T i = 0) stima la dinamica spontanea per i quartieri NonUrban 15
α + β = E(ΔYi, Ti = 1 ) = E(Yi, 2004 - Yi, 2000 Ti = 1) stima la dinamica per i quartieri Urban, da cui si ricava per differenza che β = E(Y i, 2004 - Y i, 2000 T i =1)-E(Y i, 2004 - Y i, 2000 T i =0) cioè nuovamente la stima diff-diff dell effetto di Urban su Y i Statistica della regressione R multiplo 0,829898841 R al quadrato 0,688732086 R al quadrato corretto 0,687687563 Errore standard 1,92558121 Osservazioni 300 Con ΔY ANALISI VARIANZA gdl SQ MQ F Significatività F Regressione 1 2444,871 2444,871 659,3746182 1,66652E-77 Residuo 298 1104,943 3,707863 Totale 299 3549,814 Coefficienti Err.st. Stat t Significatività Inferiore 95% Superiore 95% Intercetta 11,13105632 0,121784 91,39965 5,0195E-220 10,89138983 11,37072281 T -7,66008472 0,29831-25,6783 1,66652E-77-8,247145331-7,073024109 Con Y Coefficienti Err.st. Stat t Significatività Inferiore 95% Superiore 95% Intercetta 46,371554 0,900914 51,47165 1,6836E-221 44,60220109 48,14090691 T 16,5263578 2,206781 7,488899 2,51462E-13 12,19234599 20,86036961 Periodo 11,13105632 1,274085 8,736507 2,42972E-17 8,628813434 13,63329921 T*P -7,66008472 3,120859-2,45448 0,01439371-13,789303-1,530866437 16
Al modello con la variabile dipendente espressa come differenza, possiamo aggiungere variabili di controllo per catturare eventuali differenze dovute alle diverse condizioni di partenza (immigrazione e disoccupazione nel 2000) (5) ΔYi = α + βt i + θ IMM i + λ DIS i + ε i i = 1,300 Statistica della regressione R multiplo 0,841496771 R al quadrato 0,708116815 R al quadrato corretto 0,705158539 Errore standard 1,870946965 Osservazioni 300 ANALISI VARIANZA gdl SQ MQ F Significatività F Regressione 3 2513,683 837,8943 239,3681078 8,22771E-79 Residuo 296 1036,131 3,500443 Totale 299 3549,814 Coefficienti Err.st. Stat t Significatività Inferiore 95% Superiore 95% Intercetta 8,725297202 0,70192 12,43062 7,88867E-29 7,343911255 10,10668315 T -8,09990236 0,306609-26,4177 7,70905E-80-8,703312829-7,496491891 immigr 0,027663875 0,037434 0,739002 0,460491345-0,046006829 0,10133458 disocc 0,163948219 0,037091 4,420142 1,38612E-05 0,090952411 0,236944026 Stima dell effetto di Urban = -8,10 atti di vandalismo (IMM n.s. e DIS sig.) 17
6) ΔY i,t = α + βt i + γp t + δt i *P t + ε i,t i = 1,300 P t =0 2000-1996 P t =1 2004-2000 α = crescita nei quartieri NonUrban tra il 1996 e il 2000 β = differenziale, cioè E(ΔY i,t - ΔY j,t ), nei trend di crescita tra i due gruppi di quartieri nel periodo 1996-2000 (nel primo modello è zero) γ = differenziale di crescita nei quartieri NonUrban tra il 2000 e il 2004 rispetto al quadriennio precedente δ = stima l effetto dell intervento Statistica della regressione R multiplo 0,802009768 R al quadrato 0,643219668 R al quadrato corretto 0,641423794 Errore standard 1,946220704 Osservazioni 600 ANALISI VARIANZA gdl SQ MQ F Significatività F Regressione 3 4069,948 1356,649 358,1652231 6,4589E-133 Residuo 596 2257,514 3,787775 Totale 599 6327,462 Coefficienti Err.st. Stat t Significatività Inferiore 95% Superiore 95% Intercetta 6,408254684 0,12309 52,06162 6,4883E-224 6,166512194 6,649997174 Periodo 4,722801636 0,174075 27,1308 3,5947E-106 4,380926128 5,064677144 T 1,528388516 0,301507 5,069161 5,34027E-07 0,936242766 2,120534266 P*T -9,18847324 0,426396-21,5492 1,3488E-76-10,02589379-8,351052685 (U 2004 N 2004 ) (U 2000 N 2000 ) -[(U 2000 -U 1996 ) (N 2000 -N 1996 )] Effetto = differenza post differenza pre differenza pre nei trend 9,19 8,87 (+ 16,53) [+ 1,53] 18