Il metodo della regressione



Documenti analoghi
Il metodo della regressione

CORSO DI STATISTICA (parte 2) - ESERCITAZIONE 8

LEZIONE n. 5 (a cura di Antonio Di Marco)

Lineamenti di econometria 2

Introduzione alle relazioni multivariate. Introduzione alle relazioni multivariate

Lineamenti di econometria 2

LA CORRELAZIONE LINEARE

(a cura di Francesca Godioli)

FACOLTÀ DI ECONOMIA Soluzione della Prova di autovalutazione 2012 (primi 6 CFU) ANALISI STATISTICA PER L IMPRESA

E naturale chiedersi alcune cose sulla media campionaria x n

RISCHIO E CAPITAL BUDGETING

Verifica di ipotesi e intervalli di confidenza nella regressione multipla

PROBABILITA CONDIZIONALE

1. Distribuzioni campionarie

Capitolo 12 La regressione lineare semplice

Controlli Automatici T. Trasformata di Laplace e Funzione di trasferimento. Parte 3 Aggiornamento: Settembre Prof. L.

Relazioni statistiche: regressione e correlazione

Lineamenti di econometria 2

4 3 4 = 4 x x x 10 0 aaa

Statistica e biometria. D. Bertacchi. Variabili aleatorie. V.a. discrete e continue. La densità di una v.a. discreta. Esempi.

Tasso di interesse e capitalizzazione

Siamo così arrivati all aritmetica modulare, ma anche a individuare alcuni aspetti di come funziona l aritmetica del calcolatore come vedremo.

La distribuzione Normale. La distribuzione Normale

APPUNTI DI MATEMATICA LE FRAZIONI ALGEBRICHE ALESSANDRO BOCCONI

Regressione Logistica: un Modello per Variabili Risposta Categoriali

Pro e contro delle RNA

1) Si consideri un esperimento che consiste nel lancio di 5 dadi. Lo spazio campionario:

2. Leggi finanziarie di capitalizzazione

Psicometria (8 CFU) Corso di Laurea triennale STANDARDIZZAZIONE

Opportunità e rischi derivanti dall'impiego massivo dell'informatica in statistica. Francesco Maria Sanna Roma, 3 maggio 2012

Il concetto di valore medio in generale

Econometria. lezione 17. variabili dipendenti binarie. Econometria. lezione 17. AA Paolo Brunori

Metodi statistici per le ricerche di mercato

lezione 18 AA Paolo Brunori


RAPPRESENTAZIONE GRAFICA E ANALISI DEI DATI SPERIMENTALI CON EXCEL

Metodi risolutivi per le disequazioni algebriche

postulato della valutazione tramite indicatori: La valutazione di un sistema sanitario tramite indicatori ipotizza

Il modello media-varianza con N titoli rischiosi. Una derivazione formale. Enrico Saltari

Esercitazione 1 del corso di Statistica 2 Prof. Domenico Vistocco

ESERCITAZIONE 13 : STATISTICA DESCRITTIVA E ANALISI DI REGRESSIONE

Soluzioni degli Esercizi del Parziale del 30/06/201 (Ippoliti-Fontanella-Valentini)

Come visto precedentemente l equazione integro differenziale rappresentativa dell equilibrio elettrico di un circuito RLC è la seguente: 1 = (1)

> d = alimentazione == "benz" > mean(percorr.urbana[!d]) - mean(percorr.urbana[d]) [1] > sd(percorr.urbana[d]) [1] 2.

Prova di autovalutazione Prof. Roberta Siciliano

La regressione lineare multipla

Corso di Matematica per la Chimica

Alessandro Pellegrini

Analisi statistica delle funzioni di produzione

Introduzione all Inferenza Statistica

( x) ( x) 0. Equazioni irrazionali

Limited Dependent Variable Models

LA TRASMISSIONE DELLE INFORMAZIONI QUARTA PARTE 1

Corrispondenze e funzioni

Macroeconomia, Esercitazione 2. 1 Esercizi. 1.1 Moneta/ Moneta/ Moneta/3. A cura di Giuseppe Gori (giuseppe.gori@unibo.

IL RISCHIO D IMPRESA ED IL RISCHIO FINANZIARIO. LA RELAZIONE RISCHIO-RENDIMENTO ED IL COSTO DEL CAPITALE.

Metodi Matematici e Informatici per la Biologia Maggio 2010

Le funzioni continue. A. Pisani Liceo Classico Dante Alighieri A.S A. Pisani, appunti di Matematica 1

Calcolo del Valore Attuale Netto (VAN)

Schemi delle Lezioni di Matematica Generale. Pierpaolo Montana

Indice. 1 La disoccupazione di 6

Misure finanziarie del rendimento: il Van

Lezione Introduzione

Statistica multivariata. Statistica multivariata. Analisi multivariata. Dati multivariati. x 11 x 21. x 12 x 22. x 1m x 2m. x nm. x n2.

LEZIONE 23. Esempio Si consideri la matrice (si veda l Esempio ) A =

Analisi di scenario File Nr. 10

Misure finanziarie del rendimento: il Van

Regressione logistica. Strumenti quantitativi per la gestione

Test di italiano di livello A2 e Permesso di soggiorno CE

Metodologia per l analisi dei dati sperimentali L analisi di studi con variabili di risposta multiple: Regressione multipla

1a) Calcolare gli estremi dell intervallo di confidenza per µ al 90% in corrispondenza del campione osservato.

24 : 3 = 8 con resto 0 26 : 4 = 6 con resto 2

ESERCIZI DI MATEMATICA FINANZIARIA DIPARTIMENTO DI ECONOMIA E MANAGEMENT UNIFE A.A. 2015/ Esercizi 4

FUNZIONE. Si scrive: A B f: A B x y=f(x) (si legge: f funzione da A in B) x f y= f(x)

Statistica inferenziale

Finanza Aziendale. Lezione 13. Introduzione al costo del capitale

Epoca k Rata Rk Capitale Ck interessi Ik residuo Dk Ek 0 S 0 1 C1 Ik=i*S Dk=S-C1. n 0 S

MATEMATICA. { 2 x =12 y 3 y +8 x =0, si pone il problema di trovare, se esistono, un numero x ed un numero y che risolvano entrambe le equazioni.

Facoltà di Psicologia Università di Padova Anno Accademico

Economia Politica. a.a. 2012/13. Lezione 3 Prof. Maria Laura Parisi

ESERCIZI SVOLTI PER LA PROVA DI STATISTICA

Metodi Matematici ed Informatici per la Biologia Esame Finale, I appello 1 Giugno 2007

FUNZIONI ELEMENTARI - ESERCIZI SVOLTI

Economia Applicata ai sistemi produttivi Lezione II Maria Luisa Venuta 1

L EFFICACIA DELLE MISURE DI POLITICA ATTIVA DEL LAVORO REALIZZATE IN PROVINCIA DI TORINO NEL

1. PRIME PROPRIETÀ 2

VERIFICA DELLE IPOTESI

UNIVERSITÀ DEGLI STUDI DI TERAMO

Esercizi di Ricerca Operativa II

Statistical learning Strumenti quantitativi per la gestione

Elementi di Psicometria con Laboratorio di SPSS 1

Capitolo Terzo Valore attuale e costo opportunità del capitale

Microeconomia per la Finanza Esercitazione 1 utilità attesa, attitudine al rischio

Per studio di funzione intendiamo un insieme di procedure che hanno lo scopo di analizzare le proprietà di una funzione f ( x) R R

ANALISI DELLE FREQUENZE: IL TEST CHI 2

1 Associazione tra variabili quantitative COVARIANZA E CORRELAZIONE

LEZIONE 7. Esercizio 7.1. Quale delle seguenti funzioni è decrescente in ( 3, 0) e ha derivata prima in 3 che vale 0? x x2. 2, x3 +2x +3.

Aspettative, Produzione e Politica Economica

STATISTICA IX lezione

RELAZIONE TRA VARIABILI QUANTITATIVE. Lezione 7 a. Accade spesso nella ricerca in campo biomedico, così come in altri campi della

Transcript:

Il metodo della regressione Consideriamo il coefficiente beta di una semplice regressione lineare, cosa significa? È una differenza tra valori attesi Anche nel caso classico di variabile esplicativa continua Reddito i = α + β (Anni di istruzione i ) + ε i β = Reddito atteso con X anni di istruzione - Reddito atteso con X-1 anni di istruzione Reddito atteso con 1 anno di istruzione in più= E(Reddito istruzione = X) = α + β (X) - E(Reddito istruzione = X-1) = α + β (X-1) E(Reddito X) - E(Reddito X-1) = β 1

Il fatto che un coefficiente di regressione sia sempre una differenza tra medie lo si vede ancora meglio nel caso di una variabile esplicativa dicotomica Dicotomizziamo la variabile Istruzione in due soli livelli 1: Ha il diploma della media superiore 0: Non ha il diploma della media superiore Reddito i = α + β Diploma + ε i Diploma = 1 con diploma, = 0 senza diploma β = Reddito atteso con il Diploma - Reddito atteso senza il Diploma 2

Ovvero: β = E(R i D i = 1) - E(R i D i = 0) Oppure, se introduciamo il trattamento: E(Y i T i = 1) - E(Y i T i = 0) Nel caso di una sola variabile esplicativa dicotomica, non serve la regressione per stimare α e β, basta calcolare la semplice differenza tra le medie del reddito dei due campioni di diplomati e non diplomati α + β = reddito medio dei diplomati α = reddito medio dei non diplomati β = differenza tra i redditi medi dei due gruppi 3

Cosa rappresenta un altra variabile esplicativa? Reddito i = α + β Diploma i + γ Anni di lavoro i + ε i γ è l effetto degli anni di lavoro sul reddito (probabilmente positivo) Quindi ora β rappresenta l effetto del diploma A PARITA di anni di lavoro Ma β si può ancora interpretare come differenza tra medie? Sì, se riscriviamo l equazione così: Reddito i - γ Anni di lavoro i = α + β Diploma i (reddito depurato dall influenza degli anni di lavoro) + ε i β = Reddito atteso (al netto dell effetto degli anni di lavoro) con Diploma - Reddito atteso ( ) senza Diploma 4

Ora non è più possibile stimare il coefficiente β con semplici operazioni β= Cov(x,y)/Var(x) α= Media(y) - β Media(x) Non possiamo fare a meno della regressione, perché vogliamo ottenere una stima dell effetto della variabile dicotomica al netto dell influenza di altre variabili: la regressione serve appunto a questo e ovviamente ad includere tutte le variabili esplicative disponibili, pena l errore di variable omessa IL PROGRAMMA URBAN Riprendiamo Urban, affronta la problematica urbana in forma integrata, associando promozione dell'attività economica miglioramento dell'infrastruttura e dell'ambiente formazione personalizzata azioni a favore delle pari opportunità adeguamento dei servizi sociali 5

I dati id vandalismo anno urban immigrazione disoccupazione punteggio 248 84,45 2004 NonUrban 4,87 18,59 71,4 248 75,24 2000 NonUrban 4,87 18,59 71,4 248 70,90 1996 NonUrban 4,87 18,59 71,4 249 66,99 2004 NonUrban 16,80 10,92 71,4 249 52,29 2000 NonUrban 16,80 10,92 71,4 249 42,68 1996 NonUrban 16,80 10,92 71,4 250 72,19 2004 NonUrban 14,93 12,28 71,4 250 60,09 2000 NonUrban 14,93 12,28 71,4 250 55,52 1996 NonUrban 14,93 12,28 71,4 251 59,47 2004 Urban 13,96 12,10 71,5 251 57,80 2000 Urban 13,96 12,10 71,5 251 49,16 1996 Urban 13,96 12,10 71,5 252 69,19 2004 Urban 13,84 14,42 71,7 252 66,51 2000 Urban 13,84 14,42 71,7 252 59,25 1996 Urban 13,84 14,42 71,7 Poniamo di misurare il tasso di vandalismo solo nel 2004, ma di conoscere il valore delle caratteristiche del quartiere che possono averlo influenzato. Supponiamo solo L accesso al programma URBAN Vogliamo quindi ottenere una stima dell effetto di URBAN sul vandalismo nel 2004, al netto dell influenza delle altre variabili osservate prima del programma, poniamo nel 2000 6

(1) Y i = α + βt i + ε i (i=1-300: 50+250) dove: Y i rappresenta il tasso di vandalismo osservato nel quartiere i-esimo; T i rappresenta la variabile trattamento 1 per i quartieri Urban 0 per i quartieri NonUrban; ε i è il termine di errore, assumendo : Cov [ε,t] = 0 E [ε T]=0 I coefficienti hanno il seguente significato: α = E(Y i T i = 0 ) vandalismo nel 2004 senza URBAN α + β = E(Y i T i = 1 ) vandalismo nel 2004 con URBAN da cui si ricava per differenza che: β = E(Y i T i = 1 ) - E(Y i T i = 0 ) effetto atteso di URBAN nel 2004??? 7

100 90 Osservazioni sull'anno 2004 tasso di vandalismo 80 70 60 50 40 30 20 Senza 0Urban: Ti=0 Con Urban: 1 Ti=1 Statistica della regressione R multiplo 0,225292357 R al quadrato 0,050756646 R al quadrato corretto 0,047571266 Errore standard 14,33737598 Osservazioni 300 ANALISI VARIANZA gdl SQ MQ F Significatività F Regressione 1 3275,45 3275,45 15,93424964 8,26392E-05 Residuo 298 61256,98 205,5603 Totale 299 64532,43 Coefficienti Err.st. Stat t Significatività Inferiore 95% Superiore 95% Intercetta 57,50261032 0,906775 63,4144 4,5732E-175 55,71811608 59,28710456 T 8,86627308 2,221137 3,991773 8,26392E-05 4,495172732 13,23737343 Stima dell effetto di Urban = + 8,87 atti di vandalismo (identico alla differenza tra medie con-senza ) 8

Il risultato ottenuto con la regressione è maggiormente credibile di quello ottenuto attraverso con-senza? Occiamente no, per migliorare una stima non basta la regressione in quanto tale. Occorrono variabili esplicative che servano a ridurre la distorsione dovuta alle differenze di partenza, come immigrazione e disoccupazione osservati prima della politica in esame, poniamo nel 2000. (2) Y i = α + βt i + θ IMM i + λ DIS i + ε i i = 1-300 9

Statistica della regressione R multiplo 0,895974313 R al quadrato 0,80276997 R al quadrato corretto 0,800771017 Errore standard 6,557369986 Osservazioni 300 ANALISI VARIANZA gdl SQ MQ F Significatività F Regressione 3 51804,7 17268,23 401,5952186 5,5892E-104 Residuo 296 12727,73 42,9991 Totale 299 64532,43 Coefficienti Err.st. Stat t Significatività Inferiore 95% Superiore 95% Intercetta -23,0023726 2,460117-9,35011 2,23195E-18-27,84390953-18,16083575 T -0,16375709 1,074617-0,15239 0,878985922-2,278614308 1,951100135 immigr 3,685853998 0,131201 28,09329 1,69172E-85 3,427649959 3,944058038 disocc 2,710303511 0,129999 20,84871 4,99171E-60 2,454464877 2,966142145 Stima dell effetto di Urban = 0,16 atti di vandalismo cioè 0: le variabili di controllo hanno annullato la precedente stima positiva in senso algebrico, ma negativa in senso sociale e di utilità del programma. Ora l effetto Urban (Ti=1) è quello di ridurre il tasso di vandalismo Yi (3) Y i,t = α + βt i + γp t + δt i P t + ε i,t i = 1,300 t = 2000 + 2004 P t rappresenta il periodo di osservazione: 1 per il 2004 0 per il 2000; T i indica ora l assegnazione del quartiere a U o a NU e questo vale nel 2004 come nel 2000 T i P t rappresenta adesso la variabile trattamento, ed è uguale a 1 solo nel 2004 per i quartieri Urban, e uguale a zero in tutti gli altri casi. T i P t è costruita come interazione (prodotto) tra la variabile assegnazione T i e il periodo di osservazione P t, assume quindi valore 1 se e solo se: T i =1 e P t = 1. 10

α = E (Y i,t T i = 0, P t = 0) stima la media del vandalismo nei quartieri NonUrban nel 2000 α + β = E (Y i,t T i = 1, P t = 0) stima la media nei quartieri Urban nel 2000 (quando non sapevano di esserlo) e β cosa rappresenta ora? β stima le differenze di partenza (la differenza tra le medie del vandalismo osservate nel 2000 tra U e NU) 11

α + γ = E (Y i,t T i = 0, P t = 1) stima la media nei quartieri NonUrban nel 2004 e γ cosa stima, cosa rappresenta ora? la dinamica spontanea la sua stima è equivalente alla differenza nel vandalismo nei quartieri NU 2004-2000 α + β + γ + δ = E(Y i,t T i = 1, P t = 1) stima la media nei quartieri Urban nel 2004 (il fattuale ) In pratica la regressione dice che il livello atteso di vandalismo nel 2004 (il fattuale ) è dato dal: livello base (α: non Urban 2000) + differenze di partenza (β: differenza U-NU nel 2000) + dinamica spontanea (γ: differenza NU 2004-2000) E che fine ha fatto il controfattuale? E l effetto come lo stimiamo? 12

α + β + γ stima il controfattuale δ stima l effetto di Urban 80 tasso di vandalismo 70 60 50 40 30 20 β δ γ α β 10 0 2000 2004 Urban NonUrban controfattuale 13

Statistica della regressione R multiplo 0,441143919 R al quadrato 0,194607957 R al quadrato corretto 0,190553971 Errore standard 14,24470836 Osservazioni 600 ANALISI VARIANZA gdl SQ MQ F Significatività F Regressione 3 29221,78 9740,593 48,00409258 8,46935E-28 Residuo 596 120935,4 202,9117 Totale 599 150157,2 Coefficienti Err.st. Stat t Significatività Inferiore 95% Superiore 95% Intercetta 46,371554 0,900914 51,47165 1,6836E-221 44,60220109 48,14090691 T 16,5263578 2,206781 7,488899 2,51462E-13 12,19234599 20,86036961 Periodo 11,13105632 1,274085 8,736507 2,42972E-17 8,628813434 13,63329921 T*P -7,66008472 3,120859-2,45448 0,01439371-13,789303-1,530866437 Tipo di quartiere Urban NonUrban Differenze (U-NU) Media del tasso di vandalismo nel 2000 2004 62,90 66,37 46,37 57,50 16,53 8,87 Differenze (2004-2000) 3,47 11,13 7,66 Che valenza ha il risultato attuale rispetto a quello Diff&Diff? Identica, ma risultato è ora molto più accurato: possiamo valutare che δ è significativo, con Diff&Diff non era possibile, possiamo vedere i residui e il comportamento degli outliers sulle stime, per quanto con variabili dummy disponiamo tuttavia di indicatori di adattamento globale del modello, come R 2 possiamo aggiungere altri predittori 14

3 - La regressione con variabile dipendente ΔY ΔY i = Y i, 2004 - Y i,2000 (4) ΔY i = α + βt i + ε i i = 1-300 α= E(ΔY i, T i = 0 ) = E (Y i, 2004 - Y i, 2000 T i = 0) stima la dinamica spontanea per i quartieri NonUrban 15

α + β = E(ΔYi, Ti = 1 ) = E(Yi, 2004 - Yi, 2000 Ti = 1) stima la dinamica per i quartieri Urban, da cui si ricava per differenza che β = E(Y i, 2004 - Y i, 2000 T i =1)-E(Y i, 2004 - Y i, 2000 T i =0) cioè nuovamente la stima diff-diff dell effetto di Urban su Y i Statistica della regressione R multiplo 0,829898841 R al quadrato 0,688732086 R al quadrato corretto 0,687687563 Errore standard 1,92558121 Osservazioni 300 Con ΔY ANALISI VARIANZA gdl SQ MQ F Significatività F Regressione 1 2444,871 2444,871 659,3746182 1,66652E-77 Residuo 298 1104,943 3,707863 Totale 299 3549,814 Coefficienti Err.st. Stat t Significatività Inferiore 95% Superiore 95% Intercetta 11,13105632 0,121784 91,39965 5,0195E-220 10,89138983 11,37072281 T -7,66008472 0,29831-25,6783 1,66652E-77-8,247145331-7,073024109 Con Y Coefficienti Err.st. Stat t Significatività Inferiore 95% Superiore 95% Intercetta 46,371554 0,900914 51,47165 1,6836E-221 44,60220109 48,14090691 T 16,5263578 2,206781 7,488899 2,51462E-13 12,19234599 20,86036961 Periodo 11,13105632 1,274085 8,736507 2,42972E-17 8,628813434 13,63329921 T*P -7,66008472 3,120859-2,45448 0,01439371-13,789303-1,530866437 16

Al modello con la variabile dipendente espressa come differenza, possiamo aggiungere variabili di controllo per catturare eventuali differenze dovute alle diverse condizioni di partenza (immigrazione e disoccupazione nel 2000) (5) ΔYi = α + βt i + θ IMM i + λ DIS i + ε i i = 1,300 Statistica della regressione R multiplo 0,841496771 R al quadrato 0,708116815 R al quadrato corretto 0,705158539 Errore standard 1,870946965 Osservazioni 300 ANALISI VARIANZA gdl SQ MQ F Significatività F Regressione 3 2513,683 837,8943 239,3681078 8,22771E-79 Residuo 296 1036,131 3,500443 Totale 299 3549,814 Coefficienti Err.st. Stat t Significatività Inferiore 95% Superiore 95% Intercetta 8,725297202 0,70192 12,43062 7,88867E-29 7,343911255 10,10668315 T -8,09990236 0,306609-26,4177 7,70905E-80-8,703312829-7,496491891 immigr 0,027663875 0,037434 0,739002 0,460491345-0,046006829 0,10133458 disocc 0,163948219 0,037091 4,420142 1,38612E-05 0,090952411 0,236944026 Stima dell effetto di Urban = -8,10 atti di vandalismo (IMM n.s. e DIS sig.) 17

6) ΔY i,t = α + βt i + γp t + δt i *P t + ε i,t i = 1,300 P t =0 2000-1996 P t =1 2004-2000 α = crescita nei quartieri NonUrban tra il 1996 e il 2000 β = differenziale, cioè E(ΔY i,t - ΔY j,t ), nei trend di crescita tra i due gruppi di quartieri nel periodo 1996-2000 (nel primo modello è zero) γ = differenziale di crescita nei quartieri NonUrban tra il 2000 e il 2004 rispetto al quadriennio precedente δ = stima l effetto dell intervento Statistica della regressione R multiplo 0,802009768 R al quadrato 0,643219668 R al quadrato corretto 0,641423794 Errore standard 1,946220704 Osservazioni 600 ANALISI VARIANZA gdl SQ MQ F Significatività F Regressione 3 4069,948 1356,649 358,1652231 6,4589E-133 Residuo 596 2257,514 3,787775 Totale 599 6327,462 Coefficienti Err.st. Stat t Significatività Inferiore 95% Superiore 95% Intercetta 6,408254684 0,12309 52,06162 6,4883E-224 6,166512194 6,649997174 Periodo 4,722801636 0,174075 27,1308 3,5947E-106 4,380926128 5,064677144 T 1,528388516 0,301507 5,069161 5,34027E-07 0,936242766 2,120534266 P*T -9,18847324 0,426396-21,5492 1,3488E-76-10,02589379-8,351052685 (U 2004 N 2004 ) (U 2000 N 2000 ) -[(U 2000 -U 1996 ) (N 2000 -N 1996 )] Effetto = differenza post differenza pre differenza pre nei trend 9,19 8,87 (+ 16,53) [+ 1,53] 18