Il metodo della regressione



Documenti analoghi
Il metodo della regressione

LETTI PER VOI: L uso delle tecniche di matching nella valutazione di efficacia di un farmaco. Cinzia Di Novi. Università Ca Foscari di Venezia,

Esercitazione del

STATISTICHE, DISTRIBUZIONI CAMPIONARIE E INFERENZA

Il test (o i test) del Chi-quadrato ( 2 )

IL PALLINOMETRO SCOPO

Modelli di regressione dinamica

CAMPIONAMENTO - ALCUNI TERMINI CHIAVE

Re = f (A) f. 2 ),,, f (af. n )}

lezione n. 6 (a cura di Gaia Montanucci) Verosimiglianza: L = = =. Parte dipendente da β 0 e β 1

Test di ipotesi su due campioni

Test delle ipotesi. Le differenze che vengono riscontrate possono essere ovviamente ricondotte a due possibilità:

Metodi statistici per le ricerche di mercato

REGRESSIONE E CORRELAZIONE

Nel modello omoschedastico la varianza dell errore non dipende da i ed è quindi pari a σ 0.

STATISTICA A K (60 ore)

Econometria. lezione 13. validità interna ed esterna. Econometria. lezione 13. AA Paolo Brunori

Analisi della varianza

Risoluzione di problemi ingegneristici con Excel

L A B C di R. Stefano Leonardi c Dipartimento di Scienze Ambientali Università di Parma Parma, 9 febbraio 2010

Distribuzioni e inferenza statistica

Rappresentazioni grafiche di distribuzioni doppie

CORSO DI STATISTICA (parte 1) - ESERCITAZIONE 6

Campionamento La statistica media campionaria e la sua distribuzione

Il metodo differenza-nelle-differenze

Funzioni di regressione non lineari

Regressione lineare con un solo regressore

CHEMIOMETRIA. CONFRONTO CON VALORE ATTESO (test d ipotesi) CONFRONTO DI VALORI MISURATI (test d ipotesi) CONFRONTO DI RIPRODUCIBILITA (test d ipotesi)

Equazioni differenziali Corso di Laurea in Scienze Biologiche Istituzioni di Matematiche A.A Dott.ssa G. Bellomonte

SISTEMI LINEARI MATRICI E SISTEMI 1

informatica di base per le discipline umanistiche

Il campionamento statistico. prof. C.Guida

L'analisi bivariata (analisi della varianza e correlazione) Prof. Stefano Nobile. Corso di Metodologia della ricerca sociale

Capitolo 2. La teoria normativa della politica economica

Il modello di regressione lineare multipla. Il modello di regressione lineare multipla

7 Disegni sperimentali ad un solo fattore. Giulio Vidotto Raffaele Cioffi

Dispensa sulla funzione gaussiana

Esercizi sulle equazioni logaritmiche

Regressione con una variabile dipendente binaria

Statistica inferenziale. La statistica inferenziale consente di verificare le ipotesi sulla popolazione a partire dai dati osservati sul campione.

Metodi per la risoluzione di sistemi lineari

ESEMPI DI DOMANDE PER LA PROVA SCRITTA DI STATISTICA SOCIALE

Blanchard, Macroeconomia, Il Mulino 2009 Capitolo II. Un viaggio attraverso il libro. Un viaggio attraverso il libro

Stima dei parametri di un sistema di ODE

Metodi statistici per la ricerca sociale Capitolo 7. Confronto tra Due Gruppi Esercitazione

Distribuzioni di Probabilità

Risultati esperienza sul lancio di dadi Ho ottenuto ad esempio:

TECNICHE DI MISURAZIONE DEI RISCHI DI MERCATO. VALUE AT RISK VaR. Piatti --- Corso Rischi Bancari: VaR 1

Esame di FONDAMENTI DI AUTOMATICA (9 crediti) SOLUZIONE

MATEMATICA FINANZIARIA RISCHI: RAPPRESENTAZIONE E GESTIONE (CENNI)

Verifica delle ipotesi

ANALISI AFFIDABILITÀ SCALE

Elaborazione statistica di dati

MODELLO DI REGRESSIONE LINEARE. le ipotesi del modello di regressione classico, stima con i metodi dei minimi quadrati e di massima verosimiglianza,

I disegni quasi sperimentali e lo studio del soggetto singolo

Metodi statistici per la ricerca sociale Capitolo 12. Confronto fra gruppi: L analisi della varianza. Esercitazione

ESAME. 9 Gennaio 2017 COMPITO A

Prova di recupero di Probabilità e Statistica - A * 21/04/2006

Metodi statistici per l economia (Prof. Capitanio) Slide n. 10. Materiale di supporto per le lezioni. Non sostituisce il libro di testo

BLAND-ALTMAN PLOT. + X 2i 2 la differenza ( d ) tra le due misure per ognuno degli n campioni; d i. X i. = X 1i. X 2i

Elementi di Psicometria con Laboratorio di SPSS 1

Esercitazioni di Statistica

COGNOME.NOME...MATR..

RICHIAMI DI CALCOLO DELLE PROBABILITÀ

Il modello lineare e l analisi della varianza con

L indagine campionaria Lezione 5

Statistica - metodologie per le scienze economiche e sociali S. Borra, A. Di Ciaccio - McGraw Hill

0 altimenti 1 soggetto trova lavoroentro 6 mesi}

Distribuzioni campionarie. Antonello Maruotti

Transcript:

Il metodo della regressione Il matching statistico Il matching statistico si basa sull idea di abbinare a ciascun soggetto trattato un soggetto non trattato tendenzialmenre equivalente, ovvero molto simile o il più simile possibile. In questo modo si crea un gruppo di controllo in un contesto che ricrea, almeno nelle ipotesi di lavoro, la situazione sperimentale.

Esitono due ordini di problemi: come creare l abbinamento come stimare l effetto Al secondo si può rispondere subito: l effetto viene stimato analogamente a quanto accade per i confronti sperimentali. Nel caso più semplice, sarà sufficiente un differenza tra le medie della varabile d interesse calcolate nei due gruppi Prima di affrontare il secondo punto conviene ricordare che nella regressione lineare, appunto, l ipotesi di base èlineare. L effetto del trattamento e delle altre variabili esplicative si combinano linearmente per produrre il valore della variabile indipendente 2

Inoltre, se non tutte le varabili esplicative sono incluse nel modello, il residuo ε non è un errore casuale a media nulla e varianza costante, ma contiene a sua volta l effetto di altre variabili esplicative incognite, collegate alla variabile dipendente E[ε X, T ] 0 Var [ε] f(x, T ) f(y) Quindi le ipotesi di base sono Forma funzionale lineare Tutte (o quasi) le varibili esplicative sono nel modello Raramente si controlla l una e l altra, sia perché spesso non se ne ha la possibilità teorica (l insieme dei modelli alternativi è infinito) sia perché l insieme delle variabili esplicative è quasi sempre limitato, se non in occasioni di particolari indagini o rilevazioni in profondità. In quest ultimo caso si parla di errore da selezione su (sole) variabili osservabili Va anche aggiunto che la regression lineare è molto sensibile alle differenti esplicitazioni delle variabili di controllo nel modello 3

Il matching statistico esclude l assunto di linearità del combinarsi delle variabili esplicative Non esclude la necessità di minimizzare l eterogeneità residua non spiegata dal modello Tolto l effetto dell immigrazione e del trattamento (y - β t T - β IMM) β 0 + β 2 DIS, la regressione lineare è plausibile in questa situazione? 75 70 65 60 55 Vandalismo al netto 50 45 40 35 30 25 20 0 2 3 4 5 6 7 8 9 0 disoccupazione 4

E in questa? 75 70 65 60 55 Vandalismo al netto 50 45 40 35 30 25 20 0 2 3 4 5 6 7 8 9 0 disoccupazione Il matching non richiede alcuna forma funzionale, anche se ne esiste ovviamente una per calcolare la variabile che consente l appaiamento. Funziona accoppiando unità simili, e dunque non può essere utilizzato a meno di non poter calcolare una misura di somiglianza su unità trattate e non-trattate attraverso le variabili di controllo 5

il matching non richiede un assunto sulla forma della relazione tra variabile-risultato e variabili di controllo, perché si basa proprio sull abbinamento tra i valori delle variabili di controllo stesse richiede unità trattate e non-trattate con caratteristiche tendenzialmente simili, altrimenti è l impossibile abbinarle adeguatamente le unità di controllo non abbinate possono essere escluse le unità di controllo possono essere abbinate una o più volte La procedura di matching dipende da due scelte: (a) la scelta della misura di distanza tra unità (per definire quali unità sono simili tra loro: esempio distanza assoluta o distanza quadratica) (b) la scelta della tipologia di abbinamento (il criterio per scegliere quante unità abbinare e come, sulla base della distanza prescelta) 6

La misura di distanza più usata è la distanza tra propensity score (indice di propensione) Il propensity score di una unità (trattata o non-trattata) è la probabilità che un unità venga assegnata al trattamento date le sue caratteristiche prima del trattamento + e Pr[ T x] ( β 0+ β + β 2 2+ x x...) 7

Tab. Logit estimates Number of obs 300 LR chi2(2) 34.77 Prob > chi2 0.0000 Log lielihood -7.78093 Pseudo R2 0.286 --------------------- T Coef. Std. Err. z P> z [95% Conf. Interval] -------------+------- IMMIGRAZ.09376.060657.80 0.072 -.009748.2280233 DISOCCUP.3252997.062346 5.24 0.000.20358.447083 _cons -7.52625.368-5.72 0.000-0.075-4.945349 --------------------- Pr[ + e T x] -(-7,53+ 0,09IMM + 0,325DIS) 8

9 0 0, 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 0 2 4 6 8 0 2 4 6 8 20 22 24 26 28 30 32 34 36 tasso di disoccupazione propensity score 0 0, 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 0 2 4 6 8 0 2 4 6 8 20 22 24 26 28 30 32 34 36 tasso di immigrazione propensity score

Quartiere Tasso di Tasso di Propensity Trattamento disoccupazione immigrazione score 270 6,2 7,7 Urban 0,953 5 6,4 8,2 NonUrban 0,248 295 7,7 6,2 Urban 0,0372 3 8,2 6,4 NonUrban 0,0444 258 8,9 3,3 Urban 0,0399 200 9,5 3,3 NonUrban 0,048 277 9, 5,2 Urban 0,058 34 9,6 4,9 NonUrban 0,0586 28 7, 5,9 Urban 0,2867 66 5 8 NonUrban 0,98 286 2,8 4,7 Urban 0,470 28 2,3 5 NonUrban 0,35 Esistono diverse procedure per eseguire l abbinamento, cioè per scegliere quante unità abbinare, e come, sempre sulla base del propensity score 0

Nearest neighbor matching ( Abbinamento sull unità più vicina ) Rappresenta il metodo più semplice e intuitivo di condurre l abbinamento, in quanto consiste semplicemente nell abbinare ad ogni unità trattata quella particolare unità non-trattata che ha il propensity score più vicino N numero dei trattati M numero dei non trattati Δy N i y T ( y y T, i N T* y NT, i ) Controfattuale

Tab. 3 Nearest neighbor matching n. treat. n. contr. ATT Std. Err. t 50 30-7.753 2.55-3.597 Radius matching Abbinamento entro un raggio ad ogni unità trattata sono abbinate tutte le unità di controllo il cui propensity score ha una distanza minore o uguale a un certo raggio δ, solitamente molto piccolo, ad esempio δ 0,0. 2

N numero dei trattati con almeno un abbinamento Δy N ' i y' T ( y T, i y' N' T* y NT, i ) Controfattuale Tab. 4 Radius matching (δ0,0) n. treat. n. contr. ATT Std. Err. t 20 24-8.52 5.474 -.555 δ è il raggio: se piccolo, considera (poche) unità molto simili, se grande, considera molte unità (poco) vicine In ogni caso ora è possibile avere abbinamenti nulli 3

Stratification matching Abbinamento con stratificazione Questo metodo consiste nel suddividere il campo di variazione del propensity score in intervalli (o strati), ad esempio cinque classi, ad esempio ottenute sulla base dei quintili o altro Inferior of bloc T of pscore 0 Total -----------+----------------------+---------- 0 4 5. 58 2 60.5 9 9 28.2 38 36 75.4 6 7.6 5 5 -----------+----------------------+---------- Total 250 50 300 4

5 N N W W y y y y M y N K M i N i NT T i NT i T /,,,, Δ Δ Δ Controfattuale strato Tab. 5 Stratification matching n. treat. n. contr. ATT Std. Err. t 50 250-5.330.776-3.002

Kernel matching Abbinamento con la funzione ernel ad ogni unità trattata sono abbinate tutte le unità non-trattate, pesate però in modo inversamente proporzionale alla distanza del loro propensity score da quello dell unità trattata. Δy N ( y T, i M i j N w y i, j ) NT, j 6

7 M j j i j i ij h p p h p p w Per ogni unità trattata i, avremo j pesi Uno per per ogni j-esimo elemento di M Dove h è un fattore di scala e K un fattore di forma 2 2 ) ( u e u Si usa solitamente un ernel gaussiano

Tab. 6 Kernel matching n. treat. n. contr. ATT Std. Err. t 50 250-4.90 2.225-2.207 8