Regressione con una variabile dipendente binaria

Transcript

1 Regressione con una variabile dipendente binaria Fino ad ora abbiamo considerato solo variabili dipendenti countinue: Che succede se Y è binaria? Y = va al college, o no; X = anni di istruzione Y = fumatore, o no; X = reddito Y = richiesta di mutuo accettata, o no; X = reddito, caratteristiche della casa, stato civile, etnia 1

2 Es: etnia e richiesta di mutuo The Boston Fed HMDA data set Richieste individuali per mutui fatte nel 1990 nella zona di Boston 2380 observationi Variabili Variabile dipendente: Il mutuo è accettato o rifiutato? Variabili indipendente: reddito, ricchezza, occupazione altri prestiti, caratteristiche di povertà etnia 2

3 Il modello lineare di probabilità Un punto di partenza naturale è una regressione lineare con un singolo regressore: ma: Y i = β 0 + β 1 X i + u i Che significato ha β 1 quando Y è binaria? β 1 = Che senso ha β 0 + β 1 X quando Y è binaria? Che significato ha Y ˆ? Per es., Y ˆ = 0.26? Y X? 3

4 Modello lineare Y i = β 0 + β 1 X i + u i Ass #1: E(u i X i ) = 0, dunque E(Y i X i ) = E(β 0 + β 1 X i + u i X i ) = β 0 + β 1 X i quando Y è binaria, E(Y) = 1 Pr(Y=1) + 0 Pr(Y=0) = Pr(Y=1) dunque E(Y X) = Pr(Y=1 X) 4

5 Quando Y è binaria, il modello di regressione lineare Y i = β 0 + β 1 X i + u i È chiamato modello di probabilità lineare Il valore previsto è una probabilità: E(Y X=x) = Pr(Y=1 X=x) = prob. che Y = 1 dato x ˆ Y = la probabilita prevista che Yi = 1, dato X β 1 = cambiamento nella probabilità che Y = 1 per una dato x: β 1 = Pr( Y = 1 X = x + x ) Pr( Y = 1 X = x ) x 5

6 Es: HMDA data Domande di mutuo non accolte e rapporto fra pagamenti di debiti e reddito (P/I ratio) nei dati HMDA 6

7 Rˆifiuto = PI (n = 2380) (.032) (.098) Qual è il valore previsto quando PI = 0.3? P ( Rifiuto ˆ = 1 PI = 0.3) = =.151 Calcoliamo gli effetti di un incremento di PI da.3 a.4: P ( Rifiuto ˆ = 1 PI = 0.4) = =.212 L effetto sulla probabilità di rifiuto di un cambiamento di PI da 0.3 a 0.4 è pari ad un incremento della probabilità di 0.061, cioè, di 6.1% 7

8 Includiamo un altro regressore, black : Rˆifiuto = PI +.177black (.032) (.098) (.025) Probabilità prevista di rifiuto: Per i richiedenti neri con PI = 0.3: P ( Rifiuto ˆ = 1) = =.254 Per i bianchi con PI = 0.3: P ( Rifiuto ˆ = 1) = =.077 La differenza =.177 = 17.7 % Il coefficient di black è significativo al 5% Tuttavia ci possono essere ancora delle variabili omesse 8

9 Sommario Modelliamo Pr(Y=1 X) come funzione lineare di X Vantaggi: Semplice da stimare e interpretare Inferenza è la stessa di una regressione multipla Svantaggi: Ha senso imporre che la probabilità è lineare in X? Le probabilità previste possono essere <0 o >1! Questi svantaggi possono essere risolti usando un un modello di probabilità non lineare: probit o logit 9

10 Regressioni Probit e Logit Quando il modello di probabilità di Y=1 è lineare abbiamo: Pr(Y = 1 X) = β 0 + β 1 X D altro canto vorremmo che: 1. 0 Pr(Y = 1 X) 1 per tutte le X 2. Pr(Y = 1 X) deve crescere con X (se β 1 >0) Questo richiede una forma funzionale nonlineare per la probabilità. Come una curva a S 10

11 Un probit soddisfa le 2 condizioni dette sopra 11

12 Regressione Probit: modella la probabilità che Y=1 usando la funzione cumulata di una normale standardizzata quando z = β 0 + β 1 X: Pr(Y = 1 X) = Φ(β 0 + β 1 X) Φ è la funzione cumulata di una normale standardizzata. z = β 0 + β 1 X è il z-value o z-index del modello probit Es: Supponiamo: β 0 = -2, β 1 = 3, X =.4, dunque Pr(Y = 1 X=.4) = Φ( ) = Φ(-0.8) Pr(Y = 1 X=.4) = area sotto la funzione di densità normale a sinistra di z = -.8, graficamente 12

13 Pr(Z -0.8) =

14 Perchè utilizzare la funzione cumulate normale? La forma a S soddisfa le 2 proprietà: 1. 0 Pr(Y = 1 X) 1 per tutti X 2. Pr(Y = 1 X) cresce con X (per β 1 >0) Facile da usare utilizzando le tavole statistiche L interpretazione è abbastanza intuitiva: z-value = β 0 + β 1 X ˆ β 0 + ˆ β 1 X è lo z-value predetto, date le X β 1 misura il cambiamento dello z-value per un cambiamento di una unità in X 14

15 Es. probit deny p_irat, r; Iteration 0: log likelihood = Iteration 1: log likelihood = Iteration 2: log likelihood = Iteration 3: log likelihood = We ll discuss this later Probit estimates Number of obs = 2380 Wald chi2(1) = Prob > chi2 = Log likelihood = Pseudo R2 = Robust deny Coef. Std. Err. z P> z [95% Conf. Interval] p_irat _cons ( Rifiuto 1 PI ) ˆ = = Φ( PI) P (.16) (.47) 15

16 ( Rifiuto 1 PI ) ˆ = = Φ( PI) P (.16) (.47) Coefficiente positivo: ha senso? Standard errors ha la solita interpretazione Probabilità prevista: ( Rifiuto ˆ = 1 PI = 0.3) P = Φ( ) = Φ(-1.30) =.097 Effetto del cambamento in PI da 0.3 a 0.4: ( Rifiuto ˆ = 1 PI = 0.4) P = Φ( ) =.159 Probabilità prevista di rifiuto cresce da a

17 Regressione multipla Probit Pr(Y = 1 X 1, X 2 ) = Φ(β 0 + β 1 X 1 + β 2 X 2 ) Φ come prima. z = β 0 + β 1 X 1 + β 2 X 2 come prima β 1 è l effetto su z-valore di un cambiamento di una unità in X 1, tenendo constante X 2 17

18 . probit deny p_irat black, r; Iteration 0: log likelihood = Iteration 1: log likelihood = Iteration 2: log likelihood = Iteration 3: log likelihood = Probit estimates Number of obs = 2380 Wald chi2(2) = Prob > chi2 = Log likelihood = Pseudo R2 = Robust deny Coef. Std. Err. z P> z [95% Conf. Interval] p_irat black _cons

19 ( Rifiuto ˆ = 1 PI black ) P, = Φ( PI +.71 black) (.16) (.44) (.08) il coefficiente della variabile black è statisticamente significativo? effetto stimato di black per PI =.3: P ( Rifiuto ˆ = 1 0.3,1) = Φ( ) =.233 P ( Rifiuto ˆ = 1 0.3,0) = Φ( ) =.075 differenza della probabilità di rifiuto =.158 (15.8%) nota che il problema di eventuali variabili omesse non è stato ancora risolto 19

20 Logit Regression Regressione Logit modella la probabilità di che Y=1 come una funzione distribuzione cumulata logistica, valutata a z = β 0 + β 1 X: Pr(Y = 1 X) = F(β 0 + β 1 X) F è una funzione distribuzione cumulata logistica: F(β 0 + β 1 X) = 1+ 1 ( 0 1X ) e β + β 20

21 Pr(Y = 1 X) = F(β 0 + β 1 X) dove F(β 0 + β 1 X) = 1+ 1 ( 0 1X ) e β + β. Es: β 0 = -3, β 1 = 2, X =.4, di conseguenza β 0 + β 1 X = = -2.2 dunque Pr(Y = 1 X=.4) = 1/(1+e ( 2.2) ) =.0998 perchè usare un logit al posto del probit? I calcoli sono più semplici In pratica, logit e probit sono molto simili 21

22 Es. logit deny p_irat black, r; Iteration 0: log likelihood = Later Iteration 1: log likelihood = Iteration 2: log likelihood = Iteration 3: log likelihood = Iteration 4: log likelihood = Logit estimates Number of obs = 2380 Wald chi2(2) = Prob > chi2 = Log likelihood = Pseudo R2 = Robust deny Coef. Std. Err. z P> z [95% Conf. Interval] p_irat black _cons dis "Pred prob, p_irat=.3, white: " > 1/(1+exp(-(_b[_cons]+_b[p_irat]*.3+_b[black]*0))); Pred prob, p_irat=.3, white: NOTE: the probit predicted probability is

23 23

24 Es: Studiamo le caratteristiche di Background dei militanti Hezbollah Fonte: Alan Krueger and Jitka Maleckova, Education, Poverty and Terrorism: Is There a Causal Connection? Journal of Economic Perspectives, 2003, Logit: 1 = individuo morto in un azione militare Hezbollah 24

25 25

26 26

27 Calcoliamo l effetto dell istruzione paragonando le probabilità previste usando i risultati della colonna (3): Pr(Y=1 secondary = 1, poverty = 0, age = 20) Pr(Y=0 secondary = 0, poverty = 0, age = 20): Pr(Y=1 secondary = 1, poverty = 0, age = 20) = 1/[1+e ( ) ] = 1/[1 + e ] = Pr(Y=1 secondary = 0, poverty = 0, age = 20) = 1/[1+e ( ) ] = 1/[1 + e ] =

28 Cambiamento in prob previsto Pr(Y=1 secondary = 1, poverty = 0, age = 20) Pr(Y=1 secondary = 1, poverty = 0, age = 20) = = le conclusioni che seguono sono tutte corrette: la probabilità di essere un militante Hezbollah cresce del %, se la scuola secondaria è stata frequentata. 28

29 Stima e inferenza nei modelli probit e logit modello Probit Pr(Y = 1 X) = Φ(β 0 + β 1 X) stima e inferenza come si stimano β 0 e β 1? qual è la distribuzione campionaria di questi stimatori? perchè usiamo i soliti metodi per fare inferenza? prima di tutto guardiamo al metodo dei minimi quadrati non lineari poi consideriamo il metodo più usato in pratica, quello della funzione di massimoverosimiglianza (maximum 29

30 Nonlinear Least Squares (NLS) OLS: n min [ Y ( b + b X )] b0, b1 i 0 1 i i= 1 il risultato sono gli stimatori OLS ˆ β 0 e ˆ β 1 NLS di un probit: n min [ Y Φ ( b + b X )] b0, b1 i 0 1 i i= 1 Come risolviamo questo problema di minimizzazione? numericamente usando algoritmi specifici In pratica non viene usato perchè non efficiente

31 Stime di massimoverosimiglianza di Probit La funzione di massimoverosimiglianza è la funzione di densità di Y 1,,Y n date X 1,,X n, trattata come una funzione di parametri sconosciuti β 0 e β 1. Lo stimatore di massimoverosimiglianza (maximum likelihood estimator, MLE) è il valore di (β 0, β 1 ) che massimizza la funzione di massimoverosimiglianza. MLE è quel valore di (β 0, β 1 ) che meglio descrive l intera distribuzione dei dati. In grandi campioni, MLE è: consistente normalmente distribuito efficiente 31

32 La massimoverosimiglianza di un probit con una X Si calcola partendo dalla densità di Y 1, prima osservazione, dato X 1 : Pr(Y 1 = 1 X 1 ) = Φ(β 0 + β 1 X 1 ) Pr(Y 1 = 0 X 1 ) = 1 Φ(β 0 + β 1 X 1 ) dato che le y sono i.i.d., la distribuzione di probabilità condizionata per la osservazione y 1 sarà y1 1 Pr(Y 1 = y 1 X 1 ) = 1 y Φ ( β0 + β1x1) [1 Φ ( β0 + β1x1)] La funzione di massimoverosimiglianza probit è una densità congiunta di Y 1,,Y n date X 1,,X n, trattate come una funzione di β 0, β 1 : f(β 0,β 1 ; Y 1,,Y n X 1,,X n ) Y1 1 Y1 = { Φ ( β0 + β1x1) [1 Φ ( β0 + β1x1)] } Yn 1 Yn { Φ ( β + β X ) [1 Φ ( β + β X )] } 0 1 n 0 1 n 32

33 f(β 0,β 1 ; Y 1,,Y n X 1,,X n ) Y1 1 = { 1 Y Φ ( β0 + β1x1) [1 Φ ( β0 + β1x1)] } Yn 1 Yn { Φ ( β0 + β1x n ) [1 Φ ( β0 + β1x n )] } Non si può risolvere esplicitamente per il massimo Bisogna massimizzare usando metodi numerici In grandi campioni: ˆ β MLE 0, ˆ β MLE 1 sono consistenti ˆ β MLE 0, ˆ β MLE 1 sono normalmente distribuiti ˆ β MLE 0, ˆ β MLE 1 sono asintoticamente efficienti S.E. ˆ β MLE 0, ˆ β MLE 1 sono calcolati automaticamente Test e intervalli di confidenza come al solito 33

34 La funzione ML per un logit la sola differenza fra probit e logit è la forma funzionale usata per la probabilità: al posto di Φ si utilizza una funzione cumulata logisitca. come per il probit, ˆ β MLE 0, ˆ β MLE 1 sono consistenti ˆ MLE 0 ˆ MLE β, β 1 sono normalmente distribuiti gli SE possono essere calcolati test e intervalli di confidenza come al solito 34

35 Misure di bontà della regressioneper logit e probit R 2 2 e R non hanno senso in questo contesto, dunque si usano: 1. La frazione correttamente prevista. Dato che se Y i =1 e la probabilità predetta è >50% o se se Y i =0 e e la probabilità predetta è <50% allora Y i è predetto correttamente. La fpc è la frazione delle n osservazioni che sono predette correttamente 2. Lo pseudo-r 2 che utilizza la funzione di massimoverosimiglianza: misura di quanto migliora il valore del log della massimoverosimiglianza, rispetto al caso in cui non ci sono X 35

36 Esempio Dati MDA Mutui per la casa sono una parte essenziale dell acquisto di una casa. c è differenza fra le etnie? c è differenza nella probabilità di rifiuto? 36

37 The HMDA Data Set in lab Dati sulle caratteristiche individuali, caratteristiche della proprietà richesta di mutuo : la banca decide cercando di tenere basso il più possibile il rischio 37

38 La decisione della banca variabili finanziarie chiave: P/I housing expense-to-income ratio loan-to-value ratio personal credit history la regola per prendere la decisione è non lineare: loan-to-value ratio > 80% loan-to-value ratio > 95% credit score 38

39 Regressione Pr(Rifiuto=1 black, altre X) = modello di probabilità lineare probit probabile bias da variabili omesse che (i) potrebbero essere incluse nella funzione di decisione della banca (ii) potrebbero essere correlate con la variabile dell etnia: ricchezza, tipo di occupazione storia del credito stato di famiglia 39

40 40

41 41

42 42

43 Table 11.2, ctd. 43

44 Table 11.2, ctd. 44

45 Sommario I coefficienti sulle variabili finanziarie hanno senso. Black è sempre statisticamente significativo le interazioni non sono significative. includere altre variabili riduce l effetto dell etnia sulla probabilità di rifiuto. Modello di probabilità lineare, probit, logit: stime simili sull effetto dell etnia. 45

46 Minacce alla validità interna ed esterna validità interna 1. bias dovuto a variabili omesse 2. forma funzionale errata (no) 3. errore di misurazione (no) 4. selezione del campione 5. simultaneous causality (no) validità esterna tutto ciò è valido per Boston nel , possiamo assumere che sia ancora valido oggi? 46

47 Sommario Se Y i è binaria, allora E(Y X) = Pr(Y=1 X) Tre modelli: Modello Lineare di Probabilità probit logit LPM, probit, logit forniscono valori di probabilità previste L effetto di X è il cambiamento nella probabilità condizionata che Y=1. Probit e logit sono stimeti con ML I coefficienti sono normalmente distribuiti per grandi n Test di ipotesi, intervalli di confidenza come sempre 47