Binary Choice Models

Transcript

1 Binary Choice Models Norberto Pignatti, Roberto Golinelli, GENNAIO Introduzione Nelle lezioni precedenti avete già visto utilizzare variabili dummy (esempio: variabile male = 1 se uomo, 0 se donna) come variabili esplicative all interno di un modello. In alcuni casi possiamo volere (o dovere) stimare modelli nei quali la variabile da spiegare (variabile dipendente) può essere essa stessa una variabile dummy che assume due o più valori. Nella nostra lezione noi esamineremo esclusivamente il caso in cui la variabile dummy assuma due valori, 0 ed 1 (variabile dicotomica). Vi sono molti casi nei quali una variabile dicotomica può essere scelta come variabile dipendente. Alcuni possibili esempi: - y=1 se un individuo è occupato; y=0 se non lo è; - y=1 se un individuo ottiene un prestito; y=0 se non lo ottiene; - y=1 se un individuo ha deciso di votare; y=0 se l individuo ha deciso di non votare; - y=1 se un individuo ha contratto una malattia; y=0 se l individuo non l ha contratta. E così via. Nell esempio che considereremo in questa lezione, utilizzeremo i dati disponibili in STATA su un campione di automobili in circolazione negli Stati Uniti nel 1978 per identificare le caratteristiche che differenziano le automobili straniere da quelle americane. obs: Automobile Data vars: Apr :45 size: 3,478 (99.9% of memory free) (_dta has notes) - storage display value variable name type format label variable label - make str18 %-18s Make and Model price int %8.0gc Price mpg int %8.0g Mileage (mpg) rep78 int %8.0g Repair Record 1978 headroom float %6.1f Headroom (in.) trunk int %8.0g Trunk space (cu. ft.) weight int %8.0gc Weight (lbs.) length int %8.0g Length (in.) turn int %8.0g Turn Circle (ft.) displacement int %8.0g Displacement (cu. in.) gear_ratio float %6.2f Gear Ratio foreign byte %8.0g origin Car type - Sorted by: foreign Per comodità presenteremo i modelli utilizzati partendo con una regressione bivariata. Dopo avere esaminato diversi aspetti di questo tipo di analisi, nella terza parte proseguiremo l esempio nel caso di analisi multivariata. In conclusione (opzionale) accenneremo ai test di specificazione applicabili a questo tipo di modelli. 1

2 2 Analisi bivariata 2.1 Analisi bivariata: il modello lineare nelle probabilità La procedura più semplice da utilizzare è quella di applicare il metodo dei minimi quadrati ordinari. Il modello che otteniamo in questo caso è formalmente identico a quelli precedentemente visti. y i =α+βx i +ε i da cui il valore atteso della nostra variabile E(y i α,x i )= ˆ α + βx ˆ i Nel nostro esempio, utilizziamo come variabile dipendente la variabile foreign (foreign=1 se la macchina è straniere, foreign=0 se la macchina è americana) e come variabile indipendente gear_ratio (il rapporto di cambio che caratterizza la macchina più è elevato, maggiore accelerazione ha questa). Noi ipotizziamo che, conoscendone il gear_ratio, sia possibile stabilire se una data automobile sia americana o straniera. β riflette l impatto di variazioni nel gear ratio sulla probabilità che un automobile sia straniera. reg foreign gear_ratio Source SS df MS Number of obs = F( 1, 72) = Model Prob > F = Residual R-squared = Adj R-squared = Total Root MSE = foreign Coef. Std. Err. t P> t [95% Conf. Interval] gear_ratio _cons Sulla base di questa regressione è possibile calcolare e salvare (vedi lezioni precedenti) sia i valori stimati (fitted) che i residui.. predict basic_o (option xb assumed; fitted values). predict res_o1, resid. label var basic_p "Pr(Foreign) Linear probability model1" In questo caso, il valore atteso di y i deve essere interpretato come la probabilità che l automobile i-esima sia straniera dato il valore del suo gear_ratio In generale, i coefficienti del modello lineare nelle probabilità possono essere interpretati come la misura dell effetto marginale della variazione della variabile indipendente sulla probabilità che ci troviamo davanti ad un automobile straniera. Nel nostro caso l effetto sulle probabilità è pari a 0.71 volte la variazione nel gear ratio. Nonostante la sua semplicità il modello lineare nelle probabilità è caratterizzato da diversi problemi che ne scoraggiano l utilizzo in favore di altri modelli che vedremo in seguito. Analizziamo innanzitutto analizzando la struttura degli errori in questo modello. 2

3 Per costruzione (anche ipotizzando di conoscere i valori di α e di β della popolazione) poiché y i può assumere solo valori 1 o 0 gli errori [ε i =y i (α+βx i )] possono assumere solo due valori per ciascuna osservazione, ovvero 1-(α+βx i ) o -(α+βx i ). Essendo la probabilità che y i =1 e y i =0 rispettivamente: Prob(y i =1 α,x i ) = α+βx i ; Prob(y i =0 α,x i ) = 1-(α+βx i) Avremo che: Quindi in questo caso: Valori assunti dalla y i ε i Probabilità 1 1-(α+βx i ) α+βx i 0 -(α+βx i ) 1-(α+βx i ) 1) gli errori non possono essere distribuiti normalmente; 2) la varianza egli ε non può essere costante (abbiamo eteroschedasticità). Infatti, per costruzione, gli errori ε i saranno caratterizzati da eteroschedasticità, in una misura che dipende da α, β e da x. var(ε i )= (α+βx i )(1-(α+βx i )) 2 +(1-(α+βx i ))(-(α+ βx i )) 2 =(α+βx i )(1-(α+βx i ))=E(y i )[1-E(y i )] In questo caso le stime ottenute tramite OLS non saranno efficienti. Il problema più serio però è che, anche tenendo conto dell eteroschedasticità e stimando il nostro modello iniziale con il metodo dei minimi quadrati generalizzati fattibili (FGLS), la nostra probabilità predetta resta sempre funzione lineare della variabile indipendente (delle variabili indipendenti, nei casi di regressione multivariata). Questo può far si che la stima di probabilità esca dall intervallo ammissibile [0, 1]. Ciò accade anche nel caso che stiamo analizzando, come si può verificare riportando in un grafico i valori stimati ed i valori effettivi della variabile foreign, in funzione del gear_ratio. 3

4 twoway (scatter basic_o gear_ratio, mcolor(green)) (scatter foreign gear_ratio, mcolor(blue)), yline(0) yline(1) title(linear Probability Model) Linear Probability Model Gear Ratio Pr(Foreign) - Linear probability model1 Car type In questo caso, per le automobili con un gear ratio inferiore a 2.5 il valore previsto è inferiore a zero. In altri esempi potremmo trovare valori previsti superiori ad 1 o potremmo avere contemporaneamente valori inferiori a zero e maggiori di 1. Greene (Econometric Analysis, 5th edition, pag. 666) ci dice che il tentativo di vincolare le probabilità stimate all intervallo 0-1 mantenendo questo metodo di stima può generare ulteriori problemi (probabilità prive di senso e varianze negative) Ciò di cui abbiamo bisogno allora è un qualche modello che produca predizioni consistenti con la teoria delle probabilità, ovvero valori compresi tra 0 ed 1. In pratica, questo è possibile individuando una funzione che riesca ad esprimere valori di probabilità nell intervallo [0, 1], come funzione del vettore delle caratteristiche Analisi bivariata: modelli logit e probit I modelli probit e logit soddisfano questo requisito, utilizzando rispettivamente la funzione di distribuzione normale standard e la funzione di distribuzione logistica standard. Per entrambi i tipi di modello è vero che: lim α + ˆx β + lim α + ˆx β i i Prob Prob ( yi = 1 α, x i ) ( y = 1 α, x ) i i = 1 = 0 Per assicurare questa proprietà, la formula che ci dà le probabilità non è più: Prob(y i =1 α,x i ) = α+βx i ; Prob(y i =0 x i ) = 1-(α+βx i ) ma diventa invece 4

5 Prob(y i =1 α,x i ) = F[ α + βx i ]; Prob(y i =1 α,x i ) = 1- F[ α + βx i ] dove F è una funzione di distribuzione di ε (che ci dà valori compresi tra 0 ed 1). La forma della funzione F dipende dalle assunzioni fatte sulla distribuzione del termine d errore. I modelli probit e logit differiscono proprio per le ipotesi sulla distribuzione del termine d errore ε i, che nel caso del probit è una distribuzione normale standardizzata (con media 0 e varianza 1) e nel caso del logit è una 2 distribuzione logistica standard (con media 0 e varianza π / 3 ). Essendo le distribuzioni logistica e normale cumulate molto simili tra di loro (eccetto in corrispondenza delle code), solitamente non ci si attende di ottenere risultati molto diversi. Questo a meno che il nostro campione non sia di dimensioni molto elevate (in modo tale da avere abbastanza osservazioni che ricadono nelle code). In ogni caso comunque le stime dei parametri ottenute utilizzando i due metodi non sono direttamente 2 comparabili. Avendo la distribuzione logistica una varianza pari a π / 3 le stime di βˆ i ottenute col modello logit, per poter essere comparate con quelle ottenute col modello probit, devono essere moltiplicate per 3 / π. Per probit e logit, differentemente da quanto accadeva nel modello lineare, le probabilità non sono più funzioni lineari delle caratteristiche, ma sono invece il risultato di una loro trasformazione non lineare. Mentre nel modello lineare la stima viene effettuata utilizzando il metodo dei minimi quadrati, il metodo utilizzato per stimare i modelli logit e probit è quello della massima verosimiglianza. L equazione di verosimiglianza in questo caso può essere scritta come; L = F α + βx 1 F α + βx [ i ] { [ i ]} yi = 1 y i = 0 Essendo le equazioni di verosimiglianza non lineari, richiederanno una soluzione di tipo iterativo (come potrete osservare nell output di Stata).. Iniziamo con lo stimare il modello probit. Successivamente stimeremo il corrispondente modello logit probit foreign gear_ratio Iteration 0: log likelihood = Iteration 1: log likelihood = Iteration 2: log likelihood = Iteration 3: log likelihood = Iteration 4: log likelihood = Iteration 5: log likelihood = Probit regression Number of obs = 74 LR chi2(1) = Prob > chi2 = Log likelihood = Pseudo R2 = foreign Coef. Std. Err. z P> z [95% Conf. Interval] gear_ratio _cons Salviamo nuovamente le probabilità stimate. predict basic_p (option p assumed; Pr(foreign)) Generiamo (e salviamo) la differenza tra le probabilità predette ed i valori reali di foreign. 5

6 . gen res_p1=foreign-basic_p Attribuiamo un etichetta alla variabile basic_p che apparirà nel grafico.. label var basic_p "Pr(Foreign) Probit1" Ora possiamo vedere la rappresentazione grafica delle probabilità predette dal probit (cerchi verdi) e confrontarla con le predizioni del modello lineare nelle probabilità (linea verde). I cerchi vuoti dal bordo nero rappresentano i veri valori della variabile foreign. twoway (scatter basic_p gear_ratio, mcolor(green)) (scatter foreign gear_ratio, mcolor(black) msymbol(circle_hollow)) (lfit foreign gear_ratio), yline(0) yline(1) title(probit) Probit Gear Ratio Pr(Foreign) Probit1 Fitted values Car type Si può osservare come le probabilità predette dal probit siano effettivamente ricomprese tra 0 ed 1 e mostrino un andamento di tipo sinusoidale molto più armonioso di quello del modello lineare. In questo caso purtroppo il coefficiente della nostra regressione non é facilmente interpretabile, in quanto non esprime una relazione di tipo lineare tra le variabili esplicative e la variabile dipendente. Per questo motivo, nella sezione successiva vedremo come calcolare gli effetti marginali, che potremo poi comparare con il coefficiente ottenuto con il modello lineare. Ecco i risultati del modello logit logit foreign gear_ratio Iteration 0: log likelihood = Iteration 1: log likelihood = Iteration 2: log likelihood = Iteration 3: log likelihood = Iteration 4: log likelihood = Iteration 5: log likelihood = Logistic regression Number of obs = 74 LR chi2(1) = Prob > chi2 = Log likelihood = Pseudo R2 = foreign Coef. Std. Err. z P> z [95% Conf. Interval] 6

7 gear_ratio _cons Anche in questo caso salviamo sia le predizioni del modello che gli scostamenti dai valori reali assunti dalla variabile foreign.. predict basic_l (option p assumed; Pr(foreign)). gen res_l1=foreign-basic_l E attribuiamo un etichetta alla variabile basic_l. label var basic_l "Pr(Foreign) Logit1" Ecco il grafico generato dal modello logit. Logit Gear Ratio Pr(Foreign) Logit1 Fitted values Car type Un interessante proprietà condivisa dal modello lineare e dal modello logit è che la media delle probabilità predette con i due metodi è pari alla proporzione di y=1 nel campione. Questo risultato non è stato verificato per il modello probit. Nel nostro caso:. sum foreign basic_o basic_l basic_p Variable Obs Mean Std. Dev. Min Max foreign basic_o basic_l basic_p Anche nel caso del logit però, come per il probit, l interpretazione dei coefficienti del modello non è immediata

8 2.3. Analisi bivariata: interpretazione dei risultati dei tre modelli Mettiamo ora a confronto i risultati ottenuti utilizzando i tre modelli. (1) (2) (3) (3b) Linear probit logit logit* 3 / π Gear Ratio (8.48)** (4.85)** (4.47)** Constant (7.22)** (4.97)** (4.58)** Observations Absolute value of t statistics in parentheses * significant at 5%; ** significant at 1% Coefficienti ed effetti marginali Quando osserviamo i coefficienti stimati dai tre modelli ci troviamo di fronte a risultati apparentemente molto diversi, nonostante il segno ed il livello di significatività siano identici. Come avevamo annunciato in precedenza, vi sono diversi motivi per queste differenze. I coefficienti per probit e logit differiscono necessariamente tra loro a causa delle diverse caratteristiche delle funzioni di distribuzione sottostanti. In effetti, se guardiamo la colonna 3b, dove abbiamo riportato il coefficiente logit corretto per tenere conto delle differenze tra le due distribuzioni, i valori sono molto più simili tra loro. I coefficienti probit e logit però, differiscono notevolmente dal coefficiente ottenuto tramite il modello lineare nelle probabilità. Questo accade in conseguenza del fatto che, mentre per il modello lineare il coefficiente β associato a gear ratio rappresenta l effetto marginale di una variazione gear ratio sulla probabilità che l automobile studiata sia straniera (e resta costante indipendentemente dal variare di x), questo non è vero per i coefficienti dei modelli probit e logit. Tornando alla formulazione più generale delle nostre probabilità vediamo infatti che, se definiamo Prob(y i =1 α,x i ) = F[ α + βx i ] la variazione nel valore atteso di y i al variare di x i sarà: E[ yi α, βxi ] = F' [ α + βxi ] β = f ( α + βxi )β xi E ovvio che in questo caso non abbiamo un unico valore per l effetto marginale della nostra variabile esplicativa sulla variabile dipendente, quanto piuttosto una serie di possibili valori. Questa conclusione in realtà era raggiungibile semplicemente osservando il diverso comportamento delle probabilità per modello lineare e logit/probit. Infatti, mentre l inclinazione della retta di regressione è costante, l inclinazione delle funzioni fitted nei modelli probit e logit è diversa a seconda del punto nel quale le osserviamo. Di default Stata calcola gli effetti marginali delle variabili esplicative sulla variabile dipendente in corrispondenza dei loro valori medi. E possibile, se si desidera, specificare il punto in cui calcolare gli effetti marginali. Ecco gli effetti marginali calcolati per il modello probit e logit, utilizzando il comando mfx. Notate che è necessario stimare prima il modello per potere richiedere il calcolo degli effetti marginali. Nel caso del modello probit sarebbe possibile calcolarli direttamente attraverso il comando dprobit. Per uniformità comunque stimeremo gli effetti marginali sempre utilizzando il comando mfx probit foreign gear_ratio Iteration 0: log likelihood = Iteration 1: log likelihood = Iteration 2: log likelihood = Iteration 3: log likelihood = Iteration 4: log likelihood = Iteration 5: log likelihood =

9 Probit regression Number of obs = 74 LR chi2(1) = Prob > chi2 = Log likelihood = Pseudo R2 = foreign Coef. Std. Err. z P> z [95% Conf. Interval] gear_ratio _cons mfx Marginal effects after probit y = Pr(foreign) (predict) = variable dy/dx Std. Err. z P> z [ 95% C.I. ] X gear_r~o logit foreign gear_ratio Iteration 0: log likelihood = Iteration 1: log likelihood = Iteration 2: log likelihood = Iteration 3: log likelihood = Iteration 4: log likelihood = Iteration 5: log likelihood = Logistic regression Number of obs = 74 LR chi2(1) = Prob > chi2 = Log likelihood = Pseudo R2 = foreign Coef. Std. Err. z P> z [95% Conf. Interval] gear_ratio _cons mfx Marginal effects after logit y = Pr(foreign) (predict) = variable dy/dx Std. Err. z P> z [ 95% C.I. ] X gear_r~o Ecco una sintesi dei risultati ottenuti: (1) (2) (3) Linear probit logit Gear Ratio Ora possiamo vedere come, in realtà, gli effetti marginali stimati dai modelli probit e logit in corrispondenza del valore medio di gear_ratio non differiscano eccessivamente da quello ottenuto con il modello lineare nelle probabilità o tra di loro. Un incremento infinitesimo del gear ratio tende a tradursi in un incremento 9

10 della probabilità che l automobile osservata sia straniera pari a , a seconda del modello che utilizziamo. Ovviamente dobbiamo ricordare che, mentre per il modello lineare l effetto marginale non cambia, i valori ottenuti per i modelli probit e logit valgono esclusivamente in corrispondenza del valore medio della variabile gear ratio. Per verificarlo è sufficiente calcolare nuovamente gli effetti marginali, questa volta scegliendo un valore diverso di gear ratio rispetto al valore medio. Scegliamo, ad esempio, di calcolare gli effetti marginali in corrispondenza di un gear ratio pari al valore 2.5. Per comodità eviterò di riportare nuovamente il logit ed il probit. Ricordate comunque che mfx può essere utilizzato solo dopo i comandi logit e probit (e non autonomamente). L opzione at() consente di fissare il valore della variabile ad un valore diverso rispetto al valore medio (di default) mfx compute, at(gear_ratio=2.5) Marginal effects after probit y = Pr(foreign) (predict) = variable dy/dx Std. Err. z P> z [ 95% C.I. ] X gear_r~o mfx compute, at(gear_ratio=2.5) Marginal effects after logit y = Pr(foreign) (predict) = variable dy/dx Std. Err. z P> z [ 95% C.I. ] X gear_r~o In corrispondenza di un gear ratio pari a 2.5, l effetto di un incremento infinitesimo nel gear ratio ha un impatto non statisticamente diverso da zero, dunque un effetto nullo, sulla probabilità attesa di trovarsi di fronte un automobile straniera. Questo risultato è molto diverso da quello che ottenevamo, in corrispondenza del suo valore medio. Il motivo di questo diverso risultato è ovvio nel momento in cui si analizza la distribuzione delle probabilità predette dal modello (probit o logit) in corrispondenza dei due punti. Richiamiamo dunque il grafico del modello probit (i risultati non cambierebbero nel caso del logit, che presenta ugualmente un effetto marginale non statisticamente diverso da zero), tracciando due linee verticali, una in corrispondenza di gear ratio pari a 2.5 ed una in corrispondenza a 3.0 e congiungendo con una linea i punti stimati.. twoway (scatter basic_p gear_ratio, mcolor(green) sort(basic_p) connect(line)) (scatter foreign gear_ratio, mcolor(black) msymbol(circle_hollow)) (lfit foreign gear_ratio), mcolor(red), yline(0) yline(1) xline(2.5) xline(3) title(probit) 10

11 Probit Gear Ratio Pr(Foreign) Probit1 Fitted values Car type In corrispondenza di un gear ratio pari a 2.5 non abbiamo alcuna automobile straniera. Le automobili straniere hanno un gear ratio molto più vicino a 3.0. Se consideriamo la linea che si ottiene unendo tutte le predizioni appare evidente come, in corrispondenza del valore 2.5 l inclinazione della funzione in quel punto non sia significativamente diversa da zero. In corrispondenza del valore 3.0 invece la funzione è inclinata positivamente (e presenta un inclinazione simile a quella del modello lineare) Goodness-of fit (1) (2) (3) Linear probit logit R-squared 0.50 Pseudo R-squared La capacità previsiva dei tre modelli appare molto simile, con un R 2 pari a 0.5 per il modello lineare ed uno pseudo R 2 rispettivamente pari a 0.52 e 0.51 per probit e logit. Conoscete già il significato di R 2 per averlo incontrato nelle precedenti lezioni. Cosa significa invece Pseudo R 2? Quando la variabile dipendente è di tipo qualitativo, l accuratezza della predizione può essere valutata in termini di corrispondenza tra le probabilità calcolate ed il valore reale assunto dalla variabile dipendente o in termini della capacità del modello di prevedere correttamente le risposte osservate. Contrariamente rispetto al modello di regressione lineare, in questo ambito esiste una varietà di misure di goodness of fit. Noi ne vedremo due, lo Pseudo R 2 fornito da Stata e l R 2 p, che confronta la capacità previsiva dei modelli. Lo Pseudo R 2 misura (come del resto accade per l R 2 ) l abilità del modello stimato nello spiegare la variabilità del fenomeno sotto analisi, prendendo come termine di paragone un modello che contenga solo una costante come variabile esplicativa. Quello che Stata chiama Pseudo R 2 è in realtà quello che in letteratura è conosciuto come McFadden R 2. Se indichiamo con log L 1 il valore di massima verosimiglianza del modello stimato e con L 0 il massimo valore della funzione di verosimiglianza quando tutti i parametri, eccettuata l intercetta, sono posti a zero, la formula dello Pseudo R 2 calcolato da Stata (McFadden R 2 ) è: Pseudo R 2 = L 1 1 L 0 11

12 I valori di L 1 e di L 0 sono ottenibili dalle precedenti regressioni. Prendiamo il modello probit. Il valore di L 0 è quello riportato in corrispondenza dell iterazione 0, ovvero, Il valore di L 1 invece è quello riportato al termine del processo iterativo, ovvero Lo Pseudo R allora sarà = 1- = Potete facilmente calcolare nello stesso modo lo Pseudo R 2 anche per il modello logit. Ricordate sempre che le possibili misure della goodness of fit in questo ambito danno risultati diversi tra loro. E dunque importante sapere di che misura si stia parlando. Passiamo ora all R 2 p. Questo valuta la capacità dei diversi modelli di discriminare correttamente automobili nazionali ed estere. Stabiliamo che il modello preveda y=1 se la probabilità predetta è maggiore di 0.5 e y=0 se la probabilità predetta è minore o uguale a 0.5. Nel nostro caso dovremmo creare tre nuove dummy variables che chiameremo yhat e poi fare una tabulazione nella quale incrociamo la variabile foreign con le predizioni gen yhat_o=basic_o>0.5. gen yhat_p=basic_p>0.5. gen yhat_l=basic_l>0.5 NOTA BENE: in caso in cui abbiamo dei valori mancanti missing STATA li vede come >0.5 Dunque sarà necessario correggere la variabile yhat prima di fare la tabulazione onde evitare errori. E sufficiente scrivere: replace yhat_o =. if basic_o ==. replace yhat_p =. if basic_p ==. replace yhat_l =. if basic_l ==. Nel caso specifico non ce n é bisogno in quanto non abbiamo valori missing.. tab foreign yhat_o yhat_o Car type 0 1 Total Domestic Foreign Total Il modello lineare nelle probabilità identifica correttamente 16 automobili straniere su 22 e 48 automobili nazionali su 52 (in giallo). Ne considera domestiche 6 che in realtà sono straniere e straniere 4 che in realtà sono domestiche, per un totale di 10 previsioni errate.. tab foreign yhat_p yhat_p Car type 0 1 Total Domestic Foreign Total tab foreign yhat_l yhat_l 12

13 Car type 0 1 Total Domestic Foreign Total I modelli logit e probit invece identificano correttamente 63 automobili e sbagliano in 11 casi A questo punto calcoliamo il valore di R 2 p ( frazione correttamente predetta ) come 1 meno il rapporto tra gli errori di predizione del modello (la somma delle osservazioni erroneamente classificate, ovvero quelle visibili nelle intersezioni 0-1 e 1-0) e quelli fatti da un modello che utilizzi solo la costante (nel nostro caso, essendo le automobili straniere circa un terzo, il modello con la sola costante classificherebbe tutte le automobili come nazionali in quanto il valore medio della variabile sarebbe 22/74 per tutti i tre modelli). Tot. Err. Mod. Utilizziamo la formula 1- Tot. err. Mod.cost Otteniamo i seguenti risultati: (1) (2) (3) Linear probit logit R-squared 0.50 Pseudo R-squared R 2 p E interessante notare come, mentre dal punto di vista della distanza tra i valori predetti dal modello ed i veri valori il modello lineare fornisce valori mediamente meno precisi (anche se di poco) rispetto ai modelli probit e logit, in questo caso, quando guardiamo alle previsioni che si potrebbero trarre dai vari modelli, il modello lineare dimostra una capacità predittiva (riuscendo ad identificare una autovettura straniera in più). Passiamo ora all analisi multivariata. 3 Analisi multivariata 3.1. Analisi multivariata: osservazioni generali Per analisi multivariata intendiamo un analisi caratterizzata dall inclusione nel modello di almeno due variabili esplicative oltre la costante. Quando inseriamo più variabili esplicative nel nostro modello occorre sempre ricordare che il coefficiente che misura quanto vari Y per un incremento unitario di una variabile esplicativa va inteso a parità delle altre variabili esplicative (ceteris paribus). Questa osservazione è importante in quanto (come vedremo tra poco), a volte risultati apparentemente controintuitivi hanno una chiara spiegazione logica che discende direttamente dalla condizione di ceteris paribus. Come avete già visto nelle lezioni precedenti, nel caso della regressione OLS multivariata che analizzava il rapporto tra risultati scolastici, taglia delle scarpe ed età: l omissione di una variabile esplicativa rilevante (eta) comporta stime distorte dell effetto della variabile inclusa (taglia), nella misura in cui variabile omessa e variabile inclusa covariano. Di fatto, l effetto è quello di male interpretare i risultati. Nel caso che avete già studiato, l omissione dell eta spingeva a sovrastimare l importanza della misura delle scarpe sull abilità di lettura. Nell esempio che segue avremo il caso in cui la presenza congiunta di tre variabili (tutte significative), porterà il coefficiente di una di esse ad assumere valori negativi anziché positivi (come accadrebbe invece in una regressione bivariata che includesse solo questa variabile e la costante) NOTA: E legato a questa considerazione anche il problema delle variabili omesse (e del loro effetto sui coefficienti delle variabili incluse), da voi già osservato per le regressioni col metodo OLS. Nella parte 13

14 opzionale al termine di questa dispensa riportiamo (per chi fosse interessato) un esempio pratico di test di specificazione (per l individuazione di variabili omesse) per i modelli con variabile dipendente binaria. Le nuove variabili esplicative Avendo a nostra disposizione diverse altre variabili che qualificano le automobili del nostro campione, decidiamo di complicare il nostro modello nel tentativo di ottenere stime più precise. Le variabili da noi utilizzate oltre a gear_ratio sono ora mpg (miglia per gallone) e length (lunghezza in pollici). Dati i ridotti limiti di velocità americani, la storica preferenza degli americani per le automobili di grandi dimensioni e le norme ambientali meno stringenti (oltre al costo minore del carburante) ci possiamo attendere che, oltre ad avere una maggiore accelerazione, le automobili straniere siano meno lunghe di quelle americane e consumino meno. Sapendo che la nostra regressione lineare è caratterizzata da eteroschedasticità negli errori utilizziamo l opzione robust per ottenere stime robuste degli errori standard e delle statistiche t (in realtà questo non ha alcuna influenza sul valore del coefficiente stimato ma solo sulle inferenze che possiamo trarre guardando alle statistiche t ed ai p-value). Per i modelli probit e logit provvediamo inoltre a calcolare gli effetti marginali. Infine calcoliamo il valore di R 2 p. Nella prossima sezione commenteremo i risultati ottenuti reg foreign gear_ratio length mpg, robust Linear regression Number of obs = 74 F( 3, 70) = Prob > F = R-squared = Root MSE = Robust foreign Coef. Std. Err. t P> t [95% Conf. Interval] gear_ratio length mpg _cons probit foreign gear_ratio length mpg Iteration 0: log likelihood = Iteration 1: log likelihood = Iteration 2: log likelihood = Iteration 3: log likelihood = Iteration 4: log likelihood = Iteration 5: log likelihood = Iteration 6: log likelihood = Probit regression Number of obs = 74 LR chi2(3) = Prob > chi2 = Log likelihood = Pseudo R2 = foreign Coef. Std. Err. z P> z [95% Conf. Interval] gear_ratio length mpg _cons

15 . mfx Marginal effects after probit y = Pr(foreign) (predict) = variable dy/dx Std. Err. z P> z [ 95% C.I. ] X gear_r~o length mpg logit foreign gear_ratio length mpg Iteration 0: log likelihood = Iteration 1: log likelihood = Iteration 2: log likelihood = Iteration 3: log likelihood = Iteration 4: log likelihood = Iteration 5: log likelihood = Iteration 6: log likelihood = Logistic regression Number of obs = 74 LR chi2(3) = Prob > chi2 = Log likelihood = Pseudo R2 = foreign Coef. Std. Err. z P> z [95% Conf. Interval] gear_ratio length mpg _cons mfx Marginal effects after logit y = Pr(foreign) (predict) = variable dy/dx Std. Err. z P> z [ 95% C.I. ] X gear_r~o length mpg Generiamo ora nuove variabili per calcolare R 2 p. gen yhat2_o=multi_o>0.5. gen yhat2_p=multi_p>0.5. gen yhat2_l=multi_l>0.5.. tab foreign yhat2_o yhat2_o Car type 0 1 Total Domestic Foreign Total tab foreign yhat2_p yhat2_p Car type 0 1 Total Domestic

16 Foreign Total tab foreign yhat2_l yhat2_l Car type 0 1 Total Domestic Foreign Total Ora possiamo calcolare il valore di R 2 p per i tre modelli: Modello lineare e logit (in questo caso sono uguali). display 1-(10/22) Modello probit. display 1-(9/22) Analisi bivariata: interpretazione dei risultati dei tre modelli Anche nel contesto multivariato, ovviamente, vale quanto detto nel contesto bivariato (ovvero quando avevamo semplicemente la costante ed una variabile esplicativa). I coefficienti di probit e logit non rappresentano gli effetti marginali delle variabili esplicative sulla variabile dipendente e dunque per poter valutare l impatto della variabile di riferimento sulla variabile dipendente occorre calcolarli esplicitamente in corrispondenza di un qualche valore delle delle variabili esplicative. Nel nostro caso abbiamo utilizzato nuovamente il comando mfx che ha calcolato di default il valore degli effetti marginali in corrispondenza dei valori medi assunti dalle variabili esplicative. Ecco la tabella riassuntiva con i risultati ottenuti. Gear Ratio (regr bivariata) (1) (2) (3) (2b) (3b) Linear probit logit mfx probit mfx logit (8.48)** (4.85)** (4.47)** (0.187)** (0.207)** Gear Ratio (6.05)** (3.76)** (3.52)** (0.241)* (0.232)* Length (in.) (2.25)* (2.42)* (2.37)* (0.004)* (0.004)* Mileage (mpg) (1.75) (2.20)* (2.19)* (0.013) (0.012) Constant (0.18) (0.27) (0.29) Observations Robust t statistics in parentheses * significant at 5%; ** significant at 1% NOTA: anche se nel nostro esercizio non accade, quando abbiamo tra le variabili esplicative delle variabili dummy binarie - che possono assumere solo valori 0 o 1 - non ha senso pensare a variazioni infinitesime della variabile binaria. Utilizzando il comando mfx comunque Stata provvede autonomamente a modificare il calcolo dell effetto marginale, calcolando l effetto della variazione da 0 ad 1 anziché di una variazione infinitesima. I coefficienti delle variabili dummy vanno dunque interpretati tenendo conto di ciò Coefficienti ed effetti marginali 16

17 Gear ratio Innanzitutto, tutti i modelli da noi stimati confermano i risultati dell analisi bivariata, individuando una relazione positiva tra il gear_ratio e la probabilità che l automobile analizzata sia straniera. In questo caso però il coefficiente stimato ha un valore inferiore a quanto aveva in precedenza. L impatto di una variazione infinitesima del gear_ratio è infatti pari a volte la variazione anziché come accadeva nell analisi bivariata. Questo, come abbiamo accennato in precedenza, è conseguenza del fatto che ora gli effetti marginali stimati vengono calcolati tenendo conto della condizione ceteris paribus, ovvero al netto dell effetto delle altre variabili. Nel caso specifico possiamo pensare che la differenza tra i coefficienti stimati dipenda dal fatto che il coefficiente di gear_ratio nella regressione bivariata catturava anche parte dell effetto delle altre due variabili (la lunghezza dell automobile ed il numero di miglia che questa percorre con un gallone di benzina). Ora, il coefficiente di gear ratio viene osservato al netto dell effetto delle altre due variabili sulla probabilità di trovarsi di fronte ad un automobile straniera. Lunghezza Per quanto riguarda la lunghezza, individuiamo una relazione negativa tra la lunghezza di un automobile e la probabilità che questa sia straniera (le automobili americane tendono ad essere più lunghe). L effetto marginale di un aumento della lunghezza di un automobile sulla probabilità che questa sia straniera viene valutata approssimativamente pari volte l incremento della lunghezza in pollici da tutti e tre i modelli. Miglia per gallone I modelli analizzati danno poi un risultato di più difficile interpretazione per quanto riguarda l effetto della variabile mpg (miglia per gallone). Innanzitutto, in tutti i modelli la variabile mpg entra con segno negativo. Questo contraddice la nostra aspettativa che le automobili americane consumino di più, aspettativa che verrebbe confermata anche da un analisi dei valori medi di mpg per le automobili americane e straniere.. sort foreign. by foreign: sum mpg -> foreign = Domestic Variable Obs Mean Std. Dev. Min Max mpg > foreign = Foreign Variable Obs Mean Std. Dev. Min Max mpg Cosa sta accadendo? Come è possibile che, se in media le automobili americane consumano in media di più (dunque percorrono mediamente meno miglia con un gallone di carburante), il coefficiente di mpg sia negativo e significativo? Occorre a questo punto ripensare a quanto detto all inizio della sezione sull analisi multivariata a proposito della condizione ceteris paribus. In realtà, quello che il nostro modello ci sta dicendo non è tanto che le automobili americane consumino di meno in assoluto, ma che consumano di meno ceteris paribus, ovvero a parità di lunghezza e di gear_ratio. E facile fare una controprova stimando un modello bivariato con mpg come unica variabile esplicativa.. reg foreign mpg Source SS df MS Number of obs = F( 1, 72) = Model Prob > F = Residual R-squared = Adj R-squared = Total Root MSE = foreign Coef. Std. Err. t P> t [95% Conf. Interval] 17

18 mpg _cons probit foreign mpg Iteration 0: log likelihood = Iteration 1: log likelihood = Iteration 2: log likelihood = Iteration 3: log likelihood = Probit regression Number of obs = 74 LR chi2(1) = Prob > chi2 = Log likelihood = Pseudo R2 = foreign Coef. Std. Err. z P> z [95% Conf. Interval] mpg _cons mfx Marginal effects after probit y = Pr(foreign) (predict) = variable dy/dx Std. Err. z P> z [ 95% C.I. ] X mpg In questo caso, come ci attendevamo, viene trovato un legame di tipo positivo tra miglia percorse per gallone ed il fatto che l automobile sia straniera. Questo modello però non tiene conto di altri fattori, come appunto lunghezza e gear ratio dell automobile. Se è vero che le automobili americane consumano di più, è anche vero che queste sono mediamente più lunghe (e dunque più pesanti). Questo può essere anche notato osservando la correlazione tra le variabili incluse nel nostro modello.. corr mpg length gear_ratio (obs=74) mpg length gear_r~o mpg length gear_ratio Appare evidente come esistano una correlazione fortemente negativa tra lunghezza e miglia per gallone (e gear ratio) ed una correlazione positiva tra miglia per gallone e gear ratio. Abbiamo visto che la correlazione tra le variabili contribuisce a determinare le stime dei coefficienti. Quello che il nostro modello ci dice in sintesi è che - a parità di peso e di gear ratio - le automobili straniere consumano più carburante. Chiarito il dubbio sul segno, vi è un altro problema. Mentre per il modello lineare l effetto della variabile miglia per gallone non è significativamente diverso da zero (almeno ad un livello di significatività del 5% ), 18

19 secondo i modelli probit e logit il legame è significativamente diverso da zero. Perché questa apparente contraddizione? Innanzitutto osserviamo che ad un livello di significatività del 10% la variabile mpg sarebbe considerata significativa. Ricordiamo poi che il modello lineare nelle probabilità, ipotizza una relazione lineare (un effetto marginale costante, medio ). Forse il modello lineare incontra maggiori difficoltà a stabilire l esistenza di questa relazione tra mpg e la probabilità che l automobile osservata sia di fabbricazione straniera proprio perché la relazione non è propriamente lineare. I modelli probit e logit, che invece come abbiamo visto nella sezione della stima bivariata tengono conto del fatto che gli effetti marginali sulle probabilità non sono costanti ma possono variare con il variare del valore della variabile esplicativa (si basano espressamente su ipotesi di non linearità della relazione) individuano con maggior precisione la relazione esistente. Se guardiamo - anziché i coefficienti di probit e logit - gli effetti marginali calcolati in corrispondenza del valore medio delle variabili esplicative, troviamo però che anche gli effetti marginali della variabile mpg calcolati dai modelli probit e logit non sono significativamente diversi da zero ad un livello di significatività del 5% mentre lo sono al 10%. Come è possibile questo? Soprattutto, dobbiamo pensare che questo contraddica quanto osservato in precedenza? No. Anche se in corrispondenza dei valori medi delle variabili l effetto marginale di mpg non é significativamente diverso da zero, considerando l intera distribuzione delle probabilità, l effetto è negativo e significativo. Purtroppo non è possibile mostrare graficamente i grafici delle probabilità attese come avevamo fatto nel caso bivariato (avremmo bisogno di una grafica quadridimensionale), ma possiamo verificare che questo è vero ad esempio calcolando gli effetti marginali in corrispondenza di altri valori, non solo di mpg ma anche delle altre variabili. Gli effetti marginali qui sotto riportati sono calcolati rispetto al modello probit ma il concetto non cambierebbe anche calcolando gli effetti marginali per il modello logit.. mfx compute, at(length=168) warning: no value assigned in at() for variables gear_ratio mpg; means used for gear_ratio mpg Marginal effects after probit y = Pr(foreign) (predict) = variable dy/dx Std. Err. z P> z [ 95% C.I. ] X length gear_r~o mpg mfx compute, at(mpg=12) warning: no value assigned in at() for variables length gear_ratio; means used for length gear_ratio Marginal effects after probit y = Pr(foreign) (predict) = variable dy/dx Std. Err. z P> z [ 95% C.I. ] X length gear_r~o mpg mfx compute, at(gear_ratio=3.5) warning: no value assigned in at() for variables length mpg; means used for length mpg Marginal effects after probit 19

20 y = Pr(foreign) (predict) = variable dy/dx Std. Err. z P> z [ 95% C.I. ] X length gear_r~o mpg Questi sono ovviamente solo esempi ma dimostrano che, in effetti, in corrispondenza di questi punti l effetto di una variazione di mpg sulle probabilità è significativamente diverso da zero Goodness-of-fit R-squared 0.54 Pseudo R-squared R 2 p La tabella sovrastante riporta i valori per R-quadro, pseudo R-quadro e Frazione correttamente predetta (come viene chiamata dal vostro testo di riferimento) In questo caso il modello probit sovraperforma (seppur di poco) i modelli logit e lineare secondo entrambi i tipi di misura. NOTA:Può essere interessante notare che il modello lineare perde il confronto più nella capacità di definire i veri valori delle probabilità (compresi tra zero ed uno) che non rispetto alla capacità di discriminare correttamente tra automobili americane e straniere. Questo è una conseguenza del fatto che, anche se sbaglia stimando valori di probabilità inferiori a zero e superiori ad uno, tipicamente la capacità di discriminare viene testata maggiormente in corrispondenza delle osservazioni con probabilità stimata attorno lo

Vedere altro