Binary Choice Models



Documenti analoghi
Capitolo 12 La regressione lineare semplice

FACOLTÀ DI ECONOMIA Soluzione della Prova di autovalutazione 2012 (primi 6 CFU) ANALISI STATISTICA PER L IMPRESA

LEZIONE n. 5 (a cura di Antonio Di Marco)

APPUNTI SU PROBLEMI CON CALCOLO PERCENTUALE

Econometria. lezione 17. variabili dipendenti binarie. Econometria. lezione 17. AA Paolo Brunori

Basi di matematica per il corso di micro

Relazioni statistiche: regressione e correlazione

Capitolo 13: L offerta dell impresa e il surplus del produttore

Regressione Mario Guarracino Data Mining a.a. 2010/2011

STATISTICA IX lezione

STATISTICA DESCRITTIVA SCHEDA N. 5: REGRESSIONE LINEARE

LA CORRELAZIONE LINEARE

Limited Dependent Variable Models

Elementi di Psicometria con Laboratorio di SPSS 1

risulta (x) = 1 se x < 0.

Statistica. Lezione 6

Statistiche campionarie

Elementi di Psicometria con Laboratorio di SPSS 1

Capitolo 2. Operazione di limite

1. Distribuzioni campionarie

Lineamenti di econometria 2

Verifica di ipotesi e intervalli di confidenza nella regressione multipla

E naturale chiedersi alcune cose sulla media campionaria x n

Regressione Lineare con un Singolo Regressore

Metodologia per l analisi dei dati sperimentali L analisi di studi con variabili di risposta multiple: Regressione multipla

Prof.ssa Paola Vicard

Le funzioni continue. A. Pisani Liceo Classico Dante Alighieri A.S A. Pisani, appunti di Matematica 1

Corso di Informatica Generale (C. L. Economia e Commercio) Ing. Valerio Lacagnina Rappresentazione in virgola mobile

4 3 4 = 4 x x x 10 0 aaa

Metodi statistici per le ricerche di mercato

Esercitazione #5 di Statistica. Test ed Intervalli di Confidenza (per una popolazione)

Corso di Psicometria Progredito

ANALISI DELLE FREQUENZE: IL TEST CHI 2

RAPPRESENTAZIONE GRAFICA E ANALISI DEI DATI SPERIMENTALI CON EXCEL

APPUNTI DI MATEMATICA LE FRAZIONI ALGEBRICHE ALESSANDRO BOCCONI

f(x) = 1 x. Il dominio di questa funzione è il sottoinsieme proprio di R dato da

CORSO DI STATISTICA (parte 2) - ESERCITAZIONE 8

Dimensione di uno Spazio vettoriale

Capitolo 25: Lo scambio nel mercato delle assicurazioni

(a cura di Francesca Godioli)

Siamo così arrivati all aritmetica modulare, ma anche a individuare alcuni aspetti di come funziona l aritmetica del calcolatore come vedremo.

LE FUNZIONI A DUE VARIABILI

Università del Piemonte Orientale. Corso di laurea in biotecnologia. Corso di Statistica Medica. Intervalli di confidenza

Modulo didattico sulla misura di grandezze fisiche: la lunghezza

La distribuzione Normale. La distribuzione Normale

Macroeconomia, Esercitazione 2. 1 Esercizi. 1.1 Moneta/ Moneta/ Moneta/3. A cura di Giuseppe Gori (giuseppe.gori@unibo.

Pensione di vecchiaia: ecco i nuovi requisiti di età per ottenerla

Excel Terza parte. Excel 2003

Pro e contro delle RNA

Psicometria (8 CFU) Corso di Laurea triennale STANDARDIZZAZIONE

Guida all uso di Java Diagrammi ER

Statistica e biometria. D. Bertacchi. Variabili aleatorie. V.a. discrete e continue. La densità di una v.a. discreta. Esempi.

~ Copyright Ripetizionando - All rights reserved ~ STUDIO DI FUNZIONE

INTEGRATORE E DERIVATORE REALI

Regressione Logistica: un Modello per Variabili Risposta Categoriali

LA TRASMISSIONE DELLE INFORMAZIONI QUARTA PARTE 1

NUOVA PROCEDURA COPIA ED INCOLLA PER L INSERIMENTO DELLE CLASSIFICHE NEL SISTEMA INFORMATICO KSPORT.

CAPITOLO 8 LA VERIFICA D IPOTESI. I FONDAMENTI

Capitolo 3. L applicazione Java Diagrammi ER. 3.1 La finestra iniziale, il menu e la barra pulsanti

Prova di autovalutazione Prof. Roberta Siciliano

Analisi e diagramma di Pareto

Documentazione esterna al software matematico sviluppato con MatLab

Come visto precedentemente l equazione integro differenziale rappresentativa dell equilibrio elettrico di un circuito RLC è la seguente: 1 = (1)

PROGRAMMA SVOLTO NELLA SESSIONE N.

Corso di Matematica per la Chimica

VERIFICA DELLE IPOTESI

Soluzione degli esercizi sul moto rettilineo uniformemente accelerato

3. Confronto tra medie di due campioni indipendenti o appaiati

Logica Numerica Approfondimento 1. Minimo Comune Multiplo e Massimo Comun Divisore. Il concetto di multiplo e di divisore. Il Minimo Comune Multiplo

Convertitori numerici in Excel

LE SUCCESSIONI 1. COS E UNA SUCCESSIONE

Esercizi sul moto rettilineo uniformemente accelerato

MICROECONOMIA La teoria del consumo: Alcuni Arricchimenti. Enrico Saltari Università di Roma La Sapienza

1) Si consideri un esperimento che consiste nel lancio di 5 dadi. Lo spazio campionario:

Test statistici di verifica di ipotesi

Questa guida è realizzata per spiegarvi e semplificarvi l utilizzo del nostro nuovo sito E Commerce dedicato ad Alternatori e Motorini di avviamento.

Introduzione alle relazioni multivariate. Introduzione alle relazioni multivariate

Fondamenti e didattica di Matematica Finanziaria

GRUPPO QUATTRO RUOTE. Alessandro Tondo Laura Lavazza Matteo Scordo Alessandro Giosa Gruppo Quattro Ruote 1

Funzioni. Funzioni /2

Laboratorio di Pedagogia Sperimentale. Indice

RELAZIONE TRA VARIABILI QUANTITATIVE. Lezione 7 a. Accade spesso nella ricerca in campo biomedico, così come in altri campi della

Fondamenti di Informatica 2. Le operazioni binarie

Applicazioni lineari

Statistica multivariata. Statistica multivariata. Analisi multivariata. Dati multivariati. x 11 x 21. x 12 x 22. x 1m x 2m. x nm. x n2.

Registratori di Cassa

1 Serie di Taylor di una funzione

Lineamenti di econometria 2

Lineamenti di econometria 2

VALORE DELLE MERCI SEQUESTRATE

Matematica 1 - Corso di Laurea in Ingegneria Meccanica

Modulo 2. Domanda aggregata e livello di produzione

ESEMPIO 1: eseguire il complemento a 10 di 765

b. Che cosa succede alla frazione di reddito nazionale che viene risparmiata?

Vademecum studio funzione

Corrispondenze e funzioni

Indice. 1 Il monitoraggio del progetto formativo di 6

Il concetto di valore medio in generale

UNA LEZIONE SUI NUMERI PRIMI: NASCE LA RITABELLA

Transcript:

Binary Choice Models Norberto Pignatti, pignatti@spbo.unibo.it Roberto Golinelli, golinell@spbo.unibo.it GENNAIO 2007 1 Introduzione Nelle lezioni precedenti avete già visto utilizzare variabili dummy (esempio: variabile male = 1 se uomo, 0 se donna) come variabili esplicative all interno di un modello. In alcuni casi possiamo volere (o dovere) stimare modelli nei quali la variabile da spiegare (variabile dipendente) può essere essa stessa una variabile dummy che assume due o più valori. Nella nostra lezione noi esamineremo esclusivamente il caso in cui la variabile dummy assuma due valori, 0 ed 1 (variabile dicotomica). Vi sono molti casi nei quali una variabile dicotomica può essere scelta come variabile dipendente. Alcuni possibili esempi: - y=1 se un individuo è occupato; y=0 se non lo è; - y=1 se un individuo ottiene un prestito; y=0 se non lo ottiene; - y=1 se un individuo ha deciso di votare; y=0 se l individuo ha deciso di non votare; - y=1 se un individuo ha contratto una malattia; y=0 se l individuo non l ha contratta. E così via. Nell esempio che considereremo in questa lezione, utilizzeremo i dati disponibili in STATA su un campione di automobili in circolazione negli Stati Uniti nel 1978 per identificare le caratteristiche che differenziano le automobili straniere da quelle americane. obs: 74 1978 Automobile Data vars: 12 13 Apr 2005 17:45 size: 3,478 (99.9% of memory free) (_dta has notes) - storage display value variable name type format label variable label - make str18 %-18s Make and Model price int %8.0gc Price mpg int %8.0g Mileage (mpg) rep78 int %8.0g Repair Record 1978 headroom float %6.1f Headroom (in.) trunk int %8.0g Trunk space (cu. ft.) weight int %8.0gc Weight (lbs.) length int %8.0g Length (in.) turn int %8.0g Turn Circle (ft.) displacement int %8.0g Displacement (cu. in.) gear_ratio float %6.2f Gear Ratio foreign byte %8.0g origin Car type - Sorted by: foreign Per comodità presenteremo i modelli utilizzati partendo con una regressione bivariata. Dopo avere esaminato diversi aspetti di questo tipo di analisi, nella terza parte proseguiremo l esempio nel caso di analisi multivariata. In conclusione (opzionale) accenneremo ai test di specificazione applicabili a questo tipo di modelli. 1

2 Analisi bivariata 2.1 Analisi bivariata: il modello lineare nelle probabilità La procedura più semplice da utilizzare è quella di applicare il metodo dei minimi quadrati ordinari. Il modello che otteniamo in questo caso è formalmente identico a quelli precedentemente visti. y i =α+βx i +ε i da cui il valore atteso della nostra variabile E(y i α,x i )= ˆ α + βx ˆ i ----------------------------------------------------- ------- Nel nostro esempio, utilizziamo come variabile dipendente la variabile foreign (foreign=1 se la macchina è straniere, foreign=0 se la macchina è americana) e come variabile indipendente gear_ratio (il rapporto di cambio che caratterizza la macchina più è elevato, maggiore accelerazione ha questa). Noi ipotizziamo che, conoscendone il gear_ratio, sia possibile stabilire se una data automobile sia americana o straniera. β riflette l impatto di variazioni nel gear ratio sulla probabilità che un automobile sia straniera. reg foreign gear_ratio Source SS df MS Number of obs = 74 -------------+------------------------------ F( 1, 72) = 71.84 Model 7.7214003 1 7.7214003 Prob > F = 0.0000 Residual 7.73805916 72.107473044 R-squared = 0.4995 -------------+------------------------------ Adj R-squared = 0.4925 Total 15.4594595 73.211773417 Root MSE =.32783 foreign Coef. Std. Err. t P> t [95% Conf. Interval] gear_ratio.7127684.0840911 8.48 0.000.5451358.880401 _cons -1.851603.2563717-7.22 0.000-2.362671-1.340535 Sulla base di questa regressione è possibile calcolare e salvare (vedi lezioni precedenti) sia i valori stimati (fitted) che i residui.. predict basic_o (option xb assumed; fitted values). predict res_o1, resid. label var basic_p "Pr(Foreign) Linear probability model1" In questo caso, il valore atteso di y i deve essere interpretato come la probabilità che l automobile i-esima sia straniera dato il valore del suo gear_ratio. ----------------------------------------------------- ------- In generale, i coefficienti del modello lineare nelle probabilità possono essere interpretati come la misura dell effetto marginale della variazione della variabile indipendente sulla probabilità che ci troviamo davanti ad un automobile straniera. Nel nostro caso l effetto sulle probabilità è pari a 0.71 volte la variazione nel gear ratio. Nonostante la sua semplicità il modello lineare nelle probabilità è caratterizzato da diversi problemi che ne scoraggiano l utilizzo in favore di altri modelli che vedremo in seguito. Analizziamo innanzitutto analizzando la struttura degli errori in questo modello. 2

Per costruzione (anche ipotizzando di conoscere i valori di α e di β della popolazione) poiché y i può assumere solo valori 1 o 0 gli errori [ε i =y i (α+βx i )] possono assumere solo due valori per ciascuna osservazione, ovvero 1-(α+βx i ) o -(α+βx i ). Essendo la probabilità che y i =1 e y i =0 rispettivamente: Prob(y i =1 α,x i ) = α+βx i ; Prob(y i =0 α,x i ) = 1-(α+βx i) Avremo che: Quindi in questo caso: Valori assunti dalla y i ε i Probabilità 1 1-(α+βx i ) α+βx i 0 -(α+βx i ) 1-(α+βx i ) 1) gli errori non possono essere distribuiti normalmente; 2) la varianza egli ε non può essere costante (abbiamo eteroschedasticità). Infatti, per costruzione, gli errori ε i saranno caratterizzati da eteroschedasticità, in una misura che dipende da α, β e da x. var(ε i )= (α+βx i )(1-(α+βx i )) 2 +(1-(α+βx i ))(-(α+ βx i )) 2 =(α+βx i )(1-(α+βx i ))=E(y i )[1-E(y i )] In questo caso le stime ottenute tramite OLS non saranno efficienti. Il problema più serio però è che, anche tenendo conto dell eteroschedasticità e stimando il nostro modello iniziale con il metodo dei minimi quadrati generalizzati fattibili (FGLS), la nostra probabilità predetta resta sempre funzione lineare della variabile indipendente (delle variabili indipendenti, nei casi di regressione multivariata). Questo può far si che la stima di probabilità esca dall intervallo ammissibile [0, 1]. Ciò accade anche nel caso che stiamo analizzando, come si può verificare riportando in un grafico i valori stimati ed i valori effettivi della variabile foreign, in funzione del gear_ratio. 3

----------------------------------------------------- -----. twoway (scatter basic_o gear_ratio, mcolor(green)) (scatter foreign gear_ratio, mcolor(blue)), yline(0) yline(1) title(linear Probability Model) Linear Probability Model -.5 0.5 1 2.00 2.50 3.00 3.50 4.00 Gear Ratio Pr(Foreign) - Linear probability model1 Car type In questo caso, per le automobili con un gear ratio inferiore a 2.5 il valore previsto è inferiore a zero. In altri esempi potremmo trovare valori previsti superiori ad 1 o potremmo avere contemporaneamente valori inferiori a zero e maggiori di 1. Greene (Econometric Analysis, 5th edition, pag. 666) ci dice che il tentativo di vincolare le probabilità stimate all intervallo 0-1 mantenendo questo metodo di stima può generare ulteriori problemi (probabilità prive di senso e varianze negative). ----------------------------------------------------- ----- Ciò di cui abbiamo bisogno allora è un qualche modello che produca predizioni consistenti con la teoria delle probabilità, ovvero valori compresi tra 0 ed 1. In pratica, questo è possibile individuando una funzione che riesca ad esprimere valori di probabilità nell intervallo [0, 1], come funzione del vettore delle caratteristiche. 2.2. Analisi bivariata: modelli logit e probit I modelli probit e logit soddisfano questo requisito, utilizzando rispettivamente la funzione di distribuzione normale standard e la funzione di distribuzione logistica standard. Per entrambi i tipi di modello è vero che: lim α + ˆx β + lim α + ˆx β i i Prob Prob ( yi = 1 α, x i ) ( y = 1 α, x ) i i = 1 = 0 Per assicurare questa proprietà, la formula che ci dà le probabilità non è più: Prob(y i =1 α,x i ) = α+βx i ; Prob(y i =0 x i ) = 1-(α+βx i ) ma diventa invece 4

Prob(y i =1 α,x i ) = F[ α + βx i ]; Prob(y i =1 α,x i ) = 1- F[ α + βx i ] dove F è una funzione di distribuzione di ε (che ci dà valori compresi tra 0 ed 1). La forma della funzione F dipende dalle assunzioni fatte sulla distribuzione del termine d errore. I modelli probit e logit differiscono proprio per le ipotesi sulla distribuzione del termine d errore ε i, che nel caso del probit è una distribuzione normale standardizzata (con media 0 e varianza 1) e nel caso del logit è una 2 distribuzione logistica standard (con media 0 e varianza π / 3 ). Essendo le distribuzioni logistica e normale cumulate molto simili tra di loro (eccetto in corrispondenza delle code), solitamente non ci si attende di ottenere risultati molto diversi. Questo a meno che il nostro campione non sia di dimensioni molto elevate (in modo tale da avere abbastanza osservazioni che ricadono nelle code). In ogni caso comunque le stime dei parametri ottenute utilizzando i due metodi non sono direttamente 2 comparabili. Avendo la distribuzione logistica una varianza pari a π / 3 le stime di βˆ i ottenute col modello logit, per poter essere comparate con quelle ottenute col modello probit, devono essere moltiplicate per 3 / π. Per probit e logit, differentemente da quanto accadeva nel modello lineare, le probabilità non sono più funzioni lineari delle caratteristiche, ma sono invece il risultato di una loro trasformazione non lineare. Mentre nel modello lineare la stima viene effettuata utilizzando il metodo dei minimi quadrati, il metodo utilizzato per stimare i modelli logit e probit è quello della massima verosimiglianza. L equazione di verosimiglianza in questo caso può essere scritta come; L = F α + βx 1 F α + βx [ i ] { [ i ]} yi = 1 y i = 0 Essendo le equazioni di verosimiglianza non lineari, richiederanno una soluzione di tipo iterativo (come potrete osservare nell output di Stata).. Iniziamo con lo stimare il modello probit. Successivamente stimeremo il corrispondente modello logit. ----------------------------------------------------- -----. probit foreign gear_ratio Iteration 0: log likelihood = -45.03321 Iteration 1: log likelihood = -24.730069 Iteration 2: log likelihood = -21.941225 Iteration 3: log likelihood = -21.646924 Iteration 4: log likelihood = -21.641899 Iteration 5: log likelihood = -21.641897 Probit regression Number of obs = 74 LR chi2(1) = 46.78 Prob > chi2 = 0.0000 Log likelihood = -21.641897 Pseudo R2 = 0.5194 foreign Coef. Std. Err. z P> z [95% Conf. Interval] gear_ratio 3.45954.7132766 4.85 0.000 2.061543 4.857536 _cons -11.44249 2.302579-4.97 0.000-15.95546-6.929518 Salviamo nuovamente le probabilità stimate. predict basic_p (option p assumed; Pr(foreign)) Generiamo (e salviamo) la differenza tra le probabilità predette ed i valori reali di foreign. 5

. gen res_p1=foreign-basic_p Attribuiamo un etichetta alla variabile basic_p che apparirà nel grafico.. label var basic_p "Pr(Foreign) Probit1" Ora possiamo vedere la rappresentazione grafica delle probabilità predette dal probit (cerchi verdi) e confrontarla con le predizioni del modello lineare nelle probabilità (linea verde). I cerchi vuoti dal bordo nero rappresentano i veri valori della variabile foreign. twoway (scatter basic_p gear_ratio, mcolor(green)) (scatter foreign gear_ratio, mcolor(black) msymbol(circle_hollow)) (lfit foreign gear_ratio), yline(0) yline(1) title(probit) Probit -.5 0.5 1 2.00 2.50 3.00 3.50 4.00 Gear Ratio Pr(Foreign) Probit1 Fitted values Car type ----------------------------------------------------- ----- Si può osservare come le probabilità predette dal probit siano effettivamente ricomprese tra 0 ed 1 e mostrino un andamento di tipo sinusoidale molto più armonioso di quello del modello lineare. In questo caso purtroppo il coefficiente della nostra regressione non é facilmente interpretabile, in quanto non esprime una relazione di tipo lineare tra le variabili esplicative e la variabile dipendente. Per questo motivo, nella sezione successiva vedremo come calcolare gli effetti marginali, che potremo poi comparare con il coefficiente ottenuto con il modello lineare. Ecco i risultati del modello logit. ----------------------------------------------------- -----. logit foreign gear_ratio Iteration 0: log likelihood = -45.03321 Iteration 1: log likelihood = -25.213871 Iteration 2: log likelihood = -22.436413 Iteration 3: log likelihood = -22.064761 Iteration 4: log likelihood = -22.054186 Iteration 5: log likelihood = -22.054175 Logistic regression Number of obs = 74 LR chi2(1) = 45.96 Prob > chi2 = 0.0000 Log likelihood = -22.054175 Pseudo R2 = 0.5103 foreign Coef. Std. Err. z P> z [95% Conf. Interval] 6

gear_ratio 5.836867 1.305948 4.47 0.000 3.277256 8.396479 _cons -19.30575 4.210793-4.58 0.000-27.55875-11.05275 Anche in questo caso salviamo sia le predizioni del modello che gli scostamenti dai valori reali assunti dalla variabile foreign.. predict basic_l (option p assumed; Pr(foreign)). gen res_l1=foreign-basic_l E attribuiamo un etichetta alla variabile basic_l. label var basic_l "Pr(Foreign) Logit1" Ecco il grafico generato dal modello logit. Logit -.5 0.5 1 2.00 2.50 3.00 3.50 4.00 Gear Ratio Pr(Foreign) Logit1 Fitted values Car type Un interessante proprietà condivisa dal modello lineare e dal modello logit è che la media delle probabilità predette con i due metodi è pari alla proporzione di y=1 nel campione. Questo risultato non è stato verificato per il modello probit. Nel nostro caso:. sum foreign basic_o basic_l basic_p Variable Obs Mean Std. Dev. Min Max -------------+-------------------------------------------------------- foreign 74.2972973.4601885 0 1 basic_o 74.2972973.325227 -.2906402.921066 basic_l 74.2972973.3479781.0014671.967694 basic_p 74.2958789.3513686.0000553.978054 Anche nel caso del logit però, come per il probit, l interpretazione dei coefficienti del modello non è immediata. ----------------------------------------------------- ----- 7

2.3. Analisi bivariata: interpretazione dei risultati dei tre modelli Mettiamo ora a confronto i risultati ottenuti utilizzando i tre modelli. (1) (2) (3) (3b) Linear probit logit logit* 3 / π Gear Ratio 0.713 3.460 5.837 3.218 (8.48)** (4.85)** (4.47)** Constant -1.852-11.442-19.306 (7.22)** (4.97)** (4.58)** Observations 74 74 74 Absolute value of t statistics in parentheses * significant at 5%; ** significant at 1% 2.3.1 Coefficienti ed effetti marginali Quando osserviamo i coefficienti stimati dai tre modelli ci troviamo di fronte a risultati apparentemente molto diversi, nonostante il segno ed il livello di significatività siano identici. Come avevamo annunciato in precedenza, vi sono diversi motivi per queste differenze. I coefficienti per probit e logit differiscono necessariamente tra loro a causa delle diverse caratteristiche delle funzioni di distribuzione sottostanti. In effetti, se guardiamo la colonna 3b, dove abbiamo riportato il coefficiente logit corretto per tenere conto delle differenze tra le due distribuzioni, i valori sono molto più simili tra loro. I coefficienti probit e logit però, differiscono notevolmente dal coefficiente ottenuto tramite il modello lineare nelle probabilità. Questo accade in conseguenza del fatto che, mentre per il modello lineare il coefficiente β associato a gear ratio rappresenta l effetto marginale di una variazione gear ratio sulla probabilità che l automobile studiata sia straniera (e resta costante indipendentemente dal variare di x), questo non è vero per i coefficienti dei modelli probit e logit. Tornando alla formulazione più generale delle nostre probabilità vediamo infatti che, se definiamo Prob(y i =1 α,x i ) = F[ α + βx i ] la variazione nel valore atteso di y i al variare di x i sarà: E[ yi α, βxi ] = F' [ α + βxi ] β = f ( α + βxi )β xi E ovvio che in questo caso non abbiamo un unico valore per l effetto marginale della nostra variabile esplicativa sulla variabile dipendente, quanto piuttosto una serie di possibili valori. Questa conclusione in realtà era raggiungibile semplicemente osservando il diverso comportamento delle probabilità per modello lineare e logit/probit. Infatti, mentre l inclinazione della retta di regressione è costante, l inclinazione delle funzioni fitted nei modelli probit e logit è diversa a seconda del punto nel quale le osserviamo. Di default Stata calcola gli effetti marginali delle variabili esplicative sulla variabile dipendente in corrispondenza dei loro valori medi. E possibile, se si desidera, specificare il punto in cui calcolare gli effetti marginali. Ecco gli effetti marginali calcolati per il modello probit e logit, utilizzando il comando mfx. Notate che è necessario stimare prima il modello per potere richiedere il calcolo degli effetti marginali. Nel caso del modello probit sarebbe possibile calcolarli direttamente attraverso il comando dprobit. Per uniformità comunque stimeremo gli effetti marginali sempre utilizzando il comando mfx. ----------------------------------------------------- -----. probit foreign gear_ratio Iteration 0: log likelihood = -45.03321 Iteration 1: log likelihood = -24.730069 Iteration 2: log likelihood = -21.941225 Iteration 3: log likelihood = -21.646924 Iteration 4: log likelihood = -21.641899 Iteration 5: log likelihood = -21.641897 8

Probit regression Number of obs = 74 LR chi2(1) = 46.78 Prob > chi2 = 0.0000 Log likelihood = -21.641897 Pseudo R2 = 0.5194 foreign Coef. Std. Err. z P> z [95% Conf. Interval] gear_ratio 3.45954.7132766 4.85 0.000 2.061543 4.857536 _cons -11.44249 2.302579-4.97 0.000-15.95546-6.929518. mfx Marginal effects after probit y = Pr(foreign) (predict) =.15566266 variable dy/dx Std. Err. z P> z [ 95% C.I. ] X ---------+-------------------------------------------------------------------- gear_r~o.8266901.18725 4.42 0.000.459696 1.19368 3.01486. logit foreign gear_ratio Iteration 0: log likelihood = -45.03321 Iteration 1: log likelihood = -25.213871 Iteration 2: log likelihood = -22.436413 Iteration 3: log likelihood = -22.064761 Iteration 4: log likelihood = -22.054186 Iteration 5: log likelihood = -22.054175 Logistic regression Number of obs = 74 LR chi2(1) = 45.96 Prob > chi2 = 0.0000 Log likelihood = -22.054175 Pseudo R2 = 0.5103 foreign Coef. Std. Err. z P> z [95% Conf. Interval] gear_ratio 5.836867 1.305948 4.47 0.000 3.277256 8.396479 _cons -19.30575 4.210793-4.58 0.000-27.55875-11.05275. mfx Marginal effects after logit y = Pr(foreign) (predict) =.15337309 variable dy/dx Std. Err. z P> z [ 95% C.I. ] X ---------+-------------------------------------------------------------------- gear_r~o.757916.20724 3.66 0.000.351729 1.1641 3.01486 ----------------------------------------------------- ----- Ecco una sintesi dei risultati ottenuti: (1) (2) (3) Linear probit logit Gear Ratio 0.713 0.827.758 Ora possiamo vedere come, in realtà, gli effetti marginali stimati dai modelli probit e logit in corrispondenza del valore medio di gear_ratio non differiscano eccessivamente da quello ottenuto con il modello lineare nelle probabilità o tra di loro. Un incremento infinitesimo del gear ratio tende a tradursi in un incremento 9

della probabilità che l automobile osservata sia straniera pari a 0.7-0.8, a seconda del modello che utilizziamo. Ovviamente dobbiamo ricordare che, mentre per il modello lineare l effetto marginale non cambia, i valori ottenuti per i modelli probit e logit valgono esclusivamente in corrispondenza del valore medio della variabile gear ratio. Per verificarlo è sufficiente calcolare nuovamente gli effetti marginali, questa volta scegliendo un valore diverso di gear ratio rispetto al valore medio. Scegliamo, ad esempio, di calcolare gli effetti marginali in corrispondenza di un gear ratio pari al valore 2.5. Per comodità eviterò di riportare nuovamente il logit ed il probit. Ricordate comunque che mfx può essere utilizzato solo dopo i comandi logit e probit (e non autonomamente). L opzione at() consente di fissare il valore della variabile ad un valore diverso rispetto al valore medio (di default). ----------------------------------------------------- ------. mfx compute, at(gear_ratio=2.5) Marginal effects after probit y = Pr(foreign) (predict) =.00260592 variable dy/dx Std. Err. z P> z [ 95% C.I. ] X ---------+-------------------------------------------------------------------- gear_r~o.0278752.03783 0.74 0.461 -.046261.102012 2.5. mfx compute, at(gear_ratio=2.5) Marginal effects after logit y = Pr(foreign) (predict) =.00889277 variable dy/dx Std. Err. z P> z [ 95% C.I. ] X ---------+-------------------------------------------------------------------- gear_r~o.0514443.04046 1.27 0.204 -.027863.130751 2.5 ----------------------------------------------------- ------ In corrispondenza di un gear ratio pari a 2.5, l effetto di un incremento infinitesimo nel gear ratio ha un impatto non statisticamente diverso da zero, dunque un effetto nullo, sulla probabilità attesa di trovarsi di fronte un automobile straniera. Questo risultato è molto diverso da quello che ottenevamo, in corrispondenza del suo valore medio. Il motivo di questo diverso risultato è ovvio nel momento in cui si analizza la distribuzione delle probabilità predette dal modello (probit o logit) in corrispondenza dei due punti. Richiamiamo dunque il grafico del modello probit (i risultati non cambierebbero nel caso del logit, che presenta ugualmente un effetto marginale non statisticamente diverso da zero), tracciando due linee verticali, una in corrispondenza di gear ratio pari a 2.5 ed una in corrispondenza a 3.0 e congiungendo con una linea i punti stimati.. twoway (scatter basic_p gear_ratio, mcolor(green) sort(basic_p) connect(line)) (scatter foreign gear_ratio, mcolor(black) msymbol(circle_hollow)) (lfit foreign gear_ratio), mcolor(red), yline(0) yline(1) xline(2.5) xline(3) title(probit) 10

Probit -.5 0.5 1 2.00 2.50 3.00 3.50 4.00 Gear Ratio Pr(Foreign) Probit1 Fitted values Car type In corrispondenza di un gear ratio pari a 2.5 non abbiamo alcuna automobile straniera. Le automobili straniere hanno un gear ratio molto più vicino a 3.0. Se consideriamo la linea che si ottiene unendo tutte le predizioni appare evidente come, in corrispondenza del valore 2.5 l inclinazione della funzione in quel punto non sia significativamente diversa da zero. In corrispondenza del valore 3.0 invece la funzione è inclinata positivamente (e presenta un inclinazione simile a quella del modello lineare) 2.3.2 Goodness-of fit (1) (2) (3) Linear probit logit R-squared 0.50 Pseudo R-squared 0.52 0.51 La capacità previsiva dei tre modelli appare molto simile, con un R 2 pari a 0.5 per il modello lineare ed uno pseudo R 2 rispettivamente pari a 0.52 e 0.51 per probit e logit. Conoscete già il significato di R 2 per averlo incontrato nelle precedenti lezioni. Cosa significa invece Pseudo R 2? Quando la variabile dipendente è di tipo qualitativo, l accuratezza della predizione può essere valutata in termini di corrispondenza tra le probabilità calcolate ed il valore reale assunto dalla variabile dipendente o in termini della capacità del modello di prevedere correttamente le risposte osservate. Contrariamente rispetto al modello di regressione lineare, in questo ambito esiste una varietà di misure di goodness of fit. Noi ne vedremo due, lo Pseudo R 2 fornito da Stata e l R 2 p, che confronta la capacità previsiva dei modelli. Lo Pseudo R 2 misura (come del resto accade per l R 2 ) l abilità del modello stimato nello spiegare la variabilità del fenomeno sotto analisi, prendendo come termine di paragone un modello che contenga solo una costante come variabile esplicativa. Quello che Stata chiama Pseudo R 2 è in realtà quello che in letteratura è conosciuto come McFadden R 2. Se indichiamo con log L 1 il valore di massima verosimiglianza del modello stimato e con L 0 il massimo valore della funzione di verosimiglianza quando tutti i parametri, eccettuata l intercetta, sono posti a zero, la formula dello Pseudo R 2 calcolato da Stata (McFadden R 2 ) è: Pseudo R 2 = L 1 1 L 0 11

I valori di L 1 e di L 0 sono ottenibili dalle precedenti regressioni. Prendiamo il modello probit. Il valore di L 0 è quello riportato in corrispondenza dell iterazione 0, ovvero, -45.03321. Il valore di L 1 invece è quello riportato al termine del processo iterativo, ovvero -21.641897. Lo Pseudo R 2-21.641897 allora sarà = 1- =0.519424-45.03321 Potete facilmente calcolare nello stesso modo lo Pseudo R 2 anche per il modello logit. Ricordate sempre che le possibili misure della goodness of fit in questo ambito danno risultati diversi tra loro. E dunque importante sapere di che misura si stia parlando. Passiamo ora all R 2 p. Questo valuta la capacità dei diversi modelli di discriminare correttamente automobili nazionali ed estere. Stabiliamo che il modello preveda y=1 se la probabilità predetta è maggiore di 0.5 e y=0 se la probabilità predetta è minore o uguale a 0.5. Nel nostro caso dovremmo creare tre nuove dummy variables che chiameremo yhat e poi fare una tabulazione nella quale incrociamo la variabile foreign con le predizioni. ----------------------------------------------------- -----. gen yhat_o=basic_o>0.5. gen yhat_p=basic_p>0.5. gen yhat_l=basic_l>0.5 NOTA BENE: in caso in cui abbiamo dei valori mancanti missing STATA li vede come >0.5 Dunque sarà necessario correggere la variabile yhat prima di fare la tabulazione onde evitare errori. E sufficiente scrivere: replace yhat_o =. if basic_o ==. replace yhat_p =. if basic_p ==. replace yhat_l =. if basic_l ==. Nel caso specifico non ce n é bisogno in quanto non abbiamo valori missing.. tab foreign yhat_o yhat_o Car type 0 1 Total -----------+---------------------+--------- Domestic 48 4 52 Foreign 6 16 22 -----------+---------------------+--------- Total 54 20 74 Il modello lineare nelle probabilità identifica correttamente 16 automobili straniere su 22 e 48 automobili nazionali su 52 (in giallo). Ne considera domestiche 6 che in realtà sono straniere e straniere 4 che in realtà sono domestiche, per un totale di 10 previsioni errate.. tab foreign yhat_p yhat_p Car type 0 1 Total -----------+---------------------+--------- Domestic 48 4 52 Foreign 7 15 22 -----------+---------------------+--------- Total 55 19 74. tab foreign yhat_l yhat_l 12

Car type 0 1 Total -----------+---------------------+--------- Domestic 48 4 52 Foreign 7 15 22 -----------+---------------------+--------- Total 55 19 74 I modelli logit e probit invece identificano correttamente 63 automobili e sbagliano in 11 casi. ----------------------------------------------------- ----- A questo punto calcoliamo il valore di R 2 p ( frazione correttamente predetta ) come 1 meno il rapporto tra gli errori di predizione del modello (la somma delle osservazioni erroneamente classificate, ovvero quelle visibili nelle intersezioni 0-1 e 1-0) e quelli fatti da un modello che utilizzi solo la costante (nel nostro caso, essendo le automobili straniere circa un terzo, il modello con la sola costante classificherebbe tutte le automobili come nazionali in quanto il valore medio della variabile sarebbe 22/74 per tutti i tre modelli). Tot. Err. Mod. Utilizziamo la formula 1- Tot. err. Mod.cost Otteniamo i seguenti risultati: (1) (2) (3) Linear probit logit R-squared 0.50 Pseudo R-squared 0.52 0.51 R 2 p 0.55 0.5 0.5 E interessante notare come, mentre dal punto di vista della distanza tra i valori predetti dal modello ed i veri valori il modello lineare fornisce valori mediamente meno precisi (anche se di poco) rispetto ai modelli probit e logit, in questo caso, quando guardiamo alle previsioni che si potrebbero trarre dai vari modelli, il modello lineare dimostra una capacità predittiva (riuscendo ad identificare una autovettura straniera in più). Passiamo ora all analisi multivariata. 3 Analisi multivariata 3.1. Analisi multivariata: osservazioni generali Per analisi multivariata intendiamo un analisi caratterizzata dall inclusione nel modello di almeno due variabili esplicative oltre la costante. Quando inseriamo più variabili esplicative nel nostro modello occorre sempre ricordare che il coefficiente che misura quanto vari Y per un incremento unitario di una variabile esplicativa va inteso a parità delle altre variabili esplicative (ceteris paribus). Questa osservazione è importante in quanto (come vedremo tra poco), a volte risultati apparentemente controintuitivi hanno una chiara spiegazione logica che discende direttamente dalla condizione di ceteris paribus. Come avete già visto nelle lezioni precedenti, nel caso della regressione OLS multivariata che analizzava il rapporto tra risultati scolastici, taglia delle scarpe ed età: l omissione di una variabile esplicativa rilevante (eta) comporta stime distorte dell effetto della variabile inclusa (taglia), nella misura in cui variabile omessa e variabile inclusa covariano. Di fatto, l effetto è quello di male interpretare i risultati. Nel caso che avete già studiato, l omissione dell eta spingeva a sovrastimare l importanza della misura delle scarpe sull abilità di lettura. Nell esempio che segue avremo il caso in cui la presenza congiunta di tre variabili (tutte significative), porterà il coefficiente di una di esse ad assumere valori negativi anziché positivi (come accadrebbe invece in una regressione bivariata che includesse solo questa variabile e la costante) NOTA: E legato a questa considerazione anche il problema delle variabili omesse (e del loro effetto sui coefficienti delle variabili incluse), da voi già osservato per le regressioni col metodo OLS. Nella parte 13

opzionale al termine di questa dispensa riportiamo (per chi fosse interessato) un esempio pratico di test di specificazione (per l individuazione di variabili omesse) per i modelli con variabile dipendente binaria. Le nuove variabili esplicative Avendo a nostra disposizione diverse altre variabili che qualificano le automobili del nostro campione, decidiamo di complicare il nostro modello nel tentativo di ottenere stime più precise. Le variabili da noi utilizzate oltre a gear_ratio sono ora mpg (miglia per gallone) e length (lunghezza in pollici). Dati i ridotti limiti di velocità americani, la storica preferenza degli americani per le automobili di grandi dimensioni e le norme ambientali meno stringenti (oltre al costo minore del carburante) ci possiamo attendere che, oltre ad avere una maggiore accelerazione, le automobili straniere siano meno lunghe di quelle americane e consumino meno. Sapendo che la nostra regressione lineare è caratterizzata da eteroschedasticità negli errori utilizziamo l opzione robust per ottenere stime robuste degli errori standard e delle statistiche t (in realtà questo non ha alcuna influenza sul valore del coefficiente stimato ma solo sulle inferenze che possiamo trarre guardando alle statistiche t ed ai p-value). Per i modelli probit e logit provvediamo inoltre a calcolare gli effetti marginali. Infine calcoliamo il valore di R 2 p. Nella prossima sezione commenteremo i risultati ottenuti. ----------------------------------------------------- ----- reg foreign gear_ratio length mpg, robust Linear regression Number of obs = 74 F( 3, 70) = 42.48 Prob > F = 0.0000 R-squared = 0.5378 Root MSE =.31949 Robust foreign Coef. Std. Err. t P> t [95% Conf. Interval] gear_ratio.6393414.1057089 6.05 0.000.4285117.8501711 length -.0071304.0031749-2.25 0.028 -.0134625 -.0007982 mpg -.0216161.0123189-1.75 0.084 -.0461854.0029532 _cons.1701641.9723644 0.18 0.862-1.769155 2.109484. probit foreign gear_ratio length mpg Iteration 0: log likelihood = -45.03321 Iteration 1: log likelihood = -22.902326 Iteration 2: log likelihood = -18.873092 Iteration 3: log likelihood = -17.951591 Iteration 4: log likelihood = -17.86701 Iteration 5: log likelihood = -17.866096 Iteration 6: log likelihood = -17.866095 Probit regression Number of obs = 74 LR chi2(3) = 54.33 Prob > chi2 = 0.0000 Log likelihood = -17.866095 Pseudo R2 = 0.6033 foreign Coef. Std. Err. z P> z [95% Conf. Interval] gear_ratio 3.530516.9399973 3.76 0.000 1.688155 5.372877 length -.0552598.0228504-2.42 0.016 -.1000458 -.0104738 mpg -.1429545.0649047-2.20 0.028 -.2701653 -.0157437 _cons 1.47855 5.378475 0.27 0.783-9.063067 12.02017 14

. mfx Marginal effects after probit y = Pr(foreign) (predict) =.09559435 variable dy/dx Std. Err. z P> z [ 95% C.I. ] X ---------+-------------------------------------------------------------------- gear_r~o.5994687.24128 2.48 0.013.126578 1.07236 3.01486 length -.0093829.00405-2.32 0.020 -.017319 -.001446 187.932 mpg -.0242732.01272-1.91 0.056 -.049203.000657 21.2973. logit foreign gear_ratio length mpg Iteration 0: log likelihood = -45.03321 Iteration 1: log likelihood = -23.421061 Iteration 2: log likelihood = -19.429308 Iteration 3: log likelihood = -18.403086 Iteration 4: log likelihood = -18.287279 Iteration 5: log likelihood = -18.285113 Iteration 6: log likelihood = -18.285112 Logistic regression Number of obs = 74 LR chi2(3) = 53.50 Prob > chi2 = 0.0000 Log likelihood = -18.285112 Pseudo R2 = 0.5940 foreign Coef. Std. Err. z P> z [95% Conf. Interval] gear_ratio 5.950201 1.69266 3.52 0.000 2.632648 9.267754 length -.0941128.0396714-2.37 0.018 -.1718672 -.0163584 mpg -.2423446.1105339-2.19 0.028 -.4589871 -.0257021 _cons 2.677206 9.221478 0.29 0.772-15.39656 20.75097. mfx Marginal effects after logit y = Pr(foreign) (predict) =.09692461 variable dy/dx Std. Err. z P> z [ 95% C.I. ] X ---------+-------------------------------------------------------------------- gear_r~o.5208224.23228 2.24 0.025.065564.976081 3.01486 length -.0082377.00382-2.16 0.031 -.015727 -.000748 187.932 mpg -.0212125.01168-1.82 0.069 -.044109.001684 21.2973 Generiamo ora nuove variabili per calcolare R 2 p. gen yhat2_o=multi_o>0.5. gen yhat2_p=multi_p>0.5. gen yhat2_l=multi_l>0.5.. tab foreign yhat2_o yhat2_o Car type 0 1 Total -----------+----------------------+---------- Domestic 47 5 52 Foreign 5 17 22 -----------+----------------------+---------- Total 52 22 74. tab foreign yhat2_p yhat2_p Car type 0 1 Total -----------+----------------------+---------- Domestic 47 5 52 15

Foreign 4 18 22 -----------+----------------------+---------- Total 51 23 74. tab foreign yhat2_l yhat2_l Car type 0 1 Total -----------+----------------------+---------- Domestic 47 5 52 Foreign 5 17 22 -----------+----------------------+---------- Total 52 22 74 Ora possiamo calcolare il valore di R 2 p per i tre modelli: Modello lineare e logit (in questo caso sono uguali). display 1-(10/22).54545455 Modello probit. display 1-(9/22).59090909 ----------------------------------------------------- ----- 3.2. Analisi bivariata: interpretazione dei risultati dei tre modelli Anche nel contesto multivariato, ovviamente, vale quanto detto nel contesto bivariato (ovvero quando avevamo semplicemente la costante ed una variabile esplicativa). I coefficienti di probit e logit non rappresentano gli effetti marginali delle variabili esplicative sulla variabile dipendente e dunque per poter valutare l impatto della variabile di riferimento sulla variabile dipendente occorre calcolarli esplicitamente in corrispondenza di un qualche valore delle delle variabili esplicative. Nel nostro caso abbiamo utilizzato nuovamente il comando mfx che ha calcolato di default il valore degli effetti marginali in corrispondenza dei valori medi assunti dalle variabili esplicative. Ecco la tabella riassuntiva con i risultati ottenuti. Gear Ratio (regr bivariata) (1) (2) (3) (2b) (3b) Linear probit logit mfx probit mfx logit 0.713 3.460 5.837 0.827 0.758 (8.48)** (4.85)** (4.47)** (0.187)** (0.207)** Gear Ratio 0.639 3.531 5.950 0.599 0.521 (6.05)** (3.76)** (3.52)** (0.241)* (0.232)* Length (in.) -0.007-0.055-0.094-0.009-0.008 (2.25)* (2.42)* (2.37)* (0.004)* (0.004)* Mileage (mpg) -0.022-0.143-0.242-0.0243-0.021 (1.75) (2.20)* (2.19)* (0.013) (0.012) Constant 0.170 1.479 2.677 (0.18) (0.27) (0.29) Observations 74 74 74 Robust t statistics in parentheses * significant at 5%; ** significant at 1% NOTA: anche se nel nostro esercizio non accade, quando abbiamo tra le variabili esplicative delle variabili dummy binarie - che possono assumere solo valori 0 o 1 - non ha senso pensare a variazioni infinitesime della variabile binaria. Utilizzando il comando mfx comunque Stata provvede autonomamente a modificare il calcolo dell effetto marginale, calcolando l effetto della variazione da 0 ad 1 anziché di una variazione infinitesima. I coefficienti delle variabili dummy vanno dunque interpretati tenendo conto di ciò. 3.2.1 Coefficienti ed effetti marginali 16

Gear ratio Innanzitutto, tutti i modelli da noi stimati confermano i risultati dell analisi bivariata, individuando una relazione positiva tra il gear_ratio e la probabilità che l automobile analizzata sia straniera. In questo caso però il coefficiente stimato ha un valore inferiore a quanto aveva in precedenza. L impatto di una variazione infinitesima del gear_ratio è infatti pari a 0.5-0-6 volte la variazione anziché 0.7-0.8 come accadeva nell analisi bivariata. Questo, come abbiamo accennato in precedenza, è conseguenza del fatto che ora gli effetti marginali stimati vengono calcolati tenendo conto della condizione ceteris paribus, ovvero al netto dell effetto delle altre variabili. Nel caso specifico possiamo pensare che la differenza tra i coefficienti stimati dipenda dal fatto che il coefficiente di gear_ratio nella regressione bivariata catturava anche parte dell effetto delle altre due variabili (la lunghezza dell automobile ed il numero di miglia che questa percorre con un gallone di benzina). Ora, il coefficiente di gear ratio viene osservato al netto dell effetto delle altre due variabili sulla probabilità di trovarsi di fronte ad un automobile straniera. Lunghezza Per quanto riguarda la lunghezza, individuiamo una relazione negativa tra la lunghezza di un automobile e la probabilità che questa sia straniera (le automobili americane tendono ad essere più lunghe). L effetto marginale di un aumento della lunghezza di un automobile sulla probabilità che questa sia straniera viene valutata approssimativamente pari -0.01 volte l incremento della lunghezza in pollici da tutti e tre i modelli. Miglia per gallone I modelli analizzati danno poi un risultato di più difficile interpretazione per quanto riguarda l effetto della variabile mpg (miglia per gallone). Innanzitutto, in tutti i modelli la variabile mpg entra con segno negativo. Questo contraddice la nostra aspettativa che le automobili americane consumino di più, aspettativa che verrebbe confermata anche da un analisi dei valori medi di mpg per le automobili americane e straniere.. sort foreign. by foreign: sum mpg -> foreign = Domestic Variable Obs Mean Std. Dev. Min Max -------------+-------------------------------------------------------- mpg 52 19.82692 4.743297 12 34 -> foreign = Foreign Variable Obs Mean Std. Dev. Min Max -------------+-------------------------------------------------------- mpg 22 24.77273 6.611187 14 41 Cosa sta accadendo? Come è possibile che, se in media le automobili americane consumano in media di più (dunque percorrono mediamente meno miglia con un gallone di carburante), il coefficiente di mpg sia negativo e significativo? Occorre a questo punto ripensare a quanto detto all inizio della sezione sull analisi multivariata a proposito della condizione ceteris paribus. In realtà, quello che il nostro modello ci sta dicendo non è tanto che le automobili americane consumino di meno in assoluto, ma che consumano di meno ceteris paribus, ovvero a parità di lunghezza e di gear_ratio. E facile fare una controprova stimando un modello bivariato con mpg come unica variabile esplicativa.. reg foreign mpg Source SS df MS Number of obs = 74 -------------+------------------------------ F( 1, 72) = 13.18 Model 2.39252954 1 2.39252954 Prob > F = 0.0005 Residual 13.0669299 72.181485138 R-squared = 0.1548 -------------+------------------------------ Adj R-squared = 0.1430 Total 15.4594595 73.211773417 Root MSE =.42601 foreign Coef. Std. Err. t P> t [95% Conf. Interval] 17

mpg.0312915.0086182 3.63 0.001.0141114.0484716 _cons -.3691266.1901085-1.94 0.056 -.7481011.0098478. probit foreign mpg Iteration 0: log likelihood = -45.03321 Iteration 1: log likelihood = -39.338126 Iteration 2: log likelihood = -39.259027 Iteration 3: log likelihood = -39.258972 Probit regression Number of obs = 74 LR chi2(1) = 11.55 Prob > chi2 = 0.0007 Log likelihood = -39.258972 Pseudo R2 = 0.1282 foreign Coef. Std. Err. z P> z [95% Conf. Interval] mpg.0960601.0301523 3.19 0.001.0369627.1551575 _cons -2.635268.6841458-3.85 0.000-3.976169-1.294367. mfx Marginal effects after probit y = Pr(foreign) (predict) =.27778078 variable dy/dx Std. Err. z P> z [ 95% C.I. ] X ---------+-------------------------------------------------------------------- mpg.0322111.01017 3.17 0.002.012283.052139 21.2973 In questo caso, come ci attendevamo, viene trovato un legame di tipo positivo tra miglia percorse per gallone ed il fatto che l automobile sia straniera. Questo modello però non tiene conto di altri fattori, come appunto lunghezza e gear ratio dell automobile. Se è vero che le automobili americane consumano di più, è anche vero che queste sono mediamente più lunghe (e dunque più pesanti). Questo può essere anche notato osservando la correlazione tra le variabili incluse nel nostro modello.. corr mpg length gear_ratio (obs=74) mpg length gear_r~o -------------+--------------------------- mpg 1.0000 length -0.7958 1.0000 gear_ratio 0.6162-0.6964 1.0000. Appare evidente come esistano una correlazione fortemente negativa tra lunghezza e miglia per gallone (e gear ratio) ed una correlazione positiva tra miglia per gallone e gear ratio. Abbiamo visto che la correlazione tra le variabili contribuisce a determinare le stime dei coefficienti. Quello che il nostro modello ci dice in sintesi è che - a parità di peso e di gear ratio - le automobili straniere consumano più carburante. Chiarito il dubbio sul segno, vi è un altro problema. Mentre per il modello lineare l effetto della variabile miglia per gallone non è significativamente diverso da zero (almeno ad un livello di significatività del 5% ), 18

secondo i modelli probit e logit il legame è significativamente diverso da zero. Perché questa apparente contraddizione? Innanzitutto osserviamo che ad un livello di significatività del 10% la variabile mpg sarebbe considerata significativa. Ricordiamo poi che il modello lineare nelle probabilità, ipotizza una relazione lineare (un effetto marginale costante, medio ). Forse il modello lineare incontra maggiori difficoltà a stabilire l esistenza di questa relazione tra mpg e la probabilità che l automobile osservata sia di fabbricazione straniera proprio perché la relazione non è propriamente lineare. I modelli probit e logit, che invece come abbiamo visto nella sezione della stima bivariata tengono conto del fatto che gli effetti marginali sulle probabilità non sono costanti ma possono variare con il variare del valore della variabile esplicativa (si basano espressamente su ipotesi di non linearità della relazione) individuano con maggior precisione la relazione esistente. Se guardiamo - anziché i coefficienti di probit e logit - gli effetti marginali calcolati in corrispondenza del valore medio delle variabili esplicative, troviamo però che anche gli effetti marginali della variabile mpg calcolati dai modelli probit e logit non sono significativamente diversi da zero ad un livello di significatività del 5% mentre lo sono al 10%. Come è possibile questo? Soprattutto, dobbiamo pensare che questo contraddica quanto osservato in precedenza? No. Anche se in corrispondenza dei valori medi delle variabili l effetto marginale di mpg non é significativamente diverso da zero, considerando l intera distribuzione delle probabilità, l effetto è negativo e significativo. Purtroppo non è possibile mostrare graficamente i grafici delle probabilità attese come avevamo fatto nel caso bivariato (avremmo bisogno di una grafica quadridimensionale), ma possiamo verificare che questo è vero ad esempio calcolando gli effetti marginali in corrispondenza di altri valori, non solo di mpg ma anche delle altre variabili. Gli effetti marginali qui sotto riportati sono calcolati rispetto al modello probit ma il concetto non cambierebbe anche calcolando gli effetti marginali per il modello logit.. mfx compute, at(length=168) warning: no value assigned in at() for variables gear_ratio mpg; means used for gear_ratio mpg Marginal effects after probit y = Pr(foreign) (predict) =.41854816 variable dy/dx Std. Err. z P> z [ 95% C.I. ] X ---------+-------------------------------------------------------------------- length -.0215844.01021-2.11 0.035 -.041597 -.001572 168 gear_r~o 1.379013.35175 3.92 0.000.689592 2.06843 3.01486 mpg -.0558378.0279-2.00 0.045 -.110525 -.001151 21.2973. mfx compute, at(mpg=12) warning: no value assigned in at() for variables length gear_ratio; means used for length gear_ratio Marginal effects after probit y = Pr(foreign) (predict) =.50878391 variable dy/dx Std. Err. z P> z [ 95% C.I. ] X ---------+-------------------------------------------------------------------- length -.0220401.009-2.45 0.014 -.039683 -.004397 187.932 gear_r~o 1.408131.3722 3.78 0.000.678628 2.13763 3.01486 mpg -.0570168.02529-2.25 0.024 -.106583 -.007451 12. mfx compute, at(gear_ratio=3.5) warning: no value assigned in at() for variables length mpg; means used for length mpg Marginal effects after probit 19

y = Pr(foreign) (predict) =.65752086 variable dy/dx Std. Err. z P> z [ 95% C.I. ] X ---------+-------------------------------------------------------------------- length -.0203038.00995-2.04 0.041 -.039811 -.000797 187.932 gear_r~o 1.297198.2571 5.05 0.000.793282 1.80111 3.5 mpg -.052525.0236-2.23 0.026 -.098776 -.006274 21.2973 Questi sono ovviamente solo esempi ma dimostrano che, in effetti, in corrispondenza di questi punti l effetto di una variazione di mpg sulle probabilità è significativamente diverso da zero. 3.2.2 Goodness-of-fit R-squared 0.54 Pseudo R-squared 0.60 0.59 R 2 p 0.55 0.59 0.55 La tabella sovrastante riporta i valori per R-quadro, pseudo R-quadro e Frazione correttamente predetta (come viene chiamata dal vostro testo di riferimento) In questo caso il modello probit sovraperforma (seppur di poco) i modelli logit e lineare secondo entrambi i tipi di misura. NOTA:Può essere interessante notare che il modello lineare perde il confronto più nella capacità di definire i veri valori delle probabilità (compresi tra zero ed uno) che non rispetto alla capacità di discriminare correttamente tra automobili americane e straniere. Questo è una conseguenza del fatto che, anche se sbaglia stimando valori di probabilità inferiori a zero e superiori ad uno, tipicamente la capacità di discriminare viene testata maggiormente in corrispondenza delle osservazioni con probabilità stimata attorno lo 0.5. 20