Analisi di Regressione Multipla

Documenti analoghi
Metodi statistici per l economia (Prof. Capitanio) Slide n. 10. Materiale di supporto per le lezioni. Non sostituisce il libro di testo

Statistica. Capitolo 12. Regressione Lineare Semplice. Cap. 12-1

lezione 4 AA Paolo Brunori

Il modello di regressione lineare multipla. Il modello di regressione lineare multipla

1. variabili dicotomiche: 2 sole categorie A e B

Regressione Lineare Semplice e Correlazione

Analisi della regressione multipla

Metodi statistici per la ricerca sociale Capitolo 11. Regressione Multipla e Correlazione

lezione 7 AA Paolo Brunori

lezione 13 AA Paolo Brunori

Nel modello omoschedastico la varianza dell errore non dipende da i ed è quindi pari a σ 0.

MODELLO DI REGRESSIONE LINEARE. le ipotesi del modello di regressione classico, stima con i metodi dei minimi quadrati e di massima verosimiglianza,

lezione 9 AA Paolo Brunori

STATISTICA. Regressione-3 L inferenza per il modello lineare semplice

Regressione lineare multipla

Regressione & Correlazione

La regressione lineare semplice

Esercizi di statistica

Esercitazione del

lezione 8 AA Paolo Brunori

Old Faithful, Yellowstone Park. Statistica e biometria. D. Bertacchi. Dati congiunti. Tabella. Scatterplot. Covarianza. Correlazione.

Il modello di regressione lineare multivariata

STATISTICA A K (60 ore)

Regressione lineare con un solo regressore

Minimi quadrati ordinari Interpretazione geometrica. Eduardo Rossi

Esercitazione 5 - Statistica (parte II) Davide Passaretti 9/3/2017

Fasi del modello di regressione

L'analisi bivariata (analisi della varianza e correlazione) Prof. Stefano Nobile. Corso di Metodologia della ricerca sociale

Capitolo 12 La regressione lineare semplice

Correlazione e regressione

ECONOMETRIA: Laboratorio I

Analisi di Regressione Multivariata. β matrice incognita dei coeff. di regressione (regr. lineare in β)

STATISTICA (2) ESERCITAZIONE Dott.ssa Antonella Costanzo

Statistica 1 A.A. 2015/2016

Statistica multivariata Donata Rodi 17/10/2016

R - Esercitazione 6. Andrea Fasulo Venerdì 22 Dicembre Università Roma Tre

s a Inferenza: singolo parametro Sistema di ipotesi: : β j = β j0 H 1 β j0 statistica test t confronto con valore t o p-value

Argomenti della lezione:

2. SPECIFICAZIONE DI UN MODELLO DI REGRESSIONE MULTIPLA

Università di Pavia Econometria Esercizi 4 Soluzioni

Regressione Lineare con regressori multipli

Modelli Statistici per l Economia. Regressione lineare con regressori multipli

Università del Piemonte Orientale Corso di Laurea in Medicina e Chirurgia. Corso di Statistica Medica. Correlazione. Regressione Lineare

Metodologie Quantitative

Variabili indipendenti qualitative. In molte applicazioni si rende necessario l introduzione di un fattore a due o più livelli.

Statistica Applicata all edilizia: il modello di regressione

Contenuto del capitolo

Il modello di regressione lineare multipla con regressori stocastici

Università del Piemonte Orientale Corso di Laurea in Medicina e Chirurgia. Corso di Statistica Medica. Correlazione. Regressione Lineare

Lezione 18. Statistica. Alfonso Iodice D Enza Università degli studi di Cassino. Lezione 18. A. Iodice

lezione n. 6 (a cura di Gaia Montanucci) Verosimiglianza: L = = =. Parte dipendente da β 0 e β 1

STATISTICA. Regressione-2

Test F per la significatività del modello

Esercitazioni di Statistica Dott.ssa Cristina Mollica

ANALISI DELLE SERIE STORICHE

Regressione Mario Guarracino Laboratorio di Sistemi Informativi Aziendali a.a. 2006/2007

Esercizio 2: voto e ore dedicate allo studio

Università di Pavia Econometria. Minimi quadrati ordinari Interpretazione geometrica. Eduardo Rossi

Esercitazione 1. 6 Marzo 2019

Statistica descrittiva in due variabili

Indipendenza, Dipendenza e interdipendenza

Regressione multipla

REGRESSIONE lineare e CORRELAZIONE. Con variabili quantitative che si possono esprimere in un ampio ampio intervallo di valori

Analisi della Regressione Lineare

Statistica - metodologie per le scienze economiche e sociali /2e S. Borra, A. Di Ciaccio - McGraw Hill

Minimi quadrati vincolati e test F

Il modello di regressione lineare classico

Correlazione tra due variabili

Corso di Laurea: Numero di Matricola: Esame del 31 maggio 2018 Tempo consentito: 120 minuti

Il modello di regressione (VEDI CAP 12 VOLUME IEZZI, 2009)

Corso di Statistica Industriale

IL METODO ECONOMETRICO

CORSO DI STATISTICA (parte 1) - ESERCITAZIONE 6

Esercitazione 5 Sta/s/ca Aziendale

Il modello di regressione

CONFRONTO TRA LA MEDIE DI DUE CAMPIONI INDIPENDENTI

La regressione lineare multipla

Microeconometria Day # 3 L. Cembalo. Regressione con due variabili e metodo dei minimi quadrati

Contenuti: Capitolo 14 del libro di testo

Corso in Statistica Medica

Tema d esame del 15/02/12

Relazione tra variabili (cont.) Due variabili continue. Una variabile continua e un altra qualitativa o discreta.

Dispensa di Statistica

Regressione lineare semplice

LA MEDIA CAMPIONARIA 14-1

Vogliamo determinare una funzione lineare che meglio approssima i nostri dati sperimentali e poter decidere sulla bontà di questa approssimazione.

La regressione fuzzy. Capitolo I limiti della regressione classica. a cura di Fabrizio Maturo

La media e la mediana sono indicatori di centralità, che indicano un centro dei dati.

STATISTICA A D (72 ore)

Laboratorio di Statistica Aziendale Modello di regressione lineare multipla

Psicometria con Laboratorio di SPSS 2

Tecniche di sondaggio

Università di Pavia Econometria Esercizi 5

La statistica è la scienza che permette di conoscere il mondo intorno a noi attraverso i dati.

Università di Siena. Teoria della Stima. Lucidi del corso di. Identificazione e Analisi dei Dati A.A

Interpolazione e metodo dei minimi quadrati

Matematica Lezione 22

Transcript:

Analisi di Regressione Multipla

Stima OLS della relazione Test Score/STR : TestScore! = 698.9.8 STR, R =.05, SER = 18.6 (10.4) (0.5) E una stima credibile dell effetto causale sul rendimento nei test di un cambio del rapporto studenti-insegnanti? No: ci sono fattori omessi che confondono l effetto (reddito familiare; se lo studente parla l inglese come lingua madre) questi rendono le stime OLS distorte: STR cattura anche l effetto dei fattori omessi.

Analisi di Regressione Multipla y = β 0 + β 1 x 1 + β x +... β k x k + u 1. Stima

Similarità con la regressione semplice β 0 è la costante (intercetta della regressione) da β 1 a β k sono tutti chiamati coefficienti angolari u è l errore stocastico (o disturbo) Abbiamo bisogno dell assunzione sulla media condizionata pari a zero, ovvero E(u x 1,x,,x k ) = 0 Dobbiamo sempre minimizzare la somma dei quadrati dei residui, così avremo k+1 condizioni del primo ordine

Interpretazione della regressione multipla yˆ = βˆ + βˆ x + βˆ x +... + βˆ x, da cui 0 1 1 Δ yˆ = Δ βˆ x + Δ βˆ x +... + Δβˆ x, 1 1 perciò mantenendo fisse x,..., x si ha che Δ yˆ = Δβˆ x, cioè ogni β ha 1 1 una interpretazione ceteris paribus k k k k k

Interpretazione della regressione multipla Consideriamo il caso k =, perciò yˆ = ˆ ˆ x ˆ β + β + β x 0 1 1 ( ) 1 i1 i i1 i1 1 0, quindi ˆ β = rˆ y rˆ, dove rˆ sono i residui della stima della regressione xˆ = γˆ + γˆ xˆ

Interpretazione della regressione multipla L equazione precedente implica che regredendo y su x 1 e x otteniamo lo stesso effetto per x 1 che otterremmo regredendo y su i residui della regressione di x 1 su x Questo significa che solo la parte di x i1 che è non correlata con x i serve a spiegare la y i perciò stiamo stimando l effetto di x 1 su y dopo aver depurato l effetto di x su x 1

Regressione semplice e regressione multipla Confrontiamo la regressione semplice y! con la regressione multipla yˆ = βˆ + βˆ x + βˆ x In genere, 1 1 1 tranne il caso in cui: 0 1 1 βˆ = 0 (perciò l'effetto parziale di x è nullo) O x e x β! βˆ = β! + β! x non sono correlate nel campione di dati 0 1 1

Bontà del modello Possiamo pensare ad ogni osservazione come composta da una parte spiegata, ed una non spiegata, y = yˆ + u ˆ definiamo: i i i ( ) i y y somma totale degli scostamenti dalla media al quadrato (SST) ( ŷ y) i i somma spiegata degli scostamenti dalla media al quadrato (SSE) û somma dei residui al quadrato (SSR) Quindi SST = SSE + SSR

Bontà del modello Quanto bene la nostra retta di regressione si adatta ai dati? Possiamo calcolare la proporzione della somma totale degli scarti al quadrato (SST) che è spiegata dal modello, chiamiamo questa misura R-quadro della regressione R = SSE/SST = 1 SSR/SST

Bontà del modello Si può pensare a R correlazione tra il valore osservato y R = ( ( )( ) y ˆ ˆ i y y i y ( ) ( ( y ) ) ( ˆ ˆ ) i y y i y come uguale al quadrato del coefficiente di i e il valore stimato yˆ i

R-quadro R non può mai diminuire quando una nuova variabile indipendente è aggiunta alla regressione, anzi, è molto probabile che crescerà Poiché R tende a crescere con il numero di variabili indipendenti incluse, non è una misura adeguata per confrontare diversi modelli di regressione

Assunzioni per Correttezza Modello di regressione della popolazione è lineare nei parametri: y = β 0 + β 1 x 1 + β x + + β k x k + u Le assunzioni sono quelle della regressione semplice più quella relativa alla non collinearità perfetta tra le variabili indipendenti: E(u x 1, x, x k ) = 0, implica che tutte le variabili esplicative sono esogene ; Utilizziamo un campione casuale di dimensione n, {(x i1, x i,, x ik, y i ): i=1,,, n}, dal modello di popolazione, in modo tale che il modello campionario è y i = β 0 + β 1 x i1 + β x i + + β k x ik + u i ; X e u hanno quattro momenti, cioé: E(X 4 ) < + e E(u 4 ) < +. Nessuna delle x è costante, e non esiste una relazione lineare perfetta tra loro (collinearità)

Troppe o Poche Variabili Cosa succede se nel modello di regressione si inseriscono variabili non rilevanti? Non c è effetto sulle stime dei parametri, e le stime OLS restano corrette Cosa succede se escludiamo variabili rilevanti? Le stime OLS saranno distorte

Errore per Variabili Rilevanti Omesse Supponiamo che il modello vero sia y = β + β x + β x + u, ma stimiamo 0 1 1 y! = β! + β! x + u, quindi β! 0 1 1 ( ) x x y = i1 1 i 1 ( x x ) i1 1

Il modelo vero è y = β + β x + β x + u i 0 1 i1 i i al numeratore si ottiene β Errore per Variabili Rilevanti Omesse ( )( ) i1 1 0 1 i1 i i, sostituendo x x β + β x + β x + u = x x + β x x x + x x u ( ) ( ) ( ) 1 i1 1 i1 1 i i1 1 i

Errore per Variabili Rilevanti Omesse (! ) ( ) ( i ) ) ( x x ) x i1 1 i ( ) ) x x i1 1 ( ) ( i ) ) β! = β + β x x x + x x u x x x x i1 1 i i1 1 i 1 1 1 1 1 poichè E( u ) = 0, prendendo il valore atteso E β = β + β i 1 1

Errore per Variabili Rilevanti Omesse Consideriamo la regressione di x! = δ! + δ! x da cui δ! = su 1 ( x x ) x i1 1 i ( ) ) x x i1 1 0 1 1 1 x x quindi E ( ) β! = β + β δ! 1 1 1

Sintesi sulla Direzione dell Errore Corr(x 1, x ) > 0 Corr(x 1, x ) < 0 β > 0 β < 0 errore positivo errore negativo errore negativo errore positivo

Sintesi sull Errore dovuto a Variabili rilevanti Omesse Due casi in cui l errore è uguale a zero β = 0, cioè x non appartiene al modello e/o x 1 e x non sono correlate nel campione. Se la correlazione tra x, x 1 e x, y è nella stessa direzione, l errore sarà positivo Se la correlazione tra x, x 1 e x, y è in direzione opposto, l errore sarà negativo

Il Caso Generale Tecnicamente, possiamo stabilire il segno dell errore solo nel caso generale che tutte le variabili x sono non correlate Assumiamo che le variabili x non sono correlate

Varianza degli stimatori OLS Sappiamo che la distribuzione della nostra stima è centrata intorno al valore vero del parametro. Quanto dispersa è questa distribuzione? Misuriamo la dispersione con la varianza della distribuzione, Assumendo Var(u x 1, x,, x k ) = σ (Omoschedasticità)

Varianza degli stimatori OLS Sia x un vettore di variabili (x 1, x, x k ) Assumiamo che Var(u x) = σ che implica Var(y x) = σ Le 4 assunzioni di correttezza, più quella di omoschedasticità sono conosciute come assunzioni di Gauss-Markov

Varianza degli stimatori OLS Date le assunzioni Gauss-Markov Var ( ˆ ) j β = SST j σ ( 1 R ) j, dove ( ) e è j ij j j SST = x x R R della regressione di x j su tutte le altre x

Componenti della Varianza degli stimatori OLS La varianza degli errori: una misura grande di σ implica una varianza grande degli stimatori OLS La varianza campionaria complessiva della variabile j: una più grande SST j implica una varianza degli stimatori OLS più piccola Relazione lineare tra le variabili indipendenti: un valore più grande di R j implica una maggiore varianza degli stimatori OLS

Modelli di Regressione non Correttamente Specificati Consideriamo un modello non correttamente specificato y = β! + β! x, tale che Var β! = Perciò, x e 1 ( β! ) ( ˆ ) 1 < Var β1 ( ) 0 1 1 1 x Var non sono correlate, σ SST 1 tranne il caso in cui

Modelli di Regressione non Correttamente Specificati Mentre la varianza dello stimatore del modello non correttamente specificato è minore del modello corretto, tranne il caso in cui β = 0 lo stimatore del modello non correttamente specificato è distorto All aumentare della dimensione campionaria, la varianza per ogni stimatore converge a zero, e la differenza delle varianze diventa meno importante

Stima della Varianza dell Errore Non conosciamo la varianza dell errore, σ, perché non osserviamo l errore, u i Cosa osserviamo è il residuo, û i Possiamo utilizzare i residui per stimare la varianza dell errore

Stima della Varianza dell Errore ( ) ( ) i σˆ = uˆ n k 1 SSR df ( ) βˆ σˆ ( ) j j j perciò, se = SST 1 R df = n (k + 1), or df = n k 1 df ( degrees of freedom, gradi di libertà ) pari al numero di osservazioni numero di parametri 1

Il Teorema Gauss-Markov Date le 5 assunzioni Gauss-Markov si può dimostrare che lo stimatore OLS è BLUE Best Linear Unbiased Estimator Perciò, se le assunzioni sono valide, usa lo stimatore OLS