lezione 7 AA Paolo Brunori

Documenti analoghi
lezione 6 AA Paolo Brunori

Esercitazione del

Statistica multivariata Donata Rodi 17/10/2016

Metodi statistici per l economia (Prof. Capitanio) Slide n. 10. Materiale di supporto per le lezioni. Non sostituisce il libro di testo

Statistica Applicata all edilizia: il modello di regressione

Lezione 10: Interpolazione lineare Corso di Statistica Facoltà di Economia Università della Basilicata. Prof. Massimo Aria

Statistica di base per l analisi socio-economica

Il modello di regressione lineare multipla. Il modello di regressione lineare multipla

lezione n. 6 (a cura di Gaia Montanucci) Verosimiglianza: L = = =. Parte dipendente da β 0 e β 1

Variabili indipendenti qualitative. In molte applicazioni si rende necessario l introduzione di un fattore a due o più livelli.

3.1 Classificazione dei fenomeni statistici Questionari e scale di modalità Classificazione delle scale di modalità 17

Tema d esame del 15/02/12

Statistica - metodologie per le scienze economiche e sociali /2e S. Borra, A. Di Ciaccio - McGraw Hill

Metodologia Sperimentale Agronomica / Metodi Statistici per la Ricerca Ambientale

Funzioni di regressione non lineari

Capitolo 1 MODELLI ECONOMICI DEL TASSO DI CAMBIO 11

REGRESSIONE E CORRELAZIONE

Corso di Psicometria Progredito

Econometria. lezione 13. validità interna ed esterna. Econometria. lezione 13. AA Paolo Brunori

Statistica. Esercitazione 16. Alfonso Iodice D Enza iodicede@unicas.it. Università degli studi di Cassino. Statistica. A. Iodice

Regressione lineare multipla CORSO DI ANALISI DEI DATI Anno Accademico 2009/2010, I ciclo

Statistica. Alfonso Iodice D Enza

STATISTICA (2) ESERCITAZIONE Dott.ssa Antonella Costanzo

STATISTICA esercizi svolti su: INTERPOLAZIONE PONDERATA, REGRESSIONE E CORRELAZIONE

SCOPO DELL ANALISI DI CORRELAZIONE

Strumenti di indagine per la valutazione psicologica

Statistica. Alfonso Iodice D Enza

Regressione Lineare con un Singolo Regressore

ESERCITAZIONE IV - Soluzioni

Il modello di regressione lineare classico

Esercizi su distribuzioni doppie, dipendenza, correlazione e regressione (Statistica I, IV Canale)

Il modello di regressione lineare multivariata

Test F per la significatività del modello

Regressione multipla

Il confronto fra medie

Università del Piemonte Orientale Corso di Laurea in Medicina e Chirurgia. Corso di Statistica Medica. Correlazione. Regressione Lineare

Il modello lineare misto

Statistica. Esercitazione 4 17 febbraio 2011 Medie condizionate. Covarianza e correlazione

0 altimenti 1 soggetto trova lavoroentro 6 mesi}

Regressione Semplice. Correlazioni. sconto leverage. sconto Correlazione di Pearson 1,275. Sign. (a due code),141

Una stima aggregata dell effetto Brunetta Risultati molto preliminari

Indici di variabilità ed eterogeneità

Statistica. Esercitazione 4 15 maggio 2012 Connessione. Medie condizionate. Covarianza e correlazione

ESERCIZI DI RIEPILOGO 1

CAPITOLO 11 ANALISI DI REGRESSIONE

Tecniche statistiche di analisi del cambiamento

Metodi di regressione multivariata

Il metodo dei minimi quadrati. Molto spesso due grandezze fisiche x e y, misurabili direttamente, sono legate tra loro da una legge del tipo:

Analisi della correlazione canonica

Verifica di ipotesi e intervalli di confidenza nella regressione multipla

Facoltà di Scienze Statistiche Corso di Laurea in Statistica ed Informatica per l Azienda ESERCIZI DI ALLENAMENTO a.a.

11.2. Introduzione alla statistica 2/ed. Marilyn K. Pelosi, Theresa M. Sandifer, Paola Cerchiello, Paolo Giudici

LEZIONI IN LABORATORIO Corso di MARKETING L. Baldi Università degli Studi di Milano. Strumenti statistici in Excell

Il modello di regressione

Lezioni di Statistica del 15 e 18 aprile Docente: Massimo Cristallo

Appunti di Econometria

Modelli Multilineari e Misure di adeguatezza del modello

Correlazione. Daniela Valenti, Treccani Scuola 1

REGRESSIONE lineare e CORRELAZIONE. Con variabili quantitative che si possono esprimere in un ampio ampio intervallo di valori

Associazione tra caratteri quantitativi: gli indici di correlazione

Ringraziamenti dell Editore

Principi di analisi causale Lezione 3

Corso di Statistica Industriale

La regressione fuzzy. Capitolo I limiti della regressione classica. a cura di Fabrizio Maturo

1.4. Siano X B(1, 1/2) e Y B(1, 1/2) variabili aleatorie indipendenti. Quale delle seguenti affermazioni é falsa? E(X + Y ) = 1 V ar(x + Y ) = 1/2

Università di Pavia. Test diagnostici. Eduardo Rossi

Proprietà della varianza

PROBABILITÀ SCHEDA N. 5 SOMMA E DIFFERENZA DI DUE VARIABILI ALEATORIE DISCRETE

lezione 18 AA Paolo Brunori

Università del Piemonte Orientale Specializzazioni di area sanitaria Statistica Medica

Correlazione e regressione

Σ (x i - x) 2 = Σ x i 2 - (Σ x i ) 2 / n Σ (y i - y) 2 = Σ y i 2 - (Σ y i ) 2 / n. 13. Regressione lineare parametrica

Covarianza, correlazione e retta di regressione. Paola Lecca, CIBIO UNITN Corso di Matematica e Statistica 2

Il metodo della regressione

i dati escludono vi sia una relazione tra variabile indipendente e variabile dipendente (rispettivamente

Capitolo 12. Suggerimenti agli esercizi a cura di Elena Siletti. Esercizio 12.1: Suggerimento

Test per la correlazione lineare

L elasticità e le sue applicazioni in economia Introduzione

Metodologie Quantitative

Corso integrato di informatica, statistica e analisi dei dati sperimentali Esercitazione VII

Politecnico di Milano - Scuola di Ingegneria Industriale. II Prova in Itinere di Statistica per Ingegneria Energetica 25 luglio 2011

Distribuzioni e inferenza statistica

Esercitazioni di Statistica

PROCEDURE/TECNICHE DI ANALISI / MISURE DI ASSOCIAZIONE A) ANALISI DELLA VARIANZA

Metodi per la riduzione della dimensionalità. Strumenti quantitativi per la gestione

Esame di Statistica (10 o 12 CFU) CLEF 11 febbraio 2016

ITCS Erasmo da Rotterdam. Anno Scolastico 2014/2015. CLASSE 4^ M Costruzioni, ambiente e territorio

Analisi descrittiva: calcolando medie campionarie, varianze campionarie e deviazioni standard campionarie otteniamo i dati:

METODO DEI MINIMI QUADRATI

Indagine sulle forze di lavoro nel Comune di Firenze. Nota metodologica

βˆ (pendenza della retta) =

Ogni misura è composta di almeno tre dati: un numero, un'unità di misura, un'incertezza.

obbligatorio - n. iscrizione sulla lista

GENETICA QUANTITATIVA

LA REGRESSIONE LINEARE NELLA RICERCA CLINICA

La regressione lineare multipla

Matricola: Corso: 1. (4 Punti) Stimare la variazione del reddito quando il prezzo del prodotto finale raddoppia.

Gli errori nella verifica delle ipotesi

Esercitazione II Statistica e Calcolo delle Probabilità (con soluzioni)

Modelli a effetti misti

Transcript:

AA 2016-2017 Paolo Brunori

dove siamo arrivati? - se siamo interessati a studiare l andamento congiunto di due fenomeni economici - possiamo provare a misurare i due fenomeni e poi usare la lineare semplice per valutare quanto il legame fra due fenomeni sia ben approssimato da una relazione lineare - questo metodo ci fornisce: una stima dei due parametri che definiscono la forza della relazione fra i due fenomeni, il livello di incertezza delle stime, una quantificazione della bontà di adattamento dei dati al modello (quanto bene il modello spiega i dati)

Uragani con nomi femminili sono più pericolosi di quelli con nomi maschili?

Uragani con nomi femminili sono più pericolosi di quelli con nomi maschili?

Uragani con nomi femminili sono più pericolosi di quelli con nomi maschili? numero di morti 0 20 40 60 80 1950 1960 1970 1980 1990 2000 2010 anno

Uragani con nomi femminili sono più pericolosi di quelli con nomi maschili? numero di morti 0 20 40 60 80 1950 1960 1970 1980 1990 2000 2010 anno in verde uragani con nome femminile

variabili omesse - come visto nel caso dei dati di consumo di tabacco in Turchia, è difficile ipotizzare che una sola variabile indipendente spieghi il comportamento della dipendete - in generale infatti u cattura l effetto di tutte quelle variabili che influenzano Y ma non sono considerate/osservabili - l omissione di una variabile Z distorce lo stimatore OLS se si verificano due condizioni : 1. Z è una delle variabili che determina Y 2. corr(x, Z) 0

esempio: Y = consumo tabacco, X= prezzo, Z= reddito pro capite - condizione 1: Z ha un impatto su Y? - condizione 2: Z potrebbe essere correlato con X? - qual è la direzione attesa della distorsione?

direzione della direzione da variabile omessa - is segno della distorsione è pari al segno del prodotto fra le due correlazioni: corr(z, X) corr(y, Z) corr(z, X) < 0 e corr(y, Z) > 0 ˆβ 1 < β 1 corr(z, X) < 0 e corr(y, Z) < 0 ˆβ 1 > β 1 corr(z, X) > 0 e corr(y, Z) > 0 ˆβ 1 > β 1 corr(z, X) > 0 e corr(y, Z) < 0 ˆβ 1 < β 1

esempio: X ore studiate, Y voto all esame, Z domande copiate - condizione 1: Z ha un impatto su Y? - condizione 2: Z potrebbe essere correlato con X? - qual è la direzione attesa della distorsione? - studenti che non studiano e copiano di più prenderanno un voto alto - questo diminuirà la mia stima di quanto valga studiare in termini di aumento di voto β 1 - la distorsione è verso il basso ˆβ 1 < β 1 - infatti il prodotto di corr(z, X) < 0 e corr(y, Z) > 0 è negativo

distorsione per variabili omesse espressa in termini di covarianza di X e u - lim n + ( ˆβ 1 β 1 ) = 0 sotto l assunzione: - in caso contrario: cov(x i, u i ) = 0 lim n + ( ˆβ 1 β 1 ) = σ u σ X ρ u,x

segnali di possibili variabili omesse - con R possiamo verificare l assunzione creando un grafico dei residui e dei valori predetti di Y - Ŷ sono una combinazione lineare di X Residuals vs Fitted 19 Residuals -0.4-0.2 0.0 0.2 27 25 2.0 2.1 2.2 2.3 2.4 2.5 Fitted values lm(q ~ P + Y)

cosa vogliamo misurare con β 1? - β 1 può essere semplicemente la pendenza della retta che interpola un grafico a dispersione - β 1 può invece servire a predirre Y X - β 1 come effetto causale di X su Y che cosa si intende per nesso di causalità?

con due regressori - Y, X 1, X 2 - siamo alla ricerca della relazione: E(Y i X 1,i = x i, X 2,i = x 2 ) - se lineare ha la forma generica: E(Y i X 1,i = x i, X 2,i = x 2 ) = β 0 + β 1 x 1 + β 2 x 2

Consumo di tabacco, prezzo, reddito in Turchia Q 1.8 2.0 2.2 2.4 2.6 2.8 2500 3000 3500 4000 4500 5000 5500 6000 4.0 3.5 3.0 2.5 2.0 1.5 1.0 P Y

definizioni - Y = β 0 + β 1 x 1 + β 2 x 2 è la retta (in realtà un piano!) di della popolazione - β 0 è l intercetta - β 1, β 2 sono i coefficienti associati alle variabili X 1, X 2 - analogamente a quanto visto per un solo regressore: - quindi β 1 = Y X 1 costante X 2 ) Y + Y = β 0 + β 1 (X 1 + X 1 ) + β 2 X 2 è l effetto parziale di X 1 (tenendo

il piano di Q 1.8 2.0 2.2 2.4 2.6 2.8 2500 3000 3500 4000 4500 5000 5500 6000 4.0 3.5 3.0 2.5 2.0 1.5 1.0 P Y

il piano di Q 1.8 2.0 2.2 2.4 2.6 2.8 2500 3000 3500 4000 4500 5000 5500 6000 4.0 3.5 3.0 2.5 2.0 1.5 1.0 P Y

- seppur difficile da vedere graficamente Y può essere una funzione di molte variabili - per un numero generico k di regressori il modello di prende la forma: Y i = β 0 + β 1 X 1,i + β 2 X 2,i +... + β k X k,i + u i

stimatore OLS della - gli stimatori ˆβ i che vengono normalmente utilizzati sono quelli che minimizzano: n (Y i b 0 b 1 X 1,i... b k X k,1 ) 2 i=1 - le formule per ottenerli sono in formula matriciale e potete consultarli qui - la terminologia è la stessa usata per il modello con un regressore: stimatori OLS: ˆβ 0, ˆβ 1,... valore predetto: Ŷ i residuo û i

Regressione del consumo di tabacco coefficiente errore standard t valore p β 0 1.6572 0.1237 13.394 0.0000 β Y 0.0003 0.0000 6.518 0.0000 β P -0.0423 0.0096-4.3662 0.0001 - come posso interpretare questi coefficienti?

R 2 - è la frazione della varianza campionaria spiegata dai regressori R 2 = ESS TSS = 1 SSR TSS - R 2 [0, 1] - nella R 2 cresce all aumentare dei regressori - k = n 1 regressori mi garantiscono sempre un interpolazione perfetta (se i regressori sono k oltre l intercetta β 0 ) - nel modello del fumo di tabacco R 2 = 0.6406

R 2 corretto - è possibile tener conto del numero di regressori R 2 = R 2 (1 R 2 k ) n k 1 - R 2 > R 2 sempre - due effetti dell aggiunta di un regressorie: - R 2 può essere minore di zero - nel modello del fumo di tabacco R 2 = 0.6129