Modelli Statistici per l Economia. Regressione lineare con regressori multipli

Documenti analoghi
Regressione lineare multipla

lezione 7 AA Paolo Brunori

Regressione lineare con un solo regressore

Esercitazione del

Il modello di regressione lineare multipla con regressori stocastici

lezione n. 6 (a cura di Gaia Montanucci) Verosimiglianza: L = = =. Parte dipendente da β 0 e β 1

R - Esercitazione 6. Andrea Fasulo Venerdì 22 Dicembre Università Roma Tre

Statistica. Capitolo 12. Regressione Lineare Semplice. Cap. 12-1

Statistica Applicata all edilizia: il modello di regressione

Esercizi di statistica

Regressione Lineare Semplice e Correlazione

Analisi della regressione multipla

Il modello di regressione lineare multipla. Il modello di regressione lineare multipla

lezione 9 AA Paolo Brunori

Regressione lineare semplice

MODELLO DI REGRESSIONE LINEARE. le ipotesi del modello di regressione classico, stima con i metodi dei minimi quadrati e di massima verosimiglianza,

STATISTICA (2) ESERCITAZIONE Dott.ssa Antonella Costanzo

Statistica di base per l analisi socio-economica

Schema della lezione. 1. Non correttezza ( bias ) dovuta a variabili omesse

Presentazione dell edizione italiana Prefazione xix Ringraziamenti xxii Glossario dei simboli xxiii

Questo calcolo richiede che si conoscano media e deviazione standard della popolazione.

lezione 10 AA Paolo Brunori

Confronto fra gruppi: il metodo ANOVA. Nicola Tedesco (Statistica Sociale) Confronto fra gruppi: il metodo ANOVA 1 / 23

Università del Piemonte Orientale. Corso di laurea in medicina e chirurgia. Corso di Statistica Medica. La distribuzione t - student

Test delle Ipotesi Parte I

Il modello di regressione (VEDI CAP 12 VOLUME IEZZI, 2009)

3.1 Classificazione dei fenomeni statistici Questionari e scale di modalità Classificazione delle scale di modalità 17

La regressione lineare multipla

STATISTICA A K (60 ore)

Dispensa di Statistica

lezione 8 AA Paolo Brunori

REGRESSIONE E CORRELAZIONE

TOPOGRAFIA 2013/2014. Prof. Francesco-Gaspare Caputo

Data Mining. Prova parziale del 20 aprile 2017: SOLUZIONE

L indagine campionaria Lezione 3

Metodi statistici per l economia (Prof. Capitanio) Slide n. 10. Materiale di supporto per le lezioni. Non sostituisce il libro di testo

Analisi di Regressione Multivariata. β matrice incognita dei coeff. di regressione (regr. lineare in β)

CHEMIOMETRIA. CONFRONTO CON VALORE ATTESO (test d ipotesi) CONFRONTO DI VALORI MISURATI (test d ipotesi) CONFRONTO DI RIPRODUCIBILITA (test d ipotesi)

Esercizio 2: voto e ore dedicate allo studio

La regressione lineare. Rappresentazione analitica delle distribuzioni

Statistica multivariata Donata Rodi 17/10/2016

Regressione Mario Guarracino Laboratorio di Sistemi Informativi Aziendali a.a. 2006/2007

Esercitazione 8 maggio 2014

Capitolo 1 MODELLI ECONOMICI DEL TASSO DI CAMBIO 11

Statistica Inferenziale

Argomenti della lezione:

Esercitazione 5 - Statistica (parte II) Davide Passaretti 9/3/2017

Il numero di gradi di libertà del quantile di riferimento è uguale al numero di elementi del campione meno uno;

Variabili indipendenti qualitative. In molte applicazioni si rende necessario l introduzione di un fattore a due o più livelli.

Cognome e Nome:... Corso di laurea:...

Esercitazione 9 del corso di Statistica (parte seconda)

Esercitazione 5 Sta/s/ca Aziendale

LE DISTRIBUZIONI CAMPIONARIE

METODO DEI MINIMI QUADRATI

Statistica Descrittiva Soluzioni 7. Interpolazione: minimi quadrati

Analisi della varianza

Laboratorio di Didattica di elaborazione dati 5 STIMA PUNTUALE DEI PARAMETRI. x i. SE = n.

Il processo inferenziale consente di generalizzare, con un certo grado di sicurezza, i risultati ottenuti osservando uno o più campioni

Laboratorio di Statistica 1 con R Esercizi per la Relazione. I testi e/o i dati degli esercizi contassegnati da sono tratti dai libri consigliati

Esame di Statistica del 16 aprile 2007 (Corso di Laurea Triennale in Biotecnologie, Università degli Studi di Padova). Cognome Nome Matricola

Facoltà di Scienze Statistiche Corso di Laurea in Statistica ed Informatica per l Azienda ESERCIZI DI ALLENAMENTO a.a.

Analisi Multivariata dei Dati. Regressione Multipla

Cognome e Nome:... Matricola e corso di laurea:...

Minimi quadrati vincolati e test F

Statistica Inferenziale

ANALISI MULTIVARIATA

Statistica Inferenziale

Statistica - metodologie per le scienze economiche e sociali /2e S. Borra, A. Di Ciaccio - McGraw Hill

Σ (x i - x) 2 = Σ x i 2 - (Σ x i ) 2 / n Σ (y i - y) 2 = Σ y i 2 - (Σ y i ) 2 / n. 13. Regressione lineare parametrica

Sommario. Capitolo 1 I dati e la statistica 1. Capitolo 2 Statistica descrittiva: tabelle e rappresentazioni grafiche 25

Approssimazione normale alla distribuzione binomiale

Il modello di regressione lineare classico

Statistica per le ricerche di mercato. 11. La regressione lineare multipla

PROBABILITÀ ELEMENTARE

Statistica Metodologica

ESAME. 9 Gennaio 2017 COMPITO B

Regressione multipla

le scale di misura scala nominale scala ordinale DIAGNOSTICA PSICOLOGICA lezione si basano su tre elementi:

Sperimentazioni di Fisica I mod. A Statistica - Lezione 2

Università del Piemonte Orientale Corso di Laurea in Medicina e Chirurgia. Corso di Statistica Medica. Correlazione. Regressione Lineare

i dati escludono vi sia una relazione tra variabile indipendente e variabile dipendente (rispettivamente

Capitolo 8. Intervalli di confidenza. Statistica. Levine, Krehbiel, Berenson. Casa editrice: Pearson. Insegnamento: Statistica

LEZIONI IN LABORATORIO Corso di MARKETING L. Baldi Università degli Studi di Milano. Strumenti statistici in Excell

La media e la mediana sono indicatori di centralità, che indicano un centro dei dati.

Introduzione all Analisi della Varianza (ANOVA)

CAPITOLO 11 ANALISI DI REGRESSIONE

Corso di Psicometria Progredito

Test di ipotesi su due campioni

Richiami di statistica

I. Foglio di esercizi su vettori linearmente dipendenti e linearmente indipendenti. , v 2 = α v 1 + β v 2 + γ v 3. α v 1 + β v 2 + γ v 3 = 0. + γ.

Ogni misura è composta di almeno tre dati: un numero, un'unità di misura, un'incertezza.

Regressione lineare multipla CORSO DI ANALISI DEI DATI Anno Accademico 2009/2010, I ciclo

Lezione 18. Statistica. Alfonso Iodice D Enza Università degli studi di Cassino. Lezione 18. A. Iodice

ANALISI DELLE SERIE STORICHE

PROCEDURE/TECNICHE DI ANALISI / MISURE DI ASSOCIAZIONE A) ANALISI DELLA VARIANZA

Teoria e tecniche dei test

Presentazione dell edizione italiana

Lezione 10: Interpolazione lineare Corso di Statistica Facoltà di Economia Università della Basilicata. Prof. Massimo Aria

ESERCITAZIONE IV - Soluzioni

Transcript:

Modelli Statistici per l Economia Regressione lineare con regressori multipli 1

Esempio: Dimensione della classe e risultato dell istruzione Y = punteggio nei test X = rapporto studenti/insegnanti Potremmo aver omesso dei fattori rilevanti Significa davvero che riducendo il numero di studenti per insegnante migliorano i risultati? 2

Esempio: Cibo spazzatura riduce il QI dei bambini Studio inglese: troppi dolci e patatine fritte provocano danni alla capacità mentale (ANSA 8 febbraio 2011) I bambini che si alimentano abitualmente con junk food', il 'cibo spazzatura', rischiano di subire danni permanenti alla loro capacità mentale. E' quanto emerge da uno studio condotto dall'università di Bristol e pubblicato oggi dal Daily Mail. 3

La ricerca ha dimostrato che i bambini che mangiano patatine fritte, dolci e pizza prima dei tre anni, a otto anni si ritrovano con un quoziente intellettivo inferiore ai coetanei che nella prima infanzia sono stati nutriti con verdure, frutta e pasti preparati in casa. I risultati dello studio hanno rivelato un divario di ben cinque punti nei quozienti intellettivi dei bambini che hanno sempre mangiato sano e quelli che invece erano abituati ad alimenti da fast food. 4

La motivazione fornita è sicuramente valida: "I bambini che mangiano troppi cibi zuccherati o confezionati non hanno abbastanza vitamine, che significa che il loro cervello non può raggiungere il suo livello ottimale. Una sana alimentazione nei primi anni di vita è essenziale perché è il periodo in cui il cervello cresce più rapidamente". Ma c è una variabile nascosta: i bambini a cui vengono abitualmente somministrati cibi spazzatura prima dei tre anni difficilmente vivono in un ambiente che li sottopone ai corretti stimoli che sviluppano l intelligenza. 5

Attenzione: un associazione tra una variabile esplicativa X e una variabile risposta Y, anche se è molto forte, non dà di per sé evidenza sufficiente per farci concludere che ci sia un rapporto di causa/effetto, cioè che una variazione di X causi una variazione di Y. Siamo nelle condizioni di arrivare a questa conclusione se i dati sono stati raccolti attraverso un esperimento. 6

Esempio: gli effetti della pubblicità in TV Quali sono gli effetti dell esposizione ripetuta ai messaggi pubblicitari? La risposta può dipendere sia dalla lunghezza sia dalla frequenza con cui il messaggio pubblicitario è mandato in onda. Possiamo condurre un esperimento su alcuni soggetti. Ad esempio: a tutti facciamo vedere un programma televisivo di 40 minuti, interrotto da messaggi pubblicitari, messi in onda 1, 3 oppure 5 volte durante il programma. Per alcuni soggetti lo spot è di 30 secondi, per altri di 90 secondi. 7

Gli esperimenti sono controllati e casualizzati, cioè ci sono sia un gruppo di controllo, che non riceve alcun trattamento, sia un gruppo che riceve il trattamento a diversi livelli e il trattamento è assegnato casualmente la sola ragione sistematica per le differenze nei risultati tra il gruppo di trattamento e quello di controllo è il trattamento stesso. 8

I dati ottenuti osservando il comportamento reale al di fuori di un contesto sperimentale sono detti dati non sperimentali sono raccolti tramite indagini campionarie. E difficile stimare effetti causali sulla base di dati non sperimentali: i livelli di trattamento non sono assegnati casualmente, perciò è difficile scindere l effetto del trattamento da altri fattori rilevanti. Attenzione alle variabili nascoste 9

Non è necessario conoscere una relazione causale per effettuare una buona previsione. Ad es. per prevedere se sta piovendo basta osservare se i pedoni stanno usando l ombrello, ma il fatto di usare l ombrello non causa la pioggia. La teoria economica suggerisce schemi e relazioni che potrebbero essere utili per prevedere. L analisi di regressione permette di quantificare tali relazioni, di effettuare previsioni e di valutare la loro accuratezza. 10

Torniamo all esempio e consideriamo altri potenziali regressori. Che caratteristiche hanno? 11

Esempio: Dimensione della classe e risultato dell istruzione Variabile omessa: area di parcheggio auto per studente (area di parcheggio a disposizione degli insegnanti divisa per il numero di studenti). Correlata con X = rapporto studenti/insegnanti ma non con Y = punteggio nei test Giusto ometterla dall analisi! 12

Esempio: Dimensione della classe e risultato dell istruzione Variabile omessa: ora in cui si svolge il test Se l ora in cui si svolge il test è fissata in modo indipendente dalla dimensione della classe, è correlata con Y = punteggio nei test (il livello di attenzione varia durante il giorno) ma non con X = rapporto studenti/insegnanti Se la consideriamo miglioriamo l adattamento del modello 13

Esempio: Dimensione della classe e risultato dell istruzione Variabile omessa: percentuale di studenti non di madrelingua inglese Correlata sia con X = rapporto studenti/insegnanti che con Y = punteggio nei test Se la omettiamo potremmo arrivare a conclusioni fuorvianti 14

Da un punto di vista più formale: se omettiamo dall analisi una variabile che contribuisce a determinare Y, cioè è correlata con Y ( di fatto è dentro u); è correlata con X non è valida l assunzione 1 dei minimi quadrati Corr(X i, u i ) 0 E(ui X i ) 0 15

Sappiamo che: 0 e che se n p cov(x i, u i )=ρ Xu σ X σ u cioè p σ X 2 16

distorsione Al crescere di n, con probabilità sempre più elevata [ e quindi anche E( )] si avvicina a è distorto e inconsistente C è distorsione da variabile omessa La distorsione dipende dal segno di ρ Xu ed è tanto maggiore quanto più ρ Xu è maggiore 17

Esempio: Dimensione della classe e risultato dell istruzione Y = punteggio nei test X 1 = rapporto studenti/insegnanti Consideriamo anche la variabile: X 2 = percentuale di studenti non di madrelingua inglese Le classi più piccole ottengono un punteggio maggiore nei test, tra tutte quelle con la stessa percentuale di studenti non di madrelingua? 18

I distretti con un rapporto studenti/insegnanti minore ottengono in media migliori punteggi nei testi 19

quartili della distribuzione di I distretti con meno studenti non di madrelingua hanno in media migliori punteggi nei test? Ma la differenza in ciascuna classe è minore di quella totale 20

I distretti con una minore percentuale di studenti non di madrelingua tendono ad avere classi più piccole. 21

r xy =-0.23 22

r = 0.19 23

r = -0.64 24

Modello di regressione lineare doppia i = 1,2,,n funzione di regressione: esprime la relazione esistente in media tra i due regressori (X 1 e X 2 ) e Y nella popolazione 25

Modello di regressione lineare doppia i = 1,2,,n Valore atteso di Y i quando X 1i e X 2i sono nulli Errore: incorpora tutti gli altri fattori (diversi da X 1i e X 2i ) che determinano il valore di Y i Effetto su Y di un aumento unitario di X 2 tenendo costante X 1 Effetto su Y di un aumento unitario di X 1 tenendo costante X 2 26

Modello di regressione lineare doppia i = 1,2,,n Coefficiente di un regressore che è sempre uguale ad 1 X 0i = 1 per i = 1,2,, n 27

Modello di regressione lineare multipla i = 1,2,,n Valore atteso di Y i quando tutte le X sono =0 Effetto su Y di un aumento unitario di X 1 tenendo costanti X 2,, X k 28

Gli errori u i sono omoschedastici se la varianza della distribuzione di u i condizionata a X 1i,, X ki var(u i X 1i,, X ki ) = σ u 2 i=1,,n non dipende dai valori X 1i,, X ki Altrimenti sono eteroschedastici 29

Metodo di minimi quadrati ordinari (OLS) Tra gli stimatori b 0,,b k di β 0,,β k gli stimatori OLS β 0,,β k ˆ ˆ sono quelli che rendono minima Valore di Y i previsto usando la funzione di regres-sione basata sugli stimatori b 0,,b k Errore commesso nel prevedere Y i in corrispondenza di X 1i,,X ki usando la funzione li-neare basata su b 0,,b k 30

valore previsto di Y i dato X 1i,,X ki basato sulla funzione di regressione OLS residuo riferito all i-esima osservazione 31

Esempio: Dimensione della classe e risultato dell istruzione 32

33

y x 2 x 1 34

35

è la stima dell effetto sul punteggio di una variazione unitaria del rapporto studenti/insegnanti tenendo costante la percentuale di studenti non di madrelingua è la stima dell effetto sul punteggio di una variazione unitaria del rapporto studenti/insegnanti (senza controllare la percentuale di studenti non di madrelingua) 36

Misure di bontà di adattamento L errore standard della regressione dove stessa unità di misura di Y i gradi di libertà la media dei residui è nulla 37

TSS = ESS + SSR somma dei quadrati totale (Total Sum of Squares): somma delle deviazioni quadratiche dei valori di Y i dalla loro media somma dei quadrati spiegata (Explained Sum of Squares): somma delle deviazioni quadratiche dei valori previsti Yˆ i dalla loro media somma dei quadrati dei residui (Sum of Squared Residuals) 38

Misure di bontà di adattamento Indice di determinazione multiplo 0 R 2 1 Ma se aggiungiamo un nuovo regressore SSR diminuisce sempre (a meno che il coefficiente stimato non sia nullo) R 2 aumenta Un aumento di R 2 non significa necessariamente che la variabile aggiunta migliori realmente l adattamento 39

R 2 corretto Se aggiungiamo un regressore diminuisce ma anche diminuisce non è detto che R 2 corretto aumenti R 2 corretto aumenta solo se SSR diminuisce di più di n-k-1, cioè se la varianza (corretta) dei residui diminuisce 40

R 2 corretto può accadere che 41

Esempio: Dimensione della classe e risultato dell istruzione 42

43