ECONOMETRIA APPLICATA PER L IMPRESA. Il modello di regressione semplice

Documenti analoghi
La statistica è la scienza che permette di conoscere il mondo intorno a noi attraverso i dati.

STATISTICA A K (60 ore)

Regressione lineare con un solo regressore

Regressione Lineare Semplice e Correlazione

lezione 4 AA Paolo Brunori

Capitolo 12 La regressione lineare semplice

Test delle Ipotesi Parte I

Metodi statistici per l economia (Prof. Capitanio) Slide n. 10. Materiale di supporto per le lezioni. Non sostituisce il libro di testo

Esercitazione del

STATISTICA (2) ESERCITAZIONE Dott.ssa Antonella Costanzo

R - Esercitazione 6. Andrea Fasulo Venerdì 22 Dicembre Università Roma Tre

Regressione & Correlazione

Richiami di inferenza statistica Strumenti quantitativi per la gestione

Richiami di inferenza statistica. Strumenti quantitativi per la gestione. Emanuele Taufer

05. Errore campionario e numerosità campionaria

Analisi della regressione multipla

lezione n. 6 (a cura di Gaia Montanucci) Verosimiglianza: L = = =. Parte dipendente da β 0 e β 1

Ulteriori Conoscenze di Informatica e Statistica. Popolazione. Campione. I risultati di un esperimento sono variabili aleatorie.

ECONOMETRIA APPLICATA PER L IMPRESA. Test di Radici Unitarie - Esercizio 5

Statistica. Capitolo 10. Verifica di Ipotesi su una Singola Popolazione. Cap. 10-1

Il processo inferenziale consente di generalizzare, con un certo grado di sicurezza, i risultati ottenuti osservando uno o più campioni

Metodi statistici per la ricerca sociale Capitolo 11. Regressione Multipla e Correlazione

Proprietà asintotiche dello stimatore OLS

lezione 9 AA Paolo Brunori

1. variabili dicotomiche: 2 sole categorie A e B

Esercizi di statistica

Corso di Statistica Esercitazione 1.8

CORSO DI STATISTICA (parte 1) - ESERCITAZIONE 6

Corso in Statistica Medica

Esercitazione 8 maggio 2014

Statistica Applicata all edilizia: Stime e stimatori

Regressione lineare semplice: inferenza

Statistica. Capitolo 12. Regressione Lineare Semplice. Cap. 12-1

Capitolo 8. Intervalli di confidenza. Statistica. Levine, Krehbiel, Berenson. Casa editrice: Pearson. Insegnamento: Statistica

Contenuti: Capitolo 14 del libro di testo

Il modello di regressione lineare multipla. Il modello di regressione lineare multipla

Contenuto del capitolo

Statistica Applicata all edilizia: il modello di regressione

STATISTICA MULTIVARIATA SSD MAT/06

Corso di Laurea: Numero di Matricola: Esame del 31 maggio 2018 Tempo consentito: 120 minuti

Università degli Studi Roma Tre Anno Accademico 2016/2017 ST410 Statistica 1

STATISTICA 1, metodi matematici e statistici Introduzione al linguaggio R Esercitazione 7:

STATISTICHE, DISTRIBUZIONI CAMPIONARIE E INFERENZA

Università degli Studi Roma Tre Anno Accademico 2017/2018 ST410 Statistica 1

3.1 Classificazione dei fenomeni statistici Questionari e scale di modalità Classificazione delle scale di modalità 17

Università degli Studi Roma Tre Anno Accademico 2014/2015 ST410 Statistica 1

Correlazione e regressione

Old Faithful, Yellowstone Park. Statistica e biometria. D. Bertacchi. Dati congiunti. Tabella. Scatterplot. Covarianza. Correlazione.

La verifica delle ipotesi

VERIFICA DELLE IPOTESI

s a Inferenza: singolo parametro Sistema di ipotesi: : β j = β j0 H 1 β j0 statistica test t confronto con valore t o p-value

Nel modello omoschedastico la varianza dell errore non dipende da i ed è quindi pari a σ 0.

LEZIONI DI STATISTICA MEDICA

Statistica (parte II) Esercitazione 4

Teoria della stima dei parametri:

L'analisi bivariata (analisi della varianza e correlazione) Prof. Stefano Nobile. Corso di Metodologia della ricerca sociale

Corso di Statistica - Prof. Fabio Zucca IV Appello - 5 febbraio Esercizio 1

STATISTICA A D (72 ore)

Dispensa di Statistica

INTERVALLI DI CONFIDENZA e TEST D IPOTESI 1 / 30

Minimi quadrati ordinari Interpretazione geometrica. Eduardo Rossi

Stima Puntuale e per Intervallo. Stimatore e stima. Pietro Coretto Università degli Studi di Salerno

Verifica delle ipotesi

INTRODUZIONE ALLA STATISTICA PER LA RICERCA IN SANITA

Test d ipotesi Introduzione. Alessandra Nardi

Regressioni Non Lineari

Statistica 1 A.A. 2015/2016

Statistica economica

Gli errori nella verifica delle ipotesi

Statistica parametrica e non parametrica. Gli intervalli di confidenza

Statistica. Alfonso Iodice D Enza

Corso integrato di informatica, statistica e analisi dei dati sperimentali Esercitazione VII

Verifica di ipotesi e intervalli di confidenza nella regressione multipla

Università di Pavia Econometria Esercizi 4 Soluzioni

Il modello di regressione lineare multipla con regressori stocastici

Statistica Inferenziale

Vogliamo determinare una funzione lineare che meglio approssima i nostri dati sperimentali e poter decidere sulla bontà di questa approssimazione.

Regressione lineare semplice

Introduzione alla statistica per la ricerca in sanità

Esercitazione 3 - Statistica II - Economia Aziendale Davide Passaretti 23/5/2017

MODELLO DI REGRESSIONE LINEARE. le ipotesi del modello di regressione classico, stima con i metodi dei minimi quadrati e di massima verosimiglianza,

Richiami di statistica

Regressione lineare multipla

Lezione 16. Statistica. Alfonso Iodice D Enza Università degli studi di Cassino. Lezione 16. A. Iodice. Ipotesi statistiche

Politecnico di Milano - Scuola di Ingegneria Industriale. II Prova in Itinere di Statistica per Ingegneria Energetica 7 Luglio 2011

Matematica Lezione 22

Metodi statistici per le ricerche di mercato

CONFRONTO TRA LA MEDIE DI DUE CAMPIONI INDIPENDENTI

Concetti di teoria dei campioni ad uso degli studenti di Statistica Economica e Finanziaria, A.A. 2017/2018. Giovanni Lafratta

Campionamento. Una grandezza fisica e' distribuita secondo una certa PDF

Gli intervalli di confidenza. Intervallo di confidenza per la media (σ 2 nota) nel caso di popolazione Gaussiana

STATISTICA INDUTTIVA: STIMA DI PARAMETRI STIMA PUNTUALE

STATISTICA. Esercitazione 5

Esercitazione 5 - Statistica (parte II) Davide Passaretti 9/3/2017

Il modello di regressione (VEDI CAP 12 VOLUME IEZZI, 2009)

per togliere l influenza di un fattore es.: quoziente di mortalità = morti / popolazione

Transcript:

Il modello di regressione semplice 1 ECONOMETRIA APPLICATA PER L IMPRESA Il modello di regressione semplice Davide Raggi davide.raggi@unibo.it 24 febbraio 2010 Try me. Il modello di regressione semplice 2 La regressione semplice Consideriamo due variabili X ed Y e il nostro scopo è spiegare Y in funzione di X. Ipotizziamo una relazione del tipo lineare per la coppia (X,Y). Y = β 0 +β 1 X +ǫ Notazione: Y variabile dipendente X regressore o variabile esplicativa ǫ termine di errore

Il modello di regressione semplice 3 Il termine di errore ǫ intuitivamente rappresenta tutti i fattori che influenzano Y diversi da X. Lo scopo dell analisi è di quantificare quanto un incremento della variabile X faccia incrementare la Y. Supponendo che tutti gli altri fattori vengano mantenuti fissi (e quindi ǫ = 0), allora la forma funzionale assunta per il modello implica che }{{} Y = β 1 }{{} X Y 2 Y 1 X 2 X 1 Y X = β 1 Questo vuol dire che X ha un effetto lineare su X. In questo caso β 1 può essere interpretato come il coefficiente angolare della retta di regressione. Analogamente β 0 ne è l intercetta. Il modello di regressione semplice 4 Da un punto di vista prettamente economico, questo vuol dire che un incremento di una unità della variabile X ha lo stesso effetto sulla variabile Y indipendentemente dal livello iniziale di X. In altre parole, l impatto di un incremento di X su Y è uguale se X=100 oppure se X=1000 Problema: Da un punto di vista economico questa assunzione potrebbe non essere realistica. Si pensi ad esempio alla relazione consumo e reddito. Se una persona ha reddito elevato, un incremento piccolo del reddito stesso avrà un piccolo impatto sui suoi consumi. Per contro un piccolo aumento del reddito di una persona povera tenderà ad avere un influenza maggiore sui suoi consumi. Tale inconveniente può essere risolto utilizzando legami non lineari tra le variabili (vedremo fra un po ).

Il modello di regressione semplice 5 Esempio Consideriamo il problema della numerosità delle classi e il loro impatto nei voti degli studenti. Domanda: Qual è l effetto di ridurre di una unità la numerosità delle classi? Ci aspettiamo un miglioramento nel voto degli studenti. Il modello di regressione semplice 6 26 Rapporto studenti insegnanti Vs. Punteggio al test (con retta dei minimi quadrati) 24 Rapporto studenti-insegnanti 22 20 18 16 14 620 640 660 680 700 Punteggio medio Figura 1: Scatter-plot del rapporto insegnanti-studenti (Y) e voto al test X

Il modello di regressione semplice 7 Il fatto che ad ogni valore di X non corrisponda un solo valore di Y ci costringe a scegliere quale sia il valore di riferimento di Y corrispondente a X = x. Nell esempio in questione, qual è il valore del rapporto tra studenti ed insegnanti nel distretto a cui corrisponde un valore medio del test pari a x? Questo corrisponde a considerare la distribuzione condizionata di Y dato X = x. In quanto segue, useremo come valore di riferimento la media condizionata, che denoteremo con E[Y X = x]. Il modello di regressione semplice 8 Figura 2: Scatter-plot del rapporto insegnanti-studenti (Y) e voto al test X con E(Y X = x)

Il modello di regressione semplice 9 Il problema della regressione può essere allora riformulato nel seguente modo. Non posso costruire una relazione diretta tra Y ed X; Costruisco una relazione che ad ogni Y associa E(Y X = x) Ipotizzo per la media condizionale un modello parametrico del tipo E[Y X = x] = β 0 +β 1 x Non è ancora una relazione esatta, quindi aggiungo un termine d errore ǫ definito come componente residuale data da ǫ i = Y i E[Y X = x i ] i = 1,...,n Il modello di regressione semplice 10 Come è fatto ǫ? Media condizionale E[ǫ X = x] = E[Y X = x] β 0 β 1 x Per costruzione E[ǫ X = x] = 0. L errore ǫ, raccoglie tutte le caratteristiche non direttamente esplicitate. Nell esempio delle scuole in CA, tali caratteristiche potrebbero includere il reddito delle famiglie. Ciò vuol dire che i regressori omessi non hanno un effetto sistematico su Y. Inoltre vale che E[reddito voto = 450] = E[reddito voto = 600] = = E[reddito voto = 700]. Quindi le variabili che osservo, X, non devono avere un effetto sistematico su ǫ. Si ricordi che, nel caso in cui E(ǫ X = x) = const. allora Cov(ǫ,X) = 0 e quindi non c è dipendenza lineare tra X ed ǫ.

Il modello di regressione semplice 11 Come è fatto ǫ? Varianza condizionale Var[ǫ X = x] = Var[Y X = x] In generale non sappiamo come è fatta la varianza condizionale. Possiamo però fare delle ipotesi. Omoschedasticità: Si assume che Var[ǫ X = x] = σ 2 non dipenda da x. Eteroschedasticità: Si assume che Var[ǫ X = x] dipenda da x in qualche forma non necessariamente nota. Diverse ipotesi portano a diverse procedure di stima e/o stimatori. Assumeremo per il momento che gli errori siano omoschedastici. Il modello di regressione semplice 12 Figura3: Larettadi regressionee(y X = x)ederrori omoschedastici. si noti che la varianza condizionale è stabile al variare di X

Il modello di regressione semplice 13 Figura4: LarettadiregressioneE(Y X = x)ederrorieteroschedastici (si noti la varianza che cresce all aumentare di X = educ) Il modello di regressione semplice 14 Ipotesi del modello Le prime ipotesi per il modello di regressione sono: La media condizionale di Y X è E[Y X] = β 0 +β 1 X e di conseguenza E[ǫ X] = 0; Le osservazioni (X i,y i ), i = 1,...,n sono I.I.D. ; I momenti quarti di X ed Y esistono; Assumiamo per il momento che var[ǫ X] = σ 2 (Omoschedasticità). Queste ipotesi sono fondamentali per poter derivare le proprietà degli stimatori dei parametri.

Il modello di regressione semplice 15 Nota sulla regressione semplice Diversi approcci al modello di regressione si concretizzano in diversi modi di definire le ipotesi necessarie per la stima. Tali ipotesi sono tuttavia equivalenti. Nel caso della regressione semplice si ipotizza che Y = β 0 +β 1 X +ǫ il modello che stimo Si ipotizza inoltre che E[Y X] = β 0 +β 1 X (il vero modello) La conseguenza è che ǫ Y E[Y X] soddisfa a E[ǫ X] = 0 Cov(X,ǫ) = 0 Il modello di regressione semplice 16 Nota sulla regressione semplice (cont.) Un modo equivalente di affrontare il problema è il seguente: Si consideri il modello Ipotizzo inoltre E[ǫ X] = 0 Y = β 0 +β 1 X +ǫ È immediato verificare che se E[ǫ X] = 0 allora E[Y X] = β 0 +β 1 X, che è il vero modello. A volte risulta più intuitivo ragionare facendo un ipotesi sul termine di errore E[ǫ X] = 0 che su E[Y X].

Il modello di regressione semplice 17 Ipotesi modello di regressione (I Caso) La media condizionale di Y X è E[Y X] = β 0 +β 1 X e di conseguenza E[ǫ X] = 0; Le osservazioni (X i,y i ), i = 1,...,n sono I.I.D. ; I momenti quarti di X ed Y esistono; Assumiamo per il momento che var[ǫ X] = σ 2 (omoschedasticità). Il modello di regressione semplice 18 Ipotesi modello di regressione (II Caso) La media condizionale di ǫ X è nulla, cioé E[ǫ X] = 0 (esogenità del regressore); e di conseguenza E[Y X] = β 0 +β 1 X; Le osservazioni (X i,y i ), i = 1,...,n sono I.I.D. ; I momenti quarti di X ed Y esistono; La varianza condizionale è costante, cioé var[ǫ X] = σ 2 (omoschedasticità).

Il modello di regressione semplice 19 Il Metodo dei Minimi Quadrati Ordinari (OLS) Dobbiamo stimare i parametri di interesse del modello Y = β 0 +β 1 X +ǫ L idea è di minimizzare la varianza dell errore di approssimazione min Var(ǫ) = min E[ǫ 2 ] β 0,β 1 β 0,β 1 Posso stimare questa quantità sulla base delle osservazioni del campione (X i,y i ) i = 1...,n 1 min β 0,β 1 n n (Y i β 0 β 1 X i ) 2 i=1 Il modello di regressione semplice 20 È una funzione di due parametri ignoti e il calcolo delle condizioni del primo ordine producono i seguenti stimatori ˆβ 1 = n i=1 (Y i Ȳ)(X i X) n i=1 (X i X) 2 ˆβ 0 = Ȳ ˆβ 1 X Si noti che X = 1 n i=1 n X i e Ȳ = 1 n i=1 n Y i. Si noti inoltre che β 1 è dato dal rapporto dello stimatore della covarianza tra (X,Y) e della varianza di X.

Il modello di regressione semplice 21 Sulla base degli stimatori ˆβ0 e ˆβ 1 è possibile ottenere uno stimatore della media condizionata Ŷ i = Ê[Y i X = x i ] = ˆβ 0 + ˆβ 1 x i Uno stimatore del termine di errore (o residuo) è ˆǫ i = Y i ˆβ 0 ˆβ 1 X i = Y i Ŷi Inoltre Y i può essere scomposto come Y i = Ŷi +ˆǫ i = ˆβ 0 + ˆβ 1 X }{{} i + ˆǫ }{{} i Parte spiegata Residuo Il modello di regressione semplice 22 Figura 5: Scomposizione di y i in residui (ˆǫ i ) e valori predetti (ŷ i )

Il modello di regressione semplice 23 Una conseguenza delle proprietà riportate di sopra è la decomposizione della varianza tra varianza spiegata e varianza residua. Infatti 1 n E quindi n (Y i Ȳ)2 = 1 n i=1 n (Y i Ŷi +Ŷi Ȳ)2 i=1 = 1 n (Ŷi Ȳi) 2 + 1 n (Y i Ŷi) 2 n n i=1 i=1 }{{}}{{} Varianza spiegata Varianza residua 1 = n n i=1 (Ŷi Ȳ)2 n i=1 (Y + i=1 ˆǫ i 2 n i Ȳ)2 i=1 (Y i Ȳ)2 Il modello di regressione semplice 24 Coefficiente di determinazione R 2 R 2 = 1 n i=1 ˆǫ i 2 n n i=1 (Y = i=1 (Ŷi Ȳ)2 n i Ȳ)2 i=1 (Y i Ȳ)2 Devianza totale di Y o SQT n i=1 (Y i Ȳ)2 Somma dei quadrati dei residui o SQR n i=1 ˆǫ i 2 n Devianza spiegata o SQS i=1 (Ŷi Ȳ)2 Chiaramente 0 R 2 1.

Il modello di regressione semplice 25 La stima della varianza condizionale: ˆσ 2 Abbiamo ipotizzato che la varianza condizionale sia Var(ǫ X) = σ 2 (cioé Omoschedasticità). Uno stimatore non distorto di σ 2 è n ˆσ 2 i=1 = ˆǫ i 2 n 2 L errore standard della regressione è = SQR n 2 ˆσ = n i=1 ˆǫ i 2 n 2. Il modello di regressione semplice 26 Esempio (cont.) Modello 1: Stime OLS usando le 420 osservazioni 1-420 Variabile dipendente: testscr VARIABILE COEFFICIENTE ERRORE STD STAT T P-VALUE const 698.933 10.3644 67.436 <0.00001 str -2.27981 0.519489-4.389 0.00001 Deviazione standard della variabile dipendente = 19.0533 Somma dei quadrati dei residui = 144315 Errore standard dei residui = 18.581 R-quadro = 0.0512401 R-quadro corretto = 0.0489703

Il modello di regressione semplice 27 Proprietà degli stimatori OLS Calcoliamo adesso media e varianza degli stimatori dei minimi quadrati di β 0 e β 1. Media condizionata e marginale di ˆβ 1 n [ (X i ˆβ 1 = X) ] n i=1 i=1 (X i X) (Y 2 i Ȳ) }{{} ω i n n = ω i Y }{{} i Ȳ ω i i=1 β 0 +β 1 X i +ǫ i=1 i }{{} =0 n = β 1 + ω i ǫ i i=1 Il modello di regressione semplice 28 Di conseguenza la media e la varianza condizionata si calcolano facilmente come E[ ˆβ 1 X 1,...,X n ] = β 1 + ω i E[ǫ i X 1,...,X n ] = β 1 }{{} ip. =0 Lo stimatore è quindi non distorto. Var[ ˆβ 1 X 1,...,X n ] = ωi 2 Var[ǫ i X 1,...,X n ] = }{{} ip. =σ 2 = σ 2 n 1 (n 1) n i=1 (X i X) 2 }{{} =1/σ 2 se n + σ 2 n i=1 (X i X) 2 (Consistenza). Si noti che si è fatto uso dell ipotesi di omoschedasticità.

Il modello di regressione semplice 29 Media condizionata e marginale di ˆβ 0 = Ȳ ˆβ 1 X E[ˆβ 0 X 1,...,X n ] = E[Ȳ X 1,...,X n ] E[ˆβ 1 X 1,...,X n ] X }{{}}{{} Ȳ=β 0 +β 1 X+ ǫ =β 1 = β 0 +β 1 X +E[ ǫ X1,...,X n ] β 1 X }{{} =0 = β 0 (Non distorto). Var[ ˆβ 0 X 1,...,X n ] = σ 2 ( 1 n + ) X2 n i=1 (X i X) 2 = σ2 n n i=1 X2 i n i=1 (X i X) 2 (Consistenza). Il modello di regressione semplice 30 Riassumendo: Proprietà OLS Sebbene le distribuzioni campionarie di β 0 e β 1 possano essere molto diverse da una normale se la numerosità campionaria è piccola, è possibile dimostrare che qualunque sia n vale il seguente risultato E[ˆβ 0 ] = β 0 E[ˆβ 1 ] = β 1 ovvero ˆβ 0 e ˆβ 1 rappresentano stimatori non distorti di β 0 e β 1. È inoltre possibile mostrare che tali stimatori sono consistenti, cioè caratterizzati da varianze che tendono a zero al crescere di n rendendo la distribuzione campionaria sempre più schiacciata attorno alle medie β 0 e β 1. La consistenza degli stimatori non dipende dall avere errori omoschedastici o eteroschedastici.

Il modello di regressione semplice 31 Teorema di Gauss-Markov Teorema: Sulla base delle ipotesi Linearità: E[Y X = x i ] = β 0 +β 1 x i ; Omoschedasticità: Var(Y X = x i ) = σ 2 ; Incorrelazione: Cov(Y i,y j X = x 1,...x n ) = 0, i j introdotti precedentemente, gli stimatori ottenuti col metodo dei minimi quadrati rappresentano gli stimatori lineari e corretti a varianza minima (BLUE). Il modello di regressione semplice 32 Cosa succede se n cresce?

Il modello di regressione semplice 33 Distribuzione asintotica per ˆβ j, j = 0,1 Cosa succede alla distribuzione di ˆβj, j = 0,1 se n cresce? Si ricordi che se Y i sono i.i.d. E[Y i ] = µ Y < + e 0 < Var[Y i ] = σ 2 Y < + allora per il Teorema del Limite Centrale (TLC), per cui (Ȳ µ Y)/σ Ȳ N(0,1). Il numeratore di ˆβ 1 è la media campionaria della variabile casuale (X E[X])(Y E[Y]) per cui posso applicare TLC. Il denominatore si dimostra convergere ad una costante (LGN). Quindi ˆβ 1 E[ ˆβ 1 ] Var( ˆβ 1 ) = ˆβ 1 β 1 σ ˆ β1 N(0,1) ˆβ 1 N(β 1,σ 2ˆ β1 ) In maniera analoga si può provare che ˆβ 0 N(β 0,σ 2ˆ β0 ) Il modello di regressione semplice 34 Distribuzione asintotica per ˆβ j, j = 0,1 (cont.) Per rendere queste formule operative, occorre stimare in qualche modo gli standard error dei parametri, cioè σ ˆβ1 e σ ˆβ0. ˆσ 2 = 1 n 2 n i=1 ˆǫ 2 i ˆσ ˆσ ˆβ1 = 2 n i=1 (X i X) 2 ˆσ 2( 1 n ) n i=1 ˆσ ˆβ0 = X2 i n i=1 (X i X) 2

Il modello di regressione semplice 35 Verifica di ipotesi per β j In econometria l uso dei test statistici è importante poiché la teoria economica sovente propone valori numerici ben definiti per i parametri dei modelli e, di conseguenza, nelle applicazioni è naturale sottoporre a verifica la compatibilità o meno tra quanto stimato sulla base delle osservazioni disponibili e quanto previsto dalla teoria. In definitiva, si tratta di decidere se l evidenza empirica fornita dai dati permette di stabilire se i valori ammissibili per i parametri incogniti si possano considerare sufficientemente vicini ai valori proposti dalla teoria, sia in modo affermativo che in termini negativi. Il modello di regressione semplice 36 Verifica di ipotesi per β j (cont.) Uno degli aspetti più importanti della procedura inferenziale circa i parametri di un modello di regressione riguarda lo studio della significatività delle stime ottenute: l effetto marginale stimato della variabile X sulla variabile risposta Y può considerarsi statisticamente diverso da zero? Ottenere la risposta a tale domanda richiede la conoscenza di un insieme di procedure statistiche note come verifica (o test) di ipotesi: l idea generale è quella di (a) sottoporre a verifica una certa ipotesi circa i parametri stimati e (b) decidere, fissato un certo livello di confidenza, se tale ipotesi possa non essere rifiutata dato il campione a disposizione. Intuitivamente, le conclusioni di tale procedura (ed il livello di confidenza circa le stesse) dipenderanno in modo cruciale dalla precisione delle stime ottenute.

Il modello di regressione semplice 37 Verifica di ipotesi per β j (cont.) Il punto di partenza della verifica di ipotesi è la specificazione dell ipotesi da verificare, che viene detta ipotesi nulla ed è indicata con H 0. Tale ipotesi viene confrontata con una seconda ipotesi, detta ipotesi alternativa, indicata con H 1, ed è valida nel caso l ipotesi nulla non lo sia. L ipotesi nulla potrebbe essere H 0 : β 1 = 0. Un ipotesi alternativa interessante potrebbe essere H 1 : β 1 0, ma non è l unica possibile. Ad esempio, un alternativa ragionevole per il problema in oggetto potrebbe essere H 1 : β 1 < 0. Il modello di regressione semplice 38 Verifica d Ipotesi per un parametro β j Il problema della Verifica di Ipotesi per un parametro β j, j = 0,1 consiste nel decidere, una volta osservato un campione di dati, se l ipotesi nulla H 0 è vera oppure è vera l ipotesi alternativa H 1. Consideriamo i seguenti 3 casi, detti sistemi d ipotesi: I) H 0 : β j = β j,0 contro H 1 : β j > β j,0 (test unilaterale) II) H 0 : β j = β j,0 contro H 1 : β j β j,0 (test bilaterale) III) H 0 : β j = β j,0 contro H 1 : β j < β j,0 (test unilaterale) Vogliamo costruire una procedura statistica che, sulla base dei dati osservati, consenta di decidere se è più plausibile H 0 oppure H 1.

Il modello di regressione semplice 39 Caso I - H 0 : β j = β j,0 vs. H 1 : β j > β j,0 L idea è quella di dividere lo spazio di tutti i possibili valori di β j, (che è il vero parametro della popolazione) in due sottoinsiemi identificati da due semirette. In una semiretta ci stanno i valori della statistica t osservata per i quali è più verosimile H 0 mentre nell altra ci stanno i valori per cui è più plausibile H 1. Siccome il test è unilaterale con ipotesi alternativa H 1 : β j > β j,0 è intuitivo pensare che i valori della media campionaria inferiori (sulla sinistra) ad una certa soglia c saranno compatibili con H 0 mentre valori superiori alla soglia saranno compatibili con H 1. Occorre calcolare un opportuno valore per c. Il modello di regressione semplice 40 Caso I - Regione di Accettazione e di Rifiuto H 0 H 1 c β j Si noti che sull ascisse ci stanno i valori di β j e non del suo stimatore ˆβ j ; La regione di accettazione (indicata con H 0 ) è rappresentata dai valori che stanno alla sinistra della soglia c; Per contro la regione di rifiuto è quella alla destra di c.

Il modello di regressione semplice 41 Caso I - Come determinare c?? Per il momento supponiamo di conoscere c. Ipotizzo che sia vera H 0, quindi la statistica t = ˆβ j β j,0 ˆσˆβj N(0,1). Valori della statistica t osservati intorno alla soglia c potrebbero essere compatibili sia con H 0 che con H 1. La probabilità che io decida che la statistica t sia compatibile con H 1 quando invece è vera H 0 è detto errore di primo tipo. Ipotizzando sia vero H 0, tale probabilità è P H0 (t > c) = 1 Φ(c). Fisso ad α, la probabilità massima di commettere questo errore, che è detto livello di significatività. (Di solito questo numero viene fissato ad 1%, 5% o 10%). Il modello di regressione semplice 42 Caso I - Calcolo della soglia c. Fisso la probabilità massima di errore che sono disposto a tollerare, cioé α; Determino la soglia c in modo che P H0 (t > c) = α. Siccome se ipotizzo vero H 0, t N(0,1), allora esiste una relazione biunivoca tra l α fissato e c. In particolare se α = 1% allora c = 2.36 se α = 5% allora c = 1.65 se α = 10% allora c = 1.29

Il modello di regressione semplice 43 Figura 1: Regione di Accettazione e Regione di Rifiuto Il modello di regressione semplice 44 Caso I - Ricapitolando: Scelgo una soglia in modo che la probabilità di errore sia α%. Calcolo la statistica t oss sulla base del campione e verifico se tale valore cade a sinistra o a destra della soglia c. In alternativa calcolo la probabilità di osservare dei campioni tali per cui la statistica t risulti meno favorevole rispetto ad H 0. Quindi calcolo P H0 (t > t oss ) = 1 Φ(t oss ) che è noto come p-value o livello di significatività osservato. Se tale probabilità risulta maggiore di α allora accetto H 0. Altrimenti decido che H 1 è più verosimile dato un certo campione.

Il modello di regressione semplice 45 Caso II - H 0 : β j = β j,0 vs. H 1 : β j β j,0 In questo caso il ragionamento risulta simile al caso precedente con l eccezione che adesso la regione di accettazione e di rifiuto sono composte nel senso che rifiuto H 0 negli intervalli (, c) e (c;+ ) (si veda la figura sottostante) H 1 H 0 H 1 c c β j Il modello di regressione semplice 46 Caso II - Come determinare c?? Come prima voglio fissare la probabilità massima di sbagliare cioè devo fissare il livello di significatività α. In questo caso, ipotizzando sia vera H 0, posso sbagliare in due modi, visto che il test è bilaterale (cioè se t oss < c o t oss > c). Una volata fissato α posso determinare la soglia c in modo che P H0 ( t > c) = P H0 (t < c opp. t > c) = α. In particolare se α = 1% allora c = 2.6 se α = 5% allora c = 1.96 se α = 10% allora c = 1.65

Il modello di regressione semplice 47 Caso II - Ricapitolando: Scelgo una soglia in modo che la probabilità di errore sia α%. Calcolo la statistica t sulla base del campione e verifico se tale valore cade nell intervallo ( c; c) oppure fuori. In alternativa calcolo p-value o livello di significatività osservato dato da P H0 ( t > t oss ) = P H0 (t < t oss o t > t oss ) = Φ( t oss )+(1 Φ( t oss ) = 2Φ( t oss ) Se P H0 ( t > t oss ) > α allora accetto H 0. Altrimenti decido che H 1 è più verosimile date le mie osservazioni. Il modello di regressione semplice 48 Caso III - H 0 : β j = β j,0 vs. H 1 : β j < β j,0 Questo caso è speculare rispetto al primo. Le regioni di accettazione e di rifiuto sono riportate nella figura seguente. H 1 H 0 c β j

Il modello di regressione semplice 49 Caso III - Come determinare c?? Come prima voglio fissare la probabilità massima di sbagliare cioé devo fissare α. In questo caso, ipotizzando sia vera H 0 l errore consiste nel fatto che t oss è a sinistra della soglia. Una volata fissato α posso determinare la soglia c in modo che P(t < c) = α. In particolare se α = 1% allora c = 2.36 se α = 5% allora c = 1.65 se α = 10% allora c = 1.29 Il modello di regressione semplice 50 Caso III - Ricapitolando: Scelgo una soglia in modo che la probabilità di errore sia α%. Calcolo la statistica t oss sulla base del campione e verifico se tale valore cade nell intervallo (c; + ) oppure fuori. In alternativa calcolo il p-value P H0 (t < t oss ) = Φ(t oss ) Se tale probabilità risulta maggiore di α allora accetto H 0. Altrimenti decido che H 1 è più verosimile dato un certo campione.

Il modello di regressione semplice 51 Esempio Modello 1: Stime OLS usando le 420 osservazioni 1-420 Variabile dipendente: testscr VARIABILE COEFFICIENTE ERRORE STD STAT T P-VALUE const 698.933 10.3644 67.436 <0.00001 str -2.27981 0.519489-4.389 0.00001 Deviazione standard della variabile dipendente = 19.0533 Somma dei quadrati dei residui = 144315 Errore standard dei residui = 18.581 R-quadro = 0.0512401 R-quadro corretto = 0.0489703 Il modello di regressione semplice 52 Intervalli di confidenza per ˆβ 1 Gli intervalli di confidenza relativi all intercetta ed alla pendenza della retta di regressione rappresentano intervalli che hanno una probabilità fissata 1 α (ad esempio α = 5% o α = 10%) di contenere β 0 o β 1. Per tale motivo, essi sono ottenuti a partire dalla distribuzione campionaria delle stime. Utilizzando l approssimazione normale otteniamo le seguenti relazioni ˆβ 1 β ˆσˆβ1 { } ˆβ 1 β N(0,1) Pr < z α = (1 α)% 2 ˆσˆβ1 Intervallo di confidenza = { β 1 : ˆβ 1 zα 2 ˆσ ˆβ1,β 1 : ˆβ 1 +zα 2 ˆσ ˆβ1 }

Il modello di regressione semplice 53 Identico ragionamento vale per ˆβ 0. Intervallo di confidenza = { β 0 : ˆβ 0 zα 2 ˆσ ˆβ0,β 0 : ˆβ 0 +zα 2 ˆσ ˆβ0 } L ampiezza dell intervallo cresce al decrescere di α. Il valore z α rappresenta il percentile della variabile normale che assicura la copertura dell (1 α)% della distribuzione campionaria (z α = 2.58 2 se α = 1%, zα = 1.96 se α = 5%, e z α = 1.65 se α = 10%). 2 2 Il modello di regressione semplice 54 Non-Linearità nella regressione semplice Fino ad ora abbiamo ipotizzato una relazione del tipi Y = β 0 +β 1 X +ǫ. Avevamo notato come questa assunzione potesse avere effetti poco credibili in fase di interpretazione del modello. Infatti ricordo che tale modello implica che l effetto su Y dovuto ad una variazione unitaria di X è lo stesso qualunque sia il valore di partenza di X. Consideriamo allora il seguente modello logy = β 0 +β 1 X +ǫ Come al solito si assume che ǫ = 0. Inoltre si può dimostrare che logy 1 logy 2 Y 2 Y 1 Y 1.

Il modello di regressione semplice 55 In questo caso si parla di incremento percentuale (se moltiplichiamo l effetto per 100). Il modello riportato sopra implica quindi che un incremento unitario della X implica un incremento percentuale costante della Y. Ma questo vuol dire che Y }{{} Y 2 Y 1 = (β 1 X) Y 1 Si noti che ora Y dipende dal livello iniziale Y 1. Riassumendo: Se al posto di Y considero logy come variabile dipendente allora devo ulteriormente cambiare il modo di interpretare i risultati delle stime. Per contro la tecnologia dei minimi quadrati si applica allo stesso modo sulle variabili trasformate. Il modello di regressione semplice 56 Figura 6: logy = β 0 +β 1 X Y = exp{β 0 +β 1 X} se ǫ = 0.

Il modello di regressione semplice 57 Cosa succede se regredisco Y su logx? Come si interpretano i risultati? In questo caso il risultato della regressione deve essere interpretato come l effetto sulla variabile Y dovuto ad un incremento percentuale di X. Infine come va interpretata la regressione di logy su logx? Si ricava che logy 2 logy 1 = β 1 (logx 2 logx 1 ) In termini equivalenti vuol dire che Y Y 1 = β 1 X X 1 Il modello di regressione semplice 58 Si definisce allora elasticità il rapporto tra gli incrementi percentuali delle variabili di interesse (X, Y): elasticità = Y X X Y Il modello logy = β 0 +β 1 logx +ǫ per questa ragione viene detto modello ad elasticità costante (ed uguale a β 1 ). Esempio: L elasticità del modello lineare Y = β 0 +β 1 X +ǫ è pari a X β 1 β 0 +β 1 X.

Il modello di regressione semplice 59 Esempio Consideriamo una variazione del modello precedente del tipo log(voto esame) = β 0 +β 1 Rapp ins stud+ǫ Utilizziamo un modello non lineare per poter interpretare i risultati in maniera più intuitiva. In generale l uso di un modello lineare o non lineare dipende principalmente dalla teoria economica sottostante. Ogni volta che dobbiamo ipotizzare un modello dovremmo chiederci quali delle specificazioni è più credibile. Ma la cosa più importante e ricordare che ad assunzioni diverse sulla forma funzionali corrispondono interpretazioni diverse dei risultati, cosa molto importante se si pensa che dallo studio di un modello poi possono essere prese decisioni. Il modello di regressione semplice 60 Esempio (cont.) Modello 2: Stime OLS usando le 420 osservazioni 1-420 Variabile dipendente: l_test_score Errori standard robusti rispetto all eteroschedasticit, variante HC1 VARIABILE COEFFICIENTE ERRORE STD STAT T P-VALUE const 6.55073 0.0157456 416.036 <0.00001 str -0.00345225 0.000790234-4.369 0.00002 Media della variabile dipendente = 6.48292 Deviazione standard della variabile dipendente = 0.0291155 Somma dei quadrati dei residui = 0.337321 Errore standard dei residui = 0.0284075 R-quadro = 0.0503164 R-quadro corretto = 0.0480444

Il modello di regressione semplice 61 Esempio (cont.) La procedura di stima OLS produce i seguenti risultati log( voto esame i ) = 6.5507+0.0035 Rapp ins stud i Questo implica che la pendenza ˆβ 1 = 0.0035 indica che ad un incremento unitario del numero di studenti per insegnante corrisponde, in media, una riduzione nei punteggi di circa un terzo di punto percentuale. Pertanto, ad una variazione assoluta X = 3 (cioè, tre studenti in meno per insegnante) corrisponde una variazione positiva percentuale della Y pari a circa l 1%. Il modello di regressione semplice 62 Esempio (cont.) Figura 7: β 0 (6.522276,6.579179) e β 1 ( 0.0048942,0.0020103)

Il modello di regressione semplice 63 Esempio (cont.) Figura 8: β 0 (6.526866,6.574588) e β 1 ( 0.0046616, 0.0022429)