Regressione lineare con un solo regressore

Transcript

1 Regressione lineare con un solo regressore La regressione lineare è uno strumento che ci permette di stimare e di fare inferenza sui coefficienti incogniti di una retta. Lo scopo principale è di stimare l effetto causale misurato come effetto che l incremento una unità di X ha su Y coefficiente angolare. Per ora, restringiamo il problema e pensiamo a far passare una linea retta fra i dati di 2 variabili, Y e X, in cui X è l unico regressore.

2 Il problema di inferenza che ci poniamo è lo stesso di quello che ci si pone per le medie, differenze fra le medie etc. Inferenza sulla pendenza di una retta comprende: Stima: In che maniera dovremmo tracciare una linea attraverso i dati per stimarne la pendenza? (Minimi Quadrati Ordinari, Ordinary Least Square, OLS). Quali sono gli svantaggi e i vantaggi di OLS? Test di ipotesi: Come verificare se la pendenza è statisticamente zero? Intervallo di confidenza: Come costruire un intervallo di confidenza per tale pendenza? 2

3 La retta di regressione della popolazione: Voti = β 0 + β STR β = pendenza della retta di regressione della popolazione Voti = STR = di quanto cambia il voto quando STR cambia di una unità Perchè β 0 e β sono parametri della popolazione? Vorremmo conoscere è il vero valore della popolazione di β. Dato che non lo conosciamo β, lo stimiamo usando i dati 3

4 Notazione generale Y i = β 0 + β X i + u i, i =,, n X è la variabile indipendente o regressore Y è la variabile dependente β 0 = intercetta β = pendenza u i = l errore di regressione l errore di regressione contiene i fattori omessi, o gli errori di misurazione di Y. In genere, questi fattori omessi sono altri fattori, oltre alla variabile X, che influenzano Y. 4

5 La retta di regressione e il termine di errore 5

6 Le stime Ordinary Least Squares Come possiamo ottenere delle stime di β 0 e β dai dati? Considerando che Y è lo stimatore dei minimi quadrati di µ Y, la media campionaria Y è la soluzione di, n 2 m Yi m, i= min ( ) minimizza la somma degli errori al quadrato fra tutti i possibili stimatori m, dove m è uno stimatore di µ Y Analogamente, lo stimatore dei minimi quadrati di ( ordinary least squares o OLS ) dei parametri sconosciuti β 0 e β, è soluzione di n min [ Y ( b + b X )] b0, b i 0 i i= 2 6

7 Retta di regressione della popolazione: Voti = β 0 + β STR β = Voti STR 7

8 Lo stimatore OLS risolve : 0 n min [ Y ( b + b X )] b, b i 0 i i= Lo stimatore OLS minimizza le differenze fra i valori attuali Y i e valori predetti dalla retta di regressione, al quadrato. Dimostrazione(App. 4.2). I risultati di queste operazioni sono gli stimatori OLS di β 0 e β. 2 8

9 Applicazione: Voti STR Pendenza stimata = ˆ β = 2.28 Intercetta stimata = ˆ β 0 = Linea di regressione stimata: oti Vˆ = STR 9

10 Intercetta e coefficiente angolare Vˆ oti = STR interpretazione: I distretti con uno studente in più per insegnante in media ricevono voti di 2.28 punti più bassi. Cioè, Voti STR = 2.28 L intercetta (letteralmente) significa che, secondo le nostre stime i distretti senza studenti avrebbero un voto predetto di Questa interpretazione non ha senso. È estrapolata fuori dall intervallo dei dati e in questo caso non ha senso economicamente. Non sempre così! 0

11 Valori previsti e residui: Uno dei distretti nel campione è Antelope, CA, per cui STR = 9.33 e Voti = Valore predetto: Y ˆAntelope = = residui: u ˆAntelope = = 3.0

12 OLS : esempio di output - stata regress testscr str, robust Regression with robust standard errors Number of obs = 420 F(, 48) = 9.26 Prob > F = R-squared = Root MSE = Robust testscr Coef. Std. Err. t P> t [95% Conf. Interval] str _cons Vˆ oti= STR (discuteremo dopo del resto) 2

13 Misure di bontà della regressione Una domanda che sorge spontanea è: quanto è buona l approssimazione della retta di regressione o quanto riesce a spiegare i dati. Ci sono due statistiche di riferimento complementari che forniscono misure di adeguatezza: L R 2 della regressione misura la frazione della varianza di Y che è spiegata da X; è priva di unità di misura e può assumere valori che vanno da 0 (non c è approssimazione) a (approssimazione perfetta) Errore standard della regressione (SER) misura la grandezza dei residui di regressione in termini delle unità di Y 3

14 L R 2 è la frazione della varianza campionaria di Y i spiegata dalla regressione Y i = Y î + u î = previsioni OLS + residui OLS var (Y) campionaria = var( Y î )campionaria + var( u î )campionaria (???) Somma totale dei quadrati (TSS) = spiegata SS (ESS) + residua SS (RSS) TSS = ESS + RSS Definizione di R 2 : R 2 = ESS TSS = R 2 = 0 significa che ESS = 0 R 2 = significa che ESS = TSS 0 R 2 n i= n i= ( Yˆ Yˆ ) i ( Y Y ) i 2 2 4

15 Lo Standard Error della Regressione (SER) SER misura la distanza dalla media della distribuzione di u. SER è (circa) la deviazione standard campionaria dei residui OLS: SER = n ( uˆ ˆ i u) n 2 i= 2 = n n 2 i= uˆ 2 i (dato che û = n uˆ i = 0). n = i 5

16 SER = n n 2 i= Ha come unità di misura le stesse di u, e dunque di Y Misura in media quanto sono grandi i residui OLS (l errore medio fatto imponendo una certa retta di regressione) La radice della media degli errori al quadrato- root mean squared error (RMSE) è simile al SER: RMSE = uˆ n uˆ n = Misura la stessa cosa del SER l unica differenza è la divisione per /n invece che per /(n 2). Correzione gradi di libertà 2 parametri stimati. i 2 i 2 i 6

17 Vˆ oti= STR, R 2 =.05, SER = 8.6 Interpretazione: STR spiega solo una piccola parte della variazione nei voti. Ha senso questa conclusione? Possiamo dunque concludere che STR non è importante per trarre delle conclusioni di politica economica? 7

18 Le Assunzioni dei Minimi Quadrati Quali sono le proprietà dello stomatore OLS? Deve essere corretto e con una varianza piccola. Sotto quali condizioni ciò accade? Iniziamo facendo alcune assunzioni su come Y e X sono correlate e come i dati sono stati raccolti (schema campionario) 8

19 Assunzioni dei Minimi Quadrati Y i = β 0 + β X i + u i, i =,, n. u è una v.c., la distribuzione di u condizionata a X ha media zero: E(u X = x) = 0. Ciò implica che ˆ β è corretto (lo vediamo successivamente) 2. (X i,y i ), i =,,n, sono i.i.d. è vero se X, Y sono raccolte con un campionamento casuale semplice ci conduce alla distribuzione campionaria di ˆ β 0 e ˆ β 3. outliers di X e/o Y sono rari. Tecnicamente, X e Y hanno un momento di 4 ordine finito Outliers possono dare origine ad un valore di ˆ β privo di significato 9

20 Assunzione #: E(u X = x) = 0. Per ogni dato valore di X, la media di u è zero: Es: Voti i = β 0 + β STR i + u i, u i = altri fattori Cosa sono questi altri fattori? E(u X=x) = 0 è plausibile? 20

21 Consideriamo un esperimento ideale casuale e controllato: X casualmente assegnata (studenti casualmente assegnati a classi di diversa grandezza; pazienti casualmente assegnati a trattamenti medici). Un computer assegna X casualmente senza informazioni sugli individui. Poichè X è assegnata casualmente, tutte le altre caratteristiche inidividuali, u,sono indipendentemente distribuite rispetto a X Dunque, un esperimento ideale casuale e controllato, E(u X = x) = 0 (Assunzione # verificata) Negli esperimenti reali, o nel caso di dati osservati dobbiamo stare più attenti. 2

22 Assunzione #2: (X i,y i ), i =,,n sono i.i.d. Ciò si verifica automaticamente se le entità (individui, distretti) sono campionate con un campionamento casuale semplice: prima l entità è selezionata poi, per quella entità, X e Y sono osservate. Un caso in cui il campionamento è tipicamente non-i.i.d. si verifica con le serie storiche 22

23 Assunzione #3: E(X4) < and E(Y4) < Un grande outlier è un valore estremo di X o Y tecnicamente, se i valori di X e Y cadono all interno di un intervallo chiuso, allora hanno quarto momento finito. Un outlier molto grande può fortemente influenzare i risultati 23

24 Un altra ragione per cui è utile il diagramma a nuvola! 24

25 Distribuzione campionaria dello stimatore OLS Lo stimatore OLS è calcolato usando un campione di dati; un campione diverso darà origine a valori diversi di ˆ β. Questa è la ragione per cui si parla di incertezza campionaria di ˆ β. Dunque abbiamo bisogno di: quantificare l incertezza campionaria associata a ˆ β usare ˆ β per i test d ipotesi (es. H 0 : β = 0, H : β 0 ) costruire un intervallo di confidenza per β tutto ciò richiede la conoscenza della distribuzione campionaria dello stimatore OLS. In 2 passi Nozioni di probabilità Distribuzione dello stimatore OLS 25

26 Nozioni di probabilità Quello che concerne la probabilità può essere riassunto in 3 ipotesi. Popolazione Il gruppo di interesse (es: tutti i possibili distretti scolastici) Variabili casuali: Y, X (es: Voti, STR) Distribuzione congiunta di (Y, X) La funzione di regressione per la popolazione è lineare E(u X) = 0 (Assunzione #) X, Y hanno quarto momento finito (Assunzione #3) Dati raccolti da campionamento casuale semplice: {(X i, Y i )}, i =,, n, sono i.i.d. (Assunzione #2) 26

27 Come per Y, ˆ β ha una distribuzione campionaria. Cos è E( ˆ β )? (qual è il centro della distribuzione?) se E( ˆ β ) = β, OLS è corretto Cos è var( ˆ β )? (misura della incertezza campionaria) Qual è la distribuzione campionaria di ˆ β nei piccoli campioni? Può essere molto complicato Qual è la distribuzione campionaria di ˆ β nei grandi campioni? Relativamente semplice, ˆ β nei grandi campioni è normalmente distribuito. 27

28 L Appendice 4.3 dimostra che ˆ n i= β β = n i= ( X X ) u i ( X X ) i 2 i 28

29 29 Prova di correttezza E( ˆ β ) β = 2 ( ) ( ) n i i i n i i X X u E X X = = = 2 ( ),..., ( ) n i i i n n i i X X u E E X X X X = = = 0 poichè E(u i X i =x) = 0 da Assunzione # L Assunzione # implica che E( ˆ β ) = β Cioè, ˆ β è uno stimatore corretto di β. Per dettagli App. 4.3

30 var( ˆ var[( X i µ x ) ui ] β β ) =. 4 n σ X Riassumendo ˆ β è corretto: E( ˆ β ) = β, proprio come Y! var( ˆ β ) è inversamente proportionale a n, proprio come Y! 30

31 L esatta distribuzione campionaria è complicata dipende dalla distribuzione di (Y, X) ma quando n è grande c è una buona approssimazione: () Poiché var( ˆ β ) è proporzionale a /n e E( ˆ β ) = β ˆ β p β (2) quando n è grande, la distribuzione campionaria di ˆ β si approssima alla distribuzione normale (CLT) 3

32 Approssimazione a n-grande n vi = ˆ n i β β 2 σ X, dove v i = (X i X )u i Quando n è grande dal CLT deriva che approssimativamente come N(0, σ n). 2 v / n vi i n = si distribuisce così, per n grande, ˆ β si distribuisce approssimativamente ˆ β ~ N β σ 2 v, 4 nσ X, dove v i = (X i µ X )u i 32

33 Matematicamente var( ˆ var[( X i µ x ) ui ] β β ) = 4 n σ 2 dove σ X = var(x i ). La varianza di X appare al quadrato al denominatore quanto più cresce la distanza della media di X più diminuisce la varianza di β. X Intuitivamente Quanto più X varia, più c è informazione nei dati e questa informazione può essere utilizzata per approssimare meglio la retta di regressione 33

34 C è lo stesso numero di punti blu e neri quali punti forniscono una retta di regressione più accurata? 34

35 Riassunto sulla distribuzione di Se le Assunzioni sono verificate, allora La distribuzione campionaria esatta (con piccolo n) di ˆ β ha: E( ˆ β ) = β ( ˆ β corretto) var( ˆ var[( X i µ x ) ui ] β ) = (proporzionale) 4 n σ n. X A parte media e varianza la distribuzione campionaria esatta di ˆ β è complicata e dipende dalla distribuzione di (X,u) ˆ β p β ( ˆ β consistente) ˆ β E( ˆ β) Quando n è grande, var( ˆ β ) ~ N(0,) (CLT) ˆβ Tutto ciò richiama quanto già visto per Y. Ora possiamo andare avanti con test e intervalli di confidenza 35

36 Test d ipotesi e intervalli di confidenza Sommario Ora che conosciamo la distribuzione campionaria dello stimatore OLS, possiamo condurre test d ipotesi su β e costruire un intervalli di confidenza Inoltre daremo uno sguardo ai seguenti argomenti: Regressioni quando X è binaria (0/) eteroschedasticità e omoschedasticità Efficienza dello stimatore OLS Uso della statistica-t nel test di ipotesi 36

37 4 passi principali:. definire la popolazione oggetto di interesse 2. derivare la distribuzione campionaria dello stimatore 3. stimare la varianza della distribuzione campionaria (per il TLC è l unica cosa di cui abbiamo bisogno se n è grande) cioè trovare gli standard error (SE) dello stimatore usando solo i dati a disposizione 4. Usare ˆ β per ottenere una stima puntuale e il suo SE per test di ipotesi e intervallo di confidenza. 37

38 Oggetto di interesse: β in, Y i = β 0 + β X i + u i, i =,, n β = Y/ X, per un cambio in X (effetto causale) 38

39 Test d ipotesi e SE ˆβ L obiettivo è di testare un ipotesi, come β = 0 test di significativita usando i dati per cercare di concludere se l H 0 è vera o no. General setup Ipotesi nulla e alternativa a due-code: H 0 : β = β,0 vs. H : β β,0 β,0 il valore ipotizzato sotto la nulla. Ipotesi nulla e alternativa a una-coda: H 0 : β = β,0 vs. H : β < β,0 39

40 Approccio generale: construiamo una statistica t, calcoliamo il p- valore (o lo confrontiamo con il valore critico di N(0,)) In generale: t =(stima-valore ipotizzato)/se(stimatore) dove SE(stimatore) è la radice quadrata di uno stimatore della varianza dello stimatore. Per testare la media di Y: t = Per testare β, t = Y s Y µ / Y,0 n ˆ β β SE( ˆ β ),0 Dove SE( ˆ β ) = la radice quadrata di uno stimatore della varianza della distribuzione campionaria di ˆ β ed è calcolato dal software, 40

41 Riassunto: H 0 : β = β,0 vs H : β β,0, t-statistica t = ˆ β β SE( ˆ β ),0 = ˆ β β,0 σ 2 ˆβ ˆ Rifiutiamo al 5% se t >.96 Il p-valore è p = Pr[ t > t att ] = probabilità nelle code della distribuzione fuori da t att ; rifiutiamo al 5% se il p-valore è < 5%. Approssimazione valida per n grande. 4

42 Esempio: Retta di regressione stimata: Vˆ oti standard errors forniti dal software: = STR SE( ˆ β 0 ) = 0.4 SE( ˆ β ) = 0.52 statistica t per testare cheβ,0 = 0 = ˆ β β SE( ˆ β ),0 All % il valore critico è di 2.58, perciò Alternativamente abbiamo il p-valore = =

43 The p-valore è di (0 5 ) 43

44 Intervalli di confidenza per β Poichè la statistica t per β è N(0,) nei grandi campioni, costruire un intervallo di confidenza al 95% è la stessa cosa del caso della media campionaria: intervallo di confidenza al 95% per β = { ˆ β ±.96 SE( ˆ β )} 44

45 Retta di regressione stimata: Vˆ oti = STR SE( ˆ β 0 ) = 0.4 SE( ˆ β ) = % intervallo di confidenza di ˆ β : { ˆ β ±.96 SE( ˆ β )} = { 2.28 ± } = ( 3.30,.26) Le seguenti conclusioni sono identiche: L intervallo di confidenza al 95% non include lo zero; L ipotesi β = 0 è rifiutata al livello di significatività del 5% 45

46 Vˆ oti = STR, R 2 =.05, SER = 8.6 (0.4) (0.52) Questa espressione ci da molte informazioni: La retta stimata è Vˆ oti Lo SE( ˆ β 0 ) è 0.4 Lo SE( ˆ β ) è 0.52 = STR L R 2 è 0.05; lo standard error della regressione è

47 Come leggere un output regress testscr str, robust Regression with robust standard errors Number of obs = 420 F(, 48) = 9.26 Prob > F = R-squared = Root MSE = Robust testscr Coef. Std. Err. t P> t [95% Conf. Interval] str _cons so: Vˆ oti = STR,, R 2 =.05, SER = 8.6 (0.4) (0.52) t (β = 0) = 4.38, p-valore = (2-code) 95% 2-code intervallo conf. per β è ( 3.30,.26) 47

48 Sommario di inferenza su β 0 e β : Stima: Stime OLS di ˆ β 0 e ˆ β ˆ β 0 e ˆ β hanno approssimativamente distribuzione campionaria normale in grandi campioni Test: H 0 : β = β,0 v. β β,0 (β,0 è il valore di β sotto H 0 ) t = ( ˆ β β,0 )/SE( ˆ β ) p-valore = area sotto la normale standard fuori t att (n grande) Inervallo di confidenza: intervallo di confidenza al 95% per β è { ˆ β ±.96 SE( ˆ β )} questo è l insieme di valori di β per cui non si rifiuta l ipotesi nulla al 5%. Il 95% CI contiene il vero β nel 95% di tutti i campioni. 48

49 Regressione quando X è Binaria A volte il regressore è binario: X = se le classi sono piccolo, = 0 se non lo sono X = se donna, = 0 se uomo X = se trattato, = 0 se non lo è I regressori binari sono a volte chiamati variabili dummy. Fino ad ora, abbiamo chiamato β pendenza ma questo non ha senso se X è binaria Come interpretare il coefficiente se il regressore è binario? 49

50 Interpretazione Y i = β 0 + β X i + u i, dove X i = 0 o : quando X i = 0, Y i = β 0 + u i La media di Y i è β 0 cioè, E(Y i X i =0) = β 0 quando X i =, Y i = β 0 + β + u i la media di Y i è β 0 + β cioè, E(Y i X i =) = β 0 + β perciò β = E(Y i X i =) E(Y i X i =0) = differenza della popolazione fra medie di gruppo 50

51 sestr < Es D i = 0seSTR Regressione OLS Vˆ oti = D (.3) (.8) Grandezza Classe Voto medio(y ) Std. dev. (s Y ) N Piccola (STR < 20) Grande(STR 20) Differenza nelle medie: Ysmall Ylarge = = 7.4 Standard error: SE = s n 2 2 s l s s + = n l =

52 Sommario Y i = β 0 + β X i + u i β 0 = media di Y quando X = 0 β 0 + β = media Y quando X = β = differenza nelle medie di gruppo, X = meno X = 0 SE( ˆ β ) ha la solita interpretazione Statistica-t, intervallo di confidenza come al solito È semplicemente un altra maniera per fare un analisi di differenze fra medie 52

53 Eteroschedasticità e omoschedasticità Cosa sono? Conseguenze dell omoschedasticità Implicazioni per il calcolo degli standard errors Se var(u X=x) è costante cioè, la varianza della distribuzione di u condizionata a X non dipende da X allora u si dice omoschedastica. Altrimenti, u si dice eteroschedastica. 53

54 Es: etero/omoschedasticità nel caso di regressore binario) Standard error quando le varianze dei gruppi sono diverse: SE = s n 2 2 s l s + s n l Standard error quando le varianze dei gruppi sono uguali: dove SE = s 2 s p = p + n n s ( n ) s + ( n ) s l 2 2 s s l l n s + n l 2 (SW, Sez 3.6) s p = stima complessiva di σ 2 2 dove σ l = 2 σ s varianze dei gruppi uguali = omoschedasticità varianze dei gruppi diverse = eteroschedasticità 54

55 Omoschedasticità E(u X=x) = 0 (u soddisfa Assunzione #) La varianza di u NON dipende da x 55

56 Eteroschedasticità E(u X=x) = 0 (u soddisfa Assunzione #) La varianza di u DIPENDE da x: u è eteroschedastico. 56

57 Es: guadagno medio vs anni di istruzione Eteroschedastico o omoschedastico? 57

58 Eteroschedastico o omoschedastico? 58

59 u eteroschedastico?. Richiamiamo le 3 Assunzioni OLS:. E(u X = x) = 0 2. (X i,y i ), i =,,n, sono i.i.d. 3. grandi outliers sono rari Eteroschedasticità e omoschedasticità hanno a che fare con la var(u X=x). Poiché non abbiamo fatto alcuna assunzione esplicita sull omoschedasticità, abbiamo implicitamente assunto la presenza di eteroschedasticità. 59

60 Possiamo provare che lo stimatore OLS ha la varianza minore fra gli stimatori lineari in Y ( teorema Gauss-Markov) La formula per la varianza di ˆ β e degli standard error OLS è: 2 Se var(u i X i =x) = σ u, allora var( ˆ var[( X i µ x ) ui ] β ) = 2 2 n( σ ) X = E X u 2 2 [( i µ x ) i ] 2 2 n( σ X ) 2 σ u = 2 nσ X Nota: var( ˆ β ) è inversamente proporzionale a var(x): più variabilità in X significa più informazione su ˆ β 60

61 Di conseguenza gli standard error omoschedastici sono SE( ˆ β ) = n 2 uˆ i n 2 i= n n ( X i X ) n i= 2. 6

62 gli standard error omoschedastici sono validi solo se gli errori sono omoschedastici. Di solito conviene usare gli standard error eteroschedasticistandard error robusti perchè sono validi in tutti e due i casi. Il principale vantaggio degli standard error omoschedastici è la semplicità della formula. Il maggiore svantaggio è che sono validi solo con errori omoschedastici Dato che le due formule coincidono nel caso di omoschedasticità conviene sempre usare standard error robusti! 62