Regressione lineare - ripasso

Transcript

1 Regressione lineare - ripasso Quando parliamo di regressione cosa intendiamo? Il modello di regressione è caratterizzato dai seguenti aspetti: 1. siamo interessati a una particolare variabile che vorremmo capire meglio o modellare, come ad esempio le vendite di un determinato prodotto o il prezzo di un'azione. Questa sarà la variabile risposta o variabile dipendente nelle nostre analisi e di solito viene rappresentata dalla lettera y 2. abbiamo un insieme di p variabili che pensiamo possano essere utili per aiutarci a prevedere o modellare la variabile risposta (ad esempio il prezzo del prodotto, il prezzo dei concorrenti, ecc.; oppure i protti, i ricavi, la posizione nanziaria dell'azienda quotata, ecc.). Queste variabili sono dette variabili esplicative, o indipendenti e sono generalmente indicate con x 1, x 2, ecc. Tipicamente un'analisi di regressione viene usata per uno o più dei seguenti scopi: 1. previsione della variabile risposta 2. modellazione della relazione tra x 1, x 2,... e y 3. vericare ipotesi. La base della maggior parte delle analisi di regressione è il modello lineare. Tale modello può essere caratterizzato come segue. Abbiamo a disposizione un insieme di n osservazioni {x 1i, x 2i,..., x pi, y i } con (i = 1,..., n), che rappresenta un campione casuale di una popolazione più ampia. Si assume che queste osservazioni soddisno a una relazione lineare y i = β 0 + β 1 x 1i β p x pi + ε i, dove i coecienti β sono parametri ignoti e le ε i sono termini di errore casuale. Con modello lineare intendiamo che la relazione è lineare nei parametri; un modello quadratico y i = β 0 + β 1 x i + β 2 x 2 i... + ε i, è, quindi, un modello lineare, visto che possiamo vedere x i e x 2 i come versioni di x 1 e x 2. Perché restringiamo la nostra attenzione ai modelli lineari? Sono facili da capire, e facili da trattare matematicamente; ma, soprattutto, funzionano bene in moltissime situazioni (anche se non in tutte le situazioni). Parte del corso cercherà di darci degli strumenti su cosa signica che un modello funziona bene e su come possiamo valutare un modello. Certo, partiamo dal presupposto che Tutti i modelli sono sbagliati, ma seguendo George Box (uno statistico importante) aggiungiamo che alcuni, però, sono utili. Infatti, il più delle volte, non crediamo che il nostro modello lineare veramente descriva la realtà; pensiamo piuttosto che spesso ci fornisce un'utile rappresentazione della realtà. Un'alto utile suggerimento ci viene da un altro grande statistico, John Tukey: abbraccia i tuoi dati, non i tuoi modelli 1

2 Si consideri ora il modello di regressione semplice (cioè con p = 1). Il modello è y i = β 0 + β 1 x i + ε i. Un valore positivo di β 1 è legato a una relazione diretta tra x e y; ad esempio, più alti valori dell'altezza sono associati a più alti valori del peso, o bassi valori di ricavi sono associati a bassi valori di protti. Un valore negativo di β 1 è invece legato a una relazione inversa tra x e y; ad esempio alti valori del prezzo di un prodotto sono associati a una minore domanda, o un bassi tassi di inazione sono associati con maggiori tassi di interesse. Il primo passo di ogni analisi consiste nel guardare i dati; nel contesto della regressione ciò signica guardare gli istogrammi, i box-plot e un diagramma di dispersione. Stimare i parametri ignoti β 0 e β 1 signica disegnare una retta che passi nella nuvola di punti che si osserva nel diagramma di dispersione. Per fare questo abbiamo bisogno di una regola o un criterio che ci fornisca una retta ragionevole e riproducibile. L'approccio usuale si basa sul criterio dei minimi quadrati, dove si scelgono come stime i valori che minimizzano n S = (y i β 0 β 1 x i ) 2. i=1 Questo è un semplice problema di analisi matematica che fu risolto per la prima volta o da Legendre nel 1805 o da Gauss nel 1794 (Legendre lo aveva pubblicato prima, poi Gauss ne rivendicò la priorità). Si può mostrare che le stime ai minimi quadrati soddisfano (xi x)(y i ȳ) ˆβ 1 = (xi x) 2 e ˆβ 0 = ȳ ˆβ 1 x dove x e ȳ indicano rispettivamente la media di x e quella di y. Non è necessario memorizzare queste formule, visto che oggigiorno i computer ci facilitano il calcolo su ogni sorta di insieme di dati. È però utile osservare una implicazione di queste formule. Sia ŷ i = ˆβ 0 + ˆβ 1 x i cioè il valore adattato per la i esima osservazione secondo il modello di regressione ai minimi quadrati. Allora sostituendo le formule precedenti ci fornisce ŷ i ȳ = ˆβ 1 (x i x). Cioè, la stima ai minimi quadrati implica che la migliore previsione per un'osservazione il cui valore x è una unità sopra la media ( x) di x sarà quel valore y che si presenta ˆβ 1 unità sopra la media (ȳ) di y. Questo coeciente di pendenza fornisce una rappresentazione diretta di come posizioni relative nello spazio di x si relazionino con le posizioni relative dello spazio di y. La dierenza tra i valori osservati y i e i valori adattati ŷ i sono chiamati residui. Un interessante annotazione storica spiega il nome regressione di questo metodo. Sir Francis Galton, il grande biologo inglese, aveva raccolto dei dati sull'altezza dei genitori e dei loro gli, e aveva notato che il coeciente ˆβ 1 nel modello precedente era positivo, ma minore di 1; cioè padri alti avevano gli alti, ma più bassi dei rispettivi genitori, mentre padri bassi avevano gli bassi, ma tendenzialmente più alti dei loro padri. Galton chiamò questo fenomeno regressione alla mediocrità, e il termine regressione venne applicato a tutte le analisi di questo tipo, anche se la regressione alla mediocrità non era più evidente. I coecienti ai minimi quadrati hanno signicati specici precisi. Cioè: 2

3 ˆβ 1 : L'aumento (calo) atteso stimato nella variabile risposta associato ad un aumento (calo) unitario della variabile esplicativa. Si osservi la parola stimato si ricordi che ˆβ 1 è una stima di β 1, non il valore stesso. Si osservi anche la parola associato non possiamo dire che un aumento (calo) nella variabile risposta è causato dall'aumento (calo) della variabile esplicativa, ma solo che sono associati l'un l'altro. ˆβ 0 : Il valore atteso stimato della variabile risposta quando la variabile esplicativa assume valore 0. Si osservi che questo potrebbe non avere alcuna interpretazione sica, visto che il valore 0 dell'esplicativa potrebbe non avere alcun senso. Chi dice che la regressione ai minimi quadrati è una buona idea? Nessuno, a meno che non facciamo alcune assunzioni sui nostri dati. Ne abbiamo già menzionata una la relazione dovrebbe essere più o meno lineare. Abbiamo bisogno di qualche altra assunzione per giusticare l'utilizzo del criterio dei minimi quadrati: 1. il valore atteso degli errori è zero (E(ε i ) = 0 per ogni i). Cioè, non può essere vero che per qualche sottogruppo della popolazione il modello sia generalmente troppo basso mentre per qualche altro gruppo troppo alto. Una violazione di questo assunto porterebbe ad alcune dicoltà nella stima di β 0 e signica che il modello non include una necessaria componente sistematica. 2. la varianza degli errori è costante (V ar(ε i ) = σ 2 per ogni i). Cioè, non può essere vero che il modello sia più accurato per qualche parte della popolazione (σ piccolo) e meno accurato per altre parti (σ grande). Questa proprietà è detta omoschedasticità, e la sua violazione è detta eteroschedasticità. Una violazione di questo assunto implica che le stime ai minimi quadrati non sono così ecienti come potrebbero essere nello stimare i parametri, e si possono ottenere stime migliori. Comporta anche intervalli di previsione poco calibrati. 3. gli errori sono incorrelati tra loro. Cioè, non può essere vero che il fatto di conoscere che il modello sottostima y in un particolare caso dica qualcosa sul comportamento del modello per un qualsiasi altro caso. La violazione di questo assunto capita spesso quando i dati sono ordinati rispetto al tempo (serie storiche) dove errori vicini nel tempo sono anche simili tra loro (una tale correlazione legata al tempo è spesso chiamata autocorrelazione). La violazione di questo assunto può portare a problemi nella misurazione della forza della regressione. 4. (*) gli errori sono distribuiti normalmente. Questo assunto è necessario se vogliamo produrre intervalli di condenza e di previsione, o veriche di ipotesi che in genere facciamo. Se questo assunto è violato test di ipotesi e intervalli di condenza e di previsione possono essere mendaci. Si può mostrare che se queste assunzioni sono vere, la regressione ai minimi quadrati è la `cosa giusta' da fare. In questo corso aronteremo il tema di come vericare questi assunti e di come comportarsi se eventualmente qualcuno non fosse soddisfatto. La tabella seguente riassume gli assunti e i problemi ad essi legati. 3

4 4

5 Assunto Cosa signica? Quando viene verosimilmente violato? E(ε i ) = 0 per ogni i Non può succedere che Sottogruppi ben deniti per qualche unità della nei dati possono provocare popolazione il valore y sia problemi. Per esempio sistematicamente inferiore se x =anni di lavoro, e alla retta di regressio- y =salario, e se le donne, mentre per altre unità ne sono sistematicamenticamente il valore y sia sistemate sottopagate, si avrà superiore E(ε i ) < 0 per le donne, mentre per gli uomini si V ar(ε i ) = σ 2 per ogni i (omoschedasticità) ε i e ε j non sono legate tra loro per i j ε i N (0, σ 2 ) Non può succedere che la relazione tra x e y sia più forte per qualche unità della popolazione e più debole per altre (eteroschedasticità). Non può succedere che sapere che il valore di y per l'i esimo caso è, ad esempio, minore del suo valore atteso ci dica qualcosa su se il valore di y per un altro caso sia sopra o sotto del suo valore atteso. Gli errori hanno distribuzione Normale 5 avrà E(ε i ) > 0. Sottogruppi ben deniti nei dati possono provocare problemi. Per esempio, potrebbe succedere che i salari delle donne siano meno variabili intorno al loro valore tipico rispetto a quelli degli uomini. Un'altra possibile causa si trova quando i dati hanno un gande campo di variazione. Ad esempio, se y = ricavi di un'azienda e x =spese di pubblicità, è ragionevole aspettarsi che i ricavi siano prevedibili in maniera più accurata per piccole aziende piuttosto che per quelle grandi. Avviene spesso per dati in serie storica. Ad esempio, se le vendite di un prodotto sono più alte del previsto in un mese, diciamo Luglio, ci aspettiamo che siano più alte del previsto anche in Giugno ed Agosto. Perché è un problema? Le stime di β 0 saranno inappropriate. E, in maniera più rilevante, una parte del segnale è stato erroneamente considerato come rumore. Le stime di β 0 e di β 1 saranno meno accurate di quanto potrebbero essere. E, in maniera più importante, la misurazione dell'accuratezza previsiva sarà scorretta. Le misure sulla forza della relazione tra x e y potrebbero essere errate. Può succedere sempre Intervalli di condenza e di previsione e test di ipotesi potrebbero essere errati.

6 Come possiamo valutare la forza della relazione osservata con la regressione? Si può mostrare che n (y i ȳ) 2 = i=1 n (y i ŷ i ) 2 + i=1 n (ŷ i ȳ) 2 Somma dei Quadrati Somma dei Quadrati Somma dei Quadrati = + Totale corretta dei residui della Regressione Variabilità Totale = Variabilità residua + Variabilità dovuta alla regressione Questo ci dice che la variabilità della variabile risposta può essere divisa in due parti la variabilità residua dopo aver eettuato la regressione e la variabilità spiegata dalla regressione. Questo implica immediatamente che una buona regressione è associato a un grande R 2, dove R 2 (ŷi ȳ) 2 Somma dei Quadrati della Regressione = = (yi ȳ) 2 Somma dei Quadrati Totale corretta Il valore R 2 (chiamato Coeciente di Determinazione) misura la proporzione di variabilità della y spiegata dalla regressione. Valori vicini a 1 indicano una forte relazione, mentre valori vicini a 0 una relazione debole. A volte viene usato un valore di R 2 leggermente modicato per tener conto della distorsione presente nel coeciente; l'r 2 aggiustato ha la forma Ra 2 = R 2 1 n 2 (1 R2 ). C'è una relazione signicativa tra x e y? Questo può venire vericato usando la statistica F. L'ipotesi da vericare è H 0 : β 1 = 0 contro La statistica test sarà allora (ŷi ȳ) 2 /1 F = (yi ŷ i ) 2 /(n 2) i=1 H A : β 1 0 = Media dei quadrati di regressione Media dei quadrati dei residui dove la Media dei quadrati è la somma dei quadrati diviso i suoi gradi di libertà. Ipotesi di questo tipo possono essere anche vericate usando test t. Per vericare contro H 0 : β j = β 0 j si può usare la statistica test H A : β j β 0 j t = ˆβ j β 0 j s.e.( ˆβ j ), 6

7 sostituendo appropriatamente j e β j, e che si distribuisce come una t di Student con n 2 gradi di libertà. La stessa distribuzione permette di costruire un intervallo di condenza per il coeciente di regressione; un intervallo di condenza al 100 (1 α)% per β j è ˆβ j ± t n 2 α/2 s.e.( ˆβ j ) dove t n 2 α/2 è l'appropriato valore critico della distribuzione t. I test F e t forniscono indicazioni sulla signicatività statistica, ma non dicono nulla sull'importanza pratica del modello. Conoscere x ci aiuta davvero a capire qualcosa di più sul valore di y? Questa non è una domanda a cui possiamo dare una risposta puramente statistica; richiede conoscenza e comprensione del problema specico e dei dati. Anche se la statistica può aiutare. Si ricordi che stiamo assumendo che gli errori abbiano deviazione standard σ. Ciò signica che, parlando approssimativamente, dopo la regressione ci aspettiamo di conoscere il valore di y con un errore di ±2σ (visto che assumiamo che gli errori rispetto alla retta di regressione sono distribuiti come una normale). La media dei quadrati dei residui n ˆσ 2 i=1 = (y i ŷ i ) 2 n 2 ci fornisce una stima di σ 2 che può essere utilizzata per ottenere una misura dell'errore (sostituiremo ±2ˆσ). La sua radice quadrata è detta errore standard della stima. Una più accurata misura di questo ci viene fornita dall'intervallo di previsione dato un particolare valore di x. Questo intervallo ci fornisce una misura di quanto accurato sia ŷ 0 come previsione di y per qualche particolare valore x 0 ; la sua grandezza dipende sia da ˆσ sia dalla posizione di x 0 rispetto alla media x, visto che i valori lontani da x sono più dicili da prevedere. Specicamente, per una regressione semplice, l'errore standard del valore previsto sulla base del valore x 0 della variabile esplicativa è s.e.(ŷ0 P ) = ˆσ n + (x 0 x) 2 (xi x), 2 dove ˆσ è la radice quadrata della media dei quadrati dei residui. L'intervallo di previsione sarà quindi ŷ 0 ± t n 2 α/2 s.e.(ŷp 0 ) L'intervallo di previsione non dovrebbe essere confuso con un intervallo di condenza per un valore adattato, che sarà più stretto. L'intervallo di previsione è usato per fornire una stima intervallare per una previsione di y per una unità della popolazione con un determinato valore x 0 ; l'intervallo di condenza è invece usato per fornire una stima intervallare per il vero valore medio di y per tutte le unità della popolazione con un particolare valore x 0. L'errore standard corrispondente per un valore adattato in una regressione lineare semplice è s.e.(ŷ0 F 1 ) = ˆσ n + (x 0 x) 2 (xi x), 2 con corrispondente intervallo di condenza ŷ 0 ± t n 2 α/2 s.s.(ŷf 0 ) 7

8 Come abbiamo notato precedentemente, tutti questi test, intervalli, previsioni ecc. sono basati sul fatto che consideriamo veri gli assunti della regressione. Un primo passo per vericare se gli assunti sono veri si basa su alcuni semplici graci che possono fornirci l'evidenza che alcuni assunti non siano soddisfatti: 1. un graco dei residui verso i valori adattati. Questo graco non dovrebbe avere alcuna forma particolare; cioè non dovrebbe apparire nessuna struttura. Alcuni tipi di strutture indicano potenziali problemi: (a) un punto (o pochi punti) isolati in alto o in basso, a destra o a sinistra. Inoltre, spesso gli altri punti hanno un notevole inclinazione verso questi punti. Questi punti isolati sono punti anomali, e potrebbero avere un forte eetto sulla regressione. Devono essere esaminati accuratamente e forse rimossi dalla analisi (principale) del dataset. (b) potrebbe presentarsi un'impressione di altezze diverse della nuvola di punti, muovendosi da sinistra a destra. Questo può indicare eteroschedasticità. 2. se i dati hanno una struttura temporale, è opportuno disegnare i residui verso il tempo. Ancora, non ci dovrebbe essere alcuna struttura apparente. Se si osserva una struttura ciclica, signica che gli errori non sono incorrelati come dovrebbero essere 3. un normal-plot (o plot dei ranghi) dei residui. Questo graco fornisce una indicazione sull'apparente normalità dei residui. Il graco dovrebbe sembrare (all'incirca) una linea retta. Alcuni punti isolati rappresentano ancora una volta osservazioni anomale, mentre una linea curva indica che gli errori probabilmente non sono distribuiti normalmente, e quindi i test e gli intervalli potrebbero non essere corretti. La formulazione matriciale della regressione I modelli di regressione possono anche essere rappresentati usando matrici e vettori. Questa notazione non è rilevante per la regressione lineare semplice, ma ci fornisce un utilissimo strumento per facilitare l'approccio quando abbiamo a disposizione più di una variabile esplicativa (regressione multipla). Si deniscano le matrici e i vettori che seguono: X = 1 x x n y = y 1. y n β = [ β0 β 1 ] ɛ = Il modello di regressione può quindi essere scritto in maniera succinta ε 1. ε n (1) y = Xβ + ɛ (2) Si può facilmente mostrare che le equazioni normali (che determinano la stima ai minimi quadrati di β) sono (X T X)β = X T y (3) 8

9 che implica che la stima ai minimi quadrati è I valori adattati sono allora ˆβ = (X T X) 1 X T y. (4) ŷ = Xβ = X(X T X) 1 X T y = Hy, dove H = X(X T X) 1 X T è chiamata matrice cappello. Questa matrice è particolamente importante, come vedremo in seguito. Si consideri ora il caso di p variabili esplciative che possono essere usate in un modello lineare per prevedere una variabile risposta y. Siano β 1 x 11 x p1 y 0 1 β 1 ε 1 X =.. y =. β = ɛ =.. (5) 1 x 1n x pn y n ε β n p L'equazione y = Xβ + ɛ dice che y i = β 0 + β 1 x 1i β b x pi + ε i, è ancora una relazione lineare. Così la stessa notazione matriciale ancora rappresenta il modello di regressione lineare. Si ottiene così la stima ai minimi quadrati attraverso ˆβ = (X T X) 1 X T y e ŷ = Hŷ, dove H = X(X T X) 1 X T 9