Regressione lineare semplice

Transcript

1 Regressione lineare semplice Strumenti quantitativi per la gestione Emanuele Taufer Regressione lineare (RL) La regressione lineare per i dati Advertising Analisi d interesse Regressione lineare semplice (un unico predittore X) Previsione Stima dei parametri con i minimi quadrati Advertising data Uso dei risultati Retta stimata e residui Valutare la precisione delle stime dei coefficienti Proprietà di β^0 e β^1 Intervalli di confidenza Verifica delle ipotesi Valutare la bontà del modello L errore standard residuo (RSE) La statistica di bontà di adattamento R 2 Grafici R 2 Esempio: Diamond Alcune statistiche e plot RLS con R e output Retta stimata e IC IC per la retta Come ottenere un intercetta più interpretabile Interpolazione Previsioni Riferimenti bibliografici Regressione lineare (RL) La RL è uno degli approcci più semplici nel cd supervised learning. La RL assume che la dipendenza di Y da X1, X2, X p sia lineare. Nella pratica le vere " funzioni di regressione f non sono mai lineari! L assunzione di linearità va sempre intesa come un approssimazione della verità. Anche se può sembrare troppo semplicistico, il modello di RL è estremamente utile sia concettualmente che praticamente. è di facile interpretazione è estremamente flessibile molti metodi moderni sono estensioni della RL: capirla a fondo ci permette di capire a fondo anche tecniche più sofisticate. file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/3a_rls.html 1/14

2 La regressione lineare per i dati Advertising Si considerino i dati Advertising Analisi d interesse C è una relazione tra budget pubblicitario e vendite? Qual è l intensità della relazione tra budget pubblicitario vendite? Quali media contribuiscono alle vendite? Come si può prevedere con precisione le vendite future? La relazione è lineare? C è sinergia (o interazione) tra canali pubblicitari? Regressione lineare semplice (un unico predittore ) X Assumiamo un modello Y = β0 + β1x + ε, β0 e β1 sono due costanti sconosciute che rappresentano l intercetta e la pendenza della retta, noti anche come coefficienti o parametri. ε è il termine di errore (include tutto ciò di cui ci siamo dimenticati o non possiamo misurare) altri fattori (pubblicità su giornali e radio, ) variabilità intrinseca al fenomeno nonlinearità Ad esempio, X può rappresentare la pubblicità televisiva e Y può rappresentare le vendite. Allora possiamo regredire vendite su TV usando il modello file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/3a_rls.html 2/14

3 Previsione I valori di β0 e β1 vengono stimati usando i training data Date delle stime β^0 e β^1 per i coefficenti del modello, possiamo prevedere le vendite future con dove indica una previsione di in base a. Il simbolo ^ denota un valore stimato. Stima dei parametri con i minimi quadrati Sia y^i β^0 β^1x i la previsione per Y in base all i esimo valore di X. e i y i y^i rappresenta il residuo i esimo. Si definisca la somma dei quadrati dei residui (RSS) come o equivalentemente L approccio dei minimi quadrati sceglie i valori β^0 e β^1 che minimizzano lo RSS. Le soluzioni sono Advertising data vendite β0 + β1 T V. y^ = β^0 + β^1 x, y^ Y X = x = + = Dati sulle spese in pubblicità (in migliaia di $) e vendite (in migliaia di unità di prodotto) in 200 mercati diversi. Alcuni dati: (n = 200) RSS = e e e 2 n, RSS = ( y1 β^0 β^1x1) ( y n β^0 β^1x n ) 2 β^1 ( )( ) = n i=1 x i x y i ȳ, n i=1( x i x ) 2 β^0 = ȳ β^1x X TV Radio Newspaper Sales file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/3a_rls.html 3/14

4 dai dati otteniamo β^0 = 7.03, = β^1 Uso dei risultati La previsione con il modello di RL semplice è Per una spesa pubblicitaria in TV pari a 20000$ ci si aspettano vendite per un totale di ossia 7980 unità del prodotto y^ = x y^ = (20) = 7.98 Il coefficente β0 ci indica la quantità venduta attesa in assenza di pubblicità TV β^1 y^ x Il coefficiente ci indica l incremento in per un incremento di. In pratica, ogni 1000$ spesi in più in pubblicità TV, ci si aspetta un incremento di vendite di 47.5 unità del prodotto. Retta stimata e residui Valutare la precisione delle stime dei coefficienti Il modello file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/3a_rls.html 4/14

5 idealmente rappresenta la popolazione che vorremmo analizzare, che include, ad esempio anche dati su vendite e pubblicità in altri mercati e dati su vendite e pubblicità future. Il modello stimato Y = β0 + β1x + ε, y^ = β^0 + β^1 x, è basato sui dati campionari che abbiamo a disposizione (i training data) In pratica β^0 e β^1 sono degli stimatori (ottenuti con il metodo dei minimi quadrati) di β0 e β1 e pertanto soggetti a variabilità campionaria Rosso: retta popolazione Blu: retta stimata Proprietà di β^0 e β^1 β^0 e β^1 sono stimatori corretti per β0 e β1. Ossia non vi sono errori sistematici di sotto stima o sovra stima. Lo standard error ci dà una misura della loro variabilità campionaria dove σ 2 = V ar(ε) σ SE( β^1 ) = 2, n i=1( x i x ) 2 β^0 σ [ + ] 2 1 x 2 SE( ) = file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/3a_rls.html 5/14 n n i=1( x i x ) 2

6 Tipicamente σ 2 è sconosciuta e, nella RL semplice, viene stimata con RSS/(n 2) Lo SE calcolato utilizzando la stima di σ 2 è un SE stimato che per correttezza, dovrebbe essere indicato con E, di seguito e nel testo si usa sempre la simbologia SE per semplicità. Intervalli di confidenza Gli SE possono essere utilizzati per calcolare intervalli di confidenza. Nel caso di β1, fornisce un IC approssimativamente di livello. Per il data set Advertising l intervallo di confidenza al 95% per è. Verifica delle ipotesi S^ Gli errori standard possono anche essere utilizzati per eseguire test di ipotesi sui coefficienti. Il test più comune consiste nel verificare il set di ipotesi H0 : Non vi è alcuna relazione tra X e Y H A : Vi è relazione tra X e Y β^1 Matematicamente, ciò corrisponde a testare H0 H A : β1 = 0 : β1 0 = 0 ± 2SE( ), poiché se β1 allora il modello si riduce a Y = β0 + ε, e quindi X non è associato con Y. β^1 (1 α = 0.95) β1 [0.042; 0.053] Per verificare l ipotesi nulla, si calcola la statistica test t che ha distribuzione con gradi di libertà, sotto ipotesi che β1. L ouput di R, fornisce automaticamente probabilità di osservare un valore uguale o superiore, ossia il p value t Per il dataset Advertising: t = 0 β^1 SE( β^1 ) t n 2 = 0 ## Warning: package 'xtable' was built under R version EstimateStd. Errort valuepr(> t ) (Intercept) TV Nota: rifiuto H0 β1, esiste relazione tra X e Y : = 0 Valutare la bontà del modello file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/3a_rls.html 6/14

7 Respinta l ipotesi nulla ( in favore dell alternativa H0 β1, è naturale voler quantificare la misura in cui il modello si adatta ai dati. La qualità di un modello di regressione lineare viene tipicamente valutata utilizzando due grandezze collegate: l errore standard residuo (RSE) R 2 L errore standard residuo (RSE) Si noti che nel modello errore ε. ad ogni osservazione è associato n termine di Anche se si conoscesse la vera retta di regressione ( β0 e β1 conosciuti), non saremmo in grado di prevedere perfettamente Y da X. L RSE è una stima della deviazione standard di ε, Nel caso dei dati Advertising,. In altre parole, le vendite effettive in ogni mercato si discostano in media dalla linea di regressione vera di circa unità (in migliaia). Che 3260 H0 : β1 = 0 : 0 y = β0 + β1x + ε V ar(ε) 1 RSE = 1 RSS = n ( y n 2 n 2 i y^i) 2 i=1 RSE = 3.26 unità sia o meno un errore di previsione accettabile dipende dal contesto in esame. Nel set di dati Advertising, il valore medio delle vendite su tutti i mercati è di circa e quindi l errore percentuale è 3260/14000 = 23% La statistica di bontà di adattamento unità, L RSE fornisce una misura assoluta di adattamento del modello ai dati. Ma poiché è misurata in unità di Y, non è sempre chiaro quale sia un buon RSE per i dati in esame R La statistica R 2 fornisce una misura di adattamento alternativa. Ha valore sempre compreso tra 0 e 1, ed è indipendente dalla scala di Y. dove R 2 T SS RSS = = 1 RSS T SS = n i=1( y i ȳ) 2 Y RSS T SS TSS misura la varianza totale nella variabile risposta, RSS misura la quantità di variabilità che rimane inspiegata dopo aver adattato la regressione. Quindi, TSS RSS misura la quantità di variabilità in Y che viene spiegata (o rimossa) eseguendo la regressione e R 2 misura la proporzione di variabilità in Y che può essere spiegata con X. Abbiamo dunque le seguenti regole interpretative R 2 : tutti i punti sono allineati lungo la retta = 1 file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/3a_rls.html 7/14

8 R 2 : non vi è alcuna relazione lineare (punti sparsi in modo casuale) 0 < R 2 < 10 nei casi intermedi R 2 non dice nulla sull intensità della relazione (valore di β1 ). Nel set di dati Advertising R 2 = 0.61, e quindi poco meno di due terzi della variabilità delle vendite si spiega con la pubblicità TV. Grafici = 0 R 2 ## Warning: package 'ggplot2' was built under R version Esempio: Diamond Il dataset diamond dalla libreria UsingR contiene i prezzi di una serie di Singapore) ed il loro peso in carati. diamanti (in dollari di Per caricare i dati è necessario installare prima il pacchetto UsingR. Con i comandi names e head è possibile vedere, rispettivamente, i nomi delle variabili del dataset e le prime righe di dati 48 file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/3a_rls.html 8/14

9 library(usingr) data(diamond) names(diamond) head(diamond) [1] "carat" "price" carat price Alcune statistiche e plot summary(diamond) carat price Min. :0.12 Min. : 223 1st Qu.:0.16 1st Qu.: 338 Median :0.18 Median : 428 Mean :0.20 Mean : 500 3rd Qu.:0.25 3rd Qu.: 657 Max. :0.35 Max. :1086 plot(diamond$price,diamond$carat, xlab = "Massa (carati)", ylab = "Prezzo (SIN $)", bg = "red", col = "black", cex = 1.5, pch = 21, frame = FALSE) file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/3a_rls.html 9/14

10 RLS con R e output reg< lm(price ~ carat, data = diamond) summary(reg) file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/3a_rls.html 10/14

11 Call: lm(formula = price ~ carat, data = diamond) Residuals: Min 1Q Median 3Q Max Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) <2e 16 *** carat <2e 16 *** Signif. codes: 0 '***' '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 Residual standard error: 32 on 46 degrees of freedom Multiple R squared: 0.978, Adjusted R squared: F statistic: 2.07e+03 on 1 and 46 DF, p value: <2e 16 t p < 2e 16 = 2 (10) 16 Il test relativo a carat è significativo ( value hanno capacità predittiva sul prezzo ). Ossia i carati In media ci si aspetta un aumento di prezzo pari a dollari per ogni incremento di un carato del diamante RSE = n con gradi di libertà. I gradi di libertà corrispondono a parametri della retta, in questo caso 2 (intercetta e pendenza). Da questo ad esempio ricaviamo che ci sono dati nei training data 48 R 2 grafico. = ; l adattamento dei punti alla retta è molto buono, come si vede anche dal R 2 corretto e statistica F: si discuteranno nelle prossime lezioni Retta stimata e IC plot(diamond$carat, diamond$price, xlab = "Massa (carati)", ylab = "Prezzo (SIN $)", bg = "red", col = "black", cex = 1.1, pch = 21,frame = FALSE) abline(reg, lwd = 2) file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/3a_rls.html 11/14

12 IC per la retta Per ottenere gli IC al 95% per i parametri della retta confint(reg) 2.5 % 97.5 % (Intercept) carat Come ottenere un intercetta più interpretabile L intercetta è il prezzo atteso (dal modello) di un diamante di carati! L intercetta negativa non ha interpretazione nel contesto in esame, poichè non esistono diamanti a carati 0 il valore ci permette comunque di fare una previsione corretta per diamanti in un range di carati simile a quello presente nei training data. file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/3a_rls.html 12/14

13 se si desidera ottenere qualcosa interpretabile nel contesto in esame è possibile traslare l asse y in una zona dove ci sono dati. Questo si può fare semplicemente calcolando la regressione di y su x x reg2 < lm(price ~ I(carat mean(carat)), data = diamond) summary(reg2) ## ## Call: ## lm(formula = price ~ I(carat mean(carat)), data = diamond) ## ## Residuals: ## Min 1Q Median 3Q Max ## ## ## Coefficients: ## Estimate Std. Error t value Pr(> t ) ## (Intercept) <2e 16 *** ## I(carat mean(carat)) <2e 16 *** ## ## Signif. codes: 0 '***' '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 ## ## Residual standard error: 32 on 46 degrees of freedom ## Multiple R squared: 0.978, Adjusted R squared: ## F statistic: 2.07e+03 on 1 and 46 DF, p value: <2e Così dollari è il prezzo per un diamante (dei training data) di dimensione media ( carati). Interpolazione Per calcolare i valori interpolati dalla retta stimata per i training data, ci basta semplicemente (si ricordi che abbiamo chiamato reg l oggetto che contiene i risultati della procedura lm ) interp< predict(reg) attach(diamond) df< data.frame("prezzo"=price, "Carati"=carat,"Prezzo modello"=interp) head(df) Prezzo Carati Prezzo.modello Previsioni file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/3a_rls.html 13/14

14 Per fare le previsioni sulla base di un predittore x0 non presente nei training data è necessario creare un data.frame che contiene i valori dei predittori Proviamo a prevedere il prezzo per dei diamanti di 1, 2 e 3 carati dfp< data.frame("carat"=c(1,2,3)) predict(reg,dfp) E possibile ottenere gli IC per il valor medio previsto con predict(reg,dfp,interval="confidence") fit lwr upr In questo caso gli intervalli ( lwr, upr ) di livello 0.95 forniscono un range di valori per il prezzo medio, dato il valore del predittore carat Se nell intervallo vogliamo considerare anche la variabilità data dal termine di errore ε (ossia la parte irriducibile) è necessario specificare l opzione prediction predict(reg,dfp,interval="prediction") fit lwr upr Si noti che gli intervalli così ottenuti sono più ampi rispetto ai precedenti Riferimenti bibliografici An Introduction to Statistical Learning, with applications in R. (Springer, 2013) Alcune delle figure in questa presentazione sono tratte dal testo con il permesso degli autori: G. James, D. Witten, T. Hastie e R. Tibshirani file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/3a_rls.html 14/14