Validazione dei modelli. Strumenti quantitativi per la gestione

Transcript

1 Validazione dei modelli Strumenti quantitativi per la gestione Emanuele Taufer file:///g:/il%20mio%20drive/2%20corsi/3%20sqg/labs/l5-validazione.html#(1) 1/27

2 Validazione dei modelli In questo esempio consideriamo il data set Auto e: adattiamo un modello di regressione lineare adattiamo una regressione una regressione quadratica ed un cubica adattiamo una regressione KNN (nonparametrica) compariamo i modelli attraverso il calcolo del test MSE file:///g:/il%20mio%20drive/2%20corsi/3%20sqg/labs/l5-validazione.html#(1) 2/27

3 Il data set Auto In questo data set vi sono alcuni valori mancanti indicati con?. Nella lettura del file specifichiamo che? indica un valore mancante (NA) Auto<-read.csv(" str(auto) ## 'data.frame': 397 obs. of 9 variables: ## $ mpg : num ## $ cylinders : int ## $ displacement: num ## $ horsepower : int ## $ weight : int ## $ acceleration: num ## $ year : int ## $ origin : int ## $ name : Factor w/ 304 levels "amc ambassador brougham",..: file:///g:/il%20mio%20drive/2%20corsi/3%20sqg/labs/l5-validazione.html#(1) 3/27

4 I dati Nel data.frame eliminiamo le righe con i valori mancanti attraverso la funzione complete.cases che crea un vettore logico (T,F,T...) con F in corrispondenza di una riga con uno o più valori mancanti Auto<-Auto[complete.cases(Auto),] ## elimino le righe con "NA" head(auto) ## mpg cylinders displacement horsepower weight acceleration year origin ## ## ## ## ## ## ## name ## 1 chevrolet chevelle malibu ## 2 buick skylark 320 ## 3 plymouth satellite ## 4 amc rebel sst ## 5 ford torino ## 6 ford galaxie 500 nrow(auto) ## [1] 392 file:///g:/il%20mio%20drive/2%20corsi/3%20sqg/labs/l5-validazione.html#(1) 4/27

5 Il problema analizzato Poiché l obiettivo di questa esercitazione è l applicazione di tecniche di scelta dei modelli, consideriamo un solo predittore: questo ci permetterà di visualizzare i risultati. Proviamo a prevedere il consumo (mpg) in funzione della potenza del motore (horsepower) L obiettivo è dunque stimare f nel modello mpg = f(horsepower) + ε Stimiamo f attraverso diversi modelli: 1. regressione lineare semplice, quadratica e cubica (modello parametrico) 2. regressione KNN (non parametrico) file:///g:/il%20mio%20drive/2%20corsi/3%20sqg/labs/l5-validazione.html#(1) 5/27

6 Validation set approach Per validare i modelli utilizzeremo il cd validation set approach, in cui una parte dei dati a disposizione è messa da parte e utilizzata come test set. Il test MSE calcolato dai dati test sarà utilizzato per scegliere K nella regressione KNN comparare i diversi modelli stimati file:///g:/il%20mio%20drive/2%20corsi/3%20sqg/labs/l5-validazione.html#(1) 6/27

7 Diagramma a dispersione plot(auto$horsepower,auto$mpg) file:///g:/il%20mio%20drive/2%20corsi/3%20sqg/labs/l5-validazione.html#(1) 7/27

8 Test set e training set Il dataset è composto da 392 unità. Suddividiamo casualmente il dataset in due parti: il training set 292 unità il test set 100 unità Individuiamo le unità del training set con la funzione sample(). Il vettore train definito sotto contiene le posizioni selezionate set.seed(1) train=sample(392,292) train [1] [18] [35] [52] [69] [86] [103] [120] [137] [154] [171] [188] [205] [222] [239] [256] [273] [290] file:///g:/il%20mio%20drive/2%20corsi/3%20sqg/labs/l5-validazione.html#(1) 8/27

9 Costruiamo i due data set, test e training, utilizzando i risultati del campionamento: Auto.test<-Auto[-train,] nrow(auto.test) [1] 100 Auto.train<-Auto[train,] nrow(auto.train) [1] 292 file:///g:/il%20mio%20drive/2%20corsi/3%20sqg/labs/l5-validazione.html#(1) 9/27

10 Regressione lineare semplice rls<-lm(mpg~horsepower, data=auto.train) summary(rls) Call: lm(formula = mpg ~ horsepower, data = Auto.train) Residuals: Min 1Q Median 3Q Max Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) <2e-16 *** horsepower <2e-16 *** --- Signif. codes: 0 '***' '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 Residual standard error: 4.89 on 290 degrees of freedom Multiple R-squared: 0.611, Adjusted R-squared: 0.61 F-statistic: 456 on 1 and 290 DF, p-value: <2e-16 file:///g:/il%20mio%20drive/2%20corsi/3%20sqg/labs/l5-validazione.html#(1) 10/27

11 plot(auto$horsepower,auto$mpg) abline(rls,col="red",lwd=2) file:///g:/il%20mio%20drive/2%20corsi/3%20sqg/labs/l5-validazione.html#(1) 11/27

12 RLS: Test MSE Il calcolo del test MSE può essere fatto molto semplicemente definendo la media delle differenze al quadrato tra i valori di mpg nel test set e la loro previsione in base al modello rls test.mse.rls<-mean((auto.test$mpg-predict(rls,auto.test))^2) test.mse.rls [1] 24.7 file:///g:/il%20mio%20drive/2%20corsi/3%20sqg/labs/l5-validazione.html#(1) 12/27

13 Regressione quadratica rq<-lm(mpg~horsepower+i(horsepower^2), data=auto.train) summary(rq) Call: lm(formula = mpg ~ horsepower + I(horsepower^2), data = Auto.train) Residuals: Min 1Q Median 3Q Max Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) < 2e-16 *** horsepower < 2e-16 *** I(horsepower^2) e-15 *** --- Signif. codes: 0 '***' '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 Residual standard error: 4.41 on 289 degrees of freedom Multiple R-squared: 0.685, Adjusted R-squared: F-statistic: 314 on 2 and 289 DF, p-value: <2e-16 file:///g:/il%20mio%20drive/2%20corsi/3%20sqg/labs/l5-validazione.html#(1) 13/27

14 plot(auto$horsepower,auto$mpg) lines(sort(auto$horsepower),predict(rq,auto)[order(auto$horsepower)],col="red",lwd=2) file:///g:/il%20mio%20drive/2%20corsi/3%20sqg/labs/l5-validazione.html#(1) 14/27

15 Rq: Test MSE test.mse.rq<-mean((auto.test$mpg-predict(rq,auto.test))^2) test.mse.rq [1] 18.4 file:///g:/il%20mio%20drive/2%20corsi/3%20sqg/labs/l5-validazione.html#(1) 15/27

16 Regressione cubica rc<-lm(mpg~horsepower+i(horsepower^2)+i(horsepower^3), data=auto.train) summary(rc) Call: lm(formula = mpg ~ horsepower + I(horsepower^2) + I(horsepower^3), data = Auto.train) Residuals: Min 1Q Median 3Q Max Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) 5.75e e <2e-16 *** horsepower -4.96e e *** I(horsepower^2) 1.57e e I(horsepower^3) -1.04e e Signif. codes: 0 '***' '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 Residual standard error: 4.41 on 288 degrees of freedom Multiple R-squared: 0.685, Adjusted R-squared: F-statistic: 209 on 3 and 288 DF, p-value: <2e-16 file:///g:/il%20mio%20drive/2%20corsi/3%20sqg/labs/l5-validazione.html#(1) 16/27

17 plot(auto$horsepower,auto$mpg) lines(sort(auto$horsepower),predict(rc,auto)[order(auto$horsepower)],col="red",lwd=2) file:///g:/il%20mio%20drive/2%20corsi/3%20sqg/labs/l5-validazione.html#(1) 17/27

18 Rc: Test MSE test.mse.rc<-mean((auto.test$mpg-predict(rc,auto.test))^2) test.mse.rc ## [1] 18.4 file:///g:/il%20mio%20drive/2%20corsi/3%20sqg/labs/l5-validazione.html#(1) 18/27

19 Regressione KNN Per adattare una regressione KNN ai dati è necessario costruire una funzione ad hoc. La funzione knn.reg.1() disponibile nel file KNNR.r è appropriata per il caso di un solo regressore e automaticamente produce le previsioni per il vettore di dati x.test dato l input x.train e l output y.train. E possibile specificare una lista (o anche solo uno) di valori di K da considerare Per indicare ad R dove trovare la funzione knn.reg.1(), copiare il file KNNR.r nella directory di lavoro di R e richiamarlo con la funzione source() knn.reg.1 <- function(klist,x.train,y.train,x.test) # Regressione k-nearest neighbors # # klist è la lista dei valori K da usare # x.train, y.train: il training set (indipendente-dipendente) # x.test: il test set # Output: una matrice di valori previsti per il test set (una colonna per ogni K in klist) source("knnr.r") file:///g:/il%20mio%20drive/2%20corsi/3%20sqg/labs/l5-validazione.html#(1) 19/27

20 Input nella funzione knn.reg.1() In questo caso, la funzione knn.reg.1(), ci chiede di fornire come input i dati separati in variabile dipendente -indipendente, test e training. x.train<-auto.train$horsepower y.train<-auto.train$mpg x.test<-auto.test$horsepower y.test<-auto.test$mpg file:///g:/il%20mio%20drive/2%20corsi/3%20sqg/labs/l5-validazione.html#(1) 20/27

21 Calcolare le previsioni con KNN Con il codice seguente calcoliamo le previsioni del modello KNN per valori di K da 1 a 60 (klist=seq(60)): y.pred.train contiene i valori previsti per il training set y.pred.test contiene i valori previsti per il test set klist<- seq(60) # testiamo i risultati per k=1,2, y.pred.train<- knn.reg.1(klist,x.train,y.train,x.train) y.pred.test<- knn.reg.1(klist,x.train,y.train,x.test) file:///g:/il%20mio%20drive/2%20corsi/3%20sqg/labs/l5-validazione.html#(1) 21/27

22 Modelli K-NN file:///g:/il%20mio%20drive/2%20corsi/3%20sqg/labs/l5-validazione.html#(1) 22/27

23 Test MSE e training MSE mse.train <- apply((y.pred.train - y.train)^2, 2, mean) mse.test <- apply((y.pred.test - y.test)^2, 2, mean) MSE.table<-data.frame("K"=klist, "test MSE"=mse.test,"training MSE"=mse.train) knitr::kable(mse.table[1:15,]) K test.mse training.mse file:///g:/il%20mio%20drive/2%20corsi/3%20sqg/labs/l5-validazione.html#(1) 23/27

24 Plot degli MSE Riportiamo in un grafico i valori di MSE ottenuti. Dalla tavola precedente notiamo che il valore di test MSE più basso corrisponde al caso K = 10. Tuttavia per un intervallo di valori K piuttosto ampio questo rimane molto basso. Il valore K = 50 produce una adattamento molto più smussato rispetto al caso K = 10 plot(mse.train, type='l', xlab='k', ylab='mse', col=1, lwd=2) lines(mse.test, col=2, lwd=2) legend("bottomright",legend=c('train','test'),text.col=seq(2), lty=1, col=seq(2)) file:///g:/il%20mio%20drive/2%20corsi/3%20sqg/labs/l5-validazione.html#(1) 24/27

25 Confronto test MSE 1. RLS: test MSE = RQ: test MSE = RC: test MSE = KNN, K = 10: test MSE = KNN, K = 50: test MSE = file:///g:/il%20mio%20drive/2%20corsi/3%20sqg/labs/l5-validazione.html#(1) 25/27

26 Previsione Proviamo ad utilizzare i modelli per la previsione in alcuni casi dfp=data.frame(horsepower=c(80,130,180,230,280,330)) p.rls=predict(rls,dfp) p.rq=predict(rq,dfp) p.rc=predict(rc,dfp) p.knn10=knn.reg.1(10,x.train,y.train,dfp$horsepower) p.knn50=knn.reg.1(50,x.train,y.train,dfp$horsepower) dfp2=data.frame(hp=dfp$horsepower, "ReLin"=p.rls,ReQua=p.rq,ReCub=p.rc,KNN.10=p.knn10,KNN.50=p.knn50) knitr::kable(dfp2) HP ReLin ReQua ReCub KNN.10 KNN file:///g:/il%20mio%20drive/2%20corsi/3%20sqg/labs/l5-validazione.html#(1) 26/27

27 Curve di previsione I modelli K-NN forniscono le previsioni più affidabili al di fuori dell area di osservazione dei dati. file:///g:/il%20mio%20drive/2%20corsi/3%20sqg/labs/l5-validazione.html#(1) 27/27