Cereal data- analisi con gli alberi di classificazione

Transcript

1 Cereal data- analisi con gli alberi di classificazione Emanuele Taufer file:///c:/users/emanuele.taufer/google%20drive/2%20corsi/3%20sqg/labs/l8-cereal-tree.html#(1) 1/32

2 Cereal.dat Per migliorare la commercializzazione dei propri prodotti per la prima colazione, una società interviste 880 persone, registrando la loro età, il sesso, lo stato civile e se hanno un stile di vita attivo (sulla base del fatto che essi praticano sport almeno due volte a settimana). Ogni partecipante assaggia 3 diversi prodotti per la colazione e indica quello che preferisce. file:///c:/users/emanuele.taufer/google%20drive/2%20corsi/3%20sqg/labs/l8-cereal-tree.html#(1) 2/32

3 Variabili BFAST : (Y) 1. se «Breakfast bar» 2. se «Oatmeal» 3 se «Cereal» AGECAT: «Under 31», «31-45», «46-60», «Over 60» GENDER: 1 se F, 0 se M ; MARITAL: 1 se sposato; 0 se no. ACTIVE: 1 se attivo ; 0 se no file:///c:/users/emanuele.taufer/google%20drive/2%20corsi/3%20sqg/labs/l8-cereal-tree.html#(1) 3/32

4 Caricare i dati Cereal<-read.table(" head(cereal) ## AGECAT GENDER MARITAL ACTIVE BFAST ## ## ## ## ## ## file:///c:/users/emanuele.taufer/google%20drive/2%20corsi/3%20sqg/labs/l8-cereal-tree.html#(1) 4/32

5 Codificare le variabili come factors Le variabili del dataset sono codificate numericamente. È necessario (e più facile per l interpretazione dei risultati) codificarle come factors e introdurre etichette per i livelli Cereal$BFAST=factor(Cereal$BFAST,levels=c(1,2,3), labels=c("bf-bar","oatmeal","cereal")) Cereal$AGECAT=factor(Cereal$AGECAT,levels=c(1,2,3,4), labels=c("under 31","[31-45]","[46-60]","Over 60")) Cereal$GENDER=factor(Cereal$GENDER,levels=c(0,1), labels=c("m","f")) Cereal$MARITAL=factor(Cereal$MARITAL,levels=c(0,1), labels=c("non sposato","sposato")) Cereal$ACTIVE=factor(Cereal$ACTIVE,levels=c(0,1), labels=c("no","yes")) str(cereal) ## 'data.frame': 880 obs. of 5 variables: ## $ AGECAT : Factor w/ 4 levels "Under 31","[31-45]",..: ## $ GENDER : Factor w/ 2 levels "M","F": ## $ MARITAL: Factor w/ 2 levels "Non sposato",..: ## $ ACTIVE : Factor w/ 2 levels "No","Yes": ## $ BFAST : Factor w/ 3 levels "BF-bar","Oatmeal",..: head(cereal) ## AGECAT GENDER MARITAL ACTIVE BFAST ## 1 Under 31 M Sposato Yes Cereal ## 2 [46-60] M Sposato No BF-bar ## 3 Over 60 M Sposato No Oatmeal ## 4 [31-45] F Sposato Yes Oatmeal ## 5 [46-60] M Sposato No Oatmeal ## 6 Over 60 M Sposato No Cereal file:///c:/users/emanuele.taufer/google%20drive/2%20corsi/3%20sqg/labs/l8-cereal-tree.html#(1) 5/32

6 Validation set approach Dividiamo le unità in due parti: training set e test set. Stimiamo l albero di classificazione utilizzando il training set, e valutiamo la sua performance usando il test set. Ci sono 880 unità nel data set, prendiamone 280 per il test set Il seguente codice seleziona, in modo casuale, 600 unità (la loro posizione) da tutto il set di dati set.seed(1) train=sample(nrow(cereal), 600) train[1:10] ## [1] Con gli indici ottenuti sopra possiamo suddividere i dati in due parti: Cereal.train=Cereal[train,] # take only units that correspond to train Cereal.test=Cereal[-train,] # take only units that DO NOT correspond to train file:///c:/users/emanuele.taufer/google%20drive/2%20corsi/3%20sqg/labs/l8-cereal-tree.html#(1) 6/32

7 Costruzione dell albero di classificazione Per adattare un albero di classificazione (o regressione) possiamo usare la funzione tree() dalla libreria tree. L input minimo è molto semplice poiché è sufficiente indicare l equazione di regressione (o classificazione) ed i dati. (analogo a quanto già imparato per la funzione lm()) library(tree) Cereal.tree<-tree(BFAST~.,data=Cereal.train) Nota: BFAST~. indica che BFAST è la variabile dipendente e il punto che tutte le altre variabili nel set di dati devono essere utilizzate come variabili indipendenti file:///c:/users/emanuele.taufer/google%20drive/2%20corsi/3%20sqg/labs/l8-cereal-tree.html#(1) 7/32

8 Summary L oggetto Cereal.tree contiene i risultati della stima summary(cereal.tree) ## ## Classification tree: ## tree(formula = BFAST ~., data = Cereal.train) ## Variables actually used in tree construction: ## [1] "AGECAT" ## Number of terminal nodes: 3 ## Residual mean deviance: = 1076 / 597 ## Misclassification error rate: = 277 / 600 Per gli alberi di classificazione, la deviance riportata nell output di summary() è data da 2 m k n mk dove n mk è il numero di unità del nodo terminale m che appartiene alla classe k. log p^mk Una piccola deviance indica un albero che fornisce un buon adattamento ai dati (training). La devianza residua è la devianza divisa per = 597. n T 0, in questo caso file:///c:/users/emanuele.taufer/google%20drive/2%20corsi/3%20sqg/labs/l8-cereal-tree.html#(1) 8/32

9 Plot dell albero plot(cereal.tree,lwd=2) text(cereal.tree,pretty=0,cex=1.5,col="blue") file:///c:/users/emanuele.taufer/google%20drive/2%20corsi/3%20sqg/labs/l8-cereal-tree.html#(1) 9/32

10 Descrizione dell albero Se il grafico non è leggibile, si può utilizzare la sua descrizione Cereal.tree ## node), split, n, deviance, yval, (yprob) ## * denotes terminal node ## ## 1) root Cereal ( ) ## 2) AGECAT: Under 31,[31-45] Cereal ( ) * ## 3) AGECAT: [46-60],Over Oatmeal ( ) ## 6) AGECAT: [46-60] Cereal ( ) * ## 7) AGECAT: Over Oatmeal ( ) * Ad esempio, il nodo 2) è terminale, contiene 266 unità e classifica l unità come Cereal (prob=0.4624). La probabilità di BF-Bar è L albero utilizza solo l età come variabile per la classificazione. file:///c:/users/emanuele.taufer/google%20drive/2%20corsi/3%20sqg/labs/l8-cereal-tree.html#(1) 10/32

11 Sima del test error rate con i dati Cereal.test La funzione predict() può essere utilizzata per questo scopo. Nel caso di un albero di classificazione, l argomento type="class" dice ad R di fornire la classe di Y dell unità. Il codice sotto, utilizzando l albero stimato, fornisce le previsioni utilizzando il test set. Cereal.tree.pred=predict(Cereal.tree, Cereal.test, type="class") Cereal.tree.pred[1:10] ## [1] Cereal Cereal Cereal Oatmeal Cereal Cereal Oatmeal Cereal ## [9] Cereal Cereal ## Levels: BF-bar Oatmeal Cereal Per calcolare il tasso di errore di test abbiamo bisogno di confrontare le previsioni con la classe osservata nel test set. file:///c:/users/emanuele.taufer/google%20drive/2%20corsi/3%20sqg/labs/l8-cereal-tree.html#(1) 11/32

12 Per questo, si definisca la variabile BFAST.test che contiene solo le classi osservate in Cereal.test e si costruisca una tavola di classificazione. BFAST.test=Cereal$BFAST[-train] table(cereal.tree.pred,bfast.test) ## BFAST.test ## Cereal.tree.pred BF-bar Oatmeal Cereal ## BF-bar ## Oatmeal ## Cereal Dalla tavola possiamo stimare il test error rate ( )/nrow(Cereal.test) ## [1] file:///c:/users/emanuele.taufer/google%20drive/2%20corsi/3%20sqg/labs/l8-cereal-tree.html#(1) 12/32

13 Costruire un albero più grande Si definisca maggior sensibilità utilizzando la funzione tree.control() setup1=tree.control(nrow(cereal), mincut = 5, minsize = 10, mindev = 0.001) E quindi si usi tree()con l opzione control=setup1 Cereal.tree=tree(BFAST~.,data=Cereal.train,control=setup1) summary(cereal.tree) ## ## Classification tree: ## tree(formula = BFAST ~., data = Cereal.train, control = setup1) ## Number of terminal nodes: 19 ## Residual mean deviance: = / 581 ## Misclassification error rate: = 247 / 600 file:///c:/users/emanuele.taufer/google%20drive/2%20corsi/3%20sqg/labs/l8-cereal-tree.html#(1) 13/32

14 Plot plot(cereal.tree,type="uniform",lwd=2) text(cereal.tree,pretty=0,cex=1.2,col="blue") file:///c:/users/emanuele.taufer/google%20drive/2%20corsi/3%20sqg/labs/l8-cereal-tree.html#(1) 14/32

15 Tavola di classificazione (osservazioni test) Cereal.tree.pred=predict(Cereal.tree, Cereal.test, type="class") table(cereal.tree.pred,bfast.test) ## BFAST.test ## Cereal.tree.pred BF-bar Oatmeal Cereal ## BF-bar ## Oatmeal ## Cereal file:///c:/users/emanuele.taufer/google%20drive/2%20corsi/3%20sqg/labs/l8-cereal-tree.html#(1) 15/32

16 Test error rate stimato Albero con 19 nodi ( )/nrow(Cereal.test) ## [1] Compariamolo con il valore precedente (Albero a 3 nodi) ( )/nrow(Cereal.test) ## [1] file:///c:/users/emanuele.taufer/google%20drive/2%20corsi/3%20sqg/labs/l8-cereal-tree.html#(1) 16/32

17 Potare l albero La funzione cv.tree() effettua una cross-validazione per ottenere il livello ottimale di complessità dell albero. Per adattare alberi di classificazione si usi l argomento FUN=prune.misclass (nel qual caso il tasso di errore sarà il criterio guida) L output di cv.tree() riporterà: il numero di nodi terminali di ogni albero considerato (size) il corrispondente tasso di errore (dev) altri parametri (non discussi a lezione). file:///c:/users/emanuele.taufer/google%20drive/2%20corsi/3%20sqg/labs/l8-cereal-tree.html#(1) 17/32

18 set.seed (3) cv.cereal =cv.tree(cereal.tree,fun=prune.misclass ) cv.cereal ## $size ## [1] ## ## $dev ## [1] ## ## $k ## [1] -Inf ## [8] ## ## $method ## [1] "misclass" ## ## attr(,"class") ## [1] "prune" "tree.sequence" dev in questo caso corrisponde alla stima di cross-validazione dell errore test. file:///c:/users/emanuele.taufer/google%20drive/2%20corsi/3%20sqg/labs/l8-cereal-tree.html#(1) 18/32

19 Plot Riportiamo in un grafico i risultati per size e dev plot(cv.cereal$size,cv.cereal$dev,type="b", lwd=3,col="blue", xlab="terminal nodes", ylab="rss",main="cost complexity pruning" ) 6 nodi sembrano ottimali file:///c:/users/emanuele.taufer/google%20drive/2%20corsi/3%20sqg/labs/l8-cereal-tree.html#(1) 19/32

20 L albero potato A questo punto si utilizzi la funzione prune.misclass() per potare l albero iniziale al numero di nodi scelti in base ai risultati ottenuti dalla cross-validazione. prune.cereal=prune.misclass(cereal.tree, best =6) plot(prune.cereal,lwd=2) text(prune.cereal,pretty =0,cex=1.3,col="blue") file:///c:/users/emanuele.taufer/google%20drive/2%20corsi/3%20sqg/labs/l8-cereal-tree.html#(1) 20/32

21 plot(prune.cereal,lwd=2,type="uniform") text(prune.cereal,pretty =0,cex=1.3,col="blue") file:///c:/users/emanuele.taufer/google%20drive/2%20corsi/3%20sqg/labs/l8-cereal-tree.html#(1) 21/32

22 Stima del test error tree.pred=predict(prune.cereal, Cereal.test, type="class") table(tree.pred, BFAST.test) ## BFAST.test ## tree.pred BF-bar Oatmeal Cereal ## BF-bar ## Oatmeal ## Cereal ( )/nrow(Cereal.test) ## [1] file:///c:/users/emanuele.taufer/google%20drive/2%20corsi/3%20sqg/labs/l8-cereal-tree.html#(1) 22/32

23 Bagging Il Bagging è un caso specifico di una Foresta Casuale con m = p. Quindi la funzione randomforest() dalla libreria randomforest può essere usata in entrambi i casi. library (randomforest) set.seed (1) bag.cereal=randomforest(bfast~.,data=cereal,subset =train, mtry=4, importance =TRUE, ntree=1000) bag.cereal ## ## Call: ## randomforest(formula = BFAST ~., data = Cereal, mtry = 4, importance = TRUE, n ## Type of random forest: classification ## Number of trees: 1000 ## No. of variables tried at each split: 4 ## ## OOB estimate of error rate: 45.67% ## Confusion matrix: ## BF-bar Oatmeal Cereal class.error ## BF-bar ## Oatmeal ## Cereal L argomento mtry = 4 indica che tutti e 4 i predittori devono essere considerati ad ogni split dell albero; in altre parole, che stiamo facendo bagging. file:///c:/users/emanuele.taufer/google%20drive/2%20corsi/3%20sqg/labs/l8-cereal-tree.html#(1) 23/32

24 Stima del test error tree.pred=predict(bag.cereal, Cereal.test, type="class") table(tree.pred, BFAST.test) ## BFAST.test ## tree.pred BF-bar Oatmeal Cereal ## BF-bar ## Oatmeal ## Cereal ( )/nrow(Cereal.test) ## [1] La stima dell errore test è migliore rispetto all albero potato file:///c:/users/emanuele.taufer/google%20drive/2%20corsi/3%20sqg/labs/l8-cereal-tree.html#(1) 24/32

25 Foresta casuale La crescita di una foresta casuale procede esattamente come nel bagging, tranne che usiamo un valore inferiore dell argomento mtry. Per impostazione predefinita, random.forest() utilizza p/3 variabili per la costruzione di una foresta casuale di alberi di regressione, e p variabili quando si costruisce una foresta casuale di alberi di classificazione. Qua impostiamo mtry = 2. set.seed (1) rf.cereal =randomforest(bfast~.,data=cereal, subset =train, mtry=2, importance =TRUE) rf.cereal ## ## Call: ## randomforest(formula = BFAST ~., data = Cereal, mtry = 2, importance = TRUE, s ## Type of random forest: classification ## Number of trees: 500 ## No. of variables tried at each split: 2 ## ## OOB estimate of error rate: 45.5% ## Confusion matrix: ## BF-bar Oatmeal Cereal class.error ## BF-bar ## Oatmeal ## Cereal file:///c:/users/emanuele.taufer/google%20drive/2%20corsi/3%20sqg/labs/l8-cereal-tree.html#(1) 25/32

26 Stima del test error tree.pred=predict(rf.cereal, Cereal.test, type="class") table(tree.pred, BFAST.test) ## BFAST.test ## tree.pred BF-bar Oatmeal Cereal ## BF-bar ## Oatmeal ## Cereal ( )/nrow(Cereal.test) ## [1] peggiore rispetto al bagging file:///c:/users/emanuele.taufer/google%20drive/2%20corsi/3%20sqg/labs/l8-cereal-tree.html#(1) 26/32

27 Importance statistics importance(rf.cereal) ## BF-bar Oatmeal Cereal MeanDecreaseAccuracy ## AGECAT ## GENDER ## MARITAL ## ACTIVE ## MeanDecreaseGini ## AGECAT ## GENDER ## MARITAL ## ACTIVE Ci sono due misure di importanza delle variabili. La prima si basa sulla diminuzione media della precisione nelle previsioni sui campioni out-of-bag quando una data variabile viene esclusa dal modello. La seconda è una misura della diminuzione totale dell impurità del nodo che deriva dallo split su una certa variabile. Nel caso di alberi di regressione, l impurità del nodo viene misurata attraverso il training RSS. Per gli alberi di classificazione attraverso l indice di Gini. file:///c:/users/emanuele.taufer/google%20drive/2%20corsi/3%20sqg/labs/l8-cereal-tree.html#(1) 27/32

28 Importance plot I plot delle misure di importanza possono essere prodotti con la funzione varimpplot(). varimpplot(rf.cereal,pch=19,ce=1.5,col="blue",lwd=2) file:///c:/users/emanuele.taufer/google%20drive/2%20corsi/3%20sqg/labs/l8-cereal-tree.html#(1) 28/32

29 Ottenere le probabilità di previsione con le foreste casuali Per fare previsioni dato un insieme di predittori, possiamo usare la funzione predict(). L opzione type="prob" fornisce le probabilità di appartenenza a ciascun livello della variabile Y. 1. Selezioniamo 5 intervistati casualmente set.seed(5) R.units<-Cereal[sample(nrow(Cereal),5),] R.units ## AGECAT GENDER MARITAL ACTIVE BFAST ## 177 [46-60] M Sposato Yes Cereal ## 603 Over 60 M Sposato Yes Oatmeal ## 806 [31-45] F Sposato Yes Cereal ## 250 Over 60 M Sposato Yes Oatmeal ## 92 [46-60] F Sposato No Cereal file:///c:/users/emanuele.taufer/google%20drive/2%20corsi/3%20sqg/labs/l8-cereal-tree.html#(1) 29/32

30 2. Facciamo le previsioni Prob.Pr<-predict(rf.Cereal,R.units,type="prob") Prob.Pr ## BF-bar Oatmeal Cereal ## ## ## ## ## ## attr(,"class") ## [1] "matrix" "votes" file:///c:/users/emanuele.taufer/google%20drive/2%20corsi/3%20sqg/labs/l8-cereal-tree.html#(1) 30/32

31 3. Mettiamo Prob.Pr e R.units in un data.frame e confrontiamo df<-data.frame(r.units,prob.pr) df AGECAT GENDER MARITAL ACTIVE BFAST BF.bar Oatmeal Cereal 177 [46-60] M Sposato Yes Cereal Over 60 M Sposato Yes Oatmeal [31-45] F Sposato Yes Cereal Over 60 M Sposato Yes Oatmeal [46-60] F Sposato No Cereal file:///c:/users/emanuele.taufer/google%20drive/2%20corsi/3%20sqg/labs/l8-cereal-tree.html#(1) 31/32

32 Considerazioni conclusive Tutti i modelli testati hanno un test error rate stimato piuttosto elevato. L albero ottenuto col Bagging è quello con test error stimato minore (42.5%) Come già notato, tuttavia, l accento per questo probema è su un analisi di tipo inferenziale. Si noti che l albero potato suggerisce, in modo molto più chiaro rispetto all analisi con LDA e GLM, dei profili di consumo cui prestare attenzione Il bagging migliora la precisione ma si perde in capacità interpretativa. Tuttavia l utilizzo delle statistiche di importanza e l analisi in dettaglio dei profili di consumo ci permettono di interpretare correttamente il fenomeno. Vale la pena completare l analisi calcolando le probabilità di scelta per alcuni profili di interesse per capire più a fondo la precisione del modello per sottogruppi di consumatori file:///c:/users/emanuele.taufer/google%20drive/2%20corsi/3%20sqg/labs/l8-cereal-tree.html#(1) 32/32