Bagging e Foreste Casuali con R

Documenti analoghi
Validazione dei modelli Strumenti quantitativi per la gestione

Regressione lineare multipla Strumenti quantitativi per la gestione

Regressione logistica. Strumenti quantitativi per la gestione

Regressione logistica

FILE E INDICI Architettura DBMS

12) Metodo dei minimi quadrati e linea di tendenza

Esercizi sulla conversione tra unità di misura

Capitolo 11 Test chi-quadro

Decision trees. Analisi statistica e matematico-finanziaria II. Alfonso Iodice D Enza iodicede@unicas.it

Distribuzioni di probabilità

ANALISI MULTIVARIATA

STATISTICHE DESCRITTIVE Parte II

Osservatorio Credito e Risparmio Adiconsum Tassi Effettivi Globali Medi

FACOLTÀ DI SOCIOLOGIA CdL in SCIENZE DELL ORGANIZZAZIONE ESAME di STATISTICA 21/09/2011

Realizzazione di un sistema predittivo dei risultati del campionato di calcio italiano di serie A 2006/2007

DATA MINING PER IL MARKETING

MISURA DELLA DISTANZA FOCALE DI UNA LENTE CONVERGENTE

Lezione 4 a - Misure di dispersione o di variabilità

Layout Editor e Stampa

Data Import e Probabilità. Renato Mainetti

prato Un possibile elenco dopo l'osservazione di un Cimici Erba Formiche Ragni Margherite Mosche Sasso Terreno Foglie secche Alberi...

Teorema del limite centrale TCL

Esercitazioni di Statistica

Metodologia di applicazione dei modelli di massima verosimiglianza per il trattamento dei dati missing

Rappresentazioni numeriche

Francesca Pierri Dipartimento di Economia Finanza e Statistica Università degli Studi di Perugia

Cifre significative delle misure di grandezze fisiche

EQUAZIONI DI PRIMO GRADO

La capitalizzazione composta

ESERCIZI. La seguente tabella riporta la classificazione delle famiglie italiane secondo il reddito dichiarato (in milioni di lire) nel 1983:

Istituzioni di Statistica 1 Esercizi su strumenti grafici e funzione di frequenza relativa cumulata

Metodo alternativo per il calcolo delle divisioni.

LE PROPORZIONI. Stefania Sciuto numeri&molecole.wordpress.com

Risultati esperienza sul lancio di dadi Ho ottenuto ad esempio:

Soluzione degli esercizi di riepilogo sul controllo statistico di qualità e sull ANOVA.

Aprire WEKA Explorer Caricare il file circletrain.arff Selezionare random split al 66% come modalità di test Selezionare J48 come classificatore e

LA LUNGHEZZA DEI GENI UMANI (Es4.1)

Onde sonore stazionarie in un tubo risonante

Metodo classico: i G R G. V AB = V AD R X i X = R 1 i 1. i 1. V BC = V CD R o i o = R 2 i 2. R ε R X = (R 1 /R 2 ) R 0 2

Statistica - metodologie per le scienze economiche e sociali S. Borra, A. Di Ciaccio - McGraw Hill

La codifica. dell informazione

LEZIONE N. 11 ( a cura di MADDALENA BEI)

Elementi di Psicometria con Laboratorio di SPSS 1

Classificazione e Predizione

Lavoro Quantità. si determinino prodotto marginale e medio del fattore lavoro.

Distribuzioni campionarie. Antonello Maruotti

AGGIORNAMENTO SOFTWARE

ECONOMIA APPLICATA ALL INGEGNERIA (Docente: Prof. Ing. Donato Morea) Microeconomia Esercitazione n. 1 - I FONDAMENTI DI DOMANDA E DI OFFERTA

Corso di laurea in Scienze Motorie Corso di Statistica Docente: Dott.ssa Immacolata Scancarello Lezione 15: Metodi non parametrici

Test di Matematica di base

Statistical learning Strumenti quantitativi per la gestione

CURRICOLO VERTICALE MATEMATICA RELAZIONI/ DATI E PREVISIONI/ MISURA

Introduzione a R. Silvia Parolo. 14 November 2014

Esercitazione # 3. Trovate la probabilita che in 5 lanci di un dado non truccato il 3 si presenti

Econometria. lezione 13. validità interna ed esterna. Econometria. lezione 13. AA Paolo Brunori

STATISTICA DESCRITTIVA. Elementi di statistica medica GLI INDICI INDICI DI DISPERSIONE STATISTICA DESCRITTIVA

Files in C++ Fondamenti di Informatica. R. Basili. a.a

Tema d esame del 15/02/12

4 0 = 4 2 = 4 4 = 4 6 = 0.

11.4 Chiusura transitiva

il costo in contabilità generale

PREVISIONE DEL TIPO DI NUMERO DECIMALE GENERATO DA UNA FRAZIONE di Luciano Porta

Stop e Reverse passa alla cassa

Laboratorio software. A.A C. Brandolese

SCOMPOSIZIONE IN FATTORI PRIMI:

Statistica 1 A.A. 2015/2016

Soluzione dei sistemi lineari con metodo grafico classe 2H

Deep learning per il mondo business.

Classificazione di un data set di proteine con Weka

1. Scrivere in forma algebrica il seguente numero complesso:

Parte 6 Esercitazione sull accesso ai file

Esercizio. Sia a R non nullo e siano m, n numeri interi non nulli con m n. Allora a m /a n è uguale a. [1] 1/a n m [2] 1/a m n [3] 1/a n m [4] a n m

Esercitazioni di statistica

Metodi per la risoluzione di sistemi lineari

Introduzione a MapGuide Author 6.5

Simboli & Messaggi Fare riferimento al Manuale per l uso di MyStar Extra per le istruzioni per l uso complete.

Calcolo di una Regressione lineare semplice con Excel

Macchine termiche e frigoriferi

Corso di laurea in Statistica Statistica I Esercizi sulla regressione lineare semplice

Esercitazione # 6. a) Fissato il livello di significatività al 5% si tragga una conclusione circa l opportunità di avviare la campagna comparativa.

AMBIENTE EXCEL CALCOLO DEL RESTO DELLA DIVISIONE FRA NATURALI

GRIGLIA DI CORREZIONE 2013 Matematica Classe I Scuola secondaria di primo grado FASCICOLO 1

Probabilità. Ing. Ivano Coccorullo

Appunti di Excel per risolvere alcuni problemi di matematica (II parte) a.a

RESTITUZIONE DATI INVALSI SCUOLA PRIMARIA

Le disequazioni frazionarie (o fratte)

Statistica - metodologie per le scienze economiche e sociali /2e S. Borra, A. Di Ciaccio - McGraw Hill

Il sole e le ombre. Un percorso in costruzione, modifiche ed adeguamenti. Claudia Iacopini, Lorella Cesare. Scuola Primaria Vinci 2014

Il transistor come amplificatore

Infortuni lavorativi stradali

Prof.ssa Laura Salvagno

Prof.ssa Laura Pagnozzi Prof. Ivano Coccorullo. Calcolo Combinatorio

SCADENZA FASE VALORE ECONOMICO DATA. Scadenza 0 Avviamento Progetto ,00 02/12/2013. Scadenza 1 I SAL ,00 28/02/2014

Principi di Economia - Macroeconomia Esercitazione 4 Moneta, Modello IS-LM e Stabilizzazione Soluzioni

Indice Aspetti generali sul campionamento da popolazioni finite Campionamento probabilistico Disegno campionario semplice

Somma di numeri floating point. Algoritmi di moltiplicazione e divisione per numeri interi

Progettazione logica

RAPPORTI E PROPORZIONI

Esame di Statistica (10 o 12 CFU) CLEF 11 febbraio 2016

Analisi sequenziale (rollback)

Transcript:

Bagging e Foreste Casuali con R Emanuele Taufer file:///c:/users/emanuele.taufer/google%20drive/2%20corsi/3%20sqg/labs/l8-bagging-fc.html#(10) 1/10

Bagging e Foreste casuali con R Utilizziamo ancora una volta il dataset Hitters della libreria ISLR per illustrare come implementare le tecniche descritte con R. Il data set contiene in totale 20 variabili. Per fare Bagging e costruire Foreste casuali è necessaria la libreria randomforest. library(randomforest) library(islr) data(hitters) Hitters<-Hitters[complete.cases(Hitters),] file:///c:/users/emanuele.taufer/google%20drive/2%20corsi/3%20sqg/labs/l8-bagging-fc.html#(10) 2/10

Bagging Bagging è un caso speciale di una foresta casuale dove m = p. La funzione randomforest() dalla libreria randomforest può essere usata per costruire un modello bagged oppure una foresta casuale. set.seed (1) bag.hitters=randomforest(salary~.,data=hitters, mtry=19, importance =TRUE, ntree=2000) mtry=19: si specifica di utilizzare tutti i 19 predittori del dataset ad ogni split degli alberi (nel caso di foresta casuale ridurremo il numero di predittori da considerare) importance=true : si chiede di costruire le misure d influenza delle variabili ntree=2000: numero di campioni bootstrap ( B) file:///c:/users/emanuele.taufer/google%20drive/2%20corsi/3%20sqg/labs/l8-bagging-fc.html#(10) 3/10

Output bag.hitters ## ## Call: ## randomforest(formula = Salary ~., data = Hitters, mtry = 19, importance = TRUE ## Type of random forest: regression ## Number of trees: 2000 ## No. of variables tried at each split: 19 ## ## Mean of squared residuals: 80866.74 ## % Var explained: 60.11 file:///c:/users/emanuele.taufer/google%20drive/2%20corsi/3%20sqg/labs/l8-bagging-fc.html#(10) 4/10

Foresta casuale Per far crescere una foresta casuale si procede nello stesso modo eccetto che si utilizza un valore di mtry inferiore a p. Per impostazione predefinita, randomforest() usa: p/3 variabili per le foreste di alberi di regressione p variabili per le foreste di alberi di classificazione. In questo caso specifichiamo direttamente mtry = 6. set.seed (1) rf.hitters =randomforest(salary~.,data=hitters, ntree=2000, mtry=6, importance =TRUE) file:///c:/users/emanuele.taufer/google%20drive/2%20corsi/3%20sqg/labs/l8-bagging-fc.html#(10) 5/10

Output rf.hitters ## ## Call: ## randomforest(formula = Salary ~., data = Hitters, ntree = 2000, mtry = 6, impo ## Type of random forest: regression ## Number of trees: 2000 ## No. of variables tried at each split: 6 ## ## Mean of squared residuals: 78755.25 ## % Var explained: 61.15 file:///c:/users/emanuele.taufer/google%20drive/2%20corsi/3%20sqg/labs/l8-bagging-fc.html#(10) 6/10

Statistiche d influenza R riporta due misure d influenza: una basata sul decremento medio nella precisione delle previsioni nel campione OOB quando una certa variabile è esclusa dal modello. un altra basata sull incemento della purezza del nodo che risulta dallo split con una certa variabile. Nel caso di alberi di regressione, la purezza del nodo è misurata con RSS (RSS diminuisce all aumentare della purezza); per gli alberi di classificazione si usa l indice di Gini. importance(rf.hitters) ## %IncMSE IncNodePurity ## AtBat 15.3572974 2576178.7 ## Hits 13.3401652 3221356.4 ## HmRun 8.4316516 1414497.3 ## Runs 12.2022456 2624893.8 ## RBI 10.5361186 3785319.1 ## Walks 9.7340375 3837767.6 ## Years 15.3785260 1237828.0 ## CAtBat 24.8209359 5108956.7 ## CHits 29.0801370 6815114.4 ## CHmRun 16.4601432 2955894.6 ## CRuns 23.3951026 5231722.0 ## CRBI 21.9441825 6026892.0 ## CWalks 15.1699499 3107771.2 ## League -1.9024760 108708.8 ## Division -1.3730803 167623.5 ## PutOuts 8.1726948 2270897.5 ## Assists -0.2716656 695372.2 ## Errors 2.7525188 637234.0 ## NewLeague 1.2432180 116661.1 file:///c:/users/emanuele.taufer/google%20drive/2%20corsi/3%20sqg/labs/l8-bagging-fc.html#(10) 7/10

Grafico Utilizzare la funzione varimpplot() per riportare graficamente le variabili d influenza. varimpplot(rf.hitters,pch=19,cex=1.5,col="blue",lwd=2) file:///c:/users/emanuele.taufer/google%20drive/2%20corsi/3%20sqg/labs/l8-bagging-fc.html#(10) 8/10

Previsione con le foreste casuali Per fare previsioni dato un insieme di predittori, possiamo usare la funzione predict() Proviamo a confrontare il salario effettivo con quello previsto dal modello per cinque giocatori presi a caso: 1. Selezioniamo 5 giocatori casualmente (osserviamo solo alcune variabili) set.seed(5) R.players<-Hitters[sample(nrow(Hitters),5),] R.players[,c(2,7,19)] ## Hits Years Salary ## -Dave Concepcion 81 17 320.00 ## -Mike Young 93 5 350.00 ## -Tim Hulett 120 4 185.00 ## -Dave Winfield 148 14 1861.46 ## -Brook Jacoby 168 5 612.50 file:///c:/users/emanuele.taufer/google%20drive/2%20corsi/3%20sqg/labs/l8-bagging-fc.html#(10) 9/10

2. Facciamo la previsione (definiamo l oggetto contenente i risultati direttamente come variabile del data.frame R.players) R.players$Pred.Salary<-predict(rf.Hitters,R.players) 3. Compariamo i valori R.players[,c(2,7,19,21)] ## Hits Years Salary Pred.Salary ## -Dave Concepcion 81 17 320.00 423.0378 ## -Mike Young 93 5 350.00 330.8263 ## -Tim Hulett 120 4 185.00 191.7850 ## -Dave Winfield 148 14 1861.46 1659.9885 ## -Brook Jacoby 168 5 612.50 573.9683 file:///c:/users/emanuele.taufer/google%20drive/2%20corsi/3%20sqg/labs/l8-bagging-fc.html#(10) 10/10