C4.5 Algorithms for Machine Learning



Похожие документы
Alberi di decisione: c4.5

Gestione Rapporti (Calcolo Aree)

Introduzione alle tecniche di Data Mining. Prof. Giovanni Giuffrida

L ACQUISIZIONE E LA GESTIONE DEI DOCUMENTI ELETTRONICI

Modelli probabilistici

Classificazione di un data set di proteine con Weka

ATOLLO BACKUP GUIDA INSTALLAZIONE E CONFIGURAZIONE

Per chi ha la Virtual Machine: avviare Grass da terminale, andando su Applicazioni Accessori Terminale e scrivere grass

Istruzioni per l installazione del software per gli esami ICoNExam (Aggiornate al 15/01/2014)

Aprire WEKA Explorer Caricare il file circletrain.arff Selezionare random split al 66% come modalità di test Selezionare J48 come classificatore e

Office 2007 Lezione 08

Università degli Studi di Ferrara - A.A. 2014/15 Dott. Valerio Muzzioli ORDINAMENTO DEI DATI

Dr. A. Appice. Alberi di Decisione. Caso di studio di Metodi Avanzati di Programmazione AA

GERARCHIE RICORSIVE - SQL SERVER 2008

Office 2007 Lezione 02. Le operazioni più

Entrare nel sistema. Clicca su Entra per entrare nel sistema. PAGINA 1

WEKA. Ing. Antonio Brunetti Prof. Vitoantonio Bevilacqua

1 CIRCOLO SPINEA (VE) CORSO CONOSCENZA E MANUTENZIONE DEL COMPUTER APRILE 2010 COME RIPULIRE IL PC UTILIZZANDO UN APPOSITO SOFTWARE

Manuale di istruzioni per l inserimento dei dati delle PROVE PQM PON

FtpZone Guida all uso Versione 2.1

Utilizzo di Blue s. Avvio di Blue s C A P I T O L O 7. Come avviare il programma e inserire la password

Installare Ubuntu su macchina virtuale

SOFTWARE SICUREZZA SUL LAVORO PROCEDURE STANDARDIZZATE GUIDA ALL USO

PORTALE CLIENTI Manuale utente

ARCHIVIA PLUS VERSIONE SQL SERVER

Il sistema C.R.M. / E.R.M.

istruzioni per l uso

(A) CONOSCENZA TERMINOLOGICA (B) CONOSCENZA E COMPETENZA (C) ESERCIZI DI COMPRENSIONE

SOSEBI PAPERMAP2 MODULO WEB MANUALE DELL UTENTE

4 3 4 = 4 x x x 10 0 aaa

WoWords. Guida all uso: creare ed utilizzare le frasi. In questa guida è descritto come creare ed utilizzare le frasi nel software WoWords.

Servizio Feed RSS del sito CNIT

IMPORTANTE PER ESEGUIRE QUESTA INSTALLAZIONE NEI SISTEMI OPERATIVI NT-2000-XP, BISOGNA AVERE I PRIVILEGI AMMINISTRATIVI.

Il sofware è inoltre completato da una funzione di calendario che consente di impostare in modo semplice ed intuitivo i vari appuntamenti.

Istruzioni di installazione di IBM SPSS Modeler Text Analytics (licenza per sito)

Capitolo 3. L applicazione Java Diagrammi ER. 3.1 La finestra iniziale, il menu e la barra pulsanti

FtpZone Guida all uso

Guida rapida per i docenti all'uso della piattaforma di e-learning dell'istituto Giua

Sistema operativo. Sommario. Sistema operativo...1 Browser...1. Convenzioni adottate

MANUALE CANTINA 04.01

MANUALE EDICOLA 04.05

NUOVA PROCEDURA COPIA ED INCOLLA PER L INSERIMENTO DELLE CLASSIFICHE NEL SISTEMA INFORMATICO KSPORT.

Gestionale CUS Parma Golf

GUIDA AL SITO DELLE RIPARAZIONI BARWARE SOMMARIO

Identificare le diverse parti di una finestra: barra del titolo, barra dei menu, barra degli strumenti, barra di stato, barra di scorrimento.

FONDAZIONE ANGELO COLOCCI [AREA RISERVATA - STUDENTI]

MINIVOLLEY TOURNAMENT 3.1.1

Demo. La palette allinea. La palette Anteprima conversione trasparenza. Adobe Illustrator CS2

Sistemi Operativi MECCANISMI E POLITICHE DI PROTEZIONE. D. Talia - UNICAL. Sistemi Operativi 13.1

MECCANISMI E POLITICHE DI PROTEZIONE 13.1

Office 2007 Lezione 07. Gestione delle immagini

Capitolo 31: Modulo di offertistica - Stampa offerta

Guida all uso di Java Diagrammi ER

Utilizzo di Certificati SSL e relative implicazioni

GUIDA UTENTE PRIMA NOTA SEMPLICE

Guida all uso di. a cura dell Area Economia Applicata (AEA) - IPI

FPf per Windows 3.1. Guida all uso

Volume GESTFLORA. Gestione aziende agricole e floricole. Guidaall uso del software

Servizio di backup dei dati mediante sincronizzazione

INSTALLAZIONE NUOVO CLIENT TUTTOTEL (04 Novembre 2014)

Mappe concettuali con Cmap Istruzioni base

STUDIUM.UniCT Tutorial per gli studenti

Guida rapida all uso di Moodle per gli studenti

IBM SPSS Statistics per Linux - Istruzioni di installazione (Licenza per sito)

Manuale di istruzioni sulle maschere per il calcolo del punteggio e del voto (unico) degli studenti che sostengono la Prova nazionale 2011

La struttura dati ad albero binario

BREVE MANUALE DI SOPRAVVIVENZA A WINDOWS 8

1. Il Client Skype for Business

INSERIRE RISORSE. Un etichetta è un semplice testo che descrive una particolare risorsa o attività all interno di un Argomento.

LaCie Ethernet Disk mini Domande frequenti (FAQ)

GESTIONE INCASSI SAGRA. Ver. 2.21

11/02/2015 MANUALE DI INSTALLAZIONE DELL APPLICAZIONE DESKTOP TELEMATICO VERSIONE 1.0

GUIDA AL PRONTUARIO MOBILE

Data mining: classificazione DataBase and Data Mining Group of Politecnico di Torino

Corso di Informatica di base per le discipline umanistiche - XPATH

POSTA ELETTRONICA Per ricevere ed inviare posta occorrono:

Eliminare i contatti duplicati in MS Outlook

GESGOLF SMS ONLINE. Manuale per l utente

Workland CRM. Workland CRM Rel /11/2013. Attività --> FIX. Magazzino --> NEW. Nessuna --> FIX. Ordini --> FIX

Cominciamo dalla barra multifunzione, ossia la struttura a schede che ha sostituito la barra dei menu e la barra delle icone (Figura 1).

Come posso visualizzare la mia posta senza utilizzare programmi per la posta elettronica (es. Outlook Express, Outlook 2003, etc.)?

Corso di Sistemi di Elaborazione delle informazioni

Politecnico di Milano Facoltà di Ingegneria dell Informazione AGENTI AUTONOMI E SISTEMI MULTIAGENTE Appello COGNOME E NOME

PRODUZIONE PAGELLE IN FORMATO PDF

GESTIONE CANTINA MANUALE GESTIONE CANTINA 1

Utilizzo di imac con sistema operativo Leopard. Conoscere imac

Questa utilissima funzione permette anche di inviare mail per il pagamento dei saldi o per inviare solleciti di pagamento.

Programma Gestione Presenze Manuale autorizzatore. Versione /08/2010. Area Sistemi Informatici - Università di Pisa

Tipi di utente Pagina di Accesso BUW prevede due tipi di utente

Manuale Utente Albo Pretorio GA

Manuale d uso Software di parcellazione per commercialisti Ver [05/01/2015]

STAMPA DI UNA PAGINA SEMPLICE

Транскрипт:

C4.5 Algorithms for Machine Learning

C4.5 Algorithms for Machine Learning Apprendimento di alberi decisionali c4.5 [Qui93b,Qui96] Evoluzione di ID3, altro sistema del medesimo autore, J.R. Quinlan Ispirato ad uno dei primi sistemi di questo genere, CLS (Concept Learning Systems) di E.B. Hunt Lo sviluppo del software è cessato, in favore di C5.0, ma rimane uno dei punti di riferimento nella propria classe di algoritmi. Ultima release: 8.0 Algoritmo scritto in C per Unix: disponibile su: http://www.rulequest.com/personal/c4.5r8.tar.gz Tutorial su c4.5: http://www2.cs.uregina.ca/~dbd/cs831/notes/ml/dtrees/c4.5/tu torial.html

Costruzione dell'albero: algoritmo base Algoritmo base, usato in CLS T: insieme degli esempi (training set) {C 1,C 2,...,C k }: insieme delle classi; Considera l insieme T: if T contiene uno o più esempi, tutti appartenenti alla medesima classe then singola foglia con etichetta la classe if T contiene casi che appartengono a più classi then partizionamento di T in piu sottoinsiemi secondo un test su un attributo: nodo associato al test, con un sottoalbero per ogni possibile risultato del test stesso richiama l algoritmo su ogni ramo/sottoinsieme

Condizioni di terminazione In realtà, C4.5 si ferma se: T contiene uno o più esempi, tutti appartenenti alla medesima classe singola foglia con etichetta la classe T non contiene nessun esempio (insieme vuoto) singola foglia con etichetta la classe piu frequente nell insieme padre Nessun test riesce a generare almeno due insiemi con 2*MINOBJ esempi singola foglia con etichetta la classe più frequente (alcuni esempi saranno mal classificati) Altre condizioni...

Esempio: golf Istanze: giornate libere Concetti: giornata adatta a giocare a golf e giornata non adatta a giocare a golf Descrizione degli esempi: linguaggio attributo-valore outlook, con valori {sunny,overcast,rain} temperature, con valori numerici humidity, con valori numerici windy, con valori {true, false}

All opera! 1. Effettuate il login con l utente temporaneo lab2_xx 2. C4.5 è implementato nella suite di strumenti per data mining WEKA, installata sulle macchine 3. Avviate WEKA 4. Dal menu Applications avviate Explorer 5. Dal sito del corso, scaricate l archivio con i datasets ed estraetelo 6. Dalla pagina preprocess di WEKA, aprire il file weather.arff

All opera!

Cosa c è in un file.arff? 1. Il nome della relazione (con il significato che ha in algebra relazionale) @relation weather 2. Gli attributi (l ultimo è la classe di default) @attribute outlook {sunny, overcast, rainy} @attribute temperature real @attribute humidity real @attribute windy {TRUE, FALSE} @attribute play {yes, no} 3. I dati (questi dovremmo conoscerli...) @data sunny,85,85,false,no sunny,80,90,true,no...

Cosa c è in un file.arff? No Outlook Temp ( F) Humid (%) Windy Class D1 sunny 75 70 T Play D2 sunny 80 90 T Don't Play D3 sunny 85 85 F Don't Play D4 sunny 72 95 F Don't Play D5 sunny 69 70 F Play D6 overcast 72 90 T Play D7 overcast 83 78 F Play D8 overcast 64 65 T Play D9 overcast 81 75 F Play D10 rain 71 80 T Don't Play D11 rain 65 70 T Don't Play D12 rain 75 80 F Play D13 rain 68 80 F Play D14 rain 70 96 F Play

Histograms 1. Il riquadro in basso a destra mostra mediante un istogramma la distribuzione delle classi a seconda dell attributo selezionato Attributi discreti: distribuzione per ogni valore Attributi continui: dominio diviso in bins, distribuzione per ogni bin 2. Le associazioni classe-colore si possono inferire selezionando come attributo la classe stessa 3. Visualize all visualizza gli istogrammi per tutti gli attributi

Classificazione 1. Nella pagina Classify possiamo scegliere: Che classificatore utilizzare Come effettuare il testing Quale attributo considerare come classe 2. Come classificatore utilizzare J4.8 3. Effettuare il testing sul training set 4. Come classe scegliere play

Classificazione 1. Facendo click sul nome del classificatore si può accedere ad altre opzioni: binarysplits: use binary splits on nominal attributes confidencefactor: the confidence factor used for pruning (smaller values incur more pruning). minnumobj: the minimum number of instances per leaf. saveinstancedata: save the training data for visualization. Unpruned: no pruning is performed. 2. Provate ad avviare la classificazione

Output (1) === Run information === Scheme: weka.classifiers.trees.j48 -C 0.25 -M 2 Relation: weather Instances: 14 Attributes: 5 outlook temperature humidity windy play Test mode: evaluate on training data PREAMBOLO

Output (2) J48 pruned tree ------------------ outlook = sunny humidity <= 75: yes (2.0) humidity > 75: no (3.0) outlook = overcast: yes (4.0) outlook = rainy windy = TRUE: no (2.0) windy = FALSE: yes (3.0) Questo è l'albero decisionale che conosciamo... Che si può visualizzare! Click destro sulla lista dei risultati, poi vizualize tree

Output (3) === Evaluation on training set === === Summary === Correctly Classified Instances 14 100 % Incorrectly Classified Instances 0 0 % Kappa statistic 1 Mean absolute error 0 Root mean squared error 0 Relative absolute error 0 % Root relative squared error 0 % Total Number of Instances 14... e questi sono I risultati della valutazione del classificatore sul training set: nessun errore è commesso

Output (4) === Confusion Matrix === Falsi negativi a b <-- classified as 9 0 a = yes 0 5 b = no Falsi positivi Recall Precision True Positive # positive instances True positive # classified positive TP FN TP TP TP FP

Output (5) 1. Nella pagina Visualize potete vedere dei grafici di dispersione che mostrano come si dispongono le istanze rispetto ai valori di coppie di attributi 2. Fate click su un grafico Potete selezionare che attributo mettere sull asse delle X e quale sull asse delle Y Introdurre del rumore (jitter) serve a separare istanze con i medesini valori per una coppia di attributi Con select instance potete selezionare solo alcuni punti 3. ESERCIZIO: Visivamente, quale attributo produce il miglior partizionamento delle istanze?

Attributi incerti 1. Fate un backup del file weather.arff 2. Poi provate a sostituire overcast,72,90,true,yes --->?,72,90,TRUE,yes 3. Notate che l albero appreso è (più o meno) quello visto a lezione 4. Come varia la matrice di confusione? 5. ESERCIZIO: Classificazione di nuove istanze Fate una copia di weather.arff Eliminate tutte le istanze, introducetene una artificiale Fornite il nuovo file come test set ( supplied test set..., a sinistra) Come vengono classificate le nuove istanze? Come si comporta il classificatore con attributi sconosciuti?

Error Based Pruning (1) c4.5 utilizza una tecnica chiamata error-based pruning Prima di salvarlo, l'algoritmo tenta di semplificare l'albero Per ogni foglia C4.5 stima una probabilità di classificazione erronea su esempi sconosciuti basandosi su alcune considerazioni statistiche Per ogni nodo la probabilità di errore è la somma di quella dei sottonodi/foglie Ad ogni nodo: Se la stima di errore può essere diminuita sostituendo quel nodo con una foglia, C4.5 lo fa Se la stima di errore può essere diminuita sostituendo quel nodo con il suo ramo più pesante, C4.5 lo fa

Error Based Pruning (2) 1. Fate due copie del file labor.arff 2. Nella prima copia mantenete le prime 40 istanze (training set) 3. Nella seconda copia mantenete le restanti 17 istanze (test set) 4. Provate ad apprende un albero con e senza error based pruning Come sono i due alberi? Che prestazioni hanno sul training set? E sul test set? Ricordate che obiettivo del pruning è migliorare le performance su casi sconosciuti!

ESERCIZI Provate a dare un occhiata ad alcuni data sets... 1. Sul sito ne potete trovare alcuni.. Accanto al nome del datasets avete anche una indicazione su che farci... 2. Alcuni repository sono disponibili on-line: http://www.cs.waikato.ac.nz/ml/weka/index_datasets.html http://www.ics.uci.edu/~mlearn/mlsummary.html