Il software Weka. Un software per il Data Mining/Machine learningscritto in Java e distribuito sotto la GNU Public License)
|
|
|
- Agostino Tarantino
- 9 anni fa
- Visualizzazioni
Transcript
1 Il software Weka Prof. Matteo Golfarelli Alma Mater Studiorum - Università di Bologna Weka Un software per il Data Mining/Machine learningscritto in Java e distribuito sotto la GNU Public License) Waikato Environment for Knowledge Analysis Utilizzato in ambito scientifico, didattico e applicativo Include: Un insieme di tool per il pre-processing, algoritmi di apprendimento e metodi di valutazione Interfaccia grafica Un ambiente per comparare i risultati degli algoritmi di apprendimento
2 Weka Experimenter Ambiente per la comparazione dei risultati su più algoritmi di mining o su più data set Explorer Pre-processing e creazione di modelli di learning SimpleCLI Interfaccia testuale KnowledgeFlow Creazione di flussi complessi di funzioni Weka Gestione dei dati Il principale tipo di dati con cui opera WEKA è l Attribute Relation file (ARFF file) I file descrivono la relazione, gli attributi e i valori che questi possono contenere, i age sex { female, chest_pain_type { typ_angina, asympt, non_anginal, cholesterol exercise_induced_angina { no, class { present, 63,male,typ_angina,233,no,not_present 67,male,asympt,286,yes,present 67,male,asympt,229,yes,present 38,female,non_anginal,?,no,not_present...
3 Gestione dei dati I classificatori costruiti (addestrati) possono essere salvati su file denominati modelli Il salvataggio e il caricamento del modello si avviano con un right click del mouse sulla result list E quindi possibile ricaricare un modello e rieseguirlo su un nuovo data set Il data set deve essere caricato utilizzando la voce Test options Supplied test set Il pre-processing Il pre-processing si realizza mediante filtri: Discretizzazione Normalizzazione Resampling Selezione di attributi Trasformazione di attributi Il tab pre-processing consente inoltre funzionalità di visualizzazione delle distribuzione dei dati rispetto all attributo di classificazione o altro attributo
4 Il pre-processing Il pre-processing si realizza mediante filtri: Discretizzazione Discretize (unsupervised): An instance filter that discretizes a range of numeric attributes in the dataset into nominal attributes. Normalizzazione Normalize : normalizes all numeric values in the given dataset (apart from the class attribute, if set). The resulting values are by default in [0,1] for the data used to compute the normalization intervals. But with the scale and translation parameters one can change that, e.g., with scale = 2.0 and translation = -1.0 you get values in the range [-1,+1]. Standardize: standardizes all numeric attributes in the given dataset to have zero mean and unit variance (apart from the class attribute, if set). Il pre-processing Il pre-processing si realizza mediante filtri: Resampling Resample: produces a random subsample of a dataset using either sampling with replacement or without replacement. Trasformazione di attributi e valori NominalToBinary: converts all nominal attributes into binary numeric attributes. AddNoise: An instance filter that changes a percentage of a given attributes values. The attribute must be nominal. Missing value can be treated as value itself. Gestione valori mancanti ReplaceMissingValues: replaces all missing values for nominal and numeric attributes in a dataset with the modes and means from the training data.
5 Il pre-processing Selezione di attributi: consente di identificare il subset di attributi che contenga la massima quantità di informazione CfsSubsetEval: evaluates the worth of a subset of attributes by considering the individual predictive ability of each feature along with the degree of redundancy between them ClassifierSubsetEval: evaluates attribute subsets on training data (or a seperate hold out testing set). Uses a classifier to estimate the 'merit' of a set of attributes. Lo spazio di ricerca (possibili subset degli attributi) può essere elevato è necessario definire un metodo di ricerca Bestfirst ExhaustiveSearch GreedyStepWise RandomSearch. Visualizzazione Permette di visualizzare in un piano cartesiano le istanze del data set in funzione dei valori assunti da coppie di attributi Il valore della classe è indicato tramite una diversa colorazione Dopo avere eseguito la classificazione è possibile utilizzare lo stesso tipo di visualizzazione per analizzare le istanze classificate in modo non corretto (rappresentate tramite rettangoli) La visualizzazione si attiva con il tasto destro del mouse, selezionando la riga del log di esecuzione dell algoritmo di learning Le tuple vere e proprie possono essere visualizzate Dalla Weka GUI Choser Tools ArffViewer Da Weka Explorer Pulsante Edit
6 Classificazione Il tab di classificazione permette di: Selezionare il tipo di algoritmo di classificazione e settarne i parametri Definire le modalità per valutare la bontà del risultato Visualizzare il risultato della classificazione Tra i molti classificatori a disposizione utilizzeremo: Alberi decisionali (tree) J48: implementazione dell algoritmo C4.5 Unpruned (TRUE/FALSE) esegue o meno il post pruning Confidence factor: valori piccoli accentuano l effetto del post pruning minnumobj : numero minimo di elementi in una foglia Decision Stump: crea un albero decisionale a un livello Classificatori basati su regole (rules) Jrip: implementazione dell algoritmo RIPPER usepruning(true/false) esegue o meno il pruning minno: numero minimo di ementi coperti da una regola Classificazione Il tab di classificazione permette di: Selezionare il tipo di algoritmo di classificazione e settarne i parametri Definire le modalità per valutare la bontà del risultato Visualizzare il risultato della classificazione Tra i molti classificatori a disposizione utilizzeremo: Classificatori istance based (lazy) IBK: implementazione dell algoritmo k-mediani KNN: valore di k nearestneighboursearchalgorithm: tecnica utilizzata per la ricerca dell NN Classificatori Bayesiani (bayes) Naive Bayes: implementazione dell omonimo algoritmo
7 Classificazione Tra i molti classificatori a disposizione utilizzeremo: Multi-classificatori (meta): utilizzano classificatori semplici per creare classificatori più complessi e potenti Bagging AdaBoost RandomCommittee: il classificatore calcola la media dei risultati di più alberi decisionali ognuno dei quali utilizza un sottoinsieme random di attributi CostSensitiveClassifier: rende cost sensitive il classificatore selezionato Test options: definiscono le modalità per verificare l errore di classificazione: Use training set Supplied test set Cross validation Percentage split Attivando il flag More Options Cost-Sensitive evaluation è inoltre possibile effettuare una valutazione dipendente dal peso degli errori Analisi della classificazione Struttura dell albero/regole con indicazione del numero di istanze del training set classificate correttamente e non. Le frazioni riguardano istanze con valori mancanti Statistiche riassuntive Statistiche dettagliate per classe Matrice di confusione
Weka Project. Weka. Weka Project. Formato.arff. Modalità di utilizzo di Weka. Formato.arff
Weka Project Weka Machine Learning Algorithms in Java Waikato Environment for Knowledge Analysis Algoritmi di Data Mining e Machine Learning realizzati in Java Preprocessing Classificazione Clustering
Strumenti per l Analisi l. ed il Preprocessing dei dati. Francesco Folino. Introduzione
Strumenti per l Analisi l ed il Preprocessing dei dati Francesco Folino Obiettivo Introdurre gli aspetti essenziali della fase di preparazione dei dati Acquisire padronanza di un processo tipicamente artigianale
WEKA. Ing. Antonio Brunetti Prof. Vitoantonio Bevilacqua
WEKA BIOINFORMATICS AND BIG DATA ANALYTICS Ing. Antonio Brunetti Prof. Vitoantonio Bevilacqua Indice Cosa è weka Tecnologie Hands On Weka Weka Explorer KnowledgeFlow /Simple CLI Caricare il dataset Il
Il software Weka Soluzioni degli esercizi
Il software Weka Soluzioni degli esercizi Prof. Matteo Golfarelli Alma Mater Studiorum - Università di Bologna Pre processing bank data Il date set bank-data.csv 600 istanze Nessun dato missing Attributo
Classificazione con Weka Testi degli esercizi. Prof. Matteo Golfarelli Alma Mater Studiorum - Università di Bologna
Classificazione con Weka Testi degli esercizi Prof. Matteo Golfarelli Alma Mater Studiorum - Università di Bologna Pre processing bank data Il date set bank-data.csv 600 istanze Nessun dato missing Attributo
Clustering con Weka Testo degli esercizi. Prof. Matteo Golfarelli Alma Mater Studiorum - Università di Bologna
Clustering con Weka Testo degli esercizi Prof. Matteo Golfarelli Alma Mater Studiorum - Università di Bologna L interfaccia Algoritmo utilizzato per il clustering E possibile escludere un sottoinsieme
Multi classificatori. Prof. Matteo Golfarelli Alma Mater Studiorum - Università di Bologna
Multi classificatori Prof. Matteo Golfarelli Alma Mater Studiorum - Università di Bologna Combinazione di classificatori Idea: costruire più classificatori di base e predire la classe di appartenza di
Sistemi per la gestione delle basi di dati
Sistemi per la gestione delle basi di dati Esercitazione #5 Data mining Obiettivo Applicare algoritmi di data mining per la classificazione al fine di analizzare dati reali mediante l utilizzo dell applicazione
Clustering con Weka. L interfaccia. Prof. Matteo Golfarelli Alma Mater Studiorum - Università di Bologna. Algoritmo utilizzato per il clustering
Clustering con Weka Soluzioni degli esercizi Prof. Matteo Golfarelli Alma Mater Studiorum - Università di Bologna L interfaccia Algoritmo utilizzato per il clustering E possibile escludere un sottoinsieme
Weka: Weikato university Environment for Knowledge Analysis
: Weikato university Environment for Knowledge Analysis Corso di Data e Text Mining Ing. Andrea Tagarelli Università della Calabria Acknowledgements: Salvatore Ruggieri, Dip. di Informatica, Univ. di Pisa
Laboratorio di Apprendimento Automatico. Fabio Aiolli Università di Padova
Laboratorio di Apprendimento Automatico Fabio Aiolli Università di Padova Underfitting e Overfitting Complessità spazio ipotesi SVM: aumenta con kernel non lineari, RBF con maggiore pendenza, aumenta con
Business Intelligence per i Big Data
Business Intelligence per i Big Data Esercitazione di laboratorio n. 6 L obiettivo dell esercitazione è il seguente: - Applicare algoritmi di data mining per la classificazione al fine di analizzare dati
C4.5 Algorithms for Machine Learning
C4.5 Algorithms for Machine Learning C4.5 Algorithms for Machine Learning Apprendimento di alberi decisionali c4.5 [Qui93b,Qui96] Evoluzione di ID3, altro sistema del medesimo autore, J.R. Quinlan Ispirato
Reti neurali con weka Testi degli esercizi
Reti neurali con weka Testi degli esercizi Dott.ssa Elisa Turricchia Alma Mater Studiorum - Università di Bologna ANN in weka Linee guida Scelta dell algoritmo di classificazione Classifiers/Functions/MultilyerPerceptron
Analisi di un dataset di perizie assicurative. Esercitazione Data Mining
Analisi di un dataset di perizie assicurative Esercitazione Data Mining Ricapitoliamo L obiettivo dell analisi che si intende condurre è l estrapolazione di un modello per il riconoscimento automatico
PG5 Starter Training Applicazione File System Daniel Ernst EN02 2012-02-26 Stefano Peracchi IT01 2013-05-20
PG5 Starter Training Applicazione File System Daniel Ernst EN02 2012-02-26 Stefano Peracchi IT01 2013-05-20 Introduzione Materiale richiesto Notebook o computer Controllore PCD1 E Cavo USB Scheda «Training»
Regole associative con Weka
Regole associative con Weka Soluzioni degli esercizi Prof. Matteo Golfarelli Alma Mater Studiorum - Università di Bologna Apriori parametri e output In questa fase utilizzeremo il data set CensusTrainining.arff
Stima della qualità dei classificatori per l analisi dei dati biomolecolari
Stima della qualità dei classificatori per l analisi dei dati biomolecolari Giorgio Valentini e-mail: [email protected] Rischio atteso e rischio empirico L` apprendimento di una funzione non nota
Classificatore K-NN 1
Classificatore K-NN 1 Esercizio: Implementare il classificatore K-NN: [labelassegnate_test error_test] = mio_knn( ds_train, ds_test, k) Traccia: La funzione DIST(A,B') del toolbox reti neurali calcola
A.A. 2006/2007 Laurea di Ingegneria Informatica. Fondamenti di C++ Horstmann Capitolo 3: Oggetti Revisione Prof. M. Angelaccio
A.A. 2006/2007 Laurea di Ingegneria Informatica Fondamenti di C++ Horstmann Capitolo 3: Oggetti Revisione Prof. M. Angelaccio Obbiettivi Acquisire familiarità con la nozione di oggetto Apprendere le proprietà
Naïve Bayesian Classification
Naïve Bayesian Classification Di Alessandro rezzani Sommario Naïve Bayesian Classification (o classificazione Bayesiana)... 1 L algoritmo... 2 Naive Bayes in R... 5 Esempio 1... 5 Esempio 2... 5 L algoritmo
Modelli probabilistici
Modelli probabilistici Davide Cittaro e Marco Stefani Master bioinformatica 2003 Introduzione L obiettivo di presente lavoro è la classificazione di un insieme di proteine, definite da 27 valori numerici,
INTRODUZIONE AD OMNET++
INTRODUZIONE AD OMNET++ Omnet++ OMNET++ è una piattaforma di simulazione : È utile per: Modulare: gerarchia di moduli Ad eventi Orientata agli Oggetti (in C++) Open Source Versione comm. OMNEST analizzare
Machine Learning: apprendimento, generalizzazione e stima dell errore di generalizzazione
Corso di Bioinformatica Machine Learning: apprendimento, generalizzazione e stima dell errore di generalizzazione Giorgio Valentini DI Università degli Studi di Milano 1 Metodi di machine learning I metodi
Classificazione Mario Guarracino Laboratorio di Sistemi Informativi Aziendali a.a. 2006/2007
Classificazione Introduzione I modelli di classificazione si collocano tra i metodi di apprendimento supervisionato e si rivolgono alla predizione di un attributo target categorico. A partire da un insieme
Quando mi collego ad alcuni servizi hosting ricevo un messaggio relativo al certificato di protezione del sito SSL, come mai?
IT FAQ-SSL Quando mi collego ad alcuni servizi hosting ricevo un messaggio relativo al certificato di protezione del sito SSL, come mai? Il certificato SSL relativo ai servizi hosting è stato rinnovato
ISTRUZIONI PRODOTTO VISUALIZZAZIONE E STAMPA MOD
ISTRUZIONI PRODOTTO VISUALIZZAZIONE E STAMPA MOD. 730-4 L applicazione Stampa 730-4 20XX consente la visualizzazione dei documenti 730-4 contenuti nelle forniture che l Agenzia delle entrate rende disponibili
Classificazione di un data set di proteine con Weka
MODELLI PROBABILISTICI Classificazione di un data set di proteine con Weka SOFIA CIVIDINI 2 INTRODUZIONE Negli ultimi due decenni si è assistito ad un aumento esponenziale nella quantità dell informazione
Come creare un nuovo Prodotto per ebay
imaio.com imaio v. 3.0 Come creare un nuovo Prodotto per ebay In questa guida verra illustrato come creare un nuovo prodotto sul sistema imaio III per essere poi pubblicato sul Negozio ebay * If you are
PG5 Starter Training Applicazione Email Daniel Ernst EN02 2013-02-26 Stefano Peracchi IT01 2013-05-20
PG5 Starter Training Applicazione Email Daniel Ernst EN02 2013-02-26 Stefano Peracchi IT01 2013-05-20 Introduzione Materiale richiesto Notebook o computer Controllore PCD1 E Cavo USB Scheda «Training»
Scuola Secondaria di II grado
Scuola Secondaria di II grado Anagrafe Nazionale degli Studenti Avvio a.s. 2017/2018 Versione 1.0 Settembre 2017 Direzione generale per gli studi, la statistica e i sistemi informativi SCUOLA SECONDARIA
WEBGIS 1.0. Guida per l utente
WEBGIS 1.0 Guida per l utente Sommario 1 INTRODUZIONE... 3 2 FUNZIONALITA... 4 2.1 Strumenti WebGIS... 4 2.1.1 Mappa... 5 2.1.2 Inquadramento mappa... 6 2.1.3 Toolbar... 6 2.1.4 Scala... 7 2.1.5 Legenda...
Corso di Riconoscimento di Forme. Sommario: Matrice di confusione Cross validation Prestazioni nel KNN
Corso di Riconoscimento di Forme Sommario: Matrice di confusione Cross validation Prestazioni nel KNN Matrice di confusione Il semplice calcolo dell'errore di classificazione non permette di capire il
Scuola Secondaria di I grado Anagrafe Nazionale degli Studenti Avvio a.s. 2017/2018
Scuola Secondaria di I grado Anagrafe Nazionale degli Studenti Avvio a.s. 2017/2018 Versione 1.0 Settembre 2017 Direzione generale per gli studi, la statistica e i sistemi informativi SCUOLA SECONDARIA
TABELLA DI IDENTIFICAZIONE CODICI POMPE HWD A 1515 B 1818 A B 2121 A B 2525 A B 1821 A B
TAELLA DI IDENTIFICAZIONE CODICI POMPE -88-22-2525-82 A 55 88 A 22 A 2525 A 82 A Modello Materiale testata 55. 88. 22. 2525. 82. A Con manometro 400 bar Senza manometro Ottone Material del corpo Materiale
Capitolo 18 - Progetto DWG Creazione del layout di stampa
Capitolo 18 - Progetto DWG Creazione del layout di stampa Avviate MasterChef dall icona presente sul vostro Desktop. Nota: Se state utilizzando una versione dimostrativa, una volta caricato il programma,
Gestione dei dati vettoriali Query dei dati
Gestione dei dati vettoriali Query dei dati Mauro G. Università di Trieste Dipartimento di Studi Umanistici Visualizzare le proprietà dei layer vettoriali Percorso: Layer -> Proprietà Oppure Menù contestuale
Classificazione Validazione Decision Tree & kmeans. Renato Mainetti
Classificazione Validazione Decision Tree & kmeans Renato Mainetti Apprendimento Supervisionato e Non Supervisionato: forniamo input e output Non supervisionato: forniamo solo input 2 Apprendimento Supervisionato
Gestione Alunni. SCUOLA SECONDARIA DI II GRADO Anagrafe Nazionale Avvio a.s. 2016/2017
Gestione Alunni SCUOLA SECONDARIA DI II GRADO Anagrafe Nazionale Avvio a.s. 2016/2017 SCUOLA SECONDARIA DI II GRADO Anagrafe Nazionale Avvio anno scolastico e frequenze 2016/17 L aggiornamento delle frequenze
Guida alla firma digitale della domanda
Guida alla firma digitale della domanda Servizi Informatici [Ver. 2] Sommario della guida Salvataggio del file Utilizzo del programma di firma Visualizzazione della domanda Firma del file Caricamento del
Il software consente di costruire tabelle e grafici e di esportare il proprio lavoro in formato pdf o excel.
Guida all uso Premessa... 1 1. Home page... 1 2. Accesso al software e alla base dati da consultare... 2 3. Costruzione di una tabella personalizzata... 3 4. Impostazione dei filtri... 5 5. Impostazione
Tesi di Laurea Triennale in Ingegneria Informatica REALIZZAZIONE DI UN APPLICATIVO PER LA GESTIONE DI FOGLI DI LAVORO INTEGRATO IN OUTLOOK 2010
UNIVERSITÀ DEGLI STUDI DI TRIESTE FACOLTÀ DI INGEGNERIA Corso di laurea in Ingegneria Informatica Tesi di Laurea Triennale in Ingegneria Informatica REALIZZAZIONE DI UN APPLICATIVO PER LA GESTIONE DI FOGLI
Valutazione delle Prestazioni di un Classificatore. Performance Evaluation
Valutazione delle Prestazioni di un Classificatore Performance Evaluation Valutazione delle Prestazioni Una volta appreso un classificatore è di fondamentale importanza valutarne le prestazioni La valutazione
Business Intelligence per i Big Data
Business Intelligence per i Big Data Esercitazione di laboratorio N. 6 (Prima parte) Dati strutturati Il dataset denominato UsersSmall (UsersSmall.xls) è disponibile sul sito del corso (http://dbdmg.polito.it/wordpress/teaching/business-intelligence/).
DICHIARAZIONE ONLINE VENDITE PRODOTTI FITOSANITARI MANUALE UTENTE MINISTERO
DICHIARAZIONE ONLINE VENDITE PRODOTTI FITOSANITARI MANUALE UTENTE MINISTERO INDICE 1. INTRODUZIONE...3 1.1. PREMESSA...3 2. MODALITA DI COLLOQUIO...3 2.1. ELEMENTI GENERALI DI NAVIGAZIONE...3 3. FUNZIONALITÀ...6
Scuola dell infanzia
Scuola dell infanzia Anagrafe Nazionale degli Studenti Avvio a.s. 2017/2018 Versione 1.0 Settembre 2017 Direzione generale per gli studi, la statistica e i sistemi informativi SCUOLA DELL INFANZIA Avvio
ACCESS. Database: archivio elettronico, dotato di un programma di interfaccia che facilita la registrazione e la ricerca dei dati.
ACCESS Database: archivio elettronico, dotato di un programma di interfaccia che facilita la registrazione e la ricerca dei dati. Database Relazionale: tipo di database attualmente più diffuso grazie alla
Manuale utente. v. 1.0 CRUSCOTTO DI MONITORAGGIO PER I SERVIZI FSE 1
CRUSCOTTO DI MONITORAGGIO PER I SERVIZI FSE Manuale utente v. 1.0 CRUSCOTTO DI MONITORAGGIO PER I SERVIZI FSE 1 Sommario 1. INTRODUZIONE... 4.. CONTENUTI DEL D... 4 DEFINIZIONI... 4... 4 2. MANUALE UTENTE...
