Data mining. Vincenzo D Elia. vincenzo.delia@polito.it. DBDMG - Politecnico di Torino



Documenti analoghi
Riccardo Dutto, Paolo Garza Politecnico di Torino. Riccardo Dutto, Paolo Garza Politecnico di Torino

SQL Server Integration Services. SQL Server 2005: ETL - 1. Integration Services Project

Ingegneria del Software T

Università di Pisa A.A

Aprire WEKA Explorer Caricare il file circletrain.arff Selezionare random split al 66% come modalità di test Selezionare J48 come classificatore e

Analisi dei requisiti e casi d uso

7.4 Estrazione di materiale dal web

La gestione della clientela, soprattutto quando questa è numerosa, è un attività delicata e complessa che normalmente porta via molto tempo.

SISTEMI INFORMATIVI E TELEMEDICINA. 15. Usare XML con ADO.NET Prof. Mauro Giacomini

Il moderno messaggio mediatico: l Ipertesto e l Ipermedia. Stefano Cagol

Crea lettera di sollecito Word : Il programma è collegato all archivio Solleciti accessibile dall anagrafica cliente, con le stesse funzionalità

Traccia di soluzione dell esercizio del 25/1/2005

Fasi di creazione di un programma

Monitor Orientamento. Manuale Utente

(A) CONOSCENZA TERMINOLOGICA (B) CONOSCENZA E COMPETENZA (C) ESERCIZI DI COMPRENSIONE

Corso Drupal «Project management»

Algoritmi e strutture dati. Codici di Huffman

POLIAGE GUIDA RAPIDA

Gestione Risorse Umane Web. Gestione della foto in stampa unione. Versione V01

Progetto: ARPA Fonte Dati. ARPA Fonte Dati. Regione Toscana. Manuale Amministratore

Installazione di GFI WebMonitor

Servizio online «Distinta d impostazione Lettere» Istruzioni

Manuale di realizzazione dei modelli di documento

Servizi medra Report e HTTPCallback

DBMS. Esempi di database. DataBase. Alcuni esempi di DBMS DBMS. (DataBase Management System)

HTML il linguaggio per creare le pagine per il web

Data warehousing con SQL Server

La programmazione. Sviluppo del software

Uso delle basi di dati DBMS. Cos è un database. DataBase. Esempi di database

Sicurezza dei dati in EGRID

Regione Toscana. ARPA Fonte Dati. Manuale Amministratore. L. Folchi (TAI) Redatto da

Calcolatori: Algebra Booleana e Reti Logiche

Scheda di collaudo Integrazione NoTIER

Fogli Elettronici: MS Excel utilizzo avanzato

Lezione 8. La macchina universale

Sistemi Operativi MECCANISMI E POLITICHE DI PROTEZIONE. D. Talia - UNICAL. Sistemi Operativi 13.1

MECCANISMI E POLITICHE DI PROTEZIONE 13.1

Hub-PA Versione Manuale utente

MATLAB. Caratteristiche. Dati. Esempio di programma MATLAB. a = [1 2 3; 4 5 6; 7 8 9]; b = [1 2 3] ; c = a*b; c

SPECIFICHE TECNICHE DEL PACCHETTO DI ARCHIVIAZIONE

Basi di dati 9 febbraio 2010 Compito A

Creazione di un modello di data mining di tipo OLAP con l'algoritmo Microsoft Clustering

Capitolo 4 Pianificazione e Sviluppo di Web Part

Gestione Risorse Umane Web

ARCHIVIAZIONE DOCUMENTALE NEiTdoc

Edok Srl. FatturaPA Light. Servizio di fatturazione elettronica verso la Pubblica Amministrazione. Brochure del servizio

7. Layer e proprietà degli oggetti

Definizione Parte del software che gestisce I programmi applicativi L interfaccia tra il calcolatore e i programmi applicativi Le funzionalità di base

Centro Acquisti per la Pubblica Amministrazione EmPULIA. Linee guida per gli Enti Aderenti. Procedure Negoziate: Richiesta di Preventivo. Versione 2.

Olga Scotti. Basi di Informatica. Excel

Veneto Lavoro via Ca' Marcello 67/b, Venezia-Mestre tel.: 041/

Sistemi Operativi. Interfaccia del File System FILE SYSTEM : INTERFACCIA. Concetto di File. Metodi di Accesso. Struttura delle Directory

MANUALE MOODLE STUDENTI. Accesso al Materiale Didattico

Automazione Industriale (scheduling+mms) scheduling+mms.

ARCHIVIA PLUS - ARCHIFILE

Integrazione al Manuale Utente 1

Omnia Web Timesheet. Manuale utente

Il foglio elettronico. Excel PARTE

Università degli Studi di Ferrara - A.A. 2014/15 Dott. Valerio Muzzioli ORDINAMENTO DEI DATI

Corso di Amministrazione di Reti A.A. 2002/2003

Utilizzare Event Viewer

FAQ TeamPortal - DVD DEMO

ARCHIVIA PLUS - ARCHITEL

Uno standard per il processo KDD

FIRESHOP.NET. Gestione del taglia e colore.

Guida all uso del web service SDMX

4.1 FAX Sollecito consegne via (Nuova funzione)

Obiettivo dell esercitazione

LA GESTIONE DEI VEICOLI AZIENDALI CON MICROSOFT OUTLOOK

CONTENUTI 1. INTRODUZIONE CONCETTI BASICI SU EQUINOX CMS XPRESS ACCESSO A EQUINOX CMS XPRESS PAGINA D INIZIO...

NAVIGARE FRA LE PRATICHE...

FIRESHOP.NET. Gestione Lotti & Matricole.

DENUNCE EDILCONNECT GUIDA COMPILAZIONE

ISTRUZIONI PER LA GESTIONE BUDGET

Protezione. Protezione. Protezione. Obiettivi della protezione

COMUNE DI SAGRADO. ALLEGATO AL MANUALE DI CONSERVAZIONE Affidatario Regione Friuli Venezia Giulia ATTRIBUTI COMUNI A TUTTE LE CLASSI DOCUMENTALI

ARKmanager Versione Note utente

GESTIONE DOCUMENTALE. Informazioni generali

Allegato 4 SPECIFICHE TECNICHE DEL PACCHETTO DI ARCHIVIAZIONE

I TUTORI. I tutori vanno creati la prima volta seguendo esclusivamente le procedure sotto descritte.

Dall Algoritmo al Programma. Prof. Francesco Accarino IIS Altiero Spinelli Sesto San Giovanni

Ogni documento digitalizzato, carta attivo o passivo, viene di infatti accompagnato identità da una sorta di elettron

Presentazione di Cedac Software

Strutturazione logica dei dati: i file

Piani di input e piani di calcolo reale in FaTA-e

FONDAZIONE ANGELO COLOCCI [AREA RISERVATA - STUDENTI]

Esercizio data base "Biblioteca"

ACO Archiviazione Elettronica e Conservazione sostitutiva

Mon Ami 3000 Varianti articolo Gestione di varianti articoli

Il modulo Trasporti & Depositi di OB One rappresenta per le Aziende un vero e proprio Sistema Informativo Integrato di gestione dei traslochi e dei

Scheda operativa Versione rif c00. Libro Inventari

ECDL - Database. European Computer Driving Licence - Modulo 5 - Database LEZIONE 2

MANUALE PARCELLA FACILE PLUS INDICE

Registratori di Cassa

Come aggiungere o importare nuovi contatti

TECNOLOGIA SCUOLA PRIMARIA

Guida all uso di. a cura dell Area Economia Applicata (AEA) - IPI

E possibile modificare la lingua dei testi dell interfaccia utente, se in inglese o in italiano, dal menu [Tools

AVCP Generatore di XML

Guida all uso di Java Diagrammi ER

Transcript:

Data mining Vincenzo D Elia vincenzo.delia@polito.it DBDMG - Politecnico di Torino vincenzo.delia@polito.it Archivi Multimediali e Data Mining - p. 1

Rapid Miner vincenzo.delia@polito.it Archivi Multimediali e Data Mining - p. 2

Rapid Miner Strumento Open Source per machine learning e data mining vincenzo.delia@polito.it Archivi Multimediali e Data Mining - p. 3

Modalità di utilizzo Tre modalità Interfaccia grafica per l utilizzo interattivo Descrizione del processo tramite XML Librerie jar Disponibile per qualunque ambiente offra una JVM vincenzo.delia@polito.it Archivi Multimediali e Data Mining - p. 4

Processo Rapid Miner si basa sul concetto di processo rappresentato graficamente da un albero di operatori vincenzo.delia@polito.it Archivi Multimediali e Data Mining - p. 5

Operatori Gli operatori sono i blocchi base del processo di data mining Ogni operatore viene configurato da parametri assegnati dall utente. Esso elabora quanto restituito dal nodo padre e passa il risultato della propria elaborazione al nodo successivo. Alcuni nodi (come OperatorChain) hanno più figli: lo scopo è raggruppare più operatori in un unico operatore. Per realizzare un processo di data mining, l utente deve comporre opportunamente gli operatori che sono offerti dal sistema vincenzo.delia@polito.it Archivi Multimediali e Data Mining - p. 6

Tipi di operatori Esistono operatori per Lettura/Scrittura Dati Modelli... Elaborazione dei dati Preprocessing Postprocessing Trasformazioni di formato... Costruzione di modelli Classificatori Clustering...... vincenzo.delia@polito.it Archivi Multimediali e Data Mining - p. 7

Tipi di operatori fondamentali vincenzo.delia@polito.it Archivi Multimediali e Data Mining - p. 8

Process È il nodo radice di ogni processo. Parametri: vincenzo.delia@polito.it Archivi Multimediali e Data Mining - p. 9

ExampleSet I dati sono oggetti di tipo ExampleSet. Esistono numerosi operatori per la lettura dei dataset, dato che RapidMiner supporta numerosi formati (arff, xls, csv...). Un dataset salvato nel formato di RapidMiner è composto da due file aml, ossia un file XML che descrive gli attributi ed i tipi dei dati contenuti nel dataset dat, ossia un file contenete una riga per ogni dato in cui ogni colonna è il valore di un attributo Un processo di data mining inizia solitamente con la lettura dei dati. vincenzo.delia@polito.it Archivi Multimediali e Data Mining - p. 10

Creazione dataset Spesso il proprio dataset non è una tabella di attributi ( ExampleSet). RapidMiner mette a disposizione vari plugin per costruire un ExampleSet automaticamente partendo da vari formati di dati (testi, musica... ) vincenzo.delia@polito.it Archivi Multimediali e Data Mining - p. 11

Attributi Due tipi di attributi speciali, cioè che sono considerati metadati del dato (ad es. etichetta di classe, identificatore) regolari, ossia in dati veri e propri Ogni attributo ha un tipo numeric, come intero o reale nominal, cioè un valore categorico binominal, cioè yes no... vincenzo.delia@polito.it Archivi Multimediali e Data Mining - p. 12

Preprocessing Un ExampleSet è essenzialmente una tabella. RapidMiner offre operatori per Manipolare i metadati, ossia rinominare attributi Rimuovere valori non assegnati Discretizzare Convertire tra tipi differenti Queste operazioni sono fondamentali per la corretta estrazione di conoscenza vincenzo.delia@polito.it Archivi Multimediali e Data Mining - p. 13

Algoritmi RapidMiner offre operatori per l esecuzione di numerosi algoritmi In generale questi operatori ricevono un ExampleSet e possono restituire ExampleSet con i dati in uscita Il modello costruito Entrambi i tipi di dati possono essere salvati su file per la lettura o l applicazione successiva vincenzo.delia@polito.it Archivi Multimediali e Data Mining - p. 14

Applicare un modello - ModelApplier Riceve: Modello ExampleSet Restituisce ExampleSet Applica un modello ai dati ottenuti come parametro. I dati restituiti dipendono dal modello applicato. vincenzo.delia@polito.it Archivi Multimediali e Data Mining - p. 15

Albero di decisione vincenzo.delia@polito.it Archivi Multimediali e Data Mining - p. 16

Iris Il dataset Iris contiene le caratteristiche di molti iris Per ogni fiore sono note 4 misure relative a petali e sepali. Ad ogni fiore è inoltre assegnata un etichetta di classe indicante la varietà cui appartiene. Nel dataset sono presenti 3 classi (virginica, setosa e versicolor) vincenzo.delia@polito.it Archivi Multimediali e Data Mining - p. 17

Albero di decisione, processo 1. Lettura dataset e costruizione ExampleSet 2. Costruzione dell albero di decisione vincenzo.delia@polito.it Archivi Multimediali e Data Mining - p. 18

Albero di decisione, modello vincenzo.delia@polito.it Archivi Multimediali e Data Mining - p. 19

Salvare il modello Posso aggiungere in cascata ModelWriter per salvare il modello vincenzo.delia@polito.it Archivi Multimediali e Data Mining - p. 20

Applicare il modello Posso leggere un altro dataset dello stesso tipo ed applicare il modello con ModelApplier vincenzo.delia@polito.it Archivi Multimediali e Data Mining - p. 21

Performance Posso interpretare quanto prodotto da ModelApplier con un operatore del gruppo Validation vincenzo.delia@polito.it Archivi Multimediali e Data Mining - p. 22

CrossValidation XValidation è un operatore che riceve un ExampleSet ed ha due figli. 1. divide opportunamente l ExampleSet in training e test (varie strategie disponibili) 2. costruisce un modello usando il primo figlio 3. passa il modello al secondo figlio Se le operazioni dei figli non sono effettuabili con un unico operatore posso usare OperatorChain. vincenzo.delia@polito.it Archivi Multimediali e Data Mining - p. 23

CrossValidation ClassificationPerformance mette a disposizione numerose misure vincenzo.delia@polito.it Archivi Multimediali e Data Mining - p. 24

Regole di associazione vincenzo.delia@polito.it Archivi Multimediali e Data Mining - p. 25

Dati Il dataset contiene informazioni informazioni sui clienti di una banca Sono noti per ogni cliente Età Sesso La zona in cui il cliente vive (inner city, rural, suburban, town) Stato civile Guadagni Numero di figli... vincenzo.delia@polito.it Archivi Multimediali e Data Mining - p. 26

Regole di associazione Per poter estrarre le regole è necessario preprocessare il file Discretizzare (è necessario che le variabili siano categoriche) Trasformare i dati con Nominal2Binominal vincenzo.delia@polito.it Archivi Multimediali e Data Mining - p. 27

Regole di associazione vincenzo.delia@polito.it Archivi Multimediali e Data Mining - p. 28