Data mining Vincenzo D Elia vincenzo.delia@polito.it DBDMG - Politecnico di Torino vincenzo.delia@polito.it Archivi Multimediali e Data Mining - p. 1
Rapid Miner vincenzo.delia@polito.it Archivi Multimediali e Data Mining - p. 2
Rapid Miner Strumento Open Source per machine learning e data mining vincenzo.delia@polito.it Archivi Multimediali e Data Mining - p. 3
Modalità di utilizzo Tre modalità Interfaccia grafica per l utilizzo interattivo Descrizione del processo tramite XML Librerie jar Disponibile per qualunque ambiente offra una JVM vincenzo.delia@polito.it Archivi Multimediali e Data Mining - p. 4
Processo Rapid Miner si basa sul concetto di processo rappresentato graficamente da un albero di operatori vincenzo.delia@polito.it Archivi Multimediali e Data Mining - p. 5
Operatori Gli operatori sono i blocchi base del processo di data mining Ogni operatore viene configurato da parametri assegnati dall utente. Esso elabora quanto restituito dal nodo padre e passa il risultato della propria elaborazione al nodo successivo. Alcuni nodi (come OperatorChain) hanno più figli: lo scopo è raggruppare più operatori in un unico operatore. Per realizzare un processo di data mining, l utente deve comporre opportunamente gli operatori che sono offerti dal sistema vincenzo.delia@polito.it Archivi Multimediali e Data Mining - p. 6
Tipi di operatori Esistono operatori per Lettura/Scrittura Dati Modelli... Elaborazione dei dati Preprocessing Postprocessing Trasformazioni di formato... Costruzione di modelli Classificatori Clustering...... vincenzo.delia@polito.it Archivi Multimediali e Data Mining - p. 7
Tipi di operatori fondamentali vincenzo.delia@polito.it Archivi Multimediali e Data Mining - p. 8
Process È il nodo radice di ogni processo. Parametri: vincenzo.delia@polito.it Archivi Multimediali e Data Mining - p. 9
ExampleSet I dati sono oggetti di tipo ExampleSet. Esistono numerosi operatori per la lettura dei dataset, dato che RapidMiner supporta numerosi formati (arff, xls, csv...). Un dataset salvato nel formato di RapidMiner è composto da due file aml, ossia un file XML che descrive gli attributi ed i tipi dei dati contenuti nel dataset dat, ossia un file contenete una riga per ogni dato in cui ogni colonna è il valore di un attributo Un processo di data mining inizia solitamente con la lettura dei dati. vincenzo.delia@polito.it Archivi Multimediali e Data Mining - p. 10
Creazione dataset Spesso il proprio dataset non è una tabella di attributi ( ExampleSet). RapidMiner mette a disposizione vari plugin per costruire un ExampleSet automaticamente partendo da vari formati di dati (testi, musica... ) vincenzo.delia@polito.it Archivi Multimediali e Data Mining - p. 11
Attributi Due tipi di attributi speciali, cioè che sono considerati metadati del dato (ad es. etichetta di classe, identificatore) regolari, ossia in dati veri e propri Ogni attributo ha un tipo numeric, come intero o reale nominal, cioè un valore categorico binominal, cioè yes no... vincenzo.delia@polito.it Archivi Multimediali e Data Mining - p. 12
Preprocessing Un ExampleSet è essenzialmente una tabella. RapidMiner offre operatori per Manipolare i metadati, ossia rinominare attributi Rimuovere valori non assegnati Discretizzare Convertire tra tipi differenti Queste operazioni sono fondamentali per la corretta estrazione di conoscenza vincenzo.delia@polito.it Archivi Multimediali e Data Mining - p. 13
Algoritmi RapidMiner offre operatori per l esecuzione di numerosi algoritmi In generale questi operatori ricevono un ExampleSet e possono restituire ExampleSet con i dati in uscita Il modello costruito Entrambi i tipi di dati possono essere salvati su file per la lettura o l applicazione successiva vincenzo.delia@polito.it Archivi Multimediali e Data Mining - p. 14
Applicare un modello - ModelApplier Riceve: Modello ExampleSet Restituisce ExampleSet Applica un modello ai dati ottenuti come parametro. I dati restituiti dipendono dal modello applicato. vincenzo.delia@polito.it Archivi Multimediali e Data Mining - p. 15
Albero di decisione vincenzo.delia@polito.it Archivi Multimediali e Data Mining - p. 16
Iris Il dataset Iris contiene le caratteristiche di molti iris Per ogni fiore sono note 4 misure relative a petali e sepali. Ad ogni fiore è inoltre assegnata un etichetta di classe indicante la varietà cui appartiene. Nel dataset sono presenti 3 classi (virginica, setosa e versicolor) vincenzo.delia@polito.it Archivi Multimediali e Data Mining - p. 17
Albero di decisione, processo 1. Lettura dataset e costruizione ExampleSet 2. Costruzione dell albero di decisione vincenzo.delia@polito.it Archivi Multimediali e Data Mining - p. 18
Albero di decisione, modello vincenzo.delia@polito.it Archivi Multimediali e Data Mining - p. 19
Salvare il modello Posso aggiungere in cascata ModelWriter per salvare il modello vincenzo.delia@polito.it Archivi Multimediali e Data Mining - p. 20
Applicare il modello Posso leggere un altro dataset dello stesso tipo ed applicare il modello con ModelApplier vincenzo.delia@polito.it Archivi Multimediali e Data Mining - p. 21
Performance Posso interpretare quanto prodotto da ModelApplier con un operatore del gruppo Validation vincenzo.delia@polito.it Archivi Multimediali e Data Mining - p. 22
CrossValidation XValidation è un operatore che riceve un ExampleSet ed ha due figli. 1. divide opportunamente l ExampleSet in training e test (varie strategie disponibili) 2. costruisce un modello usando il primo figlio 3. passa il modello al secondo figlio Se le operazioni dei figli non sono effettuabili con un unico operatore posso usare OperatorChain. vincenzo.delia@polito.it Archivi Multimediali e Data Mining - p. 23
CrossValidation ClassificationPerformance mette a disposizione numerose misure vincenzo.delia@polito.it Archivi Multimediali e Data Mining - p. 24
Regole di associazione vincenzo.delia@polito.it Archivi Multimediali e Data Mining - p. 25
Dati Il dataset contiene informazioni informazioni sui clienti di una banca Sono noti per ogni cliente Età Sesso La zona in cui il cliente vive (inner city, rural, suburban, town) Stato civile Guadagni Numero di figli... vincenzo.delia@polito.it Archivi Multimediali e Data Mining - p. 26
Regole di associazione Per poter estrarre le regole è necessario preprocessare il file Discretizzare (è necessario che le variabili siano categoriche) Trasformare i dati con Nominal2Binominal vincenzo.delia@polito.it Archivi Multimediali e Data Mining - p. 27
Regole di associazione vincenzo.delia@polito.it Archivi Multimediali e Data Mining - p. 28