WEKA Data Mining System

Dimensione: px

Iniziare la visualizzazioe della pagina:

Download "WEKA Data Mining System"

Camillo Pinna
4 anni fa
Visualizzazioni

1 Alma Mater Studiorum Università di Bologna WEKA Data Mining System Sistemi Informativi a supporto delle Decisioni LS - Prof. Marco Patella Presentazione di: Fabio Bertozzi, Giacomo Carli 1

2 WEKA: the bird Gallirallus australis (Sparrman, 1786) Uccello nativo della Nuova Zelanda Altezza: 50 cm Peso: 1 Kg Onnivoro In via di estinzione Maschio e femmina si occupano della prole Secondo una leggenda neozelandase rubano oggetti luccicanti e sacchi di zucchero 2

3 WEKA: Introduzione Software di machine learning e data mining Università di Waikato (Nuova Zelanda) Scritto in Java Licenza GNU Main features: Interfaccia grafica Set di tool per data pre-processing, Possibilità di utilizzare numerosi algoritmi di clustering, per alberi decisionali DT, di ricerca di regole associative AR Indici di valutazione sulla bontà dell algoritmo 3

4 WEKA: apertura del software

5 Database in bank Nome della relazione Lista degli attributi e loro age sex region income married {NO,YES} Attributo children car {NO,YES} Attributo save_act current_act mortgage pep {YES,NO} Area dati con enumerazione delle 40,MALE,TOWN, ,YES,3,YES,NO,YES,YES,NO 51,FEMALE,INNER_CITY, ,YES,0,YES,YES,YES,NO,NO 23,FEMALE,TOWN, ,YES,3,NO,NO,YES,NO,NO 57,FEMALE,RURAL, ,YES,0,NO,YES,NO,NO,NO 57,FEMALE,TOWN, ,YES,2,NO,YES,YES,NO,YES 22,MALE,RURAL, ,NO,0,NO,NO,YES,NO,YES 58,MALE,TOWN, ,YES,0,YES,YES,YES,NO,NO 37,FEMALE,SUBURBAN, ,YES,2,YES,NO,NO,NO,NO Ricerca di una soluzione che permetta di utilizzare fonti differenti Scelte: Formato file semplice e intelleggibile Struttura piatta del database Necessità di preprocessing dei dati 5

6 Explorer: pre-processing dei dati ARFF CSV Formati aperti C4.5 binary letti da un URL database SQL usando JDBC Conteggio tuple Presentazione dei dati all utente Distribuzione dei valori degli attributi Analisi cross-attributo Funzioni Pre-Processing: i tool di preprocessing di Weka sono chiamati Filters discretizzazione normalizzazione Selezione, trasformazione e combinazione degli attributi Rappresentazioni grafiche 6

7 7

8 8

9 9

10 10

11 Explorer: i classifiers Classifiers modelli per predire attributi numerici e nominali Esempio: Decision Trees Algoritmi tradizionali Metodo: User Classifier J48 è l implementazione di Weka dell algoritmo C4.5, creato da Ross Quinlan dell Università di Sydney. L algoritmo genera un decision tree. Metodo di selezione degli attributi in base all IG Possibilità di utilizzare un Training Set con dati mancanti Possibilità di utilizzare attributi con valori numerici continui Non c è necessità di discretizzare Ogni passo di split dell albero è svolto dall utente che seleziona un cluster tramite una rappresentazione bidimensionale dei dati Limiti: Buona conoscenza del dominio Struttura semplice dei dati, Cluster facilimente riconoscibili 11

12 12

13 13

14 14

15 15

16 16

17 17

18 18

19 19

20 20

21 21

22 22

23 23

24 24

25 25

26 26

27 27

28 28

29 Explorer: clustering data WEKA può eseguire numerosi algoritmi di clustering: k-means, Clustering basato sulla densità Visualizzazione dei cluster ottenuti con comparazione su vari attributi Possibilità di eseguire misure di bontà sui risultati degli algoritmi 29

30 Algoritmo Expectation Maximization Variante raffinata di K-means 30

31 31

32 32

33 Attributi selezionati 33

34 34

35 35

36 Età 36 Reddito

37 Explorer: ricerca di regole associative WEKA contiene un implementazione dell algoritmo Apriori nella scheda Associate : Lavora su dati discreti Identifica le relazioni tra attributi e gruppi di attributi Ricerca le regole che eccedono il supporto minimo e hanno confidenza superiore al valore prestabilito 37

38 38

39 39

40 40

41 41

42 42

43 Explorer: attribute selection Strumento utile per ricercare quali sono gli attributi (o subset di attributi) maggiormente predittivi Il metodo di selezione è articolato in due parti: Search method: best-first, forward selection, random, exhaustive, genetic algorithm, ranking Evaluation method: Correlazione Information gain Test chi-quadro Esempio semplice: Ordina gli attributi in base all IG Search method: ranking Evaluation Method: Information Gain WEKA consente combinazioni (abbastanza) libere dei metodi 43

44 44

45 45

46 46

47 47

48 Explorer: data visualization Semplice funzione che permette di analizzare in maniera visiva i dati WEKA visualizza singoli attributi in un grafico 1-D e coppie di attributi 2-D Limite: mancanza di visualizzazione 3-D che viene risolta introducendo in un grafico 2-D diversi colori Parametri di visualizzazione: I valori delle classi sono rappresentati con diversi colori L opzione Jitter permettere di visualizzare i punti nascosti per gli attributi nominali Funzioni di zoom, dimensionamento dei grafici e dei punti rappresentati 48

49 49

50 50

51 51

52 52

53 53

54 54

55 55

56 WEKA: Experimenter L Experimenter permette di comparare diversi modelli di apprendimento Adatto per problemi di regressione e classificazione I risultati possono essere trasveriti in un database Metodi di valutazione: Cross-validazione Curva di apprendimento I metodi di valutazione possono essere reiterati per diverse configurazioni dei parametri dei modelli di apprendimento 56

57 57

58 58

59 59

60 60

61 61

62 62

63 63

64 64

65 65

66 Analisi dei risultati Export dei risultati in: ARFF file CSV file (Comma Separated Values) JDBC database Importato in Excel Analisi statistica dei dati Scheda Analyse di WEKA : Matrice di analisi sui diversi run dataset analizzati modelli di apprendimento % di istanze classificate correttamente Notazioni: v: risultato statisticamente migliore rispetto allo schema base *: risultato statisticamente peggiore rispetto allo schema base Vettore (xx/yy/zz): indica su quanti dataset lo schema è stato migliore/equivalente/peggiore rispetto allo schema base 66

67 Analisi dei risultati: Cross Validazione Algoritmo 1. Il dataset è diviso in k subset. 2. Ogni subset è diviso in training set e test set 3. For i:=1 to k 1. Definisci una funzione che predice i dati 2. testa la funzione sui K-1 dataset precedenti come test set 3. Calcolo del Mean Absolute Error 4. Computa l errore medio su tutti i k subset Funzione con rumore Funzione senza rumore Vantaggio: utilizzando tanti subset, il metodo è poco influenzato da come sono suddivisi i dati. All aumentare di K si ottiene una maggiore precisione della previsione Svantaggio: l algoritmo deve iterare k volte per svolgere una valutazione 67

68 68

69 69

70 70

71 WEKA: Knowledge Flow Interfaccia grafica innovativa che rappresenta un flusso informativo Basato sulla piattaforma Java Beans DB sorgenti, classifiers, etc. sono beans e possono essere connessi graficamente I Layout ottenuti possono essere salvati Cambiando le impostazioni del datasource, si può eseguire lo stesso flusso su diversi dataset Esempio di un tipico flusso di dati: data source filter classifier evaluator 71

72 72

73 73

74 74

75 75

76 76

77 77

78 dopo alcuni passaggi 78

79 79

80 80

81 Classe di appartenenza Classe prevista 81

82 WEKA: the bird Grazie per l attenzione! 82

Documenti analoghi

WEKA. Ing. Antonio Brunetti Prof. Vitoantonio Bevilacqua

WEKA. Ing. Antonio Brunetti Prof. Vitoantonio Bevilacqua WEKA BIOINFORMATICS AND BIG DATA ANALYTICS Ing. Antonio Brunetti Prof. Vitoantonio Bevilacqua Indice Cosa è weka Tecnologie Hands On Weka Weka Explorer KnowledgeFlow /Simple CLI Caricare il dataset Il