Tecniche di Clustering basate sul Machine Learning



Похожие документы
Tecniche di Clustering basate sul Machine Learning

CLUSTERING CON MODELLI SOM DINAMICI F. ESPOSITO

Tecniche di riconoscimento statistico

Sistemi Informativi Aziendali. Sistemi Informativi Aziendali

Data mining. Vincenzo D Elia. vincenzo.delia@polito.it. DBDMG - Politecnico di Torino

Università di Pisa A.A

Strumenti e metodi per la redazione della carta del pericolo da fenomeni torrentizi

Analisi dei requisiti e casi d uso

IL COMPONENTE DATA MINING MODEL DEL PROGETTO

FACOLTÀ DI INGEGNERIA CORSO DI LAUREA IN INGEGNERIA INFORMATICA DIPARTIMENTO DI INFORMATICA E SISTEMISTICA. Presentazione

Algoritmi di clustering

Esperienze di Apprendimento Automatico per il corso di Intelligenza Artificiale

Sistemi Informativi Territoriali. Paolo Mogorovich

POLITECNICO DI BARI RICONOSCIMENTO DI VOLTI MEDIANTE H.M.M. SUPPORTATO DA RETI NEURALI

Pro e contro delle RNA

Annotazione automatica di immagini con sistemi desktop grid

L elearning nell Accordo Stato Regioni per la formazione dei lavoratori (21 dicembre 2011) RUO FSRU Formazione Tecnico-Specialistica e Finanziata

Un applicazione client per la localizzazione via Bluetooth e Wi-Fi di dispositivi Smartphone Anno Accademico 2005/2006

Clustering. Utilizziamo per la realizzazione dell'esempio due tipologie di software:

Riconoscimento di cifre manoscritte tramite una rete neurale

Corso di Web Mining e Retrieval

Distributed P2P Data Mining. Autore: Elia Gaglio (matricola n ) Corso di Sistemi Distribuiti Prof.ssa Simonetta Balsamo

MArine Coastal Information SysTEm

Ricerca di outlier. Ricerca di Anomalie/Outlier

UNIVERSITÀ DEGLI STUDI DI NAPOLI FEDERICO II

MACHINE LEARNING E STRUMENTI ANTICRIMINE NELL ERA DEI BIG DATA. Gaetano Bruno Ronsivalle

Il Test d ingresso per la Facoltà à di Scienze. PISA 3 dicembre 2008

Informatica 3. Informatica 3. LEZIONE 10: Introduzione agli algoritmi e alle strutture dati. Lezione 10 - Modulo 1. Importanza delle strutture dati

Creare diagrammi di Gantt con Visio 2003

Rapporto tecnico sulle tipologie di agenti software definiti e implementati nell ambito del progetto

Alberto Belussi, Mauro Negri e Giuseppe Pelagatti. Politecnico di Milano spatialdbgroup@polimi.it

GIS & TELERILEVAMENTO

Sistemi Informativi Territoriali. Map Algebra

Data mining: classificazione DataBase and Data Mining Group of Politecnico di Torino

Trasmissione di dati al di fuori di un area locale avviene tramite la commutazione

Regressione non lineare con un modello neurale feedforward

Corso integrato di informatica, statistica e analisi dei dati sperimentali Altri esercizi_esercitazione V

SISTEMA DI MONITORAGGIO AMBIENTALE TRAMITE WSN

NORME PER L AMMISSIONE

Corrispondenza tra gli insegnamenti: ORDINAMENTO (DM 509) NUOVO ORDINAMENTO (DM 270)

Internet of Things, Big Data e Intelligenza Artificiale.

Università di Roma Tor Vergata Corso di Laurea triennale in Informatica Sistemi operativi e reti A.A Pietro Frasca. Parte II Lezione 5

Implementazione su web del sistema WIND-GIS

Parte I. Prima Parte

Analisi dei dati MLPA con il nuovo Coffalyser.NET. MRC-Holland

SUITE BY Pannello Misure BY11250

Realizzazione di un prototipo di un software web based per la gestione di un inventario comunale

UNIVERSITA DEGLI STUDI DI NAPOLI FEDERICO II

SQL Server. Applicazioni principali

Università per Stranieri Siena

UN SUPPORTO AUTOMATICO PER LA RACCOLTA E L ANALISI DI DATI SPERIMENTALI DI UN MIDDLEWARE PER LA DISTRIBUZIONE DI DATI

SVG Editor. Istituto Italiano Edizioni Atlas 1

Disciplina: SISTEMI AUTOMATICI. Classi: III AES PROF. IANNETTA SIMONE PROF. SAPORITO ETTORE. Ore settimanali previste: 4

AREA FORMAZIONE PROGRAMMAZIONE E SVILUPPO RELAZIONE VALUTAZIONE DI FINE CORSO QUESTIONARI DI GRADIMENTO CORSI DI INFORMATICA 2004.

Fogli elettronici Ferro Alluminio Piombo Oro

Page 1. Evoluzione. Intelligenza Artificiale. Algoritmi Genetici. Evoluzione. Evoluzione: nomenclatura. Corrispondenze natura-calcolo

Progetto e Ottimizzazione di Reti 1. Presentazione del Corso

NORME PER L AMMISSIONE

Istituto Tecnico Commerciale Statale e per Geometri E. Fermi Pontedera (Pi)

Data mining e rischi aziendali

Il Master in Didattica delle Scienze per Insegnanti di Scuola Primaria dell Università di Torino

Capitolo V : Il colore nelle immagini digitali

Metodi Computazionali

Excel. A cura di Luigi Labonia. luigi.lab@libero.it

Simulazione di scenario urbano con molteplici nodi mobili su OmNet++

Tecniche di riconoscimento statistico

Università telematica e-campus

Piani di input e piani di calcolo reale in FaTA-e

Gestione Tesi Online

Reti di calcolatori ed indirizzi IP

EUROPEAN COMPUTER DRIVING LICENCE / INTERNATIONAL COMPUTER DRIVING LICENCE Database Livello avanzato

Introduzione al Cloud Computing

GGC Programma per la trasformazione di coordinate

ISTITUTO ISTRUZIONE SUPERIORE "L. EINAUDI" - ALBA (CN) ANNO SCOLASTICO 2014/2015

Realizzazione di Web Service per l estrazione di informazioni da siti web enciclopedici

Realizzazione di un Tool per l iniezione automatica di difetti all interno di codice Javascript

Offerta Televisiva. Generalità

Tecnologie informatiche e multimediali A.A. 2012/ Elenco Obiettivi Prova scritta (STEP 1)

Collegio di Ingegneria Gestionale. Organizzazione tirocini laurea triennale

A intervalli regolari ogni router manda la sua tabella a tutti i vicini, e riceve quelle dei vicini.

40 Algoritmi sui Grafi

ITIS Mattei Sondrio. Appunti veloci su moodle versione 2.7

Транскрипт:

UNIVERSITÀ DEGLI STUDI DI NAPOLI FEDERICO II Scuola Politecnica e delle Scienze di base Area didattica Scienze Matematiche Fisiche e Naturali Corso di Laurea in Informatica Tecniche di Clustering basate sul Machine Learning Tesi sperimentale di Laurea Triennale Tutor Accademico Prof. Roberto Prevete Tutor Aziendale Dr. Massimo Brescia Candidato Francesco Esposito Matr. N86/24

Introduzione Estensione della suite DAMEWARE con modelli per clustering e riduzione dimensionalità Data Mining and Exploration Web Application REsources Applicazione web dedicata al data mining tramite tecniche di machine learning Clustering: raggruppamento di oggetti in base a criteri di similarità

Indice dei contenuti 1. Introduzione alle reti neurali: modello SOM 2. Evoluzioni del modello SOM Evolving SOM ed Evolving Tree Two-Stage Clustering 3. Tecnologie utilizzate 4. Introduzione ai test: indici di qualità Test 1: Iris (confronto con algoritmo di clustering standard: K-Means) Test 2: Chainlink Test 3: Target Test 4: M101 (immagine astronomica a banda singola) 5. Conclusioni

Introduzione alle reti neurali Rete neurale Neurone artificiale Neurone biologico Il modello Self Organizing Map Kohonen, T. (1990). The self-organizing map. Proceedings of IEEE, 78, 14641480 Vicinato BMU Strato di Kohonen Strato di Input Apprendimento secondo la regola Winner Takes Most:la gradazione di rosso indica il grado di apprendimento che diminuisce quanto più ci si allontana dal BMU

Evoluzione topologia SOM Evoluzione apprendimento Self Organizing Maps TWL Two Winners Linkage K-Means Umat-CC U-matrix a Componenti Connesse E-TREE Evolving Tree 2-stage Clustering E-SOM Evolving SOM

Il modello Evolving Tree (E-TREE) Pakkanen, J., 2003. The Evolving Tree, a new kind of self-organizing neural network. Workshop on Self-Organizing Maps La ricerca del BMU di un nodo avviene a partire dalla radice e scendendo verso i nodi foglia La vicinanza tra due nodi è definita dal numero di archi che separano due nodi. La distanza tra A e B è uguale a 5 Il modello Evolving SOM (E-SOM) Deng D., Kabasov N., 2003. On-line pattern analysis by evolving self-organizing maps. Neurocomputing 51, Elsevier, 87-103 Le componenti connesse rivelano i cluster presenti nel dataset

K-Means Hartigan, J. A., Wong, M. A., 1979. A K-means clustering algorithm. Applied Statistics, 28 Partizionamento dello spazio in input in K partizioni, assegnando ogni input al centroide più vicino Centroidi casuali Partizionamento Riposizionamento centroidi U-Matrix a componenti connesse (Umat-CC) Hamel L., Brown C.W., 2011. Proceedings of the 2011 International Conference on Data Mining Assegnazione di un nodo ad un cluster seguendo un percorso sulla mappa indicato dal nodo adiacente con gradiente più basso Sullo sfondo è presente la classica U-Matrix su scala di grigi. I colori sovrapposti indicano il riconoscimento automatico dei cluster Two Winners Linkage (TWL) Connessione dei due BMU di ogni pattern. I due nodi da connettere non devono essere nodi esterni sulla U-Matrix In verde è indicato un nodo esterno Non connettendo i nodi esterni si riescono ad individuare le diverse zone della mappa e a riconoscere eventuali outliers

Tecnologie utilizzate Software implementato da zero per rispettare i vincoli imposti dalla piattaforma DAMEWARE Librerie utilizzate: CFITSIO Utilizzata per la conversione delle immagini astronomiche dal formato FITS ad ASCII DevIL (Developers Image Library) Utilizzata per la conversione delle immagini dai formati JPEG, GIF e PNG in ASCII, nonché per la creazione delle immagini fornite come output STILTS(Starlink Table Infrastructure Library Tool Set) Utilizzata per la conversione di file tabulari dai formati csv, votable e file FITS contenenti tabelle ad ASCII e per la creazione di istogrammi da fornire come output

Indice dei contenuti 1. Introduzione alle reti neurali: modello SOM 2. Evoluzioni del modello SOM Evolving SOM ed Evolving Tree Two-Stage Clustering 3. Tecnologie utilizzate 4. Introduzione ai test: indici di qualità Test 1: Iris (confronto con algoritmo di clustering standard: K-Means) Test 2: Chainlink Test 3: Target Test 4: M101 (immagine astronomica a banda singola) 5. Conclusioni

Errore di quantizzazione Similarità degli input assegnati al medesimo BMU Indici di qualità Errore topografico Dissimilarità degli input assegnati a BMU differenti Indice di Davies-Bouldin Rapporto tra distanza intra-cluster ed inter-cluster Distanza intra-cluster Distanza inter-cluster Indice di accuratezza Rapporto tra cluster attesi ed individuati Indice di completezza Disgiunzione dei cluster

Indice dei contenuti 1. Introduzione alle reti neurali: modello SOM 2. Evoluzioni del modello SOM Evolving SOM ed Evolving Tree Two-Stage Clustering 3. Tecnologie utilizzate 4. Introduzione ai test: indici di qualità Test 1: Iris (confronto con algoritmo di clustering standard: K-Means) Test 2: Chainlink Test 3: Target Test 4: M101 (immagine astronomica a banda singola) 5. Conclusioni

IRIS Confronto tra K-Meansstandard e modelli di clustering proposti K-Means standard SOM + K-Means SOM + TWL SOM + Umat-CC E-SOM CLASSE trovati persi % Iris Setosa 50 0 100% Iris Virginica 48 2 96% Iris Versicolor 36 14 72% Percentuale associazione SOM + K-Means CLASSE trovati persi % Iris Setosa 50 0 100% Iris Virginica 45 5 90% Iris Versicolor 47 3 94% Percentuale associazione SOM + TWL

Indice dei contenuti 1. Introduzione alle reti neurali: modello SOM 2. Evoluzioni del modello SOM Evolving SOM ed Evolving Tree Two-Stage Clustering 3. Tecnologie utilizzate 4. Introduzione ai test: indici di qualità Test 1: Iris (confronto con algoritmo di clustering standard: K-Means) Test 2: Chainlink Test 3: Target Test 4: M101 (immagine astronomica a banda singola) 5. Conclusioni

Chainlink Confronto tra modelli di clustering proposti Dataset composto da due cluster con la caratteristica di essere non linearmente divisibili SOM + K-Means SOM + TWL SOM + Umat-CC E-SOM E-TREE CONFRONTO STATISTICO SU PRESTAZIONI DI CLUSTERING (Chainlink) MODELLO E-TREE SOM SOM+K-means SOM+UmatCC SOM+TWL E-SOM errore di quantizzazione - 0.05 0.05 0.05 0.05 0.12 errore topografico - 0.28 0.28 0.28 0.28 - indice di Davies-Bouldin - - 1.15 0.68 2.02 1.99 Accuratezza 0 0 0.69 0 0 Completezza 0 1 0 0 0

Target Confronto tra modelli di clustering proposti Dataset composto da cluster non linearmente divisibili e con quattro gruppi di outliers agli angoli dell immagine SOM + K-Means SOM + TWL SOM + Umat-CC E-SOM E-TREE CONFRONTO STATISTICO SU PRESTAZIONI DI CLUSTERING (Target) MODELLO E-TREE SOM SOM+K-means SOM+UmatCC SOM+TWL E-SOM errore di quantizzazione - 0.07 0.07 0.07 0.07 0.09 errore topografico - 0.07 0.07 0.07 0.07 - indice di Davies-Bouldin - - 0.86 0.72 12.51 12.09 Accuratezza 0 0 0.2 0 0.33 Completezza 0 1 0.48 0 0.34

M101 Immagine astronomica monocromatica di una Galassia a spirale SOM (Single Stage) SOM + K-Means(k = 6) SOM + Umat-CC SOM + TWL E-SOM CONFRONTO STATISTICO SU PRESTAZIONI DI CLUSTERING (Img M101) MODELLO SOM SOM+K-means SOM+UmatCC SOM+TWL E-SOM errore di quantizzazione 0.001 0.001 0.001 0.001 0.03 errore topografico 0.90 0.90 0.90 0.90 - indice di Davies-Bouldin - 0.53 6.41 0.55 0.60

Dimensione dello strato di output Outliers Dimensionalità dataset Dati linearmente non divisibili Dipendenza dai parametri input SOM + K-Means SOM + Umat-CC SOM + TWL E-SOM E-TREE Ininfluente Grande numero di nodi migliora i risultati Grande numero di nodi aumentala densità del clustering Conclusioni e sviluppi futuri Le diverse combinazioni di tecniche, nel clustering a due stadi, presentano caratteristiche tali da renderli adatti in diverse situazioni. Le evoluzioni incrementali del modello SOM possono essere usate in maniera ottimale sia per clustering che per classificazione Approfondimento del TWL, per migliorarne le prestazioni e la generalità d uso Grande numero di nodi aumentala densità del clustering Poco robusto Poco robusto Robusto Robusto (dipendente da parametri) Ininfluente Confronto prestazioni tra metodi poco adatto su dataset 1D ininfluente Robusto Ininfluente Ininfluente Ininfluente Inefficace Poco efficace Efficace Efficace Efficace Alta Media Media Alta Alta