Valutazione di tecniche di Machine Learning per l Entity Resolution

Documenti analoghi
Ibridazione di Machine Learning e Semantica per la Named-Entity Recognition

I CHATBOT: UN NUOVO STRUMENTO INTELLIGENTE DI SUPPORTO ALL INTERAZIONE UOMO-COMPUTER

Analisi comparativa dei motori conversazionali e sviluppo di soluzioni per la creazione semi-automatica di basi di conoscenza per chatbot

DataBase Management System - DBMS

Ranking Conferenze: Relazione GdL GII-GRIN

Fisica sperimentale delle collisioni di protoni. Davide Valsecchi PhD Milano-Bicocca

ANALISI COMPARATIVA DEGLI STRUMENTI DI BUSINESS INTELLIGENCE PER PMI

Corso di Laurea Specialistica in Ingegneria Informatica

Basi di dati e Relazioni

Valutazione delle Prestazioni di un Classificatore. Performance Evaluation

Classificazione Mario Guarracino Data Mining a.a. 2010/2011

Strutture fisiche e strutture di accesso ai dati

Introduzione. Il Modello Relazionale. Relazioni e Tabelle. Relazioni Matematiche - 1. Relazioni Matematiche - 2. Relazioni Matematiche - 3

Corso di Informatica

La progettazione concettuale

Data Mining and Machine Learning Lab. Lezione 8 Master in Data Science for Economics, Business and Finance 2018

Il modello relazionale. A. Ferrari

PROCEDURA SELETTIVA PER LA CHIAMATA DI UN PROFESSORE DI SECONDA FASCIA PER IL SETTORE CONCORSUALE 09/H1 SETTORE SCIENTIFICO DISCIPLINARE ING-INF/05

Analisi dei segnali audio basata su Deep Learning per applicazione di sicurezza

Database. Cos è un database? Intro Tipi di entità Mapping ER/EER à Relazionale

Elena baralis 2007 Politecnico di Torino 1

SISTEMI INFORMATIVI TERRITORIALI DATABASES -LEZIONE 3

Basi di dati e Relazioni

RELAZIONI E BASI DI DATI

Biblioteche Digitali. Pasquale Savino ISTI - CNR

Basi di Dati e Sistemi Informativi. Raffinamento dello schema e Normalizzazione nei database relazionali

Stima della qualità dei classificatori per l analisi dei dati biomolecolari

Introduzione al Machine Learning

Progettazione di un Sistema di Machine Learning

Modello relazionale e algebra relazionale

A. Ferrari modello relazionale

Classificazione e Segmentazione di Gesture per la Human Computer Interaction

Data Journalism. Analisi dei dati. Angelica Lo Duca

SFIDA 4.0 DIGITAL INNOVATION HUB

Prodotti costosi, complessi, che richiedono investimenti in hardware, software, personale.

Modello Entità-Relazione (E-R)

Riconoscimento e recupero dell informazione per bioinformatica

Tecniche di Apprendimento Automatico in Applicazioni Bio-Mediche

Tecnologie informatiche multimediali

Feature Selection per la Classificazione

GIS E ATTIVITA ESTRATTIVA IN PIANURA

SVILUPPO DI UN'APPLICAZIONE FACEBOOK PER LA GEO LOCALIZZAZIONE ED IL SUGGERIMENTO DI CONTENUTI

Il modello logico dei dati

Elena Baralis 2007 Politecnico di Torino 1

Fabrizio Renzi Direttore tecnologie & innovazione IBM Italia Evento Federmanager Bologna 6/6/2017

Le aree dell informatica

Corso di Informatica

Visione Industria Storia Applicazioni Prospettive

Introduzione Concetti Generali Pratica su Access Link utili. ECDL - Database. European Computer Driving Licence - Modulo 5 - Database LEZIONE 1

Università degli Studi di Bergamo Intelligenza Artificiale (Codice: 38066) Secondo Parziale - 11 Giugno 2018

Bookmarks in Medical Education:

Basi di dati (Sistemi Informativi)

Elena baralis 2007 Politecnico di Torino 1

BASE DI DATI. (accezione specifica) collezione di dati gestita da un DBMS. Università degli Studi di Cassino

Fondamenti di Informatica

DATA ENGINEERING PROGRAM

SISTEMA DI REGOLAZIONE INTELLIGENTE PER GLI IMPIANTI DI POTABILIZZAZIONE Il ruolo dell Università di Cagliari.

Relazione progetto Fondamenti di Analisi dati e Laboratorio

QUANTUM COMPUTER: THE FUTURE OF ENGINEERING

SQL. Lezione 1. Docente: Alberto Belussi

Corso di Informatica

UML Introduzione a UML Linguaggio di Modellazione Unificato. Corso di Ingegneria del Software Anno Accademico 2012/13

Laboratorio di Basi di Dati

Classificazione Mario Guarracino Laboratorio di Sistemi Informativi Aziendali a.a. 2006/2007

Librerie digitali. Cos è una libreria digitale? Introduzione. Cos è una libreria digitale? Cos è una libreria digitale? Cos è una libreria digitale?

record a struttura fissa

Sistemi e Architetture per Big Data - A.A. 2017/18 Progetto 2: Analisi del dataset ACM DEBS Grand Challenge 2016 con Storm/Flink

I Componenti del processo decisionale 7

BASE DI DATI. collezione di dati, utilizzati per rappresentare le. (accezione specifica) collezione di dati gestita da un DBMS. (accezione generica)

Capitolo 9. Esercizio 9.1. Esercizio 9.2

Il modello concettuale dei dati

Fondamenti di Informatica

AML EXPO. AI a supporto dell AML 30 MAGGIO Pieralberto Nati CEO AML EXPO COPYRIGHT ALL RIGHT RESERVED

Accesso alla base di dati. Linguaggi per basi di dati. SQL immerso in linguaggio ad alto livello. SQL, un linguaggio interattivo

Catia Trubiani. Laboratorio di Ingegneria del Software a.a

Computazione per l interazione naturale: classificazione probabilistica

Confronto tra due algoritmi di machine learning, Random Forest e Support Vector Machine, applicati al telerilevamento da drone

METODOLOGIA PER L IDENTIFICAZIONE DI

Intelligenza Artificiale sotto Attacco: la Nuova Frontiera del Malware

e applicazioni al dominio del Contact Management Andrea Brunello Università degli Studi di Udine

e applicazioni al dominio del Contact Management Andrea Brunello Università degli Studi di Udine

Introduzione al Calcolo Scientifico

COMPETENZE E FORMAZIONE PER UN'INDUSTRIA 4.0 SOCIALMENTE SOSTENIBILE

IL MODELLO RELAZIONALE. Patrizio Dazzi a.a

(spazio per i docenti)

Basi di dati Basi di dati per bioinformatica

PRINCIPI DI INFORMATICA CORSO DI LAUREA IN SCIENZE BIOLOGICHE

Ingegneria della Conoscenza e Sistemi Esperti Lezione 1: Apprendimento Automatico

Progettazione di un Sistema di Machine Learning

Fondamenti di Teoria delle Basi di Dati

Instanze inconsistenti. Informatica II Basi di Dati (07/08) Parte 2. Instanze inconsistenti. Vincoli di integrità

Il modello Relazionale.

Riconoscimento automatico di oggetti (Pattern Recognition)

UNIVERSITÀ DEGLI STUDI GUGLIELMO MARCONI FACOLTÀ DI SCIENZE E TECNOLOGIE APPLICATE CORSO DI LAUREA MAGISTRALE IN INGEGNERIA INFORMATICA

1.2d: La codifica Digitale dei caratteri

Misura delle prestazioni dei processi aziendali con sistemi di integrazione dati open source

Modello logico dei dati utilizzato nell ambito delle basi di dati, introdotto da Codd nel 1970.

Transcript:

Università degli studi di Modena e Reggio Emilia Dipartimento di Ingegneria Enzo Ferrari Corso di studi in Ingegneria Informatica Valutazione di tecniche di Machine Learning per l Entity Resolution Relatore: Sonia Bergamaschi Candidato: Stefano Gavioli Anno Accademico 2017/2018

Outline Entity Resolution Algoritmi di Machine Learning Test 2

Entity Resolution Davide Rossi Gavioli S. Sofia Rossi D R Sofia Attività che identifica due istanze di dati facenti riferimento alla stessa entità reale r. mario Gavioli Dati strutturati Rossi D. Mario Rossi S. Gavioli Stefano Gavioli R M Sofia Russo Rossi M. Rossi Davide SR 3

Machine Learning Un programma è detto che impara da dell esperienza E rispetto ad una qualche classe di attività T e misure di performance P, se la performance nelle attività T, in relazione alle misurazioni rispetto a P, migliora con l esperienza E Possiamo far imparare ad una macchina il concetto di similarità tra record Attività T: Identificare coppie di record associate alla stessa entità reale Esperienza E: Coppie già identificate (supervised learning) Misure P: Precision Recall F 1 score 4

DeepER formula Esempio I valori degli attributi dei record sono composti da un numero j di parole variabile da attributo ad attributo. Campanile 624 s. la brea ave. los angeles american Composizione: Media LSTM? composizione Campanile 624 s. la brea ave. los angeles californian 5

Media tupla1 A1 A2 A3 A4 Rappresentazione numerica di un valore di attributo di una tupla data dalla media delle rappresentazioni numeriche delle parole che lo compongono. Similarità, attribute wise: Cosine Similarity tupla2 B1 B2 B3 B4 CS1 CS2 CS3 CS4 6

Word embedding Come rappresentare una parola numericamente (vettorialmente) Dizionario GloVe 7

LSTM Rappresentazione numerica di una coppia di tuple data dal prodotto elemento per elemento del risultato di una rete ricorrente sul concatenamento dei valori degli attributi. Similarità, tuple wise tupla1 A1 A2 A3 A4 LSTM o Bi-LSTM dot product tupla2 B1 B2 B3 B4 8

SVM Classificatore rappresentazione di coppia Support Vector Machine Classifier Rete neurale ANN 9

Datasets Fodor s Zagat, DBLP ACM, Amazon Google Descrizione Test 10

Fodor s Zagat Insiemi di ristoranti 4 attributi: Nome Indirizzo Città Tipo Nome Indirizzo Città Tipo arnie morton s of chicago 435 s. la ciniega blv. los angeles american lespinasse 2 e. 55th st. new york american lespinasse (new york city) 2 e. 55th st. new york city asian gianni s 5 fulton st. new york seafood Dimensione del dataset: 2928 coppie 11

DBLP ACM Insiemi di riferimenti bibliografici Titolo The WASA2 object-oriented workflow management system DOMINO: databases for MovINg Objects tracking DOMINO: databases for MovINg Objects tracking 4 attributi: Titolo Autore Origine Anno Dimensione del dataset: 21402 coppie Autore Origine Gottfried VOssen, Mathias Weske International Conference on Management of Data Ouri Wolfson, Prasad Sistla, Bo Xu, Jutai Zhou, Sam Chamberlain International Conference on Management of Data utai Zhou, Ouri Wolfson, Sam Chamberlain, A.Prasad Sistla, Bo Xu SIGMOD Conference Anno 1999 1999 1999 12

Amazon Google Insiemi di prodotti tratti dai relativi siti di e-commerce 4 attributi: Titolo Descrizione Produttore Prezzo Dimensione del dataset: 17667 coppie Titolo Descrizione acad upgrade dragon naturallyspeaking pro solution 9.0 (a289afd7-9.0) -marketing information: dragon naturallys corel wordperfect edius pro 4 whether you are working broadcast at any time. Produttore nuance academic canopus/grass valley Prezzo 399.54 585.99 13

Risultati 14

F 1 score 15

Tempo di addestramento 16

Riduzione dell insieme di training Può essere interessante valutare gli algoritmi con meno esempi. Il training set utilizza il 17% delle tuple che aveva precedentemente disponibili. 17

F 1 score 18

Conclusioni Composizione: Classificatore: Media Rete Neurale Miglior F1 score Algoritmo ottimo Algoritmo più veloce, meno efficiente Composizione: Classificatore: Media SVM Più veloce, leggermente meno efficiente 19

Grazie per l attenzione