UNIVERSITÀ DEGLI STUDI GUGLIELMO MARCONI FACOLTÀ DI SCIENZE E TECNOLOGIE APPLICATE CORSO DI LAUREA MAGISTRALE IN INGEGNERIA INFORMATICA

Documenti analoghi
Realizzazione di un processo a supporto dell interoperabilità semantica nel Web

CREDIT VALUATION ADJUSTMENT: RILEVANZA, REGOLAMENTAZIONE ED IMPLEMENTAZIONE NUMERICA

Recupero di indirizzi bitcoin dal web

RETI SOCIALI: analisi e statistiche per profili sociali integrati

Un processo a supporto della classificazione di pagine client Anno Accademico 2006/2007

Progettazione Siti Web: Introduzione al corso

INNOVATION COMPANY. Learn Quickly & Think Well. A Jarvis - Assistente Virtuale Cerimonie Agile

POLITECNICO DI MILANO

Uno Strumento per la ricerca di campi Output e Etichetta in pagine Client

Università di Pisa Facoltà di Scienze Matematiche Fisiche e Naturali

SVILUPPO DI UN'APPLICAZIONE FACEBOOK PER LA GEO LOCALIZZAZIONE ED IL SUGGERIMENTO DI CONTENUTI

Università degli studi di Genova

I DSS e la gestione dei dati e della conoscenza. Prof. Luca Gnan

Un architettura orientata ai servizi per la localizzazione di dispositivi mobili

164LE - INFORMATICA PER LE DISCIPLINE UMANISTICHE. Anno Accademico 2016/2017 Tommaso Mazzoli

+ = EVAET. Azienda speciale

Proposte di stage per Laurea Triennale. Siav Talent Management

Report Corso INFORMATICA - Laurea Magistrale

Report Corso INFORMATICA - Laurea Magistrale

ESEMPI DI PIANO DI STUDI PER STUDENTI A TEMPO PARZIALE

Analisi e comparazione dei Framework OpenSwing e Google Web Toolkit per lo sviluppo di interfacce utente con paradigma MVC.

In memoria di mio padre. A mia madre, a tutti gli amici. A tutti voi grazie.

Comunicazione Digitale

AOT Lab Dipartimento di Ingegneria dell Informazione Università degli Studi di Parma

Mappare l Odio. Cataldo Musto. Università degli Studi di Bari Aldo Moro SWAP Research Group

Dipartimento di Ingegneria e Architettura Laurea magistrale in ingegneria clinica

Architettura dei Sistemi Software: Introduzione al corso

Ricevimento: dopo la lezione (in aula) o su appuntamento (Sede Scientifica Pal. 1 Primo Piano)

Analisi comparativa dei motori conversazionali e sviluppo di soluzioni per la creazione semi-automatica di basi di conoscenza per chatbot

TESI DI LAUREA IN INFORMATICA

Università di Pisa Facoltà di Scienze Matematiche Fisiche e Naturali

Studio e implementazione di un Profilo SAML per Trait based Identity Management System nel Session Initiation Protocol

Informatica 3. Informatica 3. LEZIONE 21: Ricerca su liste e tecniche di hashing. Lezione 21 - Modulo 1. Introduzione (1) Introduzione (2) Ricerca:

Introduzione al corso

Sistemi ICT per il Business Networking

I CHATBOT: UN NUOVO STRUMENTO INTELLIGENTE DI SUPPORTO ALL INTERAZIONE UOMO-COMPUTER

Corso di Laurea Magistrale in Ingegneria Informatica

Corso di Laurea Specialistica in Ingegneria Informatica. Correlatore: Ing. Andrea Claudi

Redazione e Presentazione di Progetti Informatici

I database. Introduzione alla teoria delle basi di dati

OBIETTIVI. Conoscere i concetti di base dell Informatica. Conoscere i principi e gli strumenti di base della programmazione

Un agente intelligente per la ricerca di sorgenti informative in Internet

Corso di Laurea in Informatica

Ricevimento: dopo la lezione (in aula) o su appuntamento (Sede Scientifica Pal. 1 Primo Piano)

Area. Servizi per la didattica e Segreterie Studenti. Versione Data Modifiche. CSI Manuale_Segrepass_backoffice.docx pag. 1

Realizzazione di un software a supporto della Classificazione guidata di Pagine Web

Analisi energetica e ambientale del processo di produzione di olio vegetale UNIVERSITÀ DI PISA FACOLTÀ DI INGEGNERIA

CORSO DI WEB MINING E RETRIEVAL - INTRODUZIONE AL CORSO -

Reti Informatiche Edizione N

Fondamenti di Informatica L-A. Esercitazione 6

Indice CAPITOLO PRIMO. Diritto e nuove tecnologie nella società dell informazione

UNIVERSITÀ DEGLI STUDI DI NAPOLI FEDERICO II

Università degli Studi di Sassari LIVE STREAMING PER I DISPOSITIVI MOBILI

10/12/2015.

Allegato 7 - ILLUSTRAZIONE GRAFICA DEGLI INTERVALLI DI CONFIDENZA (95%)

Le tecniche di comunicazione nell epoca dei social network: un applicazione al settore automotive

POLITECNICO DI MILANO SCUOLA DI ARCHITETTURA URBANISTICA INGEGNERIA DELLE COSTRUZIONI

Strumento e tecnica a supporto del crash testing automatico di applicazioni mobili basato sul sistema operativo Android Anno Accademico 2010/2011

Monitoraggio di un impianto di depurazione in scala pilota finalizzato alla gestione automatizzata di impianti a flusso continuo

UNIVERSITÀ DI PISA. Facoltà di Ingegneria Corso di laurea in Ingegneria Meccanica Tesi di laurea. TITOLO della TESI. Candidato Massimiliano Mannozzi

Informatica 3. LEZIONE 1: Introduzione. Modulo 1: Introduzione al corso Modulo 2: Introduzione ai linguaggi di programmazione

Corso di Laurea in Informatica

italianasoftware nasce ed opera per innovare e rivoluzionare il mondo dell'it portandolo verso soluzioni distribuite a microservizi.

Linee di programmazione

Corso di Web Mining e Retrieval. - Introduzione al Corso -

Università degli Studi di Napoli Federico II

Modelli di recupero. Modello di recupero booleano

Corso di Laurea Magistrale in Ingegneria per l Ambiente e il Territorio

Tecnologie, strumenti e processi alle informazioni e l estrazione della conoscenza

JSON for Linked Data JSON-LD

Rapporto tecnico Nuovo Portale CNR

Tesi di Laurea Triennale in Ingegneria Informatica REALIZZAZIONE DI UN APPLICATIVO PER LA GESTIONE DI FOGLI DI LAVORO INTEGRATO IN OUTLOOK 2010

Università degli Studi del Piemonte Orientale Amedeo Avogadro Corso di Studio in INFORMATICA D.M. 22/10/2004, n. 270 Anno accademico 2017/2018

Il Sistema Integrato dei Istat

Testing black box di web service: sperimentazione su di un servizio senza stato

Informatica 3. Informatica 3. Lezione 1- Modulo 1. LEZIONE 1: Introduzione. Concetti di linguaggi di programmazione. Introduzione

Concorso Regionale sulla Ricerca Infermieristica Maria Pia Armati per l attribuzione di n. 1 Borsa di Studio di 1.500,00 1 Edizione anno 2017

PUBBLICAZIONE WEB 2015 COAUTORE

La ricerca infermieristica, uno strumento per migliorare la qualità dell assistenza

Studio di tecniche per la rivelazione di traiettorie di veicoli in movimento in sequenze video

TOR VERGATA TESI DI LAUREA SPECIALISTICA ALGORITMI DI LOCALIZZAZIONE PER SISTEMI DI MULTILATERAZIONE CON ESTENSIONE ALL AMBITO WAM

Metodi e Tecniche per il Riuso di componenti in Applicazioni Android

PIANO DI STUDI A.A. 2010/2011 CURRICULUM GENERALE I ANNO

ANALISI COMPARATIVA DEGLI STRUMENTI DI BUSINESS INTELLIGENCE PER PMI

Basi di Dati. Prof. Alfredo Cuzzocrea Università degli Studi di Trieste. Basi di Dati e Web. Credits to: Prof. M. Di Felice UniBO

Realizzazione di un software per la gestione di apparecchiature biomedicali Anno Accademico 2010/2011

IT Management and Governance

Coordinamento regionale degli Ordini delle Professioni Infermieristiche dell Umbria

Università degli Studi di Napoli Federico II Dipartimento di Ingegneria Elettrica e Tecnologie dell Informazione Corso di Laurea in Informatica

UNIVERSITÀ DEGLI STUDI DI NAPOLI FEDERICO II

CATALDO MUSTO. Social Network & Hate Speech: la mappa italiana dell intolleranza

Prof. Pagani corrado SISTEMI INFORMATIVI E DATABASE

Tesi di Laurea: Uno strumento per l estrazione di sessioni utente per applicazioni web JavaScript-based Anno Accademico: 2005/2006

Testing di applicazioni flex: uso dello strumento FlexUnit

Ipotesi sull'applicazione del modello relazionale a corpora linguistici

UML I diagrammi implementativi

Transcript:

UNIVERSITÀ DEGLI STUDI GUGLIELMO MARCONI FACOLTÀ DI SCIENZE E TECNOLOGIE APPLICATE CORSO DI LAUREA MAGISTRALE IN INGEGNERIA INFORMATICA Estrazione di informazione strutturata dai Big Data guidata da un ontologia di riferimento Relatore Prof.ssa Maria Teresa Pazienza Candidato Francesco Pagliarulo Matricola: STA07117/LM32 ANNO ACCADEMICO 2017/2018

INTRODUZIONE... 1. LA SEMANTICA DEI BIG DATA... 1.1 Introduzione... 1.2 Big Data e Web Semantico... 2. TECNOLOGIE PER L ACQUISIZIONE DEI DATI... 2.1 Introduzione... 2.2 Facebook API... 2.3 Web Scraping... 3. PROPOSTA E METODOLOGIE DI UNA SOLUZIONE 3.1 Ambito del progetto... 3.2 Problematiche riscontrate... 3.3 Soluzioni adottate... 4. TECNOLOGIE E FRAMEWORK UTILIZZATI... 4.1 Node JS... 4.2 Apache UIMA... 5. IMPLEMENTAZIONE DI UNA SOLUZIONE... 5.1 Introduzione... 5.2 Generazione ontologia di riferimento... 5.3 Script di ricerca profili... 5.4 Script di Web Scraping...

5.5 Web Scraping per recupero lista amici... 5.6 L annotatore UIMA... 5.7 L algoritmo di Profile Matching... 6. TEST CON UN CASO REALE... 6.1 Ontologia di partenza... 6.2 Recupero informazioni profili... 6.3 Annotazione informazioni e valutazioni profili... 7. CONCLUSIONI E SVILUPPI FUTURI... 8. RINGRAZIAMENTI... 9. BIBLIOGRAFIA...

Abstract Il contesto in cui si inserisce il progetto di tesi è l estrazione di informazione strutturata dai Big Data. Per Big Data si intende l analisi di quantità incredibilmente grandi di informazioni che si presentano in varie forme. Richiedono tecnologie e metodi analitici specifici che possono portare all estrazione di valori di interesse. Nello specifico del progetto, l estrazione di informazione dai Big Data sarà guidata da un ontologia di riferimento. Si procederà ad individuare ed estrarre informazioni provenienti da un social network (Facebook) ed appartenenti ad un gruppo di soggetti target inclusi come istanze dell ontologia di riferimento. I soggetti target sono nel nostro caso profili ricavati da record aziendali che hanno come caratteristiche (Nome, Cognome, Ruolo in azienda, Luogo di residenza e di lavoro). L ontologia di riferimento metterà a disposizione una serie di questi profili da cui partire. L estrazione di queste informazioni viene svolta da due sottosistemi sviluppati utilizzando Node.js (un runtime javascript basato su eventi asincroni). Uno consiste in uno script di ricerca, che attraverso le api graph di Facebook, cerca i profili degli utenti a partire da Nome e Cognome del profilo target ricavati dall ontologia di riferimento. Il secondo è costituito da un crawler che si occupa di analizzare le pagine Facebook dei profili trovati e di estrarre da queste, tutte le informazioni pubbliche degli utenti, inclusi la lista di amici dell utente stesso. Queste informazioni vengono poi salvate in un unico file per ogni profilo target dell ontologia di riferimento. La parte centrale del progetto è la realizzazione di un annotatore UIMA. UIMA, Unstructured Information

Management Architecture, comprende sistemi software in grado di analizzare grandi volumi di informazioni non strutturate al fine di scoprire le conoscenze rilevanti per un utente finale. Nel nostro caso, partendo dall antologia descritta in precedenza, l annotatore sarà in grado di registrare ulteriori informazioni provenienti dai profili individuati nel social network di riferimento. In particolare l annotatore analizzerà tutti i documenti estratti dal crawler ed annoterà le informazioni di interesse. Le problematiche affrontate sono legate: ai possibili casi di omonimia (più profili appartenenti a soggetti diversi potrebbero appartenere ad uno dei profili target), alla mancanza di informazioni (profili con informazioni di base insufficienti), alla presenza di informazioni errate o non aggiornate. Le annotazioni oltre ad individuare le informazioni di interesse indicheranno anche il livello di confidenza con il quale possiamo ritenere un profilo collegato ad un soggetto target. Tra le annotazioni sarà quindi presente una che indica il livello di confidenza (un valore compreso tra [0,1]) con il quale si ritiene che il profilo trovato possa realmente appartenere al soggetto cercato. Tale livello di confidenza è calcolato da un algoritmo a partire dalle annotazioni dei profili ricevuti e quindi dalle features (proprietà) di tali annotazioni. Per il calcolo del livello di confidenza, verranno forniti all algoritmo le ontologie di riferimento da confrontare con le annotazioni estratte dall annotatore UIMA, a partire da questi l algoritmo confronta le features estratte dall annotatore con quelle presenti nell ontologia di riferimento. Considerando un peso diverso per ogni feature, in base all importanza che la feature possa avere nel

determinare l appartenenza di un profilo estratto al profilo target (ad esempio una corrispondenza della feature luogo di lavoro potrebbe avere un peso maggiore e quindi prevalere sulla feature luogo di residenza ), l algoritmo, calcola il livello di confidenza dell annotazione con il profilo dell antologia di riferimento. Infine l applicazione restituisce come risultato per ogni utente dell ontologia di riferimento una lista di profili Facebook che più si avvicinano a quello del profilo target, ordinati in base al livello di confidenza più alto riscontrato.

Bibliografia A. REZZANI, Big data. Architettura, tecnologie e metodi per l'utilizzo di grandi basi di dati, Apogeo Education, 1 edizione (20 novembre 2013), pp. 19-24, pp. 42-43, pp. 61-64 K. JANOWICZ, F.VANHARMELEN, J. A. HENDLER, P. HITZLER, Why the Data TrainNeedsSemanticRails, SPRING 2015, pp. 5-13 D. PEZZATINI, Introduzione a Node.js, Server Side Programming / MMM 2012 W3C OWL Working Group, OWL 2 Web Ontology Language DocumentOverview (Seconda edizione), W3C dell'11 dicembre 2012 ALGARNI, ABDULLAH, XU, YUE & CHAN, Susceptibility to social networking sites: The case of Facebook, December 2015 Olga Peled, Michael Fire, Lior Rokach, and Yuval Elovici, Matching Entities Across Online Social Networks, Novembre 2014.