POLITECNICO DI MILANO



Documenti analoghi
Web Reputation. PMI & Web Marketing

Introduzione all Information Retrieval

Università Politecnica delle Marche. Progetto Didattico

COME SVILUPPARE UN EFFICACE PIANO DI INTERNET MARKETING

UTILIZZATORI A VALLE: COME RENDERE NOTI GLI USI AI FORNITORI

SCENARIO. Personas ALICE Lucchin / BENITO Condemi de Felice. All rights reserved.

Comunicazione Istituzionale e Social Media. Fare rete, ottenere visibilità e conoscere nuovi interlocutori grazie ai Social Media.

Guida Compilazione Piani di Studio on-line

Blog. Per un blog di successo: Sfrutta i Motori di Ricerca (MdR) e le Directory per ottenere visibilità e monitorare la blogosfera.

Indagini statistiche attraverso i social networks

Organizzazione degli archivi

Progetto ASTREA WP2: Sistema informativo per il monitoraggio del sistema giudiziario

Generazione Automatica di Asserzioni da Modelli di Specifica

COMUNE DI RAVENNA GUIDA ALLA VALUTAZIONE DELLE POSIZIONI (FAMIGLIE, FATTORI, LIVELLI)

Valutare gli esiti di una consultazione online

Librerie digitali. Video. Gestione di video. Caratteristiche dei video. Video. Metadati associati ai video. Metadati associati ai video

Alfa Layer S.r.l. Via Caboto, Torino ALFA PORTAL

SenTaClAus - Sentiment Tagging & Clustering Analysis on web & social contents

EXPLOit Content Management Data Base per documenti SGML/XML

GRUPPO MY- social media solutions / Via G.Dottori 94, Perugia / PI

La Metodologia adottata nel Corso

OSINT, acronimo di Open Source INTelligence, uno dei modi per acquisire dati utili per l intelligence:

ARTICOLO TECNICO Smart-MED-Parks: il Software

IN TV: la visibilità dei contenuti determina la loro bontà. IN RETE: la bontà dei contenuti determina la loro visibilità.

Modello OSMI: Online Social Media Influencers. Modello OSMI Online Social Media Influencers. Quaderno di caffebollenteintazzagrossa.

Light CRM. Documento Tecnico. Descrizione delle funzionalità del servizio

Basi di Dati Multimediali. Fabio Strocco

MANUALE DI UTILIZZO: INTRANET PROVINCIA DI POTENZA

MODULO 5 Appunti ACCESS - Basi di dati

marketing highlights Google Analytics A cura di: dott. Fabio Pinello

SOCIAL MEDIA MARKETING. pubblishock.it

Gli attributi di STUDENTE saranno: Matricola (chiave primaria), Cognome, Nome.

IL SISTEMA DI CONTROLLO INTERNO

Capitolo 5. Cercare informazioni sul Web

Abitantionline. Il social network per la casa e il costruito. Per chi è Cosa offre Lancio e partner. creato

Analisi dei requisiti e casi d uso

Esercitazione di Basi di Dati

Text mining ed analisi di dati codificati in linguaggio naturale. Analisi esplorative di dati testuali

Ecco come ho posizionato in 1 pagina di Google la keyword Strategie di marketing, da 1500 ricerche al mese

Metodologie Informatiche Applicate al Turismo

Scheda. Il CRM per la Gestione del Marketing. Accesso in tempo reale alle Informazioni di rilievo

Fare business sul web: 5 regole fondamentali per le PMI

Attività federale di marketing

Automazione Industriale (scheduling+mms) scheduling+mms.

. A primi passi con microsoft a.ccepss SommarIo: i S 1. aprire e chiudere microsoft access Start (o avvio) l i b tutti i pro- grammi

Analisi della Costruzione Partecipativa di un Wiki con un Applicazione a Wikipedia

L IT a supporto della condivisione della conoscenza

Software per Helpdesk

I motori di ricerca. Che cosa sono. Stefania Marrara Corso di Sistemi Informativi

MANUALE DELLA QUALITÀ Pag. 1 di 6

Mi chiamo Stefania Moretti e rappresento l Azienda AUDIO VIDEO ITALIANA, fondata nel 1972 da Vittorio Moretti.

Sistemi di misurazione e valutazione delle performance

Un Blog chiuso come strumento di comunicazione interna in un gruppo di lavoro

Knowledge Management

Nuova funzione di ricerca del sito WIKA.

Database. Si ringrazia Marco Bertini per le slides

lem logic enterprise manager

Modulo 1: Motori di ricerca

Area Marketing. Approfondimento

Comune di San Martino Buon Albergo

IL MARKETING E QUELLA FUNZIONE D IMPRESA CHE:

Per informazioni rivolgersi allo Studio:

Il servizio di registrazione contabile. che consente di azzerare i tempi di registrazione delle fatture e dei relativi movimenti contabili

DIFFERENZIARE LE CAMPAGNE DI MARKETING La scelta del canale adeguato

GIOCHI MATEMATICI PER LA SCUOLA SECONDARIA DI I GRADO ANNO SCOLASTICO

Report di valutazione studiolegalebraggio.it

La riforma del servizio di distribuzione del

Lezione 1. Introduzione e Modellazione Concettuale

CONTENT MANAGEMENT SYSTEM

HR - Sicurezza. Parma 17/12/2015

Women In Development UN MODELLO EUROPEO PER LO SVILUPPO LOCALE GENDER ORIENTED PIANO DI COMUNICAZIONE

ascoltare ispirare e motivare miglioramento problem solving Flex360 pianificare comunicare la vision organizzare

Come creare una pagina Facebook e collegarla al sito mosajco

A T I C _W E B G U I D A AL L A N A V I G A Z I O N E S U L S I T O D E L G R U P P O. Rev. 2.1

ONLINE REPUTATION GUIDE

ALLEGATO H VALUTAZIONE DELLA PERFORMANCE INDIVIDUALE DEI DIPENDENTI COMUNE DI CINISI Prov. Palermo

il software per la gestione del programma scientifico SEMTIFIC

GUIDA RAPIDA PER LA COMPILAZIONE DELLA SCHEDA CCNL GUIDA RAPIDA PER LA COMPILAZIONE DELLA SCHEDA CCNL

COME AVERE SUCCESSO SUL WEB?

PRESS, WEB, SOCIAL: l'ascolto multicanale per una comunicazione integrata

Audiovisivo 2.0: scenari e strumenti della rete

MY.SO: una panoramica

Come gestire i Social Network

Analisi e catalogazione automatica dei Curriculum Vitae

03. Il Modello Gestionale per Processi

Il glossario della Posta Elettronica Certificata (PEC) Diamo una definizione ai termini tecnici relativi al mondo della PEC.

SOLUZIONE Web.Orders online

lo PERSONALIZZARE LA FINESTRA DI WORD 2000

Programma Gestione Presenze Manuale autorizzatore. Versione /08/2010. Area Sistemi Informatici - Università di Pisa

Indice generale. OOA Analisi Orientata agli Oggetti. Introduzione. Analisi

Il Software che muove le tue Idee Web Reputation

IDENTIFICAZIONE DEI BISOGNI DEL CLIENTE

Ipertesti e Internet. Ipertesto. Ipertesto. Prof.ssa E. Gentile. a.a

Cercare informazioni sul Web

Rapporto dal Questionari Insegnanti

DEFINIZIONE. Ogni aggiornamento è generalmente inserito in ordine cronologico inverso.

Sommario. Definizione di informatica. Definizione di un calcolatore come esecutore. Gli algoritmi.

uadro Soluzioni software per L archiviazione elettronica dei documenti Gestione Aziendale Fa quadrato attorno alla tua azienda

CORSO ACCESS PARTE II. Esistono diversi tipi di aiuto forniti con Access, generalmente accessibili tramite la barra dei menu (?)

Transcript:

POLITECNICO DI MILANO FACOLTÀ DI INGEGNERIA DELL INFORMAZIONE Corso di Laurea Specialistica in Ingegneria Informatica METODOLOGIA PER L AGGIORNAMENTO CONTINUO DI UNA RETE SEMANTICA ORIENTATA ALLA SENTIMENT ANALYSIS NEI SOCIAL MEDIA Relatore: Chiar.ma Prof.ssa Chiara FRANCALANCI Correlatore: Dott. Ing. Donato BARBAGALLO Tesi di Laurea di: Daniele GARBUGLI Matr. 736154 Anno Accademico 2009-2010

Daniele Garbugli METODOLOGIA PER L AGGIORNAMENTO CONTINUO DI UNA RETE SEMANTICA ORIENTATA ALLA SENTIMENT ANALYSIS NEI SOCIAL MEDIA Tesi di laurea magistrale Milano, Marzo 2011 Relatore: Prof.ssa Chiara FRANCALANCI Correlatore: Dr. Donato BARBAGALLO i

Abstract Blogs, forums and social networks are by now a widespread reality in the Internet world. Tens of millions of users use these tools to express their opinions and feelings, producing huge volumes of non-structured textual data. These data represent a priceless source of value for anyone that would like to know the Web reputation for a brand of any type, from products to services, from cities to people. We need sophisticated applications of Natural Language Processing to be able to deduce useful information from the huge amount of raw data; one of them is Sentiment Analysis that recognizes positive or negative sentiment enclosed in a message written in natural language. Moreover, the identification of the sentiment polarity in a document has to be associated to the ability of understanding to which components and qualities of the subject we could assign the judgment expressed by the author. An effective analysis of Web reputation of a brand requires the tool of sentiment analysis to be able to understand users average judgment about the different features that describe the brand and that in the whole form an attractivity model. This thesis deals with the problem of outlining a methodology to define the attractivity model of a brand; we want the model to respect requirements of completeness and accuracy and to be always updated, consistent with its dynamism and the dynamism of the domain it belongs to. The identification of the brand's features requires both a deep knowledge of the domain by an expert and the automatic work performed by the tool which, starting from volume of speech, has to extract new brand's ii

Abstract features and suggest to the user their positioning in the model in order to enhance future analysis. These two tasks are peculiar also to another kind of analysis that is dealt with in this thesis, that is the topic trend detection; it consists of two steps: first of all the detection of words that have recently shown a burst, than the attempt at proposing to the user the interpretation of the argument which hides behind these words and the event that could have generate the burst. This research work aims also to define some tools that help the user to understand these kind of information. iii

Sommario Blog, forum e social network sono ormai da anni una realtà consolidata del mondo Internet. Decine di milioni di utenti utilizzano questi strumenti per esprimere le proprie opinioni e le proprie sensazioni, producendo imponenti volumi di dati testuali non strutturate. Questi dati rappresentano una fonte inestimabile di valore per chiunque voglia conoscere la reputazione online di un brand di qualunque natura, dai prodotti ai servizi, dalle città alle persone. Per riuscire a ricavare informazioni utili dall enorme mole di dati servono sofisticate applicazioni di Natural Language Processing: una su tette la Sentiment Analysis, che ha come obiettivo il riconoscimento della positività o negatività (sentiment) racchiusi in un messaggio scritto in linguaggio naturale. Il riconoscimento della polarità del sentiment in un documento deve inoltre essere accompagnato dalla capacità di comprendere a quale soggetto tale sentiment va attribuito. E ancora più interessante sarebbe riuscire a capire a quali componenti e qualità del soggetto si può attribuire il giudizio espresso dall autore. Un efficace analisi della Web reputation di un brand richiede che il tool di sentiment analysis riesca a comprendere il giudizio medio degli utenti sulle varie caratteristiche che descrivono il brand e che nel loro complesso formano il suo modello di attrattività. Scopo di questa tesi è di tracciare una metodologia per definire il modello di attrattività di un brand; si vuole che tale modello rispetti i requisiti di completezza e correttezza e che sia sempre aggiornato, in linea con la dinamicità sua e del dominio in cui si colloca. Il riconoscimento delle caratteristiche del brand richiede sia la conoscenza di dominio di un esperto, sia il lavoro automatico del tool che, iv

Sommario partendo dai volumi di parlato, deve riconoscere nuove feature del brand e suggerire all utente la collocazione nel modello per migliorare le analisi successive. Questi due task sono propri anche di un altro tipo di analisi che è oggetto di studio in questa tesi, ovvero la topic trend detection; essa consiste di due fasi: prima il rilevamento di parole che recentemente hanno evidenziato un picco di occorrenze, poi il tentativo di suggerire all utente una chiave di lettura per comprendere l argomento che si cela dietro queste parole e l evento che ha scatenato il picco. Questo lavoro di tesi intende anche definire una serie di strumenti che facilitino questo tipo di comprensione all utente. v

Ringraziamenti Milano, Marzo 2011 Daniele Garbugli vi

Indice Abstract...ii Sommario... iv Ringraziamenti... vi Indice... vii Lista delle Figure... x Lista delle Tabelle... xiii Capitolo 1 Introduzione... 1 Capitolo 2 Stato dell arte... 5 1.1 La modellazione di dominio... 5 1.1.1 Il concetto di modello e di dominio... 5 1.1.2 La costruzione del modello... 6 1.2 L analisi di frequenza... 7 2.2.1 Tool di mercato... 14 2.3 La categorizzazione... 21 2.3.1 Definizione del problema... 21 2.3.2 Approcci risolutivi... 24 Capitolo 3 Il progetto... 29 3.1 La sentiment analysis... 30 3.1.1 Tool di mercato... 32 3.2 Il progetto: obiettivi, funzionalità e innovazione... 41 3.2.1 Analisi degli influencer... 42 3.2.2 Analisi dei trend... 43 3.2.3 Gestione delle crisi... 43 3.2.4 L interfaccia mashup... 44 3.2.5 L approccio alla data quality... 45 vii

Indice Capitolo 4 Studio di fattibilità per un progetto di sentiment analysis... 51 4.1 Analisi dei costi... 51 4.1.1 Analisi manuale del sentiment... 53 4.1.2 Analisi automatica del sentiment... 54 4.1.3 Analisi a confronto... 55 4.1.4 Conclusioni... 56 Capitolo 5 Metodologia di definizione e raffinamento del modello. 57 5.1 Vocabolario... 58 5.1.1 Terminologia dell analista... 59 5.1.2 Terminologia del progettista... 60 5.2 Metodologia di definizione del modello... 61 5.2.1 Definizione di categorie, sottocategorie e qualità 62 5.2.2 Creazione di elenchi di tag per la rete semantica 64 5.2.3 Importazione massiva di tag nella rete semantica66 5.2.4 La scelta di tag identificatori... 66 5.2.5 Analisi del rumore... 67 5.2.6 Crawling: ricerca di post tramite keywords... 70 5.2.7 Word Sense Disambiguation... 71 5.2.8 Categorizzazione di post... 71 5.2.9 Analisi di copertura... 71 5.2.10 Ricerca semiautomatica di nuovi tag... 72 5.2.11 Analisi ciclica... 74 Capitolo 6 Revisione del modello e analisi dei topic trend... 75 6.1 Le tipologie di parole da analizzare... 76 6.2 La selezione di tag candidati: l analisi di frequenza... 79 6.2.1 La metrica... 79 6.2.2 I parametri... 80 6.2.3 Clustering per tipologia di parola... 83 viii

Indice 6.3 Algoritmi di categorizzazione di tag... 84 6.3.1 Analisi a livello di post... 85 6.3.2 Analisi a livello di n-grammi... 87 6.4 Schema complessivo... 101 6.5 Analisi dei trend... 101 6.5.1 Clustering... 105 6.5.2 Mashup con servizi esterni... 106 6.5.3 Funzionalità per l utente... 108 6.5.4 Proposta di mockup dell interfaccia grafica... 109 Capitolo 7 Test e risultati... 112 7.1 Test sull analisi di frequenza: il caso del vulcano... 112 7.1.1 Il dataset... 113 7.1.2 Il test... 114 7.1.3 I risultati... 114 7.1.4 Conclusioni... 116 7.2 Test sulla categorizzazione di tag: il caso del vulcano 116 7.2.1 Analisi a livello di post... 117 7.2.2 Analisi a livello di n-grammi... 119 7.2.3 Conclusioni... 124 7.3 Test congiunti per la topic trend detection... 125 7.3.1 Il dataset... 125 7.3.2 Il test... 125 7.3.3 I risultati... 126 7.3.4 Conclusioni... 127 Capitolo 8 Conclusioni e sviluppi futuri... 130 Bibliografia... 135 ix

Lista delle Figure Figura 2.1: Tag cloud dal sito www.blogscope.net in data 12 febbraio 2011... 11 Figura 2.2: Passi dell algoritmo di hot topic detection proposto da Bai et al. [7].... 12 Figura 2.3: Curva di popolarità per le keyowrd Saddam Hussein. Saddam fu incarcerato il 5 Novembre 2006 e fu giustiziato il 30 Dicembre 2006. Le regioni evidenziate in rosso indicano un burst.... 17 Figura 2.4: Interfaccia grafica del tool GTD Explorer... 18 Figura 3.1: Diverse forme di visualizzazione dei risultati dell analisi del sentiment del tool Sysomos... 33 Figura 3.2: Ricerca di UCG con filtro sul sentiment dei risultati su Liquida... 35 Figura 3.3: Metodologia di Blogmeter per l analisi del passaparola online... 36 Figura 3.4: Metodologia di Blogmeter per l analisi del passaparola online... 41 Figura 3.5: Screenshot dell interfaccia mashup di WISPO... 45 Figura 3.6: Architettura del modulo di clear ing e pruning di WISPO... 47 Figura 3.7: Architettura complessiva di WISPO... 50 Figura 4.1: Confronto fra le curve di cost della soluzione manuale e automatica per un progetto di sentiment analysis.... 55 Figura 5.1: Relazione fra le entità gestite dall analista.... 60 Figura 5.2: Workflow della metodologia di definizione del modello di attrattività.... 63 Figura 5.3: Esempio di calcolo del rapporto segnale-rumore (SNR).... 70 Figura 5.4: Esempio di copertura di un modello.... 72 x

Lista delle Figure Figura 6.1: Casistiche di caratterizzazione di una parola della Bag Of Word.... 77 Figura 6.2: Relazione fra le tipologie di tag.... 77 Figura 6.3: Finestre temporali per la metrica Frequency Burst... 80 Figura 6.4: Grafico dell andamento del fattore di crescita F al variare del fattore di regolarizzazione c e al crescere della frequenza P del tag nella finestra piccola... 82 Figura 6.5: Clustering deile parole della Bag Of Word... 83 Figura 6.6: Schema generale di funzionamento della categorizzazione basata su n-grammi... 89 Figura 6.7: Relazione della rete semantica sfruttate per ricavare il set di keyword che descrivono un tag... 89 Figura 6.8: Categorie allo stesso livello e insieme delle keyword che le descrivono... 90 Figura 6.9: Dal tag candidato alla relativa BOW con frequenze... 91 Figura 6.10: Struttura dell impianto definito da Chidamber e Kemerer... 92 Figura 6.11: Possibile conseguenza della non monotonicità della metrica.... 100 Figura 6.12: Schema riassuntivo dell attività per l aggiornamento e il raffinamento del modello... 102 Figura 6.13: Esempio di schermata di Klout... 108 Figura 6.14: Proposta di mockup dell interfaccia grafica per il tool di topic trend detection di WISPO.... 110 Figura 7.1: Distribuzione dei tweet del dataset dal 12 al 16 aprile 2010.... 113 Figura 7.2: Andamento del fattore di crescita del burst al crescere della frequenza del tag nella finestra piccola, fissato c=3 (fattore di regolarizzazione) e valore della metrica a 0,8.... 114 Figura 7.3: Distribuzione temporale della parola volcano nei post tra il 14 e il 16 aprile 2010... 116 xi

Lista delle Figure Figura 7.4: Grafico dei risultati del test di categorizzazione con analisi a livello di post.... 119 Figura 7.5: Grafici dei risultati dell analisi di frequenza basata su n- grammi, per n crescente e per le quattro metriche M1, M2, M3, M4. L ultima colonna rappresenta la categoria Services&Transport.... 123 Figura 7.6: Rappresentazione più immediata dei risultati dei 16 grafici. Il nero indica la vittoria della categoria services&transport, il grigio denota non una vittoria ma quasi un pari merito con la categoria vincente e il bianco simboleggia la sconfitta della categoria corretta.... 123 xii

Lista delle Tabelle Tabella 2.1: Alcuni siti Internet che utilizzano i tag per gestire i loro item.... 9 Tabella 2.2: Alcuni siti Internet che utilizzano i tag per gestire i loro item.... 20 Tabella 2.3: riassunto dei metodi per problemi di classificazione con machine learning semi-supervisionato.... 25 Tabella 2.4: Riassunto dell indagine sui metodi di machine learning e classificazione non supervisionata o che utilizza altre sorgenti di conoscenza oltre all eventuale corpus già etichettato.... 28 Tabella 3.1: Confronto fra le performance di alcuni tool di sentiment analysis... 46 Tabella 6.1: Applicazione dei viewpoint alle metriche.... 96 Tabella 6.2: Resoconto delle proprietà di validazione sulla metrica M4.... 99 Tabella 7.1: Risultati dell analisi di frequenza sul caso di studio del vulcano... 115 Tabella 7.2: Risultati del test di categorizzazione con analisi a livello di post.... 118 Tabella 7.3: Numero di keyword per ogni categoria di primo livello del modello.... 120 Tabella 7.4: Numero di keyword per ogni categoria di primo livello del modello.... 122 Tabella 7.5: Valutazione soggettiva sull utilità dei tre servizi per la comprensione dei topic trend.... 127 xiii

Capitolo 1 Introduzione Il Web2.0 è una tecnologia abilitante per molte applicazioni che prima non erano possibili; applicazioni che se da un lato offrono nuove opportunità, dall altro lanciano nuove sfide da affrontare. Uno degli elementi caratterizzanti il Web2.0 è la miriade di informazioni che gli utenti di Internet spontaneamente condividono in blog, forum, siti di review e social network: sono i cosiddetti User Generated Contents (UGC). Si tratta spesso di esperienze, sensazioni e opinioni personali in merito ad un particolare soggetto; queste nel loro complesso, oltre a rappresentare un ampio campione statistico di giudizi sul soggetto, sono anche le stesse informazioni che andranno a influenzare gli altri naviganti, secondo le dinamiche tipiche del passaparola. Per questi motivi molte aziende ed enti stanno decidendo sempre più spesso di affidarsi ad applicazioni di sentiment analysis per monitorare la reputazione online di cui gode il loro brand, in alternativa ai tradizionali sondaggi dispendiosi in termini di tempi e costi. Conoscere il giudizio della gente su un brand è il primo passo per raggiungere la consapevolezza degli ambiti in cui esso è forte e su quali invece necessita di miglioramenti; è il punto di partenza per un adeguata politica di marketing, inteso nel senso più ampio del termine, spaziando dal marketing di prodotto, allo sviluppo del settore turistico, fino alla promozione dell immagine della persona. La social media intelligence offre gli strumenti per leggere le informazioni strutturate e non strutturate che Internet mette a disposizione, al fine di 1

Capitolo 1. Introduzione analizzare un brand in tutte le sue sfaccettature, confrontarlo con i competitor e adottare appropriate operazioni di marketing. Il passo preliminare all analisi è la definizione del modello di attrattività del brand, ovvero un astrazione dal dominio a cui il brand appartiene per estrarre le caratteristiche su cui si desidera conoscere il sentiment. Primo obiettivo di questo lavoro di tesi è delineare una metodologia per costruire il modello del brand e tenerlo aggiornato nel tempo in un ottica di apprendimento continuo sul dominio; parallelamente al modello va anche tenuta aggiornata la conoscenza di base utilizzata dal tool di sentiment analysis (nella fattispecie una rete semantica) per comprendere i testi in linguaggio naturale che racchiudono il sentiment. L intenzione è quella di garantire un giusto bilanciamento fra lavoro automatico del tool e contributo manuale dell uomo, ovvero un compromesso fra rapidità e correttezza dell analisi. Saranno trattati nel dettaglio due aspetti chiave della metodologia. Prima l analisi di frequenza, attraverso cui riconoscere direttamente dai volumi di parlato nuove feature che potrebbero essere unite al modello. Poi dei metodi di categorizzazione, che permettano di suggerire all utente la miglior collocazione delle feature nel modello. Il riconoscimento di nuove feature rilevanti avviene tramite un analisi dei topic trend, ovvero gli argomenti di discussione più in voga del momento nella blogsfera. Questo tipo di analisi, nota come topic trend detection, rappresenta il secondo ambito di studio di questa tesi, anche se in realtà condivide parte delle metodologie delineate per la definizione e aggiornamento del modello. Allo stato attuale, la letteratura e i tool di mercato che si occupano di questo tema non danno molto risalto alla comprensione dei trend, limitandosi a segnalarne l esistenza sotto forma di parole più ricorrenti nell ultimo periodo (picchi). In questa tesi si cercherà proprio di suggerire una serie di strumenti da integrare nell interfaccia grafica del tool, che aiutino l utente a comprendere quale argomento effettivamente si nasconde dietro al picco di una parola e qual è l evento che ha alimentato la discussione sul Web. La capacità di cogliere in tempo reale questi trend è molto importante per l utilizzatore del tool, perché permette di rilevare rapidamente eventuali crisi (ovvero polarità negativa sul sentiment) e prendere le migliori decisioni per risolverle prima che la situazione si aggravi. Tra l altro, per gli stessi motivi per cui Internet rappresenta un ottimo strumento per recepire le 2

Capitolo 1. Introduzione crisi, esso costituisce anche un canale privilegiato per la loro gestione, in quanto permette di comunicare con molti utenti in poco tempo [52]. La tesi è strutturata come segue. Il capitolo 2 presenta una rassegna dello stato dell arte relativamente a tre argomenti ampiamente sviluppati nei capitoli successivi, che sono la modellazione di dominio, l analisi di frequenza e il problema della categorizzazione di parole. Sul primo argomento si è constatata una carenza di letteratura a riguardo. Sul problema dell analisi di frequenza è emersa l attitudine comune di focalizzare la ricerca di topic trend partendo dalla frequenza con cui occorrono le singole parole. Sul tema della categorizzazione si è notata una tendenza a passare da metodi supervisionati che richiedono training, a metodi non supervisionati completamente automatizzati, anche se questa totale automatizzazione non è praticamente mai raggiunta in quanto è sempre richiesto almeno un minimo intervento umano. Il capitolo 3 racconta il progetto di sentiment analysis in cui si colloca questo lavoro di tesi. Dopo una descrizione del problema della sentimenta analysis e dei tool di mercato più diffusi che la implementano, si passa alla descrizione del progetto in sé, focalizzando l attenzione sui suoi aspetti innovativi e sulle funzionalità che mira ad implementare. Il capitolo 4 offre alcuni spunti per affrontare il problema dello studio di fattibilità che deve precedere un progetto di sentiment analysis per un cliente. Si pone l accento sulle principali variabili che occorre tenere in considerazione, dando particolare rilievo alla prospettiva dei costi, e sulle possibili alternative che si prospettano sulla base dei risultati ottenuti dallo studio. Il capitolo 5 va finalmente nel dettaglio della metodologia per la definizione e aggiornamento del modello di attrattività del brand. La descrizione è preceduta da una breve introduzione sul linguaggio che viene utilizzato nel corso del restante lavoro. Il capitolo 6 entra ancora più nel dettaglio su una parte della metodologia definita. Si parte con l analisi di frequenza, ovvero la ricerca di keyword rilevanti e che per questo si candidano per l analisi successiva. Tale analisi è la categorizzazione delle parole; per questo task sono proposte due possibili soluzioni implementative: la prima si basa su una variante di una metrica tradizionale, mentre per la seconda una nuova metrica viene formulata e validata in modo formale. L ultimo paragrafo 3

Capitolo 1. Introduzione affronta il tema della topic trend detection che mette insieme le soluzioni sviluppate nei due paragrafi precedenti con altre funzionalità, il tutto finalizzato al task di rendere intelligibili i picchi trovati sulle parole; il paragrafo si conclude con una proposta di mockup dell interfaccia grafica del tool di topic trend detection. Nel capitolo 7 si descrivono i test svolti sulle varie metriche e gli algoritmi definiti nel corso dei vari capitoli, ovvero sull analisi di frequenza, sulla categorizzazione e sulla topic trend detection. Infine il capitolo 8 riassume tutto il lavoro svolto e trae le dovute conclusioni, accompagnate da suggerimenti per sviluppi futuri rispetto a questo lavoro di tesi.. 4

Capitolo 2 Stato dell arte In questo capitolo si discuterà lo stato dell arte relativamente alle principali tematiche affrontate nel corso della tesi, in modo da avere sempre un termine di paragone tra metodologie, metriche e algoritmi proposti e quelli già sviluppati negli ultimi decenni. Molte di queste tematiche richiederebbero una trattazione molto ampia, ma non essendo la completezza scopo di questa tesi, ci si limiterà ad affrontare con più attenzione solo quegli aspetti che si legano maggiormente alle scelte intraprese nel corso del lavoro di tesi. 1.1 La modellazione di dominio La maggior parte degli studi sulla sentiment analysis si sono concentrati sul core di questo problema, ovvero la stima del sentiment di un documento scritto in linguaggio naturale. In meno hanno rivolto la loro attenzione anche alla questione del modello costruito attorno all oggetto (brand) di cui si vuole studiare la reputazione sul Web. Per capire bene la questione del modello, occorre prima comprendere bene la terminologia che sarà adottata, per poi affrontare un indagine su come la questione è stata affrontata in letteratura. 1.1.1 Il concetto di modello e di dominio 5

Capitolo 2. Stato dell arte Con modello del brand si intende una descrizione sufficientemente formale del brand, comprendente l insieme delle caratteristiche che si vogliono monitorare; si potrebbe parlare di modello di attrattività, visto che, dalla prospettiva dei clienti, tali caratteristiche rappresentano i temi su cui essi saranno soliti esprimere dei giudizi in quanto li ritengono importanti; per un motivo analogo si parla spesso anche di modello di successo, mettendo l accento sul fatto che le caratteristiche analizzate sono quelle che determinano il successo del brand [44], proprio nella misura in cui il fatto che se ne discuta implica la loro importanza. Un brand si colloca sempre in un ben determinato dominio, per cui trovare un modello del brand significa anche costruire una rappresentazione del dominio in cui esso si colloca. Per dominio qui si intende una parte del mondo reale costituita da elementi che presentano una qualche correlazione; solitamente infatti si parla di dominio di qualcosa che è proprio l elemento che tiene unito il tutto. Ad esempio nel dominio della città rientrano aspetti come i trasporti, l arte, l accommodation e l intrattenimento. Tutti questi aspetti vengono inseriti nel modello che descrive il dominio; tuttavia la loro selezione non è univoca, ma dipende dalle particolari esigenze dell applicazione che sfrutterà tale modello, per questo si parla spesso anche di dominio applicativo. Ad ogni dominio corrisponde un certo vocabolario, e più il dominio è ristretto, più il linguaggio che lo caratterizza sarà specifico; ad esempio nel dominio della salute rientrano tutti i termini tecnici della medicina, mentre per tornare all esempio del dominio delle città, nel suo vocabolario confluiranno per esempio l elenco dei musei, delle strade e dei ristoranti. 1.1.2 La costruzione del modello Alcuni studi, pur non parlando esplicitamente di modello, provano comunque a determinare gli elementi che caratterizzano un particolare dominio applicativo e lo fanno tramite sistemi di feature extraction, metodologie bottom-up per fare mining sui documenti in cui sono espressi giudizi sul brand al fine di dedurre le caratteristiche principali oggetto di discussione. Uno di questi studi è quello di Balahur [9] che prende come input una query dell utente il quale dichiara il nome del brand di cui vuole conoscere la Web reputation. Il sistema, sfruttando la conoscenza raccolta dalle reti semantiche WordNet e ConceptNet, scopre in modo 6

Capitolo 2. Stato dell arte automatico una serie di feature tipiche del brand specificato dall utente; queste andranno ad aggiungersi ad altre che sarebbero productindependent. Un approccio diverso è seguito da Spangler [52] che tenta di dedurre dai volumi di parlato le caratteristiche più importanti del brand, senza ricorrere a nessuna conoscenza a priori. Il tutto si svolge in due fasi: nella prima si realizzano vari tipi di clustering (che Spangler chiama tassonomie) dei documenti secondo diversi criteri quali vicinanza semantica, correlazione temporale e tipologia di sentiment espresso; a seconda dei casi le categorie possono essere stabilite a priori dall analista oppure possono essere dedotte direttamente dai documenti. Nella seconda fase l analista deve comprendere che cosa effettivamente contengono le categorie delle varie tassonomie per poi cercare correlazioni tra categorie di tassonomie diverse; il tutto si realizza con il supporto di algoritmi automatici di text summarization e metriche di similitudine tra documenti. Il risultato finale è un insieme di categorie ben distinte appartenenti a diverse tassonomie e che descrivono il brand di interesse. Quello che si può notare dallo studio effettuato è che la logica dominante che guida l identificazione delle variabili del modello di attrattività è di tipo bottom-up, in quanto la loro selezione è sostanzialmente automatica e parte direttamente dall analisi dei documenti. Ciò su cui in letteratura si è sostanzialmente concordi è che un sistema di sentiment analysis è fortemente dipendente sia dal dominio che dal linguaggio utilizzato [32]. Tuttavia ci sono stati sforzi per cercar di costruire classificatori di sentiment che siano facilmente adattabili a nuovi domini, ovvero senza grandi sforzi per rifare il training [3,5,53,54] 1.2 L analisi di frequenza Una delle prerogative del Web2.0 è che i contenuti a cui gli utenti accedono sono da loro stessi generati, per questo si parla di User Generated Content (UGC), da Baeza-Yates ritenuti il trend prevalente sul Web [6]. Nella maggior parte dei casi questi contenuti sono testi (blog, forum, social network, enciclopedie collaborative, etc.) e anche quando si tratta di foto o video, questi sono spesso corredati da descrizioni testuali, 7

Capitolo 2. Stato dell arte magari espresse semplicemente come elenchi di keyword descrittive comunemente dette tag. Un tag è una parola o un insieme di poche parole che un utente assegna ad un item per descriverlo ed identificarne il contenuto, ovvero il soggetto dell item, le persone coinvolte, il tipo di item e le tematiche connesse. Una definizione esaustiva di tag data da Sen et al [49] ne mette in luce tutti gli aspetti e le funzioni essenziali: descrivere un item; permettere l organizzazione di item, ovvero la loro classificazione; su questa scia è nato il concetto di folksonomia, ovvero la categorizzazione di informazioni generata dagli utenti tramite tag scelti liberamente; facilitare la ricerca di contenuti non necessariamente testuali; consentire un esperienza di social navigation [8], ossia scoprire nuove informazioni grazie al contributo di altri utenti della community. Si evince dunque l aspetto fortemente collaborativo che caratterizza l attività di tagging [28], tipico degli strumenti del Web 2.0. Il tagging si applica a praticamente qualunque tipologia di item. Alcuni siti che fanno un ampio uso di questo strumento e i relativi item sono riportati in tabella 2.1 La pratica del tagging è oramai così diffusa da produrre una quantità enorme di metadati attraverso cui svolgere operazioni di categorizzazione e ricerca; ad esempio Dubinko [20] svolge analisi su un set di 86,8 milioni di tag raccolti su Flickr in 472 giorni. Per questo motivo si è sviluppato un ramo di ricerca focalizzato sull analisi di tag per comprendere quali sono i temi dominanti discussi dagli utenti. La maggior rilevanza di un argomento in un determinato periodo si esprime in termini di burst, ovvero di un aumento della frequenza con cui esso si ripresenta nel volume di parlato; e scendendo ad un livello di analisi più basso, questo a suo volta si traduce in termini di burst delle parole che tipicamente sono utilizzate per parlare di quell argomento. Per questo è possibile mettere sullo stesso piano l analisi dei tag che descrivono gli item e l analisi delle parole che costituiscono un testo; in entrambi i casi c è un item che riguarda un certo argomento e c è un insieme di parole (tag) associate all item e caratterizzanti l argomento. 8

Capitolo 2. Stato dell arte Servizio Web Descrizione Flikr Delicious Gmail sito per lo storage e la condivisione di foto ciascuna descritta da una serie di tag direttamente scelti dall utente servizio di social bookmarking dove cioè ad essere taggati sono i siti Internet Web mail che consente all utente di associare un tag (detto label) alle email sulla base di regole predeterminate Item taggati Foto Siti Web Email Technorati motore di ricerca dedicato al mondo dei blog Blog Last.fm Foursquare CiteULike social music Website che consente agli utenti di taggare artisti, album e pezzi social network che consente la geolocalizzazione, ovvero il tagging sui luoghi servizio Web per la condivisione, organizzazione e ricerca di articoli scientifici taggati dai rispettivi autori Artisti, album, brani musicali Mappe Articoli scientifici Tabella 2.1: Alcuni siti Internet che utilizzano i tag per gestire i loro item. Il problema di rilevare i cosiddetti hot topics (o hot events) viene quindi affrontato come ricerca dei burst sulle parole utilizzate in relazione a quell argomento, poco importa che si tratti di tag associati ad item o direttamente delle parole che costituiscono un documento. Uno degli approcci orientati al term burst maggiormente citato in letteratura è quello proposto da Kleinberg [31] che si ispira ai modelli markoviani. Il suo metodo di ricerca di argomenti dominanti in intervalli di tempo limitati parte proprio dalla ricerca di burst sulle parole che costituiscono i documenti. La sequenza di arrivo dei documenti (text stream) viene espressa in termini probabilistici come una distribuzione esponenziale; il modello del flusso di documenti è realizzato con un automa ad infiniti stati che corrispondono ciascuno ad un diverso rate di emissione e l inizio di un burst è dunque rappresentato da una transizione da uno stato più basso ad uno più alto. Si associa un costo alla transizione in modo da scoraggiare burst troppo brevi; per cui il problema della ricerca dei burst diventa un problema di ottimizzazione in 9