Opinion Analysis da Sorgenti Web

Transcript

1 Facoltà di Ingegneria Corso di Studi in Ingegneria Informatica Elaborato finale in Sistemi multimediali Opinion Analysis da Sorgenti Web Anno Accademico 2011/2012 Candidato: Mario Falanga matr. N

2

3 Indice Introduzione 5 Capitolo 1. Opinion Analysis Dal Web dei dati al Web degli utenti Web-Opinions: coordinate generali Cosa si intende per sentiment? 8 Capitolo 2. Stato dell arte Binary scores & Qualitative scores Adverbs and Adjectives scoring Unary AAC Binary AAC Assegnare un valore ad un AAC Valutare l opinione generale su un argomento all interno di un documento Sentiment Analyzer Feature Term Extraction Trattamento di un sentiment Sentiment Analysis 19 Capitolo 3. Oasys Architettura generale Scored Opinion-Expressing Word Bank Pseudo-Expected Value Word scoring Pseudo Standard-Deviation Adjective scoring Scoring documents Topic-Focused Algorithm Distance-Weighted topic focused Template-based Algorithm Hybrid Evaluation Method (HEM) Qualitative Adjective scoring Algorithm Implementazione e Prestazioni Precision Recall Performance 31 III

4 Capitolo 4. Conclusioni 32 Bibliografia 33 IV

5 Introduzione La continua diffusione sul web dei social network, forum e blog ha messo a disposizione una grande quantità di dati su cui ciascun utente può esprimere la propria opinione. Saper interpretare la qualità e la contestualità di questi dati è fondamentale per raccogliere informazioni sulle tendenze degli utenti; si possono in questo modo pianificare determinate strategie di marketing piuttosto che altre, migliorare le funzionalità di uno smartphone in base alle esigenze dei consumatori, monitorare il gradimento di una riforma, ecc. In questa tesi si mettono in luce tutti gli aspetti principali dell Opinion Analysis. Il capitolo 1 chiarisce il concetto di Opinion Analysis, mostrando l utilità delle tecniche a supporto, definisce la keyword sentiment e l importanza di una sua corretta classificazione. Il capitolo 2 è dedicato allo stato dell arte, ovvero alle tecniche utilizzate nell ambito dell estrazione, classificazione e associazione di un sentiment ad un documento. Si passa da un approccio binario (Binary Scoring), basato sulle sole due classi di giudizio positive & negative, ad una tecnica basata sull analisi della semantica di avverbi e aggettivi (Adverbs and Adjectives Scoring), passando per un sistema, il Sentiment Analyzer, che classifica prima il sentiment delle parole, poi quello delle frasi ed infine combina i risultati per valutare l opinione espressa da un documento su un certo argomento. Nel capitolo 3 si parla dell approccio, a mio avviso, più completo: OASYS, dove si propone un architettura in grado di assegnare sia sentiments numerici (quantitative scores) che non (qualitative scores), ottenendo ottimi risultati in termini di efficienza. 5

6 Capitolo 1 Opinion Analysis Il web è una gigantesca biblioteca che comprende informazioni di ogni genere, raccolte però in documenti che spesso risultano troppo dispersivi rispetto al reale obiettivo dell utente. Con l ampia gamma di fonti disponibili sul web e con la rapida diffusione di sistemi community-oriented, che promuovono contenuti generati dagli utenti, c è stato un interesse crescente sia commerciale che governativo riguardo il tentativo di analizzare automaticamente e monitorare la marea di atteggiamenti, pensieri e opinioni prevalenti su internet. 1.1 Dal Web dei dati al Web degli utenti L avvento del Web 1.0 ha portato alla creazione della realtà informatica che viviamo quotidianamente: news, musica e qualsiasi altro tipo di informazione è messa in digitale e resa disponibile in tutto il mondo. I vantaggio sono palesi : Facilità d uso; Scalabilità; Mercati globali alla portata di tutti; Gli utenti potevano usufruire di un numero sempre crescente di contenuti. Con il Web 2.0 si introduce quella componente detta human in the loop o interaction. 6

7 Ecco che l uomo entra nel ciclo sempre più prepotentemente: nascono così i social network, le community, i blog, ecc. 1.2 Web-Opinions: coordinate generali Il Web ha cambiato radicalmente il modo in cui i consumatori esprimono le loro opinioni. È possibile ora scrivere recensioni di prodotti, dove esprimere il proprio parere, su siti commerciali, forum e gruppi di discussione. Queste, dunque, rappresentano nuove fonti di informazione per il marketing. Ad esempio, una grande società informatica vuole poter valutare il tasso di gradimento dei suoi prodotti tramite i giudizi espressi dagli utenti su forum, blog e recensioni, oppure Apple potrebbe essere interessata all impatto dell iphone 5 nel mondo o ancora, il governo italiano vuole misurare l indice di gradimento della riforma sulle pensioni o su quella relativa alla riduzione dei fondi universitari. È chiaro, quindi, che ci sono numerosi domini applicativi in cui la capacità di comprendere opinioni espresse nei documenti diventa fondamentale. Supponiamo che un utente sia interessato all acquisto di una fotocamera digitale e che sia indeciso tra due tipologie; dunque, saranno di fondamentale importanza le documentazioni contenenti le opinioni sui due prodotti. Per un cliente potenziale, anche se è in grado di leggere tutti i commenti su prodotti diversi, spesso risulta più conveniente avere un confronto visivo delle opinioni dei consumatori sui due prodotti : (Figura 1: Confronto di due fotocamere digitali, Opinion Observer: Analyzing and Comparing Opinions on the web ) 7

8 È chiaro che gli strumenti a supporto dell opinion analysis sono diversi e attualmente in fase di sviluppo. È opportuno, quindi, individuare quelle informazioni chiave che consentono di estrarre valutazioni significative dai documenti in rete. In una prima approssimazione si può esprimere un opinione con un valore binario (ad es. 0 vuol dire bello e 1 significa brutto, riferito ad un film). Se però siamo interessati al giudizio della popolazione italiana sulla manovra Monti potremmo necessitare di un analisi qualitativa più che quantitativa (ad es. favorevole, neutrale, non favorevole). 1.3 Cosa si intende per sentiment? Tra la miriade di informazioni disponibili, dunque, diventa utile il sentimento, o opinione, che le persone esprimono nei confronti di un soggetto (un soggetto è un argomento di interesse o una caratteristica di un tema). Dunque, si prospetta non più una classificazione dei documenti per argomento ma per sentimento generale (ad es. se una recensione è positiva o negativa). Etichettare un articolo con il suo sentimento fornirebbe sintesi succinte ai lettori che hanno maggiori possibilità di trovare quindi risultati coerenti con i loro criteri di ricerca. Ci sono stati diversi studi riguardo l analisi automatica dei testi in termini di: Sentiment classifiers Affect analysis Automatic survey analysis Opinion Analysis Questi metodi tipicamente cercano di estrarre i principali sentimenti, sia positivi che negativi, impliciti in un documento. Gli aspetti più complessi della sentiment analysis sono due: in primo luogo, anche se il giudizio complessivo riguardo un argomento è utile, solo una parte dell informazione è di interesse, ad esempio se un utente è generalmente soddisfatto del proprio notebook, potrebbe essere insoddisfatto della durata della batteria o della capacità della RAM. Per i produttori, questi singoli punti di forza o debolezza sono importantissimi per valutare il 8

9 grado di soddisfazione del cliente. In secondo luogo, l associazione di un opinione (estratta) a un argomento specifico è difficile. Molti algoritmi di estrazione di sentimenti ottengono scarsi risultati relativamente a queste due problematiche; questi, infatti, risolvono i due punti precedenti assumendo, o che il tema del documento è noto a priori, oppure semplicemente associando un opinione ad un termine di un argomento appartenente allo stesso contesto. Tali approcci richiedono, però, un argomento specifico o un genere classificabile che è difficile da individuare; infatti, un documento può discutere di argomenti eterogenei e quindi può essere difficile da classificare univocamente. La classificazione dei sentiments è utile anche in business intelligence applications e recommender systems, dove utente e feedback potrebbero essere facilmente riassunti (user-feedback summary); in più, risposte libere a sondaggi fornite in linguaggio naturale potrebbero essere processate usando una categorizzazione dei sentimenti; inoltre, l estrazione dei sentimenti da un documento potrebbe essere utile anche in applicazioni per il message-filtering in cui si può utilizzare una determinata sentiment information per riconoscere ed eventualmente scartare notizie inutili ed effettuare la user-feedback summary detta in precedenza. Un aspetto molto stimolante dell opinion analysis è che, mentre gli argomenti sono spesso identificabili solo attraverso delle keywords, il sentimento può essere espresso in maniera più sottile perché richiede più comprensione rispetto ad una classificazione per argomento. In letteratura ci sono numerose tecniche per effettuare l opinion analysis, ovviamente le soluzioni migliori sono quelle seguite da organizzazioni sondaggistiche che sollecitano direttamente le persone a dare le loro opinioni, purtroppo si tratta di tecniche economicamente troppo costose. Un alternativa è quella di analizzare le opinioni espresse in varie tipologie di documenti come riviste cinematografiche, quotidiani, recensioni,ecc. 9

10 Capitolo 2 Stato dell arte In questa sezione vengono illustrate varie tecniche di opinion analysis condotte nel corso degli anni: dall associazione di valori binari ad un analisi qualitativa, dall interpretazione mediante avverbi (adverbs scoring) al sentiment analyzer (Jeonghee Yi, Tetsuya Nasukawa, Razvan Bunescu, Wayne Niblack, 2003) fino al più moderno OASYS (Carmine Cesarano, Bonnie Dorr, Antonio Picariello, Diego Reforgiato, Amelia Sagoff, V.S. Subrahmanian, 2005). 2.1 Binary scores & Qualitative scores In molti articoli un primo approccio all opinion analysis viene effettuato in termini binari, ovvero, come già anticipato prima, si valuta una recensione o un documento solo rispetto a due valori (ad es. positivo e negativo). Questo approccio è illustrato in Thumbs up? Sentiment Classification using machine learning techiniques (2002, Pang, Lee & Vaithyanathan). Tale lavoro prende in esame le riviste cinematografiche, sia per la grande varietà di documenti reperibili on-line, sia per la semplicità del dominio applicativo: la maggior parte dei recensori riassumono il loro giudizio generale con degli indicatori di valutazione machine-extractable (numero di stelle, numero di cerchi pieni o vuoti, valori numerici). 10

11 I valori estratti sono poi ricondotti a due sole categorie: positivo e negativo, talvolta neutrale; questo perché risulta più semplice per gli utenti distinguere recensioni negative da recensioni positive. Ovviamente, bisogna tenere conto che spesso i giudizi sono espressi in una forma più complessa ma, almeno per questo dominio applicativo, riconducibili ad aggettivi più semplici che consentono di utilizzare le sole classi positive & negative. Nel documento di riferimento è pubblicato un sondaggio fatto a due studenti cui viene chiesto di individuare degli indicatori per valutare un film come positivo o negativo. I risultati sono i seguenti : (Figura 2: Indicatori proposti dagli utenti) L accuracy è la percentuale di documenti classificati correttamente mentre per ties si intende la percentuale in cui i due sentiment sono giudicati equiprobabili. E chiaro che vorremmo la prima molto alta e il secondo molto basso ma, mentre per l accuracy i risultati possono essere soddisfacenti, lo stesso non si può dire per ties. Gli indicatori proposti dagli autori consentono di ottenere i seguenti risultati: (Figura 3: Indicatori proposti dal sistema) I risultati sono più soddisfacenti. Dunque, la soluzione proposta è quella di utilizzare tecniche corpus-based piuttosto che una moltitudine di aggettivi che non contribuiscono a dare un giudizio netto; in parole semplici si propone di utilizzare un linguaggio ristretto che sia il più rappresentativo possibile della varietà dei termini propria del dominio applicativo che si sta prendendo in 11

12 considerazione. Quindi, l obiettivo del lavoro è stato quello di valutare se è sufficiente utilizzare una sentiment classification basata sui soli valori positivo e negativo o se altre tecniche devono essere sviluppate. VANTAGGI algoritmi semplici; giudizi univoci; sentiment classification immediata. SVANTAGGI Il problema principale è che non tutti gli indicatori di giudizio possono essere ricondotti a due soli valori o comunque non tutti i domini di interesse possono essere valutati con i soli indicatori positivo e negativo. 2.2 Adverbs and Adjectives scoring Questo approccio è illustrato in Sentiment Analysis: adjectives and adverbs are better than adjectives alone (2007, Benamara, Cesarano, Picariello, Reforgiato, Subrahmanian). Viene proposta un tipo di analisi AAC-based (AAC: adverbs and adjectives combination) che usa una tecnica basata sulla semantica degli avverbi di grado; si definiscono quindi una serie di assiomi generali basati su una classificazione linguistica di tali avverbi in cinque categorie. L attenzione viene spostata da due sole categorie di giudizio ( positivo e negativo ) ad una scelta più ampia; in particolare, viene studiato come valutare l influenza che un avverbio ha su un determinato aggettivo mediante l assegnazione di un valore compreso tra 0 e 1: 0 vuol dire che l avverbio non ha alcuna influenza sull aggettivo; 1 vuol dire che l avverbio è strettamente collegato all aggettivo per esprimere un dato giudizio. La classificazione degli avverbi di grado è la seguente : 1. AFF (Avverbi di affermazione o certezza) : assolutamente, certamente, ecc.; 2. DOUBT (Avverbi di dubbio) possibilmente, apparentemente, forse, ecc.; 12

13 3. STRONG (Avverbi di forte intensificazione): estremamente, immensamente; 4. WEAK (Avverbi di debole intensificazione): poco, debolmente, leggermente; 5.0 NEG (Avverbi di negazione); 5.1 MIN (Minimizers, letteralmente minimizzatori ma si preferisce preservare l originalità del termine) : si tratta di avverbi che tendono a ridurre la positività di un affermazione che esprime un dato giudizio e quindi vi si assegna un valore negativo. Agli aggettivi, invece, si assegnano i valori tra -1 (massimo negativo) e +1 (massimo positivo). Esistono due titpi di combinazioni AAC : Unary AAC Binary AAC Unary AAC Sono espresse nella forma : <adverb> <adjective> esempi sono : il film è stato veramente bello, il cacao è poco dolce, ecc Sia f una funzione di tipo unary AAC che prende in ingresso una coppia avverbioaggettivo e fornisce in uscita un numero tra -1 e +1. Con sc(adv) e sc(adj) si vuole indicare, rispettivamente il valore assegnato ad un avverbio e ad un aggettivo. A seconda delle classi cui appartengono gli avverbi f deve soddisfare i seguenti assiomi: Per le categorie 1-3: a. Se sc(adj) > 0 & adv AFF STRONG, allora f (adv, adj) sc(adj); b. Se sc(adj) < 0 & adv AFF STRONG, allora f (adv, adj) sc(adj); Per la categoria 4: a. Se sc(adj) > 0 & adv WEAK, allora f(adv,adj) sc(adj); 13

14 b. Se sc(adj) < 0 & adv WEAK, allora f(adv,adj) sc(adj). Per la categoria 2: a. Se sc(adj) > 0, adv DOUBT & adv (AFF U STRONG ), allora f(adv,adj) f(adv,adj); b. Se sc(adj) < 0, adv DOUBT & adv (AFF U STRONG ), allora f(adv,adj) f(adv,adj). Per la categoria 5.1: a. Se sc(adj) > 0 & adv MIN, allora f(adv,adj) sc(adj); Binary AAC b. Se sc(adj) < 0 & adv MIN, allora f(adv,adj) sc(adj). Sono espresse nella forma : <adverb 1, adverb 2> <adjective>. Dove <adverb 1> può essere un avverbio di forte intensificazione o di dubbio e <adverb 2> può essere un avverbio di forte o debole intensificazione ( ad es. molto molto bene, possibilmente meno costoso ). Per queste associazioni si procede così: si calcola il valore di f(adv2,adj), questo consente di calcolare AAC1, cioè l associazione unaria AAC adv 2 adj. Applicando poi la funzione f alla coppia (adv1,aac1) si ottiene il risultato cercato Assegnare un valore ad un AAC Sono proposti tre algoritmi per quantificare numericamente un AAC e quindi classificare una certa opinione. Gli algoritmi sono mostrati per associazioni unarie ma si possono estendere anche ad AAC binarie come precedentemente descritto. 1. VARIABLE SCORING Se adv AFF U STRONG, allora : f (adv, adj) = sc(adj) + (1 sc(adj)) X sc(adv), se sc(adj) > 0, f (adv, adj) = sc(adj) (1 sc(adj)) X sc(adv), se sc(adj) < 0, Se adv WEAK U DOUBT, allora : f (adv, adj) = sc(adj) (1 sc(adj)) X sc(adv), se sc(adj) > 0, 14

15 f (adv, adj) = sc(adj) + (1 sc(adj)) X sc(adv), se sc(adj) < ADJECTIVE PRIORITY SCORING Si sceglie un peso r [0,1] che rappresenta quanto l avverbio modifica il significato dell aggettivo cui è associato. Più grande è r, maggiore è l influenza dell avverbio. Se adv AFF U STRONG, allora : f (adv, adj) = min (1, sc(adj) + r X sc(adv) ), se sc(adj) > 0, f (adv, adj) = min (1, sc(adj) - r X sc(adv) ), se sc(adj) < 0. Se adv WEAK U DOUBT, allora : f (adv, adj) = max (0, sc(adj) - r X sc(adv) ), se sc(adj) > 0, f (adv, adj) = max (0, sc(adj) + r X sc(adv) ), se sc(adj) < 0 3. ADVERB FIRST SCORING L algoritmo è simile a quello presentato in adjective priority scoring con la differenza che r si applica all aggettivo invece che all avverbio. Se adv AFF U STRONG, allora : f (adv, adj) = min (1, sc(adv) + r X sc(adj) ), se sc(adj) > 0, f (adv, adj) = max (0, sc(adv) - r X sc(adv) ), se sc(adj) < 0. Se adv WEAK U DOUBT, allora : f (adv, adj) = max (0, sc(adv) - r X sc(adj) ), se sc(adj) > 0, f (adv, adj) = min (1, sc(adv) + r X sc(adj) ), se sc(adj) < 0. ESEMPIO Prendiamo in esame la seguente affermazione : La tua macchina è veramente bella Veramente AFF ; sc(bella) = 0.8 ; sc(veramente) = 0.7 ; r =

16 Gli ultimi 3 punti sono valori di esempio calcolati su una media di 10 sondaggi. Variable Scoring f ( veramente, bella ) = ( ) X 0.7 = 0.94 Adjective Priority Scoring f ( veramente, bella ) = X 0.7 = 0.87 Adverb First Scoring f ( veramente, bella ) = X 0.8 = Valutare l opinione generale su un argomento all interno di un documento a) Sia t un certo argomento ; b) Sia d un documento inerente all argomento t ; c) Sia Rel(t) l insieme delle affermazioni in d che si riferiscono direttamente o indirettamente all argomento t ; d) Per ogni frase s in Rel(t), sia Appl+(s) (risp. Appl-(s)) l insieme delle AAC in s che sono positive (risp. negative) per l argomento t. La forza dell opinione espressa è data da: Strenght ( t, s ) = VANTAGGI Sono definite più calassi di giudizio rispetto all approccio binario; Efficienza. SVANTAGGI Difficoltà nell associare i valori numerici ottenuti alla semantica di un sentiment; Troppo vincolato alla sintassi del linguaggio. 16

17 2.3 Sentiment Analyzer Tale tecnica è presentata in Sentiment Analyzer: Extracting Sentiments about a Given Topic using Natural Language Processing Techniques (2003, Yi, Nasukawa, Bunescu, Niblack). Il Sentiment Analyzer (SA) ha il compito di estrarre opinioni da documenti sul web, ma invece di classificare il sentiment di un intero documento, esso : estrae le principali proprietà di un argomento; estrae un giudizio per ogni singola frase; crea un associazione tra l argomento e il sentiment. SA si articola in due fasi principali : 1) Feature Term Extraction; 2) Sentiment Analysis Feature Term Extraction Un feature term per un argomento è un termine che soddisfa una delle seguenti relazioni: Part of con un dato argomento (ad es. la batteria di un notebook, la RAM, il display, ecc.); Attribute-of con un dato argomento (ad es. peso, prezzo, ecc.); Attribute-of con una proprietà di un dato argomento (ad es. numero di pollici del display, durata della batteria, ecc,) Gli algoritmi utilizzati per effettuare la term extraction sono due: Mixture Model e Likelihood Test; si tratta di algoritmi molto complessi il cui trattamento esula dallo scopo di questa tesi, ci limitiamo a dire che il primo è basato sulla combinazione lineare del weblanguage e un topic-specific language, il secondo fa uso dei logaritmi Trattamento di un sentiment In questo articolo un sentiment è definito come quella componente che sposta un opinione dal suo stato neutro, cioè definisce la polarità di un giudizio su un dato soggetto, ad es. Il film è stato fantastico ha una polarità positiva (+), la macchina è troppo piccola per le 17

18 nostre esigenze ha polarità negativa (-). Si definisce target il soggetto cui è riferito il giudizio, nel nostro caso il film e la macchina. SA usa la semantica dei sentiment definita nel sentiment lexicon e i modelli di opinione definiti nel sentiment pattern database. a. SENTIMENT LEXICON Contiene regole del tipo : <lexical_entry> <POS> <sent_category> lexical entry è un termine che esprime un giudizio; POS (part-of-speech) sono delle sigle che identificano il lexical entry; (ad es. JJ per aggettivo, NN per sostantivo); sent_category (sentiment category) definisce la polarità del lexical_entry (+ oppure -). Un esempio è il seguente : bellissimo JJ +. b. SENTIMENT PATTERN DATABASE Un entry del database ha la seguente forma : <predicate> <sent_category> <target> predicate è in genere un verbo; sent_category espresso nella forma + - [ ] source source è un elemento della frase che trasferisce il sentiment al target, esso può essere un aggettivo, un complemento, una preposizione, ecc. Se viene specificato il simbolo [ ] allora al target viene assegnato il giudizio opposto del source. target è l elemento della frase cui è riferito il sentiment. 18

19 2.3.3 Sentiment Analysis Una prima fase preliminare consiste nell estrarre le frasi di interesse dai documenti esaminati; dopodiché si applica la sentiment analysis alle cosiddette Kernel sentences, cioè quelle frasi ritenute cruciali per l analisi e che tipicamente contengono solo un verbo o a frammenti di testo. SA estrae informazioni nella seguente forma : Per verbi che hanno una connotazione positiva o negativa : < target, verb, > Per i trans-verbs (quei verbi che non esprimono da soli un sentiment positivo o negativo come essere, offrire, ecc ) : < target, verb, source > In questi due casi si parla di T-expressions. Per frammenti di testo, si estrae la seguente: < adjective, target > In questo caso si parla di B-expressions. Esempio : 1) La macchina è troppo costosa L informazione estratta sarà : < Macchina, essere, troppo costosa > 2) Mi piace la macchina L informazione estratta sarà : < Macchina, piacere, >. 1) Sentiment Phrases and Sentiment Assignment A questo punto SA indentifica tutti quegli elementi di una frase che esprimono un sentiment distinguendo aggettivi, soggetto, oggetto e preposizioni : Aggettivi: si identificano tutti quegli aggettivi definiti nel sentiment lexicon Soggetto, oggetto e preposizioni: si effettua la Feature Term Extraction. Il sentiment di una frase è determinato, dunque, dal sentiment espresso dagli elementi estratti. 19

20 Ad es. bella macchina esprime un opinione positiva perché bella ha un sentiment positivo. 2) Sentiment Pattern Analysis Per ogni frase trovata al passo precedente, SA determina il target e la polarità finale del sentiment basandosi sul sentiment pattern database. In pratica si procede così: per prima cosa SA definisce la T-expression e cerca il pattern associato, dopodiché il target e l assegnazione del sentiment vengono determinati dal sentiment pattern. Esempio : Sono rimasto soddisfatto dalle prestazioni del mio nuovo PC T-expression: < prestazioni del PC, soddisfare, > Pattern: < impress > + PP ( preposition phrase dal ) Si evince che al target prestazioni del PC è associato un sentimento positivo. Per quanto riguarda l analisi relativa a frammenti di testo, SA crea le B-expressions e determina il sentiment espresso in baso al sentiment della frase. Esempio : Molte funzionalità per un cellulare B-expression: < molte, funzionalità > : (funzionalità, +) Si evince che il sentiment è positivo. 3) Analisi senza sentiment pattern Spesso un analisi basata su sentiment pattern non è possibile; alcuni casi sono i seguenti: Non ci sono pattern specifici disponibili nel sentiment database; La frase non è completa; Mancanza della punteggiatura, errori di ortografia, ecc. VANTAGGI Elevata precisione (86%, 91%) per documenti Web e articoli Elevata accuracy (90%, 93%) per documenti Web e articoli 20

21 SVANTAGGI Algoritmi molto complessi Spesso è difficile generare un concetto globale di sentiment estratto da un documento. 21

22 Capitolo 3 OASYS Oasys è introdotto nell articolo OASYS: an Opinion Analysis System (2005, Cesarano, Dorr, Picariello, Sagoff, Reforgiato, Subrahmanian). In questo documento vengono presentate metodologie che consentono di effettuare sia il quantitative che il qualitative scoring delle opinioni espresse in un documento su un determinato argomento. Viene proposta un architettura generale in cui la maggior parte degli algoritmi definiti in precedenza possono essere implementati; tale architettura è costituita da diverse parti che implementano funzioni di tipo multiple quantitative scoring. Vengono aggiunte altre classi, oltre alle solite positive e negative, basate sull intensity. Per esempio, cattivo e terribile sottolineano due differenti intensità di giudizio negativo ed è proprio queste variazione che OASYS vuole catturare. I principali aspetti di OASYS che lo distinguono dai precedenti algoritmi sono : classificazione non binaria dei sentiment; i valori da associare alle opinioni espresse in un documento sono continui, non binari; sviluppo di tecniche di tipo multiple quantitative & qualitative scoring; sviluppo di un modello che combina insieme tecniche di multiple scoring. 22

23 3.1 Architettura Generale Supponiamo che un utente voglia determinare le opinioni espresse in un documento D riguardo un argomento t. L architettura è costituita dai seguenti componenti : User specification: l utente specifica una serie di risorse (directories, dominio applicativo, URLs), un argomento t e un intervallo temporale di interesse. Web spider: è un programma progettato per analizzare i siti web ed estrarre dati utili: ha il compito di recuperare i documenti nelle apposite directory che sono rilevanti per l argomento t e che sono stati scritti o modificati durante l intervallo di tempo selezionato. Questi documenti determinano l insieme D. Scored opinion expressing word bank: si tratta di un insieme di parole che, direttamente o indirettamente, esprimono un opinione, cui vengono assegnati dei valori. Più basso è lo score, più è positiva la parola. Quantitative opinion analysis algorithms: si tratta di algoritmi che, per ogni documento d D, valutano la forza del sentiment rispetto all argomento t : il livello Scored opinion expressing word bank viene utilizzato per quantificare tale forza. Gli algoritmi proposti per assegnare un valore all opinione espressa sono divisi in tre famiglie, cui si aggiunge un hybrid algorithm che prende i risultati di ogni algoritmo e li combina per ottenere maggiore efficienza. Qualitative scoring module: il sistema può restituire sia il valore numerico del sentiment, sia un espressione qualitativa dell opinione. I valori qualitativi vengono ottenuti assegnando un aggettivo ai diversi intervalli numerici 3.2 Scored Opinion-Expressing Word Bank Viene creato selezionando un set di 100 documenti di prova che costituiscono, dunque, l insieme D. Ogni documento è stato letto da 16 persone ognuna delle quali gli ha assegnato un valore da 0 a 1: un valore alto identifica un documento molto critico, un valore basso ne identifica uno positivo. 23

24 DEFINIZIONI w è una parola del documento d. numb(w,d) tiene conto del numero di occorrenze della parola w, o di un sinonimo di w, in d. H{ h1,,hm} è un insieme di m utenti, ciascuno dei quali assegna un valore hi(d), non negativo, al documento d. (avsc^k)(d) è la media dei valori che si ottiene eliminando i primi e gli ultimi k valori dall insieme costituito dagli m valori hi(d) ordinati in ordine crescente. Esempio: Supponiamo che per un dato documento siano stati raccolti i seguenti valori: 0.6, 0.7, 0.1, 0.8, 0.9, 0.5, 0.7, 0.8, 0.6; ordinandola : 0.1, 0.5, 0.6, 0.6, 0.7, 0.7, 0.8, 0.8, 0.9; se k= 2, si ottiene la seguente lista: 0.6, 0.6, 0.7, 0.7, 0.8 la cui media è : 0,68. In sostanza k viene selezionato per eliminare i valori anomali, nel nostro esempio un utente ha selezionato uno score molto basso che sembra essere in contraddizione rispetto ai valori degli altri utenti. oew( d ) indica l insieme di tutte le parole o aggettivi che esprimono un opinione in d. oew( D ) indica l insieme di tutte le parole o aggettivi che esprimono un opinione in D. In generale esistono due tecniche per assegnare un valore ad una parola che esprime un opinione: Pseudo-Expected Value Word scoring; Pseudo Standard-Deviation Adjective scoring. 24

25 3.2.1 Pseudo-Expected Value Word scoring Si parte dalla seguente espressione: Essa determina il numero di occorrenze di una parola w in d rispetto al numero totale delle occorrenze di w in Dtest; l espressione denota cioè il numero relativo di comparse della parola w. Si assegna uno score alla parola in questo modo : Si noti che l espressione precedente ci fornisce una famiglia di tecniche che assegnano uno score al variare di k Pseudo Standard-Deviation Adjective scoring Si tratta di una tecnica basata sull uso della deviazione standard. Sia Dtest un insieme di documenti e H={h1,..,hm} una serie di utenti, ognuno dei quali assegna un valore hi(d) ad un documento. Sia μ la media di tutti i valori hi e sia σ la deviazione standard. Si definisce (sdsc^k)( d ) la media dell insieme {hi(d) abs(hi(d) μ) k σ}. In questo approccio, dunque, si comincia valutando gli scores assegnati ai documenti dagli utenti. Si calcolano media e deviazione standard di questi valori; dopodiché, si scartano quei contributi che differiscono dalla media per più di k-deviazioni standard e si calcola la media dei rimanenti valori. La formula per assegnare un valore ad una parola è la seguente: 25

26 3.3 Scoring documents In questo paragrafo vengono mostrati tre algoritmi per assegnare uno score ad un documento d in D, sulla base dei risultati trovati precedentemente. Gli algoritmi presentati sono i seguenti : Topic-Focused (TF^wsf) Algorithm; Distance-weighted topic focused (DWTF^wsf); Template-Based (TB^wsf) Algorithm Topic-Focused Algorithm L algoritmo cerca tutte le frasi che esprimono, direttamente o indirettamente, un opinione riguardo l argomento t di interesse. Si assegna, poi, un valore wsf( s ) ad ogni frase s sommando gli scores di tutte le parole w,che esprimono un opinione, e che compaiono in s. L algoritmo restituisce il valore medio degli scores di tutte le frasi. Ovviamente i risultati saranno differenti a seconda dell algoritmo di words scoring usato. Pseudocodice : 26

27 3.3.2 Distance-Weighted topic focused L algoritmo esamina tutte le frasi in un documento e vi assegna un valore iniziale (ad es. la media degli scores degli aggettivi nella frase oppure la somma). Si divide, poi, il documento in due insiemi OpinionS e NotOpinionS, il primo contiene le frasi che esprimono un opinione sull atgomento t, il secondo le frasi che non esprimono sentiments. Per ogni s OpinionS e per ogni sn NotOpinionS, si trova la distanza tra le frasi e la si moltiplica per una costante β 1, scelta a piacere. Si moltiplica, quindi, il valore assegnato alla frase sn per e^ (-β* Distance( s, sn)) che attenua l influenza di sn su s. L algoritmo è questo: 27

28 3.3.3 Template-based Algorithm L algoritmo fa uso di una serie di modelli ed esamina solo le frasi che rispettano quel template; in particolare, esso analizza solo quelle frasi che esprimono il parere di qualcuno che non sia l'autore del documento. L approccio è simile al Distance-weighted topic focused : Hybrid Evaluation Method (HEM) HEM ha accesso ad un ampio corpus di documenti (Dtest) valutati da diverse persone con una scala numerica arbitraria. Ogni documento nel corpus è associato ad un vettore di lunghezza m con i valori delle valutazioni delle m persone. Supponiamo di utilizzare uno dei tre metodi precedentemente illustrati per assegnare degli scores ad un documento, ad es s1,s2,s3,s4. In questo caso assoceremo al documento d il vettore (s1,s2,s3,s4).si itera il procedimento per tutti i documenti in Dtest. L algoritmo cerca, poi, gli r-vettori più vicini al vettore di partenza associato al documento d per un certo intero r> 0.Il valore restituito per il documento d è la media degli scores assegnati ai vari documenti valutati : 28

29 3.4 Qualitative Adjective scoring Algorithm Tutti gli algoritmi appena illustrati mostrano un approccio quantitativo alla valutazione di un sentiment, in questo paragrafo si vuole dimostrare come ottenere invece dei risultati di tipo qualitativo per la valutazione di un documento. L algoritmo di QualScore utilizza una scala di valutazione qualitativa costituita da una serie di aggettivi a1,a2,.an disposti in ordine decrescente di positività di giudizio (ad es. positivo, duro, terribile,ecc ) cui si associano dei range di score numerici. Ad es. usando i valori 0.4 e 0.7 si può valutare un documento come positivo se lo score è compreso tra 0 e 0.4,duro se compreso tra 0.4 e 0.7, terribile se maggiore di

30 3.5 Implementazione e Prestazioni Il linguaggio Java è stato usato per implementare le user specifications, il web spider e gli algoritmi per assegnare uno score ad un documento. Oracle è usato per memorizzare e indicizzare nuovi articoli. Il sistema viene eseguito su un server Pentium IV a 3 GHZ con Windows 2003 di 1 GB di RAM. Lo Scored Opinion Expressing Word Bank è costituito da un insieme di 352 articoli riguardo 12 argomenti affrontati da diverse riviste americane. 100 articoli sono stati poi valutati da 16 studenti per creare il word bank. Gli algoritmi sono applicati a dei weblogs Precision Per ogni documento i e argomento j, si confronta il risultato ottenuto mediante l hybrid algorithm ( hybrid(d ij) ) e la media delle valutazione degli studenti ( user(d ij)). Si definisce Acceptedδ, l insieme: che rappresenta il set di tutti quei documenti per cui i valori ottenuti con i due approcci (hybrid e user) sono abbastanza vicini. Definiamo, dunque, la precisione come : con n numero totale dei documenti. (Figura 4 :andamento della precisione al variare di δ, Oasys: An Opinion Analysis System ) 30

31 3.5.2 Recall Per misurare la recall, si suddivide l intervallo [0,1] in tanti sotto intervalli. Per ogni intervallo int, sia Retr(int) l insieme dei documenti classificati dal sistema, il cui valore ricade all interno di int. Sia User(int) l insieme dei documenti classificati dagli utenti il cui valore cade in int. Ridefiniamo l insieme Acceptedδ: Acceptedδ(int) = {d ij : Hybrid(d ij)-user(d ij) <δ con d ij Retr(int) } Si definisce la recall così: I risultati sono i seguenti : (Figura 5: Recall) Performance Il sistema impiega un secondo per ogni weblog per calcolare il vettore contenente gli scores e per assegnare il risultato al weblog con l hybrid algorithm. ( (Figura 6: Performance) 31

32 Capitolo 4 Conclusioni Questo lavoro mostra diverse tecniche per classificare il giudizio espresso da un documento, ciascuna con i suoi vantaggi e svantaggi. L approccio che, però, risulta essere il migliore sia in termini di efficienza, sia in termini di scalabilità e semplicità, è quello mostrato nel capitolo 3: OASYS. In OASYS ci si concentra sull intensità di un opinione che un documento esprime riguardo un certo argomento. Si mostra un architettura che implementa differenti funzioni che consentono di assegnare uno score ad un documento mediante l uso di algoritmi, che automatizzano il processo, ma anche usando il giudizio delle persone; ciò contribuisce a non avere risultati troppo distanti dalla realtà. Quindi, OASYS consente di effettuare un analisi quantitativa più precisa rispetto all approccio binario e al Sentiment Analyzer e consente di associare direttamente ai valori numerici dei risultati di tipo qualitativo (qualitative scoring). Inoltre, rispetto all Adverb Scoring non si è strettamente legati alla sintassi della lingua. 32

33 Bibliografia [1] Carmine Cesarano, Bonnie Dorr, Antonio Picariello, Diego Reforgiato, Amelia Sagoff, V.S. Subrahmanian, 2005 OASYS: An Opinion Analysis System. [2] Farah Benamara, Carmine Cesarano, Antonio Picariello, Diego Reforgiato, 2007 Sentiment Analysis: Adjectives and Adverbs are better than Adjectives Alone. [3] Yohei Seki, David Kirk Evans, Lun-Wei Ku, Hsin-Hsi Chen, Noriko Kando, Chin- Yew Lin, 2007 Overview of Opinion Analysis Pilot Task at NTCIR-6. [4] Bing Liu, Minqing Hu, Junsheng Cheng, 2005 Opinion Observer: Analyzing and Comparing Opinions on the Web. [5] Bo Pang, Lillian Lee, Shivakumar Vaithyanathan, 2002 Thumbs up? Sentiment Classification using Machine Learning Techniques. [6] Lun-Wei Ku, Yu-Ting Liang, Hsin-His Chen, 2006 Opinion Extraction, Summarization and Tracking in News and Blog Corpora. [7] Jeonghee Yi, Tetsuya Nasukawa, Razvan Bunescu, Wayne Niblack, 2003 Sentiment Analyzer. [8] Carmine Cesarano, Antonio Picariello, Diego Reforgiato, V.S. Subrahmanian, 2007 The OASYS 2.0 Opinion Analysis System: A Demo. [9] Salvetti, Lewis, Reichenbach, C Automatic opinion polarity classification of movie reviews colorado research in linguistics. [10] Deerwester, Dumais, Landauer, Furnas, Harshman, 1990 Indexing by latent semantic analysis, journal of the american society of information science. 33

Vedere altro