INFORMATION MINING: TRACCE DIGITALI DATI UTILI ALLA CONOSCENZA STRATEGICA

Transcript

1 I quaderni di di Claudio Carpineto INFORMATION MINING: TRACCE DIGITALI DATI UTILI ALLA CONOSCENZA STRATEGICA L Information Mining può essere spiegata in maniera semplice come l estrazione di informazione utile da insiemi di dati. Nella società cosiddetta dell informazione i dati raccolti e le analisi dei dati raccolti diventano sempre più determinanti per promuovere business a qualsiasi livello. Questo numero de I Quaderni di Telèma, dedicato al settore ci accompagna in questo universo in cui la matematica viene applicata all'analisi dei dati. Questo tipo di attività è cruciale in molti ambiti della ricerca scientifica, ma anche in altri settori (per esempio in quello delle ricerche di mercato). Nel mondo professionale è utilizzata per risolvere problematiche diverse tra loro, che vanno dalla gestione delle relazioni con i clienti (CRM), all individuazione di comportamenti fraudolenti per finire all ottimizzazione di siti web. In futuro i processi decisionali delle aziende potrebbero basarsi esclusivamente su questo genere di analisi, infatti la possibilità di analizzare automaticamente dati apre nuovi scenari applicativi finora inimmaginabili permettendo la creazione di una nuova gamma di servizi basati sulla conoscenza. La ricerca proposta nelle pagine seguenti dalla Fondazione Bordoni può portare alla scoperta di regole e associazioni nascoste nelle sequenze di dati, al riconoscimento di entità semantiche nei testi, alla modellazione in tempo reale delle rilevazioni sensoriali e strumentali, e alla profilazione implicita dell utente. La quantità di dati digitali prodotti dall utente aumenta vertiginosamente di giorno in giorno e dunque è quanto mai importante far divulgazione su questo concetto: ognuno di noi lascia una quantità sempre maggiore di tracce digitali. Da queste tracce è possibile risalire ai gusti, alle preferenze, finanche alle abitudini di ciascuno. La conferenza annuale più importante del settore è la KDD (Knowledge Discovery in Databases) Conference; inaugurata nel 1995, nelle ultime edizioni è arrivata a totalizzare 1000 par tecipanti, con sponsorizzazioni milionarie da parte delle aziende informatiche e dei motori di ricerca. In queste pagine sono tre le tecniche specifiche approfondite: la classificazione automatica basata sugli esempi (principalmente con riferimento a basi di dati); la strutturazione automatica dei risultati delle ricerche Web; e l analisi delle opinioni ( sentiment analysis ). Supplemento al numero 266 maggio 2009 di

2 I N D I C e Introduzione Classificazione automatica Analisi e strutturazione dei risultati delle ricerche Web Analisi delle opinioni e dei sentimenti Limitazioni e problemi aperti Information Mining in FUB Il quaderno di Telèma è stato realizzato dalla Fondazione Ugo Bordoni. presidente enrico manca direttore delle ricerche l ing. mario Frullone Curatore del Quaderno: claudio carpineto Hanno collaborato: giambattista amati, andrea Bernardini, raffaele nicolussi, giovanni romano, Fondazione ugo Bordoni SONO USCITI NEL /2009: utente senza segreti informazione personalizzata aprile nuove piattaforme di diffusione terrestre e satellitare della tv digitale: gli standard dvb-t2 e dvb-s2 maggio piattaforme e contenuti in un mondo in movimento giugno la tecnologie Fotoniche per la larga Banda e per le ngn luglio/agosto robot con noi, tra noi e dentro di noi SettemBre robot: tra realtà e fantasia ottobre passaggio al digitale: il modello Sardegna novembre tv digitale terrestre in Sardegna: ecco i primi bilanci dicembre /gennaio e-inclusion: accessibilità nella società dell informazione FeBBraio tecnologia e disabilità: due mondi non ancora globali marzo il futuro di internet: ipv6 un indirizzo per tutti e tutto aprile Iquadernidi

3 introduzione La quantità di dati prodotta in formato digitale ha subito una brusca accelerazione. L universo Web con le sue reti sociali, le tracce lasciate sui siti di commercio elettronico e sui motori di ricerca, i dati raccolti attraverso i dispositivi per la comunicazione mobile personale e dalle reti di sensori sono solo alcuni esempi di questo autentico diluvio informativo. Secondo stime recenti la dimensione dell universo digitale ha raggiunto i 281 miliardi di Giga-bytes, che vuol dire circa 45 Giga-bytes a testa. La possibilità di analizzare automaticamente questi dati aprirebbe scenari applicativi impensabili, con la creazione di una nuova gamma di servizi basati sulla conoscenza. La ricerca ha raccolto questa sfida e sta inventando nuove tecniche di Information Mining, per consentire ad esempio la scoperta di regole e associazioni nascoste nelle sequenze di dati, il riconoscimento di entità semantiche nei testi, la modellazione in tempo reale delle rilevazioni sensoriali e strumentali, e la profilazione implicita dell utente. Information Mining è una disciplina con radici in intelligenza artificiale, apprendimento automatico, information retrieval, statistica e teoria delle basi di dati. Il suo obiettivo principale è fare predizioni, basandosi tipicamente sull analisi di un campione di dati di addestramento dal quale viene appresa conoscenza sotto forma di regolarità o pattern, conoscenza che poi verrà utilizzata per interpretare nuovi dati. In questo senso, le tecniche di Information Mining integrano ed estendono strumenti di analisi dei dati più tradizionali come OLAP (On-line Analytic Processing) e eda (exploratory Data Analysis), che sono basati principalmente sulla verifica delle ipotesi e la modellizzazione dei dati. L interesse scientifico, delle aziende private e degli organismi pubblici è fortissimo. La conferenza annuale più importante del settore è la KDD (Knowledge Discovery in Databases) Conference; inaugurata nel 1995, nelle ultime edizioni è arrivata a totalizzare 1000 partecipanti, con sponsorizzazioni milionarie da parte delle aziende informatiche e dei motori di ricerca. Tantissime sono le università e i centri di ricerca coinvolti, con molta ricerca industriale, numerosi prodotti commerciali, e un grande mondo del software open source. Non c è virtualmente settore produttivo e dei servizi in cui siano coinvolte grandi quantità di dati in forma digitale - marketing, sorveglianza, reti. scoperta scientifica - che non possa beneficiare dell impiego di queste tecnologie. Solo per citare alcuni esempi, esse sono il fondamento dei metodi avanzati per la gestione relazione clienti, il controllo di qualità, l elaborazione dei reclami, la sicurezza delle infrastrutture digitali, la scoperta di frodi, e l erogazione del credito. e nuove promettenti scienze applicative basate sull estrazione automatica delle informazioni stanno nascendo proprio ora, dalla pubblicità contestualizzata (computational advertising) all analisi automatica delle reti sociali del web 2.0 (social web mining). Non è possibile in poche pagine presentare una panoramica esaustiva di un settore così vasto. Noi ci limiteremo ad approfondire tre tecniche specifiche con importanti valenze applicative, e cioè la classificazione automatica basata sugli esempi (principalmente con riferimento a basi di dati), la strutturazione automatica dei risultati delle ricerche Web, e l analisi delle opinioni ( sentiment analysis ). Successivamente discuteremo alcuni aspetti di carattere generale che riguardano le limitazioni e l applicabilità delle tecniche di Information Mining, vedremo quali sono i principali insegnamenti che si possono trarre da una storia di successi (e anche di fallimenti) che ha oramai più di dieci anni, e identificheremo gli sviluppi più promettenti. Infine illustreremo brevemente alcune ricerche in corso presso la Fondazione Ugo Bordoni in questo settore. MAGGIO

4 INFORMATION MINING: TRACCE DIGITALI DATI UTILI ALLA CONOSCENZA STRATEGICA classificazione automatica Figura 1. Frontiere di decisione per problemi di classificazione multipla. È probabilmente il tema che è stato analizzato meglio da un punto di vista scientifico e che ha prodotto tecniche e strumenti software che sono stati applicati in una miriade di casi reali. È anche l argomento sul quale i progressi scientifici sono misurabili in modo più oggettivo grazie alla disponibilità di misure semplici e attendibili e di banchi di prova condivisi. Ogni anno, in occasione della KDD conference, si svolge una competizione - la KDD Cup - nella quale i partecipanti devono cimentarsi con compiti predittivi su basi di dati di grandi dimensioni, solitamente messe a disposizione da grandi aziende che hanno un interesse diretto allo sviluppo di metodi sempre più efficaci. Nel, ad esempio, si trattava di indovinare i gusti degli utenti di Netflix, il più grosso servizio online di noleggio dvd negli USA. Nella KDD Cup 2009, attualmente in corso di svolgimento, bisogna prevedere il grado di fedeltà e la propensione all acquisto di servizi aggiuntivi relativi al compor tamento dei clienti della compagnia telefonica francese Orange. Alla KDD Cup 2009 par tecipano circa duecento squadre, che puntano ad aggiudicarsi anche il premio in denaro messo in palio. esistono vari metodi per realizzare una classificazione. Attraverso l analisi di un insieme di istanze (record, testi, pagine Web) pre-classificate (training set), viene costruito un modello dei dati che poi viene impiegato in fase di predizione sul test set. Questo modello può essere espresso con regole simboliche (ad esempio, se l istanza possiede gli attributi a AND b AND c allora appartiene alla classe X), con regole probabilistiche (se l istanza possiede gli attributi a AND b AND c allora appartiene con probabilità p 1 alla classe X, con probabilità p 2 alla classe Y,...), oppure con una rete neurale, o ancora con metodi geometrici. Quest ultimo paradigma è quello che si è affermato maggiormente negli ultimi anni e al quale dedicheremo un breve approfondimento.le istanze di training vengono rappresentate come punti in uno spazio multi-dimensionale (dove ogni coordinata corrisponde al valore dei singoli attributi che descrivono le istanze) e l obiettivo è trovare le regioni corrispondenti a ciascuna classe; in fase di test le istanze verranno assegnate alla classe della regione in cui cadono. Le frontiere di queste regioni, chiamate frontiere di decisione, possono essere regolari o irregolari (si veda esempio in Figura 1). Quando le frontiere di decisione sono funzioni lineari si parla di metodi lineari per la classificazione e vengono definite attraverso la funzione: Figura 2. Classificazione binaria lineare. n=2 K=2 Quando k=2 la classificazione è detta binaria e il problema della classificazione di un nuovo caso si riduce all individuazione dei coefficienti w e b (Figura 2). In generale il calcolo della frontiera di decisione non è banale a causa della disposizione dei casi da esaminare e della presenza di diverse possibili soluzioni. Tra le metodologie usate per determinate la frontiera di decisione uno dei più utilizzati è quello basato sulle Support Vector Machine (SVM), o macchine a vettori di supporto, che permette di determinare l iperpiano di sepa- 58 Iquadernidi

5 classificazione automatica Figura 3. Classificazione a massimo margine. razione L tale da massimizzare la distanza d (detto margine dell iperpiano) tra i punti più vicini appartenenti alle due classi (Figura 3). Le SVM furono sviluppate negli anni 90 da Vladimir Vapnik e dai suoi collaboratori presso i laboratori Bell AT&T. Appartengono alla famiglia dei classificatori lineari generalizzati e sono anche note come classificatori a massimo margine, poiché allo stesso tempo minimizzano l errore empirico di classificazione e massimizzano il margine geometrico. Le SVM sono state successivamente estese per trattare anche la presenza di punti singolari e per separare istanze che non sono linearmente separabili. Il trucco è quello di trasformare la rappresentazione delle istanze da classificare, passando ad uno spazio a dimensione maggiore. In Figura 4 questo concetto è esemplificato con riferimento al passaggio dal piano allo spazio tridimensionale, dove è facile trovare un piano di separazione per gli stessi oggetti che sul piano non erano invece linearmente separabili. Il metodo SVM, così come altri algoritmi di classificazione, offrono in generale buone prestazioni, ma la loro efficacia va rapportata allo scostamento che i dati reali presentano rispetto alle assunzioni ideali (esplicite o implicite) che sono necessarie per garantire il corretto funzionamento del classificatore. In effetti, in pratica è spesso necessario adottare politiche sofisticate di trattamento e pre-elaborazione dei dati di addestramento senza le quali il classificatore potrebbe offrire risultati molto deludenti. È inoltre fondamentale adottare tecniche computazionalmente efficienti perché le basi di dati possono arrivare a contenere milioni di istanze descritte da decine di migliaia di variabili. Ancora, è importante ottimizzare in modo accurato i parametri del classificatore utilizzando i dati di addestramento ma cercando di evitare il fenomeno di overfitting fra modello e campione. In Tabella 1 vengono riportate le principali difficoltà che si incontrano nei problemi reali. Figura 4. Classificazione con trasformazione dello spazio di rappresentazione. MAGGIO

6 INFORMATION MINING: TRACCE DIGITALI DATI UTILI ALLA CONOSCENZA STRATEGICA Dati ideali Dati reali Distribuzione classi Bilanciata Sbilanciata Tipo di dati Valori mancanti Numerici o simbolici No Misti Si Istanze rumorose Dimensionalità Scale di valori No Bassa Uguali Si Alta Differenti Tabella 1. Condizioni ideali e reali nella classificazione automatica. analisi e Strutturazione dei risultati delle ricerche web Uno dei temi emergenti più interessanti dell Information Mining è costituito dalle metodologie di analisi dei risultati delle ricerche fatte sul Web con i normali motori di ricerca. È nata infatti la necessità di affiancare ai potenti strumenti di interrogazione adeguate metodologie di visualizzazione e di aggregazioni dei risultati. La risposta ad una interrogazione generica espressa con pochi termini è costituita spesso da migliaia di documenti destrutturati che non consentono all utente di discriminare fra i vari aspetti contenuti nei risultati. Se i documenti di interesse si riferiscono ad un particolare significato o aspetto dell interrogazione, il rischio è quello di dover scandire una lunga lista di risultati prima di trovarne qualcuno pertinente. Un classico esempio di termine ambiguo è costituito dalla parola Jaguar che può riferirsi, fra l altro, all automobile e all animale. Anche una interrogazione generica come Roma fa sorgere lo stesso problema: si potrebbe voler cercare informazioni sui monumenti presenti nella città, su una squadra di calcio o sull antica Roma. Questo fenomeno si presenta spesso, sia perché la maggior parte delle ricerche Web sono di tipo informazionale sia perché, a causa delle dimensioni del Web e della proliferazione di sigle, acronimi, nomi propri e altro, praticamente ogni interrogazione formata da uno o due termini è potenzialmente ambigua. In questi casi sarebbe auspicabile fornire all utente la possibilità di accedere direttamente, o con uno sforzo comunque limitato, al significato di interesse. Per affrontare questo problema, il modo più naturale probabilmente consiste nel fare il clustering dei risultati. Analizzando il contenuto testuale dei risultati, è possibile partizionare i documenti in gruppi con significati omogenei, e dare all utente la possibilità di cliccare sul cluster d interesse per vedere i documenti che contiene. Se l etichetta che descrive il cluster è sufficientemente informativa e se i documenti contenuti in esso si riferiscono effettivamente a quell argomento, è possibile accedere ai documenti di ciascun argomento dell interrogazione in tempo logaritmico (invece che lineare) nella lunghezza della lista dei documenti. Uno dei sistemi commerciali più noti che offrono questo servizio è Vivìsimo. Si noti che il clustering dei risultati non è alternativo ai normali motori di ricerca; è un metodo complementare nel caso in cui questi ultimi offrano un risultato insoddisfacente. Mantenendo invece l interfaccia tradizionale a lista di risultati, ci può essere un riordinamento nell ordine di presentazione con l obiettivo di aumentare la copertura dei possibili significati dell interrogazione presenti nella prima pagina mostrata all utente (di solito i primi dieci risultati). Ci si riferisce a questo approccio come diversificazione, e le tecniche impiegate consistono nello scegliere documenti che non solo siano pertinenti rispetto all interrogazione (che è il criterio di ordinamento standard) ma anche sufficientemente nuovi o differenti rispetto ai risultati che sono già stati generati. Un altro approccio è costituito dai motori di ricerca a faccette (faceted search). L idea di base è quella di permettere all utente di esplorare le informazioni uti- 60 Iquadernidi

7 analisi e Strutturazione dei risultati delle ricerche web lizzando dei filtri sulle caratteristiche delle informazioni. Ogni oggetto, infatti, può essere catalogato e classificato in molteplici modi, superando i limiti di una singola tassonomia predefinita. Ogni faccetta è quindi una caratteristica, cui corrispondono molteplici valori, che può essere utilizzata per declinare e scremare le informazioni. esempi disponibili online di faceted search sono il tool Flamenco ( o il più recente mspace ( Nell esempio di mspace accanto al tradizionale box di ricerca vengono forniti all utente delle opzioni per selezionare le pagine per decade, anno, tema, soggetto e titolo. Accanto alla necessità di poter discriminare fra i risultati, c è anche l esigenza di integrarli con informazioni utili che tipicamente vengono acquisite mediante l interrogazione di basi di dati e/o l accesso a servizi Web. L integrazione in forma strutturata di questo tipo di informazione nei risultati (ad esempio mediante tabelle, o fogli di calcolo) potrebbe consentire all utente una forma di interazione coi risultati molto più mirata ed efficace, paragonabile alla consultazione di una base di dati specializzata virtuale. A tutte queste esigenze di miglioramento della fase di analisi e presentazione dei risultati sembra aver cominciato a rispondere sul serio anche Google. È di qualche giorno fa la notizia del lancio di nuove search features. Si tratta di tre servizi sperimentali: Wonder Wheel (letteralmente ruota delle meraviglie ) offre suggerimenti per raffinare la ricerca e consente l applicazione di filtri, Squared costruisce tabelle che riassumono caratteristiche e valori delle informazioni in oggetto (ad esempio, una ricerca per "cani piccoli" restituisce risultati che comprendono nomi, descrizioni, taglia, peso, origine, ecc., di tutti i cani di taglia piccola), e Rich Snippets, che include i dati relativi alle recensioni disponibili per particolari prodotti o i dati di LinkedIn per le persone all'interno della pagina nei risultati (un servizio simile era già disponibile in Yahoo! Search Monkey). analisi delle opinioni e dei Sentimenti Figura 5. Cosa pensano gli appassionati di musica dei Radiohead? La Sentiment Analysis riguarda la possibilità di reperire e trattare computazionalmente le opinioni e i sentimenti espressi dalle persone sui media digitali (ad esempio nei blog) a proposito di determinati argomenti. Le opinioni, una volta reperiti i documenti nelle quali sono contenute, possono essere classificate in due o più classi, ciascuna classe indicante l intensità o la polarità (positiva o negativa) dei sentimenti espressi, e una volta aggregate statisticamente possono concorrere, ad esempio, a fornire il livello di gradimento nella rete di un servizio della Pubblica Amministrazione, o di un prodotto o di un film (vedi Figura 5). La comprensione delle emozioni espresse nei blog dischiude le porte per una vera e propria rivoluzione nella comprensione dei fenomeni del web. Oggi è possibile tastare il polso in tempo reale al gradimento di nuovi prodotti commerciali, soggetti pubblici ed eventi della vita quotidiana. Ad esempio l ultima campagna elettorale americana è stata caratterizzata dall utilizzo di strumenti di Sentiment Analysis da parte dei giornalisti e da parte degli stessi politici per valutare le reazioni degli elettori alle dichiarazioni dei candidati. Anche i primi 100 giorni di governo del presidente degli Stati Uniti Barack Obama sono stati oggetto di valutazione. È molto interessante verificare come l opinione e l apprezzamento degli elettori sia cambiato nel tempo in seguito alle decisioni prese da Obama (vedi Figura 6). Da un punto di vista tecnologico la Sentiment Analysis è un problema molto complesso, ancora oggetto di molte ricerche. In prima approssimazione, si può pensare che l analisi delle opinioni possa essere affrontata e risolta come un problema tipico di classificazione di documenti. Di fatto, le tecniche convenzionali di apprendimento automatico, quali i classificatori SVM o ancor più i classificatori Bayesiani, si sono rivelati scarsamente efficaci, soprattutto se comparati con le prestazioni analoghe ottenute quando si classifica sulla base del contenuto. Il problema spesso si concentra sulla creazione di un dizionario in cui vengono inserite le parole che possono indicare opinioni e polarità di opinioni ed in base a cui vengono e MAGGIO

8 INFORMATION MINING: TRACCE DIGITALI DATI UTILI ALLA CONOSCENZA STRATEGICA Figura 6. Quali sono stati gli eventi che hanno segnato la popolarità di Obama? pesati e giudicati i documenti. Presso la Fondazione Ugo Bordoni è stato costruito in modo automatico un dizionario dei sentimenti. La novità della soluzione proposta dalla FUB è nell'utilizzo di molte parole che spesso sono scartate dai motori di ricerca poiché prive di contenuto informativo, ma che allo stesso tempo sono ricche di contenuto emozionale come ad esempio le parole inglesi I, but, d ( d è usato per esprimere i condizionali I d ). Un problema generale è che la classificazione è computazionalmente costosa. Ad esempio l analisi delle co-occorrenze di aggettivi e verbi al fine di stabilirne un orientamento concorde o dissimile è di fatto intrattabile, in quanto oc- correrebbe addestrare un classificatore contenente centinaia di migliaia di features. Un alternativa più efficiente alla classificazione completa è di considerare per ogni documento solo quei termini che coincidono con quelli utilizzati nella interrogazione formulata dall utente e cercare di stabilire se essi cadono nel raggio di azione di aggettivi e verbi che esprimono sentimenti. In generale, per accelerare il reperimento e la classificazione di opinioni, si devono adottare tecniche di riduzione della dimensione del dizionario (index pruning) e di term-caching o document-caching che permettono di pesare e ordinare efficacemente i documenti per contenuto e qualità di opinione. limitazioni e problemi aperti In questi anni nel mondo Information Mining ci sono stati molti casi di successo e anche fallimenti, da cui c è molto da imparare. Quali sono gli ingredienti essenziali per costruire delle applicazioni riuscite e quali sono gli errori che bisogna evitare? Alcune considerazioni al riguardo si possono fare, in particolare con riferimento al problema della classificazione automatica. In alcuni casi (basti pensare alla diagnosi di malattie) si preferisce avere soluzioni meno accurate ma che siano motivate e comprensibili piuttosto che soluzioni teoricamente migliori ma prodotte da sistemi a scatola nera (tipo rete neurale). La scelta del particolare metodo di classificazione è importante perché il comportamento è differente in funzione delle caratteristiche dei dati (ad esempio se i dati sono linearmente separabili, se sono numerici o categorici, se sono bilanciati o sbilanciati...). La pre-elaborazione dei dati è spesso la chiave per una classificazione efficace, indipendentemente dalla scelta del classificatore. Le operazioni più importanti sono: normalizzazione delle variabili numeriche, raggruppamento di modalità per variabili categoriche, trattamento dei dati mancanti, ordinamento e filtraggio delle variabili, campionamento delle istanze. La validazione e l interpretazione dei risultati è 62 Iquadernidi

9 information mining in FuB un operazione cruciale perché il sistema costruisce un modello basandosi sui dati di addestramento e non è detto che le conclusioni valgano sull'intera popolazione. Le tecniche per ottimizzare i parametri ed effettuare classificazioni robuste sono di grande ausilio. Classici errori che vengono commessi sono: l'utilizzazione di dati di addestramento non rappresentativi, la non considerazione della fluttuazione della popolazione nel caso di dati che cambiano col tempo, un campionamento sbagliato, la focalizzazione su una singola tecnica di apprendimento, la non utilizzazione o l'utilizzazione impropria di metodi di valutazione di laboratorio. È anche interessante provare a tracciare un bilancio scientifico della disciplina. Negli ultimi dieci anni c'è stato un miglioramento importante nelle prestazioni rispetto ai primi sistemi che sono stati impiegati (ad esempio per quanto riguarda la capacità di classificazione)? Alcuni pensano che siamo entrati in una fase, come succede per molti settori nuovi dopo un po di anni, in cui i progressi cominciano ad essere lenti rispetto ai risultati iniziali. D altra parte, continuano a nascere sfide scientifiche, come ad esempio real-time data mining e sequence data mining, e vengono fondate nuove scienze applicative. È il caso di computational advertising, dove il problema è riuscire a identificare i siti Web il cui contenuto è il più adatto ad ospitare i messaggi degli inserzionisti per massimizzare il ritorno dell investimento pubblicitario, o social web mining, in cui si vogliono sfruttare le somiglianze fra i comportamenti e i gusti espressi dalle persone che aderiscono alle stesse reti sociali per fornire raccomandazioni o identificare comunità virtuali (Amazon, ad esempio, dà consigli per gli acquisti analizzando gli acquisti fatti da persone con profili simili). Poiché si tratta di problemi e tipologie di dati inediti, bisogna inventare nuove tecniche o adattare in modo significativo quelle già disponibili. Al contempo, possono nascere difficoltà o contro-indicazioni difficili da prevedere. È il caso ad esempio di Facebook, che negli ultimi mesi del aveva lanciato una forma di pubblicità obliqua e chiaramente lesiva della privacy in cui ciascun utente veniva informato, praticamente in tempo reale, degli acquisti effettuati dalle persone registrate come friends. Qualcuno si è lamentato di aver scoperto proprio così che gli amici gli stavano organizzando una festa a sorpresa, la protesta è montata, e il servizio è stato cancellato. Naturalmente le preoccupazioni a proposito di un uso rispettoso delle informazioni personali è rimasto. Il problema della possibile violazione della privacy insito nell analisi automatica dei dati - in par ticolare nella profilazione automatica dell utente - e dei rimedi che è possibile adottare è stato trattato in un numero recente dei Quaderni di Telèma (Utente senza segreti: informazione personalizzata, Media Duemila n. 255, XXVI - Aprile ), al quale si rimanda il lettore interessato. information mining in FuB classificazione automatica Alla base di molti metodi di classificazione per dati simbolici c è la definizione di una misura di similarità fra due istanze con alcune proprietà aggiuntive (kernel). In pratica, è possibile stabilire una somiglianza quando le due istanze contengono qualche variabile identica (nel caso di testi, esattamente le stesse parole). In FUB si sta investigando una nuova misura di similarità concettuale, in grado di cogliere le relazioni fra variabili (parole) differenti, basata sulla distanza fra le due variabili sul reticolo concettuale associato alla base di dati. Inoltre si stanno studiando nuovi metodi per campionare i dati di addestramento, con l obiettivo di ridurre la complessità computazionale degli algoritmi di classificazione senza sacrificare la loro accuratezza. C. Carpineto, C. Michini, R. Nicolussi (2009). A concept-lattice based kernel for SVM text classification Figura 7. Schermata del motore di clustering KeySRC per l interrogazione jaguar. MAGGIO

10 INFORMATION MINING: TRACCE DIGITALI DATI UTILI ALLA CONOSCENZA STRATEGICA Figura 8. KeySrc su iphone. To appear in Proceedings of the 7th International Conference on Formal Concept Analysis (ICFCA 2009), Darmstadt, Germany. Strutturazione dei risultati delle ricerche web Proprio in questi giorni è stato completato e messo in linea ( KeySRC (Keyphrasebased Search Results Clustering), un nuovo motore di clustering per il Web basato sulla estrazione e trattamento delle frasi chiave presenti nei risultati delle ricerche. In Figura 7 vengono mostrati i risultati di KeySRC relativi all interrogazione jaguar ; KeySRC genera etichette molto espressive e dettagliate, che sembrano in grado di individuare con maggiore precisione e affidabilità il contenuto dei cluster. Presso la FUB, inoltre, si sta studiando e sperimentando l applicazione del paradigma di ricerca basato su clustering dei risultati nello scenario mobile, perché l interfaccia di ricerca standard può essere particolarmente inefficace per dispositivi con schermo ridotto e funzionalità limitate di input/output. Abbiamo verificato che l adozione di un motore di clustering su un palmare o un cellulare sembra in grado di ridurre la durata della sessione e di ampliare la gamma delle ricerche effettuate dall utente. KeySRC è stato sviluppato anche come applicazione iphone (vedi Figura 8). Carpineto C., Mizzaro S., Romano G., Snidero M. (2009) Mobile Information Retrieval with Search Results Clustering: Prototypes and evaluations. J. Am. Soc. Inf. Sci. Tec. (JASIST), 60(5), pp Carpineto C., Osinski S., Romano G., Weiss G. (2009) A Survey of Web Clustering engines In publication in ACM Computing Surveys. analisi delle opinioni In FUB è stato sviluppato un metodo per costruire automaticamente un dizionario di termini pesati con il loro contenuto di opinione, in un dominio di interesse assegnato. L idea è di ricondurre il contenuto di opinione al differente comportamento che un termine ha nei documenti che esprimono opinioni e nei documenti generici. In pratica, viene misurata la divergenza fra la distribuzione di probabilità dei termini presenti in documenti con opinioni e la distribuzione di probabilità dei termini presenti in documenti generici, assegnando punteggi elevati ai termini che contribuiscono maggiormente a detta divergenza. G. Amati1, e. Ambrosi, M. Bianchi, C. Gaibisso, G. Gambosi, Automatic construction of an opinion-term vocabulary for ad hoc retrieval, in Proceedings of european Conference on Information Retrieval, ecir, LNC 4956, pp ,. Claudio Carpineto, Giambattista Amati, Andrea Bernardini, Raffaele Nicolussi, Giovanni Romano Fondazione Ugo Bordoni 64 Iquadernidi