Viaggio al centro della te cnologia semantica: dal trattamento dei Big Data all analisi del sentiment, passando attraverso il Natural Language Processing Marcello Pellacani Vice President Corporate Division, Expert System Bologna, 16 maggio 2012 Agenda Tecnologie per l'analisi del testo destrutturato: I diversi approcci (keyword, statistico, linguistico, semantico) per la gestione delle informazioni e dei dati strategici. Analisi semantica: le varie fasi. Sensigrafo, la rete semantica di Expert System: Capire con precisione il significato delle parole per sfruttare al meglio i Big Data e la conoscenza contenuta nei documenti Categorizzazione, tassonomie: Ordinare enormi quantità di documenti secondo tassonomie personalizzate Data mining, entity extraction: Estrarre i dati principali per supportare i processi di intelligence Intelligence ed OSINT: Estrarre informazioni rilevanti da fonti open source Sistemi di self-help in Natural Language Processing: Interagire con gli utenti attraverso la ricerca semantica e l'assistenza in NLP Analisi del sentiment e opinion mining: Supportare con efficacia i processi decisionali tramite l'analisi dei social media Use case ed esempi 2
Ogni minuto sul Web 3 La diffusione di Facebook & c. Se Facebook fosse uno nazione sarebbe la terza più grande al mondo per numero di abitanti (il doppio di quelli USA) Quanto sono cresciuti i social media? 1 americano su 4 guarda ogni giorno un video su Youtube Su Flickr vengono caricate più di 3500 immagini al minuto LadyGaga conta oltre 13 milioni di followers su Twitter (settembre 2011) Source: SEJ, Search Engine Journal, Infograhics; Dati aggiornati a settembre 2011 4
Il potere dei social media Non si può sottovalutare il potere di conversazioni, informazioni, pareri, che gli utenti esprimono online 5 Il consumo di informazioni Ogni giorno in azienda circolano email, documenti, pagine web, articoli, messaggi di ogni tipo Troppe informazioni da gestire manualmente 6
BIG DATA Big data from Wikipedia, the free encyclopedia In information technology, big data consists of data sets that grow so large and complex that they become awkward to work with using onhand database management tools. Difficulties include capture, storage, search, sharing, analytics, and visualizing. This trend continues because of the benefits of working with larger and larger data sets allowing analysts to "spot business trends, prevent diseases, combat crime. 7 Scovare le informazioni di valore La tecnologia semantica offre nuove opportunità di estrazione e condivisione della conoscenza, facendo emergere solo le informazioni strategiche... Che tipo di informazioni? Nascoste nei testi interni all azienda Provenienti dagli angoli più remoti del web Già strutturate in database Intrappolate in testi e documenti 8
Tecnologie 1. information retrieval 2. statistiche 3. linguistiche e semantiche 9 Full text retrieval (kw based) L approccio full text retrieval analizza i testi estraendone le sequenze alfanumeriche (keyword): in pratica identifica le keyword considerando come separatori gli spazi, la punteggiatura ed altri caratteri non alfabetici. Organizza degli indici di ricerca con le sequenze associate ai documenti dai quali sono state estratte. In generale elimina le keyword presenti nella maggior parte dei testi perché ritenute poco significative e, per la stessa ragione, non considera stop word, come gli articoli e le preposizioni. Questa tecnologia può essere integrata con eventuali strumenti aggiuntivi: algoritmi di ranking, che definiscono la logica con cui ordinare per rilevanza i risultati delle interrogazioni (di solito numero delle occorrenze dei termini e loro posizione nel documento). La piattaforma di maggior successo oggi sul mercato è quella di Google che, applicata agli ipertesti HTML, calcola il ranking considerando anche il valore dei link fra le pagine; thesaurus, ovvero un sistema di correlazione fra sequenze alfanumeriche il cui scopo è aggiungere sinonimi o flessioni; talvolta uso di stemming, cioè raggruppamenti di parole in base alla loro radice per coglierne le possibili flessioni (es. developing troncato in develop per associare anche developed). 10
Statistica La tecnologia statistica si basa sulla deduzione delle caratteristiche dei testi durante una fase di addestramento con un corpus documentale di esempio; tali caratteristiche riguardano sia la cooccorrenza di termini fra documenti che trattano lo stesso argomento, che la presenza di parole di frequenza medio-bassa spesso considerate particolarmente significative per caratterizzare i testi. Questa tecnologia può essere integrata con eventuali strumenti aggiuntivi: uso di stemming (processo di riduzione della forma flessa di una parola alla sua forma radice, detta tema. Esempio andai, andiamo, andranno! tema: and,! lemma: andare ); Pattern Recognition, cioè identificazione della morfologia di raggruppamenti di termini, come somiglianza della sequenza di caratteri e come contestualizzazione. 11 Linguistica e Semantica Queste tecnologie sono basate sull'analisi linguistica approfondita, che arriva fino al riconoscimento del significato (semantica). Eseguono l analisi morfologica elaborando le keyword, l analisi grammaticale riconoscendo il lemma base (la forma del termine così come compare nel vocabolario), l analisi logica di periodo (identificando soggetto, verbo, complemento oggetto, proposizioni reggenti, subordinate, ecc.) e con memoria del contesto nell'ambito del documento. Raggiungono in questo modo il livello di interpretazione concettuale, distinguendo fra le varie accezioni dei termini e riconoscendo i diversi modi per esprimere la stessa informazione. Il risultato dell'analisi è la costruzione di una mappa cognitiva e concettuale del testo. L utilizzo di queste tecnologie porta inoltre i seguenti benefici: comprende implicitamente la capacità di costruire indici sulle keyword, in quanto primo passo dell'analisi linguistica; gestendo in maniera completa la lingua, non trae vantaggio dall'utilizzo congiunto con altre tecnologie; riconoscendo i lemmi è in grado di gestire tutte le flessioni dei termini; arrivando all'identificazione dei concetti gestisce, tramite la rete semantica, i corretti sinonimi, ad es. distingue fra tempo sinonimo di clima e tempo inteso come epoca storica. 12
Valutazione efficacia: Recall and Precision Recall e Precision sono i principali indici per valutare l efficacia delle soluzioni che effettuano l analisi delle informazioni contenute nei testi. Recall è la capacità di trovare più informazioni possibili rilevanti e attinenti a ciò che si sta cercando; Precision è la capacità di individuare con precisione le informazioni utili (solo quelle). A seconda della funzionalità si può dare una definizione più esatta di questi indici. Ad esempio: nel caso di information retrieval, l efficacia è la capacità di accedere a tutti e solo i documenti rilevanti per una data interrogazione. Quindi: Recall = RIRI / (RIRI + NRRI) Precision = RIRI / (RIRI + RINR) 13 Difficile trovare le informazioni Cresce la quantità di informazioni 15 Petabytes di nuove informazioni al giorno 15 milioni di ricerche al mese Efficacia della ricerca Diminuisce l efficacia della ricerca 1/3 delle ricerche non trovano risultati oltre due ore al giorno spese nella ricerca di informazioni Desktop PC Era Directories Web Social Web Keyword Search (Google) Tagging Semantic Web Natural Language Search Files & Folders Databases Quantità di informazioni
Il problema dell analisi dei testi Stessa parola ma con diversi significati calcio sport Parole diverse ma con lo stesso significato Presidente del Consiglio Capo del Governo elemento chimico 15 Una tecnologia unica Partendo dalla comprensione delle frasi racchiuse nei testi, il software semantico COGITO controlla il caos generato dalle migliaia di documenti con cui abbiamo a che fare ogni giorno: articoli, mail, pagine web, sms
Oltre i limiti delle keyword Grazie alla comprensione del significato delle parole, la tecnologia semantica seleziona, analizza, correla SOLO LE INFORMAZIONI GIUSTE 17 Il valore della semantica Luca mangia il pollo L analisi semantica capisce: " le relazioni tra le parole Luca=soggetto mangia=verbo il pollo=comp.oggetto " il significato delle parole Mangiare=ingerire cibo Diverso il significato di mangiare in si è mangiato il patrimonio di suo padre il maglione è mangiato dalle tarme la tua auto mangia troppo olio Demo: Mangiare 18
Cogito: come funziona Il Sensigrafo Italiano Il Sensigrafo contiene tutte le informazioni occorrenti per l'analisi dei testi. Si tratta della conoscenza linguistica generica della lingua in uso, comprensiva dei nomi propri, che può essere arricchita e personalizzata con i termini appartenenti a particolari ontologie.
Il Sensigrafo Italiano: il syncon Nel Sensigrafo i lemmi (cioè le parole) sono organizzati in syncon. Per syncon si intende un insieme di sinonimi che rappresentano lo stesso concetto lessicale. Ogni syncon coincide con un nodo della rete semantica ed è collegato agli altri da precise relazioni semantiche (= link) in una struttura gerarchica ad ereditarietà. In questo modo, ogni nodo si arricchisce delle caratteristiche e del significato dei nodi vicini. Parser Il Parser esegue una completa analisi morfologica, grammaticale e sintattica della frase in tempi estremamente ridotti, gestendo oltre 3500 regole. Il parser è costruito ad hoc per l interrogazione della rete semantica, superando i limiti delle metodologie di parsing esistenti. Parser Il Parser è il motore che identifica i singoli elementi che compongono un testo, attribuendogli l esatta funzione logica e grammaticale.
Il Sensigrafo Italiano: i principi di ordinamento Le relazioni semantiche (i link), che individuano le parentele semantiche tra i syncon, sono i principi di ordinamento per l'organizzazione dei concetti del Sensigrafo. I syncon possono contenere: - lemmi singoli ('sedia', 'vacanza'; 'lavorare', 'studiare'; 'bello') - parole composte ('non-stop', 'abat-jour', 'capoconvoglio') - collocazioni ('carta di credito', 'titolo di studio', 'andare avanti ) I principali elementi di un syncon sono: - il tipo grammaticale (sostantivo, verbo, aggettivo, avverbio) - la relazione semantica (o link) - la glossa, cioè la spiegazione del significato - dominio, registro, frequenza Il Sensigrafo Italiano: le relazioni tra i syncon Nella rete semantica, il vero significato di un syncon è dato non solo dal concetto espresso dai suoi elementi (sinonimi), ma anche dalle relazioni che intercorrono con gli altri syncon. I principali tipi di link presenti nel Sensigrafo sono i seguenti: - supernomia/subnomia - superverbia/subverbia - omninomia/parsnomia - verbo/soggetto - verbo/complemento oggetto
Il Sensigrafo Italiano: supernomia/subnomia La subnomia riguarda il rapporto che sussiste tra un concetto specifico e uno più generale. Il supernomen, quindi, è il termine più generico; è una parola che ha un significato generale rispetto ad altre che rappresentano specificazioni particolari di quello stesso significato. ESEMPI Cane cane da caccia irish terrier Abitazione appartamento bilocale Computer computer portatile palmtop computer Il Sensigrafo Italiano: superverbia/subverbia La subverbia è una delle relazioni semantiche che legano tra loro i syncon di tipo verbale. Per quanto riguarda la relazione verbale di superverbia/subverbia valgono le stesse regole della subnomia dei sostantivi. ESEMPI Mangiare - mangiucchiare, mangiare svogliatamente Dormire - sonnecchiare, dormicchiare Camminare - zoppicare
Il Sensigrafo Italiano: omninomia/parsnomia La relazione di omninomia/parsnomia si tratta di una relazione tutto/parte. Parsnomen è cioè un termine che indica una parte di qualcosa (omninomen). ESEMPI Arto mano dito Casa bagno lavandino Albero tronco corteccia Il Sensigrafo Italiano: verbo/soggetto Se, dato un sostantivo, si seleziona il link verbo/ soggetto, il Sensigrafo mostra tutti i verbi legati normalmente (cioè più frequentemente) a quel nome quando esso nella frase svolge la funzione di soggetto. ESEMPI Cibo avariare/ disgustare/ scarseggiare Banca accreditare/ vincolare/ finanziare
Il Sensigrafo Italiano: verbo/complemento oggetto Se, dato un sostantivo, si seleziona il link verbo/ oggetto, Il Sensigrafo mostra tutti i verbi legati normalmente a quel nome quando esso nella frase svolge la funzione di complemento oggetto. ESEMPI Acqua bere/ inquinare/ mineralizzare Monumento restaurare/ ammirare/ progettare Il Sensigrafo multilingue Il Sensigrafo multilingue si basa sulla rete semantica inglese a cui possono essere correlate N lingue diverse. La struttura consente di specificare, oltre che relazioni linguistiche, anche relazioni proprie del cliente che arricchiscono la rete di ontologie verticali e personalizzando sulla base delle specifiche esigenze.
Il Sensigrafo multilingue: Inglese-Arabo I nodi della rete semantica inglese sono collegati logicamente con i corrispondenti concetti della lingua araba. In questo modo ereditano tutte le informazioni degli altri nodi consentendo ricerche incrociate e, in prospettiva, traduzioni automatiche. Disambiguare Per un uomo, il significato è una cosa scontata, perché molti sono gli elementi che vengono in aiuto per capire in quale accezione è utilizzata una parola. Ad un programma bisogna trasmettere un interpretazione del mondo univoca costruendogli un sistema di riferimento che sia l equivalente dell esperienza del mondo dell uomo Se addestrati a una sorta di buon senso umano, i computer possono dotarsi di una logica di comprensione del mondo e unirla alla potenza della propria memoria e capacità di calcolo, con risultati unici.
Disambiguatore semantico Il disambiguatore dei significati è il programma che analizza singole frasi o interi documenti e distingue il giusto significato per ogni elemento che incontra, eliminando ogni possibile ambiguità. Compie ragionamenti che distinguono i diversi significati di tutti gli elementi di un testo, individuando il contesto in cui questi sono collocati. Cos è una rete semantica? Una ricca mappa delle associazioni e dei significati delle parole Contiene tutte le accezioni delle parole Include le relazioni fra i vari significati delle parole La qualità dei risultati dell analisi semantica dipende dalla ricchezza e dalla complessità della rete semantica La rete semantica italiana di COGITO: 438.000 concetti 2.000.000 relazioni
Semantica, Application ambiti areas applicativi Le applicazioni 1. Ricerca semantica 2. Gestire contenuti 3. Estrarre informazioni 4. Intelligence 5. NLP 6. Sentiment 36
1.Ricerca semantica Accedere facilmente alle informazioni Ricerca efficace grazie a una chiara comprensione di ciò che l utente sta cercando Navigazione flessibile tra i risultati della ricerca Estrazione più veloce rispetto ai metodi tradizionali Che macchina cerchi? Ad esempio cercando il termine macchina, inteso come veicolo a motore, il motore semantico propone come risultati tutte le parole riferibili allo stesso concetto: auto, automezzo, autoveicolo e anche termini più particolari come berlina, utilitaria, diesel, cabriolet ecc., mentre non saranno considerati i termini macchina fotografica, macchina del caffè, ecc. x x Demo: COGITO SEE Macchina 38
Information retrieval L esempio più noto dell attività di ricerca di informazioni riguarda i motori di ricerca internet che indicizzano le pagine dei siti web pubblici. La stessa funzionalità si può utilizzare in intranet o su archivi documentali. Esempio: Google! espresso 39 2. Gestire contenuti Organizzare la conoscenza con efficacia Categorizzazione precisa dei documenti, arricchimento dei contenuti con metadati e tag semantici Esplorazione interattiva e recupero mirato di dati utili Gestione efficiente di grandi quantità di contenuti editoriali 40
Categorizzazione La categorizzazione rappresenta l archiviazione automatica dei testi secondo una tassonomia prestabilita. Le soluzioni di categorizzazione possono inoltre essere impiegate per lo smistamento automatico delle posta elettronica o della corrispondenza del protocollo informatico. Tassonomie: es. IPTC 41 3. ediscovery Estrarre informazioni rilevanti in un mare di dati Selezione, organizzazione e controllo dettagliato di dati strutturati e documenti testuali Recupero tempestivo di informazioni specifiche, tramite un drill-down che consente di filtrare i dati di interesse Riduzione di tempi e costi di gestione delle informazioni 42
Information extraction (ETL) Le soluzioni di Information Extraction sono software per l estrazione di specifiche informazioni dai testi, la loro trasformazione in una forma normalizzata (univoca) e archiviazione in un database. DEMO: Webix 43 4. Intelligence Fiutare i rischi legati ai cambiamenti Riduzione dei rischi di compliance grazie a un accurata protezione e organizzazione dei dati nel rispetto delle normative Costante monitoraggio di leggi e procedure per migliorare le opportunità di business e rendere più efficaci i modelli organizzativi 44
Intelligence Le applicazioni di intelligence elaborano le informazioni contenute nei testi con funzionalità sofisticate come la scoperta automatica di correlazioni e la costruzione di report di sintesi. DEMO: Webix quella ragazza è una bomba. 45 quella ragazza ha un bomba. 5. Collaborazione Connettere attivamente dati e persone Semplice accesso e condivisione ai contenuti interni ed esterni Gestione ottimizzata di apposite piattaforme di business collaboration (es. Sharepoint) Aggiornamento in real-time, non più solo archivi statici 46
Interfaccia in linguaggio naturale Ricevere richieste e comandi tramite il linguaggio umano. Questa funzionalità si deve occupare di interpretare i comandi che l operatore scrive. DEMO: wiki, Cosmos 47 Multichannel Self-help Solutions Self-help via web, email ed SMS per dare risposte immediate ai clienti Cogito Answers Aumenta la customer satisfaction Si riducono tempi e costi di assistenza 48
6. Sentiment Fiutare i rischi legati ai cambiamenti Riduzione dei rischi di compliance grazie a un accurata protezione e organizzazione dei dati nel rispetto delle normative Costante monitoraggio di leggi e procedure per migliorare le opportunità di business e rendere più efficaci i modelli organizzativi 49 Semantica, perché è diversa Al contrario dei sistemi tradizionali che effettuano un analisi superficiale, la tecnologia semantica è in grado di comprendere con precisione il significato delle parole e le relazioni tra i vari elementi di una frase Quale auto è bella? La BMW è bella! La#BMW,#l auto#che# ho#comprato#per# sos4tuire#la#mia# Mercedes,#è#bella# La#BMW#è#l auto#che#ho# comprato#per#sos4tuire# la#mia#bella#mercedes# La Mercedes è bella! 50
Understanding content Tabella riassuntiva Utilizzando le informazioni dei capitoli precedenti, vengono classificate tutte le tecnologie rispetto all efficacia (la capacità di realizzare la funzione) e l efficienza (il costo complessivo della soluzione e quindi l applicabilità). Nel capitolo dedicato alle conclusione sarà interpretato quanto emerge in questo schema riassuntivo.
L evoluzione della tecnologia Confronto fra tecnologie semantiche Come tecnologie semantiche per la lingua italiana, oltre alla piattaforma COGITO di Expert System, esistono solo sistemi software della ricerca universitaria, per la lingua inglese invece esiste qualche prodotto in competizione. In genere prevedono la strutturazione della conoscenza della lingua con una rete semantica. Un confronto potrebbe essere basato sui seguenti parametri. 54
Gestione delle diverse lingue La gestione di lingue diverse è un importante parametro di valutazione. Le tre diverse tecnologie utilizzano approcci diversi e richiedono differenti effort per la gestione del problema. Keyword in quanto mere sequenze alfanumeriche, l'unico problema è gestire i diversi "set di caratteri" (latino, cirillico, etc.) cioè l'alfabeto; lo stemming (troncare/approssimare le parole) in alcune lingue funziona male nell identificazione delle flessioni. Ad es. per l italiano considerando il verbo scegliere, se prendiamo la radice "sceglie" non riconosce "scelto"; l'espansione delle keyword mediante thesaurus (sinonimi, flessioni) deve essere sviluppata specificatamente per le varie lingue; impegno necessario per la gestione di diverse lingue ->Medio/Basso. Statistica considera i testi come una sequenza di caratteri, quindi funziona indifferentemente per le varie lingue, deve solo gestire il "set di caratteri", cioè l'alfabeto; impegno necessario per la gestione di diverse lingue ->Nullo. Linguistica e Semantica l analisi grammaticale, logica e semantica dipendono strettamente dalla lingua di riferimento; lo sviluppo di una versione per un'altra lingua comporta la stesura di una versione specifica degli algoritmi e la creazione di una rete semantica; impegno necessario per la gestione di diverse lingue ->Alto. 55 Solo in Silicon Valley? Silicon Valley: incubatore perfetto per le aziende tecnologiche
Gli inizi Fondata a Modena nel 1989, Expert System ha perseguito fin da subito un obiettivo preciso: sviluppare un software unico al mondo. Dopo aver mosso i primi passi in un garage di periferia, grazie a un idea vincente abbiamo conquistato la fiducia di Microsoft, che ha integrato i nostri software linguistici negli applicativi per ufficio più diffusi al mondo. Il coraggio di cambiare 1998: dai correttori grammaticali e ortografici al Natural Language Processing. In seguito all avvento di internet, Expert System decide di trasformare la propria attività sviluppando soluzioni per il mercato business.
Una forte cultura dell innovazione: il ruolo dell università Università serve una formazione approfondita, per coniugare le conoscenze scientifiche con la capacità di applicazione e gestione progettuale Alcuni dati " Ultimi tre anni: raddoppiati fatturato e valore della produzione, oltre 11,5 milioni nel 2010, EBITDA del 20%. " 2009-2011: 30% risorse impegnate in R&D, più 10 milioni investiti. + 5 milioni previsti per il prossimo biennio " Oltre 130 professionisti, sedi in Italia e uffici a Londra, Washington D.C. e Chicago
Alcuni clienti Supporta aziende ed enti governativi di ogni settore nella gestione delle informazioni non strutturate e nell utilizzo dei dati strategici, accelerando i processi di innovazione e migliorando la produttività. Parlano di noi
Cogito, la comprensione automatica dei significati 63 Q&A 64
Contatti Grazie # Marcello Pellacani VP Corporate Division Expert System mpellacani@expertsystem.it www.expertsystem.it