Text mining ed analisi di dati codificati in linguaggio naturale Analisi esplorative di dati testuali
Il text mining: una definizione Data mining per dati destrutturati ovvero documenti codificati in linguaggio naturale. Si utilizzano gli algoritmi del data mining per estrarre le informazione implicite contenute in un insieme di documenti. Difficoltà aggiuntive derivanti dalla necessità di dare una struttura ai dati prima di procedere con l analisi. Il text mining si inserisce nel più ampio processo di KDT (Knowledge Discovery in Text Database ).
Knowledge Discovery in Text Database (KDT) Il KDT può essere definito come un processo non banale di identificazione di schemi aventi: Validità universale (applicabilità a dati diversi da quelli da cui sono stati ricavati). Carattere di novità (forniscono informazioni di natura extra testuale non rilevabili direttamente dalla sola lettura del testo). Potenziale utilità (non consistono in una semplice descrizione del testo, ma ne ricavano informazioni utilizzabili a scopi pratici). 3
Le fasi del Knowledge Discovery in Text Le fasi del KDT riguardano il trattamento del testo che consente l estrazione delle informazioni fondamentali. Understanding Text refining Text mining Database Le fasi del KDT sono interconnesse: l output dell una rientra come input nelle altre.
Fase di understanding La fase principale di ogni indagine scientifica è sicuramente costituita dalla comprensione generale del problema e dall individuazione del metodo di soluzione dello stesso. Nel caso di trattamento di dati testuali è necessario far ricorso a tecniche di analisi di dati qualitativi. B-ASC Biccocca Applied Statistics Center 5
Fase di Text refining L obiettivo del text refining è quello di trasformare i dati grezzi in un formato intermedio trattabile tramite le opportune tecniche statistiche. Questo passaggio è necessario per trasformare un testo codificato in linguaggio naturale in un altra forma semi-codificata, gestibile automaticamente. Interazione di linguistica, informatica, psicologia. Tale parte dell indagine è strettamente legata ai metodi di raccolta dati (crawling) e spesso entra in ciclo con essi, allo scopo di garantire una migliore riuscita dell operazione. B-ASC Biccocca Applied Statistics Center 6
Fase di Text refining Operazioni di text refinig (normalizzazione del testo): Analisi lessicale ovvero l eliminazione delle parti del testo non fondamentali alla comprensione del suo contenuto concettuale (punteggiatura, formattazione ecc.) Eliminazione delle stop word, parole che non discriminano ma tendono ad appesantire la struttura del testo (articoli, preposizioni congiunzioni ma anche voci ad alta frequenza). Stemming, raggruppamento di tutte le parole aventi la stessa radice (semantica), che quindi possono essere da essa rappresentati senza perdita eccessiva di significato. Selezione degli IndexTerm, allo scopo di privilegiare i nomi che contengono la maggiore informazione semantica. B-ASC Biccocca Applied Statistics Center 7
Fase di Text refining L analisi semantica nel text refining: Nella codifica dei testi è di fondamentale importanza attribuire il giusto significato a ciascuna parola o gruppo di parole: àncora v.s ancòra giro di boa v.s giro + boa Luna di miele v.s. luna + miele B-ASC Biccocca Applied Statistics Center 8
Text mining La fase di text mining ha come input una forma precedentemente semicodificata. Essa produce: L Estrazione di contenuti semantici rilevanti del testo in esame, allo scopo, per esempio, di ottenere informazioni sull opinione degli utenti. La ricerca di entità utili all estrazione di informazioni, ovvero in modo da fornire la possibilità di formulare risposte automatiche ad interrogazioni specifiche. Il riconoscimento e l estrazione di schemi relazionali tra i fenomeni allo scopo di classificare i dati. B-ASC Biccocca Applied Statistics Center 9
Le fonti per le analisi testuali Materiale cartaceo (necessita di digitalizzazione) Materiale digitale (ordinati per facilità di accesso): Contenuti web Blog Forum Social network Intranet Mail B-ASC Biccocca Applied Statistics Center 10
Le potenzialità del web Le informazioni relative a determinati argomenti tendono a coagularsi intorno a luoghi di incontro virtuali. Via web è possibile reperire notizie non solo tramite le informazioni ufficiali rilasciate come contenuto dei vari siti, ma anche tramite le informazioni che gli utenti si scambiano spontaneamente su blog, forum, social network ecc. Di più difficile reperimento sono le informazioni scambiate tramite mail. Fonte utilizzabile: mail pubbliche. B-ASC Biccocca Applied Statistics Center 11
Le fonti dei dati: il web 2.0 e la comunicazione open source Il web costituisce un punto di incontro virtuale primario che ha ormai sostituito i luoghi fisici tradizionali quali piazze, bar ecc. Le opinioni espresse su forum, blog e social network influenzano le decisioni di numerosi internauti in un intreccio di interscambi di opinioni. Come le opinioni positive fanno spesso da leva per la popolarità di un evento, così la diffusione di quelle negative può creare a sua volta un ulteriore barriera reputazionale. Esistono diverse modalità di scambio di informazioni, più o meno accessibili e strutturate. B-ASC Biccocca Applied Statistics Center 12
Le fonti dei dati: i blog Il blog è assimilabile ad un diario virtuale pubblico in cui il blogger esprime la propria opinione su diversi argomenti, in qualche modo indirizzando la conversazione. I lettori sono invitati a commentare pubblicamente le affermazioni del blogger, dando vita ad un dibattito che può prendere qualsiasi direzione, senza limitazioni. Il blogger gestisce tale indirizzo. B-ASC Biccocca Applied Statistics Center 13
Le fonti dei dati: i forum I forum sono momenti di discussione su argomenti stabiliti a priori. Gli utenti sono individui che condividono degli interessi e decidono di scambiarsi idee, pareri ed esperienze al riguardo. La figura del moderatore garantisce il rispetto delle linee guida entro le quali deve rimanere la discussione. B-ASC Biccocca Applied Statistics Center 14
Le fonti dei dati: i social network Il web in generale offre una mole di dati enorme, ma l aumento della produzione di informazioni è dovuta al proliferare di fonti non istituzionali, di utenti privati che con l intento di scambiare informazioni con i propri conoscenti, forniscono più o meno inconsapevolmente materiale di indagine. Un esempio in proposito sono i social network. B-ASC Biccocca Applied Statistics Center 15
Le fonti dei dati: validità dei dati internet come fonti I dati così raccolti presentano i requisiti fondamentali per essere considerati fonti statistiche: È possibile stabilire la coerenza tra dati contenuti nelle fonti e realtà. È possibile utilizzare tali dati allo scopo di costruire indicatori statistici. È possibile comparare ed integrare tali dati con altre fonti. I dati sono completi dal punto di vista spaziale. I dati sono tempestivamente e periodicamente diffusi. B-ASC Biccocca Applied Statistics Center 16
La metodologia di analisi statistica Il mezzo primario per inserirsi in queste nuove vie di comunicazione sono i motori di ricerca. Essi nascono con lo scopo di reperire in rete i contenuti più pertinenti al contesto descritto dalla parola chiave della ricerca, registrando e coordinando i link tra le pagine inizialmente collegate liberamente e quindi in maniera caotica. La metodologia di ricerca principale nel web è il crawling. B-ASC Biccocca Applied Statistics Center 17
Reperimento del materiale via web: il crawling Il lavoro di ricerca su internet può essere lungo e complicato. L AI ha sviluppato diversi algoritmi di ricerca che cercano di ottimizzare tale operazione: programmi di crawling. Il crawler ha come obiettivo quello di scandagliare il web, sulla base di una start list di parole chiave, alla ricerca di concetti comuni e topic diffusi in modo da far emergere in maniera compatta l informazione implicita presente nel web. B-ASC Biccocca Applied Statistics Center 18
Crawling Il crawling, per migliorare la propria efficacia deve essere integrato con operazioni di rielaborazione successive delle chiavi di ricerca in base ai primi risultati ottenuti. Una prima analisi generale deve essere integrata con aggiustamenti successivi che hanno l obiettivo di circoscrivere sempre più l area di ricerca. I risultati ottenuti sono comunque tanto ampi da richiedere l utilizzo di tecniche di data mining per gestire le analisi dei dati ricavati. B-ASC Biccocca Applied Statistics Center 19
Organizzazione dei dati Il complesso dei dati ottenuti viene organizzato in diversi livelli. L insieme complessivo di tutti i dati a disposizione prende il nome di corpus. Il corpus è composto da diversi documenti, ovvero unità testuali a sé stanti di senso compiuto. Ciascun documento contiene l unità logica fondamentale del testo, ovvero le singole parole. B-ASC Biccocca Applied Statistics Center 20
Le principali tecniche di analisi testuale Facendo riferimento alle tecniche di data mining, disponibili per dati categoriali, ed ampliate per il caso specifico di dati testuali, gli strumenti principali sono: Analisi descrittiva del corpus. Riduzione spaziale della dimensionalità dei dati. Analisi di classificazione. B-ASC Biccocca Applied Statistics Center 21