Text mining ed analisi di dati codificati in linguaggio naturale. Analisi esplorative di dati testuali

Documenti analoghi

OSINT, acronimo di Open Source INTelligence, uno dei modi per acquisire dati utili per l intelligence:

Le competenze per la gestione e lo sviluppo delle risorse umane nelle università e negli enti di ricerca

Gestione dei documenti e delle registrazioni Rev. 00 del

Database. Si ringrazia Marco Bertini per le slides

Indice. pagina 2 di 10

Il Ministro dei Beni e delle Attività Culturali e del Turismo

«Gestione dei documenti e delle registrazioni» 1 SCOPO CAMPO DI APPLICAZIONE E GENERALITA RESPONSABILITA DEFINIZIONI...

Uff. I. - OLIMPIADI DI PROBLEM SOLVING - Informatica e pensiero algoritmico nella scuola dell'obbligo

Elevator Pitch. [ storia, comuni, codice fiscale ]

1. DISTRIBUZIONE Datore di Lavoro Direzione RSPP Responsabile Ufficio Tecnico Responsabile Ufficio Ragioneria (Ufficio Personale) Ufficio Segreteria

Valutare gli esiti di una consultazione online

2) Entro Novembre. 6) Entro Marzo 2004

Gli strumenti attivati: il portale web ReteVIA

Progettaz. e sviluppo Data Base

PROGRAMMAZIONE COMPETENZE CHIAVE DI CITTADINANZA

IL MARKETING E QUELLA FUNZIONE D IMPRESA CHE:

Comune di San Martino Buon Albergo

Stefania Marrara - Esercitazioni di Tecnologie dei Sistemi Informativi. Integrazione di dati di sorgenti diverse

- OLIMPIADI DI PROBLEM SOLVING - Informatica e pensiero algoritmico nella scuola dell'obbligo

Project Cycle Management La programmazione della fase di progettazione esecutiva. La condivisione dell idea progettuale.

OFFERTA FORMATIVA PER OCCUPATI

Allegato n. 13 Linee guida per la formazione e gestione dei fascicoli

Indice dei contenuti

Progetto ASTREA WP2: Sistema informativo per il monitoraggio del sistema giudiziario

L INDICIZZAZIONE SEMANTICA

Sito web per la presentazione e l accesso ai servizi di Ruven integrato con la piattaforma B2B del pacchetto software ERP Stratega.NET.

STATUTO PER IL SITO INTERNET DELL ENCJ

UNIVERSITA DEGLI STUDI DI BRESCIA Facoltà di Ingegneria

COMUNE DI RAVENNA GUIDA ALLA VALUTAZIONE DELLE POSIZIONI (FAMIGLIE, FATTORI, LIVELLI)

CURRICOLO DISCIPLINARE DI ITALIANO ASCOLTO E PARLATO. Traguardi per lo sviluppo delle competenze. Obiettivi di apprendimento( conoscenze e

Indice di rischio globale

PROGETTARE PER COMPETENZE

Registratori di Cassa

EA 03 Prospetto economico degli oneri complessivi 1

Introduzione alla teoria dei database relazionali. Come progettare un database

Manuale Utente Amministrazione Trasparente GA

Insegnare con il blog. Materiale tratto da:

Alfa Layer S.r.l. Via Caboto, Torino ALFA PORTAL

Entrare nel sistema. Clicca su Entra per entrare nel sistema. PAGINA 1

1. BASI DI DATI: GENERALITÀ

UN GRUPPO DI LAVORO EVOLVE

Nuova funzione di ricerca del sito WIKA.

IL CICLO DI VITA DEL PROGETTO. Elementi essenziali di progetto. Fasi e tappe Gli Approcci

SCUOLA PRIMARIA SCIENZE NATURALI E SPERIMENTALI. Competenza: 1. Comunicazione efficace Indicatore: 1.1 Comprensione

Benessere Organizzativo Interventi di promozione della salute e del benessere psicofisico nelle organizzazioni

TECNICO SUPERIORE PER I RILEVAMENTI TERRITORIALI INFORMATIZZATI

Istituto Centrale per il Catalogo Unico delle Biblioteche Italiane. e per le Informazioni bibliografiche. Manuali utente per SBN WEB. Versione 1.

Archiviazione ottica documentale

IDENTIFICAZIONE DEI BISOGNI DEL CLIENTE

Mercoledì degli Associati. Opportunità di business per le Aziende UCIF. Milano, 20 novembre Federata

[SOLUZIONI INNOVATIVE] Casi di studio sulle pratiche di innovazione

Cosa è un foglio elettronico

Curricolo verticale di ITALIANO

MODULO DI BASE (40 ore)

Il processo di comunicazione

Introduzione all Information Retrieval

Capitolato per la selezione di una cooperativa sociale di tipo b per la realizzazione di attività relative all ambito disabilità e protezione civile

SCUOLA PRIMARIA CURRICOLO DI ITALIANO SECONDO BIENNIO

Istituto Comprensivo di Pralboino Curricolo Verticale

Dispensa di database Access

Istituto Comprensivo di Positano e Praiano C.A.F. 2014

Dai sistemi documentari al knowledge management: un'opportunità per la pubblica amministrazione

Siti Web e Information Architecture: organizzare i contenuti e strutturare le informazioni

RICERCA AZIONE STRUMENTI

Università Politecnica delle Marche. Progetto Didattico

Fondamenti di Informatica. Docenti: Prof. Luisa Gargano Prof. Adele Rescigno BENVENUTI!

Cos è una Web Strategy

visto il trattato che istituisce la Comunità europea, in particolare l articolo 93, vista la proposta della Commissione,

INFORMAZIONE FORMAZIONE E CONSULENZA. benchmark ingbenchmarking benchmarkingbench marking

Introduzione al concetto di azienda e alle operazioni di gestione

Corso di. Dott.ssa Donatella Cocca

Marzio Marzorati Presentazione immagine grafica e sito. Kick-off meeting Brescia,

EXPLOit Content Management Data Base per documenti SGML/XML

MANUALE D USO DELLA PIATTAFORMA ITCMS

LA COLLABORAZIONE NEI TEAM VIRTUALI

PROGRAMMAZIONE E GESTIONE DI UN PROGETTO DI SERVIZIO SOCIALE

4.5 CONTROLLO DEI DOCUMENTI E DEI DATI

Gli strumenti Wiki per Inemar e gli inventari emissioni

PROGETTO TAVOLO GIOVANI

Sistemi di misurazione e valutazione delle performance

BUONE PRATICHE DI CUSTOMER SATISFACTION

Corso di Sistemi di Elaborazione delle informazioni

Organizzare spazi e contenuti di una consultazione online

IL SOFTWARE. Giada Agostinacchio Classe 2^ Beat ISIS G.Meroni Lissone Anno Scolastico 2007/2008

L ALTRA PA. STRATEGIE DI INNOVAZIONE PER LA QUALITA NELL ENTE LOCALE

La norma ISO 9001:08 ha apportato modifiche alla normativa precedente in

Lezione 8. Motori di Ricerca

Knowledge Management

PIANO BIENNALE PER I DIRITTI DELLE PERSONE CON DISABILITÀ

SUAP. Per gli operatori SUAP/amministratori. Per il richiedente

Faber System è certificata WAM School

ONLINE REPUTATION GUIDE

MANUALE MOODLE STUDENTI. Accesso al Materiale Didattico

PROTOCOLLI, PROCEDURE E PIANI ASSISTENZIALI

CORSO DI ITALIANO CLASSE PRIMA

Liceo Tecnologico. Indirizzo Informatico e Comunicazione. Indicazioni nazionali per Piani di Studi Personalizzati

La costruzione di un Portale

MANUALE DELLA QUALITÀ Pag. 1 di 6

Web Reputation. PMI & Web Marketing

Transcript:

Text mining ed analisi di dati codificati in linguaggio naturale Analisi esplorative di dati testuali

Il text mining: una definizione Data mining per dati destrutturati ovvero documenti codificati in linguaggio naturale. Si utilizzano gli algoritmi del data mining per estrarre le informazione implicite contenute in un insieme di documenti. Difficoltà aggiuntive derivanti dalla necessità di dare una struttura ai dati prima di procedere con l analisi. Il text mining si inserisce nel più ampio processo di KDT (Knowledge Discovery in Text Database ).

Knowledge Discovery in Text Database (KDT) Il KDT può essere definito come un processo non banale di identificazione di schemi aventi: Validità universale (applicabilità a dati diversi da quelli da cui sono stati ricavati). Carattere di novità (forniscono informazioni di natura extra testuale non rilevabili direttamente dalla sola lettura del testo). Potenziale utilità (non consistono in una semplice descrizione del testo, ma ne ricavano informazioni utilizzabili a scopi pratici). 3

Le fasi del Knowledge Discovery in Text Le fasi del KDT riguardano il trattamento del testo che consente l estrazione delle informazioni fondamentali. Understanding Text refining Text mining Database Le fasi del KDT sono interconnesse: l output dell una rientra come input nelle altre.

Fase di understanding La fase principale di ogni indagine scientifica è sicuramente costituita dalla comprensione generale del problema e dall individuazione del metodo di soluzione dello stesso. Nel caso di trattamento di dati testuali è necessario far ricorso a tecniche di analisi di dati qualitativi. B-ASC Biccocca Applied Statistics Center 5

Fase di Text refining L obiettivo del text refining è quello di trasformare i dati grezzi in un formato intermedio trattabile tramite le opportune tecniche statistiche. Questo passaggio è necessario per trasformare un testo codificato in linguaggio naturale in un altra forma semi-codificata, gestibile automaticamente. Interazione di linguistica, informatica, psicologia. Tale parte dell indagine è strettamente legata ai metodi di raccolta dati (crawling) e spesso entra in ciclo con essi, allo scopo di garantire una migliore riuscita dell operazione. B-ASC Biccocca Applied Statistics Center 6

Fase di Text refining Operazioni di text refinig (normalizzazione del testo): Analisi lessicale ovvero l eliminazione delle parti del testo non fondamentali alla comprensione del suo contenuto concettuale (punteggiatura, formattazione ecc.) Eliminazione delle stop word, parole che non discriminano ma tendono ad appesantire la struttura del testo (articoli, preposizioni congiunzioni ma anche voci ad alta frequenza). Stemming, raggruppamento di tutte le parole aventi la stessa radice (semantica), che quindi possono essere da essa rappresentati senza perdita eccessiva di significato. Selezione degli IndexTerm, allo scopo di privilegiare i nomi che contengono la maggiore informazione semantica. B-ASC Biccocca Applied Statistics Center 7

Fase di Text refining L analisi semantica nel text refining: Nella codifica dei testi è di fondamentale importanza attribuire il giusto significato a ciascuna parola o gruppo di parole: àncora v.s ancòra giro di boa v.s giro + boa Luna di miele v.s. luna + miele B-ASC Biccocca Applied Statistics Center 8

Text mining La fase di text mining ha come input una forma precedentemente semicodificata. Essa produce: L Estrazione di contenuti semantici rilevanti del testo in esame, allo scopo, per esempio, di ottenere informazioni sull opinione degli utenti. La ricerca di entità utili all estrazione di informazioni, ovvero in modo da fornire la possibilità di formulare risposte automatiche ad interrogazioni specifiche. Il riconoscimento e l estrazione di schemi relazionali tra i fenomeni allo scopo di classificare i dati. B-ASC Biccocca Applied Statistics Center 9

Le fonti per le analisi testuali Materiale cartaceo (necessita di digitalizzazione) Materiale digitale (ordinati per facilità di accesso): Contenuti web Blog Forum Social network Intranet Mail B-ASC Biccocca Applied Statistics Center 10

Le potenzialità del web Le informazioni relative a determinati argomenti tendono a coagularsi intorno a luoghi di incontro virtuali. Via web è possibile reperire notizie non solo tramite le informazioni ufficiali rilasciate come contenuto dei vari siti, ma anche tramite le informazioni che gli utenti si scambiano spontaneamente su blog, forum, social network ecc. Di più difficile reperimento sono le informazioni scambiate tramite mail. Fonte utilizzabile: mail pubbliche. B-ASC Biccocca Applied Statistics Center 11

Le fonti dei dati: il web 2.0 e la comunicazione open source Il web costituisce un punto di incontro virtuale primario che ha ormai sostituito i luoghi fisici tradizionali quali piazze, bar ecc. Le opinioni espresse su forum, blog e social network influenzano le decisioni di numerosi internauti in un intreccio di interscambi di opinioni. Come le opinioni positive fanno spesso da leva per la popolarità di un evento, così la diffusione di quelle negative può creare a sua volta un ulteriore barriera reputazionale. Esistono diverse modalità di scambio di informazioni, più o meno accessibili e strutturate. B-ASC Biccocca Applied Statistics Center 12

Le fonti dei dati: i blog Il blog è assimilabile ad un diario virtuale pubblico in cui il blogger esprime la propria opinione su diversi argomenti, in qualche modo indirizzando la conversazione. I lettori sono invitati a commentare pubblicamente le affermazioni del blogger, dando vita ad un dibattito che può prendere qualsiasi direzione, senza limitazioni. Il blogger gestisce tale indirizzo. B-ASC Biccocca Applied Statistics Center 13

Le fonti dei dati: i forum I forum sono momenti di discussione su argomenti stabiliti a priori. Gli utenti sono individui che condividono degli interessi e decidono di scambiarsi idee, pareri ed esperienze al riguardo. La figura del moderatore garantisce il rispetto delle linee guida entro le quali deve rimanere la discussione. B-ASC Biccocca Applied Statistics Center 14

Le fonti dei dati: i social network Il web in generale offre una mole di dati enorme, ma l aumento della produzione di informazioni è dovuta al proliferare di fonti non istituzionali, di utenti privati che con l intento di scambiare informazioni con i propri conoscenti, forniscono più o meno inconsapevolmente materiale di indagine. Un esempio in proposito sono i social network. B-ASC Biccocca Applied Statistics Center 15

Le fonti dei dati: validità dei dati internet come fonti I dati così raccolti presentano i requisiti fondamentali per essere considerati fonti statistiche: È possibile stabilire la coerenza tra dati contenuti nelle fonti e realtà. È possibile utilizzare tali dati allo scopo di costruire indicatori statistici. È possibile comparare ed integrare tali dati con altre fonti. I dati sono completi dal punto di vista spaziale. I dati sono tempestivamente e periodicamente diffusi. B-ASC Biccocca Applied Statistics Center 16

La metodologia di analisi statistica Il mezzo primario per inserirsi in queste nuove vie di comunicazione sono i motori di ricerca. Essi nascono con lo scopo di reperire in rete i contenuti più pertinenti al contesto descritto dalla parola chiave della ricerca, registrando e coordinando i link tra le pagine inizialmente collegate liberamente e quindi in maniera caotica. La metodologia di ricerca principale nel web è il crawling. B-ASC Biccocca Applied Statistics Center 17

Reperimento del materiale via web: il crawling Il lavoro di ricerca su internet può essere lungo e complicato. L AI ha sviluppato diversi algoritmi di ricerca che cercano di ottimizzare tale operazione: programmi di crawling. Il crawler ha come obiettivo quello di scandagliare il web, sulla base di una start list di parole chiave, alla ricerca di concetti comuni e topic diffusi in modo da far emergere in maniera compatta l informazione implicita presente nel web. B-ASC Biccocca Applied Statistics Center 18

Crawling Il crawling, per migliorare la propria efficacia deve essere integrato con operazioni di rielaborazione successive delle chiavi di ricerca in base ai primi risultati ottenuti. Una prima analisi generale deve essere integrata con aggiustamenti successivi che hanno l obiettivo di circoscrivere sempre più l area di ricerca. I risultati ottenuti sono comunque tanto ampi da richiedere l utilizzo di tecniche di data mining per gestire le analisi dei dati ricavati. B-ASC Biccocca Applied Statistics Center 19

Organizzazione dei dati Il complesso dei dati ottenuti viene organizzato in diversi livelli. L insieme complessivo di tutti i dati a disposizione prende il nome di corpus. Il corpus è composto da diversi documenti, ovvero unità testuali a sé stanti di senso compiuto. Ciascun documento contiene l unità logica fondamentale del testo, ovvero le singole parole. B-ASC Biccocca Applied Statistics Center 20

Le principali tecniche di analisi testuale Facendo riferimento alle tecniche di data mining, disponibili per dati categoriali, ed ampliate per il caso specifico di dati testuali, gli strumenti principali sono: Analisi descrittiva del corpus. Riduzione spaziale della dimensionalità dei dati. Analisi di classificazione. B-ASC Biccocca Applied Statistics Center 21