1 Introduzione Information Retrieval: promesse e problemi Presentazione del lavoro Sommario... 5

Transcript

1 Indice 1 Introduzione Information Retrieval: promesse e problemi Presentazione del lavoro Sommario Il recupero dell informazione Analisi dei diversi aspetti dell Information Retrieval Analisi della ricerca nel Web Tecniche di ricerca Il processo di ricerca Considerazione sulla semantica nell IR Caratterizzazione formale dei modelli di IR Modello booleano Il modello vettoriale Ricerca tramite matching di termini Ricerca Text Matching classica Latent Semantic Indexing Notazione Cos è la SVD Approssimazione di rango k Matrici di cambiamento di base Calcolo della SVD Latent Semantic Indexing Ricerca LSI Generazione ed uso della conoscenza terminologica Introduzione Analisi automatica globale i

2 ii INDICE 5.3 La struttura di un thesaurus Similarity Thesaurus Obiettivi della ricerca documenti Espansione di query mediante thesaurus La creazione del thesaurus e il concetto di conoscenza terminologica Criteri per migliorare la qualità della ricerca Updating 45 7 Implementazione 47 8 Analisi prestazionale Introduzione Metriche di valutazione Precision e recall Singoli valori riassuntivi Tecniche di ricerca a confronto Conclusioni e sviluppi futuri 57 A Glossario 59 Bibliografia 61 Elenco delle Tabelle 62 Elenco delle Figure 64

3 Capitolo 1 Introduzione Il testo è la principale forma di comunicazione della conoscenza. Iniziando dai geroglifici, le prime superfici scritte (pietre, legno, pelli di animali, papiri, carta di riso) e poi in seguito la carta, il testo è stato creato ovunque, in molte forme e linguaggi. Utilizziamo il termine documento per denotare una singola unità informativa, tipicamente testo in forma digitale, ma può anche includere altri media. In pratica vi è una non netta definizione di documento. Può essere una completa unità logica, come un articolo di ricerca, un libro o un manuale. Può anche essere parte di un testo più grande, come un paragrafo o una sequenza di paragrafi (anche detti passaggi del testo), la descrizione di un vocabolo in un dizionario, la descrizione di una parte di automobile, etc. Inoltre, rispetto alla sua rappresentazione fisica, un documento può essere ogni unità fisica, per esempio un file, una , una pagina Web, etc. 1.1 Information Retrieval: promesse e problemi Lo sviluppo dell informatica è stato, ed è tutt ora, un valido aiuto per la risoluzione di piccole e grandi problematiche. Le recenti tecnologie sviluppate negli ultimi anni hanno confermato il valente supporto dell informatizzazione, determinando un sempre più crescente utilizzo dei sistemi software. Questo ha comportato forti stravolgimenti in diversi campi, in particolare nel campo lavorativo, portando cambiamenti sia di tipo tecnico che di tipo gestionale. Esaminando ad esempio le innovazioni a cui sono andate incontro le aziende di piccole o medie dimensioni, un primo cambiamento che risulta evidente è la gestione della documentazione. Mentre prima i documenti erano disponibili nel solo formato cartaceo, oggi vi sono numerosi formati elettronici (tra cui txt, html, doc, pdf), in grado di consentire una trattazione delle informazioni completamente automatizzata. Ciò ha permesso una serie di operazioni e van- 1

4 2 Cap. 1: INTRODUZIONE taggi prima impensabili, come una facile accessibilità di documenti condivisi, la possibilità di effettuare modifiche e, soprattutto, grazie a Internet, il poter accedere agli stessi da qualsiasi computer collegato alla rete. Inoltre, grazie a sistemi per il recupero dei dati (Information Retrieval Systems), l accesso ai documenti, o meglio alle informazioni contenute nei documenti, è divenuto sempre più facile e veloce. Avendo il supporto informatico consentito un aumento esponenziale della quantità di documenti producibile e gestibile all interno di un azienda o una istituzione, sono sorte nuove problematiche. L efficienza dei sistemi per il recupero delle informazioni in modo particolare ha risentito negativamente della consistente crescita dei documenti, registrando l incapacità di ritrovare informazioni utili in un vasto insieme di documenti. Assume, in questo problema, importanza fondamentale la nozione di rilevanza per un documento: in passato bastava che un dato documento contenesse le parole chiave della interrogazione (query), affinchè fosse rilevante. Ora, con la mole di documenti sempre crescente, il semplice incorporamento di un termine (di una interrogazione) non garantisce la rilevanza. Ad esempio, una query con le seguenti parole chiave: Marilyn Monroe effettuata su un set di documenti che include la presente tesi, restituirebbe questa pagina, senza aver fornito al fruitore informazioni su Marylin Monroe. Quindi, se da un lato l informatizzazione ha migliorato la qualità (e la quantità) del lavoro, dall altro il conseguente incremento del numero dei documenti pone nuovi problemi: mentre prima era sufficiente ritrovare il documento rilevante per un dato compito, adesso la mole di documenti rilevanti è tale da necessitare un ordinamento degli stessi. Un altro aspetto da tenere in considerazione è l accessibilità dei sistemi di Information Retrieval. Mentre sino a poco tempo fa, l accesso a sistemi di Information Retrieval era riservato esclusivamente a pochi tecnici in grado di saper formulare in modo ottimale una query, oggi l accesso a tali sistemi è possibile anche ad utenti inesperti, per cui le interrogazioni rivolte spesso presentano ambiguità o risultano poco esatte. Questo tipo di interrogazioni hanno come conseguenza la scarsa relazione tra ciò che un utente si aspetta di ritrovare e la risposta ottenuta. A questo si aggiunge l intrinseca ambiguità di alcuni termini se considerati isolatamente (polisemia). Ad esempio la parola java può riferirsi indifferentemente a: un isola un linguaggio di programmazione un tipo di caffè Nasce quindi l esigenza di sviluppare sistemi per il recupero di informazione sempre più sofisticati, capaci di assistere l utente nella formulazione di una interrogazione e in grado di valutarne la semantica concettuale, ed il livello di attinenza dei documenti per tale ricerca.

5 1.2. PRESENTAZIONE DEL LAVORO Presentazione del lavoro In tale contesto si inserisce questo lavoro di tesi, che si prefigge come scopo quello di sviluppare un sistema per il recupero d informazioni portabile, con costi di realizzazione contenuti, utilizzabile attraverso Internet e capace di interpretare una interrogazione, di risolvere i problemi relativi alla ricerca di documenti rilevanti e in grado di eseguire una loro classificazione. Per raggiungere codesti obiettivi, si è scelto di utilizzare un thesaurus per poter acquisire una conoscenza terminologica dell interrogazione formulata dall utente. Un thesaurus è un insieme di termini correlati tra loro attraverso diverse relazioni, tra cui la similarità tra termini, i contrari, le parole spesso utilizzate insieme, etc. L utilizzo di un thesaurus per questo progetto è stato pensato in modo da interporsi tra la richiesta fatta al sistema e la sua risposta, al fine di rendere minima ogni possibile divergenza tra essi. Il tipo di relazione tra i termini che a noi più interessa, è quella che riesce a cogliere meglio le diversità dei concetti espressi dalle parole. Pertanto abbiamo deciso di sviluppare un thesaurus in cui la relazione tra i termini sia quella di similarità. Definendo quanto il significato di una parola sia vicina o distante dal significato di un altra, è possibile acquisire una conoscenza della parola in esame, senza entrare nel merito della sua semantica. Valutare quindi quanto una parola sia distante concettualmente da un altra, equivale a fornire una maggior comprensione del termine e diventa fondamentale ai fini di un buon comportamento del sistema. E importante che questa valutazione non venga fatta solo attraverso il confronto dei significati delle singole parole, ma venga realizzata anche in base alla collezione di documenti in cui si intende svolgere le ricerche. Fondamentale infatti, è che i termini siano relazionati al contenuto dei documenti e ancor di più, che le distanze tra i termini siano studiate in base alla documentazione presente. Per esempio, la parola albero in un contesto informatico ha un significato diverso da quello relativo alla vita quotidiana. Una prima scelta importante è stata quella di decidere in che modo costruire il thesaurus. Una possibilità era di crearlo manualmente, ma questa operazione avrebbe comportato lunghi tempi di realizzo, la necessità di esperti del settore cui la documentazione faceva riferimento e, soprattutto, grossi costi uniti a poca modularità (cambiare il set di documenti implicherebbe il cambio degli esperti). L alternativa era la creazione automatica del thesaurus e questa ci ha portato all approfondimento di alcune tecniche utilizzate nell Information Retrieval e in particolare dell algoritmo LSI (Latent Semantic Indexing). Questo algoritmo calcola la similarità tra documenti, a partire dall insieme dei documenti stessi e dall insieme delle parole contenute nel loro testo. Questo tecnica è capace di interpretare la semantica dei documenti proiettandoli in uno spazio vettoriale di dimensione ridotta in cui, informalmente, possiamo dire di aver filtrato il rumore costituito dai termini non significativi dal punto di vista informativo ma necessari da quello linguistico. Per esempio articoli, avverbi, il verbo essere in tutte le sue coniugazioni, congiunzioni, etc. I risultati prodotti da LSI sono ottimi e la sua applicazione in un Information Retrieval system migliora di molto le prestazioni, ritrovando informazioni

6 4 Cap. 1: INTRODUZIONE con un alto grado di rilevanza. Questo approccio però, ha dei tempi di computazione molto alti, pertanto la sua diretta applicazione per una ricerca diventa improponibile. L analisi di questo processo, ci ha portato a pensare ad LSI come metodo per elaborare le distanze tra termini. Come spiegato, LSI non calcola la similitudine tra i termini, ma la similitudine tra documenti. E però possibile modificare una fase della processo di calcolo al fine di ricavare, per tutti i termini più rilevanti di una collezione, il loro grado di similarità. Quindi con un processo analogo al calcolo della similarità tra documenti determiniamo la similarità tra i termini. In base a queste considerazioni, abbiamo ritenuto di utilizzare questa tecnica per generare in maniera automatica il nostro thesaurus. In questo modo riusciamo a generare un thesaurus strettamente correlato con i documenti, o, più precisamente, con la semantica dei documenti su cui vogliamo effettuare le ricerche. Inoltre, come già sottolineato in precedenza, la creazione automatica permette maggiore elasticità al progetto, minori costi e tempi di sviluppo. Tra i diversi vantaggi, questo approccio ci consente di superare le problematiche analizzate in precedenza, come il caso di interrogazioni ambigue e inesatte. Un utente con difficoltà nel trovare termini appropriati potrà trovare ugualmente documenti attinenti, perché sarà compito del thesaurus ricercare i termini più adatti a partire da quelli introdotti. La comprensione semantica, avviene cercando questi termini all interno del thesaurus ed esaminando tutte le relazioni che questi hanno con i termini vicini, presenti nel thesaurus. La richiesta viene così analizzata e in base alle relazioni trovate tra i termini, potrà essere eventualmente espansa, introducendo tutte le parole fortemente correlate ai termini stessi. Dopo questa analisi si determina l insieme di documenti rilevanti, i quali contengono sia le parole richieste in principio che le parole trovate in un secondo momento nel thesaurus. Un altro aspetto importante affrontato nella nostra tesi è la classificazione dei documenti. Per grandi quantitativi di dati, l ordine con cui vengono proposti all utente i documenti ritrovati assume un aspetto cruciale. L utente deve scegliere se un documento ritrovato è pertinente alla sua ricerca e la sua analisi inizierà verosimilmente dal primo della lista. Se non è presente un ordine, l utente è costretto a scandire tutto l insieme avuto in risposta dal sistema. Diventa importante quindi che i risultati ottenuti dal sistema siano ordinati in base alla loro rilevanza. Se è presente questo ordinamento l utente sarà facilitato nella sua ricerca, avendo molte probabilità di ritrovare l informazione necessaria ai primi posti. Il nostro progetto sviluppa una modalità di ordinamento di base a cui è possibile affiancare altre tre tipi di ordinamento definiti di supporto. L ordinamento di base calcola il peso di un documento in corrispondenza al peso delle parole contenute al suo interno. La tecnica utilizzata è quella di assegnare un peso diverso sia alle parole che descrivono la richiesta di informazione, sia alle parole trovate nel thesaurus. Al peso si fa corrispondere l importanza: più un documento ha un peso elevato, maggiore è la sua importanza. In questo modo è possibile stabilire un ordinamento tra i documenti ritrovati. Gli ordinamenti di supporto sono stati pensati con l intento di valutare l attinenza di un documento anche in base alla disposizione e la quantità delle parole trovate nel testo di un documento. Queste stime, adottate anche da alcuni motori di ricerca, quali ad esempio Google, riescono a discriminare in modo considerevole

7 1.3. SOMMARIO 5 l importanza dei documenti che si sta analizzando. La prima misura è il calcolo del numero di occorrenze di una parola all interno del documento. Dal numero di occorrenze possiamo capire se la parola è casuale in quel documento o se è pertinente alla ricerca. Nel caso che un utente stia cercando più parole all interno di un documento, un altra misura utilizzata è il calcolo della distanza tra le parole all interno dello stesso documento. La motivazione che ci ha spinto al calcolo di questa misura è l osservazione che la vicinanza delle parole può farci capire meglio quanto nel documento queste siano correlate. Nel contesto di una ricerca con più di due termini, risulta utile determinare anche la distanza tra le coppie di parole, perché spesso in questo tipo interrogazioni, alcuni termini hanno un ruolo discriminante e non associativo. Queste tre tecniche, attraverso la misura delle metriche definite, tentano di sintetizzare alcuni comportamenti tipici di un utente, interpretando il tipo di ricerca che l utente potrebbe eseguire. Il sistema si interfaccia con un web-server consentendo una facile consultazione attraverso Internet. Gli utenti che vi accedono possono richiedere i diversi tipi di documenti specificando un insieme di parole che descrivono l informazione di cui necessitano. La ricerca quindi si basa interamente sul contenuto dei documenti e non sulle loro caratteristiche. L approccio considerato, inquadra in pieno le tematiche che vogliamo affrontare in questo contesto, perché mette in luce gli aspetti relativi all attinenza tra la richiesta e la risposta. A fronte di quanto discusso, si è pensato di sviluppare un interfaccia in grado di tenere conto di tutti i diversi tipi di ricerche che è possibile effettuare. Dall esame dei diversi atteggiamenti, si intuisce che l utilizzo del thesaurus in una ricerca che non lo richieda, potrebbe disorientare la ricerca stessa, causando una forte irrilevanza. E quindi utile far scegliere all utente se utilizzare o meno la tecnica del thesaurus. E inoltre conveniente far scegliere all utente se e quali metriche utilizzare per la sua richiesta, senza la necessità di dover prevedere a priori quale potrebbe essere l atteggiamento dell utente. L interfaccia da noi sviluppata vuole essere semplice e di facile utilizzo. Ci proponiamo di mettere il fruitore del servizio nelle condizioni di decidere quale euristica attivare, assegnando un valore a ciascun delle euristiche (eventualmente nullo). A seconda dei valori scelti, sarà attribuita una diversa importanza a ciascuna euristica. Questi valori infatti, saranno utilizzati per operare un bilanciamento di questi tre criteri, per restituire in fine un ordinamento unico. La scelta di utilizzare una interfaccia il più possibile trasparente all utente, permette un duplice utilizzo. Se da una parte facilita la comprensione della interrogazione, facendo scegliere all utente il tipo di ricerca che si vuole effettuare, dall altra permette di sperimentare in quale condizioni sia valida un tipo di ricerca e di individuare quale metodo restituisce le risposte più rilevanti. Per di più, attraverso una fase di analisi del comportamento del sistema per i diversi valori assegnati alle euristiche, è possibile determinare quali sono i valori per cui si ottengono i migliori risultati. 1.3 Sommario Il Capitolo 2 è incentrato sulle tematiche inerenti all Information Retrieval, spiegando la necessità di determinare la rilevanza dell informazione e analizzando alcune delle tecniche utilizzate

8 6 Cap. 1: INTRODUZIONE nei diversi scenari applicativi. Nel Capitolo 4 viene analizzata la tecnica del Latent Semantic Indexing ed il suo utilizzo per la ricerca di documenti; sono spiegati gli elementi matematici che ne sono alla base (la Singular Value Decomposition), e ne viene data una spiegazione semi-rigorosa sul perchè riesca a migliorare la qualità di ricerca dei documenti. Nel Capitolo 5 terzo capitolo è presentato lo stato dell arte sulla generazione e l uso di conoscenza terminologica al fine di migliorare la qualità della ricerca, ed in particolare per una riformulazione più efficace della richiesta di informazione dell utente. In particolare si spiegano le motivazioni che ci hanno spinto alla scelta del thesaurus e il sistema adottato per la sua costruzione automatica. Vengono inoltre illustrate alcune funzionalità per migliorare la ricerca. Nel terzo capitolo è sviluppata un ampia panoramica degli strumenti software utilizzati per la realizzazione del progetto. Sono evidenziati, inoltre, i motivi che hanno portato alla loro scelta attraverso un attenta esamina delle differenze con le altre tecnologie esistenti. Nel quarto capitolo è esaminata l applicazione software realizzata, sono giustificate le scelte tecniche ed analizzati i problemi sorti durante la stesura del codice. In questo capitolo viene illustrato il principio di funzionamento di ogni modulo che compone il sistema, riportando stralci di codice in cui sono evidenziati gli aspetti più interessanti. Nel quinto capitolo viene mostrata la fase di testing del sistema, definendo l insieme di documenti con cui si è svolta la sperimentazione, spiegando gli indici relativi alla sperimentazione e mostrando grafici inerenti alle simulazioni effettuate. Infine l appendice completa la trattazione, descrivendo il pacchetto software realizzato e le operazioni di configurazioni da eseguire per renderlo funzionante.

9 Capitolo 2 Il recupero dell informazione Il recupero dell informazione affronta le problematiche inerenti l organizzazione, la rappresentazione, l immagazzinamento e l accesso dell elemento informazione. La rappresentazione e l organizzazione dell informazioni provvede infatti a facilitare l accesso alla informazione di cui un utente necessita. Tuttavia caratterizzare tale informazione non risulta un compito semplice. Un sistema software non è (al momento) in grado di comprendere una richiesta espressa in linguaggio naturale, quindi l interrogazione dell utente deve essere prima tradotta in una query che può esser processata dal sistema che recupera l informazione. Il modo più semplice per la traduzione della richiesta dal linguaggio naturale a un linguaggio che un sistema informatico può capire, consiste nel riformulare tale interrogazione come un insieme di parole (o keyword, o termini) idonee a descrivere il contenuto dell informazione desiderata. Tale compito è, nella maggioranza dei casi, lasciato all utente. Data una query, l obiettivo di un sistema per il recupero dell informazione (IR system) è di trovare l informazione più rilevante per l utilizzatore del sistema a seguito della query immessa. 2.1 Analisi dei diversi aspetti dell Information Retrieval L Information Retrieval si indirizza su due principali aspetti: il ritrovamento dei dati e il ritrovamento dell informazione. Il ritrovamento dei dati, nel contesto dell Information Retrieval system, si pone come obiettivo quello di determinare quali documenti contengono le parole utilizzate nella query, e ciò, nella maggior parte dei casi, non è sufficiente a soddisfare la necessità dell utente. Un linguaggio di data retrieval permette di recuperare tutti gli oggetti che soddisfano condizioni ben definite, come quelle date da espressioni regolari o da espressioni in algebra relazionale. Dunque, per un sistema di data retrieval, un singolo oggetto erroneamente recuperato (o non recuperato) su migliaia di oggetti, può significare un sistema fallimentare. Il ritrovamento dell informazione, sposta invece il punto di vista sul concetto che la query 7

10 8 CAP. 2: IL RECUPERO DELL INFORMAZIONE vuole descrivere, cercando di interpretarne il contenuto semantico, per poter restituire i documenti più attinenti a tale argomento. La principale differenza tra questi due approcci è nella modalità di intendere la richiesta: il ritrovamento dei dati vede la richiesta come una semplice ricerca di una o più parole all interno dei documenti, il ritrovamento dell informazione cerca di capire a quale informazione si vuole accedere; mentre la teoria delle basi di dati ha a che fare con richieste sotto forma di precisi predicati, nell Information Retrieval si ha a che fare con il nebuloso e mal definito concetto di rilevanza, che dipende in modo intricato dall intento dell utente e dalla natura del corpus. Per un sistema di Information Retrieval, dunque, gli elementi recuperati possono essere inaccurati e piccoli errori possono rimanere del tutto non notati. Un aspetto importante da evidenziare, che ha fortemente influenzato i metodi per la ricerca dei documenti, è il considerevole incremento della mole di dati da memorizzare e da gestire che si è registrato negli ultimi anni. Questo ha comportato lo sviluppo di particolari sistemi software, ovvero i database, in grado di migliorare la gestione dei dati, archiviandoli e strutturandoli in maniera omogenea. Un buona organizzazione dei dati migliora il sistema di ritrovamento, tuttavia non soddisfa le richieste di ricerca inerenti al testo di un documento. Questi sistemi infatti, non riescono a discriminare i documenti per il loro contenuto, ma solo per le loro caratteristiche generali. Il compito di ricercare un documento che contenga una specifica informazione al suo interno è lasciato all utente, ma il grande quantitativo dei dati può rendere improponibile una ricerca manuale. In questo scenario l IR è stato di grande ausilio, perché prende in considerazione anche il testo dei documenti. Tuttavia, con interrogazioni poco selettive, l IR system potrebbe dare in risposta molti documenti, di cui non si conosce a priori il grado di rilevanza. Anche in questo caso, è l utente a dover cercare, tra tutti i documenti restituiti, quello più attinente alla sua richiesta. Nasce così l esigenza di ordinare i documenti ritrovati in base alla loro rilevanza. Le difficoltà per raggiungere questo obiettivo, è sia nel capire quale informazione l utente vuole ritrovare, sia nel decidere, per ogni documento ritrovato, quale è il suo grado di rilevanza rispetto a tale informazione. 2.2 Analisi della ricerca nel Web L IR, sebbene molto utilizzato, in passato ha avuto poca considerazione negli ambienti della ricerca, perché applicabile ad una ristretta area di interesse. Questa considerazione è stata prevalente per molti anni, nonostante la rapida crescita dell informatizzazione e il forte utilizzo dei personal computer. All inizio degli anni 90, però, un fatto determinante ha cambiato una volta per tutte questa opinione: la nascita del Word Wide Web. Il Web sta diventando un universale repository di conoscenza umana e culturale che ci ha portato a una condivisione di idee e di informazione in una espansione senza precedenti: ognuno può creare propri documenti

11 2.2. ANALISI DELLA RICERCA NEL WEB 9 Web, pubblicarli e farli puntare a qualsiasi altro documento Web senza alcuna restrizione. Questo è un aspetto chiave, in quanto trasforma il Web in un nuovo mezzo di pubblicazione, accessibile a chiunque. Questo grande successo del Web ha tuttavia introdotto nuove problematiche. Trovare informazioni utili sul Web è spesso un compito tedioso e difficile. L utente è spesso costretto, per soddisfare la sua necessità di informazione, a navigare di link in link alla ricerca, talvolta vana, di ciò che lo interessa; ciò può rivelarsi un ostacolo insormontabile, soprattutto per gli utenti alle prime armi. L ostacolo principale è l assenza di un ben definito modello per la presentazione dei dati sul Web, che implica una spesso scarsa qualità della definizione e strutturazione dei dati. Un passo per facilitare la ricerca nel web è stato fatto attraverso lo sviluppo di XML, un linguaggio che fornisce la possibilità di rappresentare ogni tipo di documento o dato, proteggendo le informazioni dalle evoluzioni tecnologiche. XML è una estensione dell HTML, ma a differenza dell HTML non si occupa di descrivere la formattazione del testo, ma di descrivere il ruolo logico degli elementi associati. Da questo segue che le applicazioni possono riconoscere i dati all interno dei documenti, potendo quindi svolgere operazioni che non sarebbero mai stati capaci di svolgere prima. Tuttavia un grande ostacolo resta l assenza di un modello ben definito di dati per il Web. Infatti sul Web può essere messo materiale creato da chiunque e considerando che la gran parte di utenti sono dilettanti, spesso si ha una bassa qualità della informazione e della struttura dei dati. Un altra questione che si affronta nel Web è il Ranking delle pagine, che tratta la problematica di attribuire un ordine ai risultati ottenuti da una ricerca. Molti algoritmi, sviluppati per risolvere il problema, calcolano l ordinamento dei risultati esaminando l importanza di ciascuna pagina. L importanza di una pagina Web viene determinata considerando il contenuto e l interesse che questa ha suscitato nei lettori. In tal modo, è possibile stabilire un ordine delle pagine ritrovate, in base all effettiva attenzione ed importanza che queste hanno riscosso. Seguendo come obiettivo quello di filtrare le pagine più attinenti per la ricerca, si sono sviluppati algoritmi che prendono in esame la struttura del WWW, che ha come caratteristica fondamentale il collegamento ( link) tra le diverse paginone. E possibile infatti, analizzare tale struttura per estrarre informazioni utili circa le pagine che trattano un determinato argomento, focalizzando quelle più autorevoli. In generale, queste tecniche calcolano l importanza di una pagina in base all importanza delle pagine che puntano ad essa. In questo modo, se una pagina ritenuta autorevole ha un link ad un altra, quest ultima assume una importanza maggiore rispetto al caso in cui ha un link con una pagina poco autorevole [7] [8]. L analisi della ricerca nel Web presenta scenari e problematiche assai ampie e complesse, ma gli sforzi nello studio di tecniche innovative nel campo dell IR stanno portando la ricerca nel Web a livelli sempre più accurati. Tuttavia, le tecniche che tendono a migliorare la qualità della ricerca devo essere compatibili con tempi di risposta accettabili per il Web, che sono molto rigidi. In media infatti, si può affermare che se un utente entro alcuni secondi di attesa non riceve una risposta, tende a cambiare la sua ricerca, riformulandola in maniera diversa o andando su un altro sito. Questo

12 10 CAP. 2: IL RECUPERO DELL INFORMAZIONE tipo di atteggiamento, rende i tempi di attesa determinanti ai fini di una ricerca soddisfacente nel Web. Tuttavia, non è sempre possibile conciliare buoni algoritmi con tempi di risposta accettabili e sono molti i casi in cui questo compromesso non viene raggiunto. Di conseguenza, metodi validi nell IR, ma con tempi di computazione molto lunghi, non possono essere utilizzati nella ricerca nel Web [9]. 2.3 Tecniche di ricerca Il recupero dell informazione ha avuto la sua crescita seguendo come obiettivo primario l indicizzazione del testo e il ritrovamento dei documenti più utilizzati in una collezione. Ad oggi, la ricerca in Information Retrieval include modellazione, classificazione e catalogazione dei documenti, visualizzazione dei dati, filtraggio, etc. In questo paragrafo esamineremo alcune delle tecniche più significative. Il recupero dell informazione è un problema che può essere affrontato su diversi livelli, in funzione del grado di rilevanza che la risposta vuole soddisfare. Una delle tecniche più semplici per il ritrovamento dei documenti è il Full Text Scanning. Tale tecnica consiste in una prima fase, in cui vengono memorizzate le parole e le caratteristiche dei documenti in un database e in una seconda fase, in cui si esaminano le parole memorizzate confrontandole con l insieme di parole scelto per la query. Se un documento contiene anche solo una di queste parole, viene restituito. Sebbene semplice, i tempi di risposta di una ricerca eseguita con il Full Text Scanning diventano improponibili per Data Base di dimensioni molto grandi. Una estensione di questa tecnica è rappresentata dall Inversion. L idea di base è pensare un documento come caratterizzato da una lista di parole chiave, le quali riescono a descrivere il contenuto del documento. Le parole chiave sono memorizzate in un file e per ognuna, viene mantenuto un collegamento al documento caratterizzato dalla parola stessa. Un ritrovamento veloce può essere fatto indirizzando la ricerca solo su queste parole chiave. Questo metodo è utilizzato dalla maggior parte dei sistemi in commercio. Un altra tecnica utilizzata è il Clustering (raggruppamento), in cui documenti simili vengono raggruppati insieme. Questo raggruppamento viene giustificato con il presupposto che documenti simili tendono a essere rilevanti per lo stesso tipo di ricerca. Raggruppando documenti simili si accelera il ritrovamento. Le tecniche analizzate fin ora associano a ciascun documento poche informazioni. Questa tendenza è stata superata dai più recenti metodi, i quali cercano di catturare maggiori dati da un documento, per ottenere performance migliori. L obiettivo è quello di cogliere il significato semantico dell informazione richiesta, interpretando la collezione di documenti su cui va ricercata. Per catturare maggiore informazione vengono utilizzati gli spazi vettoriali. Tra i metodi più importanti citiamo Latent Semantic Indexing (LSI). Questa tecnica, tra tutte quelle che utilizzano lo spazio vettoriale, ha ottenuto i risultati migliori. Data una collezione di documenti, viene formata una matrice termine-documento, i cui valori sono rappresentati da numeri interi che determinano le occorrenze di uno specifico termine in uno specifico documento. I singoli el-

13 2.4. IL PROCESSO DI RICERCA 11 ementi di questa matrice vengono poi elaborati e i valori più piccoli vengono eliminati. I vettori e i valori risultanti nella matrice, sono utilizzati per mappare la frequenza dei vettori di termini all interno dei documenti, in un sottospazio in cui sono preservate le relazioni semantiche per la matrice termine-documento. I vettori di termini che hanno forti variazione sono soppressi. Su questi dati vengono poi compiute operazioni di similarità tra i documenti e i documenti possono poi essere classificati in ordine di somiglianza decrescente. 2.4 Il processo di ricerca Per descrivere il processo di ricerca, utilizziamo una semplice e generica architettura software mostrata in figura. Innanzitutto, prima che inizi il processo di retrieval vero e proprio, è necessario definire la base di dati dei testi. Ciò viene generalmente effettuato dal manager del database che specifica: 1. i documenti da indicizzare; 2. le operazioni da effettuare sul testo, le quali trasformano i documenti originari, generando una vista logica su di essi; 3. il modello di testo (la struttura del testo e quali elementi possono essere recuperati).

14 12 CAP. 2: IL RECUPERO DELL INFORMAZIONE Una volta definita una vista logica dei documenti, il DB Manager genera un indice dei testi. Un indice è una struttura critica poichè consente una ricerca rapida su enormi volumi di dati. Si possono utilizzare differenti strutture di indice, ma la più popolare è la cosiddetta inverted file. Si noti che le risorse (di tempo e di spazio di memorizzazione) spese nella costruzione dell indice vengono ammortizzate dalle numerose richieste rivolte al sistema di retrieval. Una volta costruito l indice, il processo di ricerca può essere iniziato. L utente definisce inizialmente la sua necessità informativa, la quale viene poi analizzata e trasformata tramite le stesse operazioni applicate al testo. Successivamente, si possono effettuare operazioni sulle query prima che sia generata la query finale, la quale fornisce una rappresentazione per il sistema della necessità dell utente. La query è poi processata al fine di ottenere i documenti richiesti. Un veloce processamento della query è reso possibile dall indice precedentemente costruito. Prima di essere forniti all utente, i documenti recuperati possono essere ordinati in base ad una misura di somiglianza. L utente quindi esamina l insieme dei documenti restituiti, in cerca di informazioni utili. A questo punto, è possibile che l utente selezioni un sottoinsieme dei documenti ricevuti come di interesse, dando inizio così ad un ciclo di feedback. In tale ciclo, il sistema utilizza i documenti selezionati dall utente per modificare la query, al fine di renderla più adatta al recupero delle reali informazioni necessarie all utente. 2.5 Considerazione sulla semantica nell IR Le tecniche di IR tendano ad essere più efficaci qualora si prefiggano come obiettivo quello di catturare più informazioni possibili dal documento per meglio cogliere la sua semantica [2]. Questa strada è seguita anche dalle tecniche per l analisi del linguaggio naturale, le quali tentano di cogliere il contenuto semantico della interrogazione, per confrontarlo con il contenuto semantico del documento. In realtà la distinzione tra l analisi del linguaggio naturale e le tecniche dell IR non è così netta. Un esempio dell integrazione tra le tecniche per il recupero dell informazione e il processamento del linguaggio, è dato dall uso di frasi come termini indicizzanti per i documenti [2]. L utilizzo di una frase come query porta come beneficio un maggiore contenuto semantico, ma potrebbero esserci dei riscontri negativi, come ad esempio il rischio che l alta specificazione della frase comporti una riduzione delle performance del ranking. Un risultato che l IR deve raggiungere, consiste nel riuscire, data una query, a capire il suo significato semantico e restituire uno o più documenti attinenti alla richiesta, ritenuti rilevanti rispetto al resto della collezione in base ad una modellazione della semantica dei contenuti di ciascun documento. Nei tradizionali sistemi di IR, usualmente si adottano indici per il recupero dei documenti. In senso stretto, un indice è una parola chiave la quale racchiude un proprio significato al suo interno. In senso più generale, un indice è una parola che compare all in-

15 2.6. CARATTERIZZAZIONE FORMALE DEI MODELLI DI IR 13 terno di un documento di una collezione. Di regola, la scelta dell indice ricade sulla parola maggiormente presente nel documento. Definito un indice, questo viene collegato ad uno o più documenti. In questo modo, se nell interrogazione fatta dall utente è presente uno degli indici definiti, vengono velocemente restituiti i documenti con cui l indice è stato collegato. Quindi la parola che si scegli come indice è tale che il suo significato possa rappresentare il contenuto del documento a cui indicizza. Il ritrovamento basato sugli indici è molto semplice, ma fa sorgere alcune problematiche. Per esempio, nel ritrovamento dei documenti utilizzando gli indici si assume come idea fondamentale che, sia la semantica di un documento, sia l informazione di cui si ha bisogno, possano essere naturalmente espressi attraverso un insieme di parole. Chiaramente questa è una considerazione molto semplificata del problema, perché la semantica espressa nella richiesta e la semantica espressa nel documento, è molto bassa quando viene sintetizzata da un insieme di parole [19]. Per ciò che riguarda la semantica della richiesta fatta utilizzando un insieme di parole chiave, spesso c è difficoltà da parte dell utente a trovare i termini più adatti per esprimere l informazione ricercata. In tali condizione è più facile incorrere in documenti irrilevanti. Per ciò che riguarda la semantica del documento, talvolta il suo significato non può essere direttamente espresso dalle parole presenti al suo interno. Ad esempio, un documento che tratta di programmazione, potrebbe non contenere la parola PROGRAMMAZIONE. Quindi i risultati ottenuti dalle ricerche che considerano l attinenza di un documento confrontando gli indici, potrebbero portare un certo grado di irrilevanza. Da qui nasce l esigenza di studiare la semantica di una richiesta in relazione alla semantica della collezione di documenti. L introduzione dei Thesaurus, ha permesso di superare molte difficoltà, consentendo di trovare una maggiore affinità tra la richiesta e la risposta. Questo argomento sarà trattato nel capitolo seguente. 2.6 Caratterizzazione formale dei modelli di IR Si è intuito che le premesse fondamentali che formano le basi di un algoritmo di ranking, determinano il modello di Information Retrieval. Analizzeremo ora differenti insiemi di tali premesse. Tuttavia, prima di far ciò bisogna definire con precisione cosa sia un modello di Information Retrieval. Definizione 1. Un modello per l information retrieval è una quadrupla [D, Q, F, R(q i, d j )] dove: D è un insieme costituito da viste logiche (o rappresentazioni) dei documenti della collezione. Q è un insieme costituito da viste logiche (o rappresentazioni) delle necessità informative dell utente. Tali rappresentazioni sono dette queries. F è un framework per modellare le rappresentazioni dei documenti, le queries e le relazioni tra loro.

16 14 CAP. 2: IL RECUPERO DELL INFORMAZIONE R(q i, d j ) è una funzione di ranking che associa un numero reale con una query q i Q e la rappresentazione di un documento d j D. Tale ranking definisce un ordine tra i documenti rispetto ad ogni query q i. Per costruire un modello pensiamo dapprima alle rappresentazioni dei documenti ed alle necessità dell utente. Date queste rappresentazioni, elaboriamo poi il framework in cui possono essere modellati. Questo framework dovrebbe anche fornire l idea per costruire una funzione di ranking. Per esempio, per il modello classico Booleano, il framework è composto da insiemi dei documenti e da operazioni standard sugli insiemi. Per il modello classico vettoriale, il framework è composto da uno spazio vettoriale m-dimensionale e da operazioni sui vettori derivate dall algebra lineare. Vediamo ora i due principali modelli classici per l Information Retrieval. Essi sono caratterizzati dalla considerazione che ogni documento è descritto tramite un insieme di parole chiave (keywords) rappresentative, detti termini index terms. Un termine è semplicemente una parola la cui semantica aiuta a ricordare gli argomenti principali di un documento. Dunque i termini sono utilizzati per indicizzare e riassumere il contenuto di un documento. In generale i termini sono essenzialmente nomi, poichè solo essi hanno significato in quanto tali, e quindi è più facile carpire la loro semantica. Aggettivi, avverbi, congiunzioni sono meno utili dei termini in quanto funzionano principalmente come complementi. Tuttavia, può essere interessante considerare tutte le parole distinte in una collezione di documenti come termini. Questo è ad esempio l approccio seguito dalla maggioranza dei motori di ricerca Web (in questo caso la vista logica dei documenti è detta full text). Dato un insieme di termini per un documento, osserviamo che non tutti i termini sono ugualmente utili per descrivere il contenuto di un documento. Infatti vi sono termini che possono essere più vaghi di altri. Decidere sull importanza di un termine per riassumere il contenuto di un documento non è un problema banale. Nonostante questa difficoltà, vi sono proprietà di un termine che possono essere facilmente misurate e che sono utili per valutare le potenzialità di un termine come tale. Si consideri, ad esempio, una collezione con centinaia di migliaia di documenti. Una parola che appare in ognuno delle centinaia di migliaia di documenti, è completamente inutile come termine, poichè non dice nulla su quale documento l utente possa essere interessato. D altro canto, una parola che appare in una manciata di documenti è pienamente utile, in quanto restringe considerevolmente lo spazio dei documenti a cui può essere interessato l utente. Dunque, dovrebbe esser chiaro che termini distinti hanno varia rilevanza quando utilizzati per descrivere i contenuti dei documenti.

17 2.6. CARATTERIZZAZIONE FORMALE DEI MODELLI DI IR 15 Questo effetto viene catturato attraverso l assegnazione di pesi numerici ad ogni termine del documento. Sia k i un termine, d j un documento e w i,j 0 un peso associato alla coppia (k i, d j ). Dunque un peso quantifica l importanza di un termine per descrivere il contesto semantico del documento. Definizione 2. Sia m il numero dei termini distinti in una collezione, e K = k 1,..., k t l insieme di tutti i termini. Un peso w i,j > 0 è associato ad ogni termine k i di un documento d j. Per ogni termine che non compare nel testo del documento d j, w i,j = 0. Con il documento d j è associato un vettore di termini d j = (w 1,j, w 2,j,..., w m,j ). Inoltre, sia g i la funzione che restituisce il peso associato al termine k i in ogni vettore m- dimensionale (g i ( d j ) = w i,j ). Come vedremo in seguito, i pesi dei termini si considerano mutuamente indipendenti. Ciò significa che conoscere il peso w i,j associato alla coppia (k i, d j ) non ci dice nulla riguardo al peso w i+1, j associato alla coppia (k i+1, d j ). Questa è chiaramente una semplificazione perchè le occorrenze dei termini in un documento sono chiaramente correlate, basti pensare ai termini HOME e PAGE in una collezione di documenti aventi a che fare con Internet. Spesso, in tali documenti, la presenza di un termine comporterà la presenza anche dell altro termine, e dunque queste due parole sono correlate, ed i loro pesi dovrebbero riflettere questa correlazione. Mentre la mutua indipendenza sembra essere una forte semplificazione, semplifica il compito di calcolare i pesi dei termini e permette un veloce calcolo del ranking. Tuttavia, avvantaggiarsi della correlazione tra i termini per migliorare la classificazione finale dei documenti, non è un compito semplice. Infatti, nessuno dei molti approcci proposti in passato ha chiaramente dimostrato che le correlazioni fra termini siano vantaggiose per collezioni generiche di documenti. Vedremo tuttavia come nuove tecniche, tra cui quella proposta in questo lavoro, sembrano rivelarsi di successo con particolari collezioni di documenti. Ciò non può che far pendere la credenza attuale verso una visione più favorevole dell utilità delle correlazioni fra termini nei sistemi di Information Retrieval Modello booleano Il modello booleano è un semplice modello di IR basato sulla teoria degli insiemi e sull algebra di Boole, il cui concetto è molto intuitivo, e facile da carpire per un utente comune di un sistema di IR. Il modello booleano considera i termini assenti o presenti in un documento. Come risultato, i pesi dei termini si presumono essere binari: w i,j {0, 1}.

18 16 CAP. 2: IL RECUPERO DELL INFORMAZIONE Una query q una espressione booleana composta di termini collegati fra loro dai tre operatori booleani not, and, or, che può anche essere rappresentata in forma disgiuntiva normale (DNF - disjunctive normal form). Per esempio, la query [q = k a (k b k c )] può essere scritta in DNF come [ q dnf = (1, 1, 1) (1, 1, 0) (1, 0, 0)], dove ogni elemento è una vettore binario associato alla tupla (k a, k b, k c ). Questi vettori binari sono chiamati componenti congiuntive di q dnf. Sia dunque q cc ognuna delle componenti congiuntive di q dnf. La similarità di un documento d j rispetto ad una query q è definita come: { 1 se q cc ( q cc q dnf ) ( ki, g i ( d sim(d j, q) = j ) = g i ( q cc ) ) (2.1) 0 altrimenti Se sim(d j, q) = 1 il modello booleano assume che il documento d j sia rilevante per la query q (potrebbe in realtà non esserlo). Altrimenti, assume che il documento sia non rilevante. In seguito alla sua inerente semplicità ed al formalismo pulito, il modello Booleano ha ricevuto grande attenzione negli anni passati ed è stato adottato da molti dei primi sistemi bibliografici commerciali. Sfortunatamente questo modello soffre di numerosi inconvenienti. Innanzitutto la sua strategia di ricerca è basata su di un criterio di decisione binaria (un documento può cioè essere rilevante o non rilevante ); non esiste la nozione di matching parziale di un documento rispetto ad una query, non vi soprattutto una possibilità di ranking, condizione necessaria per una buona ricerca. Dunque il modello booleano può esser più considerato come un modello di ricerca dei dati, più che di informazione. I sistemi commerciali spesso tentano di aggirare questo problema, generando un ordinamento associato con qualche metadato descrittivo, o più semplicemente un ordine cronologico inverso (spesso utilizzato nei sistemi che indicizzano news o giornali, in cui la data di pubblicazione è una delle caratteristiche salienti del documento). Vi è poi il non banale problema di tradurre una necessità di informazione in una espressione booleana. Infatti studi hanno dimostrato che molti utenti trovano difficile e scomodo esprimere le loro richieste in termini di espressioni booleane, e spesso hanno un idea sbagliata di quali siano i risultati, per cui si giunge in pratica, a formulare le queries in modo banale, senza sfruttare minimamente le possibilità offerte dall algebra booleana. Le queries booleane sono problematiche per molte ragioni. Tra tutte la maggiore è quella che molte persone trovano la sintassi base controintuitiva. Soprattutto gli utenti di lingua inglese, assumono la semantica della lingua comune nell uso dei vocaboli AND e OR, piuttosto che i loro equivalenti logici. Per gli utenti inesperti, utilizzare AND implica l allargamento del campo d azione della query. Ad esempio la richiesta DOG AND CAT può significare l interesse per documenti che riguardano cani e documenti che riguardano gatti, piuttosto che documenti che riguardino entrambi. Così

19 2.6. CARATTERIZZAZIONE FORMALE DEI MODELLI DI IR 17 TEA OR COFFEE può implicare una scelta mutuamente esclusiva nel linguaggio di ogni giorno. In aggiunta molti linguaggi di query che incorporando operatori booleani richiedono all utente anche di specificare una complessa sintassi per altri tipi di connettori e per i metadati. Molti utenti non sono inoltre familiari con l uso delle parentesi, per valutazioni annidate, nè con la nozione di precedenza fra operatori. I progettisti di motori di ricerca Web, sapendo di dover avere a che fare con un audience di massa in possesso di scarsa esperienza nella specifica delle queries, si sono adattati ad approcci più intuitivi. Piuttosto che forzare gli utenti a specificare complesse combinazioni di AND e OR, consentono agli utenti di scegliere da una selezione di semplici modi di combinare i termini, tipo tutte le parole (ovvero poni tutti i termini in AND ) o almeno una delle parole (ovvero poni tutti i termini in OR ), o l ormai divenuto famoso operatore + utilizzato dal motore di ricerca Altavista. Nonostante questi problemi il modello booleano ancora il modello dominante nei sistemi commerciali e costituisce un buon punto di partenza per chi inizia a studiare la materia Il modello vettoriale Il modello vettoriale parte dall assunzione che l uso di pesi binari è troppo limitante, e propone un framework in cui sia reso possibile un matching parziale. Ciò ottenuto assegnando pesi non binari ai termini nelle queries e nei documenti. Questi termini sono infine usati per calcolare il grado di similarità tra ogni documento indicizzato e una query utente. Ordinando i documenti recuperati in ordine discendente di similarità, tale modello tiene in considerazione documenti che soddisfano anche solo parzialmente i termini della query. Ciò produce, come primo effetto positivo, un insieme ordinato di documenti recuperati assai più preciso 1 dell insieme ottenuto tramite modello booleano. Per il modello vettoriale, il peso w i,j associato alla coppia (k i, d j ) è positivo e non binario. Inoltre sono pesati anche i termini della query. Sia w i,q 0 il peso associato alla coppia (k i, q). Allora il vettore query q è definito come q = (w 1,q, w 2,q,..., w m,q ) dove m è il numero totale di termini indicizzati nel sistema. Come prima, il vettore relativo al documento d j è rappresentato come d j = (w 1,j, w 2,j,..., w m,j ). Dunque un documento d j ed una query q sono rappresentati come vettori m-dimensionali. Il modello vettoriale propone di valutare il grado di similarità del un documento d j rispetto ad una query q come la correlazione tra i vettori d j e q. Tale distanza può esser quantificata, ad esempio, con il coseno dell angolo tra i due vettori: sim(d j, q) = d j q d j q = m i=1 w i,j w i,q m i=1 w2 i,j m j=1 w2 i,q (2.2) 1 sarà data in seguito una definizione esatta del vocabolo precisione nell ambito dell Information Retrieval; si interpreti per ora come insieme che meglio soddisfa la necessità di informazione dell utente;

20 18 CAP. 2: IL RECUPERO DELL INFORMAZIONE avendo indicato con d j e q le norme di tali vettori. Si osservi come, mentre il fattore d j fornisce una normalizzazione nello spazio dei documenti, il fattore q non ha influenza sul ranking dei documenti poichè rimane costante per tutti i documenti. Si osservi inoltre che, poichè w i,j 0 e w i,q 0, sim(q, d j ) è compreso fra 0 e 1. Dunque invece di stabilire se un documento sia o non sia rilevante, il modello vettoriale classifica i documenti in base al loro grado di similarità rispetto alla query. Un documento può esser recuperato anche se soddisfa solo parzialmente la query. Si può ad esempio stabilire una soglia su sim(d j, q) e riportare i documenti con un grado di similarità sopra tale soglia. Ma per calcolare un ordinamento, bisogna prima definire come ottenere i pesi per i termini. I pesi per i termini possono essere ottenuti in diversi modi. [7] analizza varie tecniche di termweighting. Pur non analizzandole in dettaglio, scopriamo l idea alla base delle più efficaci tecniche di termweighting. L idea è collegata ai principi di base che supportano le tecniche di clustering. Data una collezione C di oggetti, e una descrizione non ben definita di un insieme A 2, l obbiettivo di un semplice algoritmo di clustering è quello di separare la collezione C in due insiemi: un primo insieme composto da oggetti in relazione con A, ed un secondo insieme composto da oggetti non in relazione con il set A. Algoritmi di clustering più complessi possono tentare di separare gli oggetti di una collezione in più classi, tuttavia noi ci riferiamo alla versione più semplice del problema di clustering (quella che considera solo due classi), perchè tutto ciò che ci viene richiesto è una decisione su quali documenti possano essere rilevanti e quali no. Per vedere il problema di IR come un problema di clustering, consideriamo i documenti come una collezione C di oggetti e vediamo la query utente come una non ben definita specifica dell insieme A (i documenti rilevanti). Si può così ridurre il problema alla determinazione di quali documenti sono nell insieme A e quali non lo sono. Vi sono due problemi fondamentali da risolvere: 1. si deve determinare quali sono le caratteristiche che meglio descrivono gli oggetti nell insieme A; 2. si deve determinare quali sono le caratteristiche che meglio distinguono gli oggetti nell insieme A dai rimanenti oggetti della collezione C. Il primo insieme di caratteristiche dà una quantificazione della similarità intra-cluster, mentre il secondo insieme di caratteristiche quantifica la dissimilarità inter-cluster. Per un clustering efficiente, si deve tentare di bilanciare questi due effetti. 2 con ciò intendiamo dire che non abbiamo una informazione completa per decidere precisamente quali oggetti appartengono e quali non appartengono all insieme

Vedere altro