Reperimento dell informazione (IR) - aa 2014-2015 Indicizzazione terza parte e modello booleano Gruppo di ricerca su Sistemi di Gestione delle Informazioni (IMS) Dipartimento di Ingegneria dell Informazione Università degli Studi di Padova
Indice della lezione del 16.10.2014! Processo di indicizzazione seconda parte:! Analisi lessicale (completamento)! Rimozione stop word! Stemming 2
Indice! Indicizzazione terza parte! Modello booleano 3
Esempio: collezione italiana CLEF 2002! Software: scritto in Java, usando la libreria Lucene 1.2 RC 4! Hardware: Sun Ultra 10, 512 Mbyte RAM, HD SCSI! Collezione: La Stampa 1994 + SDA Italian 1994! Dimensioni: 280 Mbyte in 721 file per un totale di 108.578 documenti! Stop list: 409 termini in base alla frequenza No Stop List No Stem Stop List No Stem Stop List Porter Stemmer Tempo 01:09:10 01:06:02 01:05:00 Dimensioni Indice 91 Mbyte 56 Mbyte 50 Mbyte Termini unici 373.570 373.179 (non tutti i 409 temini sono presenti) 227.452 4
Informazioni per l utilizzo di collezioni sperimentali The Cultural Heritage in CLEF (CHiC) Dataset:! Document collection developed for the Cultural Heritage in CLEF (CHiC) Evaluation Lab of The CLEF Initiative with the support of the PROMISE FP7 Network of Excellence (contract n. 258191)! The metadata contained in this collection are made available by Europeana only to the members of the Europeana Network that have agreed to use it for the research purposes of The CLEF Initiative! This usage falls within the more general conditions of the Europeana Terms for Re-use of Europeana Metadata! http://ims.dei.unipd.it/data/chic/ 5
Fasi del processo di indicizzazione Documenti Analisi lessicale Stringe rilevate Rimozione stop word Parole significative Stemming Radici Composizione termini Termini Indice 6
Composizione dei termini! La composizione dei termini serve a rendere più specifici stem generici! data comput invece che comput! Può richiedere un analisi, anche computazionalmente onerosa, dei termini nella collezione 7
Fasi del processo di indicizzazione Documenti Analisi lessicale Stringe rilevate Rimozione stop word Parole significative Stemming Radici Composizione termini Termini Indice 8
20 termini (stem) diversi Documenti dell esempio: stem presenti nei documenti e che compongono l indice documenti stem autom concord descr diffic document enorm fas incontr inform necessar pagin present quantit recuper relitt rend strument tip us web D 1 D 2 D 3 1 0 1 0 1 0 0 1 0 0 0 1 0 0 1 1 1 1 1 0 1 0 0 1 1 1 1 1 0 0 1 0 0 1 1 1 1 1 0 1 1 0 0 1 0 1 0 1 1 1 1 0 1 0 1 1 1 1 0 1 Non si calcolano le frequenze ma si considera solo la presenza o l assenza del termine nel documento 9
Pesatura dei termini indice! Non tutte le parole di un documento ne descrivono il contenuto semantico con la stessa precisione/efficacia! Si può associare un peso ai termini indice! Il peso indica l importanza di un termine indice per ciascun documento! L associazione di un peso ai termini di un documento viene effettuata utilizzando una funzione di pesatura! La pesatura tiene normalmente conto della frequenza del termine nel documento e nella collezione! Sono possibili diversi sistemi di pesatura! Binaria: il termine ha peso = 1 se presente e peso = 0 se assente! Non si tiene conto della frequenza ma della sola presenza! In base alla frequenza: si considera l occorrenza del termine nel documento e la sua occorrenza nella collezione 10
Documenti dell esempio: stem e frequenze documenti stem autom concord descr diffic document enorm fas incontr inform necessar pagin present quantit recuper relitt rend strument tip us web D 1 D 2 D 3 Tot 1 0 1 2 0 1 0 0 1 0 0 0 1 0 0 1 1 1 1 3 1 0 1 2 0 0 1 2 1 2 5 1 0 0 1 0 0 1 1 1 3 1 1 0 2 1 1 0 2 0 1 0 1 0 1 1 1 1 3 0 1 0 1 1 1 3 1 0 1 2 11
Pesatura! La pesatura assegna a ciascun termine (eventualmente composto):! la frequenza di occorrenza del termine in un documento: schema di pesatura Term Frequency (fattore TF)! la frequenza di occorrenza del termine nell intera collezione: schema di pesatura Inverse Document Frequency (fattore IDF)! Nell indice vengono memorizzate le frequenze grezze e non il peso del termine, che viene calcolato in fase di reperimento 12
Creazione dell indice dei descrittori D 1 D 2 D 3 01 automatici 02 automatico 03 concordano 04 descritto 05 difficoltà 06 documento 07 enorme 08 enormi 09 fasi 10 incontra 11 informa 12 informativo 13 informazioni 14 necessario 15 pagine 16 presentato 17 presenti 18 quantità 19 recupero 20 relitto 21 rende 22 strumenti 23 strumento 24 tipo 25 usa 26 uso 27 web 1 0 0 0 0 1 0 1 0 0 1 0 0 0 1 0 0 1 1 1 0 0 0 1 0 1 0 0 0 1 0 0 1 0 0 1 2 1 0 1 0 0 1 0 0 0 0 1 1 1 0 1 1 0 1 1 0 0 1 0 1 0 0 1 1 0 0 0 1 0 1 0 0 0 1 1 1 0 1 0 1 13
Creazione dell indice dei descrittori Dizionario 01 automatici 02 automatico 03 concordano 04 descritto 05 difficoltà 06 documento 07 enorme 08 enormi 09 fasi 10 incontra 11 informa 12 informativo 13 informazioni 14 necessario 15 pagine 16 presentato 17 presenti 18 quantità 19 recupero 20 relitto 21 rende 22 strumenti 23 strumento 24 tipo 25 usa 26 uso 27 web 01 D 1,1 02 D 3,1 03 D 2,1 04 D 2,1 05 D 3,1 06 D 3,1 07 D 1,1 D 2,1 08 D 3,1 09 D 2,1 10 D 3,1 11 D 3,1 12 D 3,1 13 D 1,2 D 2,1 14 D 1,1 15 D 1,1 16 D 3,1 17 D 1,1 D 2,1 18 D 1,1 D 2,1 19 D 1,1 D 2,1 20 D 2,1 21 D 1,1 22 D 1,1 D 2,1 23 D 3,1 24 D 2,1 25 D 3,1 26 D 1,1 D 2,1 27 D 1,1 D 3,1 Posting file o File trasposto (inverted index) 14
Modello di reperimento dell informazione Information Retrieval Model 15
Come già anticipato nella lezione n. 2: Un modello di reperimento dell informazione è un insieme di costrutti che sono formalizzati allo scopo di rendere possibile:! la rappresentazione del contenuto dei documenti! la rappresentazione delle interrogazioni! l ideazione, la progettazione e la realizzazione dell algoritmo o degli algoritmi di reperimento dei documenti in risposta ad un interrogazione 16
Astrazione di un ipotetico sistema Il modello di reperimento dell informazione è uno strumento concettuale che fornisce gli strumenti di rappresentazione concettuale! del contenuto dei documenti! dell esigenza informativa espressa nelle interrogazioni! del funzionamento di un sistema Il modello non fornisce dettagli implementativi 17
Modello di IR versus Modello di Basi di Dati! Nelle BD il modello ha lo scopo di fornire una astrazione della rappresentazione e del contenuto informativo dei dati e delle operazioni di aggiornamento e accesso ai dati! Nell IR il modello non descrive le operazioni di aggiornamento perché queste operazioni sono effettuate da utenti privilegiati! I sistemi di IR forniscono accesso a collezioni mediante operazioni di lettura che vengono attivate dalle interrogazioni 18
I principali modelli proposti negli anni! Modello booleano anni: 1950! usato in sistemi industriali, motori di ricerca, biblioteche digitali, OPAC (Online Public Access Catalogue), sistemi di gestione archivi! Modello vettoriale anni: 1960! usato in sistemi industriali, inizialmente utilizzato da motori di ricerca! Modello probabilistico anni: 1970! usato in sistemi sperimentali, prototipi di ricerca! Modello di analisi della semantica latente fine anni 1980! Modello statistico della lingua fine anni 1990! Modello basato su reti ipermediali anni 1980/1990 19
Modello booleano di reperimento dell informazione Boolean Information Retrieval Model o Boolean Model 20
Metafora del modello booleano! I descrittori sono insiemi di documenti! Le interrogazioni sono proposizioni logiche i cui operandi sono i descrittori, ossia insiemi di documenti! Gli operatori sono gli usuali operatori dell algebra booleana 21
Modello booleano - indicizzazione! I concetti sono rappresentati da descrittori estratti mediante un processo di indicizzazione, quindi un descrittore t è l insieme di tutti e solo i documenti in cui è presente il concetto espresso da t! L indicizzazione perde dell informazione e descrive i concetti in modo parziale:! sinonimia: documenti che trattano lo stesso concetto possono usare parole diverse! polisemia: una parola può esprimere concetti diversi! Se l indicizzazione non conserva informazioni su sinonimia e polisemia, i descrittori sono trattati dal modello come espressioni univoche di concetti 22
Modello booleano: espressione della esigenza informativa Un sistema basato sul modello booleano chiede all utente di:! esprimere le proprie esigenze informative utilizzando descrittori (che sono presenti nell indice)! costruire nuovi insiemi mediante operatori booleani che allora vengono utilizzati per esprimere concetti non rappresentati con un unico descrittore 23
Modello booleano: funzione di reperimento! Associa l interrogazione al sottoinsieme di documenti che la rendono vera! La funzione di reperimento non ordina i documenti che rendono vera l interrogazione perché il valore di verità è binario 24
Modello booleano: interrogazione (OR)! I termini sinonimi sono raggruppati mediante l operatore OR! espressioni disgiuntive del tipo (A OR B)! dove A e B sono termini o espressioni disgiuntive 25
Modello booleano: interrogazione (AND)! Le espressioni disgiuntive si concatenano mediante l operatore AND! Il risultato: espressione in forma normale congiuntiva, come, ad esempio: (A OR B) AND (C) 26
Modello booleano: interrogazione (NOT)! Operatore di negazione che si esprime solitamente con! esempio: NOT NOT A 27
Indice dei descrittori dei documenti d esempio Dizionario 01 automatici 02 automatico 03 concordano 04 descritto 05 difficoltà 06 documento 07 enorme 08 enormi 09 fasi 10 incontra 11 informa 12 informativo 13 informazioni 14 necessario 15 pagine 16 presentato 17 presenti 18 quantità 19 recupero 20 relitto 21 rende 22 strumenti 23 strumento 24 tipo 25 usa 26 uso 27 web 01 D 1,1 02 D 3,1 03 D 2,1 04 D 2,1 05 D 3,1 06 D 3,1 07 D 1,1 D 2,1 08 D 3,1 09 D 2,1 10 D 3,1 11 D 3,1 12 D 3,1 13 D 1,2 D 2,1 14 D 1,1 15 D 1,1 16 D 3,1 17 D 1,1 D 2,1 18 D 1,1 D 2,1 19 D 1,1 D 2,1 20 D 2,1 21 D 1,1 22 D 1,1 D 2,1 23 D 3,1 24 D 2,1 25 D 3,1 26 D 1,1 D 2,1 27 D 1,1 D 3,1 Posting file o File trasposto (inverted index) 28
Uso del modello booleano (1/4) Collezione dei documenti o insieme di riferimento recupero D 2 D 1 pagine web D 3 pagine OR web in risposta D 1 e D 3 29
Uso del modello booleano (2/4) Collezione dei documenti o insieme di riferimento recupero D 2 D 1 pagine web D 3 pagine AND web in risposta D 1 30
Uso del modello booleano (3/4) Collezione dei documenti o insieme di riferimento recupero D 2 D 1 pagine fasi web D 3 fasi AND web nessun documento in risposta 31
Uso del modello booleano (4/4) Collezione dei documenti o insieme di riferimento recupero D 2 D 1 pagine fasi web D 3 web AND NOT pagine in risposta D 3 32
Modello booleano: considerazioni (1/2)! E efficace in ambienti controllati e con utenti bene addestrati! l utente deve sapere che cosa chiede! richiede l addestramento dell utente! ha delle limitazioni dovute alla bassa amichevolezza della logica booleana, spesso l utente finale fa confusione tra AND e OR! ad esempio, l utente può distinguere fra: information AND retrieval information OR retrieval 33
Modello booleano: considerazioni (2/2)! Poco controllo sulla dimensione dell insieme dei documenti recuperati:! null output quando l insieme risultato è vuoto (AND)! output overload quando l insieme risultato è troppo grande per essere utilizzato in modo efficace (OR)! non è possibile l ordinamento per una qualche misura di similarità! non è possibile la pesatura dei termini 34
Modello booleano: altre possibilità di recupero! A volte è possibile che siano disponibili ulteriori funzioni di recupero:! operatori di prossimità! operatori di troncamento dei descrittori 35