Indicizzazione terza parte e modello booleano



Documenti analoghi
Introduzione all Information Retrieval

La gestione del documento

ALGEBRA DELLE PROPOSIZIONI

Database. Si ringrazia Marco Bertini per le slides

Compito DA e BD. Tempo concesso: 90 minuti 12 giugno 03 Nome: Cognome: Matricola: Esercizio 1

Modulo 1: Motori di ricerca

Lezione 1. Introduzione e Modellazione Concettuale

Algebra di Boole. Le operazioni, nell algebra booleana sono basate su questi tre operatori: AND ( ), OR ( + ),NOT ( )

Analisi dei requisiti e casi d uso

Progettaz. e sviluppo Data Base

Algebra Di Boole. Definiamo ora che esiste un segnale avente valore opposto di quello assunto dalla variabile X.

Il Sistema Operativo: il File System

Motori di ricerca. Andrea Marin

IL SISTEMA INFORMATIVO

Algebra di Boole ed Elementi di Logica

Calcolatori: Algebra Booleana e Reti Logiche

Laurea Specialistica in Informatica

COS È UN LINGUAGGIO? LINGUAGGI DI ALTO LIVELLO LA NOZIONE DI LINGUAGGIO LINGUAGGIO & PROGRAMMA

Telerilevamento e GIS Prof. Ing. Giuseppe Mussumeci

Operazioni sui database

3 - Variabili. Programmazione e analisi di dati Modulo A: Programmazione in Java. Paolo Milazzo

Capitolo 4 Pianificazione e Sviluppo di Web Part

Corso di Basi di Dati e Conoscenza

Database: collezione di fatti, registrabili e con un ben preciso significato, relazionati fra di loro

Cercare documenti Web

PROCESSO DI INDICIZZAZIONE SEMANTICA

Prime sperimentazioni d'indicizzazione [semi]automatica alla BNCF

Basi di dati. Il Modello Relazionale dei Dati. K. Donno - Il Modello Relazionale dei Dati

Uso delle basi di dati DBMS. Cos è un database. DataBase. Esempi di database

Excel. A cura di Luigi Labonia. luigi.lab@libero.it

Alcune nozioni di base di Logica Matematica

Archivio globale della Maremma

Cercare informazioni sul Web

Capitolo 13. Interrogare una base di dati

ESERCIZIO 1 (b) Dove è memorizzato il numero del primo blocco del file? Insieme agli altri attributi del file, nella cartella che contiene il file.

Lezione 8. La macchina universale

DBMS. Esempi di database. DataBase. Alcuni esempi di DBMS DBMS. (DataBase Management System)

13 - Gestione della Memoria nella Programmazione Orientata agli Oggetti

Strutturazione logica dei dati: i file

Matematica Computazionale Lezione 4: Algebra di Commutazione e Reti Logiche

Laboratorio informatico Banche dati off line

Join in SQL (primo modo) Informatica. Tabella Dipartimento. Interrogazione 4a. Interrogazione 4b. Interrogazione 4a

Indicizzazione. Fasi del processo di IR. Indicizzazione: due aspetti. Corpus: Costruzione delle viste logiche dei documenti: Termine indice

Access. P a r t e p r i m a

Fasi di creazione di un programma

Accesso ad archivi sonori

AGGIORNAMENTO AREA SEMANTICA GESTIONE SOGGETTARI

Lezioni di Informatica Giuridica

Basi di dati. (Sistemi Informativi) teoria e pratica con Microsoft Access. Basi di dati. Basi di dati. Basi di dati e DBMS DBMS DBMS

RICERCA DELL INFORMAZIONE

Elementi di Psicometria con Laboratorio di SPSS 1

Database. Appunti di Amaranto Oronzo e Giancane Diego Lezione dell Ing. Lucia Vaira 24/04/2014

Fasi del ciclo di vita del software (riassunto) Progetto: generalità. Progetto e realizzazione (riassunto)

Organizzazione degli archivi

LA RICLASSIFICAZIONE DEI SALDI CONTABILI CON MICROSOFT ACCESS 2007

Inizializzazione, Assegnamento e Distruzione di Classi

CHIUSURE di MAGAZZINO di FINE ANNO

Sistemi Operativi IMPLEMENTAZIONE DEL FILE SYSTEM. D. Talia - UNICAL. Sistemi Operativi 9.1

BASI DI DATI per la gestione dell informazione. Angelo Chianese Vincenzo Moscato Antonio Picariello Lucio Sansone

Il SOFTWARE DI BASE (o SOFTWARE DI SISTEMA)

Introduzione al corso

Corso di Informatica

Regione Toscana. ARPA Fonte Dati. Manuale Amministratore. L. Folchi (TAI) Redatto da

La Metodologia adottata nel Corso

Strumenti di modellazione. Gabriella Trucco

Progetto: ARPA Fonte Dati. ARPA Fonte Dati. Regione Toscana. Manuale Amministratore

LEX-ARC PROFESSIONAL Il SOFTWARE GESTIONALE PER AVVOCATI PRATICO, EFFICIENTE ED ECONOMICO

Librerie digitali. Introduzione. Cos è una libreria digitale?

Traccia di soluzione dell esercizio del 25/1/2005

Sistemi di Elaborazione delle Informazioni. Corso di Laurea per "Tecnico Ortopedico" 03

Stefania Marrara - Esercitazioni di Tecnologie dei Sistemi Informativi. Integrazione di dati di sorgenti diverse

Cosa è un foglio elettronico

Analisi statistica di dati testuali: il software SPAD

Fondamenti di Informatica Ingegneria Clinica Lezione 16/10/2009. Prof. Raffaele Nicolussi

Uno sguardo a Lucene. Diego De Cao, Roberto Basili Web Mining and Information Retrieval a.a. 2010/2011

DATABASE RELAZIONALI

Rappresentazione dei numeri in un calcolatore

Algebra di Boole: Concetti di base. Fondamenti di Informatica - D. Talia - UNICAL 1. Fondamenti di Informatica

Lezione 8. Motori di Ricerca

Alessandra Raffaetà. Basi di Dati

Ottimizzazione delle interrogazioni (parte I)

Manuale Utente Albo Pretorio GA

Guida all uso dei Focus Tematici

Nuova funzione di ricerca del sito WIKA.

Università di Roma La Sapienza, Facoltà di Ingegneria

Soluzione di equazioni quadratiche

Sistemi Operativi IMPLEMENTAZIONE DEL FILE SYSTEM. Implementazione del File System. Struttura del File System. Implementazione

Il Software e Il Sistema Operativo. Prof. Francesco Accarino IIS Altiero Spinelli A.S. 09/10

Archivi e database. Prof. Michele Batocchi A.S. 2013/2014

Appunti di informatica. Lezione 2 anno accademico Mario Verdicchio

APPUNTI DI MATEMATICA ALGEBRA \ INSIEMISTICA \ TEORIA DEGLI INSIEMI (1)

Corso di Access. Prerequisiti. Modulo L2A (Access) 1.1 Concetti di base. Utilizzo elementare del computer Concetti fondamentali di basi di dati

Corso di Basi di Dati Multimediali

Oggetti Lezione 3. aspetti generali e definizione di classi I

Funzioni in C. Violetta Lonati

Basi di dati I. Esercitazione proposta

Informatica (Basi di Dati)

il servizio web per le comunicazioni scuola famiglia Descrizione generale del prodotto

MANUALE PARCELLA FACILE PLUS INDICE

Gestione ed analisi di base dati nell epidemiologia. delle malattie infettive

Transcript:

Reperimento dell informazione (IR) - aa 2014-2015 Indicizzazione terza parte e modello booleano Gruppo di ricerca su Sistemi di Gestione delle Informazioni (IMS) Dipartimento di Ingegneria dell Informazione Università degli Studi di Padova

Indice della lezione del 16.10.2014! Processo di indicizzazione seconda parte:! Analisi lessicale (completamento)! Rimozione stop word! Stemming 2

Indice! Indicizzazione terza parte! Modello booleano 3

Esempio: collezione italiana CLEF 2002! Software: scritto in Java, usando la libreria Lucene 1.2 RC 4! Hardware: Sun Ultra 10, 512 Mbyte RAM, HD SCSI! Collezione: La Stampa 1994 + SDA Italian 1994! Dimensioni: 280 Mbyte in 721 file per un totale di 108.578 documenti! Stop list: 409 termini in base alla frequenza No Stop List No Stem Stop List No Stem Stop List Porter Stemmer Tempo 01:09:10 01:06:02 01:05:00 Dimensioni Indice 91 Mbyte 56 Mbyte 50 Mbyte Termini unici 373.570 373.179 (non tutti i 409 temini sono presenti) 227.452 4

Informazioni per l utilizzo di collezioni sperimentali The Cultural Heritage in CLEF (CHiC) Dataset:! Document collection developed for the Cultural Heritage in CLEF (CHiC) Evaluation Lab of The CLEF Initiative with the support of the PROMISE FP7 Network of Excellence (contract n. 258191)! The metadata contained in this collection are made available by Europeana only to the members of the Europeana Network that have agreed to use it for the research purposes of The CLEF Initiative! This usage falls within the more general conditions of the Europeana Terms for Re-use of Europeana Metadata! http://ims.dei.unipd.it/data/chic/ 5

Fasi del processo di indicizzazione Documenti Analisi lessicale Stringe rilevate Rimozione stop word Parole significative Stemming Radici Composizione termini Termini Indice 6

Composizione dei termini! La composizione dei termini serve a rendere più specifici stem generici! data comput invece che comput! Può richiedere un analisi, anche computazionalmente onerosa, dei termini nella collezione 7

Fasi del processo di indicizzazione Documenti Analisi lessicale Stringe rilevate Rimozione stop word Parole significative Stemming Radici Composizione termini Termini Indice 8

20 termini (stem) diversi Documenti dell esempio: stem presenti nei documenti e che compongono l indice documenti stem autom concord descr diffic document enorm fas incontr inform necessar pagin present quantit recuper relitt rend strument tip us web D 1 D 2 D 3 1 0 1 0 1 0 0 1 0 0 0 1 0 0 1 1 1 1 1 0 1 0 0 1 1 1 1 1 0 0 1 0 0 1 1 1 1 1 0 1 1 0 0 1 0 1 0 1 1 1 1 0 1 0 1 1 1 1 0 1 Non si calcolano le frequenze ma si considera solo la presenza o l assenza del termine nel documento 9

Pesatura dei termini indice! Non tutte le parole di un documento ne descrivono il contenuto semantico con la stessa precisione/efficacia! Si può associare un peso ai termini indice! Il peso indica l importanza di un termine indice per ciascun documento! L associazione di un peso ai termini di un documento viene effettuata utilizzando una funzione di pesatura! La pesatura tiene normalmente conto della frequenza del termine nel documento e nella collezione! Sono possibili diversi sistemi di pesatura! Binaria: il termine ha peso = 1 se presente e peso = 0 se assente! Non si tiene conto della frequenza ma della sola presenza! In base alla frequenza: si considera l occorrenza del termine nel documento e la sua occorrenza nella collezione 10

Documenti dell esempio: stem e frequenze documenti stem autom concord descr diffic document enorm fas incontr inform necessar pagin present quantit recuper relitt rend strument tip us web D 1 D 2 D 3 Tot 1 0 1 2 0 1 0 0 1 0 0 0 1 0 0 1 1 1 1 3 1 0 1 2 0 0 1 2 1 2 5 1 0 0 1 0 0 1 1 1 3 1 1 0 2 1 1 0 2 0 1 0 1 0 1 1 1 1 3 0 1 0 1 1 1 3 1 0 1 2 11

Pesatura! La pesatura assegna a ciascun termine (eventualmente composto):! la frequenza di occorrenza del termine in un documento: schema di pesatura Term Frequency (fattore TF)! la frequenza di occorrenza del termine nell intera collezione: schema di pesatura Inverse Document Frequency (fattore IDF)! Nell indice vengono memorizzate le frequenze grezze e non il peso del termine, che viene calcolato in fase di reperimento 12

Creazione dell indice dei descrittori D 1 D 2 D 3 01 automatici 02 automatico 03 concordano 04 descritto 05 difficoltà 06 documento 07 enorme 08 enormi 09 fasi 10 incontra 11 informa 12 informativo 13 informazioni 14 necessario 15 pagine 16 presentato 17 presenti 18 quantità 19 recupero 20 relitto 21 rende 22 strumenti 23 strumento 24 tipo 25 usa 26 uso 27 web 1 0 0 0 0 1 0 1 0 0 1 0 0 0 1 0 0 1 1 1 0 0 0 1 0 1 0 0 0 1 0 0 1 0 0 1 2 1 0 1 0 0 1 0 0 0 0 1 1 1 0 1 1 0 1 1 0 0 1 0 1 0 0 1 1 0 0 0 1 0 1 0 0 0 1 1 1 0 1 0 1 13

Creazione dell indice dei descrittori Dizionario 01 automatici 02 automatico 03 concordano 04 descritto 05 difficoltà 06 documento 07 enorme 08 enormi 09 fasi 10 incontra 11 informa 12 informativo 13 informazioni 14 necessario 15 pagine 16 presentato 17 presenti 18 quantità 19 recupero 20 relitto 21 rende 22 strumenti 23 strumento 24 tipo 25 usa 26 uso 27 web 01 D 1,1 02 D 3,1 03 D 2,1 04 D 2,1 05 D 3,1 06 D 3,1 07 D 1,1 D 2,1 08 D 3,1 09 D 2,1 10 D 3,1 11 D 3,1 12 D 3,1 13 D 1,2 D 2,1 14 D 1,1 15 D 1,1 16 D 3,1 17 D 1,1 D 2,1 18 D 1,1 D 2,1 19 D 1,1 D 2,1 20 D 2,1 21 D 1,1 22 D 1,1 D 2,1 23 D 3,1 24 D 2,1 25 D 3,1 26 D 1,1 D 2,1 27 D 1,1 D 3,1 Posting file o File trasposto (inverted index) 14

Modello di reperimento dell informazione Information Retrieval Model 15

Come già anticipato nella lezione n. 2: Un modello di reperimento dell informazione è un insieme di costrutti che sono formalizzati allo scopo di rendere possibile:! la rappresentazione del contenuto dei documenti! la rappresentazione delle interrogazioni! l ideazione, la progettazione e la realizzazione dell algoritmo o degli algoritmi di reperimento dei documenti in risposta ad un interrogazione 16

Astrazione di un ipotetico sistema Il modello di reperimento dell informazione è uno strumento concettuale che fornisce gli strumenti di rappresentazione concettuale! del contenuto dei documenti! dell esigenza informativa espressa nelle interrogazioni! del funzionamento di un sistema Il modello non fornisce dettagli implementativi 17

Modello di IR versus Modello di Basi di Dati! Nelle BD il modello ha lo scopo di fornire una astrazione della rappresentazione e del contenuto informativo dei dati e delle operazioni di aggiornamento e accesso ai dati! Nell IR il modello non descrive le operazioni di aggiornamento perché queste operazioni sono effettuate da utenti privilegiati! I sistemi di IR forniscono accesso a collezioni mediante operazioni di lettura che vengono attivate dalle interrogazioni 18

I principali modelli proposti negli anni! Modello booleano anni: 1950! usato in sistemi industriali, motori di ricerca, biblioteche digitali, OPAC (Online Public Access Catalogue), sistemi di gestione archivi! Modello vettoriale anni: 1960! usato in sistemi industriali, inizialmente utilizzato da motori di ricerca! Modello probabilistico anni: 1970! usato in sistemi sperimentali, prototipi di ricerca! Modello di analisi della semantica latente fine anni 1980! Modello statistico della lingua fine anni 1990! Modello basato su reti ipermediali anni 1980/1990 19

Modello booleano di reperimento dell informazione Boolean Information Retrieval Model o Boolean Model 20

Metafora del modello booleano! I descrittori sono insiemi di documenti! Le interrogazioni sono proposizioni logiche i cui operandi sono i descrittori, ossia insiemi di documenti! Gli operatori sono gli usuali operatori dell algebra booleana 21

Modello booleano - indicizzazione! I concetti sono rappresentati da descrittori estratti mediante un processo di indicizzazione, quindi un descrittore t è l insieme di tutti e solo i documenti in cui è presente il concetto espresso da t! L indicizzazione perde dell informazione e descrive i concetti in modo parziale:! sinonimia: documenti che trattano lo stesso concetto possono usare parole diverse! polisemia: una parola può esprimere concetti diversi! Se l indicizzazione non conserva informazioni su sinonimia e polisemia, i descrittori sono trattati dal modello come espressioni univoche di concetti 22

Modello booleano: espressione della esigenza informativa Un sistema basato sul modello booleano chiede all utente di:! esprimere le proprie esigenze informative utilizzando descrittori (che sono presenti nell indice)! costruire nuovi insiemi mediante operatori booleani che allora vengono utilizzati per esprimere concetti non rappresentati con un unico descrittore 23

Modello booleano: funzione di reperimento! Associa l interrogazione al sottoinsieme di documenti che la rendono vera! La funzione di reperimento non ordina i documenti che rendono vera l interrogazione perché il valore di verità è binario 24

Modello booleano: interrogazione (OR)! I termini sinonimi sono raggruppati mediante l operatore OR! espressioni disgiuntive del tipo (A OR B)! dove A e B sono termini o espressioni disgiuntive 25

Modello booleano: interrogazione (AND)! Le espressioni disgiuntive si concatenano mediante l operatore AND! Il risultato: espressione in forma normale congiuntiva, come, ad esempio: (A OR B) AND (C) 26

Modello booleano: interrogazione (NOT)! Operatore di negazione che si esprime solitamente con! esempio: NOT NOT A 27

Indice dei descrittori dei documenti d esempio Dizionario 01 automatici 02 automatico 03 concordano 04 descritto 05 difficoltà 06 documento 07 enorme 08 enormi 09 fasi 10 incontra 11 informa 12 informativo 13 informazioni 14 necessario 15 pagine 16 presentato 17 presenti 18 quantità 19 recupero 20 relitto 21 rende 22 strumenti 23 strumento 24 tipo 25 usa 26 uso 27 web 01 D 1,1 02 D 3,1 03 D 2,1 04 D 2,1 05 D 3,1 06 D 3,1 07 D 1,1 D 2,1 08 D 3,1 09 D 2,1 10 D 3,1 11 D 3,1 12 D 3,1 13 D 1,2 D 2,1 14 D 1,1 15 D 1,1 16 D 3,1 17 D 1,1 D 2,1 18 D 1,1 D 2,1 19 D 1,1 D 2,1 20 D 2,1 21 D 1,1 22 D 1,1 D 2,1 23 D 3,1 24 D 2,1 25 D 3,1 26 D 1,1 D 2,1 27 D 1,1 D 3,1 Posting file o File trasposto (inverted index) 28

Uso del modello booleano (1/4) Collezione dei documenti o insieme di riferimento recupero D 2 D 1 pagine web D 3 pagine OR web in risposta D 1 e D 3 29

Uso del modello booleano (2/4) Collezione dei documenti o insieme di riferimento recupero D 2 D 1 pagine web D 3 pagine AND web in risposta D 1 30

Uso del modello booleano (3/4) Collezione dei documenti o insieme di riferimento recupero D 2 D 1 pagine fasi web D 3 fasi AND web nessun documento in risposta 31

Uso del modello booleano (4/4) Collezione dei documenti o insieme di riferimento recupero D 2 D 1 pagine fasi web D 3 web AND NOT pagine in risposta D 3 32

Modello booleano: considerazioni (1/2)! E efficace in ambienti controllati e con utenti bene addestrati! l utente deve sapere che cosa chiede! richiede l addestramento dell utente! ha delle limitazioni dovute alla bassa amichevolezza della logica booleana, spesso l utente finale fa confusione tra AND e OR! ad esempio, l utente può distinguere fra: information AND retrieval information OR retrieval 33

Modello booleano: considerazioni (2/2)! Poco controllo sulla dimensione dell insieme dei documenti recuperati:! null output quando l insieme risultato è vuoto (AND)! output overload quando l insieme risultato è troppo grande per essere utilizzato in modo efficace (OR)! non è possibile l ordinamento per una qualche misura di similarità! non è possibile la pesatura dei termini 34

Modello booleano: altre possibilità di recupero! A volte è possibile che siano disponibili ulteriori funzioni di recupero:! operatori di prossimità! operatori di troncamento dei descrittori 35