Introduzione all Information Retrieval



Documenti analoghi
Modulo 1: Motori di ricerca

La gestione del documento

1. BASI DI DATI: GENERALITÀ

Progettaz. e sviluppo Data Base

SQL prima parte D O C E N T E P R O F. A L B E R T O B E L U S S I. Anno accademico 2011/12

Sistemi di information retrieval e HCIR

I database relazionali (Access)

Analisi dei requisiti e casi d uso

Database. Si ringrazia Marco Bertini per le slides

Programma del Corso. Dati e DBMS SQL. Progettazione di una. Normalizzazione

Compito DA e BD. Tempo concesso: 90 minuti 12 giugno 03 Nome: Cognome: Matricola: Esercizio 1

Algebra di Boole ed Elementi di Logica

Ottimizzazione delle interrogazioni (parte I)

La manutenzione come elemento di garanzia della sicurezza di macchine e impianti

IL SISTEMA INFORMATIVO

Attività federale di marketing

ALGEBRA DELLE PROPOSIZIONI

Siamo così arrivati all aritmetica modulare, ma anche a individuare alcuni aspetti di come funziona l aritmetica del calcolatore come vedremo.

Automazione Industriale (scheduling+mms) scheduling+mms.

Corso di Informatica

HBase Data Model. in più : le colonne sono raccolte in gruppi di colonne detti Column Family; Cosa cambia dunque?

Anno 1. Definizione di Logica e operazioni logiche

Le Basi di Dati. Le Basi di Dati

Introduzione alle basi di dati. Gestione delle informazioni. Gestione delle informazioni. Sistema informatico

Introduzione ai database relazionali

Gestione Turni. Introduzione

DBMS (Data Base Management System)

IDENTIFICAZIONE DEI BISOGNI DEL CLIENTE

Algebra Di Boole. Definiamo ora che esiste un segnale avente valore opposto di quello assunto dalla variabile X.

Strutturazione logica dei dati: i file

Lezione 8. Motori di Ricerca

Introduzione all Architettura del DBMS

Project Cycle Management La programmazione della fase di progettazione esecutiva. La condivisione dell idea progettuale.

Dispensa di database Access

Introduzione alla teoria dei database relazionali. Come progettare un database

Introduzione ai Sistemi di Gestione di Basi di Dati XML

SCENARIO. Personas ALICE Lucchin / BENITO Condemi de Felice. All rights reserved.

Nuova funzione di ricerca del sito WIKA.

PROGETTO EM.MA PRESIDIO

Calcolatori: Algebra Booleana e Reti Logiche

Corso Online Analista Programmatore Microsoft

Facoltà di Farmacia - Corso di Informatica

UN PROGRAMMA APPLICATIVO: ACCESS Access è un programma del pacchetto Office che permette di realizzare database

Sviluppata da: Lo Russo - Porcelli Pag. 1 di 6 6FRSR utilizzare il DBMS Postgresql per imparare il linguaggio SQL.

Rapporto dal Questionari Insegnanti

STUDIO MESSANO UFFICIO SVILUPPO NUOVE TECNOLOGIE

MANUALE MOODLE STUDENTI. Accesso al Materiale Didattico

ISTITUTO TECNICO ECONOMICO MOSSOTTI

Introduzione al corso

La riforma del servizio di distribuzione del

L insegnamento del Laboratorio di Fisica. Alcune considerazioni didattiche

VADEMECUM PER UNA STRATEGIA SEO VINCENTE

Corso di Informatica

Sommario. Definizione di informatica. Definizione di un calcolatore come esecutore. Gli algoritmi.

Elenchi Intrastat. Indice degli argomenti. Premessa. Operazioni preliminari. Inserimento manuale dei movimenti e presentazione

PROCESSO DI INDICIZZAZIONE SEMANTICA

Lezione 1 Introduzione

Università degli Studi di L Aquila. Facoltà di Ingegneria. Corso di Laurea in Ingegneria Elettronica Corso di Sistemi Informativi

Corso sul linguaggio SQL

BASE DI DATI: introduzione. Informatica 5BSA Febbraio 2015

Lezione 8. La macchina universale

Informatica 3. Informatica 3. LEZIONE 10: Introduzione agli algoritmi e alle strutture dati. Lezione 10 - Modulo 1. Importanza delle strutture dati

Motori di ricerca. Andrea Marin

Stefania Marrara - Esercitazioni di Tecnologie dei Sistemi Informativi. Integrazione di dati di sorgenti diverse

Training sulle soluzioni SAP BusinessObjects BI4

YOU ARE WHAT YOU CURATE COS E LA CONTENT CURATION E COME APPLICARLA

I motori di ricerca. Che cosa sono. Stefania Marrara Corso di Sistemi Informativi

Operazioni sui database

Introduzione alle basi di dati (prima parte)

Al giorno d oggi, i sistemi per la gestione di database

MODELLO RELAZIONALE. Introduzione

Corso di Access. Prerequisiti. Modulo L2A (Access) 1.1 Concetti di base. Utilizzo elementare del computer Concetti fondamentali di basi di dati

Basi di Dati Multimediali. Fabio Strocco

Programmi e Oggetti Software

ECDL - Database. European Computer Driving Licence - Modulo 5 - Database LEZIONE 2

I.Ri.Fo.R. Regionale Toscano Onlus. Analisi dei fabbisogni per la formazione di Trascrittori testi in braille, ingranditi ed elettronici

Standard di competenza ENETOSH per formatori ed istruttori relativo alla sicurezza e alla salute sul luogo di lavoro

Corso Analista Programmatore Web PHP Corso Online Analista Programmatore Web PHP

Lezione 2. Il modello entità relazione

lem logic enterprise manager

Tecnologie dell informazione e della comunicazione per le aziende

INFORMATICA GENERALE. Prof Alberto Postiglione Dipartim. Scienze della Comunicazione Univ. Salerno. Università degli Studi di Salerno

Antivirus. Lezione 07. A cosa serve un antivirus

Progettazione di Basi di Dati

Sistema di valutazione della performance

Novità di Access 2010

Come archiviare i dati per le scienze sociali

APPUNTI DI MATEMATICA LE FRAZIONI ALGEBRICHE ALESSANDRO BOCCONI

Progettazione di una base di dati Ufficio della Motorizzazione

Analisi sensitività. Strumenti per il supporto alle decisioni nel processo di Valutazione d azienda

Capitolo 13. Interrogare una base di dati

Il database management system Access

Archivio globale della Maremma

SISTEMI INFORMATIVI AVANZATI -2010/ Introduzione

Indicizzazione terza parte e modello booleano

Cosa è un foglio elettronico

GUIDA AL CALCOLO DEI COSTI DELLE ATTIVITA DI RICERCA DOCUMENTALE

I Sistemi Informativi

Lezione 1. Introduzione e Modellazione Concettuale

Funzioni funzione dominio codominio legge argomento variabile indipendente variabile dipendente

Transcript:

Introduzione all Information Retrieval

Argomenti della lezione Definizione di Information Retrieval. Information Retrieval vs Data Retrieval. Indicizzazione di collezioni e ricerca. Modelli per Information Retrieval. Cenni sugli altri argomenti del corso. 2

Cos è l Information Retrieval L Information Retrieval (IR) si occupa della rappresentazione, memorizzazione e organizzazione dell informazione, al fine di rendere agevole all utente il soddisfacimento dei propri bisogni informativi. Data una collezione di documenti e un bisogno informativo dell utente, lo scopo di un sistema di IR è di trovare informazioni che potrebbero essere utili, o rilevanti, per l utente. Rispetto alla teoria classica delle basi di dati, l enfasi non è sulla ricerca di dati ma sulla ricerca di informazioni. 3

Perché è interessante parlare di IR? Il settore dell Information Retrieval è stato studiato fin dagli anni `70. Negli anni `90, l esplosione del Web ha moltiplicato l interesse per IR. Il Web infatti non è altro che un enorme collezione di documenti, sui quali gli utenti vogliono fare ricerche informazionali. Il problema principale è che non è semplice caratterizzare esattamente i bisogni informativi dell utente. 4

Un esempio di bisogno informativo Trova tutti i documenti che contengono informazioni sulle squadre di calcio partecipanti a campionati di prima divisione e che: Provengono da organismi calcistici ufficiali; Contengono informazioni sui risultati raggiunti nei tornei nazionali negli ultimi tre anni; Forniscono l indirizzo e-mail o il numero di telefono della società. 5

Information Retrieval vs Data Retrieval Un sistema di Data Retrieval (ad esempio un DBMS) gestisce dati che hanno una struttura ed una semantica ben definita. Un sistema di Information Retrieval gestisce testi scritti in linguaggio naturale, spesso non ben strutturati e semanticamente ambigui. Di conseguenza: Un linguaggio per Data Retrieval permette di trovare tutti gli oggetti che soddisfano esattamente le condizioni definite. Tali linguaggi (algebra relazionale, SQL) garantiscono una risposta corretta e completa. Un sistema di Information Retrieval, invece, potrebbe restituire, tra gli altri, oggetti non esatti; piccoli errori sono accettabili e probabilmente non verranno notati dall utente. 6

Dati strutturati, semistrutturati, non strutturati Dati strutturati Dati semistrutturati Dati non strutturati DBMS relazionali + SQL DBMS XML nativi o non nativi + XPath/XQuery? 7

Architettura di un tipico sistema di IR 8

Indicizzazione della collezione I sistemi di IR non operano sui documenti originali, ma su una vista logica degli stessi. Tradizionalmente i documenti di una collezione vengono rappresentati tramite un insieme di keyword. La capacità di memorizzazione dei moderni elaboratori permette talvolta di rappresentare un documento tramite l intero insieme delle parole in esso contenute; si parla allora di vista logica full text. Per collezioni molto grandi tale tecnica può essere inutilizzabile; si utilizzano allora tecniche di modifica del testo per ridurre la dimensione della vista logica, che diventa un insieme di index term. Il modulo di gestione della collezione si occupa di creare gli opportuni indici, contenenti tali termini. 9

Tecniche di indicizzazione Le tecniche di indicizzazione studiate per le basi di dati relazionali (ad es. B-Tree) non sono adatte per i sistemi di Information Retrieval. L indice più utilizzato è l indice invertito: Viene memorizzato l elenco dei termini contenuti nei documenti della collezione; Per ogni termine, viene mantenuta una lista dei documenti nei quali tale termine compare. Tale tecnica è valida per query semplici (insiemi di termini); modifiche sono necessarie se si vogliono gestire altre tipologie di query (frasi, prossimità ecc.). 10

Operazioni sul testo Il numero di termini indicizzati viene ridotto utilizzando una serie di tecniche, tra cui: Eliminazione delle stopword: articoli, congiunzioni ecc.; De-hyphenation: divisione in più parole di parole contenenti un trattino; Stemming: riduzione delle parole alla loro radice grammaticale; Thesauri: gestione dei sinonimi. L utilizzo di tali tecniche è sicuramente positivo dal punto di vista dell occupazione di spazio, ma non sempre migliora la qualità delle risposte ad una query. 11

Processo di ricerca di informazioni 1. L utente specifica un bisogno informativo... 2. Che viene analizzato e trasformato utilizzando le stesse operazioni sul testo applicate alla collezione; 3. La query viene eventualmente trasformata 4. Per poi essere eseguita, utilizzando indici precedentemente costruiti, al fine di trovare documenti rilevanti; 5. I documenti trovati vengono ordinati in base alla probabilità che siano rilevanti e ritornati in tale ordine all utente; 6. L utente esamina i documenti ritornati ed eventualmente raffina la query, dando il via ad un nuovo ciclo. 12

Modelli di Information Retrieval In questo corso discuteremo dei due modelli classici di Information Retrieval: Modello Booleano; Modello Vettoriale. Formalmente un modello di Information Retrieval è una quadrupla (D, Q, F, R), dove: D è un insieme di viste logiche dei documenti della collezione; Q è un insieme di viste logiche (dette query) dei bisogni informativi dell utente; F è un sistema per modellare documenti, query e le relazioni tra loro; R(q i, d j ) è una funzione di ranking che associa un numero reale ad una query q j e un documento d j, definendo un ordinamento tra i documenti con riferimento alla query q j. 13

Il modello booleano Il modello booleano è il modello più semplice; si basa sulla teoria degli insiemi e l algebra booleana. Storicamente, è stato il primo ed il più utilizzato per decenni. I documenti vengono rappresentate come insiemi di termini. Le query vengono specificate come espressioni booleane, cioè come un elenco di termini connessi dagli operatori booleani AND, OR e NOT. La strategia di ricerca è basata su un criterio di decisione binario, senza alcuna nozione di grado di rilevanza: un documento viene considerato rilevante o non rilevante. 14

Il modello vettoriale Il modello vettoriale è giustificato dall osservazione che assegnare un giudizio binario ai documenti (1=rilevante, 0=non rilevante) è troppo limitativo. Nel modello vettoriale ad ogni termine nei documenti o nelle query viene assegnato un peso (un numero reale). I documenti e le query vengono quindi rappresentati come vettori in uno spazio n-dimensionale (n = numero di termini indicizzati). La ricerca viene svolta calcolando il grado di similarità tra il vettore che rappresenta la query e i vettori che rappresentano ogni singolo documento: i documenti con più alto grado di similarità con la query hanno più probabilità di essere rilevanti per l utente. Il grado di similarità viene quantificato utilizzando una qualche misura, ad esempio il coseno dell angolo tra i due vettori. 15

Valutazione di un sistema di IR Come è possibile rispondere alla domanda quale di questi due sistemi di IR funziona meglio? Un sistema tradizionale di Data Retrieval può essere valutato oggettivamente, sulla base delle performance (velocità di indicizzazione, ricerca ecc.). In un sistema di IR tali valutazioni delle performance sono possibili, ma, a causa della soggettività delle risposte alle query, le cose si complicano Quello che si vorrebbe in qualche modo misurare è la soddisfazione dell utente. Vedremo che esistono delle misure standard per valutare la bontà delle risposte fornite da un sistema di IR. 16

Web Search Come detto, l Information Retrieval è nata per gestire collezioni statiche e ben conosciute: testi di legge, enciclopedie ecc. Quando la collezione di riferimento diventa il Web, le cose cambiano completamente: La collezione è dinamica, molto variabile nel tempo; Le dimensioni sono enormi; I documenti non sono sempre disponibili; Le query degli utenti sono ancora più imprecise e vaghe. Vedremo le tecniche utilizzate dai passati, presenti e.. futuri motori di ricerca. 17

Nuove frontiere: Structured IR Abbiamo presentato (e studieremo) l Information Retrieval come una scienza che ha a che fare con dati non strutturati. Tuttavia, negli ultimi anni sta emergendo la necessità di applicare tecniche di IR anche a dati semistrutturati, in particolare a documenti XML; si parla allora allora di Structured Information Retrieval (SIR). Molte cose cambiano. Ad es. in IR la risposta ad una query è un elenco di documenti; in SIR, la risposta è un elenco di? Documenti XML? O frammenti di documenti XML? O singoli elementi? Ultimamente sono state avanzate proposte per estendere XQuery con capacità di ricerca full-text. 18

Argomenti della lezione Definizione di Information Retrieval. Information Retrieval vs Data Retrieval. Indicizzazione di collezioni e ricerca. Modelli per Information Retrieval. Cenni sugli altri argomenti del corso. 19

Risorse per questa lezione MIR, ch. 1 20