RICERCA DELL INFORMAZIONE
DOCUMENTO documento (risorsa informativa) = supporto + contenuto analogico o digitale locale o remoto (accessibile in rete) testuale, grafico, multimediale
DOCUMENTO risorsa continuativa (ambito analogico): documento costituito da più parti che si aggiungono successivamente al contenuto iniziale (es.: rivista, opera multivolume); risorsa integrativa (ambito digitale): documento il cui contenuto è modificato con frequenza elevate (es. home page di un sito web); ciclo di vita: periodo di tempo nel quale il contenuto del documento è aggiornato o rilevante.
ESIGENZA INFORMATIVA Anomalous State of Knowledge (ASK): percezione soggettiva di una lacuna di conoscenza che determina una ricerca d informazione: ricerca di un documento conosciuto; ricerca di un argomento specifico; esplorazione (browsing) all interno di un ambito disciplinare;
ESIGENZA INFORMATIVA navigazione (surfing) partendo da un documento e seguendo collegamenti; serendipità (serendipity): guidato solo dalla curiosità spero di essere fortunato e trovare qualcosa d interessante.
RICERCA DI INFORMAZIONI tacit knowledge retrieval: rivolgersi ad un esperto; information retrieval: interrogare il catalogo di una biblioteca, una web directory, un motore web ; full text retrieval: consultare un documento; reference linking: consultare i documenti riferiti in un documento.
INFORMATION RETRIEVAL Disciplina tecnico/scientifica nata negli anni 50: classical IR: nelle DB; web IR: nei motori di ricerca
INFORMATION RETRIEVAL Tale disciplina include due attività: 1. Indicizzazione corpus (insieme esteso e strutturato di testi in formato digitale manipolabile da un calcolatore); 2. Ricerca dei documenti di interesse. RILEVANZA
INFORMATION RETRIEVAL La rilevanza è la nozione al centro dell information retrieval! L intento è quello di recuperare tutti i documenti rilevanti riducendo al minimo quelli non rilevanti recuperati.
INDICIZZAZIONE L attività detta di indicizzazione viene effettuata proprio per produrre una descrizione del contenuto di un documento e per associarla, a scopo di ricerca, al documento stesso. Indicizzare un testo significa estrarre un insieme di parole,dette parole chiave, significative per un contesto specifico e associarle al testo originario.
INDICIZZAZIONE Manuale:catalogatore: operatore umano specializzato che si occupa dell indicizzazione (di solito solo da frontespizio e poche altre parti); indicizzazione di articoli scientifici da parte dell autore; social tagging: indicizzazione distribuita nel web.
INDICIZZAZIONE Automatica:eseguita da un sistema di IR; può essere su tutto il testo (full text indexing); Semi-automatica: prodotta dall uomo con l aiuto del computer che suggerisce i termini da usare.
INDICIZZAZIONE Molti sistemi di recupero automatico si affidano a strumenti quali i thesauri. Un thesaurus è una sorta di dizionario gerarchizzato, un insieme strutturato di termini scelti per la capacità di facilitare la descrizione di concetti in un dominio. Strumento documentale di indicizzazione.
INDICIZZAZIONE Un thesaurus consente di rappresentare ogni documento con una selezione rigorosa di parole. Rappresenta un database di termini chiave organizzati semanticamente per argomento: aiuta l utente ad ottimizzare le richieste di informazioni. Roget s thesaurus: http://thesaurus.com/roget-alpha- Index.html
METADATI Un metadato è un informazione che descrive un insieme di dati. Tale concetto ha un ruolo importantissimo nella gestione di qualunque tipo di contenuto informativo o documentale, soprattutto quando l informazione disponibile è molta e deve essere dunque selezionata e organizzata per facilitarne il reperimento e l uso.
METADATI Sono dei mattoni fondamentali del nuovo WEB. Sono dati utilizzati per descrivere e classificare altri dati. Un esempio tipico di metadati è costituito dalla scheda del catalogo di una biblioteca, la quale contiene informazioni circa il contenuto e la posizione di un libro, cioè dati riguardanti i dati che si riferiscono al libro.
METADATI- FUNZIONI La funzione principale di un sistema di metadati è quella di consentire il raggiungimento dei seguenti obiettivi: Ricerca, che consiste nell individuare l esistenza di un documento; Localizzazione, ovvero rintracciare una particolare occorrenza del documento; Selezione, realizzabile analizzando, valutando e filtrando una serie di documenti.
METADATI- TIPOLOGIE Esistono molti tipi possibili di metadati, ne sono state tentate diverse classificazioni, una distinzione abbastanza diffusa è la seguente: Descrittivi; Gestionali-amministrativi; Strutturali.
METADATI- TIPOLOGIE Descrittivi (ad esempio, il titolo di un libro) hanno lo scopo fondamentale di descrivere l informazione primaria. Servono per identificare e recuperare gli oggetti digitali. Un esempio: Dublin Core è un sistema di metadati costituito da un nucleo di elementi essenziali ai fini della descrizione di qualsiasi materiale digitale accessibile via rete informatica.
METADATI- TIPOLOGIE Gestionali-amministrativi usati per la gestione dell oggetto digitale. Essi assumono un importanza preponderante ai fini della conservazione permanente degli oggetti digitali: possono documentare i processi tecnici associati alla conservazione permanente, fornire informazioni sulle condizioni e i diritti di accesso agli oggetti digitali, certificare l autenticità e l integrità del contenuto.
METADATI- TIPOLOGIE Gestionali-amministrativi. Un esempio: OAIS (Open Archival Information System) definisce concetti, modelli e funzionalità inerenti agli archivi digitali e gli aspetti di digital preservation.
METADATI- TIPOLOGIE Strutturali descrivono le relazioni che collegano le parti di un oggetto composito. Forniscono dati di identificazione e localizzazione del documento. Un esempio: XML (extensible Markup Language) è un linguaggio di marcatura che consente di definire e controllare il significato degli elementi contenuti in un documento o in un testo.
XML Rispetto all HTML l'xml ha uno scopo ben diverso: mentre il primo definisce una grammatica per la descrizione e la formattazione di pagine web il secondo è utilizzato per descrivere documenti strutturati. Mentre l HTML ha un insieme ben definito e ristretto di tag, con l'xml è invece possibile definirne di propri; tali tag sono utilizzati per assegnare una semantica al testo.
METADATI I metadati, sono informazione, di norma altamente strutturata, utilizzata per descrivere, strutturare o gestire una risorsa informativa o un insieme di risorse informative attraverso l identificazione di alcune sue proprietà e l assegnazione ad esse di specifici valori.
INTEROPERABILITA Capacità di un sistema o di un prodotto informatico di cooperare e di scambiare informazione con affidabilità e ottimizzazione delle risorse. Necessità di adottare insiemi standardizzati di metadati.
INTEROPERABILITA Si tratta di una prospettiva di estensione dell attuale Rete nella quale l informazione sia fornita con significati ben definiti, maggiormente in grado di abilitare persone e computer a lavorare in cooperazione (Tim Berners Lee - James Hendler - Ora Lassila. The Semantic Web, Scientific American, maggio 2001).
INTEROPERABILITA La Open Archives Initiative (OAI) ha elaborato un quadro di riferimento che si è affermato come modello per l architettura della biblioteca digitale. Le istituzioni pubbliche che intendono valorizzare gli oggetti digitali realizzati per uso pubblico devono tenere in considerazione l estrema rilevanza del modello OAI.