Macchine per l elaborazione dell informazion e. Sistemi di Elaborazione delle Informazioni. Informatica II

Documenti analoghi

PROCESSO DI INDICIZZAZIONE SEMANTICA

L INDICIZZAZIONE SEMANTICA

EMILIO BERTOCCI I LINGUAGGI DI INDICIZZAZIONE

Sommario. Definizione di informatica. Definizione di un calcolatore come esecutore. Gli algoritmi.

Progettaz. e sviluppo Data Base

Costruzione del thesaurus, analisi a faccette, categorie

Corso di Informatica

Progettaz. e sviluppo Data Base

Indicizzazione semantica della narrativa L esperienza bresciana

La base di dati (database)

MODELLO E/R. Prof. Francesco Accarino IIS Altiero Spinelli Sesto San Giovanni

MAPPE DI KARNAUGH. Nei capitoli precedenti si è visto che è possibile associare un circuito elettronico o elettrico ad una funzione logica.

L indicizzazione per soggetto

BASI DI DATI - : I modelli di database

La gestione del documento

Autorità per l'informatica nella pubblica amministrazione Deliberazione n. 42/2001

Telerilevamento e GIS Prof. Ing. Giuseppe Mussumeci

COMUNE DI SOLBIATE ARNO

Active Directory. Installatore LAN. Progetto per le classi V del corso di Informatica

Dall Archivio al Polo tecnologico dell audiovisivo didattico e documentale per l Alto Lazio

Corso di Amministrazione di Reti A.A. 2002/2003

Cercare documenti Web

Airone Gestione Rifiuti Funzioni di Esportazione e Importazione

AGGIORNAMENTO AREA SEMANTICA GESTIONE SOGGETTARI

IDENTIFICAZIONE DEI BISOGNI DEL CLIENTE

BASI DI DATI per la gestione dell informazione. Angelo Chianese Vincenzo Moscato Antonio Picariello Lucio Sansone

Uff. I. - OLIMPIADI DI PROBLEM SOLVING - Informatica e pensiero algoritmico nella scuola dell'obbligo

Lezione 1. Introduzione e Modellazione Concettuale

Le Basi di Dati. Le Basi di Dati

Informazione e dato. Gabriella Trucco

U N I V E R S I T À D E G L I S T U D I D I S A L E R N O

Organizzazione degli archivi

UNIVERSITA DEGLI STUDI DI BRESCIA Facoltà di Ingegneria

Progettazione di Database

Laboratorio informatico Banche dati off line

RICERCA DELL INFORMAZIONE

Insegnare con il blog. Materiale tratto da:

Il processo traduttivo

CitySoftware PROTOCOLLO. Info-Mark srl

RACCOMANDAZIONE N. R (91) 10 DEL COMITATO DEI MINISTRI AGLI STATI MEMBRI SULLA COMUNICAZIONE A TERZI DI DATI PERSONALI DETENUTI DA ORGANISMI PUBBLICI

Librerie digitali. Video. Gestione di video. Caratteristiche dei video. Video. Metadati associati ai video. Metadati associati ai video

Sistemi informativi secondo prospettive combinate

SCUOLA PRIMARIA Anno Scolastico 2014/2015 CURRICOLO DI TECNOLOGIA OBIETTIVI DI APPRENDIMENTO AL TERMINE DELLA CLASSE TERZA DELLA SCUOLA PRIMARIA

5.3 TABELLE RECORD Inserire, eliminare record in una tabella Aggiungere record Eliminare record

L organizzazione aziendale

SCUOLA PRIMARIA OBIETTIVI DI APPRENDIMENTO

PROGRAMMAZIONE MODULARE DI INFORMATICA CLASSE QUINTA - INDIRIZZO MERCURIO SEZIONE TECNICO

Liceo Marie Curie (Meda) Scientifico Classico Linguistico PROGRAMMAZIONE DISCIPLINARE PER COMPETENZE

Capitolo 5. Cercare informazioni sul Web

TECNOLOGIA TRAGUARDI PER LO SVILUPPO DELLE COMPETENZE ALLA FINE DELLA SCUOLA PRIMARIA

SCHEMA DI DELIBERAZIONE

Basi di dati. (Sistemi Informativi) teoria e pratica con Microsoft Access. Basi di dati. Basi di dati. Basi di dati e DBMS DBMS DBMS

Il Sistema Operativo: il File System

Gli aggiornamenti della normativa italiana e Il Codice dell Amministrazione digitale dlgs 82/05

Informatica. Basi di dati. Basi di dati (Database, DB) Basi di dati parte 1: Introduzione

Database. Si ringrazia Marco Bertini per le slides

Il moderno messaggio mediatico: l Ipertesto e l Ipermedia. Stefano Cagol

SCHEDA PRODOTTO PAG. 1 J O B T I M E W F. Variazioni mensili al cartellino presenze. Versione 6.1. JOBTIME Work Flow

CERTIFICAZIONE DELLE COMPETENZE: indicatori e livelli

IL CATALOGO E LA CATALOGAZIONE EMILIO BERTOCCI IL CATALOGO E LA CATALOGAZIONE

Sistemi Informativi e Sistemi ERP

Informatica Industriale Modello funzionale Casi d uso

Disciplinare sulla gestione dei reclami, suggerimenti e segnalazioni dei cittadini nei confronti dell Amministrazione Comunale di Ancona

Alla ricerca dell algoritmo. Scoprire e formalizzare algoritmi.

Soluzione dell esercizio del 2 Febbraio 2004

I.T.C. Mario Pagano Napoli

EXCEL PER WINDOWS95. sfruttare le potenzialità di calcolo dei personal computer. Essi si basano su un area di lavoro, detta foglio di lavoro,

5.1.1 Politica per la sicurezza delle informazioni

1. BASI DI DATI: GENERALITÀ

GESTIONE DEI DOCUMENTI, DEI DATI E DELLE REGISTRAZIONI

Se siete interessati a costituire un associazione per il vostro distretto, contattate il vostro rappresentante di supporto per club e distretti.

Introduzione Ai Data Bases. Prof. Francesco Accarino IIS Altiero Spinelli Via Leopardi 132 Sesto San giovanni

MODELLO E/R. Modellazione dei dati

Strumenti di modellazione. Gabriella Trucco

INFORMATIVA SULLA PRIVACY. In questa pagina si descrivono le modalità di gestione del sito in riferimento al

MANUALE DELLA QUALITÀ Pag. 1 di 6

Corso base di fotografia PER-CORSO FOTOGRAFICO

Scheda Prodotto. Per informazioni puoi rivolgerti presso l Agenzia:

Esercizio data base "Biblioteca"

EXPLOit Content Management Data Base per documenti SGML/XML

ALICE AMMINISTRAZIONE UTENTI WEB

Allegato n. 13 Linee guida per la formazione e gestione dei fascicoli

Project Cycle Management

Appunti sulla Macchina di Turing. Macchina di Turing

Il motore semantico della PA piemontese. Marta Garabuggio - Regione Piemonte Carlo Fortunato CSI - Piemonte

Gestione del workflow

Le strumentazioni laser scanning oriented per i processi di censimento anagrafico dei patrimoni

Introduzione ai database relazionali

Volumi di riferimento

Faber System è certificata WAM School

R E G I O N E U M B R I A GIUNTA REGIONALE. Direzione Affari Generali della Presidenza e della Giunta regionale. Servizio Segreteria della Giunta

CONTENT MANAGEMENT SYSTEM

Alessandra Raffaetà. Basi di Dati

I Problemi e la loro Soluzione. Il Concetto Intuitivo di Calcolatore. Risoluzione di un Problema. Esempio

BASE DI DATI: introduzione. Informatica 5BSA Febbraio 2015

Progettazione di Basi di Dati

Come costruire una presentazione. PowerPoint 1. ! PowerPoint permette la realizzazione di presentazioni video ipertestuali, animate e multimediali

Manuale Amministratore Legalmail Enterprise. Manuale ad uso degli Amministratori del Servizio Legalmail Enterprise

GESTIONE della BASE di DATI

Transcript:

Macchine per l elaborazione dell informazion e Sistemi di Elaborazione delle Informazioni Informatica II Ing. Mauro Iacono Seconda Università degli Studi di Napoli Facoltà di Studi Politici e per l Alta Formazione Europea e Mediterranea Jean Monnet - PARSeC Research Group

Macchine per l elaborazione dell informazion e Information Retrieval (Fadini-Savy cap. 11) Informatica II - Mauro Iacono - Seconda Università di Napoli 2

Information Retrieval Tecniche e sistemi per gestire efficientemente l'archiviazione e il reperimento di informazioni non strutturate ovvero contenute in documenti: sui quali sono note soltanto informazioni di tipo semantico non organizzati in maniera schematica come i DB 3

Possono essere: Documenti di tipo testuale (libri, articoli, riviste, leggi, sentenze, documenti tecnici di descrizione di un prodotto) di tipo multimediale (disegni, stampe, foto, filmati, testi musicali, discorsi, dipinti, sculture, edifici, scavi archeologici) Problema: archiviazione Documento completo o surrogato? Problema: ricerca dei dati Catalogazione: richiede un esperto 4

Esempi Archivi storici/testi antichi schede complete per tutti i materiali? trascrizione? copia fotografica? Letteratura di evasione sola catalogazione e solo per autore e titolo Articoli scientifici catalogazione per argomento, autore, parole chiave; archiviazione di copia in formato elettronico Opere d'arte impossibile memorizzarla: uso di schede di catalogazione (quali criteri?) Testi rari/deperibili Copia fotografica per conservazione e consultazione 5

Organizzazione dati e IR E' necessario estrarre dai documenti le due componenti (da separare): informazioni strutturate informazioni in senso semantico Dal punto di vista informatico un documento viene descritto dai suoi attributi che possono a loro volta essere in alternativa strutturati testuali Tali attributi vengono usati per le ricerche strutturati: DB testuali: necessaria una standardizzazione dei termini 6

Thesaurus La standardizzazione dei termini permette di costruire anche nel caso testuale un apposito limitato e predefinito dominio di definizione per ogni attributo detto thesaurus o dizionario predefinito dell'attributo Il thesaurus assume il ruolo di: standardizzazione dei termini ausilio alla catalogazione ausilio alla ricerca Attenzione: l'uso della standardizzazione aumenta la potenza espressiva dei sistemi di archiviazione ma non può formalizzare tutto il contenuto di un documento 7

Fasi dell'ir Il processo di IR consiste in due fasi: archiviazione inserimento dei documenti originali in un archivio dei documenti (fisico) ordinato per posizione o collocazione, analisi e creazione del termine di individuazione coerente con un linguaggio di individuazione da inserire nell'archivio di indagine (elettronico) indagine formulazione della richiesta,, analisi e formulazione del termine di indagine,, confronto con l'archivio di indagine, individuazione ed elencazione dei documenti coerenti con relativa collocazione 8

Esempio: Autore e titolo Classificazione per Autore e titolo (forma base per le biblioteche) Termine di individuazione: autore e titolo Archivio di indagine: schedario Archivio dei documenti: la biblioteca Linguaggio di individuazione: regole per la redazione delle schede bibliografiche per lo schedario Fase di archiviazione: schedatura Fase di indagine: ricerca per autore Svantaggio: bisogna conoscere autore e titolo 9

Sistemi gerarchici I sistemi di classificazione gerarchici si basano sull'organizzazione di un certo numero predeterminato di argomenti (detti categorie o classi o settori della conoscenza) ) in una gerarchia Classi della conoscenza: determinate per affinità formate da documenti diversi che trattano tutti dello stesso argomenti allo stesso livello di generalità concatenate ad albero per ordine di generalità decrescente Possibili ricerche su termini non presenti ma affini 10

Sistemi di tipo gerarchico puro Costruiti per sfruttare al massimo la gerarchia Principali: Sistema di Classificazione Universale Decimale (UDC) Sistema di Classificazione Decimale di Dewey (DDC) Sistema della Libreria del Congresso degli USA (LC) 11

Esempio: sistema DDC Ampiamente usato in Italia (difetto: nuove discipline?) Radice dell'albero: il Sapere Al primo livello: 10 classi molto generali (000-900) Al secondo livello: per ogni classe 10 divisioni meno generali (X00-X90) Al terzo livello: per ogni divisione 10 sezioni più specifiche (XY0-XY9) Ulteriori suddivisioni minori: XYZ.0-XYZ.9 e così via fino a 9 cifre Archiviazione: analisi per sottoclassi successive, collocazione su scaffali etichettati con il codice numerico, produzione di schede ordinate per codice Reperimento: ricerca sull'albero, posizioni adiacenti 12

Sistemi ad argomenti principali Detti anche soggettari Adottati dal sistema bibliotecario nazionale italiano, con responsabile la Biblioteca Nazionale Centrale di Firenze Un soggettario è un elenco di soggetti organizzati ad albero e indipendenti l'uno dall'altro (foresta( foresta) Vantaggio: aperto a nuovi generi Svantaggio: più difficile classificare documenti con nuove caratteristiche Aggiunta di nuove voci: dietro apposita procedura di autorizzazione per evitare duplicazioni Evoluzione: rimandi tra argomenti ( vedi o vedi anche ) che collegano tra loro più alberi (risolvono i sinonimi) 13

Esempio: soggettario BNI Soggettario delle Biblioteche Nazionali Italiane Il soggetto può essere composto da più parole Sottovoci separate da punti Permesse schede di rimando Ordinamento: soggetti a una parola, sottovoci del soggetto, soggetti a due parole separate da 'e', soggetti aggettivati, schede di rimando DIRITTO DIRITTO.Concetto DIRITTO.Filosofia DIRITTO E ECONOMIA DIRITTO AMMINISTRATIVO DIRITTO AMMINISTRATIVO.Concetto 14

Sistemi analitico-sintetici Il metodo analitico-sintetico o a faccette prevede una classificazione mediante più elenchi di termini elementari ognuno relativo a una proprietà dell'oggetto da classificare (documento in senso lato) Le proprietà derivano da una analisi preliminare Adatto per oggetti d'arte Fase di archiviazione: Analisi del documento e ricerca della n-pla più adatta, associazione dei dati ottenuti al documento Fase di reperimento L'utente formula la n-pla più affine alla sua ricerca e ottiene tutti i documenti corrispondenti 15

Esempio: soggettario BNI 16

Sistemi a chiavi Permettono di superare la necessità di un linguaggio di identificazione predefinito Idea: identificare in ogni documento alcune parole o espressioni significative che caratterizzino il documento (chiavi( o parole chiave) ) e formino il thesaurus (problema degli omografi) Fase di archiviazione individuazione delle chiavi (eventualmente fatta dall'autore in un thesaurus), creazione della tabella delle chiavi (documento -> chiavi relative), generazione dell'indice inverso (chiave -> documenti collegati) Fase di ricerca automatica, sulle chiavi, con espressioni logiche 17

Reti semantiche I termini del thesaurus possono essere strutturati in una rete di collegamenti concettuali individuando: componenti lessicali relazioni semantiche Le componenti lessicali assumono forma di: descrittori (termini che partecipano all'individuaz. della rete) non-descrittori (considerati equivalenti ad altri descrittori) termini strumentali (una sola parola, significato generico) Una relazione semantica può essere: preferenziale gerarchica associativa 18

Relazioni semantiche Relazione semantica preferenziale è il legame di equivalenza o sinonimità e si indica con USA ( Alunno USA Allievo ) o all'inverso SP (Sinonimo Preferenziale: Allievo SP Alunno ) Relazione semantica di tipo gerarchico Collega una due componenti lessicali, una più generica e una più specifica e si indica con TL: (Termine Largo, Veicolo TL Auto ) o all'inverso TS (Termine Stretto, Auto TS Veicolo), oppure TA (Termine più Ampio) per la radice Relazione semantica associativa Indica un legame biunivoco qualsiasi e si indica con RT (Termine in Relazione, vittima RT incidente per casualità) 19