CENTRO DI ECCELLENZA ITALIANO SULLA CONSERVAZIONE DIGITALE Digital library e repositori istituzionali SILVIO SALZA Università degli Studi di Roma La Sapienza CINI- Consorzio Interuniversitario Nazionale per l Informatica salza@dis.uniroma1.it Work supported by the European Community under the Information Society Technologies (IST) program of the 7th FP for RTD Interoperabilità project APARSEN, dei ref. sistemi 269977 di gestione di contenuti e archivi SILVIO SALZA - Università di Roma Master La Sapienza in interoperabilità per la PA e le 1 Imprese 1
LICENZA DI DIRITTO D AUTORE Questo materiale è rilasciato sotto licenza Creative Commons CC BY-NC-ND Questa licenza implica che: È possibile copiare e distribuire liberamente questo materiale, a patto che non vengano apportate modifiche e che vengano mantenute le indicazioni di chi è l'autore dell'opera. Ciò è però consentito esclusivamente quando avvenga per scopi non commerciali. Non è consentito di distribuire opere derivate, cioè contenenti qualsivoglia modifica rispetto al materiale originale. Per maggiori dettagli si rimanda direttamente alla licenza: Riassunto della licenza: http://creativecommons.org/licenses/by-nc-nd/3.0/it/deed.it Licenza completa: http://creativecommons.org/licenses/by-nc-nd/3.0/it/legalcode SILVIO SALZA - Università di Roma Master La Sapienza in interoperabilità per la PA e le 2 Imprese 2
Digital library Una Digital library (Biblioteca digitale) è una biblioteca nella quale i contenuti sono memorizzati in formato digitale Contenuti memorizzati localmente o acceduti via rete Una Digital Library è un tipo particolare di information retrieval system An organization, which might be virtual, that comprehensively collects, manages and preserves for the long term rich digital content, and offers to its user communities specialized functionality on that content, of measurable quality and according to codified policies. The DELOS reference model Master in interoperabilità per la PA e le Imprese 3
Repository istituzionali Un repository istituzionale è il luogo in cui viene raccolto, conservato e disseminato il prodotto intellettuale di un istituzione primariamente di un istituzione di ricerca Molte università hanno dei repository istituzionali per consentire l accesso (gratuito) a vari contenuti intellettuali: preprint di articoli scientifici, tesi di dottorato, set di dati sperimentali, etc. Le università italiane sono tenute per legge ad avere repository istituzionali, almeno per le tesi di dottorato: queste accedute remotamente e scaricate dalla Biblioteca Nazionale Precedentemente le tesi di dottorato dovevano essere stampate e depositate presso la Biblioteca Nazionale Master in interoperabilità per la PA e le Imprese 4
Archivi tradizionali e archivi digitali Archivio tradizionale Contiene fonti primarie di informazione (lettere, carteggi..), piuttosto che secondarie (libri etc.) È organizzato in raccolte invece che in oggetti individuali Ha contenuti unici Archivio digitale Può ancora contenere fonti primarie È organizzato in oggetti individuali Il suo contenuto non è unico, poiché i contenuti digitali sono facilmente riproducibili Master in interoperabilità per la PA e le Imprese 5
Ricerca nelle digital library Le digital library generalmente hanno loro specifiche interfacce di ricerca che operano sulle risorse da esse gestite Alcune risorse sono deep web e quindi non possono essere individuate dai crawler dei motori di ricerca Le digital library spesso offrono delle sitemap (pagine speciali) per consentire ai motori di ricerca di individuare le loro risorse Sono stati sviluppati specifici protocolli per esporre i metadati: SiteMap protocol, sviluppato da Google OAI-PMI Metadata Harvesting Protocol, sviluppato nell ambito di Open Archives L utente deve spesso effettuare la ricerca su di una federazione di digital library Master in interoperabilità per la PA e le Imprese 6
Ricerca distribuita Una prima opzione è di effettuare la ricerca in parallelo su una molteplicità di digital library (DL) Inviare la richiesta in parallelo a più DL Usare protocolli di ricerca distribuita, p.es. Z 39.50 Raccogliere i risultati: ordinarli, eliminare i duplicati, clusterizzarli Vantaggi Sfrutta l indicizzazione delle singole DL Svantaggi Schemi di indicizzazione e ranking disomogenei nelle varie DL Complessità di assemblaggio e presentazione dei risultati Master in interoperabilità per la PA e le Imprese 7
Ricerca su harvested metadata Una seconda opzione è basata sull uso di indici locali Ciascuna DL raccoglie sistematicamente informazione (metadati) dalle altre DL Costruisce indici locali sul contenuto globale Vantaggi Schemi omogenei di indicizzazione e di ranking Risultati più consistenti Svantaggi Necessità di creare ed operare regolarmente meccanismi di harvesting e di indicizzazione (assorbe risorse) Master in interoperabilità per la PA e le Imprese 8
Piattaforme SW per digital library Disponibili piattaforme SW per costruire e gestire ldigital library Dspace Softaware open source che fornisce strumenti per al gestione di risorce digitali Supporta uan grande varietà di oggetti: libri, immagini, video Fedora (Flexible Extensible Digital Object Repository Architecture) Piattaforma open source di Digital Asset Management (DAM) Architettura di base, non è un sistema completo Supporta l ingest, la gestione e l esportazione degli oggetti API per servizi di accesso web-based customizzati (HTTP or SOAP) EPrints (University of Southampton) Master in interoperabilità per la PA e le Imprese 9
Open Archives Initiative Open Archives Initiative sviluppa e promuove standard di interoperabilità che mirano a facilitare l efficiente disseminazione dei contenuti È connessa al movimento Open Access: Facilitare l accesso ai materiali accessibili via web Soluzione di interoperabilità low-barrier Si basa sui repository che supportano Condivisione di metadati Publishing Archiving Master in interoperabilità per la PA e le Imprese 10
OAI-PMH metadata harvesting protocol Data Providers Creatori e gestori dei metadati per gli oggetti Gestiscono il deposito e la pubblicazione Service Providers Harvester (lett. mietitori) dei metadati Offrono servizi come interfacce di ricerca, etc. Necessario un accordo su: Protocollo di trasporto(http or FTP or ) Formato dei metadati (Dublin Core, MARC, MODS.. Controllo di qualità: elementi obbligatori, convenzioni di denominazione, etc. Proprietà intellettuali e diritti di uso Master in interoperabilità per la PA e le Imprese 11
OAI-PMH metadata harvesting protocol Data providers Aggregator Service providers Master in interoperabilità per la PA e le Imprese 12
Data Provider Data Provider Data Provider Service Provider Data Provider Data Provider Data Provider OAI-PMH: Structure Model Requests: Identify ListMetadataformats ListSets ListIdentifiers ListRecords GetRecord Repository Repository e-prints e-print Images e-print OPAC e-print Harvester Repository Responses: General information Metadata formats Set structure Record identifier Metadata Repository Museum e-print Archive e-print Repository Master in interoperabilità per la PA e le Imprese 13
Data provider e service provider Data Provider (Open Archive, Repository) Danno accesso libero ai metadati Non necessariamente danno libero accesso alle risorse Facilità di implementazione, barriere minime Service Provider Usano i metadati OAI compliant forniti dai Data Provider Mietono e memorizzano i metadati (non in tempo reale!) Possono mietere selettivamente Possono arricchire i metadati Offrono servizi a valore aggiunto basati sui metadati Master in interoperabilità per la PA e le Imprese 14
Il protocollo OAI-PMH Protocollo basato su HTTP Richiede gli argomenti come parametri GET or POST Prevede sei tipi diversi di richieste Es. http://archive.org? verb=listrecords&from=2002-11-01 Richieste codificate con sintassi XML Supporta tutti i formati di metadti (minimo: Dublin Core) Logical set hierarchy (definition: data providers) Date stamps (last change of metadata set) Messaggi di errore Controllo del flusso Master in interoperabilità per la PA e le Imprese 15
OAI-PMH flusso del controllo Service Provider Data Provider Harvester have 267, but give you only 100 100 records + resumptiontoken anyid1 want more of this archive.org/oai?verb=listrecords& resumptiontoken=anyid1 have 267, give you another 100 100 records + resumptiontoken anyid2 want more of this archive.org/oai?verb=listrecords& resumptiontoken=anyid2 have 267, give you my last 67 Repository 67 records + resumptiontoken Master in interoperabilità per la PA e le Imprese 16