SERVIZI DIGITAL LIBRARY Il Digital Library Management System CINECA



Documenti analoghi
Modello OAIS. Modello di riferimento. Il Modello. Prof.ssa E. Gentile a.a Un modello di riferimento dovrebbe descrivere:

Regione Piemonte Portale Rilevazioni Crediti EELL Manuale Utente

MANUALE MOODLE STUDENTI. Accesso al Materiale Didattico

Gestione delle informazioni necessarie all attività di validazione degli studi di settore. Trasmissione degli esempi da valutare.

La piattaforma di lettura targhe intelligente ed innovativa in grado di offrire servizi completi e personalizzati

EXPLOit Content Management Data Base per documenti SGML/XML

L architettura del sistema può essere schematizzata in modo semplificato dalla figura che segue.

MANUALE DI UTILIZZO: INTRANET PROVINCIA DI POTENZA

Harvesting delle tesi di dottorato delle Biblioteche Nazionali tramite DSpace

MetaMAG METAMAG 1 IL PRODOTTO

Database. Si ringrazia Marco Bertini per le slides

SOFTWARE A SUPPORTO DELLA GESTIONE AMMINISTRATIVA DELLO SPORTELLO UNICO SPECIFICA DEI REQUISITI UTENTE

Telerilevamento e GIS Prof. Ing. Giuseppe Mussumeci

Capitolo 4 Pianificazione e Sviluppo di Web Part

11/02/2015 MANUALE DI INSTALLAZIONE DELL APPLICAZIONE DESKTOP TELEMATICO VERSIONE 1.0

Airone Gestione Rifiuti Funzioni di Esportazione e Importazione

Protocollo Informatico (D.p.r. 445/2000)

Prodotto <ADAM DASHBOARD> Release <1.0> Gennaio 2015

CONTENT MANAGEMENT SYSTEM

Basi di dati. (Sistemi Informativi) teoria e pratica con Microsoft Access. Basi di dati. Basi di dati. Basi di dati e DBMS DBMS DBMS

Manuale Amministratore Legalmail Enterprise. Manuale ad uso degli Amministratori del Servizio Legalmail Enterprise

PRODUZIONE PAGELLE IN FORMATO PDF

Il CMS Moka. Giovanni Ciardi Regione Emilia Romagna

Protocollo Informatico (D.p.r. 445/2000)

Corso di Amministrazione di Reti A.A. 2002/2003

Sito web per la presentazione e l accesso ai servizi di Ruven integrato con la piattaforma B2B del pacchetto software ERP Stratega.NET.

Protocollo di metadata harvesting OAI-PMH Lavoro pratico 2

Mon Ami 3000 Varianti articolo Gestione di varianti articoli

Lezione 1. Introduzione e Modellazione Concettuale

LA GESTIONE DELLE VISITE CLIENTI VIA WEB

Manuale Utente. Gestione Richieste supporto BDAP. Versione 1.0

Light CRM. Documento Tecnico. Descrizione delle funzionalità del servizio

GIOTTO: IL DIGITAL LIBRARY

Gestione Iter Manuale Sistemista. Gestione Iter Manuale Sistemista

Titolo Perché scegliere Alfresco. Titolo1 ECM Alfresco

Progettaz. e sviluppo Data Base

Manuale Utente Albo Pretorio GA

2 Gli elementi del sistema di Gestione dei Flussi di Utenza

Gestione Forniture Telematiche

Architettura del sistema

PSNET UC RUPAR PIEMONTE MANUALE OPERATIVO

Generazione Automatica di Asserzioni da Modelli di Specifica

2.0 Gli archivi. 2.1 Inserire gli archivi. 2.2 Archivio Clienti, Fornitori, Materiali, Noleggi ed Altri Costi. Impresa Edile Guida all uso

PS_01 PROCEDURA PER LA GESTIONE DEI DOCUMENTI E DELLE REGISTRAZIONI

Il glossario della Posta Elettronica Certificata (PEC) Diamo una definizione ai termini tecnici relativi al mondo della PEC.

Manuale LiveBox APPLICAZIONE ANDROID.

Il Ministro dei Beni e delle Attività Culturali e del Turismo

Guida alla registrazione on-line di un DataLogger

WebGis - Piano Comprensoriale di Protezione Civile

Il Sistema Nazionale di Autovalutazione

Manuale Utente Amministrazione Trasparente GA

Istituto Centrale per il Catalogo Unico delle Biblioteche Italiane. e per le Informazioni bibliografiche. Manuali utente per SBN WEB. Versione 1.

Unipi EPrints, l'archivio istituzionale dell'università di Pisa

Gestire le NC, le Azioni Correttive e Preventive, il Miglioramento

Manuale LiveBox APPLICAZIONE ANDROID.

Manuale LiveBox APPLICAZIONE IOS.

Manuale Utente. Gestione Richieste supporto Data Warehouse. Della Ragioneria Generale dello Stato. Versione 1.0. Roma, Ottobre 2015

RIFERIMENTI ATTORI GLOSSARIO. ERRORI COMUNI REV. REQUISITI INGEGNERIA DEL SOFTWARE Università degli Studi di Padova

lem logic enterprise manager

CONTENT MANAGEMENT SY STEM

BASI DI DATI per la gestione dell informazione. Angelo Chianese Vincenzo Moscato Antonio Picariello Lucio Sansone

Il sistema di conservazione degli archivi digitali di Regione Toscana. Ilaria Pescini

Mon Ami 3000 Conto Lavoro Gestione del C/Lavoro attivo e passivo

Manuale di Aggiornamento BOLLETTINO. Rel H4. DATALOG Soluzioni Integrate a 32 Bit

Lo schema complessivo con cui opera il servizio è quello rappresentato in figura. 1

Segesta srl Via Giacomo Peroni Roma Tel. 06/ Fax 06/

Analisi dei requisiti e casi d uso

Servizi Remoti. Servizi Remoti. TeamPortal Servizi Remoti

CREA IL CATALOGO DEI TUOI PRODOTTI SU IPAD E IPHONE CON UN APP. ANZI, CON UPP!

BDCC : Guida rapida all utilizzo

Stefania Marrara - Esercitazioni di Tecnologie dei Sistemi Informativi. Integrazione di dati di sorgenti diverse

Che differenza c è tra una richiesta XML ed una domanda XML? (pag. 4)

Il moderno messaggio mediatico: l Ipertesto e l Ipermedia. Stefano Cagol

Sistematizzare la documentazione di progetto Una metodologia per un Quality-controlled Subject Gateway del design

Registratori di Cassa

CitySoftware PROTOCOLLO. Info-Mark srl

Attività federale di marketing

Protezione delle registrazioni di tracciamento da modifiche non autorizzate A R.1.6 [TU /52/1/b]

Workshop PTA azione 5 WebGis Soluzione WebGis Regione Lombardia

Politica per la Sicurezza

AtoZ IL CATALOGO DI BIBLIOTECA VIRTUALE

1) GESTIONE DELLE POSTAZIONI REMOTE

Hub-PA Versione Manuale utente

illustrativa Affidabile, veloce, trasparente.

esales Forza Ordini per Abbigliamento

Linee guida per le Scuole 2.0

TECNOLOGIE REALTIME DATA INTEGRATION

SISTEMA DI GESTIONE PER LA QUALITA Capitolo 4

Allegato 3 Sistema per l interscambio dei dati (SID)

Il software impiegato su un computer si distingue in: Sistema Operativo Compilatori per produrre programmi

NOVITÀ SITI COMMERCIALISTA

Riepilogo delle modifiche di PA-DSS dalla versione 2.0 alla 3.0

Progetto SINTESI - Dominio Provinciale

Corso di Informatica

SUAP. Per gli operatori SUAP/amministratori. Per il richiedente

Portale tirocini. Manuale utente Per la gestione del Progetto Formativo

5.1.1 Politica per la sicurezza delle informazioni

GUIDA PER IL DOCENTE ALL UTILIZZO DELL APPLICATIVO ONLINE E PORTFOLIO

Retail L organizzazione innovativa del tuo punto vendita

[ PIANO DI ADEGUAMENTO SITO WEB ]

Transcript:

SERVIZI DIGITAL LIBRARY Il Digital Library Management System CINECA in collaborazione con Sapienza Università di Roma Rel. 1.0 White Paper Maggio 2013

CINECA Consorzio Interuniversitario Sede Legale, Amministrativa e operativa: Via Magnanelli, 6/3 40033 Casalecchio di Reno (BO) Tel. 051 6171485 www.cineca.it Altre sedi operative: Via R. Sanzio, 4 20090 Segrate (MI) Tel. 02 269951 Via Ciro il Grande, 16 00144 Roma Tel. 06 5929281 Via dei Tizii, 6 00185 Roma Tel. 06 444861 A cura di Matteo Bertazzo e Federico Giacanelli, con Andrea Buda, Ugo Contino, Franca Fiumana, Paolo Malfetti, Giorgio Pedrazzi, Massimo Spinelli, Stefano Spitoni, Roberta Turra, Salvatore Rago (CINECA) Danila Bigazzi, Fabrizo Guidotti, Sabina Parmeggiani (Art Director), Stefano Pinelli (Alterego s.r.l.) Gruppo di ricerca Sapienza Digital Library: Centro interdipartimentale di ricerca e servizi DigiLab Donatella Capaldi, Cecilia Carloni, Gianfranco Crupi, Maria Guercio, Silvia Ortolani, Giovanni Ragone, Silvio Salza, Marco Schaerf, Isabella Tartaglia Sistema Bibliotecario Sapienza Angela Di Iorio, Adriana Magarotto, Maura Quaquarelli, Giovanni Solimine, Ezio Tarantino Con la collaborazione di Francesca Cinquina, Manuela Corbosiero, Manuela Grillo Con il supporto di InfoSapienza CINECA Questo documento non può essere riprodotto o trasmesso in alcuna forma o attraverso alcun mezzo elettronico o meccanico, per alcun scopo, senza previa autorizzazione da parte di CINECA. Dipartimento Gestione dell Informazione e della Conoscenza.

INDICE IL DIGITAL LIBRARY MANAGEMENT SYSTEM CINECA... 5 Introduzione: dal Progetto Sapienza Digital Library al Digital Library Management System... 5 La genesi del progetto... 5 Il Digital Library Management System e il Servizio... 6 Processi di filiera... 7 Catalogazione... 8 Management... 8 Applicazioni... 8 Architettura del servizio... 9 Funzionalità e soluzioni software integrate... 9 Acquisizione delle risorse digitali... 9 Transcodifica... 9 Il deposito digitale... 9 Indicizzazione e ricerca... 9 Dissemination... 10 Le componenti dell architettura... 10 Componenti infrastrutturali e repository... 13 Digital Library Service Delivery Platform: la piattaforma API... 15 Catalogazione delle collezioni e delle risorse digitali... 19 Acquisizione delle risorse digitali... 21 Pacchetto informativo e pacchetto di versamento... 21 Submission Information Package... 22 Profilo METS... 23 Workflow di ingestion... 25 Monitoraggio della fase di ingestion... 29 Archiviazione dei pacchetti AIP... 29 Trattamento ed enrichment delle risorse digitali... 35 Il motore di transcodifica... 35 Le API di transcodifica... 36 Servizi di transcodifica e workflow di ingestion... 39 Monitoraggio dei processi di transcodifica... 40 Gestione autenticazioni e autorizzazioni... 41 Indicizzazione e ricerca... 43 Funzionalità di faceting... 43 Advanced e Simple Search... 43 La funzionalità di browsing... 44 Similarity... 44 Full-text search... 44 SERVIZI INTEGRATI... 45 Concept Mapper generazione automatica di metadati semantici per Digital Libraries... 47 Il processo di analisi... 47 Applicazioni... 49 Benefici... 51 1

2 Il servizio Multimedia Asset Management and Distribution MediaMosa... 53 Funzionalità del Servizio Mediamosa... 54 I vantaggi dell integrazione... 55 Servizio di registrazione di persistent identifier (DOI)... 57 Servizi basati sul DOI... 58 Servizio di streaming... 61 Descrizione... 61 Il servizio di streaming live... 62 Il servizio di streaming on-demand... 62 Pubblicazione: presentazione dei contenuti... 63 Servizio di Content Delivery Network (opzionale a richiesta)... 63 Servizio di trascrizione OCR... 65 Il software OCR utilizzato... 65 I vantaggi dell integrazione... 66 MODULI DI INTEGRAZIONE... 67 Integrazione con la piattaforma Learning Management System Moodle... 69 I vantaggi dell integrazione... 70 Integrazione con U-GOV Ricerca... 71 I vantaggi dell integrazione... 71 Integrazione con EBSCO Discovery Service... 73 I vantaggi dell integrazione... 73 Integrazione con il CMS Drupal... 75 I vantaggi dell integrazione... 75 Modello di integrazione "on the fly"... 75 I tipi di asset... 76 Modulo Digital Library CINECA e SOLR for Digital Library CINECA... 76 Pagine... 76 Blocchi... 80 Gli utenti e gli accessi... 89 Il client REST... 89 La cache... 89 Modulo DL Auth... 89 Modulo Ingestion Logs Digital Library CINECA... 91 Esempi di viste... 91 UNA REALIZZAZIONE: IL PORTALE SDL DELLA SAPIENZA... 95 Introduzione... 95 La prospettiva di Sapienza... 95 UN ESEMPIO: UN PROGETTO DI MUSEO VIRTUALE... 97 Il progetto MuVir... 97 Introduzione... 97 Caratteristiche generali del progetto... 97 Funzionalità del portale... 98 L impianto tecnologico... 101 Ingestion...102 Repository...104 La Personal Virtual Gallery...106

Portale MuVir...107 Search & Browsing...107 Faceting e full-text search...108 Visualizzatori...108 Immagini ad alta risoluzione...108 Gestione degli utenti e delle autorizzazioni...108 Conclusioni...109 IL CICLO DEI DIRITTI NELLA SAPIENZA DIGITAL LIBRARY. DOCUMENTO DI LAVORO.... 111 Sapienza Digital Library. Gli aspetti legali... 111 Il ciclo dei diritti... 111 I livelli di valutazione e controllo dei diritti... 112 Le entità del ciclo dei diritti in SDL... 113 I soggetti...113 Le azioni...114 Le relazioni...115 Gli oggetti...116 INFRASTRUTTURA CINECA... 117 3

IL DIGITAL LIBRARY MANAGEMENT SYSTEM CINECA Introduzione: dal Progetto Sapienza Digital Library al Digital Library Management System La genesi del progetto Il Digital Library Management System alla base del Servizio Digital Library Cineca è il frutto del Progetto Sapienza Digital Library, condotto in partnership da Cineca e dall Università Sapienza di Roma. Il Progetto Sapienza Digital Library nasce dall idea di raccogliere in un unico sistema di deposito digitale la produzione intellettuale della Sapienza passata e futura, già nata digitale (born-digital) o tradotta successivamente in formato digitale attraverso un processo di digitalizzazione. Il Progetto ha avuto come obiettivo iniziale quello di integrare diversi tipi di materiali quali: digitalizzazione di libri (antichi e moderni), stampe ed altro materiale originale, produzione scientifica digitale (tesi di laurea e dottorato, materiale scientifico il cui copyright non sia stato ceduto), immagini in formato digitale, materiale audiovisivo, materiale audio, materiali didattici (anche per uso nei corsi in e- learning), User Generated Content, materiale specifico (schede di scavo archeologico, materiale di archivio, dataset). Tutto questo materiale digitale doveva essere anche organizzato e catalogato in modo da poter essere messo a disposizione dell intera comunità accademica. Le strutture dell'università di Roma "La Sapienza" possiedono un enorme patrimonio, nelle aree umanistiche come in quelle scientifiche, e la possibilità di valorizzare e di riutilizzare costantemente il patrimonio digitale costituisce un asset strategico riconosciuto come tale dalle maggiori università a livello internazionale e per questa ragione è oggetto di specifiche azioni e investimenti. Il Progetto SDL nasce sin dall inizio con una visione consortile, con l intenzione di creare una infrastruttura ed un insieme di Servizi Digital Library basati su tecnologie innovative, sull uso di specifiche aperte, di software Open Source, di standard e sull interoperabilità, in modo da poter essere facilmente adottate e sfruttate dalle altre università consorziate. Il risultato dei tre anni di lavoro del Progetto è un infrastruttura complessa e flessibile, modulare e ricca di funzionalità che può quindi essere utilizzata nella sua totalità o in parte, con un livello di granularità tra macro e micro funzioni sotto il controllo dell utente. L infrastruttura permette di gestire l intero ciclo di vita di una risorsa digitale o digitalizzata: dall immissione o ingestion nell infrastruttura, alla metadatazione, alla catalogazione fino alla dissemination (browsing, ricerca, visualizzazione) e alla preservation (che sarà il tema principale durante il prossimo anno di Progetto). Su ognuna di queste fasi è possibile intervenire interagendo con l infrastruttura mediante interfacce standard (API RESTful), dalla transcodifica di un immagine alla richiesta delle risorse di una collezione, alla visualizzazione di un filmato al download di un documento. I servizi disponibili su un determinato tipo di oggetto digitale sono definiti all interno del modello della tipologia cui appartiene l oggetto. Grazie all astrazione della loro rappresentazione nel deposito il numero di tipologie di oggetti e i servizi ad esse associati sono facilmente estensibili, aumentando gli ambiti di applicazione del Servizio Digital Library agli oggetti più diversi come dataset scientifici, modelli tridimensionali, etc. Nella doppia valenza del termine inglese Library, da un lato quella di Biblioteca, dall altro quella di Libreria Software sta la vera chiave di lettura del Servizio Digital Library Cineca: un deposito di 5

risorse digitali facilmente fruibile, un archivio ragionato e moderno basato su standard internazionali di metadati, un motore di ricerca potente e veloce ma anche un insieme di servizi e interfacce software da usare come mattoncini di base per costruire il proprio servizio, per erogare le risorse dal proprio Portale, per effettuare ricerche da altre applicazioni o solo per mostrare una risorsa digitale dentro un corso in e-learning, sfogliando un antico codice digitalizzato all interno di un nuovo codice digitale. Il Digital Library Management System e il Servizio Il Servizio Digital Library fornisce l infrastruttura tecnologica e informativa necessaria a realizzare e a gestire un sistema Digital Library incorporando una suite di funzionalità di base, come la catalogazione, l archiviazione, l indicizzazione di metadati e contenuti e l accesso, e integrando applicazioni e strumenti per il supporto a servizi specializzati necessari alla realizzazione di specifiche funzionalità. Il servizio è stato progettato e realizzato con l adozione di best practice, modelli (conformi al modello OAIS), specifiche e standard internazionali (ISO-16363, METS, MODS, PREMIS, OAI- PMH) e ha come obiettivi primari quello di garantire la massima interoperabilità con analoghi sistemi alla base di progetti nazionali e internazionali (come Europeana) e quello di supportare tipologie di risorse digitali e metadati eterogenei. La soluzione tecnologica è stata realizzata prediligendo l impiego di software open source e l architettura tecnologica alla base del servizio si basa sull interoperabilità, sull integrazione e sulla modularità. Queste caratteristiche rendono sfruttabile il servizio sia nella realizzazione di portali Digital Library chiavi in mano, sia nell integrazione con altri servizi già presenti in Ateneo (come Portali di Ateneo, U-GOV Ricerca, piattaforme e-learning, etc.) che in modo selettivo accedendo e sfruttando puntualmente micro-servizi digital library specifici (come servizi di transcodifica). Scenario di integrazione Digital Library Management System e servizi dell Ateneo Il modello di riferimento che ha ispirato il disegno del Servizio è quello definito nell ambito del progetto DELOS Network of Excellence on Digital Libraries in cui sono identificate e caratterizzate 6

le componenti dell architettura di un Digital Library Management System, le classi di attori coinvolti e i loro specifici requisiti. Con riferimento al manifesto e al modello DELOS schematizzato nella figura sottostante il Servizio Digital Library Cineca realizza un Digital Library Management System (DLMS) che fornisce l infrastruttura tecnologica e informativa necessaria a realizzare e gestire un sistema Digital Library, incorporando una suite di funzionalità di base ed integrando applicazioni e strumenti aggiuntivi per il supporto a servizi specializzati per la realizzazione di funzionalità avanzate. DELOS Reference Model for Digital Libraries Processi di filiera Il servizio Digital Library permette in definitiva la realizzazione di una filiera produttiva che può essere usata per implementare in tutto o in parte l insieme dei processi richiesti da uno specifico Ateneo. Nella costruzione della filiera sono infatti coinvolti aspetti sia tecnologici che organizzativi. Processi di filiera Le risorse digitali e le collezioni provenienti da un progetto di digitalizzazione o born-digital confluiscono nel sistema e affrontano il primo macroprocesso: 7

Catalogazione Risorse e collezioni vengono catalogate sia in termini descrittivi che strutturali, vengono caricati gli eventuali contenuti digitali e viene automaticamente prodotto un pacchetto di versamento (SIP, Submission Information Package) che a sua volta viene salvato in un area di deposito. Management Nel successivo macroprocesso procedure automatiche monitorizzano l area di deposito ed effettuano l acquisizione automatica (ingestion) dei pacchetti SIP. Dopo la fase di archiviazione dei contenuti e dei metadati delle risorse e delle collezioni avviene la loro indicizzazione per alimentare il processo di ricerca (search). In base alla tipologia di risorsa digitale vengono creati eventuali oggetti digitali derivati adatti alle forme di dissemination previste dal servizio (immagini a risoluzioni minori, codifica di filmati per lo streaming, etc.). Infine nella fase di enrichment, avviene l arricchimento delle risorse digitali con l aggiunta di informazioni ottenuta tramite estrazione di testo (OCR), generazione automatica di metadati semantici, identificazione della lingua di un testo, etc. Applicazioni Quest ultimo macroprocesso rappresenta le modalità di sfruttamento dei diversi servizi di ricerca e dissemination offerti dal Servizio Digital Library che sono a disposizione dell Ateneo. Browsing di collezioni e risorse per gerarchie e metadati, motore di ricerca (sui metadati e full-text sui contenuti) e filtri a faccette, visualizzatori specializzati per tipo di risorsa sono disponibili in due forme: come API a granularità fine con cui i programmatori possono realizzare le proprie applicazioni e come building blocks integrati in piattaforme come Drupal o Moodle con cui l Information Architect può costruire il proprio Portale o applicazione web. 8

Architettura del servizio Il servizio si basa su una architettura service-oriented organizzata su tre livelli. Di questi, il livello di integrazione, rappresentato in figura e denominato Digital Library Service Delivery Platform, costituisce il cuore della soluzione: realizza un modello astratto e semantico delle entità e delle loro relazioni nella Digital Library e al tempo stesso permette sia la comunicazione interna tra tutte le componenti e i servizi integrati al livello inferiore che l accesso da parte del layer applicativo a tutte le funzionalità Digital Library in primis il repository - esposte verso utenti o applicazioni esterne (come aggregatori OAI-PMH). Il livello applicativo, in particolare il Portale Digital Library, ma potenzialmente una qualsiasi applicazione anche mobile - in grado di sfruttare servizi web, ha quindi a disposizione una interfaccia Digital Library (API RESTful) omogenea e stabile, unico punto di accesso verso tutti i servizi che integra, semplifica e rende trasparente l utilizzo del repository e dei sistemi e servizi ad esso connessi. Funzionalità e soluzioni software integrate Si descrivono le funzionalità e le soluzioni software integrate accompagnando una risorsa digitale - digitalizzata o born-digital - durante il viaggio che la porta dalla sua eventuale digitalizzazione e descrizione al repository, fino a raggiungere l utente finale sotto forma della sua rappresentazione digitale più adatta. Acquisizione delle risorse digitali il Servizio fornisce la funzionalità di deposito e ingestion in conformità con il modello OAIS: il processo di acquisizione delle risorse digitali,i Submission Information Package (SIP METS), forniti in modalità bulk, drop-box o provenienti da harvesting OAI-PMH, vengono elaborati da procedure automatiche in modo coordinato con tutte le altre componenti del servizio. Questi processi, monitorabili da parte dell ateneo, prevedono controlli di integrità dei file, controlli antivirus, file characterization e integrazione con il processo di transcodifica. Transcodifica il servizio sfrutta i servizi anche esterni, come i due servizi open source ConceptMapper e Mediamosa - integrati per ottenere, in base al tipo di risorsa digitale in ingresso, nuove forme di rappresentazione digitale utili alla dissemination (transcodifiche audio-video, conversioni di immagini, estrazione di thumbnail) o alla fase di ricerca e discovery (transcodifiche OCR, analizzatori della lingua, estrattori di testo o analizzatori semantici). Il deposito digitale le funzioni di memorizzazione e gestione dei contenuti (nelle varie forme adatte alla conservazione e alla dissemination), dei metadati (descrittivi, tecnici amministrativi e strutturali), dei derivati e delle informazioni di autorizzazione sono svolte dal repository open source Fedora Commons integrato nel servizio. Il repository fornisce anche i servizi web di accesso di accesso e management sfruttati dallo strato di integrazione del servizio digital library. Le entità digital library sono rappresentate nel repository attraverso modelli atomistici in base alla tipologia (immagini, mappe, book-scan, testi, audio-video, collezioni organizzative e di risorse). Indicizzazione e ricerca la funzione è affidata al motore di ricerca open source SOLR: con l integrazione realizzata l indice dei contenuti, metadati, ralazioni e dei derivati (trascrizioni OCR, annotazioni semantiche, testi) è allineato con il repository e attraverso la API di accesso le informazioni possono essere sfruttate dal portale per la ricerca e il browsing a faccette delle risorse digitali. 9

Dissemination l'accesso alle risorse digitali e ai servizi da parte dell utente avviene attraverso il Portale Digital Library, realizzato con il CMS open source Drupal1 opportunamente esteso con nuovi moduli Digital Library integrato con specifici visualizzatori open source. Il Portale è stato integrato anche per condividere con il servizio Digital Library le informazioni di autenticazione e autorizzazione sulle risorse digitali. Le componenti dell architettura Il cuore dell architettura adottata per il Servizio Digital Library è costituito da un layer di integrazione denominato Digital Library Service Delivery Platform (SDP), che ha come obiettivi primari l integrazione di tutti i servizi coinvolti e la loro esposizione verso il livello applicativo attraverso una API basata su web services di tipo RESTful: fornire una piattaforma API di servizi omogenea e stabile verso il livello applicativo, in particolare verso il Portale Digital Library, e che funge da unico punto di accesso verso tutti i servizi Digital Library; integrare e rendere trasparente l utilizzo del repository e dei sistemi e servizi connessi La figura sottostante esplicita i tre livelli così individuati e specifica gli standard adottati e i framework tecnologici sfruttati per la realizzazione del Servizio. Architettura visione macro Per quanto riguarda lo stack applicativo, il servizio Digital Library è realizzato attraverso l integrazione di software open source: Portale Digital Library: viene integrato il CMS Drupal2; 1 http://drupal.org/ 2 Drupal, www.drupal.org 10

Integration Layer: viene utilizzato Apache Camel3, è un framework dedicato espressamente al messaging, alla trasformazione e al routing di messaggi tra applicazioni, o tra specifiche parti della stessa applicazione; Repository: viene utilizzato il software Fedora Commons4, il quale integra a sua volta una serie di prodotti open source per la gestione, indicizzazione e trasformazione di contenuti digitali; Multimedia Asset Management Platform: viene utilizzato il software Mediamosa, che permette la transcodifica ed il delivery multiformato e multiprotocollo di contenuti audio-video; Visualizzatori: vengono utilizzati il software BookReader e Adore Djatoka, rispettivamente per la visualizzazione di book-scans e di immagini ad alta risoluzione. La figura sottostante fornisce una visione di dettaglio delle componenti software integrate per la realizzazione del servizio ed esplicita a livello applicativo alcuni degli scenari d uso realizzabili. Architettura - dettaglio delle componenti 3 Apache Camel, camel.apache.org 4 Fedora Commons è un Progetto del consorzio Duraspace, 501(c)(3) not-for-profit, http://duraspace.org/about_fedora 11

Componenti infrastrutturali e repository Da un punto di vista infrastrutturale l erogazione del Servizio Digital Library è basata sull integrazione di più componenti: Repository: piattaforma Fedora Commons (webapp J2EE, erogato su nodi replicati in load balancing) Middleware applicativo SDP per procedure di ingestion ed esposizione API DL (webapp J2EE, erogato su nodi replicati in load balancing) Motore di ricerca (Apache Solr, erogato su nodi replicati in load balancing) Server FTP / WebDAV per deposito dei contenuti da parte del cliente Portale DL per l erogazione dei contenuti della DL (CMS Drupal erogato in modalità farm su nodi replicati in load balancing) Sistema di conversione OCR (SW commerciale erogato su nodo dedicato) Applicazioni di supporto per image server, visualizzatori, convertitori di formato, webapps J2EE, applicativi di sistema (erogati su nodi replicati disitinti da repository e CMS) Alla base dell architettura è collocato il repository multimediale Fedora Commons replicato su due nodi gemelli in bilanciamento di carico e sotto backup quotidiano. I nodi sono esattamente replicati in modo da poter subentrare uno all atro in caso di malfunzionamenti. I due nodi repository sono mantenuti costantemente allineati da una procedura software appositamente sviluppata (mirroring). La descisione di sviluppo interno è stata presa dopo aver scartato una serie di altre procedure di allineamento in quanto non totalmente conformi ai rigidi vincoli posti sul Servizio. La disponibilità dei due nodi ha inoltre permesso di indirizzare le operazioni di ingestion su uno dei due nodi e in modo da non sovraccaricare il secondo nodo, mantenuto più scarico per meglio servire le richieste provenienti dal frontend. Il nodo dedicato all erogazione dei contenuti è mantenuto allineato mediante un procedura computazionalmente molto più leggera rispetto all intero workflow di ingestion. I due nodi sono classificati come: leader: nome che identifica il nodo sul quale vengono effettuate le operazioni di ingestion; follower: identifica la macchina dedicata all erogazione dei contenuti (in modalità read-only rispetto alle invocazioni di mangement previste dalla API) La procedura di allineamento intercetta tutte le operazioni di inserimento, cancellazione e modifica di un qualsiasi oggetto contenuto nel repository leader segnalandole mediante un sistema di messaggistica dedicato al nodo follower. Quest ultimo, alla ricezione di un messaggio, confronta ogni singolo datatstream locale dell oggetto segnalato con i datatstream dell oggetto sul nodo leader e, quando necessario, effettua l allineamento. Ogni oggetto caricato sul repository viene salvato sul file system in una directory che in base alla tipologia di datastream può essere gestita da Fedora Commons stesso o indirizzata in modo diretto (referenced datastream). La sezione metadati viene salvata in formato FOXML mentre eventuali file binari presenti negli oggetti figli vengono rinominati e salvati in una speciale gerarchia di directory gestita da un algoritmo interno a Fedora Commons (datastore). 13

Digital Library Service Delivery Platform: la piattaforma API L accesso a tutti servizi offerti dal Servizio Digital Library è offerto attraverso una serie di API invocabili da una qualsiasi applicazione client (Il Portale è da considerarsi a tutti gli effetti come un generico client). Tutte le API sono implementate attraverso servizi REST e possono fondamentalmente essere ricondotte a due tipologie distinte: API per il recupero del contenuto degli oggetti che forniscono generalmente una risposta in forma binaria (es. un immagine, un pdf, un video, ecc) API per la navigazione dei metatdati o della gerarchia della DL le cui risposte sono sempre in formato JSON Di seguito un elenco descrittivo (senza entrare nel dettaglio implementativo) delle funzioni esposte: /content/(user)/(address)/(pid)/part/(part) Funzione per la richiesta di generazione del token di autorizzazione per l accesso ai contenuti binari di un oggetto. Nella risposta (in formato JSON) vengono restituiti i link corredati di token per l accesso al contenuto richiesto /content/(token)/(hexcode)/(user)/(pid)/part/(part)/embedding Utilizzabile solo per alcune tipologie di oggetti, restituisce un frammento di codice, previa verifica delle credenziali, per l embedding di un contenuto in una pagine di un client /content/(token)/(hexcode)/(user)/(pid)/part/(part)/page Utilizzabile solo per libri e mappe, esegue l accesso, previa verifica delle credenziali, ad una pagina /content/(token)/(hexcode)/(user)/(pid)/part/(part)/direct Utilizzabile solo per alcune tipologie di oggetti, esegue l accesso, previa verifica delle credenziali, ad un contenuto /content/(token)/(hexcode)/(user)/(pid)/part/(part)/download Utilizzabile solo per alcune tipologie di oggetti, esegue il download, previa verifica delle credenziali, di un contenuto /transcode/ocr/submit Avvia l esecuzione del parsing OCR su un immagine /transcode/conceptmapper/submit Avvia il processo di riconoscimento dei concetti contenuti in un testo mediante il servizio Concept Mapper /transcode/pdf2thumbnail/submit Genera la thumbnail di un oggetto partendo da un binario in formato PDF 15

/transcode/jpeg2000thumbnail/submit Converte un immagine ad alta risoluzione in formato TIFF in un immagine in formato JPEG2000 /transcode/map2thumbnail/submit Genera la thumbnail di un oggetto prendendo in input un immgine in formato jpeg /transcode/mastertosource/submit Genera un immagine a bassa risoluzione data la corrispondente ad alta risoluzione /transcode/tikaservice/gettextbyresourceurl Esegue il riconoscimento del testo contenuto in un file in formato PDF /transcode/tikaservice/getlanguagebytext Esegue il riconoscimento della lingua del testo contenuto in un file in formato PDF /transcode/getstatus Verifica lo stato di avanzamento di un operazione di transcodifica dato l identificativo unico dell elaborazione /transcode/getresultbytoken Recupera il risultato di una operazione di transcodifica dato l identificativo unico dell elaborazione /asset/(pid)/type Restituisce il tipo di un oggetto dato il suo identificativo unico /asset/(pid)/descmetadata /asset/(pid)/summarymetadata Recupera un sottoinsieme dei metadati descrittivi /asset/(pid)/parent Restituisce la collezione di appartenenza di un oggetto /asset/(pid)/hierarchy Restituisce l intera gerarchia delle collezioni di appartenenza fino alla radice /asset/(pid)/contentpackaging Restituisce il METS completo dell oggetto /asset/(pid)/partscount Restituisce il numero di parti di cui è composto un oggetto /collections/(pid) 16

Restituisce la gerarchia contenuta (collezioni e oggetti) /collection/(pid)/descmetadata Restituisce i metadati descrittivi di una collezione /collection/(pid)/summarymetadata Restituisce un sottoinsieme dei metadati descrittivi di una collezione /collection/(pid)/suborgcollections Restiuisce l elenco delle collezioni organizzative contenute in una collezione /collection/(pid)/suborgcollectionscount Restituisce il numero di collezioni organizzative contenute in una collezione /collection/(pid)/subcollections Restiuisce l elenco delle collezioni contenute in una collezione /collection/(pid)/subcollectionscount Restituisce il numero di collezioni contenute in una collezione /collection/(pid)/memberscount Restituisce il numero di tutti gli oggetti (collezioni escluse) membri di una collezione /collection/(pid)/members Restituisce tutti gli oggetti (collezioni escluse) membri di una collezione. Per ogni oggetto viene restituito l identificativo unico, un sottoinsieme dei metadati descrittivi e il link alla thumbnail /collection/(pid)/parent Restituisce la collezione organizzativa di appartenenza di una collezione /collection/(pid)/hierarchy Restituisce l intera gerarchia delle collezioni organizzative di appartenenza fino alla radice /collection/(pid)/contentpackaging Restituisce il METS completo della collezione /(PID)/Type Restituisce il tipo di un oggetto /search Data una stringa in ingresso esegue una ricerca sui contenuti e sui metadati descrittivi /search/ebscosearch 17

Data una stringa in ingresso esegue una ricerca sul servizio EBSCO /search/simplesearch Data una stringa in ingresso esegue una ricerca solamente sul metadato descrittibo title /cataloging/(pid)/findobject Esegue la ricerca di un oggetto proveniente dall applicazione di Cataloging /thumbnail/(pid)/collectionthumbnailimage Restituisce la thumbnail di una collezione /thumbnail/(pid)/part/(part)/thumbnailimage Restituisce la thumbnail di un oggetto 18

Catalogazione delle collezioni e delle risorse digitali Il Servizio Digital Library offre uno strumento web-based di Catalogazione realizzato attraverso il CMS open source Drupal (già impiegato per la realizzazione del Portale SDL). L obiettivo fondamentale è quello di essere di semplice utilizzo, immediato e produttivo, in modo da rendere disponibili in rete quanto prima le risorse già digitalizzate o pronte per la digitalizzazione, mantenendo al tempo stesso una adeguata qualità di metadatazione. L impiego del CMS Drupal e il completo sfruttamento delle sue funzionalità (native, mouli ad-hoc, tassonomie) hanno permesso di realizzare delle interfacce di catalogazione complesse che possono essere adattate ai requisiti di uno specifico ateneo. Lo strumento permette: la catalogazione di metadati descrittivi di collezioni e risorse digitali la definizione e l utilizzo di vocabolari controllati la clonazione di schede descrittive, per massimizzare la produzione da parte degli editor il caricamento (upload) e l associazione di contenuti digitali alle risorse digitali la validazione delle risorse digitali tramite un workflow edit/approve/reject l associazione ad un local identifier l esportazione verso un pacchetto di SIP di ingestion così come definito e supportato dal Sistema SDL Lo strumento di Catalogazione è infatti integrato con il processo di ingestion del Servizio Digital Library: le risorse digitali (metadati e contenuti) e le collezioni generate attraverso questo strumento sono esportate sotto forma di pacchetti SIP e ricondotte al normale flusso di ingestion per poi essere archiviate nel repository. Lo strumento permette la catalogazione secondo gli standard di settore (ISAD e ISAAR) e produce e prevede la gestione di queste tipologie di entità: Risorse: ogni risorsa digitale, sia esso una immagine, un libro, un video, un frammento audio, una cartografia, un oggetto 3D, un software, ecc ; Collezioni / Partizioni: una collezione rappresenta una raccolta di Risorse. Essa può essere suddivisa in Partizioni (ad esempio Serie, Sottoserie, Raccolta, Fascicolo, Sottofascicolo, ecc ); Soggetti Versanti / Produttori: authority file per la gestione dei soggetti fornitori delle collezioni e/o partizioni di collezioni. Nello sviluppare lo strumento è stata posta particolare attenzione alla distinzione tra i vari livelli di rappresentazione di un oggetto digitale. Per evitare ogni ambiguità vengono inseriti i metadati relativi ad ognuna delle seguenti entità: Real Physical Object (RPO): l oggetto fisico (ad esempio un dipinto, un edificio, un libro, ecc ); Digital Representation Object (DRO): un oggetto digitale ottenuto attraverso la digitalizzazione di un RPO; Digital Primary Object (DPO): un oggetto "born digital" cioè un oggetto digitale che non è un DRO. Durante la fase di metadatazione è possibile utilizzare vocabolari controllati, in particolare si è deciso di adottare il Thesaurus PICO 4.3 (Portale della Cultura Italiana) per una prima 19