Opendoc DLS Digital Library System
Opendoc DLS - Digital Library System Chi siamo Opendoc Srl è una società milanese nata a seguito di un'importante esperienza per il Ministero per i Beni e le Attività Culturali che ha portato al lancio, nella primavera del 2003, dell'emeroteca Digitale della Biblioteca Nazionale Braidense, la prima biblioteca digitale pubblica di periodici via Internet. Il settore principale di attività della società è focalizzato sull'offerta, rivolta a biblioteche, archivi ed enti culturali, di soluzioni (software, hardware e connettività) per la preservazione in digitale e la pubblicazione via Internet di materiale documentale storico e contemporaneo. Tra i principali clienti della società si possono annoverare la Biblioteca Nazionale Braidense, la Mediateca di Santa Teresa, la Fondazione Corriere della Sera. Opendoc ha partecipato, nel corso del 2003, alla prima fase del progetto di digitalizzazione dell'archivio storico del Corriere della Sera. Opendoc Srl via Bernini, 5/7-20094 Corsico (Milano) tel./fax. +39 02.44817223 www.opendoc.it info@opendoc.it
Opendoc DLS - Digital Library System Cos è Opendoc DLS Opendoc DLS Digital Library System è la suite di servizi e applicazioni di Opendoc Srl per l indicizzazione, l archiviazione e la pubblicazione in rete di pagine digitalizzate di documenti quali periodici, monografie, cartografia a stampa, partiture a stampa, collezioni fotografiche, ecc. Opendoc è in grado di gestire, grazie al sistema DLS, l intero flusso di conversione dalla carta al web, dall acquisizione in digitale del documento, fino alla sua diffusione via rete, fornendo il supporto necessario alla definizione dei requisiti progettuali.
Opendoc DLS - Digital Library System Il workflow Il sistema DLS è articolato nelle seguenti cinque fasi di processo: Acquisizione in digitale Indicizzazione & archiviazione Ottimizzazione Estrazione contenuti testuali Pubblicazione via rete 1 2 5 3 4
Il workflow Acquisizione in digitale Opendoc DLS - Digital Library System Il processo di acquisizione in digitale consiste nella conversione dei documenti cartacei in file immagine bitmap. Le immagini vengono trattate con filtri per il miglioramento della qualità (eliminazione bordo nero, aumento nitidezza, separazione pagine doppie, ecc.) e salvate nel formato standard per la preservazione degli oggetti digitali (TIFF 6.0). Opendoc fornisce il servizio in collaborazione con service specializzati che utilizzano scanner a planetario, apparecchi in grado di digitalizzare, ad alta risoluzione e a milioni di colori, documenti di vario formato, dal più piccolo (A4 e inferiori), al più grande (A0 e oltre). E possibile inoltre integrare il servizio di microfilmatura in conformità alle specifiche ministeriali. Le tecnologie e i processi adottati sono garantiti per il trattamento in sicurezza del materiale cartaceo originale.
Il workflow Indicizzazione Opendoc DLS - Digital Library System Il processo di indicizzazione consiste nell attribuzione dei metadati ai file immagine, cioè delle informazioni necessarie per: descrivere il contenuto, come i dati bibliografici e cronologici (metadati descrittivi); definire la struttura, come i dati di sequenza delle pagine per i vari oggetti informativi quali ad esempio, per i periodici, il volume, il fasciolo o l articolo (metadati strutturali); raccogliere le informazioni tecniche, come i dati sulle caratteristiche fisiche delle immagini quali la risoluzione e lo spazio colore, ecc. (metadati gestionali-amministrativi) Il sistema DLS è in grado di coprire questa fase del processo grazie ad Opendoc DMS - Document Management System, un applicazione client/server in ambiente Wintel, che permette di gestire i metadati in formato XML secondo lo schema MAG, lo standard italiano promosso dalla BNCF sulle indicazioni dell ICCU.
Il workflow Archiviazione Opendoc DLS - Digital Library System Il processo di archiviazione consiste nel salvataggio dei file TIFF, e dei relativi metadati XML, su supporti magneto-ottici (CD, DVD, ecc.) o a nastro. Ciascun supporto contiene esclusivamente i dati di un documento completo o di una sua unità (per i periodici, ad esempio, il volume, il fascicolo, ecc.), garantendo in questo modo l indipendenza dell elemento archiviato rispetto all intera collezione. La formattazione dei dati sui supporti avviene in conformità agli standard in uso. Il processo viene avviato solo dopo i controlli di qualità sulle immagini e sulla correttezza dei metadati raccolti. Con l archiviazione si chiude il processo di preservazione in digitale del documento cartaceo.
Il workflow Ottimizzazione Opendoc DLS - Digital Library System Il processo di ottimizzazione consiste nella trasformazione dei file immagine, dal formato per l archiviazione, al formato per la distribuzione via rete. I documenti digitalizzati, ad alta risoluzione, a colori o a toni di grigio, hanno dimensioni eccessive per poter essere efficacemente distribuiti via rete. Il sistema DLS risolve il problema grazie all applicazione di un algoritmo di compressione allo stato dell arte. I file ottimizzati tuttavia mantengono le caratteristiche di qualità proprie degli originali (risoluzione e profondità colore) e rappresentano una soluzione efficace per le esigenze di lettura a video e di stampa.
Il workflow Estrazione contenuti testuali Opendoc DLS - Digital Library System Il processo di estrazione dei contenuti testuali consiste nella trasformazione dei file immagine in testo vivo, cioè in elementi manipolabili come stringhe di caratteri. Il processo è realizzato mediante l applicazione della tecnologia di riconoscimento ottico dei caratteri (OCR), tecnologia ormai matura per la produzione di risultati importanti, anche su documenti difficili, con problemi di conservazione o dalla scarsa qualità di stampa. La finalità è quella di ottenere una base dati di puro testo, necessaria per l implementazione del sistema di ricerca full-text. La piattaforma DLS impiega processi e software allo stato dell arte in grado di ottenere un livello di accuratezza di circa il 98% (1960 caratteri riconosciuti correttamente su 2 mila).
Il workflow Pubblicazione via rete Opendoc DLS - Digital Library System I file ottimizzati, indicizzati e accompagnati dai relativi contenuti testuali, sono pubblicati in rete (Internet, intranet o extranet) grazie alla piattaforma WPS - Web Publishing System. Il sistema, sviluppato interamente in ambiente Linux, flessibile e adattabile alle caratteristiche del progetto, consente di pubblicare documenti in maniera strutturata a partire dalle informazioni raccolte durante fase di indicizzazione. Strumenti ad hoc permettono di cercare le informazioni attraverso interrogazioni al database o agli indici full-text. Grazie all uso di tecnologie aperte, l accesso alle informazioni è garantito ad utenti dotati di piattaforme informatiche differenti (Windows, Macintosh, Unix/Linux).
Opendoc DLS - Digital Library System Il formato DjVu La piattaforma DLS utilizza, come algoritmo di compressione, il formato DjVu, la potente tecnologia di AT&T. DjVu è in grado ottenere risultati migliori di qualsiasi altro formato (JPEG 2000 compreso), in termini di leggerezza e di qualità dell immagine, comparabile a quella dell originale. DjVu è efficiente su documenti ad alta risoluzione sia a colori/toni di grigio, che in bianco e nero. I rapporti di compressione ottenibili sono tra i 100 e i 1000 a 1. L algoritmo di decodifica è di pubblico dominio ed è alla base di un progetto parallelo di sviluppo open source gestito dagli inventori del formato. 46 Mb Pagina di rivista (A4, 400ppi, full-color) 3,3 Mb 1,3 Mb Tiff JPEG PDF 56 Kb DJVU
Opendoc DLS - Digital Library System Strumenti di sviluppo La piattaforma DLS è sviluppata prevalentemente con strumenti software di tipo open source disponibili per il sistema operativo Linux. Questo tipo di scelta garantisce: alto grado di affidabilità grazie all apporto continuo della comunità degli sviluppatori; possibilità di gestione dei dati secondo standard aperti e ben documentati; flessibilità e velocità di sviluppo di nuove funzioni abbattimento dei costi di licenza.