UNIVERSITA' DEGLI STUDI DI MACERATA



Documenti analoghi
EXPLOit Content Management Data Base per documenti SGML/XML

SOLUZIONE Web.Orders online

Modello OAIS. Modello di riferimento. Il Modello. Prof.ssa E. Gentile a.a Un modello di riferimento dovrebbe descrivere:

Capitolo 4 Pianificazione e Sviluppo di Web Part

Manuale Utente Amministrazione Trasparente GA

Linguaggi e Paradigmi di Programmazione

L'efficienza non è solo energetica!

LA FORMAZIONE E LA CONSERVAZIONE DELLA MEMORIA DIGITALE

Architettura del. Sintesi dei livelli di rete. Livelli di trasporto e inferiori (Livelli 1-4)

Il Formato PDF-A A con cui trasmettere gli elaborati

MANUALE MOODLE STUDENTI. Accesso al Materiale Didattico

connessioni tra i singoli elementi Hanno caratteristiche diverse e sono presentati con modalità diverse Tali relazioni vengono rappresentate QUINDI

Guida alla registrazione on-line di un DataLogger

Database. Si ringrazia Marco Bertini per le slides

Manuale Utente Albo Pretorio GA

RINNOVO ORGANI. Guida alla creazione di file in formato pdf/a,.csv. e all'implementazione degli allegati B e D

ControlloCosti. Cubi OLAP. Controllo Costi Manuale Cubi

Il formato PDF/A: Archiviazione digitale documentale

Banca dati Professioniste in rete per le P.A. Guida all uso per le Professioniste

Protocollo Informatico (D.p.r. 445/2000)

NOVITÀ SITI COMMERCIALISTA

Manuale di Aggiornamento BOLLETTINO. Rel H4. DATALOG Soluzioni Integrate a 32 Bit

5. Fondamenti di navigazione e ricerca di informazioni sul Web

MANUALE DELLA QUALITÀ Pag. 1 di 6

Lezione 1. Introduzione e Modellazione Concettuale

Archivi e database. Prof. Michele Batocchi A.S. 2013/2014

Registratori di Cassa

L apposizione di firme e informazioni su documenti firmati

Corso di Access. Prerequisiti. Modulo L2A (Access) 1.1 Concetti di base. Utilizzo elementare del computer Concetti fondamentali di basi di dati

BASI DI DATI per la gestione dell informazione. Angelo Chianese Vincenzo Moscato Antonio Picariello Lucio Sansone

Il modello veneto di Bilancio Sociale Avis

Cosa è un foglio elettronico

Protocollo Informatico (D.p.r. 445/2000)

Spazio Commerciale. Le tue vendite, il nostro successo. Manuale Operativo. Guida inserimento articoli tramite Area di amministrazione.

4.5 CONTROLLO DEI DOCUMENTI E DEI DATI

ARCHIVI E DATABASE (prof. Ivaldi Giuliano)

Che differenza c è tra una richiesta XML ed una domanda XML? (pag. 4)

Mon Ami 3000 Varianti articolo Gestione di varianti articoli

Laboratorio Matematico Informatico 2

La produzione di documenti informatici: requisiti dei formati elettronici. Università degli Studi di Macerata

GUIDA OPERATIVA SUI FORMATI DEGLI ALLEGATI ALLE PRATICHE ON-LINE

Il software impiegato su un computer si distingue in: Sistema Operativo Compilatori per produrre programmi

Strutturazione logica dei dati: i file

Sommario. Definizione di informatica. Definizione di un calcolatore come esecutore. Gli algoritmi.

Il database management system Access

MANUALE DI UTILIZZO: INTRANET PROVINCIA DI POTENZA

Microsoft Office XP. dott. ing. Angelo Carpenzano. La suite Microsoft Office XP

Riconoscibilità dei siti pubblici: i domini della Pa e le regole di.gov.it

Università degli Studi "Roma Tre" Dipartimento di Informatica ed automazione. Facoltà di Ingegneria

Informatica per la comunicazione" - lezione 10 -

Il glossario della Posta Elettronica Certificata (PEC) Diamo una definizione ai termini tecnici relativi al mondo della PEC.

Ogni documento digitalizzato, carta attivo o passivo, viene di infatti accompagnato identità da una sorta di elettron

Archiviazione ottica documentale

1. BASI DI DATI: GENERALITÀ

Introduzione alla programmazione in C

MANUALE D USO DELLA PIATTAFORMA ITCMS

03. Il Modello Gestionale per Processi

Manuale Amministratore Legalmail Enterprise. Manuale ad uso degli Amministratori del Servizio Legalmail Enterprise

SISTEMA DI GESTIONE PER LA QUALITA Capitolo 4

La firma digitale CHE COSA E'?

MOCA. Modulo Candidatura. [Manuale versione 1.0 marzo 2013]

Gestione delle informazioni necessarie all attività di validazione degli studi di settore. Trasmissione degli esempi da valutare.

INFORMATICA LE470. Ipertesto. Facoltà di Lettere e Filosofia anno accademico 2008/2009 secondo semestre

RICERCA DELL INFORMAZIONE

Come costruire una presentazione. PowerPoint 1. ! PowerPoint permette la realizzazione di presentazioni video ipertestuali, animate e multimediali

CORSO ACCESS PARTE II. Esistono diversi tipi di aiuto forniti con Access, generalmente accessibili tramite la barra dei menu (?)

Uff. I. - OLIMPIADI DI PROBLEM SOLVING - Informatica e pensiero algoritmico nella scuola dell'obbligo

CONTENT MANAGEMENT SYSTEM

YOU ARE WHAT YOU CURATE COS E LA CONTENT CURATION E COME APPLICARLA

[SOLUZIONI INNOVATIVE] Casi di studio sulle pratiche di innovazione

Il servizio di registrazione contabile. che consente di azzerare i tempi di registrazione delle fatture e dei relativi movimenti contabili

Minerva, verso la qualità dei siti web pubblici. Dott. Antonio De Vanna responsabile Ufficio accessibilità dei sistemi informatici

Informazione e dato. Gabriella Trucco

2.0 Gli archivi. 2.1 Inserire gli archivi. 2.2 Archivio Clienti, Fornitori, Materiali, Noleggi ed Altri Costi. Impresa Edile Guida all uso

2.1 Introduzione ai linguaggi di marcatura

La Metodologia adottata nel Corso

Reti di Calcolatori. Il Livello delle Applicazioni

PS_01 PROCEDURA PER LA GESTIONE DEI DOCUMENTI E DELLE REGISTRAZIONI

PROCESSO DI INDICIZZAZIONE SEMANTICA

Documentazione illustrativa

Joomla! 2.5:Utenti e permessi - Il wiki di Joomla.it

L IT a supporto della condivisione della conoscenza

Comunicazione interattiva

Dispensa di Informatica I.1

Manuale Knowledge Base

Corso: Sistemi di elaborazione delle informazioni 2. Anno Accademico: 2007/2008. Docente: Mauro Giacomini

Excel. A cura di Luigi Labonia. luigi.lab@libero.it

LA PROGETTAZIONE DI UN NUOVO STRUMENTO PER IL WEB

Il Software e Il Sistema Operativo. Prof. Francesco Accarino IIS Altiero Spinelli A.S. 09/10

Il calendario di Windows Vista

Gestione Turni. Introduzione

BDX 3D-EDITOR (autore: Marco Bedulli) Scopo del software. Caratteristiche fondamentali. Linguaggi utilizzati. Navigazione 3D

Come archiviare i dati per le scienze sociali

Siamo così arrivati all aritmetica modulare, ma anche a individuare alcuni aspetti di come funziona l aritmetica del calcolatore come vedremo.

Sistema operativo: Gestione della memoria

Facoltà di Farmacia - Corso di Informatica

Unipi EPrints, l'archivio istituzionale dell'università di Pisa

GUIDA PER IL DOCENTE ALL UTILIZZO DELL APPLICATIVO ONLINE E PORTFOLIO

UNIVERSITA DEGLI STUDI DI BRESCIA Facoltà di Ingegneria

Gruppo Buffetti S.p.A. Via F. Antolisei Roma

Transcript:

UNIVERSITA' DEGLI STUDI DI MACERATA Facoltà di Lettere e Filosofia Facoltà di Economia Facoltà di Beni Culturali Master in "Formazione, gestione e conservazione di archivi digitali in ambito pubblico e privato" IIIª edizione Anno Accademico 2009-10 Analisi del formato XMP come requisito obbligatorio dello standard ISO 19005-1:2005 Corsista : Luciano Pilla Relatore: Prof. Stefano Alleggrezza

The digital medium is replacing paper in a dramatic record-keeping revolution. But such documents may be lost unless we act now Jeff Rothenberg

Sommario INTRODUZIONE... 4 CAPITOLO I... 5 CHE COSA SONO I METADATI?... 5 FORMATI DI FILE... 8 CAPITOLO II... 9 PDF/A PORTABLE DOCUMENT FORMAT FOR ARCHIVING... 9 Livelli di conformità...11 CAPITOLO III... 16 XMP EXTENSIBLE METADATA PLATFORM... 16 RDF - RESOURCE DESCRIPTION FRAMEWORK... 16 PANORAMICA XMP... 17 Il Framework XMP...21 INSERIMENTO DEI METADATI IN FILES PDF... 23 Info dictionary document...24 Metadata streams...25 XMP Packet - pacchetto xmp...26 CONCLUSIONI... 27

Introduzione Con il passare degli anni si è avuta una sempre maggiore facilità di produzione delle informazioni, una sempre maggiore capacità di trasferirle, di renderle disponibili, di duplicarle e di integrarle. Di contro, la possibilità di perderle, o di veder alterata l informazione originale è diventata sempre più probabile. Il problema della perdita e/o alterazione delle informazioni è certamente molto complesso. In tutto il mondo hanno preso corpo, con un enorme impiego di risorse, importanti studi e progetti (InterPARES, PLANET, CASPAR, DELOS etc. etc.) per individuare come riuscire a conservare per decenni l ingente quantità di differenti tipologie di informazioni digitali che abbiamo generato e che genereremo. Sintetizzando il problema della conservazione digitale può essere espresso come il tentativo di rileggere correttamente i bit così come erano stati originariamente registrati, su di un supporto molto probabilmente differente da quello attuale (Bit Preservation) e di mantenere la comprensione e le modalità di impiego dei dati anche quando le attuali tecnologie impiegate per l hardware, i sistemi operativi, i sistemi di data management e gli applicativi potrebbero non essere più disponibili (Logical Preservation). Appare evidente, la complessità di quanto dovrebbe essere messo in opera per garantire la corretta conservazione della memoria digitale. Ben conscio che il formato del file rappresenti solo uno degli aspetti che concerne il processo di conservazione digitale, in questa breve trattazione andremo ad analizzare i requisiti del formato PDF/A, come formato che ad oggi si è affermato come standard per la conservazione dei documenti digitali e in particolare approfondiremo i metadati in formato XMP che lo standard in oggetto (ISO 19005-1:2005) richiede come requisiti obbligatori (metadati in formato XMP) per la conformità del formato allo standard.

Capitolo I Che cosa sono i metadati? Prima di entrare nel merito del formato di file occorre chiarire quale sia il ruolo dei metadati e l importanza che rivestono nel mondo binario. Nel linguaggio corrente una risorsa viene anche detta documento, per mettere in evidenza il fatto che sia leggibile da un essere umano, o oggetto, per mettere in evidenza che è leggibile da una macchina. Qualunque sia il termine utilizzato, la risorsa non è una entità a sé, ma è accompagnata da informazioni che la descrivono. Le informazioni sulla risorsa vengono generalmente dette Metadati. Il termine metadata, normalmente associato alle risorse elettroniche, in realtà si riferisce ad una precisa attività: applicare ai documenti delle etichette, principalmente con lo scopo di renderne accessibile l'informazione. Per meglio comprendere cosa siano i metadati e quale importanza rivestano nel panorama dei contenuti digitali partiremo da un esempio fantasioso. Immaginiamo che, da questo momento tutte le etichette presenti sulle scatolette di cibo in un supermercato scomparirebbero. Senza etichette quello che prima poteva essere solo una noiosa attività (parlo per il sottoscritto, naturalmente) fatta di spostamenti veloci tra i vari corridoi e interminabili code, diventerebbe una impresa più che avventurosa, oltre che sorprendente. Infatti, non ci sorprenderemo affatto, se nel tornare a casa, anziché trovare all interno delle scatolette dei legumi precotti, vi troveremo dell ottimo cibo per gatti.

Attraverso le etichette è dunque possibile orientarsi tra gli scaffali, localizzare le risorse, vedere se sono disponibili, guardare attentamente gli ingredienti di cui si compongono, conservare il prodotto in un ambiente consono, selezionare il prodotto che più risponde alle proprie esigenze etc. etc. Basta quindi la presenza delle etichette a mettere in moto tutta una serie di attività e di azioni che sarebbero impensabili senza la loro presenza. Va aggiunto, inoltre, che se alcune informazioni sono comprensibili direttamente dall utenza (human-understandble) altre come il codice a barre, sono comprensibili solo attraverso specifiche apparecchiature elettroniche, come i lettori di barcode (machine-understable) o una opportuna tabella di riferimento, come nel caso della tabella nutrizionale (cross-referencetable). Altre ancora sono così strutturate che ciascun elemento contenuto all interno della tabella è composto da una categoria, un tipo di dati e un valore (es. tabella valori nutrizionali). Le informazioni presenti sulle scatolette sono pertanto così eterogenee da rendere impossibile un unica categorizzazione. Oltre ciò, alle informazioni corrispondono cicli di vita e fasi differenti del prodotto, ad esempio. il prezzo appartiene alla fase della vendita, il codice di produzione alla omonima fase, le proprietà di conservazione alla fase di conservazione, la tabella nutrizionale potrebbe addirittura appartenere ad una fase ben precisa della vita, magari ad uno stato di debolezza dovuto ad un intervento operatorio così come venire incontro ad una persona che ha deciso di seguire un tipo particolare di alimentazione magari per perdere qualche kilo di troppo. Pertanto si può affermare con certezza che l etichetta di un prodotto racchiude in sé un ampio ed eterogeneo raggruppamento di informazioni che la dicono lunga su quello che rappresenta il ciclo di vita del prodotto in questione. L esempio del supermercato, seppur fantasioso, mette in scena ciò che potrebbe succedere se al posto delle scatolette avremmo a disposizione dei contenuti digitali privi di metadati. Per ribadire lo stretto legame che intercorre tra contenuti digitali e metadati vale la pena prendere in prestito una frase di Giovanni Bergamin che ben descrive il rapporto di necessarietà che si stabilisce tra le risorse digitali e i metadati: Una sequenza ( ) di bit è inutilizzabile senza metadati in grado di trasformarla in risorsa.

In sintesi, non esiste risorsa informativa digitale senza l accoppiamento di una sequenza di bit con le informazioni sulla rappresentazione che ne è l origine. Insomma il rapporto tra dati e metadati è inscindibile. Figura 1: rapporto di necessarietà tra dati e metadati Se, una delle verità informatiche, consiste nella normale scindibilità fisica dei bit dal supporto e nella conseguente trasferibilità fisiologica del contenuto del documento informatico da un supporto all altro, è altrettanto vero che una risorsa digitale senza una dettagliata descrizione della stessa non esiste. Se volessimo tradurre questa dichiarazione attraverso una equazione matematica potremmo affermare che la carta sta al contenuto come i metadati stanno alla risorsa (Carta : contenuto = metadati : risorsa). Ad oggi, pertanto, accanto alla scindibilità del supporto dalla sequenza di bit rappresentativa del contenuto (informazione/dati/documenti), si afferma il principio dell inscindibilità dell informazione/dati/risorse dai metadati, ossia da una dettagliata descrizione degli stessi (vd. Figura 1). Figura 2: scindibilità dei bit dal supporto

Formati di file Se l unico modo per poter venir a conoscenza del contenuto di una scatoletta di legumi senza etichetta è quello di aprirla, è altrettanto vero che per poter accedere al contenuto di una risorsa digitale è necessario conoscere il formato con cui quel file è stato codificato. Un file, infatti, può essere codificato correttamente solo se viene identificato correttamente, ossia se si conosce il formato e la versione 1 con cui è stato generato. Questa non è l unica limitazione imposta all interpretazione di una risorsa digitale. Le specifiche di cui dicevamo, infatti, devono essere aperte, standardizzate, non proprietarie, completamente documentate etc, altrimenti si rischia di non trovare, all interno della scatoletta, il contenuto che stavamo cercando, o più probabilmente, di trovare al suo interno del contenuto scaduto Se, abbiamo la necessità di conservare la scatoletta di legumi per un periodo più lungo, magari aprirla qualche mese dopo, è necessario seguire alcune regole che ci permettano di preservarne il contenuto; andrà magari conservata a temperature consigliate, lontana da fonti di calore, evitando zone di umidità etc. Quando parliamo di conservazione dei documenti digitali è altrettanto necessario assicurarsi che i formati dei files siano in possesso di determinati requisiti 2. Ad oggi, i formati dei files più o meno conformi a tali requisiti sono diversi anche se, lo scenario che va delineandosi vede una sorta di competizione tra i formati OOXML, PDF, PDF/A e XPS 3. 1 Per esempio il fatto che un documento sia nel formato.doc non ci dice nulla riguardo la versione precisa del file. L estensione.doc viene utilizzata, infatti, per indicare tutti i formati prodotti dalla suite Microsoft Office dal 1997 al 2003. Solo con le ultime release (office 2007, 2010, 2011 viene indicata una estensione differente.docx che si riferisce alla versione del formato rilasciata nel 2007). 2 Il professor Stefano Allegrezza in Produzione e conservazione del documento digitale, individua i requisiti cui deontologicamente (lì dove non sono richiesti nello specifico) i formati dei files devono possedere per essere adatti ad un processo di lunga conservazione. Tra questi troviamo: l apertura, la completa documentazione, non proprietà, standardizzazione, ampia adozione (wide adoption), trasparenza (trasparency), robustezza (robustness), auto-contenimento (self-containment), auto-documentazione (self-documetation), indipendenza dal dispositivo (device-indipendence), assenza di meccanismi di protezione, assenza di limitazioni sull utilizzo, accessibilità, stabilità (stability), non modificabilità (unmodificable), sicurezza, efficienza, compatibilità all indietro e in avanti (backwprd/forword compatibility). 3 Stefano Allegrezza, Stefano Pigliapoco, Requisiti e standard per i formati elettronici, Volume I, Eum edizioni Università di Macerata, 2008

Tralasciando i formati OOXML e XPS la nostra analisi si incentra sul formato Pdf ed in particolare su un suo subset: il formato Pdf/a, come formato adatto ad un processo di lunga conservazione. Capitolo II PDF/A portable document format for archiving Il formato PDF è diventato in questi anni lo standard de facto per la presentazione e divulgazione dei contenuti digitali a prevalente carattere testuale. Tuttavia nella sua forma standard non è adatto alla conservazione digitale poiché non può garantire la riproducibilità a lungo termine e neanche la conservazione dell aspetto visivo 4. Per queste ragioni e con l obiettivo di risolvere queste difficoltà il 28 settembre 2005, la International Standards Organization (ISO) ha approvato un nuovo standard per l archiviazione dei documenti elettronici: ISO-19005-1 Document management Electronic Document file format for long-term preservation. Questo standard definisce un nuovo formato (PDF/A-1) per l archiviazione di documenti elettronici a lungo termine ed è basato sul PDF Reference Version 1.4 di Adobe Systems Inc. L obiettivo era quello di soddisfare la crescente necessità di archiviare elettronicamente i documenti in modo tale da assicurarne la conservazione del contenuto per periodi di tempo lunghi, nonché la possibilità di recuperarli e visualizzarli in futuro con risultati prevedibili e consistenti. Questo nuovo standard nasce quindi per rispondere al bisogno sempre più crescente di conservare a lungo i documenti elettronici. Lo standard non definisce un metodo di archiviazione o un obiettivo d archiviazione, identifica piuttosto un profilo per i documenti elettronici che assicura che i documenti possono essere riprodotti esattamente allo stesso modo negli anni a venire. L obiettivo del PDF/A, come già più volte ripetuto, è la conservazione a lungo termine dei documenti elettronici e quindi un elemento chiave di questa riproducibilità è il requisito per PDF/A che i documenti siano completamente auto-contenuti (self-containemnt), auto documentati (self-documentation) e indipendenti dal dispositivo (device-indipendent). 4 Stefano Allegrezza, Stefano Pigliapoco, Requisiti e standard per i formati elettronici, Volume I, Eum edizioni Università di Macerata, 2008

Nelle specifiche inoltre, vengono espressamente definite quali caratteristiche del formato sono obbligatorie (required), quali raccomandate (recommended), quali limitate (restricted) e quali infine proibite (prohibited). La tabella sottostante elenca nel dettaglio le caratteristiche citate: General Required Recommended Restricted Proibhited - Conformance to 1.4 requiremnts - Linearization hints should be ignored - Document information dictionary must be consistent with XMP metadata - Encryption - LZW compression - Embedded files - Optional content - Sound and movie media types Graphics Required Recommended Restricted Proibhited - Image dictionaries - Separation and - Referenxe X Objects DeviceN color spaces - PostScript X Object - Device indipendent color - Form X Object - Non-PDF 1.4 defined - Embedded color spaces - Extended graphics operators state - Trasparency - Rendering intents Fonts Required Recommended Restricted Proibhited - Fonts legally embeddable for unlimited, universal rendering - Embedded font programs - Font subset - Characters encoding - Embedded CMap - Consistent font metrics - Unicode character map (for level A confermance only) Annotations Required Recommended Restricted Proibhited - Reader mechanism to expose - Non-PDF 1.4 defined types - Annotations the annotation dictionary - File attachment, sound, and dictionaries Contents key movie types Actions Required Recommended Restricted Proibhited - Behaviour for NextPage, PrevPage, FirstPage and LastPage actions as defined - Launch, sound, movie, ResetForm, ImportData and javascript actions in PDF 1.4 - Deprecated set-state and noop - Reader mechanism to expose actions GoToR dictionary F and D keys, URI action dictionary - Named actions other than the 4 page navigation actions key, and SubmitForm action dictionary F key - Widget annotation or Field dictionary AA key MetaData Required Recommended Restricted Proibhited - Require use of extensible Metadata platform (XMP) - Proprietary but open format - Used for metadata creation, processing and interchange - Based on Resource Description Framework (RDF) - Open Word Wide Web Consortiun (W3C) standards - Cornerstone of semantic web - Pre-defined schema - Base, DC, DRM, DAM, Workflow, EXIF, PDF, PSD - Defined extension mechanism - Embedding rules - TIFF, JPEG, JPEG2000, HTML, AI, PSD, PDF - Document level xmp metadata - Equivalent XMP metadata for all appropriate Document Information Dictionary properties - Embedded Extension - File identifier - File provenance - Font metadata - XMP packet header bytes and econding attributes

Schema - Version and conformance self-identification Da quanto si evince, il formato PDF/A richiede delle determinate funzionalità e ne proibisce delle altre. Ad esempio, per assicurare una riproduzione precisa del testo, tutti i font utilizzati devono essere embedded; per poter garantire la corretta riproduzione dei colori è necessario che tutti i colori vengano specificati in un formato indipendente dal sistema. I metadati devono essere integrati in formato XMP; la crittografia non deve essere utilizzata. Oltre a queste semplici prescrizioni, PDF/A richiede comunque numerose altre caratteristiche, come la presenza di specifiche informazioni nella struttura dei font, e non ammette alcune strutture critiche, ad esempio alcune combinazioni di font TrueType e di codifiche. Tra le caratteristiche espressamente proibite troviamo l utilizzo di contenuti multimediali audio e video 5, l utilizzo di codice eseguibile (javascript), la cifratura del file, l uso della trasparenza, l uso dei collegamenti esterni (link), l utilizzo di file incorporati e la compressione con l algoritmo proprietario LZW. Livelli di conformità A secondo del grado di aderenza allo standard ISO 19005-1:2005 si possono stabilire due possibili livelli di conformità: PDF/A-1a (ISO 19005-1 Level A Conformance in Part 1 6 ) PDF/A-1b (ISO 19005-1 Level B Conformance in Part 1 7 ) Essi oltre a differire per il grado di conformità allo standard si differenziano per la presenza di informazioni sulla struttura del file oltre che per la possibilità di interpretare semanticamente il testo. Più precisamente, Il PDF/A-1a (conformità completa) non preserva soltanto l'aspetto 5 Per permettere l'integrazione delle nuove funzionalità stanno per essere apportate delle modifiche agli standard di archiviazione: PDF/A-2 (ISO 19005-2) contemplerà diverse nuove funzionalità attualmente non previste da PDF/A-1, tra le altre novità in questo ambito la compressione JPEG 2000, i contenuti opzionali (livelli), la trasparenza, il PDF Portfolio, ecc. Lo standard PDF/A-2 non renderà obsoleto il PDF/A-1 e non costringerà gli utenti a migrare alla nuova versione. Sarebbe un evidente controsenso per uno standard destinato a garantire la riproduzione affidabile nel lungo periodo! 6 ISO 19005-1A:2005, Document Management Electronic document file format for long-term preservation Part 1: Use of PDF 1.4 (PDF/A-1); specifies the use of the Portable Document Format (PDF) for the not only the visual representation but also semantic information and comprehensive metadata in compliance with all parts of the specification.

del PDF nel lungo termine, ma interpreta anche il suo contenuto (semantica) rendendolo accessibile a tutti gli utenti anche su dispositivi palmari o altri apparati. A differenza del PDF/A-1a, il PDF/A-1b rappresenta i livello di conformità minima che garantisce la riproduzione affidabile dell aspetto visivo del documento nel lungo periodo. PDF/A-1b fa sì che il documento conservi lo stesso aspetto anche quando verrà visualizzato o stampato in futuro, non garantendo, pertanto, che il suo contenuto potrà essere interpretato semanticamente. Oltre ciò il PDF/A-1b non richiede neppure l inclusione di tutte le tipologie specificate per i metadati, così come espressamente menzionato dallo standard ISO 19005-1B:2005 8. Figura 3: relazioni tra le varie versioni del formato PDF/A-1 Da quanto si evince dalla figura 1, è chiaro che un file conforme alle specifiche del PDF/A-1a sarà conforme anche a quelle del PDF/A-1b; ovviamente non varrà il contrario. 8 ISO 19005-1B:2005, Document Management Electronic document file format for long-term preservation Part 1: Use of PDF 1.4 (PDF/A-1); specifies the use of the Portable Document Format (PDF) for primarily visual representation and does not require the presence of semantic information or inclusion of all specified types of metadata

PDF/A e metadati Come più volte ribadito, i metadati sono legati alla risorsa da un rapporto di necessarietà, ossia non esiste risorsa senza una sua appropriata descrizione. Per capire quanto questa definizione influenzi il mondo binario basti pensare al nome di un file. Questo costituisce il metadato più scontato ma anche il più efficace per legare una risorsa al suo contenuto. Ognuno di noi, infatti, nella gestione del proprio file system attribuisce ai files una nomenclatura più o meno esplicita ma indispensabile ai fini della sua catalogazione. Se abbandoniamo i confini del nostro desktop le problematiche aumentano. Tornando all esempio dei generi alimentari, una domanda ci viene spontanea: se anziché trovarci in un supermercato Italiano ci fossimo trovati in un market Inglese saremmo stati ancora capaci di comprendere tutte le informazioni presenti sulla scatoletta dei legumi? La risposta è scontata. La conoscenza della lingua inglese sarebbe stata necessaria alla comprensione (understable) delle informazioni, e solo grazie ad essa saremmo potuti uscire dal market con la busta contenente i prodotti che stavamo cercando. Come ben sanno linguisti ed esperti di comunicazione alla base della comprensione c è la condivisione di regole semantiche, sintattiche e grammaticali, in estrema sintesi, deve esserci un codice condiviso affinché due o più interlocutori possano dialogare e comprendersi. La mancanza di un codice condiviso, quindi di metadati comprensibili, emerse come un grave problema già all inizio degli anni novanta, soprattutto nel web. Gli esseri umani possono ottenere molte informazioni da una pagina con i tag HTML in quanto il browser converte i dati in un linguaggio ordinario che la gente capisce. Tuttavia, per una macchina che non comprende il linguaggio umano, l HTML non aggiunge alcuna comprensione. Un file marcato solo con i tag HTML è comprensibile al computer come una scatoletta di legumi senza etichetta può esserlo per il suo possibile acquirente. Da qui, emerse la necessità di creare delle regole sintattiche, semantiche e grammaticali in grado di essere comprensibili sia alle macchine che alle persone. Fu in questo contesto che

vennero sviluppati due nuovi linguaggi ; il primo, RDF 9 (Resource Definition Framework), per la strutturazione delle etichette, il secondo XML 10 per facilitare la lettura delle etichette alle macchine. La piattaforma XMP, che come abbiamo visto costituisce una delle caratteristiche obbligatorie del formato PDF/A, si basa sia su RDF che su XML. MetaData Required Recommended Restricted Proibhited - Require use of extensible Metadata platform (XMP) - Proprietary but open format - Used for metadata creation, processing and interchange - Based on Resource Description Framework (RDF) - Open Word Wide Web Consortiun (W3C) standards - Cornerstone of semantic web - Pre-defined schema - Base, DC, DRM, DAM, Workflow, EXIF, PDF, PSD - Defined extension mechanism - Embedding rules - TIFF, JPEG, JPEG2000, HTML, AI, PSD, PDF - Document level xmp metadata - Equivalent XMP metadata for all appropriate Document Information Dictionary properties - Embedded Extension Schema - Version and conformance self-identification - File identifier - File provenance - Font metadata - XMP packet header bytes and econding attributes 9 Wikipedia: Il Resource Description Framework (RDF) è lo strumento base proposto da W3C per la codifica, lo scambio e il riutilizzo di metadati strutturati e consente l'interoperabilità tra applicazioni che si scambiano informazioni sul Web. 10 10 Wikipedia: Rispetto all'html, l'xml ha uno scopo ben diverso: mentre il primo definisce una grammatica per la descrizione e la formattazione di pagine web e, più in generale, di ipertesti, il secondo è un metalinguaggio utilizzato per creare nuovi linguaggi, atti a descrivere documenti strutturati. Mentre l'html ha un insieme ben definito e ristretto di tag, con l'xml è invece possibile definirne di propri a seconda delle esigenze.

Context is everything. Metadata brings context to data. XMP brings structure to metadata

Capitolo III XMP Extensible Metadata Platform Se, parlando di generi alimentari l Rfid 11 sta rivoluzionando profondamente le tradizionali etichette e di conseguenza i processi e le attività che si costruiscono intorno ad esse, nel mondo del digitale Adobe ha riconosciuto la necessità di realizzare un formato comune per i metadati utilizzabile con tutte le applicazioni e i formati. È stata così implementata la Extensible Metadata Platform (XMP). Si tratta di un formato XML modellato sulla base di RDF (Resource Description Framework), la pietra fondante dell'iniziativa Semantic Web 12, del W3C. RDF - Resource Description Framework Il Resource Description Framework (RDF) non descrive la semantica, ma fornisce una base comune per poterla esprimere, permettendo di definire la semantica dei tag XML necessaria a supportare i metadati. RDF è un applicazione XML che permette di esprimere la semantica per la codifica, lo scambio e l elaborazione automatica dei metadati. Inoltre, consente di rendere disponibili, in una forma comprensibile sia ad un lettore umano che ad una macchina, i vocabolari progettati per lo scambio, l uso e l estensione della semantica dei metadati tra comunità specialistiche 11 Le etichette intelligenti sono dei minuscoli chip a radiofrequenza basati sulla tecnologia RFID (Radio Frequency Identification) con circuiti in grado di contenere informazioni, di elaborarle e di trasmetterle. I chip si attivano quando entrano nel campo elettromagnetico generato da appositi apparecchi lettori in grado di comunicare con l etichetta. Tramite le etichette RFID si possono avere immediate informazioni su un prodotto, come la data di confezionamento o la scadenza, seguire i percorsi di processo nella catena produttiva, conoscere in tempo reale le consistenze di un magazzino, facilitare l accesso sui mezzi di trasporto o a determinati luoghi, effettuare l inventario dei libri, identificare un bene dalla produzione allo smaltimento. I sistemi a pagamento automatici sulle autostrade si basano sulla tecnologia RFID 12 Con il termine web semantico, termine coniato dal suo ideatore, Tim Berners-Lee, si intende la trasformazione del World Wide Web in un ambiente dove i documenti pubblicati (pagine HTML, file, immagini, e così via) siano associati ad informazioni e dati (metadati) che ne specifichino il contesto semantico in un formato adatto all'interrogazione, all'interpretazione e, più in generale, all'elaborazione automatica. Con l'interpretazione del contenuto dei documenti che il Web semantico propugna, saranno possibili ricerche molto più evolute delle attuali, basate sulla presenza nel documento di parole chiave, e altre operazioni specialistiche come la costruzione di reti di relazioni e connessioni tra documenti secondo logiche più elaborate del semplice collegamento ipertestuale.

diverse 13. L impatto dell adozione di RDF su larga scala può essere ben descritto riportando quanto sostenuto da Ora Lassilla: Once the web has been sufficientl populated with rich metadata, what can we expect? First, searching on the web will become more easier as search engines have more information available, and thus searching can be more focused. Doors will also be opened for automated software agents to roam the web, looking for information for us transacting business on our behalf. The web of today, the vast unstructured mass of information, may in the future be transformed into something more manageable and thus something far more useful 14. Panoramica XMP Il Resource Definition Framework (RDF) è un componente chiave della piattaforma XMP. Come tale esso definisce la sintassi, i vocabolari, i concetti e la semantica, che sono fondamentali per utilizzare XML. Poiché i metadati XMP vengono scritti direttamente nei files in forma di pacchetti XML (XMP Packet), Adobe fornisce un modello di dati su come organizzare i metadati in modo da essere accessibili da applicazioni diverse da quelle che hanno generato il file. Oltre al modello di dati, Adobe fornisce un modello di serializzazione che descrive come il modello di dati è rappresentato in XML (RDF). I metadati XMP si muovono con il file stesso e possono essere integrati in numerosi file comuni tra i quali PDF, TIFF e JPEG. Le proprietà dei metadati vengono raggruppate nei 13 Il concetto di comunità di riferimento è un concetto cardine del modello OAIS. Il modello precisa una classe speciale di utenti indicata come la comunità di riferimento : il sottoinsieme degli utenti in grado di comprendere autonomamente l informazione archiviata nella forma in cui è conservata e resa disponibile dall OAIS. Infatti una delle responsabilità obbligatorie di un archivio OAIS è quella di conservare l informazione in un modo che sia comprensibile agli utenti di riferimento. Ad esempio se l OAIS contiene studi o insiemi di dati relativi a una determinata disciplina, allora la comunità di riferimento può consistere di tutti gli individui che possiedono un certo livello di conoscenze in quell area, che potrebbero usare quanto è stato archiviato per ottenere informazioni o come punto di partenza per la ricerca di base o applicata. Così, se il contenuto di un archivio OAIS consiste in bilanci, dichiarazioni dei redditi o in altri documenti finanziari di imprese commerciali, la comunità di riferimento potrebbe essere identificata con gli enti di controllo governativi e con i professionisti del mondo finanziario e contabile in grado di offrire sintesi e interpretazioni di queste informazioni. In entrambi gli esempi, i contenuti dell OAIS potrebbero essere liberamente accessibili da chiunque; in questo caso, gli utenti di un OAIS coinciderebbero con il pubblico in generale. Tuttavia solo chi possiede una conoscenza sufficientemente specializzata per usare le informazioni archiviate senza l assistenza di un esperto fa parte della comunità di riferimento dell OAIS. 14 Introduction to RDF Metadata, W3C NOTE 1997-11-13, Ora Lassilla, URL: http://www.w3.org/tr/noterdf-simple-intro

cosiddetti schemi. Ogni schema viene identificato da un namespace URI univoco e contiene un numero arbitrario di proprietà. Le specificazioni includono più di dieci schemi predefiniti con centinaia di proprietà per le caratteristiche comuni di documenti e immagini. Lo schema XMP predefinito più diffuso è il Dublin Core, abbreviato dc 15. Esso contiene delle proprietà generali come Titolo, Creato da, Oggetto e Descrizione. Oltre agli schemi predefiniti è possibile creare degli schemi personalizzati in modo tale da poter soddisfare le esigenze di una precisa comunità o di un settore in termini di metadati specifici. Lo schema XMP per documenti PDF è stato introdotto con la release 5 di Acrobat Professional basata sulla versione del PDF 1.4. Lo schema che ha preceduto i file XMP per i PDF era formato da semplici coppie chiave/valore, le cosiddette informazioni sul documento, l unica formula utilizzata per trasportare i metadati prima dell'introduzione di XMP (vedi figura ). 15 Il progetto del Dublin Core (nome completo: Dublin Core Metadata Initiative, in acronimo DCMI) si è sviluppato in ambito OCLC (On line Computer Library Center), la grande rete di servizi americana per le biblioteche. Nel marzo 1995 si è tenuta una conferenza nella città americana di Dublin (Ohio), alla quale i partecipanti hanno convenuto sulla necessità di creare un insieme di strumenti condivisi per l accesso alle risorse digitali. Lo scopo era quello di stabilire un insieme base di elementi descrittivi che potessero essere forniti dall autore o dall editore dell oggetto digitale, ed inclusi in esso, o da esso referenziati. Il consorzio di utenti che si è costituito ha incominciato così a sviluppare un architettura per i metadata che venisse incontro alle necessità dei venditori e dei produttori di informazioni. Il set, proposto nel dicembre 1996, era costituito da quindici elementi di base: Titolo (Title), Autore (Creator),Soggetto (Subject), Descrizione (Description), Editore (Publisher), Autore di contributo subordinato (Contributor), Data (Date), Tipo (Type), Formato (Format), Identificatore (Identifier), Fonte (Source), Lingua (Language), Relazione (Relation), Copertura (Coverage), Gestione dei diritti (Rights Management).

Figura 4: document dictionary information Mentre le informazioni sul documento continuano ad essere supportate nei file PDF, i metadati XMP sono una soluzione molto più potente che permette sia di inserire i metadati direttamente nel file in formato xml, sia di poter essere comprese da applicazioni che non supportano il formato pdf. I metadati XMP possono essere visualizzati e modificati nel pannello proprietà documento in Acrobat, o sotto la voce di menu info per le altre applicazioni che compongono la suite publishing di adobe (Photoshop, InDesign, Illustrator).

Sono diverse le imprese e le comunità specialistiche che utilizzano XMP per soddisfare le proprie esigenze in termini di metadati. Tra queste troviamo: Il consorzio AdsML crea specifiche e processi per lo scambio di informazioni e contenuti pubblicitari. La International Press Telecommunications Council (IPTC) è un Gruppo industriale fondato da agenzie di stampa. Sviluppa standard industriali per lo scambio di notizie. Ha pubblicato l' IPTC Core per XMP, uno schema largamente utilizzato per trasferire i metadati di immagini e di altri elementi delle notizie. Lo standard DICOM per lo scambio di immagini mediche supporta l uso di PDF e specifica uno schema XMP personalizzato per memorizzare i dati dei pazienti, la descrizione dello studio, i dettagli sugli equipaggiamenti e altri metadati. Il Publishing Requirements for Industry Standard Metadata (PRISM) definisce un vocabolario di metadati per elaborare i contenuti di riviste, news, cataloghi, libri e giornali.