Archiviazione dei siti delle istituzioni europee

Archiviazione dei siti delle istituzioni europee Il progetto pilota degli Archivi storici dell Unione europea tra principi e realizzazione corso ANAI, 18-19 maggio 2015 Leggero, trasparente, permanente e sostenibile: gestione e conservazione del documento digitale

Il web è enorme fragile evanescente

Web: 2000-2014 fonte: http://www.internetlivestats.com/total-number-of-websites/#trend

1996 1994 2015

Il contenuto dei siti web è altamente instabile e può essere: cancellato sovrascritto modificato spostato a un nuovo dominio persone/enti/istituzioni e addirittura interi database possono cessare.

Link rot (link rotto: errore HTTP 404) la risorsa richiesta non è stata trovata e non se ne conosce l'ubicazione. Content drift la risorsa richiesta viene trovata ma non si ha modo di verificare che il contenuto che si trova nella pagina al momento della navigazione sia rappresentativo/corrisponda al contentuto a cui puntava il link di partenza.

Wayback Machine

Internet Archive WayBack Machine sito del portale web e software per la visualizzazione dei file ARC Heritrix web-crawler creato dall Internet Archive in collaborazione con biblioteche e archivi internazionali ARC formato di archiviazione dei siti web

IIPC (International Internet Preservation Coalition) WARC (Web ARChive) nuovo formato di archiviazione dei siti web sviluppato da IIPC contiene tutte le informazioni necessarie per un emulazione, aggrega risorse digitali multiple in un file archivistico con i rispettivi metadati, supporta (meglio) l harvesting, l accesso e lo scambio di dati tra istituzioni. Inoltre, rispetto ad ARC: registra gli header della richiesta HTTP, gli arbitrary metadata (ad esempio una data di ultima modifica), rileva un identificatore univoco, gestisce record duplicati e migrati, riesce a fare una segmentazione dei record

Pagina web Una pagina web: 927 stringhe di codice HTML 15 immagini jpeg 3 immagini png 5 CSS (cascade style sheets) 10 JavaScripts

Crawling

Harvesting Remote harvesting è un operazione svolta da un software in remoto che non coinvolge le persone/enti/istituzioni i cui siti vengono catturati. Riproduce una fotografia statica dei siti web. Vantaggi: infrastruttura minima; relativa faciltà d uso e flessibilità; velocità con cui si può avviare un programma di web archiving. Svantaggi: difficoltà nella cattura di contenuti dinamici o interattivi, script JAVA, Flash, video. I crawler non riescono a catturare database; limitazioni di natura legale, presenza di robots.txt, contenuti protetti; non è possibile recuperare ogni versione di un sito/pagina per la velocità con cui cambiano i siti.

HAEU: web archiving

Outsourcing: Internet Memory Foundation crawl di 69 siti web in formato ARC -- prossima migrazione a WARC quality control stoccaggio utilizzo di AtN (Archivethe.Net), piattaforma condivisa che permette di gestire l intero ciclo di archiviazione dei siti web dall impostazione del crawler alla produzione di statistiche indicizzazione (per URL e full text) interfaccia di ricerca redirezionamento dell URL (anzichè ricevere un errore HTPP 404) l utente viene redirezionato dalla pagina non più disponibile verso la pagina archiviata.

Web archiving workflow Selezione Acquisizione Storage e metadati Accesso e uso Conservazione

Web archiving Principi Applicazione

Selezione Principi generali: La definizione di una politica e di un metodo di selezione sono gli elementi fondanti di qualsiasi programma di web archiving e devono essere continuamente aggiornati. Metodo di selezione: non selettivo selettivo tematico ibrido HAEU: Metodo di selezione IBRIDO. Per 69 istituzioni/agenzie/enti europei sono pianificati 3 crawl all anno. Mentre per eventi importanti, come per le elezioni del Parlamento europeo, sono stati realizzati due crawl ad hoc prima e dopo elezioni.

Criteri di selezione Principi generali: I criteri di selezione devono essere definiti in base al ciclo di vita di un sito web. Frequenza: Alcuni siti istituzionali tendono a ritenere di più i contenuti mentre altri basati su eventi (elezioni politiche ecc.) sono transitori; Dinamicita del contenuto: giornali vs pagina web istituzionale (dinamico vs statico); Monitoraggio dei siti a rischio: pagine web che possono cessare (esempio finanziamenti finiti, progetti terminati) HAEU: Criteri: merito, urgenza, esigenze legali, esigenze di conservazione. Nel breve periodo si è deciso di archiviare: dominio europa.eu e siti fuori dal dominio europa.eu che stanno per essere dismessi; siti di istituzioni, agenzie e enti affiliati alle attività delle istituzioni europee che non sono sotto il dominio europa.eu; (medio periodo) database istituzionali, reti intranet, social media.

Acquisizione Principi generali: A seconda della portata dell archivio web, dei rapporti con i creatori dei siti e della natura del contenuto si possono selezionare diversi metodi di acquisizione: remote harvesting o direct transfer. HAEU: Remote harvesting. In aggiunta sono in preparazione delle linee guida per i webmaster dei siti delle istituzioni europee con i requisiti per facilitare il lavoro di crawling. (es. usare il protocollo HTTP, tenere tutto sotto la stessa root di un URL, altrimenti fornire gli URL esterni da aggiungere alla lista di cui fare web crawling, prevedere un sitemap per ciascun sito, escludere o verificare che non ci siano link rotti, per i link interni utilizzare path relativi e non assoluti, ovvero interni e non esterni al sito)

Criteri di acquisizione Principi generali: L acquisizione può limitarsi a catturare il contenuto di un sito oppure a riprodurre fedelmente la struttura, il contenuto, il contesto e conservarne le caratteristiche. HAEU: Archiviazione di siti web con valore di record (requisiti di autenticità, integrità, affidabilità del sistema di deposito). L obiettivo è: catturare i siti al meglio (esclusione contenuto multimediale esterno (Youtube, Twitter, Facebook) e database); eseguire controllo qualità (JIRA: Quality Assurance tool di IMF che permette di avere controllo sulla qualità); validazione dei crawl dopo aver verificato la corretta esecuzione, oppure riprogrammazione del crawl in parte o per intero.

Storage e metadati Principi generali: Conservare l organizzazione e la struttura interna dei siti web, le relazioni e il contesto. Il sistema di stoccaggio deve eseguire controlli, creare indici ed estrarre metadati per la gestione delle risorse digitali.. HAEU: IMF utilizza Hadoop, HDFS and HBase per lo stoccaggio e l organizzazione dei files, l indicizzazione e il recupero dei dati. IMF esegue controlli (virus e fixity checks), dà garanzia di ridondanza (ulteriore copia nei loro data center). IMF esegue indicizzazione (per URL e full text) e estrazione di metadati automaticamente: marca temporale, indirizzo IP, MIME type della risorsa, bytes, URI.

Accesso e uso Principi generali: L accessibilità ai siti web dipende da leggi nazionali e da politiche che ne governano l uso e l accesso. La ricercabilità varia a seconda della ricchezza di metadati, dagli strumenti di indicizzazione e dai motori di ricerca adoperati. HAEU: Politica di apertura e di trasparenza condivisa con le istituzioni europee per garantire un accesso ai siti archiviati. La ricerca sull interfaccia pubblica permette di fare ricerche per URL, keyword e istanza temporale della cattura.

Conservazione Principi generali: Il modello più adottato per la conservazione digitale (siti web inclusi) è OAIS (standard ISO (14721:2003). HAEU: In preparazione c è un bando di gara per un sistema a lunga conservazione conforme a OAIS. In futuro, gestiremo noi lo stoccaggio e la conservazione a lungo termine degli archivi dei siti web delle istituzioni.

Conclusioni applicare criteri ad hoc; puntare alla collaborazione con le istituzioni di cui si fa il crawl; investire in una pratica curatoriale e archivistica per una selezione mirata, una più accurata quality assurance/revisione, una metadatazione descrittiva più ricca.

Bibliografia (selettiva) Manuali Brown, Adrian. Archiving websites: a practical guide for information management professionals, 2006. Masanès, Julien. Web archiving, 2006. UK National Archives, Web Archiving Guidance, 2011 http://nationalarchives.gov.uk/documents/information-management/web-archivingguidance.pdf PENNOCK, M., Web-Archiving: DPC Technology Watch Report 13-01, Digital Preservation Coalition. 2013. http://www.dpconline. org/component/docman/doc_download/865-dpctw13-01pdf-dpctw13-01pdf Articoli Alcuni istituti e soggetti che si occupano di web archiving Internet Archive https://archive.org/ Wayback Machine http://archive.org/web/web.php International internet Preservation Consortium (IIPC) http://netpreserve.org/ Internet Memory Foundation http://internetmemory.org/en/ Niu, Jinfang, An Overview of Web Archiving, D-Lib Magazine, Volume 18, Number 3/4, March/April 2012 http://dlib.org/dlib/march12/niu/03niu1.html Living Web Archives (LIWA) Niu, Jinfang, Functionalities of Web Archives, D-Lib Magazine, Volume 18, Number 3/4, March/April 2012 http://dlib.org/dlib/march12/niu/03niu2.html Digital Preservation Coalition Andrea Goethals, Clément Oury, David Pearson, Barbara Sierman and Tobias Steinke, Facing the Challenge of Web Archives Preservation Collaboratively: The Role and Work of the IIPC Preservation Working Group, D-Lib Magazine, Volume 21, Number 5/6, April/May 2015 http://www.dlib.org/dlib/may15/goethals/05goethals.html#3 http://www.liwa-project.eu/index.php http://www.dpconline.org/