Archiviazione dei siti delle istituzioni europee

Documenti analoghi
L architettura del sistema può essere schematizzata in modo semplificato dalla figura che segue.

LA SOLUZIONE. EVOLUTION, con la E LA TECNOLOGIA TRASPARENTE IL SOFTWARE INVISIBILE INVISIBILE ANCHE NEL PREZZO R.O.I. IMMEDIATO OFFERTA IN PROVA

OGNI GIORNO SELEZIONIAMO LE NEWS CHE PARLANO DI TE

Comuninrete sistema integrato per la gestione di siti web ed interscambio di informazioni e servizi.

LA FORMAZIONE E LA CONSERVAZIONE DELLA MEMORIA DIGITALE

ƒ Gli standard e la gestione documentale

Scuola Digitale. Manuale utente. Copyright 2014, Axios Italia

Archiviazione ottica documentale

Modello OAIS. Modello di riferimento. Il Modello. Prof.ssa E. Gentile a.a Un modello di riferimento dovrebbe descrivere:

Il seguente Syllabus è relativo al Modulo 7, Reti informatiche, e fornisce i fondamenti per il test di tipo pratico relativo a questo modulo

FORMAZIONE AVANZATA IL CONSERVATORE DEI DOCUMENTI DIGITALI

C4B Doc. Gestione Documentale, permette di. organizzare l archiviazione e, la gestione dei documenti

Il Web Server e il protocollo HTTP

I cookie sono classificati in base alla durata e al sito che li ha impostati.

L archivio di impresa

Manuale per la gestione del protocollo, dei flussi documentali e degli archivi

Gestione documentale. Arxivar datasheet del Pag. 1

Strategie e Operatività nei processi di backup e restore

IL SISTEMA INFORMATIVO

Fattura elettronica e conservazione

Politica del WHOIS relativa al nome a dominio.eu

Lezione 8. Motori di Ricerca

Linee guida per il Comitato Tecnico Operativo 1

LE CARATTERISTICHE. Caratteristiche. - tel fax pag. 2

Faber System è certificata WAM School

Open Access e anagrafe della ricerca L esperienza al Politecnico di Torino. Maddalena Morando Sistema Bibliotecario - Politecnico di Torino

Internet. Internet. Internet Servizi e Protocolli applicativi. Internet. Organizzazione distribuita

CHECK LIST PER INDAGINI EFFETTUATE CON METODOLOGIA SOCIAL MEDIA RESEARCH Ottobre 2015 A) CHECK LIST (PARTE GENERALE)

Application Server per sviluppare applicazioni Java Enterprise

Addition, tutto in un unica soluzione

SCHEDA PRODOTTO PAG. 1 J O B T I M E W F. Variazioni mensili al cartellino presenze. Versione 6.1. JOBTIME Work Flow

Per siti più strutturati le informazioni sono mantenute mediante particolari organizzazioni di dati: human-powered directories

ARCHIVIAZIONE DOCUMENTALE NEiTdoc

Portali interattivi per l efficienza aziendale

Protezione. Protezione. Protezione. Obiettivi della protezione

Alfa Layer S.r.l. Via Caboto, Torino ALFA PORTAL

La qualità della comunicazione web

SurfCop. Informazioni sul prodotto

RICERCA DELL INFORMAZIONE

PROXYMA Contrà San Silvestro, Vicenza Tel Fax


ASSESSORATO DEGLI AFFARI GENERALI, PERSONALE E RIFORMA DELLA REGIONE

CONTENT MANAGEMENT SYSTEM

2 Gli elementi del sistema di Gestione dei Flussi di Utenza

Adempimenti art. 1 comma 32 legge 190/2012

I blog. Andrea Marin. a.a. 2013/2014. Università Ca Foscari Venezia SVILUPPO INTERCULTURALE DEI SISTEMI TURISTICI SISTEMI INFORMATIVI PER IL TURISMO

Ogni documento digitalizzato, carta attivo o passivo, viene di infatti accompagnato identità da una sorta di elettron

Comunicazione pubblica e accesso all informazione nell era digitale

Sage Start Archivio file Guida. Dalla versione

Utilizzo dei Cookie Cosa sono i cookie? A cosa servono i cookie? cookie tecnici cookie, detti analitici cookie di profilazione

PROGETTO TAVOLO GIOVANI

AtoZ IL CATALOGO DI BIBLIOTECA VIRTUALE

La progettazione centrata sull utente nei bandi di gara

GESTIONE DEI DOCUMENTI, DEI DATI E DELLE REGISTRAZIONI

MANUALE DI UTILIZZO: INTRANET PROVINCIA DI POTENZA

Architettura del. Sintesi dei livelli di rete. Livelli di trasporto e inferiori (Livelli 1-4)

Il Portale dell ARTI:

System Center Virtual Machine Manager Library Management

ESERCITAZIONE Semplice creazione di un sito Internet

QUESTIONARIO 3: MATURITA ORGANIZZATIVA

GestVetrine 1.1 versione novembre 2014

La Formazione A Distanza. La Formazione A Distanza

Caratteristiche generali

Come archiviare i dati per le scienze sociali

Gestione dei Documenti del Ciclo Passivo. Intelligent Capture & Exchange

MANUALE DELLA QUALITÀ Pag. 1 di 6

IS357_03_01 Lettera aggiornamento egovernment vers E-GOVERNMENT

SOLUZIONI INFORMATICHE PER LO STUDIO LEGALE

Comunicare i dati ambientali

del 30 novembre 2010

PIANO DI CONSERVAZIONE DEI DOCUMENTI

Lo Sportello Informativo on line La tua Regione a portata di mouse

Questionario di valutazione: la preparazione di un istituzione

Il software di gestione immobiliare più facile da usare. Modulo Web v5.2.

Rich Media Communication Using Flash CS5

Addition X DataNet S.r.l.

Istruzioni di installazione di IBM SPSS Modeler Text Analytics (licenza per sito)

Multicast e IGMP. Pietro Nicoletti

Copyright Hook & Festa Tutti I diritti riservati

Come leggere ed interpretare la letteratura scientifica e fornire al pubblico informazioni appropriate sui farmaci

Gli strumenti Wiki per Inemar e gli inventari emissioni

IL SISTEMA DI GESTIONE AMBIENTALE PER UN COMUNE

Modulo Piattaforma Concorsi Interattivi

RELAZIONE FINALE. FUNZIONE STRUMENTALE AREA 2 a.s. 2014/2015 GESTIONE del SITO WEB e COMUNICAZIONI ISTITUZIONALI a cura del prof.

La Skills Card relativa alle certificazioni Nuova ECDL è svincolata dalla singola certificazione.

Cosa è un foglio elettronico

Replica con TeraStation 3000/4000/5000/7000. Buffalo Technology

Lezione 1. Introduzione e Modellazione Concettuale

la possibilità di usufruire di un sistema di gestione documentale.

MANUALE MOODLE STUDENTI. Accesso al Materiale Didattico

Harvesting delle tesi di dottorato delle Biblioteche Nazionali tramite DSpace

LE FIGURE PROFESSIONALI PER LA CONSERVAZIONE DEGLI ARCHIVI DIGITALI

Manuale di Conservazione. Versione

Come funziona il WWW. Architettura client-server. Web: client-server. Il protocollo

Introduzione. Installare EMAS Logo Generator

monitoraggio aslromag.info analisi anno 2013

Finalità della soluzione Schema generale e modalità d integrazione Gestione centralizzata in TeamPortal... 6

LABORATORIO PER IL DESIGN DELLE INTERFACCE PEGORARO ALESSANDRO CASSERO.IT MANUALE DI AGGIORNAMENTO, MANUTENZIONE E USO DEL SITO

Social Media Marketing

Turismo Virtual Turismo Virtual Turismo Virtual

Transcript:

Archiviazione dei siti delle istituzioni europee Il progetto pilota degli Archivi storici dell Unione europea tra principi e realizzazione corso ANAI, 18-19 maggio 2015 Leggero, trasparente, permanente e sostenibile: gestione e conservazione del documento digitale

Il web è enorme fragile evanescente

Web: 2000-2014 fonte: http://www.internetlivestats.com/total-number-of-websites/#trend

1996 1994 2015

Il contenuto dei siti web è altamente instabile e può essere: cancellato sovrascritto modificato spostato a un nuovo dominio persone/enti/istituzioni e addirittura interi database possono cessare.

Link rot (link rotto: errore HTTP 404) la risorsa richiesta non è stata trovata e non se ne conosce l'ubicazione. Content drift la risorsa richiesta viene trovata ma non si ha modo di verificare che il contenuto che si trova nella pagina al momento della navigazione sia rappresentativo/corrisponda al contentuto a cui puntava il link di partenza.

Wayback Machine

Internet Archive WayBack Machine sito del portale web e software per la visualizzazione dei file ARC Heritrix web-crawler creato dall Internet Archive in collaborazione con biblioteche e archivi internazionali ARC formato di archiviazione dei siti web

IIPC (International Internet Preservation Coalition) WARC (Web ARChive) nuovo formato di archiviazione dei siti web sviluppato da IIPC contiene tutte le informazioni necessarie per un emulazione, aggrega risorse digitali multiple in un file archivistico con i rispettivi metadati, supporta (meglio) l harvesting, l accesso e lo scambio di dati tra istituzioni. Inoltre, rispetto ad ARC: registra gli header della richiesta HTTP, gli arbitrary metadata (ad esempio una data di ultima modifica), rileva un identificatore univoco, gestisce record duplicati e migrati, riesce a fare una segmentazione dei record

Pagina web Una pagina web: 927 stringhe di codice HTML 15 immagini jpeg 3 immagini png 5 CSS (cascade style sheets) 10 JavaScripts

Crawling

Harvesting Remote harvesting è un operazione svolta da un software in remoto che non coinvolge le persone/enti/istituzioni i cui siti vengono catturati. Riproduce una fotografia statica dei siti web. Vantaggi: infrastruttura minima; relativa faciltà d uso e flessibilità; velocità con cui si può avviare un programma di web archiving. Svantaggi: difficoltà nella cattura di contenuti dinamici o interattivi, script JAVA, Flash, video. I crawler non riescono a catturare database; limitazioni di natura legale, presenza di robots.txt, contenuti protetti; non è possibile recuperare ogni versione di un sito/pagina per la velocità con cui cambiano i siti.

HAEU: web archiving

Outsourcing: Internet Memory Foundation crawl di 69 siti web in formato ARC -- prossima migrazione a WARC quality control stoccaggio utilizzo di AtN (Archivethe.Net), piattaforma condivisa che permette di gestire l intero ciclo di archiviazione dei siti web dall impostazione del crawler alla produzione di statistiche indicizzazione (per URL e full text) interfaccia di ricerca redirezionamento dell URL (anzichè ricevere un errore HTPP 404) l utente viene redirezionato dalla pagina non più disponibile verso la pagina archiviata.

Web archiving workflow Selezione Acquisizione Storage e metadati Accesso e uso Conservazione

Web archiving Principi Applicazione

Selezione Principi generali: La definizione di una politica e di un metodo di selezione sono gli elementi fondanti di qualsiasi programma di web archiving e devono essere continuamente aggiornati. Metodo di selezione: non selettivo selettivo tematico ibrido HAEU: Metodo di selezione IBRIDO. Per 69 istituzioni/agenzie/enti europei sono pianificati 3 crawl all anno. Mentre per eventi importanti, come per le elezioni del Parlamento europeo, sono stati realizzati due crawl ad hoc prima e dopo elezioni.

Criteri di selezione Principi generali: I criteri di selezione devono essere definiti in base al ciclo di vita di un sito web. Frequenza: Alcuni siti istituzionali tendono a ritenere di più i contenuti mentre altri basati su eventi (elezioni politiche ecc.) sono transitori; Dinamicita del contenuto: giornali vs pagina web istituzionale (dinamico vs statico); Monitoraggio dei siti a rischio: pagine web che possono cessare (esempio finanziamenti finiti, progetti terminati) HAEU: Criteri: merito, urgenza, esigenze legali, esigenze di conservazione. Nel breve periodo si è deciso di archiviare: dominio europa.eu e siti fuori dal dominio europa.eu che stanno per essere dismessi; siti di istituzioni, agenzie e enti affiliati alle attività delle istituzioni europee che non sono sotto il dominio europa.eu; (medio periodo) database istituzionali, reti intranet, social media.

Acquisizione Principi generali: A seconda della portata dell archivio web, dei rapporti con i creatori dei siti e della natura del contenuto si possono selezionare diversi metodi di acquisizione: remote harvesting o direct transfer. HAEU: Remote harvesting. In aggiunta sono in preparazione delle linee guida per i webmaster dei siti delle istituzioni europee con i requisiti per facilitare il lavoro di crawling. (es. usare il protocollo HTTP, tenere tutto sotto la stessa root di un URL, altrimenti fornire gli URL esterni da aggiungere alla lista di cui fare web crawling, prevedere un sitemap per ciascun sito, escludere o verificare che non ci siano link rotti, per i link interni utilizzare path relativi e non assoluti, ovvero interni e non esterni al sito)

Criteri di acquisizione Principi generali: L acquisizione può limitarsi a catturare il contenuto di un sito oppure a riprodurre fedelmente la struttura, il contenuto, il contesto e conservarne le caratteristiche. HAEU: Archiviazione di siti web con valore di record (requisiti di autenticità, integrità, affidabilità del sistema di deposito). L obiettivo è: catturare i siti al meglio (esclusione contenuto multimediale esterno (Youtube, Twitter, Facebook) e database); eseguire controllo qualità (JIRA: Quality Assurance tool di IMF che permette di avere controllo sulla qualità); validazione dei crawl dopo aver verificato la corretta esecuzione, oppure riprogrammazione del crawl in parte o per intero.

Storage e metadati Principi generali: Conservare l organizzazione e la struttura interna dei siti web, le relazioni e il contesto. Il sistema di stoccaggio deve eseguire controlli, creare indici ed estrarre metadati per la gestione delle risorse digitali.. HAEU: IMF utilizza Hadoop, HDFS and HBase per lo stoccaggio e l organizzazione dei files, l indicizzazione e il recupero dei dati. IMF esegue controlli (virus e fixity checks), dà garanzia di ridondanza (ulteriore copia nei loro data center). IMF esegue indicizzazione (per URL e full text) e estrazione di metadati automaticamente: marca temporale, indirizzo IP, MIME type della risorsa, bytes, URI.

Accesso e uso Principi generali: L accessibilità ai siti web dipende da leggi nazionali e da politiche che ne governano l uso e l accesso. La ricercabilità varia a seconda della ricchezza di metadati, dagli strumenti di indicizzazione e dai motori di ricerca adoperati. HAEU: Politica di apertura e di trasparenza condivisa con le istituzioni europee per garantire un accesso ai siti archiviati. La ricerca sull interfaccia pubblica permette di fare ricerche per URL, keyword e istanza temporale della cattura.

Conservazione Principi generali: Il modello più adottato per la conservazione digitale (siti web inclusi) è OAIS (standard ISO (14721:2003). HAEU: In preparazione c è un bando di gara per un sistema a lunga conservazione conforme a OAIS. In futuro, gestiremo noi lo stoccaggio e la conservazione a lungo termine degli archivi dei siti web delle istituzioni.

Conclusioni applicare criteri ad hoc; puntare alla collaborazione con le istituzioni di cui si fa il crawl; investire in una pratica curatoriale e archivistica per una selezione mirata, una più accurata quality assurance/revisione, una metadatazione descrittiva più ricca.

Bibliografia (selettiva) Manuali Brown, Adrian. Archiving websites: a practical guide for information management professionals, 2006. Masanès, Julien. Web archiving, 2006. UK National Archives, Web Archiving Guidance, 2011 http://nationalarchives.gov.uk/documents/information-management/web-archivingguidance.pdf PENNOCK, M., Web-Archiving: DPC Technology Watch Report 13-01, Digital Preservation Coalition. 2013. http://www.dpconline. org/component/docman/doc_download/865-dpctw13-01pdf-dpctw13-01pdf Articoli Alcuni istituti e soggetti che si occupano di web archiving Internet Archive https://archive.org/ Wayback Machine http://archive.org/web/web.php International internet Preservation Consortium (IIPC) http://netpreserve.org/ Internet Memory Foundation http://internetmemory.org/en/ Niu, Jinfang, An Overview of Web Archiving, D-Lib Magazine, Volume 18, Number 3/4, March/April 2012 http://dlib.org/dlib/march12/niu/03niu1.html Living Web Archives (LIWA) Niu, Jinfang, Functionalities of Web Archives, D-Lib Magazine, Volume 18, Number 3/4, March/April 2012 http://dlib.org/dlib/march12/niu/03niu2.html Digital Preservation Coalition Andrea Goethals, Clément Oury, David Pearson, Barbara Sierman and Tobias Steinke, Facing the Challenge of Web Archives Preservation Collaboratively: The Role and Work of the IIPC Preservation Working Group, D-Lib Magazine, Volume 21, Number 5/6, April/May 2015 http://www.dlib.org/dlib/may15/goethals/05goethals.html#3 http://www.liwa-project.eu/index.php http://www.dpconline.org/