Documenti analoghi
ESERCITAZIONE Semplice creazione di un sito Internet

Come funziona il WWW. Architettura client-server. Web: client-server. Il protocollo

Corso di Access. Prerequisiti. Modulo L2A (Access) 1.1 Concetti di base. Utilizzo elementare del computer Concetti fondamentali di basi di dati

Il database management system Access

Database. Si ringrazia Marco Bertini per le slides

Guida rapida all uso di Moodle per gli studenti

Architetture Informatiche. Dal Mainframe al Personal Computer

Architetture Informatiche. Dal Mainframe al Personal Computer

I MODULI Q.A.T. PANORAMICA. La soluzione modulare di gestione del Sistema Qualità Aziendale

Manuale Amministratore Legalmail Enterprise. Manuale ad uso degli Amministratori del Servizio Legalmail Enterprise

Reti di Calcolatori. Il Livello delle Applicazioni

Introduzione al data base

Siti web centrati sui dati (Data-centric web applications)

Capitolo 4 Pianificazione e Sviluppo di Web Part

Manuale Utente Albo Pretorio GA

Corso di Amministrazione di Reti A.A. 2002/2003

MANUALE DI UTILIZZO: INTRANET PROVINCIA DI POTENZA

Architettura del. Sintesi dei livelli di rete. Livelli di trasporto e inferiori (Livelli 1-4)

Applicazioni web centrati sui dati (Data-centric web applications)

Le fattispecie di riuso

Configurazione di Outlook Express

CONTENT MANAGEMENT SY STEM

Organizzazione degli archivi

Lezione 1. Introduzione e Modellazione Concettuale

MANUALE MOODLE STUDENTI. Accesso al Materiale Didattico

Guida rapida all uso di Moodle per gli studenti

InfiXor. il programma facile e versatile per preventivi veloci e completi. il software di preventivazione per produttori e rivenditori di infissi

Alfa Layer S.r.l. Via Caboto, Torino ALFA PORTAL

PROTOS GESTIONE DELLA CORRISPONDENZA AZIENDALE IN AMBIENTE INTRANET. Open System s.r.l.

Software di sistema e software applicativo. I programmi che fanno funzionare il computer e quelli che gli permettono di svolgere attività specifiche

Internet e posta elettronica. A cura di Massimiliano Buschi

Come leggere ed interpretare la letteratura scientifica e fornire al pubblico informazioni appropriate sui farmaci

connessioni tra i singoli elementi Hanno caratteristiche diverse e sono presentati con modalità diverse Tali relazioni vengono rappresentate QUINDI

Nelle reti di calcolatori, le porte (traduzione impropria del termine. port inglese, che in realtà significa porto) sono lo strumento

hi-com software realizzato da Hi-Think

Software Servizi Web UOGA

MODELLO CLIENT/SERVER. Gianluca Daino Dipartimento di Ingegneria dell Informazione Università degli Studi di Siena

CONTENT MANAGEMENT SYSTEM

A T I C _W E B G U I D A AL L A N A V I G A Z I O N E S U L S I T O D E L G R U P P O. Rev. 2.1

Il calendario di Windows Vista

Online Help StruxureWare Data Center Expert

Manuale d uso Software di parcellazione per commercialisti Ver [05/01/2015]

Finalità della soluzione Schema generale e modalità d integrazione Gestione centralizzata in TeamPortal... 6

Light CRM. Documento Tecnico. Descrizione delle funzionalità del servizio

LA GESTIONE DELLE VISITE CLIENTI VIA WEB

SOLUZIONE Web.Orders online

Università degli Studi "Roma Tre" Dipartimento di Informatica ed automazione. Facoltà di Ingegneria

Introduzione Ai Data Bases. Prof. Francesco Accarino IIS Altiero Spinelli Via Leopardi 132 Sesto San giovanni

Client - Server. Client Web: il BROWSER

SOFTWARE PER LA RILEVAZIONE PRESENZE SUL WEB

Regione Toscana. ARPA Fonte Dati. Manuale Amministratore. L. Folchi (TAI) Redatto da

INFORMATIVA SUI TRATTAMENTI DEI DATI PERSONALI

Guida alla registrazione on-line di un DataLogger

Reti di Telecomunicazione Lezione 6

MANUALE D USO DELLA PIATTAFORMA ITCMS

Il software impiegato su un computer si distingue in: Sistema Operativo Compilatori per produrre programmi

MANUALE UTENTE. In questo manuale verranno descritte tutte le sue funzioni. Il sistema OTRS è raggiungibile al seguente link:

Spazio Commerciale. Le tue vendite, il nostro successo. Manuale Operativo. Guida inserimento articoli tramite Area di amministrazione.

EXPLOit Content Management Data Base per documenti SGML/XML

CONTENUTI 1. INTRODUZIONE CONCETTI BASICI SU EQUINOX CMS XPRESS ACCESSO A EQUINOX CMS XPRESS PAGINA D INIZIO...

Cosa è un foglio elettronico

Sistema Informativo Territoriale (SIT)

SOFTWARE PER LA RILEVAZIONE DEI TEMPI PER CENTRI DI COSTO

BASE DI DATI: introduzione. Informatica 5BSA Febbraio 2015

Strutturazione logica dei dati: i file

La Metodologia adottata nel Corso

Guida all'utente. Sommario. Sistema Help Desk di Ateneo. Guida all'utente.

Impostare il browser per navigare in sicurezza Opzioni di protezione

uadro Soluzioni software per L archiviazione elettronica dei documenti Gestione Aziendale Fa quadrato attorno alla tua azienda

Telerilevamento e GIS Prof. Ing. Giuseppe Mussumeci

Acronis License Server. Manuale utente

Banca dati Professioniste in rete per le P.A. Guida all uso per le Professioniste

CORSO ACCESS PARTE II. Esistono diversi tipi di aiuto forniti con Access, generalmente accessibili tramite la barra dei menu (?)

I cookie sono classificati in base alla durata e al sito che li ha impostati.

GUIDA UTENTE PRIMA NOTA SEMPLICE

Internet. Internet. Internet Servizi e Protocolli applicativi. Internet. Organizzazione distribuita

Brochure Internet. Versione The Keyrules Company s.r.l. Pagina 2 di 8

Archivi e database. Prof. Michele Batocchi A.S. 2013/2014

Registratori di Cassa

BASI DI DATI per la gestione dell informazione. Angelo Chianese Vincenzo Moscato Antonio Picariello Lucio Sansone

Lezione 8. Motori di Ricerca

Manuale Utente Amministrazione Trasparente GA

Progettaz. e sviluppo Data Base

Introduzione alle basi di dati. Gestione delle informazioni. Gestione delle informazioni. Sistema informatico

Base di dati e sistemi informativi

Progetto: ARPA Fonte Dati. ARPA Fonte Dati. Regione Toscana. Manuale Amministratore

2 Gli elementi del sistema di Gestione dei Flussi di Utenza

(A) CONOSCENZA TERMINOLOGICA (B) CONOSCENZA E COMPETENZA (C) ESERCIZI DI COMPRENSIONE

Web Application Libro Firme Autorizzate

Agenda telematica delle manifestazioni pubbliche

. A primi passi con microsoft a.ccepss SommarIo: i S 1. aprire e chiudere microsoft access Start (o avvio) l i b tutti i pro- grammi

Titolare del trattamento dei dati innanzi descritto è tsnpalombara.it

Sistema operativo. Sommario. Sistema operativo...1 Browser...1. Convenzioni adottate

Lo scenario: la definizione di Internet

Approfondimento: Migrazione dei database e backup della posta

Protocollo di tracciamento e valutazione degli studenti dei corsi di italiano ICoNLingua A.A

Manuale d'uso. Manuale d'uso Primo utilizzo Generale Gestione conti Indici di fatturazione Aliquote...

Mac Application Manager 1.3 (SOLO PER TIGER)

sito web sito Internet

GRUPPO CAMBIELLI. Posta elettronica (Webmail) Consigli di utilizzo

Transcript:

Interfacce Web per Database bibliograci: il sistema di informazioni scientiche del CERN Autore: Federica Brugnolo 6 novembre 1997

ii

Ai miei genitori iii

iv

Indice 1 Introduzione 3 2 I sistemi di informazioni 9 2.1 Alcune considerazioni di base................ 9 2.2 Il recupero delle informazioni................ 11 2.3 Criteri di ricerca nel WWW................. 13 2.4 Diversi modelli di server WWW............... 15 2.4.1 Problematiche generali................ 17 2.4.2 Multi-Server Indipendenti.............. 17 2.4.3 Server Centrale Accessibile Genericamente..... 20 2.4.4 Server con Sottomissione............... 23 3 Il CERN, architettura preesistente 29 3.1 Il servizio di informazione scientica............. 30 3.2 ALICE............................. 31 3.2.1 Opac.......................... 33 3.2.2 Web server...................... 33 3.2.3 Il database Aleph................... 34 3.3 Preprint Server........................ 39 3.3.1 Il modulo di acquisizione dati............ 40 3.4 Altri sistemi di informazioni................. 46 3.5 Svantaggi........................... 48 4 Proposte: gestione ed interfaccia Web 51 4.1 Architettura proposta..................... 51 v

vi INDICE 4.2 Speciche del sistema..................... 54 4.2.1 L'interfaccia Web................... 54 4.2.2 L'interfaccia online.................. 56 4.2.3 Il modulo di acquisizione dei preprint........ 56 4.3 Scelte di implementazione.................. 56 4.3.1 Soluzioni proposte.................. 57 4.4 Migrazione del Preprint Server................ 58 4.4.1 Esigenze degli utenti................. 58 4.4.2 Migrazione delle informazioni............ 59 5 Architettura sviluppata 63 5.1 Descrizione dell'architettura................. 63 5.1.1 Requisiti considerati................. 64 5.1.2 Le funzioni API.................... 66 5.1.3 Restrizioni....................... 68 5.2 L'interfaccia graca...................... 69 5.3 Restrizioni dello screen design................ 75 5.4 Le interfacce Web-Lib 0, Web-Lib 1.1 e Web-Lib 1.2... 76 6 I riferimenti bibliograci 83 6.1 I database di riferimenti bibliograci............ 83 6.2 Situazione preesistente.................... 85 6.3 Esigenze............................ 86 6.4 Possibili soluzioni....................... 88 6.4.1 Mantenere i riferimenti bibliograci nel Preprint Server......................... 88 6.4.2 Creare un nuovo campo nei record di ALICE.... 89 6.4.3 Creare una nuova biblioteca globale in ALICE... 90 6.5 Architettura sviluppata.................... 92 6.5.1 Acquisizione dati................... 95 6.5.2 Riviste online..................... 97 6.6 Analisi nali.......................... 98 7 Una Biblioteca Personale 99 7.1 Servizi oerti......................... 99

INDICE vii 7.2 Personal Shelf......................... 102 7.2.1 Identicatore dell'utente............... 103 7.2.2 Identicatore di documenti.............. 105 7.2.3 Memorizzazione dei Personal Shelf......... 107 7.2.4 Funzioni sviluppate.................. 108 7.3 Report Generator....................... 110 7.4 Cross-set searching...................... 111 7.5 Vita della Biblioteca Personale................ 115 7.6 Sicurezza............................ 115 7.7 Prole............................. 115 7.8 Possibile sviluppo....................... 116 7.9 Analisi nali.......................... 124 8 Conclusioni 133

viii INDICE

Elenco delle gure 2.1 Strategia di ricerca...................... 14 2.2 Multi-Server Indipendenti.................. 18 2.3 Server Centrale Accessibile Genericamente......... 20 2.4 Server con Sottomissione................... 24 2.5 Memorizzazione delle informazioni bibliograche...... 25 3.1 Interfacce in ALICE..................... 32 3.2 Struttura di Aleph...................... 35 3.3 Struttura di ALICE...................... 36 3.4 Access le in Aleph...................... 39 3.5 Preprint Server: i tre input.................. 42 3.6 Preprint Server: diagramma di usso dei Preprint del CERN 43 3.7 Preprint Server: diagramma di usso degli E-print..... 44 3.8 Preprint Server: diagramma di usso dei documenti digitalizzati............................ 45 3.9 Situazione corrente...................... 47 4.1 Un'architettura centralizzata................. 52 4.2 Schema dell'intera architettura................ 55 4.3 Preprint Server: nuovo usso di informazioni........ 61 5.1 Architettura sviluppata.................... 64 5.2 Esempio di utilizzo delle funzioni API............ 66 5.3 Flessibilita dei moduli di supporto alle API......... 67 5.4 Un semplice programma utente che utilizza le API..... 68 5.5 Architettura delle API.................... 69 5.6 Esempio di schermata del CERN Library Catalogue.... 71 ix

x ELENCO DELLE FIGURE 5.7 Principali caratteristiche di Web-Lib Catalogue (I)..... 72 5.8 Principali caratteristiche di Web-Lib Catalogue (II).... 73 5.9 Principali caratteristiche di Web-Lib Catalogue (III).... 74 6.1 I riferimenti bibliograci in ALICE e nel Preprint Server. 87 6.2 Prima soluzione: riferimenti bibliograci nel Preprint Server 88 6.3 Seconda soluzione: riferimenti bibliograci nei record di ALICE............................. 90 6.4 Terza soluzione: creare una nuova biblioteca globale.... 91 6.5 Nuova struttura di ALICE.................. 93 6.6 Diagramma di usso per i riferimenti bibliograci dei preprint.............................. 96 7.1 Architettura complessiva diweb-lib............ 101 7.2 Struttura del le system di Web-Lib............. 102 7.3 Proxy Server.......................... 104 7.4 Diagramma di usso della funzione Reload Personal Shelf. 106 7.5 Struttura del le system dei Personal Shelf......... 108 7.6 Algoritmo di scelta per il formato ridotto.......... 112 7.7 L'architettura di interfaccia per i servizi Personal Shelf e Report Generator Conguration............... 113 7.8 Modello di dati della Biblioteca Personale......... 118 7.9 Modello di dati della Biblioteca Personale: progetto di sviluppo............................ 119 7.10 Nuovo diagramma di usso della Biblioteca Personale: possibile sviluppo......................... 125 7.11 Nuovo diagramma di usso dell'archivio dei documenti.. 126 7.12 Nuovo diagramma di usso dell'archivio delle Interrogazioni126 7.13 Nuovo diagramma di usso dell'archivio dei formati di output............................. 127 7.14 Nuovo diagramma di usso dell'archivio delle URL.... 128 7.15 Nuovo diagramma di usso dell'archivio dei Prole Query. 129

Elenco delle tabelle 3.1 Congurazione di Aleph................... 32 3.2 Congurazione del Preprint Server............. 40 3.3 Opac: caratteristiche..................... 48 3.4 Interfaccia Web: caratteristiche............... 49 3.5 Preprint Server: svantaggi.................. 49 3.6 Servizio di informazioni scientiche: svantaggi....... 49 4.1 Vantaggi di un'architettura centralizzata.......... 54 5.1 Funzioni sviluppate nel modulo aleph query......... 77 5.2 Funzioni sviluppate nel modulo aleph update........ 77 5.3 Funzioni sviluppate nel modulo aleph format........ 78 5.4 API di ricerca......................... 79 5.5 API di aggiornamento.................... 80 5.6 API servizi.......................... 80 5.7 Speciche dell'interfaccia Web-Lib 0............. 81 5.8 Speciche aggiuntive dell'interfaccia Web-Lib 1.1..... 81 5.9 Speciche aggiuntive dell'interfaccia Web-Lib 1.2..... 82 6.1 Soluzioni proposte per i riferimenti bibliograci...... 92 6.2 Campi dei record nel database CITCIT........... 92 6.3 Esempio di record del database CITCIT.......... 94 7.1 Campi visualizzabili con il Report Generator Conguration 111 7.2 Statistiche del CERN Library Catalogue........ 131 7.3 Statistiche della Biblioteca Personale.......... 131 xi

xii ELENCO DELLE TABELLE

Sommario Un sistema di gestione delle informazioni scientiche e caratterizzato dalla grande quantita dei dati collezionati e dalla loro eterogeneita. La gestione e l'accesso ad informazioni di questo tipo, basati sulla tecnologia Word Wide Web, richiedono delle conoscenze speciche sul modo in cui i dati possono essere raccolti e distribuiti nella rete. E stato analizzato un sistema di gestione delle informazioni scientiche (documenti e riferimenti bibliograci). Si e partecipato alla riorganizzazione dell'intera architettura e allo sviluppo di un'interfaccia Web per database bibliogra- ci. E stato inoltre progettato e realizzato un servizio di Biblioteca Personale, intesa come insieme di servizi orientati ai singoli utenti. Il lavoro e stato eettuato all'interno del Centro Europeo per la Fisica delle Particelle, il CERN. 1

2 ELENCO DELLE TABELLE

Capitolo 1 Introduzione Negli ultimi anni le biblioteche ed in generale i sistemi che raccolgono informazioni, hanno subito una notevole evoluzione. La quantita e la diversita dei dati sono cresciute considerevolmente, i documenti cartacei sono stati rimpiazzati da le elettronici e le informazioni vengono scambiate sempre piu frequentemente via rete. Il computer ed i database bibliograci sono ormai diventati gli strumenti principali per bibliotecari ed utenti delle biblioteche. Lo sviluppo e la gestione di un sistema di informazioni all'interno di una grande organizzazione, basati su un eciente utilizzo del Word Wide Web, richiedono delle conoscenze speciche del modo in cui i dati possono essere raccolti e distribuiti nella rete. I dati infatti possono essere memorizzati in sistemi distribuiti o in sistemi centralizzati: la scelta dipende dal tipo di informazione collezionata e dalle esigenze degli utilizzatori. Anche al CERN il sistema di informazione scientica ha subito negli ultimi anni una grande evoluzione. L'esigenza principale dei ricercatori di questo laboratorio consiste in un rapido accesso alle informazioni scienti- che. Per questo motivo la velocita di risposta e sempre stata privilegiata rispetto alla coerenza dell'architettura globale del sistema. Oggi pero i cambiamenti subiti nell'organizzazione hanno acquistato nuovamente sta- 3

4 CAPITOLO 1. INTRODUZIONE bilita. Per questo motivo nell'ultimo anno il sistema di amministrazione delle informazioni scientiche del CERN e stato completamente riorganizzato. I dati trattati dal servizio di informazione scientica del CERN sono molto eterogenei e quindi la loro gestione e piuttosto complessa. Al CERN, prima che l'intera architettura venisse riorganizzata, esistevano due grandi sistemi per la raccolta e la distribuzione delle informazioni: il database bibliograco ALICE il Preprint Server. In ALICE sono tuttora raccolte le informazioni bibliograche dei documenti trattati dal servizio di informazione scientica ed in particolare dal servizio bibliotecario del CERN. La natura di questi documenti e molto diversicata: libri, manuali, video tape, articoli, periodici, CD- ROM, fotograe, etc. Il Preprint Server invece e stato costruito per permettere l'accesso online alla versione elettronica dei preprint attraverso la rete Web. Attualmente infatti il formato elettronico dei preprint rimpiazza la versione cartacea. Il database ALICE era inoltre collegato ad altri sistemi Web che gestivano altri tipi di informazioni, come ad esempio le pagine Web dei Yellow Report, le pagine di richiesta dei prestiti bibliotecari, etc. L'interfaccia Web del database ALICE era basata sul prodotto commerciale Aleph, un software disegnato per lo sviluppo e l'organizzazione di biblioteche e centri di informazione. I principali svantaggi di questa interfaccia erano la scarsa essibilita nel disegnare il formato di output, la dicile gestione dell'ipertestualita e le limitate possibilita di ricerca. Il Preprint Server invece non era basato su alcun prodotto commerciale, il sistema era stato infatti costruito interamente al CERN.

5 Per questo motivo l'interfaccia graca rispettava completamente le esigenze degli utenti, ma non esistevano delle reali capacita di ricerca; il tempo di risposta era piuttosto lungo e venivano proposte principalmente delle liste di documenti. L'intera organizzazione presentava numerosi svantaggi; i dati, essendo distribuiti in sistemi diversi, non erano presentati in modo omogeneo ed erano dicilmente gestibili. Inoltre esisteva una grande ridondanza di informazioni, ad esempio le informazioni bibliograche dei preprint erano duplicate su entrambi i sistemi, ALICE e Preprint Server. Nella riorganizzazione del sistema si e quindi passati da un'architettura distribuita ad un'archittettura centralizzata, basata su un unico database centrale. Questa base di dati e l'unica entita contenente le informazioni; tutti i servizi secondari sono stati distribuiti attorno ad essa in entita periferiche. Ognuna di queste entita interagisce con il database centrale attraverso interfacce che eseguono accessi input/output online. In questo modo si e anche riusciti ad eliminare la ridondanza tra i vari sistemi esistenti: le informazioni bibliograche sono infatti mantenute solo nel server centrale. Il Preprint Server e stato trasformato in un server di documenti e l'interfaccia Web e stata costruita internamente al CERN, utilizzando le funzioni API che permettono l'interazione con il database. Esistevano diverse scelte per lo sviluppo di questo progetto. Si e deciso di mantenere tutte le informazioni bibliograche nel database ALICE e di adattarlo alle nuove esigenze. La presente tesi documenta il lavoro di progettazione e di implementazione sviluppato presso il CERN. Il lavoro svolto si suddivide in diverse parti. La prima e dedicata alla collaborazione al progetto di migrazione del Preprint Server verso il database ALICE ed allo lo sviluppo di una base di dati contenente le

6 CAPITOLO 1. INTRODUZIONE informazioni bibliograche dei preprint. Successivamente si e collaborato al progetto ed alla creazione della nuova interfaccia graca, scrivendo parte dei programmi che la generano. E stato inne sviluppato il progetto di una Biblioteca Personale, intesa come insieme di servizi orientati al singolo utente. Il servizio di Biblioteca Personale e caratterizzato da tre funzionalita principali: la memorizzazione di documenti la memorizzazione di un formato di output personale la memorizzazione delle ricerche eseguite. Di seguito e riportata l'organizzazione del presente lavoro. Capitolo 2: Sviluppo e gestione di grandi sistemi di informazioni In questo capitolo vengono analizzate le caratteristiche dei sistemi interfacciati nel World Wide Web. Viene introdotto il concetto di database bibliograco e vengono analizzati i problemi che caratterizzano i database word-oriented, problemi legati al recupero delle informazioni ed al disegno dell'interfaccia graca. Successivamente vengono analizzati diversi modelli di server WWW e vengono descritti i vantaggi e gli svantaggi dei modelli distribuiti e di quelli centralizzati. Capitolo 3: L'informazione scientica al CERN, architettura preesistente Questo capitolo e dedicato all'architettura preesistente al CERN. Vengono descritti in dettaglio il database ALICE ed il Preprint Server, la loro organizzazione e le informazioni trattate dal servizio di informazione scientica al CERN. Inoltre vengono evidenziate le esigenze che hanno portato alla riorganizzazione dell'intero sistema e alla creazione di una nuova interfaccia graca.

7 Capitolo 4: Proposte per una nuova gestione del sistema ed una nuova interfaccia Web Questo capitolo presenta una possibile soluzione per la gestione di tutte le informazioni scientiche al CERN. Viene proposta ad analizzata dapprima un'architettura centralizzata e poi, nel dettaglio, le speciche della nuova interfaccia Web. Sono inoltre trattate le diverse possibili scelte per la realizzazione di questo sistema e le esigenze che hanno portato all'ideazione del progetto nale. E descritto inne il progetto di migrazione del Preprint Server verso il database ALICE. Capitolo 5: Architettura sviluppata In questo capitolo viene analizzata l'architettura sviluppata per la creazione della nuova interfaccia graca del CERN Library Catalogue, il nuovo sistema per il servizio di informazione scientica al CERN. Viene spiegato come sono state utilizzate le funzioni API di Aleph e sono descritti i criteri di navigazione che sono stati considerati nel progetto della Graphical User Interface (GUI). Capitolo 6: Creazione di un database di riferimenti bibliograci Il progetto di migrazione dei riferimenti bibliograci dei preprint nel database centrale si inserisce all'interno dello sviluppo della nuova architettura. In questo capitolo vengono analizzate le diverse problematiche legate ai riferimenti bibliograci e le possibili scelte implementative; viene descritta inne la soluzione adottata. Capitolo 7: Creazione di una Biblioteca Personale In questo capitolo viene descritta la Biblioteca Personale realizzata nel CERN Library Catalogue. Vengono evidenziate le funzionalita dei servizi attualmente oerti agli utenti e successivamente viene eettuata un'analisi per valutare il suo possibile sviluppo.

8 CAPITOLO 1. INTRODUZIONE

Capitolo 2 Sviluppo e gestione di grandi sistemi di informazioni Un eciente utilizzo del World Wide Web all'interno di una grande organizzazione, lo sviluppo e la gestione di un sistema di informazioni, richiedono delle conoscenze speciche sul modo in cui i dati possono essere raccolti e distribuiti nella rete. In questo capitolo vengono analizzate le caratteristiche dei sistemi di informazioni interfacciati nel World Wide Web, sia dal punto di vista dell'interfaccia graca, sia dal lato organizzativo [23] [20]. 2.1 Alcune considerazioni di base Per meglio capire le principali caratteristiche e le problematiche legate ai database bibliograci, ed in generale alle biblioteche digitali, vediamo inizialmente come sono organizzate le biblioteche tradizionali. Nelle biblioteche tradizionali le informazioni sono organizzate in oggetti sici, come ad esempio i libri. Questi oggetti sici sono distribuiti in insiemi, in accordo con specici attributi, come gli autori, i soggetti, etc. 9

10 CAPITOLO 2. I SISTEMI DI INFORMAZIONI Le biblioteche tradizionali inoltre possiedono dei meccanismi, basati sugli attributi precedentemente deniti, che facilitano l'accesso agli oggetti sici. I cataloghi sono dei tipici esempi di questi meccanismi. Questi meccanismi implicano l'esistenza di informazioni sulle informazioni, i cosiddetti meta-dati. Nelle biblioteche digitali l'organizzazione delle informazioni in oggetti sici e rimpiazzata da una piu essibile organizzazione in oggetti logici. Inoltre l'organizzazione sica degli oggetti in insiemi unici e sostituita da una organizzazione logica in insiemi multipli. In pratica un oggetto logico puo appartenere a molteplici insiemi logici, mentre un oggetto sico puo appartenere ad un unico insieme sico. I meta-dati, nel contesto delle biblioteche digitali, sono informazioni che possiedono le seguenti caratteristiche: permettono una suddivisione dei singoli oggetti di informazione in insiemi all'interno della biblioteca, seguendo determinati criteri di organizzazione; sostituiscono i cataloghi presenti nelle biblioteche tradizionali; sono usate principalmente per agevolare l'accesso agli oggetti presenti nella biblioteca. Oggetti logici, insiemi logici e meta-dati costituiscono i cosiddetti database bibliograci. I database bibliograci sono un esempio di wordoriented database in quanto gli oggetti ed i meta-dati sono stringhe di caratteri. Un esempio di oggetto logico associato ad un libro potrebbe avere i seguenti attributi principali: Titolo

2.2. IL RECUPERO DELLE INFORMAZIONI 11 Autore e alcuni attributi ausiliari: Editore Data Soggetto Abstract 2.2 Il recupero delle informazioni La ricerca all'interno di un database normalmente comporta una interazione ed un dialogo con il sistema. L'utente deve sempre tradurre le proprie necessita in modo che possano essere riconosciute dal computer. Quando accede ad un database e perche desidera delle informazioni, se i dati che riceve non soddisfano le sue esigenze dovra fornire ulteriori speciche e ripetere la richiesta. Quindi l'obiettivo nale nella disciplina per il recupero delle informazioni consiste nel dare la possibilita di formulare richieste in un linguaggio naturale ed avere come risposta dal sistema un insieme di documenti che potenzialmente soddisfano tale richiesta. L'operazione di ricerca richiede quindi una strategia, sia da parte dei progettisti del sistema, sia da parte degli utenti che lo utilizzano [18] [19]. Un utente deve: formulare chiaramente la sua richiesta: deve essere in grado di esprimere esattamente quello di cui ha bisogno, quindi identicare chiaramente le sue esigenze; scegliere delle buone chiavi di ricerca e trovare dei sinonimi: una volta chiarito quello di cui ha bisogno, deve selezionare una o piu parole chiave che descrivono la richiesta, in generale per grandi sistemi di informazione i termini piu specici sono quelli piu utili;

12 CAPITOLO 2. I SISTEMI DI INFORMAZIONI pensare in modo critico: quando si possiedono i risultati e molto utile valutarli in modo critico per vericare se corrispondono esattamente alle esigenze iniziali; se questo non accade bisogna riformulare la richiesta; organizzare un bookmark personale di ricerca: in cui mantenere traccia delle interrogazioni eettuate e dei risultati ottenuti. Ci sono molti fattori che caratterizzano una ricerca: operatori booleani: sono operatori logici che esprimono speciche relazioni tra le parole chiave; i piu utilizzati sono AND, OR, NOT and NEAR 1 ; ordinamento dei documenti in risposta: nei sistemi che forniscono un intervallo di output molto elevato il criterio di ordinamento dei documenti in risposta e essenziale. Se la risposta e composta da un numero elevato di documenti, diviene impossibile visualizzarli contemporaneamente, quindi essi devono essere presentati in ordine di rilevanza. Sistemi diversi utilizzano algoritmi di ordinamento diversi, quindi uno dei maggiori criteri per valutare le prestazioni di una ricerca consiste nell'analizzare l'ordine dei documenti; troncamento: il troncamento permette di considerare in una ricerca anche i documenti in cui la parola chiave e modicata. Ad esempio, se la chiave di ricerca e computer, nella risposta verranno abbinati tutti i documenti contenenti termini come computers o computerization, in cui la parola chiave contiene dei caratteri addizionali, o come computation, in cui viene considerata solamente la radice della parola chiave; precisione e recupero: la precisione garantisce che tutti i documenti ritrovati in seguito ad una ricerca siano rilevanti; il recupero invece permette di considerare come risposta i documenti attinenti alla richiesta. In generale se si attua un grande recupero, cioe 1 operatore di vicinanza: nella risposta sono abbinati i documenti che possiedono le chiavi di ricerca vicine nella frase

2.3. CRITERI DI RICERCA NEL WWW 13 si visualizzano molti documenti in risposta, allora la precisione diminuisce, poiche nell'universo dei documenti ritrovati esisteranno sicuramente dati poco rilevanti. Una soluzione consiste nel compiere un grande recupero, cercando pero di visualizzare i documenti piu rilevanti per primi, quindi utilizzare un buon algoritmo di ordinamento. Le opzioni fornite nella ricerca hanno una notevole importanza. Ricercare infatti e un processo iterativo. Se formulando la richiesta non si ottengono i risultati desiderati, e necessario modicare l'interrogazione, aggiungendo o sottraendo parole chiave, usando gli operatori booleani o trovando dei sinonimi da utilizzare come chiavi di ricerca, vedi la gura 2.1 [22]. 2.3 Criteri di ricerca nel WWW Ci sono un gran numero di strumenti per lo sviluppo e la gestione di sistemi di informazioni. E quindi importante identicare il tipo di servizi che si vogliono fornire agli utenti e valutare quali tra questi sistemi li supportano nel modo migliore. Il World Wide Web, unito a browser come Netscape e Mosaic, ha rapidamente trasformato il concetti di user friendly in Internet. Il potere del WWW 2 non consiste solamente nelle pagine HTML 3 statiche ma nella possibilita di supportare queste pagine con del software adatto. E fondamentale lo scambio di informazioni tra il server del database e il client WWW attraverso gli script CGI 4. Le principali funzioni di tali programmi sono: 1. ricevere informazioni dal client WWW attraverso il protocollo HT- TP 5 ; 2 World Wide Web 3 HyperText Markup Language 4 Common Gateway Interface 5 HyperText Transfer Protocol

14 CAPITOLO 2. I SISTEMI DI INFORMAZIONI RICHIESTA VALUTAZIONE RISULTATO PRIMO PASSO DELLA RICERCA INSIEME 1 RICHIESTA VALUTAZIONE RISULTATO SECONDO PASSO INSIEME 2 [...] RICHIESTA VALUTAZIONE ENNESIMO PASSO INSIEME FINALE Figura 2.1: Strategia di ricerca

2.4. DIVERSI MODELLI DI SERVER WWW 15 2. formulare una richiesta al server del database; 3. fare un parsing dei risultati del database; 4. generare un documento HTML on the y 6 e spedirlo al client WWW. Attraverso questi programmi si deniscono i criteri di ricerca proposti agli utenti e anche l'interfaccia di output. I possibili criteri utilizzati per recuperare un documento sono: navigare attraverso link ipertestuali La navigazione puo essere sviluppata in accordo con le date, gli istituti e le diverse categorie di informazioni scientiche presenti nel database. Lo scopo consiste nel ridurre il campo di ricerca ad ogni selezione di un link sulla nestra, proponendo agli utenti dei criteri di navigazione corretti. cercare attraverso le parole chiave La ricerca deve essere eseguita solamente nelle informazioni bibliograche. Sono possibili vari tipi di ricerca, utilizzando le opzioni descritte nel paragrafo 2.2. ricercare un documento seguendo un criterio specico Deve essere possibile la selezione dei documenti appartenenti a specici insiemi, ad esempio ricercando la prima parola di un titolo, il nome degli autori o qualsiasi altro campo indicizzato del database. 2.4 Diversi modelli di server WWW In questo paragrafo verranno analizzati dierenti modelli di server WWW, da quelli distribuiti a quelli centralizzati, prendendo in considerazione le caratteristiche legate a ciascuna architettura [15]. 6 Una pagina HTML e creata on the y se il formato di output, in linguaggio HTML, viene generato al momento della richiesta da uno specico programma

16 CAPITOLO 2. I SISTEMI DI INFORMAZIONI Tenendo presente che questa suddivisione e puramente teorica, e in realta i diversi modelli descritti spesso coesistono nella stessa organizzazione, possiamo suddividere i server WWW nelle seguenti categorie principali: 1. STRUTTURE DISTRIBUITE: Multi-Server Indipendenti L'informazione e diusa in diversi server WWW, senza il supporto organizzativo di un servizio centrale. La liberta dei provider 7 nella gestione di questi server indipendenti e assoluta. Multi-Server Coordinati Nella stessa organizzazione esistono diversi server e la responsabilita della distribuzione delle informazioni e suddivisa tra loro. Un provider puo costruire il suo server e passare attraverso il servizio di coordinazione per aiuto, istruzioni e approvazioni. 2. STRUTTURE CENTRALIZZATE: Server Centrale Accessibile Genericamente Tutte le informazioni sono distribuite da un unico server WWW. Tutti i provider possono accedere direttamente ai loro documenti sul server, modicarli, rimuoverli o crearne di nuovi. Server con Sottomissione Le informazioni sono raccolte in un server ma i provider non hanno accesso diretto. Sono disponibili diversi strumenti di sottomissione dei dati per trasferire le informazioni dai provider al server WWW. Server Centralizzato Controllato Un unico server e utilizzato per l'intera organizzazione delle infor- 7 fornitori di servizi

2.4. DIVERSI MODELLI DI SERVER WWW 17 mazioni ed e sotto il completo controllo di un servizio specializzato, incaricato a collezionare, curare e strutturare le informazioni raccolte. 2.4.1 Problematiche generali Qualsiasi grande organizzazione deve occuparsi della grande varieta di sorgenti e dei diversi tipi di informazioni. In generale nella stessa organizzazione esistono diversi gruppi e sezioni che vogliono rendere pubbliche le informazioni relative alla loro attivita. I principali problemi da arontare sono: memorizzare le informazioni nel server Web; orire uno stile omogeneo per tutti i documenti; rendere le URL 8 consistenti e persistenti; garantire una corretta sintassi HTML; convertire i dati; fornire una facile navigazione all'interno delle informazioni; garantire la riservatezza di alcuni tipi di informazioni. Analizziamo ora come alcune strutture descritte precedentemente sono in grado di gestire tali problematiche. 2.4.2 Multi-Server Indipendenti In questa architettura, evidenziata in gura 2.2, i provider hanno un duplice compito: devono organizzare la distribuzione dell'informazione e hanno la responsabilita del funzionamento del server WWW e dei processi ad esso associati (webmaster). Ogni provider deve: 8 Unique Resource Locators

18 CAPITOLO 2. I SISTEMI DI INFORMAZIONI WWW client WWW server WWW server WWW client WWW server WWW server ORGANIZZAZIONE Figura 2.2: Multi-Server Indipendenti creare, aggiornare, convertire e strutturare i documenti Web; organizzare il software legato al server WWW: sceglierlo, svilupparlo, installarlo, amministrarlo ed aggiornarlo; organizzare il software legato ad altri servizi come gli script CGI, le statistiche, il motore di ricerca, etc. Punto di vista dei provider Il primo grande vantaggio legato a questo modello e la liberta del provider di scegliere l'hardware, il software, l'organizzazione dei dati e il loro formato. Inoltre il provider puo selezionare i piu appropriati strumenti per servire le informazioni. In caso di malfunzionamenti hardware non si creano dipendenze negli altri server WWW. Il principale svantaggio invece e legato al fatto che ogni provider deve diventare anche un webmaster.

2.4. DIVERSI MODELLI DI SERVER WWW 19 Oltre a questo ci possono essere informazioni duplicate fra i vari server WWW. Anche se ogni servizio descrive unicamente la sua attivita, spesso c'e ridondanza nelle denizioni globali, nei documenti di aiuto. La ridondanza inoltre puo comportare anche inconsistenza nei dati. Punto di vista dell'utente Il vantaggio principale legato all'utente consiste nell'avere diverse URL a cui accedere. Questo e molto utile in quanto non si incontrano problemi legati a sovraccarico o malfunzionamento del server principale. La velocita di risposta e sicuramente piu alta se le richieste sono distribuite in server multipli. Gli svantaggi invece sono legati alla non omogeneita delle informazioni presentate. La navigazione all'interno dei dati non e semplice proprio per la liberta di organizzazione lasciata ai provider. La gestione dei link tra le varie sezioni diviene complessa e talvolta tali legami possono essere non persistenti. La ricerca all'interno dell'intera organizzazione diviene dicile da gestire, non e facile avere degli strumenti di ricerca che coprano tutti i server, data la loro completa indipendenza. E complesso orire uno stile omogeneo nella presentazione delle pagine delle diverse sezioni. Punto di vista dell'amministrazione Dal punto di vista dell'amministrazione invece esiste un grande vantaggio: ogni sezione e responsabile solamente della distribuzione delle proprie informazioni e non dipende da un servizio centrale. Pero avere server multipli non e conveniente in termini di risorse.

20 CAPITOLO 2. I SISTEMI DI INFORMAZIONI WWW client WWW server provider WWW client info provider ORGANIZZAZIONE Figura 2.3: Server Centrale Accessibile Genericamente 2.4.3 Server Centrale Accessibile Genericamente In questa congurazione esiste un Server Centrale in cui i provider possono creare, aggiornare e rimuovere i loro documenti, se hanno il diritto di accedervi. Non ci sono delle procedure speciali da seguire: la stesura dei documenti, la conversione dei formati e la gestione dei link tra i documenti sono sotto la responsabilita dei provider. A seconda della politica attuata ci possono essere diverse procedure iniziali per poter diventare un provider ma, una volta che un provider e stato approvato, normalmente non c'e bisogno di controllare l'informazione memorizzata nel server WWW. Questo modello e evidenziato in gura 2.3. Sicurezza Un server centrale e condiviso da molti provider che non necessariamente vogliono condividere tutte le loro informazioni. Molti server WWW forniscono dei meccanismi di protezione a client con un certo indirizzo IP 9, o ad utenti remoti che forniscono una password corretta. Se un provider vuole proteggere le informazioni dagli utenti WWW, 9 Internet Protocol

2.4. DIVERSI MODELLI DI SERVER WWW 21 probabilmente vuole proteggerle in lettura anche dagli utenti locali che condividono lo stesso server. In un Server Centrale Accessibile Genericamente i provider sono normalmente divisi in gruppi di utenti che condividono parte del le system del server WWW. Quindi normalmente un gruppo ha accesso in lettura e scrittura in quell'albero. Possono quindi essere utilizzati dei meccanismi di protezione legati ai singoli gruppi. Punto di vista dei provider In questo modello e molto importante proporre ai provider un metodo user friendly per inserire le informazioni nel server WWW. Una tecnica consiste nell'accesso diretto al server. E la tecnica piu semplice. Ogni provider si collega direttamente al server, utilizzando una login e una password precedentemente assegnate, e l crea documenti HTML, script CGI, compila e prova programmi. In questo modo non e necessario sviluppare del software specico da installare nel server: dal punto di vista amministrativo ogni provider ha bisogno solamente di un account. Lo svantaggio di questo metodo consiste nella sicurezza. L'adabilita del server dipende dal lavoro dei provider, che possono sovraccaricare il server con i loro processi o causare malfunzionamenti. Questa tecnica richiede che i provider siano familiari con il sistema operativo del server. Per ovviare a questo problema i provider potrebbero lavorare nelle loro piattaforme locali e prepararvi documenti e programmi. I le potrebbero essere trasferiti nel server solo una volta ultimati, tramite ftp 10. Questa e una soluzione facile da attuare. Risulta pero dicile controllare il buon funzionamento dei programmi sviluppati. Per facilitare il lavoro dei provider si possono creare degli strumenti che agevolano la lettura, la scrittura e la memorizzazione dei le nel ser- 10 File Transfer Protocol

22 CAPITOLO 2. I SISTEMI DI INFORMAZIONI ver Web. In questo modello e facile diventare dei provider anche se non si hanno delle conoscenze speciche nell'amministrazione di un server WWW. I provider infatti devono solo scrivere i documenti ed eventualmente cambiarne il formato, ma tutta la gestione e lasciata a personale specializzato. Punto di vista dell'utente In ogni server WWW e importante avere diverse modalita di accesso alle informazioni, le principali sono la navigazione e la ricerca. Queste modalita di accesso possono essere implementate utilizzando un motore di ricerca basato su degli indici di ricerca, in modo da permettere all'utente di trovare i puntatori ai documenti contenenti le informazioni desiderate. L'utilizzo di un server centrale agevola il controllo su tutte le informazioni. Esiste infatti uno schema generale nella struttura e nella organizzazione dei documenti. In questo modo la ricerca e piu semplice da implementare rispetto ai sistemi distribuiti ed e completa in quanto copre tutti i dati dell'organizzazione. E possibile sviluppare sia ricerca a testo libero sia ricerca per campi specici. Quest'ultima pero e piu dif- cile da gestire poiche i provider possono utilizzare formati diversi nella memorizzazione dei documenti. Punto di vista dell'amministrazione Un server centrale elimina la ridondanza delle informazioni, diminuisce gli sforzi legati alle installazioni e al mantenimento del software WWW. Servizi come il controllo delle informazioni, lo sviluppo ed il mantenimento del server http, la creazione del software legato agli indici di ricerca e la creazione di alcuni script CGI, sono infatti gestiti da un servizio centrale.

2.4. DIVERSI MODELLI DI SERVER WWW 23 Per gli utenti e piu facile la navigazione in questo modello rispetto a quello distribuito. Infatti esiste uno schema generale nella struttura e nell'organizzazione dei documenti. Inoltre la ricerca copre tutte le informazioni dell'organizzazione. E possibile avere dei ltri sulle informazioni rese pubbliche. Non e comunque possibile vericare il contenuto di tutte le informazioni pubbliche ma ci si deve adare a provider dati. Pero si possono attuare dei controlli per evitare ridondanza e scrittura di false informazioni. Bisogna organizzare gli account e il software legato al servizio dei provider. La stesura dei documenti e adata a molteplici provider, percio risulta comunque dicile orire uno stile uniforme a tutta l'informazione. Altri problemi che si possono incontrare se si ha un grande numero di provider sono la consistenza dei link e la correttezza della sintassi HTML. 2.4.4 Server con Sottomissione Il Server con Sottomissione dei documenti si basa su un modello centralizzato che non autorizza i provider ad un accesso diretto al server. Opera come un editore: i provider sottomettono le informazioni attraverso il Web, utilizzando una HTML form 11 (vedi g. 2.4). La peculiarita di questo server e l'esistenza di informazioni bibliograche legate ai documenti. Cio signica che ad ogni documento sono associati dei meta-dati, come il titolo, gli autori, la data di sottomissione. L'indirizzo e-mail puo essere utilizzato come chiave di controllo. Un corretto indirizzo e-mail potrebbe essere obbligatorio per permettere 11 servizio che permette all'utente di spedire informazioni ad un server Web, utilizzando delle pagine HTML

24 CAPITOLO 2. I SISTEMI DI INFORMAZIONI WWW server WWW client WWW client info INFO PROCESSI info info info WWW client WWW client ORGANIZZAZIONE WWW client Figura 2.4: Server con Sottomissione la sottomissione dei documenti. Questo tipo di server e particolarmente adatto a provider che non devono aggiornare le informazioni regolarmente. Memorizzazione delle informazioni bibliograche Invece di creare delle pagine HTML, le informazioni bibliograche possono essere memorizzate in un database da cui le pagine HTML possono essere generate. I vantaggi di questa politica sono molteplici. Un database permette delle migliori prestazioni nella memorizzazione delle informazioni, nella creazione degli indici di ricerca, nell'adabilita delle informazioni e nella velocita di ricerca. La creazione delle pagine HTML puo essere fatta on the y a partire dalle informazioni memorizzate nel database, o si puo creare un programma che regolarmente crei le pagine HTML. La scelta dipende molto dalla velocita di recupero delle informazioni dal database, dal numero di accessi per pagina e da quanto frequentemente queste pagine sono modicate.

2.4. DIVERSI MODELLI DI SERVER WWW 25 INFORMAZIONI BIBLIOGRAFICHE - titolo - autori Tabella dei titoli - data -numero di pagine [...] Tabella degli autori record HTML Client WWW DOCUMENTO - nome del documento - posizione - formato Tabella dei link Figura 2.5: Memorizzazione delle informazioni bibliograche Qualsiasi sia il database scelto, e essenziale che i meta-dati siano associati all'url del documento reale. Dato che i documenti possono essere in diversi formati, si possono avere molteplici link associati allo stesso documento presentato in formati diversi (vedi 2.5). Se possibile le conversioni tra i vari formati devono essere fatte on the y. In questo modo non e necessario mantenere molte versioni dello stesso documento e si puo risparmiare memoria. Punto di vista dei provider E facile diventare un provider. Non sono necessarie conoscenze speciche del sistema. Esiste pero anche un grande svantaggio legato alla poca essibilita del sistema: i provider non hanno accesso diretto alle informazioni una volta che queste sono state rese pubbliche nel server WWW. L'aggiornamento dei dati e molto piu complesso rispetto ai modelli precedentemente descritti. Punto di vista dell'utente

26 CAPITOLO 2. I SISTEMI DI INFORMAZIONI L'utilizzo del sistema di informazione e molto facilitato: la ricerca e la navigazione sono semplici in quanto esiste un sistema con una struttura specica. Lo stile delle pagine Web e uniforme poiche esse sono create da un unico servizio centralizzato. L'esistenza dei meta-dati permette delle ricerche piu speciche: i titoli, gli autori, gli abstract sono tutti possibili campi di ricerca. Puo essere progettata una form di ricerca che dipende dalla natura delle informazioni bibliograche. In questo modo la ricerca puo anche non essere eseguita sul testo di tutti i documenti. Informazioni ben strutturate permettono di orire una navigazione semplice all'interno del database. Per un singolo documento possono essere proposti formati multipli, cos un utente puo sempre trovare un formato adeguato per la sua piattaforma. Utilizzando le informazioni bibliograche contenute nel database puo essere creato un servizio di prole. Tale servizio, in accordo con le preferenze degli utenti, spedisce loro delle e-mail avvisandoli quando nuove informazioni sono inserite nel server. Punto di vista dell'amministrazione Questo modello permette la concentrazione degli sforzi di installazione e manutenzione del software. In termini di sicurezza non si rischiano malfunzionamenti dovuti al cattivo utilizzo del server da parte dei provider. Se il modulo di sottoscrizione e ben congurato l'aggiornamento del server e sotto il completo controllo del servizio centrale.

2.4. DIVERSI MODELLI DI SERVER WWW 27 Inne se il processo di conversione dei dati non e eseguito automaticamente, il mantenimento dei documenti puo risultare dicile da gestire. Inoltre non tutte le conversioni possono essere fatte in modo automatico, in alcuni casi alcuni documenti non possono essere visualizzati in formati simili agli altri.

28 CAPITOLO 2. I SISTEMI DI INFORMAZIONI

Capitolo 3 L'informazione scientica al CERN, architettura preesistente La biblioteca del CERN 1 ha subito negli ultimi anni una grande evoluzione. L'esigenza principale degli scienziati di questo laboratorio di ricerca consiste in un rapido accesso alle informazioni scientiche. Per questo motivo la velocita di risposta e sempre stata privilegiata rispetto alla coerenza dell'architettura globale del sistema. Oggi pero i cambiamenti subiti nell'organizzazione stanno acquistando nuovamente stabilita. E stato quindi riorganizzato completamente il sistema di amministrazione delle informazioni scientiche al CERN, la cui gestione computerizzata e il risultato di una grande evoluzione. In questo capitolo viene descritta l'architettura preesistente al CERN e vengono analizzati i principali svantaggi che la caratterizzano. Vengono inoltre descritte le esigenze che sono state considerate nella riorganizzazione dell'intero sistema. 1 European Laboratory for Particle Physics di Ginevra, in Svizzera 29

30 CAPITOLO 3. IL CERN, ARCHITETTURA PREESISTENTE 3.1 Il servizio di informazione scientica Tutti i dati trattati dal servizio di informazione scientica al CERN sono divisi in insiemi, in accordo con la loro natura [25]. La lista completa e: Preprint; Riferimenti bibliograci degli articoli elettronici; Yellow report: raccolta dei principali documenti prodotti al CERN, suddivisi in specici campi di ricerca; Annual report: lista annuale di tutti gli articoli pubblicati prodotti al CERN; tali liste sono ordinate alfabeticamente per titolo e per autore; Libri; Periodici; CD-ROM; Video Tape; Prestiti bibliotecari; Tesi di laurea e di dottorato; Conferenze; Manuali; Enciclopedie, dizionari; Press Cutting: articoli che trattano del CERN, pubblicati in riviste specializzate; Documenti interni: note interne al CERN;

3.2. ALICE 31 Abstract; Archivi: documenti legati al CERN, presenti in vario formato (per es. documenti scritti, video tape, fotograe, lm); Elenchi di istituti HEP 2 : informazioni su alcuni Istituti di Fisica. Queste informazioni sono presenti in forme diverse: copia cartacea: libri, periodici, manuali, enciclopedie e dizionari; le elettronici: preprint, yellow report e periodici; liste elettroniche: conferenze, elenchi di istituti HEP (incluso l'indirizzo html della home page), prestiti bibliotecari; CD-ROM; Video Tape. In un prossimo futuro molti altri dati saranno in formato elettronico, come ad esempio le fotograe. 3.2 ALICE Per mantenere queste informazioni viene utilizzato un database, chiamato ALICE, basato sul prodotto commerciale Aleph 3 [9]. In questo database le informazioni sono organizzate in basi diverse a seconda della loro natura, inoltre vengono memorizzate anche le informazioni bibliograche relative ai diversi documenti. Solamente il servizio dei prestiti bibliotecari non e automatizzato. La tabella 3.1 descrive la congurazione di Aleph. Oltre alle funzionalita di catalogazione ALICE ore un'interfaccia di ricerca tramite il sistema Opac 4 eilserver WWW (vedi g. 3.1) [11]. 2 High Energy Physics 3 Automated Library Expandable Program 4 Online Public Access Catalog

32 CAPITOLO 3. IL CERN, ARCHITETTURA PREESISTENTE Versione 3.2 6 Sistema Operativo UNIX (Solaris 2.4) Server SUN SPARC 1000 RAM 256 Mbytes Spazio del disco 8Gbytes Congurazione della rete Ethernet (TCP/IP) Tipo di workstation CITOH, Macintosh, X-terminal Tabella 3.1: Congurazione di Aleph Client http telnet server WWW server OPAC ALICE database Figura 3.1: Interfacce in ALICE

3.2. ALICE 33 3.2.1 Opac Il servizio Opac ore una modalita di accesso ai testi di una biblioteca e permette di risalire alla loro posizione sica all'interno della stessa. Opac possiede un linguaggio ed un protocollo adatti per speciche ricerche all'interno del database bibliograco. Questa funzionalita e relativamente semplice da svolgere poiche il livello di ambiguita delle richieste e molto basso. Un utente viene direzionato ad una serie di semplici comandi tramite un menu. Generalmente durante un'interrogazione Opac permette di selezionare solo un unico insieme di record. Questo limite appare evidente se si paragona Opac con altri meccanismi di ricerca piu complessi. L'obiettivo principale di questo Catalogo Online consiste nel valutare se un particolare documento e presente o no in una biblioteca. Spesso pero le esigenze dell'utente sono diverse: egli non conosce le disponibilita della biblioteca ed attraverso alcune interrogazioni richiede al sistema di ricercarle. Opac e accessibile tramite telnet, l'utente deve quindi connettersi con il server del database ALICE e deve conoscere la login e la password ad esso associate. Questo sistema quindi non corrisponde al bisogno di un utilizzatore medio del database. I principali vantaggi di Opac consistono nel tempo di ricerca rapido e nella visualizzazione dei documenti cos come sono registrati all'interno del database. Risulta evidente che questa modalita di accesso e utilizzata soprattutto da bibliotecari esperti del sistema. 3.2.2 Web server Anche il Web server e stato fornito con Aleph. La ricerca proposta e sicuramente piu ricca rispetto ad Opac. E possibile ricercare all'interno

34 CAPITOLO 3. IL CERN, ARCHITETTURA PREESISTENTE dei cataloghi in modalita FIND o BROWSE 5. I prestiti bibliotecari sono visibili anche agli utenti della biblioteca. L'interfaccia graca non e particolarmente ricca. elencati i principali limiti che la caratterizzano: Di seguito sono non prevede la possibilita di fare una ricerca avanzata; tutti i risultati sono stampati all'interno di tabelle, quindi i browser che non accettano tabelle, come Mosaic, non possono utilizzarla; l'interfaccia di output e standard, non puo essere modicata a seconda delle esigenze della biblioteca; non si possono memorizzare i documenti trovati in una ricerca; non si possono memorizzare le ricerche eseguite durante una sessione di lavoro; i link esterni e quindi l'ipertestualita sono dicilmente gestibili, i riferimenti esterni infatti devono essere memorizzati in un campo particolare del record. 3.2.3 Il database Aleph Aleph e un prodotto software disegnato per lo sviluppo e l'organizzazione di biblioteche e centri di informazione. E stato sviluppato alla Hebrew University of Jerusalem dalla societa Ex Libris. In questo paragrafo viene fatta una breve descrizione della struttura di Aleph e del modo in cui i dati sono organizzati al suo interno. Come mostrato nelle gure 3.2 e 3.3, Aleph ha una struttura gerarchica.

3.2. ALICE 35 RETE NODO NODO Biblioteca Biblioteca Biblioteca Globale Globale Globale Biblioteca Locale Biblioteca Locale Biblioteca Locale Sottobiblioteca Sottobiblioteca Sottobiblioteca Figura 3.2: Struttura di Aleph

36 CAPITOLO 3. IL CERN, ARCHITETTURA PREESISTENTE RETE NODO Biblioteche Globali ARC UDC ARE CER INT PRS DIR Biblioteche Locali ARC CER CER CER INT PRS DIR PROPS BALL LIB SERI DIR BONF MONO PERI BOOK CONF HEP 01 02 03 36 28 29 26 21 23 25 43 42 41 22 11 12 13 14 15 31 32 33 34 06 71 72 73 06 : AFIL 11 : PREPS 12 : CONFP 13 : ANALP 14: REPOR 15 : PROGR 21 : BOOKS 22 : YELL 23 : ANALB 25 : VIDEO 26 : PROPM 28 : LTLB 29 : DUBO 32 : STOR 33 : LTLP 34 : DUBE 36 : PROPP 41 : CONFA 42 : PROM 43 : PROP 01 : RECS 02 : CTES 03 : REPS 72 : MIS 73 : OBS Figura 3.3: Struttura di ALICE

3.2. ALICE 37 Aleph supporta un sistema distribuito di biblioteche, gestite in uno o piu computer e collegate attraverso il protocollo TCP/IP. E quindi permesso un accesso trasparente alle diverse parti del sistema. Nei nodi vengono denite le biblioteche globali. Ogni nodo si riferisce ad un server ed alle biblioteche globali da esso gestite. Il sistema permette l'accesso da una qualsiasi biblioteca locale ad un'altra denita nello stesso nodo, per ricercare o per copiare informazioni. Al livello inferiore si trovano le biblioteche globali. Qui sono denite le tavole dei parametri, i le dei dati globali, vengono gestiti il backup, il recovery e l'organizzazione interna. Vengono inoltre assegnati i numeri di sistema relativi ai documenti memorizzati nel database. Nelle biblioteche locali invece sono memorizzati i le di dati e le tavole dei parametri per una singola unita amministrativa. Qui sono gestite molte attivita indipendenti come la ricerca, la catalogazione, l'acquisizione dati, etc. Possono esservi denite diverse sottobiblioteche e dierenti basi logiche, utilizzate rispettivamente per gestire l'amministrazione dei prestiti bibliotecari e per permettere il raggruppamento di documenti simili in insiemi. La ricerca in Aleph e basata sulla denizione di specici campi o di singole parole organizzate in liste di accesso. Il sistema organizza i campi eleparole in liste cos da permettere l'accesso alle informazioni. Le liste sono costruite alfabeticamente, e possono basarsi su: l'intero testo del record; i campi del record; le singole parole che costituiscono il valore dei campi del record. Aleph supporta quattro tipi diversi di liste: 5 Vedi cap. 3.2.3