Web semantico e ontologie

Documenti analoghi
Introduzione al Semantic Web

Portale Multicanale delle PA del territorio della Regione Emilia-Romagna: un inizio di rete semantica di informazioni

Lezione 1. Introduzione e Modellazione Concettuale

Database. Si ringrazia Marco Bertini per le slides

Creare una Rete Locale Lezione n. 1

RICERCA DELL INFORMAZIONE

Sistemi informativi secondo prospettive combinate

Reti di Telecomunicazione Lezione 6

Insegnare con il blog. Materiale tratto da:

IL SUO NOME SEMPRE IN PRIMO PIANO Aderendo ad uno dei nostri prodotti/servizi il suo nome sarà sempre in evidenza e nelle prime posizioni;

Alfa Layer S.r.l. Via Caboto, Torino ALFA PORTAL

Banca dati Professioniste in rete per le P.A. Guida all uso per le Professioniste

Project Cycle Management La programmazione della fase di progettazione esecutiva. La condivisione dell idea progettuale.

Indice generale. OOA Analisi Orientata agli Oggetti. Introduzione. Analisi

Unipi EPrints, l'archivio istituzionale dell'università di Pisa

MANUALE MOODLE STUDENTI. Accesso al Materiale Didattico

La piattaforma di lettura targhe intelligente ed innovativa in grado di offrire servizi completi e personalizzati

Sistemi Informativi e Sistemi ERP

Programma del Corso. Dati e DBMS SQL. Progettazione di una. Normalizzazione

Attività federale di marketing

Minerva. Un ambiente integrato per la Didattica e la Divulgazione. dr. Augusto Pifferi. dr. Guido Righini.

Sito web per la presentazione e l accesso ai servizi di Ruven integrato con la piattaforma B2B del pacchetto software ERP Stratega.NET.

DESY è un prodotto ideato e sviluppato da

IL MARKETING E QUELLA FUNZIONE D IMPRESA CHE:

Università Politecnica delle Marche. Progetto Didattico

SOLUZIONE Web.Orders online

Introduzione alle basi di dati. Gestione delle informazioni. Gestione delle informazioni. Sistema informatico

MANUALE DI UTILIZZO: INTRANET PROVINCIA DI POTENZA

PROCESSO DI INDICIZZAZIONE SEMANTICA

Social Network. Marco Battini

Ipertesti e Internet. Ipertesto. Ipertesto. Prof.ssa E. Gentile. a.a

Addition X DataNet S.r.l.

Software per Helpdesk

WorkFLow (Gestione del flusso pratiche)

Sommario. Definizione di informatica. Definizione di un calcolatore come esecutore. Gli algoritmi.

YOU ARE WHAT YOU CURATE COS E LA CONTENT CURATION E COME APPLICARLA

CORSO ACCESS PARTE II. Esistono diversi tipi di aiuto forniti con Access, generalmente accessibili tramite la barra dei menu (?)

Architetture Informatiche. Dal Mainframe al Personal Computer

Architetture Informatiche. Dal Mainframe al Personal Computer

PER RIVISTO 18/03/05. Che cos è la International Children s Library (ICDL - Biblioteca Internazionale Digitale per Bambini)?

REALIZZAZIONE LAN

Il software impiegato su un computer si distingue in: Sistema Operativo Compilatori per produrre programmi

EXPLOit Content Management Data Base per documenti SGML/XML

Architettura del. Sintesi dei livelli di rete. Livelli di trasporto e inferiori (Livelli 1-4)

UTILIZZATORI A VALLE: COME RENDERE NOTI GLI USI AI FORNITORI

Premesso che il Sistema di e-learning federato per la pubblica amministrazione dell Emilia-Romagna (SELF):

Informazione e dato. Gabriella Trucco

I WEBQUEST SCIENZE DELLA FORMAZIONE PRIMARIA UNIVERSITÀ DEGLI STUDI DI PALERMO. Palermo 9 novembre 2011

itime Chiaramente inclusa la stampa del cartellino presenze come previsto dalle normative

Progettaz. e sviluppo Data Base

MetaMAG METAMAG 1 IL PRODOTTO

Nuova funzione di ricerca del sito WIKA.

Capitolo 4 Pianificazione e Sviluppo di Web Part

DATAMORFOSI. E la sintesi della strategia di prodotto di Webgate400.

Stefania Marrara - Esercitazioni di Tecnologie dei Sistemi Informativi. Integrazione di dati di sorgenti diverse

Project Cycle Management

uadro Soluzioni software per L archiviazione elettronica dei documenti Gestione Aziendale Fa quadrato attorno alla tua azienda

Channel Assicurativo

Rappresentazione della Conoscenza. Lezione 10. Rappresentazione della conoscenza, D. Nardi, 2004, Lezione 10 0

Comunicazione pubblica e accesso all informazione nell era digitale

Realizzazione di una chat su protocollo HTTP

Informativa sulla privacy

BASI DI DATI per la gestione dell informazione. Angelo Chianese Vincenzo Moscato Antonio Picariello Lucio Sansone

PIANO BIENNALE PER I DIRITTI DELLE PERSONE CON DISABILITÀ

Generazione Automatica di Asserzioni da Modelli di Specifica

Diventa fondamentale che si verifichi una vera e propria rivoluzione copernicana, al fine di porre al centro il cliente e la sua piena soddisfazione.

Cercare documenti Web

connessioni tra i singoli elementi Hanno caratteristiche diverse e sono presentati con modalità diverse Tali relazioni vengono rappresentate QUINDI

1. Il Client Skype for Business

LE MAPPE CONCETTUALI PER PROMUOVERE L APPRENDIMENTO SIGNIFICATIVO JOSEPH D. NOVAK

Come funziona il WWW. Architettura client-server. Web: client-server. Il protocollo

Linguaggi e Paradigmi di Programmazione

25/11/14 ORGANIZZAZIONE AZIENDALE. Tecnologie dell informazione e controllo

Il calendario di Windows Vista

IL PROBLEMA DELLA RICERCA DI INFORMAZIONI su Internet e sul web

NOVITÀ SITI COMMERCIALISTA

1. BASI DI DATI: GENERALITÀ

L IT a supporto della condivisione della conoscenza

DATANET Innovation & Integration

5. Fondamenti di navigazione e ricerca di informazioni sul Web

CAPITOLO CAPIT Tecnologie dell ecnologie dell info inf rmazione e controllo

Progetto Atipico. Partners

Brochure Internet. Versione The Keyrules Company s.r.l. Pagina 2 di 8

Network Monitoring. Introduzione all attività di Network Monitoring introduzione a Nagios come motore ideale

UN APP FLESSIBILE E INTUITIVA PER GESTIRE I TUOI AFFARI IN TUTTA COMODITÀ

Corso: Sistemi di elaborazione delle informazioni 2. Anno Accademico: 2007/2008. Docente: Mauro Giacomini

CONTENT MANAGEMENT SYSTEM

Il modello veneto di Bilancio Sociale Avis

FILIPPO MARIA CAILOTTO SOLDI DAGLI SPONSOR

Bologna, 27 novembre 2014

MODELLO CLIENT/SERVER. Gianluca Daino Dipartimento di Ingegneria dell Informazione Università degli Studi di Siena

[SOLUZIONI INNOVATIVE] Casi di studio sulle pratiche di innovazione

GHPPEditor è un software realizzato per produrre in modo rapido e guidato un part program per controlli numerici Heidenhain.

La mediazione sociale di comunità

Roma Capitale: Open Data come nuova frontiera della comunicazione tra istituzioni e cittadini

PROGETTO PON/FESR

Per informazioni rivolgersi allo Studio:

HTML il linguaggio per creare le pagine per il web

Percorso Apprendisti MODULO BASE

La gestione manageriale dei progetti

Transcript:

Web semantico e ontologie Nuovi sviluppi della comunicazione in rete Daniela Canali Istituto tecnologie biomediche CNR - Roma daniela.canali@tin.it La crescita del web e il fenomeno della profondità e difficoltà di rintracciabilità delle risorse pone l attenzione sui fondamenti semantici. L emergere delle ontologie come oggettivazione di significati intesi e di mediazione semantica in domini specifici e specialistici assume una dimensione guida per i nuovi sviluppi della comunicazione web. In passato la ricerca sulle ontologie è stata piuttosto limitata alla sfera filosofica, ma ora ha assunto un ruolo specifico in diversi campi della ricerca come la rappresentazione e l ingegneria della conoscenza, la creazione di modelli qualitativi, la progettazione di database e sistemi informativi, il reperimento e l estrazione delle informazioni, lo sviluppo di software orientati agli oggetti, la gestione e l organizzazione della conoscenza, lo sviluppo di sistemi basati su agenti intelligenti. La parola ontologia genera spesso confusione a causa delle numerose interpretazioni dipendenti dal contesto: 1 è infatti usata per descrivere realtà con livelli strutturali diversi, quali le tassonomie (come la gerarchia di Yahoo) 2 e gli schemi di metadati (come il Dublin Core). Alla base del web semantico 3 ci sono ontologie con un livello strutturale elevato ed esse devono descrivere specificamente i concetti di classe (cose generiche nei vari domini di interesse), di relazioni esistenti tra le cose e di proprietà (o attributi) di tali cose. In ambito informativo per ontologie intendiamo insiemi di modelli concettuali (definiti anche strutture di metadati) 4 costituiti da accordi sui concetti e sulle relazioni tra di essi, rappresentativi di un dominio di conoscenza: volendo utilizzare una definizione sintetica potremmo dire che un ontologia è la specifica di una concettualizzazione. 5 In ambito digitale le ontologie vengono normalmente costruite a partire dalle categorizzazioni del mondo reale e in particolare dei prodotti a stampa, sebbene tale derivazione diretta spesso si riveli inadeguata al contenuto digitale. Prendere a modello i supporti cartacei non soddisfa infatti le estese possibilità del contenuto digitale, come ad esempio l aumento del contenuto originale con altre informazioni relative o la riformattazione del contenuto basata sull interazione con l utente. Prima di costruire un ontologia bisogna avere ben chiaro il significato definito e come esso può essere applicato ai metadati semantici. La natura concettuale e contestuale del significato è importante: secondo alcuni linguisti, gli elementi del linguaggio hanno una gamma di interpretazioni e la corretta interpretazione deriva dagli elementi circostanti il linguaggio, idea supportata nella teoria del significato proposta da Wittgenstein, secondo cui il significato di una parola è il suo uso nel linguaggio. Sebbene sia impossibile ottenere un accordo e un interpretazione comune su tutto il mondo reale, è però possibile catturare la semantica essenziale del contenuto attraverso la struttura e la definizione di importanti caratteristiche dell essenza del contenuto in un ontologia, limitando le descrizioni a un certo dominio e ad un determinato livello di dettaglio. La costruzione di un ontologia è laboriosa e richiede la cooperazione di esperti del dominio, soprattutto per costruirne un buon livello di astrazione che ne garantisca la stabilità (le informazioni dettagliate possono velocemente perdere valore a causa dei cambiamenti ad un certo livello di dettaglio), l accessibilità, la natura schematica e l eliminazione di dettagli irrilevanti (il problema con le 1 GIACOMO DEVOTO GIAN CARLO OLI, Il Dizionario della lingua italiana, Firenze, Le Monnier, 2002 riporta per Ontologia la seguente definizione: La dottrina filosofica relativa ai caratteri universali dell ente, corrispondente alla prima filosofia del più maturo Aristotele, detta poi metafisica : è tradizionalmente considerata il fondamento di ogni sistema oggettivistico e di Ontologico: Riguardante la natura e la conoscenza dell essere come oggetto in sé; talvolta (contrapposto a soggettivo), improntato a un senso metafisico e oggettivo del reale. 2 <http://www.yahoo.com>. 3 The Semantic Web is an extension of the current web in which information is given well-defined meaning, better enabling computers and people to work in cooperation (TIM BERNERS-LEE HENDLER JAMES ORA LASSILA, The Semantic Web. A new form of web content that is meaningful to computers will unleash a revolution of new possibilities, Scientific American, May 2001, <http://www.sciam.com/article.cfm?articleid=00048144-10d2-1c70-84a9809ec588ef21>). 4 SAMI JOKELA, Metadata enhanced content management in media companies, dissertation for the degree of Doctor of technology, Helsinki University of Technology Department of Computer Science and Engineering Software Business and Engineering Institute, 2001, <http://lib.hut.fi/diss/2001/isbn9512256932/isbn9512256932.pdf>. 5 TOM GRUBER, What is an ontology?, <http://www-ksl.stanford.edu/kst/what-is-an-ontology.html>. 50 Biblioteche oggi giugno 2005

astrazioni è che esse rappresentano una porzione della realtà da cui derivano e possono pertanto essere riduttive). Le ontologie vengono sviluppate per formalizzare e modellare le caratteristiche semantiche essenziali di un dominio di conoscenza e, per evitare qualsiasi ambiguità, durante lo sviluppo sono esplicitati, rappresentati e descritti le ipotesi chiave, il vocabolario e i principi del dominio. È importante notare la natura iterativa dello sviluppo di un ontologia e la necessità di riflettere i cambiamenti nell ambiente di riferimento: perché essa diventi veramente utile è necessaria una revisione costante e inoltre, anche quando si riesce a produrre un ontologia che concettualizza in modo soddisfacente un certo dominio, è questo inevitabilmente a cambiare: sia che emergano nuovi concetti o si verifichino cambiamenti semantici di vecchi concetti, tutto deve riflettersi nell ontologia che altrimenti rischia un graduale deterioramento. La costruzione di ontologie dovrebbe concentrarsi solo sulle qualità rilevanti per l essenza del contenuto e valide per l uso inteso, tenendo in conto il numero degli utenti, quanto valore i metadati producono per questi utenti e i costi relativi: se questi sono superiori al valore prodotto non c è ragione di realizzare un ontologia, anche se in effetti alcune qualità che valorizzano l essenza del contenuto sono difficili da identificare. Per esempio per molti utenti è importante l attualità delle informazioni ma la distribuzione richiede metadati e ciò implica ulteriori ritardi nella produzione di contenuto. Una soluzione potrebbe essere quella di produrre i metadati in due fasi: fornendo inizialmente solo un set minimo per la gestione della disseminazione e successivamente aggiungere altri metadati semantici. La modellizzazione di un dominio è condizionata da tre elementi: information feeds (capire non solo quali tipi di contenuto esistono o saranno disponibili ma anche quale tipo di informazione, formato e altre caratteristiche esso ha); user needs (perché gli utenti vogliono il contenuto e capire quali sue caratteristiche sono importanti); intended use (sapere quali caratteristiche sono necessarie nella produzione, nel recupero e nell uso del contenuto, non solo per le applicazioni e i servizi esistenti e pianificati ma anche per tutte le attività relative al contenuto nella catena del valore). Se l ontologia non è direttamente utilizzata dall uomo può avere una struttura molto complessa: 6 quindi è importante capire chi sono gli utilizzatori e se l ontologia sarà visibile all amministratore del sistema e/o all utente finale, e se invece è nascosta e usata solo dai computer. 7 L automazione è una componente importante delle ontologie: se la creazione dei metadati è automatica, il processo può essere molto dettagliato e portare a metadati semantici complessi. L estrazione di metadati completamente automatizzata, senza alcun controllo umano, non è raccomandabile, poiché si tratta di un processo molto complicato che può determinare una qualità inferiore dei metadati. Il lavoro di routine nella creazione dei metadati semantici dovrebbe essere quanto più possibile automatizzato ma non privo del controllo di esperti. Anche se l ontologia viene intesa come assolutamente ideale in un certo momento nel tempo, essa è inevitabilmente soggetta a degrado e richiede mantenimento. Alcuni domini sono più statici di altri: le news rappresentano ad esempio un dominio molto dinamico, con molte tematiche e molti utenti con le loro diverse interpretazioni dei concetti, mentre alcuni domini scientifici, come la chimica, in cui l informazione è spesso basata su fondamenti ben definiti come le tavole periodiche, sono più statici. In questi domini i nuovi contenuti possono essere descritti nelle strutture ontologiche esistenti apportando al limite lievi cambiamenti. Le ontologie definiscono dunque i termini usati per descrivere e rappresentare un area della conoscenza e sono utilizzate da umani e da database e applicazioni per condividere informazioni in un particolare dominio, ossia un settore tematico specifico: esse includono le definizioni utilizzabili dai computer, sulla base di concetti base del dominio, e le relazioni tra di essi, codificando la conoscenza e rendendola riutilizzabile. Attualmente le aree di applicazione sono disparate, dal commercio elettronico alle biblioteche digitali, alla medicina, ai sistemi informativi, e il ruolo chiave delle ontologie nello scambio di dati basato sui contenuti in queste aree è attestato dall interesse mostrato da molti organismi e iniziative di standardizzazione internazionali, tra cui ISO, ANSI, il W3C, 8 IEEE ecc. Nel campo emergente del Semantic Web le ontologie sono un modo di rappresentare la semantica dei documenti e renderla utilizzabile da applicazioni web e da agenti intelligenti. Mappatura di ontologie All interno di una comunità le ontologie possono rivelarsi molto utili per strutturare e definire il significato dei termini dei metadati usati. 9 Esse si rivelano però critiche per applicazioni che cercano o mescolano informazioni da comunità diverse: uno stesso termine può essere usato con significati diversi in contesti differenti e termini diversi 6 I linguisti sono giunti alla conclusione che le gerarchie tassonomiche raramente hanno più di cinque o sei livelli, e anche questo numero è poco comune. Comunque tali parametri non sono necessariamente applicabili ai vocabolari tecnici. 7 Una categorizzazione come Yahoo, per esempio, è progettata per mantenere un certo numero di scelte parallele: se il numero delle scelte aumenta oltre un certo limite, la categorizzazione viene sfrondata. 8 <http://www.w3.org/tr/webont-req/#onto-def>. 9 Nell ambito degli editor automatici di metadati va detto che la loro considerazione delle ontologie può semplificare notevolmente la creazione di metadati per risorse disponibili nel web. Biblioteche oggi giugno 2005 51

possono essere usati per documenti che hanno lo stesso significato. Il processo di mappatura consente di rendere compatibili contenuti diversi e i loro metadati semantici, definendo regole con cui si possono omogeneizzare i metadati forniti da fonti eterogenee di dati. La mappatura può avere livelli diversi di complessità e può coinvolgere la traduzione di un ontologia nella sua controparte semanticamente equivalente in altre ontologie. Un ontologia di origine può usare ad esempio il concetto car mentre quella di destinazione contiene il concetto automobile: in questo caso il conflitto si risolve rinominando il primo concetto. Ma quando ontologie di origine e di destinazione non contengono concetti semanticamente equivalenti sorgono problemi molto più complessi, come l uso di concetti multipli o cambiamenti nell ontologia originaria. È comunque preferibile passare da un formato a un altro piuttosto che produrre formati intermedi: più sono i formati, maggiore è il vantaggio di usare metodi riutilizzabili e un comune formato ontologico di metadati semantici originario cui tutte le parti rilevanti devono aderire, anche se è normale che diversi stadi del contenuto abbiano proprie ontologie. Resource Description Framework e il relativo schema 10 affrontano questo problema permettendo di associare una semantica semplice agli identificatori. Con lo schema RDF è possibile infatti definire classi che possono avere sottoclassi e sovraclassi multiple, e possono definire proprietà che hanno a loro volta sottoproprietà, domini e range di valori. In questo senso lo schema RDF rappresenta un linguaggio di ontologia semplice, ma per ottenere interoperabilità tra numerosi schemi, sviluppati e gestiti autonomamente, è necessaria una semantica più ricca. Il grande sforzo attualmente consiste nel definire cosa è necessario per costruire un linguaggio di ontologia per il web, considerata la natura di ambiente unico della rete. 11 Il modello di metadati ABC è stato sviluppato nell ambito del progetto internazionale di digital library Harmony 12 per fornire un modello concettuale comune che faciliti l interoperabilità tra ontologie di metadati appartenenti a domini diversi. Sulla base di tale modello, che consta di categorie (temporalità, attualità e astrazione), di classi e proprietà è stato costruito un deposito di descrizioni RDF e un interfaccia di ricerca dotata delle più sofisticate modalità di interrogazione. Specificamente progettate per modellare la creazione, l evoluzione e la mobilità degli oggetti nel tempo, sono molto interessanti le possibili applicazioni del modello nell ambito dei metadati di gestione di ambiente multimediale nei processi documentali. Ontologie e portali Le ontologie possono essere utilizzate per delineare nuovi usi del web e per migliorare le applicazioni web esistenti, quali ad esempio i portali, ossia siti web che oltre a fornire contenuto informativo su un determinato argomento 13 offrono alti livelli di interattività e servizi ormai consueti quali la possibilità di ricevere news, di comunicare con altri membri della comunità, di costruire comunità, di trovare link ad altre risorse web di interesse comune. Il successo di un portale è legato alla sua capacità di rappresentare un valido punto di partenza per l individuazione di contenuto interessante, sempre più di frequente oggi immesso dai membri stessi della comunità. 14 Gli stessi fornitori di dati 10 RDF (Resource Description Framework) è una specifica del World Wide Web Consortium (W3C) rilasciata nel 1999. Progettato per l elaborazione di metadati web, RDF fornisce una piattaforma di interoperabilità tra applicazioni sul web che si scambiano informazioni comprensibili dalle macchine. Tale modello consente di rappresentare i metadati in una sintassi per la codifica e la trasmissione secondo modalità che favoriscono l interoperabilità tra server e client web sviluppati in modo indipendente. Il framework facilita l elaborazione automatica delle informazioni e può essere utilizzato in diverse aree di applicazione: nella ricerca di risorse (resource discovery), per migliorare le capacità dei motori di ricerca, per descrivere il contenuto e le relazioni disponibili in un particolare sito web, pagina o digital library, per facilitare condivisione e scambio di conoscenza tramite gli agenti intelligenti, nella valutazione del contenuto, nella descrizione di collezioni di pagine che rappresentano un singolo documento logico, nella descrizione del copyright di pagine web, per esprimere le preferenze di un utente, per la gestione della privacy di un sito. 11 NICOLA GUARINO, Formal ontology and information systems, Formal Ontology in information systems, proceedings of the 1st International Conference, Trento, Italy, 6-8 June, IOS Press, 1998, <http://www.ladseb.pd.cnr.it/infor/ontology/papers/fois98.pdf>. 12 Il progetto internazionale Harmony è finanziato dal Distributed Systems Technology Centre (DSTC, Australia), dal Joint Information Systems Committee (JISC, UK) e dalla National Science Foundation (USA) con l obiettivo di definire metodi e modelli per la descrizione della varietà di contenuto ricco (rich content) che sempre di più popola il web e le biblioteche digitali. Il sito è ricchissimo di materiale informativo: <http://metadata.net/harmony/>. Per una descrizione dettagliata di veda CARL LAGOZE JANE HUNTER, The ABC ontology and model, Journal of Digital Information, 2, 2001, <http://jodi.ecs.soton.ac.uk/articles/v02/i02/lagoze/lagoze-final.pdf>. 13 Un portale è sostanzialmente un aggregatore di informazione che offre un servizio di navigazione sul WWW facilitando il lavoro di ricerca: nati come evoluzione dei motori di ricerca, i portali hanno associato agli strumenti tipici di questi (search engines e categorizzazione delle informazioni) altri servizi, informativi e non, allo scopo di proporsi come accesso preferenziale e guida per la navigazione via Internet. Negli ultimi tempi sono state individuate due tendenze di sviluppo: da un lato si ha uno sforzo verso la sempre maggiore integrazione dei servizi di navigazione, dall altro si assiste a un passaggio da un ottica di offerta di contenuti di stampo generalista a una di posizionamento di dominanza in un settore di nicchia, con obbligo quindi di una notevole specializzazione. In particolare questi portali tematici vengono definiti vortali, portali verticali, detti anche portali di secondo livello. Vedi anche TAMAR SADEH JENNY WALZER, Library portals: toward the Semantic Web, New Library, 104 (2003), 1184/5, <http://www.exlibris.co.il/metalib/library_portals_toward_the_semantic_web.pdf>. 14 GRIGORIS KARVOUNARAKIS VASSILIS CHRISTOPHIDES DIMITRIS PLEXOUSAKIS, RQL: a declarative query language for RDF, D-Lib Magazine, 7 (2001), 12, <www.dlib.org/dlib/december01/12inbrief.html#karvounarakis>. Una tecnologia attualmente molto diffusa di immis- 52 Biblioteche oggi giugno 2005

etichettano il contenuto con informazioni che prendono la forma di metatag identificative dell argomento del contenuto. Un semplice indice per soggetto può rivelarsi insufficiente a ottimizzare il recupero dei contenuti: il portale che implementa un ontologia per la comunità di riferimento, fornendo la terminologia per descrivere il contenuto e gli assiomi che definiscono i termini, consente un controllo più intelligente. Un ontologia può ad esempio includere termini come giornale, pubblicazione, persona, autore e definizioni che asseriscono che tutti i giornali sono pubblicazioni o tutte le persone sono autori. Combinate con i fatti, queste definizioni permettono di inferire altri fatti che sono necessariamente veri. Queste inferenze, a loro volta, possono permettere agli utenti di ottenere dal portale dei risultati di ricerca che è impossibile ottenere con i tradizionali sistemi di recupero dell informazione. Una simile tecnica richiede necessariamente che i content providers annotino le loro pagine con il linguaggio dell ontologia, fatto che di solito si rivela piuttosto difficile da ottenere: la ricaduta che essi possono realizzare distribuendo il loro contenuto il più ampiamente possibile può essere un elemento a favore che potrebbe convincerli a fare questo lavoro di annotazione, del resto ormai possibile con modalità automatiche. Un esempio di portale basato su un ontologia è OntoWeb 15 (Ontology-based Information Exchange for Knowledge Management and Electronic Commerce) presso la Free University of Amsterdam, un progetto cui partecipa anche l Italia, 16 che ha come scopo prioritario quello di raccordare i ricercatori e gli operatori dell industria di varie aree di applicazione promuovendo il lavoro interdisciplinare e rafforzando l influenza europea sugli sforzi di standardizzazione del Semantic Web. Altro esempio di portale che usa la tecnologia Semantic Web e potrebbe trarre molto beneficio da un linguaggio ontologico è il progetto Open Directory, 17 la grande directory del web costruita e mantenuta da una comunità vasta e globale di editori volontari. In questo caso è possibile scaricare dal sito le copie RDF della base di dati della directory. L uso di ontologie nella navigazione di basi di dati è certamente interessante ma sarebbe molto riduttivo pensare a questo come al loro ruolo chiave. 18 Le ontologie sono innanzi tutto degli schemi e come tali hanno lo scopo di organizzare un dominio in uno schema dei dati in grado di suddividerlo in tutte le classi di oggetti che hanno un ruolo nei suoi processi. Come esempio di quanto detto si può portare il campo dell e-learning in cui almeno un paio di grosse applicazioni sono state sviluppate secondo una struttura ontologica: 19 organizzare una piattaforma secondo strutture ontologiche si rivela estremamente produttivo poiché ad esempio un corso di meccanica può contenere una parte relativa alla meccanica dei fluidi che può essere ripresa, e poi ampliata, in un corso di idraulica. Se i vari materiali didattici sono organizzati in unità (learning objects) ogni singola unità può essere collegata alle altre e ricomposta in un nuovo corso. Ontologie e oggetti digitali non testuali Le ontologie possono essere usate anche per fornire annotazioni semantiche a collezioni di immagini, oggetti audio, video o altri oggetti non testuali. Questo tipo di risorse sono di solito indicizzate tramite cattura o metatag, poiché è molto più complesso per le macchine estrarre una semantica significativa da oggetti multimediali rispetto a un testo in linguaggio naturale. Poiché questi oggetti non testuali possono essere descritti in modo differente da parte di diversi indicizzatori, è importante che le possibilità di ricerca vadano oltre il semplice abbinamento di parole chiave: le ontologie possono catturare conoscenza aggiuntiva riguardo al dominio, da usare per migliorarne il recupero. Le ontologie multimediali possono essere di due tipi: specifiche per supporto (possono avere tassonomie di diversi sione di contenuti sul web da parte degli utenti è il web log (detto anche blog) ossia un sistema di messaggistica tramite web che evita il pesante e lungo lavoro di annotazione delle risorse. Tramite una procedura di immissione di dati in pochi campi predefiniti, viene inizializzata una descrizione base della risorsa eventualmente da integrare. Per un esperienza diretta di questa procedura si rimanda al progetto europeo Hyperguide e al sito di fruizione Tool2know (T2Klog), <http://194.183.21.37/hyperguide/weblog.html>, oltre che alla pubblicazione: DANIELA CANALI AUGUSTA MARIA PACI FILIPPO MARIA VINCIGUERRA, A knowledge path to research, project and product: the experience of Hyperguide/Tool2know, Roma, EUE (Editoria Università Elettronica), 2002. 15 <http://starpc14.vub.ac.be:8000/ontoweb/browse/index.html>. 16 I partecipanti italiani sono: OTH, LADSEB-CNR, Institute of Systems Science and Biomedical Engineering, Consiglio nazionale delle ricerche, CNR - ITBM, DSI - Università di Modena e Reggio Emilia. 17 <http://dmoz.org/about.html>. 18 La posizione di Nicola Guarino nella sua relazione alla tappa italiana del W3C Semantic Tour si rivela ancora molto legata al concetto di database e infatti delinea il ruolo delle ontologie nel Semantic Web come finalizzate all interoperabilità semantica e all information retrieval. L ontologia è una concettualizzazione, una struttura formale della realtà così come è interpretata da un agente, indipendentemente dal vocabolario usato e dall attuale occorrenza di una specifica situazione. La funzione dell ontologia è dunque principalmente quella di catturare il significato inteso di un vocabolario secondo una concettualizzazione: si tratta di una teoria logica, i cui modelli catturano il più possibile i modelli intesi. Qual è dunque la differenza tra le ontologie e i vecchi modelli concettuali? In effetti, secondo Guarino, non troppa, poiché le ontologie rappresentano modelli concettuali più raffinati e con alcune attenzioni particolari (i modelli non sono accessibili run time e non hanno una semantica formale). Nel modello vengono specificati solo i vincoli importanti per le queries, mentre nelle ontologie si tiene conto dei vincoli necessari per il significato inteso. 19 <http://edutella.jxta.org> e <http://www.merlot.org>. Biblioteche oggi giugno 2005 53

tipi di supporto e descrivono proprietà di supporti diversi) 20 e specifiche per contenuto (descrivono il soggetto di una risorsa). Questo secondo tipo, in particolare, non è specifico rispetto al supporto e ciò permette di riutilizzarle in altri documenti relativi allo stesso argomento. Tale riutilizzo potenzia la ricerca delle informazioni su un particolare soggetto, a prescindere dal formato della risorsa; se invece questo è rilevante, si possono combinare entrambi i tipi di ontologia. Attualmente sono disponibili in rete applicazioni gratuite per la creazione di ontologie, come ad esempio Protégé-2000, sviluppato dalla Stanford Medical Informatics presso la Stanford University School of Medicine, che consente all utente di costruire una propria ontologia di dominio, personalizzare il formato dei dati da immettere e inserire i dati. Per meglio comprendere la struttura di un ontologia possiamo ipotizzare la realizzazione di un ontologia relativa a una rivista, premesso che la base di conoscenza (knowledge base) di un giornale può essere usata in molti modi diversi. Per il nostro esempio scegliamo: una lista di articoli pubblicati (indicando data e sezione di pubblicazione); le informazioni riguardo alle sezioni standard del giornale (sport, cronaca, cultura ecc); le informazioni sul personale; le informazioni relative alla pubblicità. A partire da questa knowledge base, tra le molte applicazioni possibili quali sistemi di rappresentazione, si potrebbe costruire un sistema per il recupero, l organizzazione e la risposta alle queries riguardo agli articoli pubblicati, un sistema per analizzare i redditi o la politica dei prezzi di annuncio, un sistema per la revisione dell organizzazione per assicurare un equilibrio tra i redattori e gli editori e per garantire ad ogni sezione del giornale un editore responsabile. Il Knowledge Systems Laboratory della Stanford University ha sviluppato Chimera, 21 un software che supporta gli utenti nella creazione e nel mantenimento di ontologie distribuite sul web. Nonostante la diffusione, la disponibilità in rete e l illustrazione particolareggiata delle procedure di creazione, si tratta comunque di sistemi piuttosto complessi da utilizzare. Quando la diffusione di ontologie nel web sarà massiccia, sarà necessario renderle interoperabili, definendo mappature tra i diversi schemi: questo problema è già affrontato da diversi progetti come lo Stanford Scalable Knowledge Composition (SKC) Project 22 che ha sviluppato un nuovo approccio per risolvere il problema dell eterogeneità semantica nei sistemi informativi, basandosi sull algebra per comporre ontologie che rappresentano le terminologie appartenenti a domini distinti e autonomi. Il Polo didattico e di ricerca di Crema ha costituito un gruppo di lavoro che studia e utilizza le ontologie per ottimizzare i processi di condivisione della conoscenza in vari campi applicativi, dai sistemi di produzione del software alla navigazione e reperimento di basi di documenti. Ha sviluppato Pocket Knowledge Hub, un pacchetto integrato di tool che permette di installare su semplice pc un piccolo sistema di Knowledge Management semantico: 23 attraverso un ontologia definita dall utente, il sistema consente di indicizzare documenti e di navigarvi in modo semantico, sia partendo da un albero gerarchico sia ricostruendo le relazioni di ogni singolo concetto. Ontologie di dominio Una ontologia di dominio descrive una specifica di categorie base definite dai concetti concreti e dalle relazioni che sorgono all interno di una particolare applicazione. È quindi necessario prendere in considerazione i punti di vista di diversi esperti sui concetti e le relazioni del dominio come pure i vari obiettivi e i punti focali determinati dal contesto. Le ontologie di dominio hanno una bassa portabilità, poiché la possibilità di trasferirle in altre applicazioni è molto limitata. Il lavoro su di esse è però indispensabile per testare le ontologie generiche rilevanti e definire il framework ontologico di livello superiore, correlato sia al potere espressivo sia alla robustezza. Sono stati trovati metodi per specificare il grado di portabilità di concetti specifici di dominio, usando per esempio metodi descrittivi strettamente modulari. Un esempio è lo sviluppo di una ontologia generica per il dominio delle prove cliniche nell ambito del progetto OntoMed, costruito con il software OntoBuilder 24 tramite il sistema GOL-Clin che si basa sul General Ontological Language (GOL): in questo caso l ontologia generica per prove cliniche Onto-Clin è stata aggiunta all ontologia base General Formal Ontology (GFO). Nell ambito di questo progetto viene sviluppato anche uno specifico Data Dictionary. OntoBuilder ha due componenti. 1) OntoExtract: estrae informazioni da fonti a testo libero non strutturato; produce ontologie leggere da testo naturale; memorizza e controlla da un server Sesame. 2) OntoWrapper: informazioni strutturate tabellari. I punti di forza di OntoBuilder sono rappresentati dalla capacità di estrarre dai documenti testi in linguaggio naturale, dall accuratezza in tale estrazione e dalla generazione di conoscenza. Il progetto europeo OntoWeb riguarda lo scambio di in- 20 Per esempio i video possono includere proprietà che identificano la durata e le interruzioni di scena. 21 <http://www.ksl.stanford.edu/software/chimaera/>. 22 <http://www-db.stanford.edu/skc/>. 23 Basato su architettura Java e su un database Access, è facilmente installabile su qualsiasi macchina contenente una java virtual machine. Il pacchetto è scaricabile dal sito web: <http://ra.crema.unimi.it/ontology/index.htm>. 24 <http://www.onto-med.de/en/index.html>. 54 Biblioteche oggi giugno 2005