KNOWLEDGE MANAGEMENT IN AMBITO SANITARIO CON TECNOLOGIE DI TIPO SEMANTIC WEB

Transcript

1 UNIVERSITÀ POLITECNICA DELLE MARCHE FACOLTÀ DI INGEGNERIA Corso di Laurea in Ingegneria Elettronica KNOWLEDGE MANAGEMENT IN AMBITO SANITARIO CON TECNOLOGIE DI TIPO SEMANTIC WEB Tesi di Laurea di: Marco Verlengia Relatore: Prof. Ing. Aldo Franco Dragoni Correlatore: Prof. Ing. Paolo Puliti Anno Accademico

2 Alla mia famiglia

3 Ringraziamenti Desidero ringraziare il Prof. Aldo Franco Dragoni ed il Prof. Paolo Puliti, che mi hanno guidato con grande disponibilità nella realizzazione di questa tesi. Un particolare ringraziamento va all Ing. Luigi Lella, dal quale ho ricevuto un valido supporto nello sviluppo del progetto svolto durante il tirocinio. La sua guida e la sua competenza sono stati tanto preziosi quanto formativi. Ringrazio di cuore la mia famiglia per avermi aiutato, sostenuto e creduto in tutti questi anni in modo incondizionato. Ringrazio Daniela per la sua pazienza e la sua infinita bontà d animo, Michele per la disponibilità continua e per aver coltivato con lui una sincera e fraterna amicizia. Ringrazio, infine, le persone che hanno partecipato e contribuito alla mia crescita personale in tutti questi anni di studio.

4 Sommario Introduzione...iv PARTE I PARADIGMI DEL SISTEMA DI GESTIONE DELLA CONOSCENZA 1. Knowledge Management cenni storici La conoscenza secondo Nonaka e Takeuchi Il modello SECI Il trattamento della conoscenza tacita e implicita Il trattamento della conoscenza in formato semi o non-strutturato Il trattamento della conoscenza in formato strutturato L infrastruttura di base Tecnologie per l estrazione e l integrazione Tecnologie per la rappresentazione della conoscenza PARTE II SEMANTIC WEB 10. Lo standard W3C Web Semantico, un architettura a strati PARTE III IMPLEMETAZIONE

5 12. Reti associative Acquisizione della conoscenza Rappresentazione della conoscenza Il progetto web GuiController Web Services e database Conclusioni APPENDICE CODICI SORGENTI Java Servlets Java Beans Classi SemWebForum Bibliografia

6 Introduzione L obiettivo della tesi di laurea consiste nello sviluppo di tools in grado di promuovere la comunicazione e lo scambio di informazioni tra operatori in ambito sanitario, per mezzo di un sistema basato sulle tecnologie del Web Semantico in grado di gestire automaticamente i messaggi di un forum di discussione interno. In particolare evidenza, la necessità di ricercare nuovi modelli che possano favorire e sviluppare concretamente una visione di sistema sanitario integrato e a rete, nel quale ogni componente possa esprimere il proprio ruolo al più alto livello nell interesse dei cittadini. Un sistema finalizzato alla gestione del patrimonio informativo e all'automatizzazione dei processi rappresenta la giusta soluzione per affrontare queste specifiche, aumentando in modo significativo la produttività interna. Le principali esigenze di progetto sono rivolte alla creazione di un sistema intranet che rappresenti l'infrastruttura di base dedicata alla gestione di tutte le informazioni dei processi necessarie agli utenti per lo svolgimento delle attività di un servizio, creando un interfaccia friendly-user omogenea e di facile navigazione. Questo sistema si occupa delle operazioni di publishing delle informazioni sul portale interno dell azienda sanitaria locale ASUR 7 Marche di Ancona, semplificando le operazioni di aggiornamento e ricerca dei contenuti. Diventa di cruciale importanza la gestione della conoscenza di tutti i contenuti pubblicati nel forum dei vari utenti operanti nella intranet aziendale, appositamente ingegnerizzata da un motore semantico in grado di saper

7 riconoscere quali e quante sono le informazioni da apprendere, filtrare ed infine pubblicare. Con questa finalità si è realizzato un sistema di knowledge management, integrando all interno tutti gli strumenti per aiutare gli utenti a governare la conoscenza, a scambiare e pubblicare informazioni, a gestire in modo semplice tutti i sistemi di comunicazione elettronica, semplificando: la gestione dei contenuti postati nel forum la razionalizzazione delle informazioni attraverso il motore semantico l integrazione con le altre applicazioni aziendali lo snellimento dell amministrazione della intranet la riduzione dei costi delle infrastrutture IT

8 PARTE I PARADIGMI DEL SISTEMA DI GESTIONE DELLA CONOSCENZA

9 Capitolo 1 KNOWLEDGE MANAGEMENT - CENNI STORICI La conoscenza e l apprendimento sono temi che hanno sempre coinvolto e interessato l uomo fin dai primi bagliori della civiltà. Nel mondo occidentale le prime testimonianze si trovano già nelle opere dei più importanti filosofi greci e continuano ad interessare l uomo fino ai giorni nostri. Analogamente la produzione filosofica proveniente dal continente asiatico ha posto la conoscenza come percorso essenziale per una vita terrena e al tempo stesso spirituale, realmente compiuta. Molti di questi tentativi avevano l obiettivo di ricercare il vero significato e valore della conoscenza. Cognizione, nozioni pratiche, abilità speciali inizialmente si verificavano sotto forma di meccanismi impliciti, che funzionavano autonomamente ed automaticamente, e solo in seguito si raggiunse una maggiore consapevolezza nei processi di apprendimento ed interiorizzazione. Le confraternite di arti e mestieri ed il sistema di passaggio della conoscenza che avveniva tra apprendista-maestro, hanno dominato nel periodo medievale ed erano basati sui principi che sono il fondamento dell attuale knowledge management. La trasmissione del sapere si basava sull osservazione del lavoro di un maestro, il quale si preoccupava di trasmettere la propria conoscenza ai suoi apprendisti. Tale scambio non veniva mediato da altre persone, istituzioni o documenti ed avveniva in maniera diretta tra i due. In questo modo, oltre alle conoscenze di base, venivano trasmesse le metodologie del lavoro e quei piccoli segreti che ogni maestro, aveva imparato nel corso degli anni di pratica: sostanzialmente avveniva la trasmissione della conoscenza iniziatica, implicita. Con l avvento dell Illuminismo si arrivò finalmente ad integrare le concezioni della filosofia teoretica e le astrazioni epistemologiche con l aspetto pratico della - 7 -

10 conoscenza. Il movimento che portò all affermazione del libero pensiero permise il consolidamento della convinzione che attraverso l apprendimento l uomo potesse cambiare e migliorare il suo modo di essere. La rivoluzione industriale modificò ulteriormente lo scenario e nonostante la proliferazione delle industrie e la conseguente necessità di maggiore specializzazione, il modello apprendistamaestro, basato sui principi impliciti del knowledge management continuò a prevalere adattandosi alle nuove esigenze. L avvento delle tecnologie ha trasformato, nei processi industriali, la componente umana, rendendola sempre più marginale ed ha spostato le sue competenze dalla realizzazione materiale dei beni ad attività di tipo intellettuale. Questo fenomeno in costante evoluzione ha convinto molti che l informazione sia diventata il bene commerciabile più importante della nostra epoca. L odierno interesse per la conoscenza, in particolar modo per il knowledge management, rimane quindi orientato all efficienza commerciale ma è emersa la convinzione che, per raggiungere obiettivi che permettano di essere competitivi, sia necessario considerare tutti gli aspetti della persona-lavoratore, a partire dalla motivazione e dalla soddisfazione personale, come un valore aggiunto dell'impresa, che è utile capitalizzare. Dato quanto sopra, non sarà difficile immaginare che gli esperti della conoscenza, vista la loro dimestichezza con problematiche relative all informazione e all apprendimento, vanno via via assumendo un ruolo fondamentale nelle nuove economie

11 Capitolo 2 LA CONOSCENZA SECONDO NONAKA E TAKEUCHI Ikujiro Nonaka e Hirotaka Takeuchi, ideatori nipponici della Teoria della conoscenza, sostengono che la creazione della conoscenza sia da intendere come un processo di diffusione nel quale il sapere creato dagli individui viene sistematizzato all interno della rete di conoscenze dell organizzazione. A partire da tale assunto Nonaka propone il modello denominato Organizational Knowledge Conversion il quale presenta il processo di gestione della conoscenza come una spirale nella quale viene creata sempre nuova conoscenza (fig. 1.1) 1. FIGURA il modello Organizational Knowledge Conversion 1 Nonaka, I. And Takeuchi, H. (1995), The Knowledge Creating Company - how Japanese Companies Create the Dynamics of Innovation, Oxford University Press, Oxford, UK

12 Come esemplificato nella figura proposta, la spirale riguarda le dinamiche di creazione della conoscenza basate sulle conversioni tacita/esplicita attraverso i processi di socializzazione, esternalizzazione, combinazione, ed internalizzazione (modello SECI). Tale spirale avviene nel cosiddetto Ba ovvero il luogo fisico o virtuale per la creazione della conoscenza. Nel modello integrato dallo stesso Nonaka nel 2001, il processo a spirale si sviluppa lungo due dimensioni: la prima, detta epistemologica, riguarda le interazioni esistenti tra la conoscenza tacita e quella esplicita; la seconda dimensione, ontologica, concerne gli individui e l organizzazione. Secondo questo modello un organizzazione è in grado di creare conoscenza solo attraverso gli individui in essa operanti. Pertanto, auspica una valorizzazione ed un sostenimento delle personalità più creative attraverso l inserimento di esse in un contesto in cui si crei conoscenza. Il sistema di gestione della conoscenza deve, poi, occuparsi della sua sedimentazione, della sua circolazione e del suo riutilizzo (o riciclaggio) in modo che la conoscenza possa essere depositata in diversi repository e trattata con gli strumenti tipici dell information and communication technology

13 Capitolo 3 IL MODELLO SECI Il modello Organizational Knowledge Conversion descrive le dinamiche di sviluppo della conoscenza come un processo a spirale che riguarda il passaggio da livelli ontologici individuali verso livelli di gruppo che possono coinvolgere anche più organizzazioni. Questo processo è governato dal modello SECI, proposto da Nonaka qualche hanno prima del modello Organizational Knowledge Conversion (fig. 1.2) 2. FIGURA Il processo SECI 2 Nonaka, I. And Takeuchi, H. (1995), The Knowledge Creating Company - how Japanese Companies Create the Dynamics of Innovation, Oxford University Press, Oxford, UK

14 Come già accennato, nel modello SECI vengono postulate quattro modalità di conversione della conoscenza: socializzazione, esternalizzazione, combinazione, internalizzazione. La socializzazione indica il processo di trasferimento della conoscenza tacita da individuo a individuo senza che questa cambi forma. Il trasferimento di conoscenza tacita non avviene tramite il linguaggio (essendo la conoscenza in questione non codificabile), ma attraverso un processo di apprendimento basato sull osservazione, l imitazione, la pratica e l esperienza. La socializzazione consiste nel learning by watching, concetto complementare al learning by doing (apprendimento attraverso l azione). Nella socializzazione la creazione della conoscenza si fonda sull osservazione e l esperienza, la socializzazione, però, rappresenta una forma di creazione di conoscenza limitata, in quanto quest ultima permane sempre ad un livello tacito e di conseguenza risulta essere molto difficile da diffondere a livello organizzativo. Essa, però, assume rilevanza fondamentale in quanto contribuisce all arricchimento del capitale umano presente in un organizzazione. La socializzazione è supportata soprattutto dagli strumenti tecnologici di groupware e di comunicazione/collaborazione sincrona quali le video conferenze, l instant messaging, le chat, l e-learning, i blog, i forum anche se ognuno di essi presenta delle limitazioni rispetto al contatto diretto. L esternalizzazione riguarda la trasformazione della conoscenza tacita in conoscenza esplicita e rappresenta la vera novità nella teoria dell apprendimento organizzativo. Per effettuare la codifica della conoscenza tacita presente in un organizzazione, per definizione, in forma non codificata, si ricorre all uso del linguaggio naturale e di linguaggi astratti che permettono diversi gradi di strutturazione dell informazione. Ciò facilita il processo di conversione della conoscenza che tende a svilupparsi attorno a specifici schemi di comunicazione ed interazione tra i membri dell organizzazione. Il processo di conversione della conoscenza richiede, inoltre, la presenza di condizioni di ridondanza all interno dell organizzazione, ovvero la presenza di

15 una molteplicità di opportunità di scambio e di verifica incrociata delle conoscenze in possesso dei singoli soggetti. La continuità dell interazione e la ridondanza dei contesti consentono ai membri dell organizzazione di avere accesso alle esperienze maturate. L esternalizzazione trae profondo beneficio dalle tecnologie dell informazione che abilitano la cattura e l acquisizione della conoscenza esplicita, la sua memorizzazione, secondo appositi formati caratterizzati da diversi gradi di strutturazione e formalizzazione, in supporti adeguati che possono essere acceduti per dare origine alla combinazione. Le tecnologie usate sono principalmente quelle del knowledge acquisition, dei database, del document/content management. La combinazione consiste nel passaggio di conoscenze esplicite tra individui attraverso le interazioni sociali e si svolge, tipicamente, attraverso il dialogo e la comunicazione, abilitata direttamente in forma sincrona e asincrona dalle tecnologie dell informazione. Gli individui scambiano e combinano conoscenza avvalendosi di diversi strumenti come incontri, documenti, telefonate, reti informatiche, canali di comunicazione e collaborazione. Quando in un organizzazione le informazioni provenienti da varie fonti vengono sintetizzate in un rapporto, in un grafico, in uno strumento che consenta di esprimere con efficacia la situazione dell azienda, si realizza una codificazione della conoscenza che riesce ad essere più completa e sistematica delle singole conoscenze (esplicite) individuali o di quelle detenute da singole partizioni organizzative. La combinazione diventa l area dove le tecnologie dell informazione giocano un ruolo fondamentale. La conoscenza esplicita può essere espressa in documenti testuali, , database, pagine web, etc. e può risultare più o meno trattabile in funzione del grado di formalizzazione e strutturazione con la quale risulta essere espressa: maggiore è il grado di strutturazione, più potenti ed espressivi sono gli strumenti informatici in grado di trattarla (ad esempio, le tecnologie delle basi di dati e dei data warehouse usati in applicazioni di supporto alle decisioni). Negli ultimi anni stanno facendo la loro comparsa sul mercato nuove tecnologie basate sulla rappresentazione di ontologie formali e sulla gestione di dati semi e non strutturati che stanno rendendo trattabile per via automatica anche la

16 conoscenza esplicita; le tecnologie per la rappresentazione di workflow stanno rendendo sempre più agile la rappresentazione formale dei processi aziendali e della componente procedurale della conoscenza esplicita. La conseguenza più evidente è che le tecnologie dell informazione stanno trasformando e ampliando le possibilità di trattare la componente strutturale del capitale intellettuale composta in gran parte dalla conoscenza sedimentata nei sistemi informativi aziendali. L internalizzazione riguarda la conversione della conoscenza esplicita in conoscenza tacita. La conoscenza esplicita, comunicata ad un individuo, diventa parte del suo bagaglio di conoscenza e della sua capacità di fare, traducendosi concretamente da esplicita in tacita; la conversione è tanto più facile quanto più la conoscenza è rappresentata in documenti elettronici e non, manuali, procedure etc. che ne facilitino la trasmissione anche ad altri soggetti. Gli strumenti di e-learning interattivi, le applicazioni di workgroup, le tecnologie di comunicazione sincrona e asincrona permettono, infatti, una comunicazione bidirezionale, sia in senso verticale (da docente a discente e da discente a docente), che in senso orizzontale (da discente a discente). L e-learning ed il groupware abituano a condividere in rete con gli altri le proprie conoscenze ed educano all apprendimento continuo, sviluppando così la capacità di ricercare, selezionare ed acquisire conoscenza in ogni momento. Alla conclusione del processo SECI, che può culminare con la realizzazione di un nuovo progetto o con l ottenimento di un nuovo prodotto, si ha un nuovo inizio dello stesso ma ad un livello di conoscenze complessivo superiore, sia per quanto riguarda gli individui che l organizzazione. Ciò si traduce in un compiuto aumento del capitale intellettuale nelle sue diverse componenti: umane, organizzative e relazionali. Un opportuno orientamento della struttura organizzativa e corrette soluzioni tecnologiche a supporto di questo ciclo possono potenziarne gli effetti della gestione della conoscenza sulla crescita del capitale intellettuale

17 I modelli di interazione sociale Il modello SECI mostra che il processo di creazione della conoscenza è senza fine. Esso nasce a livello individuale e si sviluppa a livello di gruppo concludendosi a livello organizzativo. Affinché questo processo possa avere luogo è necessario creare le condizioni al contorno che lo rendano possibile. Negli ultimi anni sono stati proposti diversi modelli di interazione sociale che supportano il realizzarsi del processo SECI; tra questi si possono citare, in particolare, il Ba e le comunità di pratica. Il modello di interazione sociale chiamato Ba (termine giapponese che significa posto, luogo, contesto per uno scambio creativo ) proposto da Nonaka esplicita le modalità attraverso le quali persone comunicano in modo da realizzare il processo di conversione della conoscenza da tacita ad esplicita. Il Ba può essere uno spazio fisico, come un ufficio, o anche un modello mentale condiviso, come quello presente all interno di una rete di relazioni fra persone che condividono gli stessi interessi od obiettivi. Il Ba può anche essere uno spazio virtuale (Cyber Ba) creato da opportune tecnologie dell informazione e comunicazione che facilitano e regolano la conversione della conoscenza. Nonaka individua diverse tipologie di Ba ognuna finalizzata a supportare una diversa fase del processo SECI 3 : a. Originating Ba, nel quale la conversione di conoscenza tacita in tacita (socializzazione) avviene attraverso l interazione faccia a faccia fra gli individui. L interazione avviene in un luogo ove è possibile condividere esperienze, emozioni, sentimenti, modelli mentali. Per realizzare l Originating Ba è importante che siano rimosse le barriere che impediscono la circolazione della conoscenza. Per questo scopo possono essere d aiuto le tecnologie dell informazione e della comunicazione che possono simulare un possibile ambiente per lo scambio di conoscenza tacita; 3 Nonaka, I. And Takeuchi, H. (1995), The Knowledge Creating Company - how Japanese Companies Create the Dynamics of Innovation, Oxford University Press, Oxford, UK

18 b. Dialoguing Ba, nel quale la conversione di conoscenza tacita in esplicita (esternalizzazione) avviene grazie ad un luogo destinato all interazione e alle discussioni creative e attraverso il quale nascono nuovi concetti da gruppi o team. Comunità di individui possono condividere conoscenza attraverso meeting fisici, riunioni personali o strumenti per il lavoro collaborativo on-line; c. Sistemizing Ba, nel quale la conversione di conoscenza esplicita in esplicita (combinazione) è realizzata e migliorata dalla disponibilità di tecnologie dell informazione che forniscono strumenti per il trattamento della conoscenza esplicita codificata nei diversi possibili formati. In questo modo, un gran numero di persone possono partecipare al processo di creazione, sistematizzazione e classificazione della conoscenza; d. Exercising Ba, nel quale la conversione di conoscenza esplicita in tacita (internalizzazione) avviene tramite il training on the job. Anche in questo caso le tecnologie dell informazione (Internet, reti intranet, manuali elettronici, sistemi esperti, sistemi di gestione documentale basati su ontologie, sistemi di e-learning, etc.) supportano la conversione della conoscenza assistendo l apprendimento da parte degli individui. Un secondo importante modello di rappresentazione delle interazioni sociali finalizzate alla generazione e allo sviluppo di capitale intellettuale è quello delle comunità di pratica. Una comunità di pratica è costituita da un gruppo di persone che condividono un patrimonio di conoscenze comune e che possono avere comuni interessi ed obiettivi. Nelle comunità di pratica, costituite sia in maniera formale che informale, gli individui interagiscono in modo informale, scambiandosi le reciproche conoscenze sui temi di interesse; i processi di scambio provocano la generazione e la condivisione di nuova conoscenza. Una comunità di pratica può nascere e svilupparsi spontaneamente in qualunque organizzazione, mediante un processo di socializzazione finalizzato alla condivisione delle esperienze quotidiane e delle pratiche lavorative; una volta formata è tenuta insieme dalla forte coesione e dallo spirito di gruppo dei

19 partecipanti. Le conoscenze prodotte e scambiate da queste aggregazioni sociali sono prevalentemente tacite e non scritte, vengono accettate in modo universale e diventano familiari nella comunità. Questo perché l appartenenza al gruppo non viene messa in discussione. Un individuo può appartenere a diverse comunità di pratica più o meno strutturate, e passa dall una all altra spontaneamente. Le nascita ed il mantenimento di comunità di pratica sono fortemente favoriti dalle tecnologie dell informazione, consentendo la costituzione di comunità virtuali e delocalizzate. Inoltre, le tecnologie dell informazione, permettono di catturare ed acquisire una parte della conoscenza tacita, rendendola esplicita. Nelle moderne organizzazioni è sempre più diffusa la costituzione di queste comunità in modo da favorire il processo di creazione e di condivisione delle conoscenze e delle esperienze fra i lavoratori. Classificazione della conoscenza Le tecnologie ICT del knowledge management costituiscono il vero fattore abilitante di qualunque strategia di gestione della conoscenza. Comprendere le potenzialità offerte dalle diverse soluzioni tecnologiche disponibili è di fondamentale importanza ai fini della loro corretta applicazione: il tentativo di creare una cultura della gestione della conoscenza condivisa, basata esclusivamente su un approccio organizzativo e sull attiva collaborazione fra le persone, senza la presenza di un adeguato sistema informatico, porta a risultati necessariamente parziali. D altro canto, le componenti e le implicazioni organizzative del capitale intellettuale mostrano come lo scopo delle tecnologie per il knowledge management debba essere finalizzato a gestire la conoscenza in sé e a facilitare l implementazione dei processi sottostanti. Il modello del Fraunhofer IPK evidenzia come la creazione di un adeguata soluzione per la gestione della conoscenza all interno di una organizzazione richieda, oltre alla corretta definizione ed analisi delle variabili umane ed organizzative in gioco, anche l utilizzo delle più appropriate tecnologie in grado

20 di gestire la conoscenza nelle sue diverse forme. Sono le tecnologie dell informazione e della comunicazione che rendono possibile la realizzazione del sistema aziendale di gestione della conoscenza. Esse, infatti, da un lato favoriscono la costituzione delle configurazioni organizzative a supporto della gestione della conoscenza, dall altro rendono possibile la definizione di funzionalità che permettono il del ciclo di vita della conoscenza e lo sfruttamento della conoscenza nei processi di business. Le tecnologie dell informazione rappresentano, dunque, l infrastruttura di supporto alle attività chiave di creazione, immagazzinamento, distribuzione e applicazione della conoscenza. Al fine di utilizzare in maniera efficace le ICT, deve essere tenuto presente che la conoscenza si manifesta nell organizzazione sotto forme diverse, ognuna delle quali deve essere trattata mediante appositi strumenti. Più in dettaglio, in un organizzazione, la conoscenza può essere presente in forma: a. tacita, rappresentata da ciò che le persone sanno ma che non possono esprimere mediante normali canali di comunicazione (asincroni e/o basati sulla scrittura). Come affermato da Polanyi, infatti, possiamo conoscere più di quanto possiamo esprimere 4. La conoscenza tacita è strettamente legata alla persona, dipende fortemente dal contesto, è difficilmente esplicitabile e ancor meno formalizzabile. Tale conoscenza, principalmente pratica, è tipica dell essere esperti in qualche campo e si manifesta in quel particolare momento dell esercizio delle expertise che è la decisione. Questa forma di conoscenza può essere trasferita, per esempio, mediante meccanismi di imitazione; essa richiede, pertanto, tecnologie specifiche per il suo trattamento, provenienti soprattutto dal settore delle comunicazioni che integrano audio, video, grafica e testo; b. implicita, posseduta dalle persone, è quella componente della conoscenza che non si può o non si vuole esprimere, ma di cui si è consapevoli e che si sarebbe in grado di esplicitare, formalizzare, comunicare. Le tecnologie per il trattamento di questo tipo di conoscenza, sono quelle specifiche di 4 Polanyi M. (1966), The Tacit Dimension, Routledge and Kegan Paul

21 acquisizione, di comunicazione, di rappresentazione formale della conoscenza (database, ontologie, workflow); c. esplicita, disponibile in forma sedimentata fuori dalle persone, all interno di documenti, database, processi etc. Le tecnologie per il trattamento di tale forma dipendono dal livello di strutturazione con il quale la conoscenza è reperibile nell organizzazione. Essa, infatti, può presentarsi in formato: o strutturato, quando immagazzinata in database aziendali, in sistemi di gestione di processi, in sistemi per la rappresentazione della conoscenza che fanno uso di ontologie; o semi-strutturato, quando immagazzinata nelle pagine web delle intranet aziendali e di Internet (basate su HTML ed XML); o non-strutturato, quando accumulata in documenti testuali di vario genere presenti nell organizzazione. Le tecnologie per la gestione della conoscenza attuali e future devono tenere presente che la conoscenza si genera nelle menti degli individui come una combinazione fluida di esperienze, valori, informazioni contestuali, saperi di esperti e che fluisce da un individuo all altro. Inoltre, solo una parte della conoscenza finisce con il divenire esplicita, perché raccolta nei sistemi informativi nei diversi formati possibili. La componente strutturata risulta essere di gran lunga inferiore a quella semi e non-struttura secondo un rapporto stimato del 20% contro l 80%. Alcune delle aree scientifiche principali sono le basi di dati, i sistemi informativi, l intelligenza artificiale, il knowledge discovery, l information retrieval, il natural language processing, le interfacce uomo macchina. I modelli, le tecniche, gli strumenti concettuali frutto della ricerca nel settore IT, hanno dato origine, negli ultimi anni, a tecnologie che giocano un ruolo centrale nella rappresentazione formale della conoscenza (database), nella conoscenza contenuta in grandi moli di dati (knowledge discovery), nell uso collaborativo della conoscenza tacita, implicita ed esplicita (workgroup), nel velocizzare ed abilitare le comunicazioni video (communication and collaboration system),

22 nell esplicitare la conoscenza implicita (knowledge acquisition), nel favorire i processi di apprendimento organizzativo (e-learning)

23 Capitolo 4 IL TRATTAMENTO DELLA CONOSCENZA TACITA E IMPLICITA Knowledge acquisition applications Affinché la conoscenza possa essere gestita deve essere catturata ed acquisita in forme opportune ai fini del suo trattamento. Le applicazioni di knowledge acquisition sono destinate all acquisizione e all esplicitazione delle conoscenze tacite ed implicite possedute dalle persone operanti in un organizzazione e alla rappresentazione in forma strutturata della conoscenza contenuta in insiemi di documenti. La knowledge acquisition può essere definita come l insieme dei metodi e delle tecniche utilizzati dai knowledge engineer per elicitare ed estrarre conoscenza da esperti, da testi, da manuali tecnici, da lavori scientifici al fine del trasferimento della stessa in knowledge base. Tipicamente il processo di knowledge acquisition consiste nella costruzione di ontologie, effettuata utilizzando un apposito formalismo, e database utilizzati anche per inferire nuova conoscenza tramite processi di ragionamento automatico o di knowledge discovery. Queste tecnologie rappresentano uno dei punti nodali nella costruzione di sistemi di gestione della conoscenza, costituendo il collo di bottiglia di tutte le applicazioni di knowledge management. Questo perché, tradizionalmente, il processo di acquisizione della conoscenza è sempre stato un processo manuale, costoso in termini di tempo e soggetto ad interpretazioni soggettive non sempre condivise. Negli ultimi anni sono stati compiuti sforzi notevoli verso l automazione dei processi di knowledge acquisition, ma ancora non sono disponibili insiemi di strumenti che supportino in maniera esauriente, un processo semi-automatico di

24 acquisizione. Attualmente, gli strumenti di knowledge acquisition disponibili, sono fondati su altre tecnologie di base quali la information extraction, il wrapping, text mining, l audio mining, l information retrieval, il natural language processing. Nel futuro, lo sforzo sarà orientato verso l ottenimento di strumenti semiautomatici in grado di produrre la riduzione del costo delle attività di knowledge acquisition e l aumento dell oggettività della conoscenza presente in un dominio. I nuovi sistemi di knowledge acquisition consentono di velocizzare la fase di modellazione della conoscenza di un organizzazione e di rendere semi automatica l acquisizione di nuova conoscenza (sia essa una nuova istanza di un concetto già noto o un nuovo concetto stesso). La conoscenza, una volta acquisita, può essere convertita in forme trattabili da applicazioni software, sia dalle persone, sia da altre applicazioni preposte alla gestione

25 Capitolo 5 IL TRATTAMENTO DELLA CONOSCENZA IN FORMATO SEMI O NON-STRUTTURATO Le sorgenti di conoscenza esplicita in forma semi e non-strutturata sono enormemente cresciute in numero e dimensioni, tanto che Internet tende a divenire il repository universale della conoscenza umana. Si stima che circa l 80% di tutta la conoscenza esplicita presente nelle organizzazioni sia in forma semi o non-strutturata contenuta all interno di documenti testuali e pagine web reperibili nelle intranet e su Internet. La componente strutturale del capitale intellettuale dipende fortemente dalla conoscenza semi e non-strutturata: la possibilità di accedere in maniera intelligente alle sorgenti che la contengono, di valore strategico per le organizzazioni knowledge intensive, rivestirà sempre più importanza nei prossimi anni. Nel seguito sono brevemente descritte le aree scientifico-tecnologiche che rendono possibile lo sviluppo di strumenti per il trattamento della conoscenza esplicita in forma semi o non-strutturata. Questi aree, stanno acquisendo importanza crescente nel panorama delle tecnologie per la gestione della conoscenza, sia in termini di interesse da parte del mondo scientifico, sia in termini di quote di mercato. Natural Language Processing Il processamento del linguaggio naturale (Natural Language Processing - NLP) è uno dei temi centrali legati alla gestione della conoscenza esplicita in

26 formato semi o non strutturato. Disporre di strumenti di natural language processing è fondamentale per il trattamento dell enorme mole di informazioni disponibili sotto forma di testo elettronico. A causa della immensa complessità e dipendenza dal dominio del linguaggio umano, il problema di riuscire ad acquisire e trattare, per via automatica, la conoscenza espressa attraverso testi in linguaggio naturale è un compito estremamente difficile. Questo tema sarà sicuramente di interesse anche negli anni futuri e su di esso si concentrerà, in maniera crescente, l attenzione della comunità scientifica e dei produttori di tecnologie per la gestione della conoscenza. Sul mercato delle applicazioni per la gestione della conoscenza, il bisogno di una robusta tecnologia per il trattamento del linguaggio naturale sta rapidamente crescendo e si sta manifestando in diversi modi, stimolato dall esplosione della disponibilità di testo elettronico on-line che ha fatto diventare cruciale la possibilità di estrarre da esso dati, informazioni e conoscenza rilevante per scopi di business. Emerge, da un lato, la necessità di strumenti in grado di interrogare i documenti sulla base della semantica dei contenuti, dall altro, trattare le differenze di lingua esistenti tra i diversi paesi, la quale fa crescere l interesse verso le traduzioni automatiche. Per soddisfare le necessità degli utenti occorrono algoritmiche potenti, in grado di riconoscere concetti all interno del testo elettronico e tali da permettere di superare il collo di bottiglia che limita la gestione della conoscenza contenuta nei documenti elettronici. Trattare il linguaggio naturale per via automatica, ai fini della sua comprensione, è un attività estremamente complessa che include una varietà di sotto-attività finalizzate alla trasformazione di un documento testuale in una struttura trattabile per via automatica. Il primo passo di ogni task di natural language processing è l analisi sintattica che riguarda la determinazione della struttura grammaticale di una frase. Per fare questo, esistono algoritmi in grado di operare il part-of-speech tagging (POS-tagging), attraverso il quale è possibile definire il ruolo giocato in una frase da un termine (nome, aggettivo, verbo, avverbio). L analisi sintattica soffre dell ambiguità del linguaggio naturale e della dipendenza del contesto che genera una complessità combinatoria nel riconoscimento delle strutture

27 sintattiche. Gli algoritmi più avanzati sono in grado di annotare correttamente il 95% di termini presenti in un testo. Il secondo passo è l analisi semantica, nella quale viene effettuata la disambiguazione del testo ed il parsing della semantica. La disambiguazione riguarda la scelta di uno dei possibili significati che un termine può avere all interno di una frase usando delle euristiche; il parsing della semantica consiste nell identificazione di porzioni di frasi aventi un preciso significato mappato in apposite strutture formali che consentono l interrogazione del testo usando linguaggi ad hoc. Le tecniche di natural language processing sono, inoltre, alla base della machine-translation, che consiste nella applicazione di algoritmi basati su euristiche per la traduzione automatica da una lingua ad un altra. Il problema della traduzione è legato alla capacità di disambiguare i significati dei termini e risolvere la dipendenza dal contesto. Information retrieval L Information retrieval (IR) è la tecnologia che sta alla base dei motori di ricerca. Si occupa dell indicizzazione e della ricerca di informazioni che si presentano espresse in linguaggio naturale all interno di documenti testuali e pagine web. In letteratura, sono presenti diversi approcci di information retrieval, tutti basati sulla rappresentazione di un documento testuale mediante modelli nei quali l elemento base per la ricerca sono le parole contenute nei documenti. Nelle tecniche di information retrieval, i documenti sono rappresentati mediante opportuni modelli che tengono conto della presenza di una parola, della frequenza con cui questa si manifesta in un documento, della presenza di particolari combinazioni di parole rappresentative di un certo concetto in una certa lingua. Le interrogazioni che gli utenti sottopongono ai motori di information retrieval utilizzano gli indici di parole, costruiti secondo tali modelli, al fine di rintracciare l insieme di documenti che rispondono alla query e che si suppone possano contenere la conoscenza desiderata. La contestualità del linguaggio umano e i

28 fenomeni di polisemia, sinonimia tipici della lingua, fanno sì, che questi strumenti, abbiamo limitate capacità di richiamo e di precisione. L utilizzo di modelli basati su tecniche ed algoritmi di natural language processing migliora le prestazioni dei motori di information retrieval. knowledge discovery in text È il risultato di un insieme di tecniche ottenute come generalizzazione e contestualizzazione di quelle utilizzate nel knowledge discovery in database (KDD) a sorgenti informative disponibili in formato testuale. Lo scopo è quello di estrarre conoscenza, in maniera automatica, da basi documentali di grandi dimensioni attraverso: la classificazione dei documenti in base al tema trattato, il raggruppamento di documenti che trattano lo stesso argomento. Il processo di knowledge discovery in database, definito compiutamente da Feldman nel 1996, è caratterizzato da una struttura, ormai definitivamente accettata dalla comunità scientifica, composta da quattro fasi: document acquisition, document preprocessing, text mining, result interpretation and refinement. Nella fase di document acquisition vengono acquisite, attraverso tecniche ed algoritmi di crawling, collezioni di documenti di potenziale interesse di vario formato, provenienti da differenti sorgenti. I documenti acquisiti, solitamente ricondotti ad un formato standard, vengono memorizzati in un repository. Nella fase di document pre-processing, ogni documento viene analizzato al fine di estrarne le features che lo caratterizzano sulla base delle quale viene effettuato il mining. In questo modo, i documenti memorizzati nel repository, assumono una forma strutturata dipendente dalla natura delle features estratte. La tipologia delle features dipende, generalmente, da due fattori principali: gli algoritmi di mining che si utilizzano per l analisi, la tipologia e la forma della conoscenza che si intende estrarre. Gli estrattori di features si caratterizzano in ragione delle tecnologie di base utilizzate, e sono: espressioni regolari, stemmer (questa è la tecnica di riferimento utilizzata in questo specifico

29 progetto), lemmatizer, POS-tagger, etc. Inoltre si caratterizzano in base alla precisione e alla completezza che possono garantire al processo di estrazione. La fase di text mining consiste nell applicazione di un insieme di metodi, tecniche e strumenti destinati alla scoperta di regolarità all interno di sorgenti informative semi o non strutturate. Vi è una forte correlazione con la fase precedente che deve predisporre un insieme d informazioni adatte agli algoritmi di text mining, attraverso l estrazione di features adeguate. A questo proposito, in presenza della fase di pre-processing, le tecniche adoperabili per il text mining, non sono necessariamente distinguibili da quelle di data mining. Di conseguenza, algoritmi di classificazione, clustering e generazione di regole, possono essere utilmente applicate alle rappresentazioni (strutturate) dei testi prodotte dalla fase di preprocessing. Nella fase di results interpretation and refinement viene visualizzata la conoscenza estratta. Essa può presentarsi sotto varie forme (gruppi di documenti con contenuti simili, liste di concetti contenuti nei documenti, associazioni tra documenti, trend temporali sui contenuti dei documenti, etc.). La visualizzazione, può anche avvenire dopo processi di raffinamento, attraverso apposite interfacce o moduli automatici in grado di mostrare i risultati finali secondo le esigenze dell utente. È bene sottolineare come il ruolo del knowledge discovery in database non si riduca nella risoluzione del problema della selezione di documenti rilevanti ad una data esigenza informativa. Esso, infatti, può potenzialmente svolgere un ruolo rilevante per affrontare la più generale problematica della gestione dei contenuti informativi all interno delle organizzazioni. Un esempio importante, di tale potenzialità applicativa, è data dalla possibilità di realizzare, attraverso tecniche di text mining, strumenti di classificazione automatica di contenuti documentali, utili alla realizzazione di svariati servizi di fruizione dei contenuti

30 Document and content management La gestione della conoscenza, contenuta in documenti testuali, è una delle problematiche maggiormente sentite nelle organizzazioni. Tale problematica è affrontata mediante la famiglia delle tecnologie identificate con il nome di document and content management. I sistemi per la gestione di documenti e contenuti offrono funzionalità di memorizzazione, rinvenimento, classificazione, pubblicazione e distribuzione di documenti e contenuti, basati su algoritmi e tecniche di information retrieval, ontology-based retrieval, adaptative user profiling, natural language processing e text mining. Queste tecnologie offrono funzionalità quali: a. document/content storing dedicati alla memorizzazione efficiente di documenti; b. document management attraverso tecniche di retrieval, estrazione e crawling che supportano la classificazione in base al contenuto e a diversi parametri tipici dell organizzazione, espressi nei metadati a corredo dei documenti; c. document/content fruition che supportano l utente nella ricerca dei contenuti utili a soddisfare i suoi bisogni informativi, mediante tecniche di interrogazione basate su parole chiave o concetti la cui semantica è formalmente espressa mediante ontologie; d. document/content sharing che supportano gli utenti nella condivisione efficace ed efficiente di contenuti informativi di tipo documentale anche all interno di comunità di pratica, caratteristiche dell organizzazione, composte da soggetti interni ed esterni ad essa. Case based reasoning In molte situazioni, la maniera naturale per un esperto di descrivere la propria conoscenza, è attraverso esempi, storie, casi. In questo modo l esperto può

31 trasferire la propria conoscenza ad altre persone ( apprendisti ), chiedendo loro di risolvere problemi nuovi ma simili, usando quanto appreso. Il case based reasoning (CBR), mira ad imitare tale comportamento, ed è utilizzato per il problem solving automatico che utilizza l apprendimento da problemi simili preesistenti (casi), per risolvere un nuovo problema. Esso costituisce, in altri termini, un approccio allo sviluppo di knowledge-base system capaci di recuperare e riutilizzare soluzioni che sono state utili in situazioni simili verificatesi in passato. Un sistema di case based reasoning richiede la memorizzazione di una collezione di esperienze pregresse (casi), descritti in maniera opportuna e memorizzate in una knowledge base. Ogni caso è costituito da un problema e da una soluzione appositamente descritti mediante opportuni formalismi. Il linguaggio di descrizione dei casi deve permette di esprimere la conoscenza sotto forma di regole generali del dominio ed i passi da compiere per passare dal problema alla soluzione. Quando si verifica un nuovo problema, viene effettuata una interrogazione sul sistema contenente una descrizione del nuovo problema, avente la stessa struttura dei problemi già memorizzati nella knowledge base. In base a funzioni di calcolo della similarità, tra il nuovo problema e i problemi presenti, il sistema genera la risposta all interrogazione sotto forma di problemi simili a quello proposto, corredati dal loro insieme di soluzioni. Le soluzioni trovate, vengono poi applicate al nuovo problema (così come sono o adattate), affinché possano risultare realmente risolutive grazie all intervento umano. La soluzione trovata al nuovo problema viene memorizzata nella knowledge base in modo che il sistema possa imparare ed adattarsi alla realtà che cambia continuamente. In questo modo, i sistemi di case based reasoning, si presentano come sistemi in grado di apprendere e di gestire la conoscenza. Ovviamente, la loro efficacia, dipende da come i casi sono memorizzati, da come sono strutturate le query, da come è misurata la similarità, dal livello di aggiornamento

32 Capitolo 6 IL TRATTAMENTO DELLA CONOSCENZA IN FORMATO STRUTTURATO È questa, l area tecnologica dedicata principalmente al trattamento di dati e informazioni in formato strutturato; essa include le tecnologie dei database, dei data warehouse, dell OLAP e le tecnologie per il knowledge discovery in database. Queste tecnologie dell informazione sono le più largamente usate dalle organizzazioni e costituiscono il settore commerciale più consolidato. Database, data warehouse e OLAP Un database è costituito da una collezione di informazioni strutturate nel quale i dati sono memorizzati in tabelle, ognuna delle quali descrive una entità del mondo reale tramite un insieme di attributi. Nei database relazionali esistono delle relazioni formali tra le tabelle che legano tra loro le diverse entità. Il modello relazionale, sottostante alle basi di dati relazionali, è uno dei modelli di maggiore successo nel settore dell informatica e gli RDBMS (relational database management system) rappresentano una delle tecnologie più diffuse e usate nel settore dell informazione. I DBMS disponibili sul mercato implementano il linguaggio di interrogazione SQL che consente di reperire le entità memorizzate nei database in maniera semplice e veloce. Accanto agli RDBMS esistono gli ODBMS (object database management system) basati su un modello ad oggetti. Questi ultimi, pur presentando interessanti caratteristiche ai fini della modellazione della conoscenza organizzativa, non hanno avuto grande diffusione

33 proprio a causa della estrema efficienza ed efficacia del modello relazione e delle relative tecnologie. Accanto alla tecnologia dei database, si è sviluppata la tecnologia dei data warehouse. Contrariamente ad un database operazionale destinato a gestire molte transazioni, un data warehouse (DW) è una collezione integrata e persistente di dati aziendali, orientata al supporto alle decisioni, costruita per favorire attività di analisi. I dati presenti in un data warehouse provengono da un insieme di sorgenti informative esterne al data warehouse, contenenti le informazioni utili ai processi decisionali aziendali. Un data warehouse si basa sul principio che i dati presenti nelle sorgenti operazionali di un organizzazione devono essere trasformati ed integrati per poter essere efficacemente utilizzati nell'ambito dei processi decisionali. Le diverse esigenze dei processi operativi rispetto a quelli decisionali, infatti, fanno sì che non possa essere utilizzata un unica architettura informatica per entrambi gli scopi. L interrogazione dei dati contenti in un data warehouse avviene tramite tecniche OLAP (on-line analytical processing). Con questo nome si identifica una tecnica di analisi dei dati che consente all utente di esplorare il contenuto informativo di un data warehouse attraverso un insieme di operazioni che sfrutta una rappresentazione dei dati basata sul modello multidimensionale. Questo modello struttura i dati in termini di misure e dimensioni: le misure sono attributi numerici che caratterizzano il fatto di business che si vuole modellare; le dimensioni rappresentano le entità in funzione delle quali si intende rappresentare le misure. Ogni dimensione può avere una struttura gerarchica in base alla quale le misure possono essere aggregate e selezionate. Ogni combinazione di valori delle dimensioni definisce un preciso valore delle misure che caratterizzano un fatto di business. Knowledge discovery in data: data, web, log, usage, mining La crescita della diffusione dei DBMS e dei data warehouse ha reso disponibili enormi quantità di dati e informazioni nei quali risulta nascosta conoscenza utile

34 ai processi decisionali e all ottimale realizzazione dei processi di business. Ciò ha fatto nascere la necessità di nuovi algoritmi, tecniche e strumenti per supportare gli utenti nel compiere analisi su grandi moli di dati. Il settore scientifico e tecnologico che tratta dell estrazione di conoscenza utile da grandi insiemi di dati in formato strutturato è noto come knowledge discovery in databases (KDD, Frawlay e Piatesky Shapiro,1990) 5. Il knowledge discovery in databases è comunemente definito come il processo interattivo ed iterativo di estrazione di conoscenza utile, da data repository e data warehouse, contenente informazioni su specifici argomenti, effettuato attraverso la ricerca ed interpretazione di pattern e modelli ottenuti avvalendosi dell'applicazione ripetuta di tecniche di data mining. Tali tecniche mirano a identificare e caratterizzare le relazioni tra dataset, cercando strutture, tendenze, regolarità, correlazioni ed evidenziando parti di conoscenza significative. Il knowledge discovery in databases, dunque, è basato su tecniche di data mining che permettono, in modo completamente automatico, l estrazione di conoscenza da grandi quantità di dati in formato strutturato. Il data mining consente di identificare e caratterizzare relazioni tra insiemi di dati senza richiedere necessariamente che l'utente formuli delle domande specifiche. Poiché le tecniche di data mining estraggono informazioni e regole precedentemente sconosciute, esse effettuano la scoperta di nuova conoscenza, differenziandosi, così, dalle tecnologie tradizionali che eseguono solo la verifica o la ricerca della conoscenza disponibile. Il data mining utilizza tecniche, derivate da diverse discipline scientifiche, quali: I. la tecniche statistiche, per esempio, le più comunemente usate per l estrazione di conoscenza comportamentale sugli utenti di servizi; II. le regole associative, usate per collegare servizi utilizzati frequentemente da un utente; 5 William J. Frawley, Gregory Piatetsky-Shapiro, Christopher J. Matheus: Knowledge Discovery in Databases: An Overview. Knowledge Discovery in Databases

35 III. il clustering, usato per individuare gruppi di utenti che mostrano pattern comportamentali simili. Il clustering è particolarmente utile per fornire contenuti personalizzati agli utenti, per eseguire segmentazione di mercato in applicazioni di e-commerce, per evidenziare le anomalie comportamentali tramite un analisi delle devianze

36 Capitolo 7 L INFRASTRUTTURA DI BASE In questa famiglia ricadono tutte le tecnologie destinate alla creazione dell infrastruttura hardware e software di base che abilita la costruzione dei sistemi per la gestione della conoscenza. L infrastruttura ha il compito di rendere disponibili i servizi agli utenti. Alla sua costruzione concorrono principalmente le tecnologie di rete Internet e intranet e gli enterprise knowledge portal. Internet e intranet Ai fini della costruzione di un sistema per la gestione della conoscenza, la prima infrastruttura necessaria è una intranet, basata sulle reti LAN. In assenza di una intranet non può esistere alcun sistema di knowledge management. Sulla intranet, infatti, vengono veicolati i servizi che realizzano le diverse fasi del ciclo di vita della conoscenza. Nelle intranet vengono utilizzate le tecnologie tipiche di Internet con server dedicati che rendono disponibili i servizi di web server e client muniti di browser. Una intranet, tuttavia, deve essere connessa ad Internet, per garantire l accessibilità delle fonti di conoscenza che questa mette a disposizione e presentare, allo stesso tempo, sistemi per la sicurezza che preservano da intrusioni indesiderate e perdita di dati rilevanti per l organizzazione. Le intranet costituiscono anche l infrastruttura di base per tutte le comunicazioni e gli scambi di dati, informazioni e conoscenza nelle diverse forme possibili. Sono il principale veicolo per la circolazione delle informazioni semi e non-strutturate contenute nelle pagine web. La intranet connette tra loro le

37 persone e i sistemi aziendali rendendo potenzialmente disponibile ed accessibile a tutti la conoscenza posseduta da ognuno dei soggetti e dei sistemi connessi. Sono le applicazioni sviluppate con le tecnologie dedicate, che devono far sì, che questa disponibilità, diventi una reale opportunità per tutti i membri dell organizzazione. Enterprise knowledge portal La tecnologia dei portali della conoscenza ha dato grande impulso alla costruzione di sistemi per la gestione del capitale intellettuale aziendale: oggi quasi tutte le organizzazioni possiedono tali tecnologie e, attraverso queste, rendono disponibili i servizi di gestione della conoscenza ai propri membri. Un enterprise knowledge portal integra diversi siti e servizi disponibili sulla intranet e su Internet, dando un unico punto di accesso. Costituisce, pertanto, una porta attraverso la quale raggiungere i luoghi nei quali la conoscenza è disponibile. Le aree di un portale, contengono diverse categorie di servizi e collegamenti a risorse presenti nella intranet e sul web. Le risorse e i servizi, sono spesso organizzati e classificati in categorie tassonomiche. I portali fanno da provider di contenuti fornendo link a tutti i siti dell organizzazione e ai siti esterni ritenuti rilevanti. I contenuti possono essere rintracciati attraverso funzionalità di ricerca avanzata o seguendo tassonomie predefinite, create da esperti delle diverse materie di interesse, provenienti dalle diverse comunità presenti nell organizzazione. Tipicamente vengono resi disponibili servizi suddivisi in base alle comunità di pratica di riferimento

38 Capitolo 8 TECNOLOGIE PER L ESTRAZIONE E L INTEGRAZIONE Questa famiglia di tecnologie gioca un ruolo fondamentale nella creazione di applicazioni per la gestione delle risorse intellettuali. La tradizionale presenza, all interno delle organizzazioni, di sistemi legacy e di applicazioni di diversa natura, fa sì che la conoscenza si presenti distribuita e con forti eterogeneità semantiche e strutturali. Queste eterogeneità devono essere risolte e le informazioni contenute in sistemi eterogenei, devono essere integrate ai fini della costruzione di knowledge management system. L integrazione riguarda sia gli aspetti semantici a parità di formato che gli aspetti relativi al formato a parità di semantica. La disponibilità di un middleware che integri le sorgenti informative, abilita la gestione della conoscenza generata ed utilizzata nelle diverse fasi ed attività dei processi. Per tali motivi, le tematiche di enterprise application integration sono divenute centrali nel mondo della ricerca e sul mercato dell IT. Spesso, la presenza di dati ed informazioni rilevanti, si manifesta in sorgenti non direttamente accessibili all organizzazione. In questo caso è necessario estendere l integrazione con strumenti che consentano l accesso a sorgenti esterne. Un altro problema rilevante concerne la presenza di informazioni in formato semi e nonstrutturato che richiedono di essere strutturate prima del loro sfruttamento. In questi casi, diventano di fondamentale importanza le tecnologie di wrapping ed information extraction, che contribuiscono al popolamento di porzioni di basi di conoscenza utili ai sistemi di gestione

39 Wrapping crawling La disponibilità di enormi quantità di informazioni raggiungibili attraverso il web costituisce una risorsa rilevante per i bisogni di conoscenza di un organizzazione. Al contempo, la ricerca e lo sfruttamento di tale conoscenza presenta diversi problemi legati all enorme dimensione del web e alla natura semi e non-strutturata dei dati in esso presenti. Le tecniche di accesso alle informazioni presenti sul web sono generalmente classificabili in tre categorie: parole chiave (information retrieval di cui si è già parlato in precedenza), crawling e wrapping. Le tecniche di crawling nascono dalla considerazione che gli insiemi di documenti disponibili in Internet e nelle intranet, hanno prevalentemente una struttura ipertestuale, sfruttata ai fini della selezione dei documenti pertinenti ad un bisogno informativo. La quasi totalità di documenti contiene, oltre ad informazioni direttamente rappresentate, un insieme di collegamenti ad altri documenti. E ovvio presupporre, che questi documenti collegati, contengano informazioni prossime a quelle contenute nel documento di partenza. Se, dunque, il documento di partenza contiene delle informazioni altamente pertinenti al bisogno informativo espresso dall utente, è presumibile che anche i documenti collegati contengano informazioni pertinenti con le esigenze dell utente. Questa strategia garantisce, in media, un miglioramento della precisione rispetto a strategie basate esclusivamente su parole chiave. Inoltre, negli ultimi anni si sono affacciati sul mercato strumenti di crawling in grado di analizzare la semantica di una pagina web prima di acquisirla come rilevante rispetto ai bisogni informativi espressi mediante opportune query di natura testuale. L idea alla base delle tecniche di wrapping è quella di estrarre dai documenti dati e informazioni da convertire dal formato semi o non-strutturato. Ciò consente di applicare, ai documenti così trasformati, tecniche di interrogazione evolute, come quelle in uso nei sistemi di gestione delle basi di dati, che garantiscono elevati standard di precisione e completezza. Il wrapping genera, quindi, un immagine strutturata dei documenti nella forma di una struttura XML o di una tabella di database, che potrà quindi essere analizzata con tecniche opportune

40 Information extraction Gli approcci tradizionali all information retrieval utilizzano la ricerca basata su parole chiave e tecniche statistiche per rintracciare documenti rilevanti. Le tecniche statistiche (quali quelle usate nel text mining) presentano indubbi vantaggi in presenza di grandi collezioni di documenti perché permettono di raggruppare i documenti ed automatizzare facilmente la ricerca. Le tecniche basate sulle parole, pur permettendo l indicizzazione dei documenti, presentano molte limitazioni legate ai fenomeni di sinonimia, polisemia e dipendenza dal contesto. L information extraction consiste nell attività di localizzare uno specifico insieme di dati all interno di documenti scritti in linguaggio naturale e nella memorizzazione di questi dati all interno di un database. Tipicamente, nell information extraction, si fa un massiccio uso di metodi e tecniche di natural language processing: in particolare, il testo è preventivamente annotato in modo da riconoscere le diverse componenti linguistiche di natura sintattica e successivamente vengono applicate delle regole di estrazione delle informazioni, che fanno uso di metodi di disambiguazione della semantica, finalizzati a identificare i dati da strutturare. La limitazione di queste tecniche è dovuta al fatto che le regole di estrazione sono generalmente scritte manualmente. Nel contesto di questa tesi, sono stati sviluppati algoritmi di machine-learning in grado di apprendere autonomamente le regole di estrazione, che hanno raggiunto un grado di affidabilità vicino a quello raggiungibile con le regole scritte manualmente. Il vantaggio dell information extraction è che contrariamente al natural language processing, di cui fa uso, non si pone l obiettivo generale di comprendere un testo, problema spesso computazionalmente intrattabile, ma persegue una finalità più specifica, quella di riconoscere una data tipologia di informazioni all interno di un testo. Il principale vantaggio di questo approccio è che una parte rilevante del testo può essere, di volta in volta scartata, perché non rilevante ai fini dell analisi. Questo semplifica la complessità computazionale dell information

41 extraction rispetto al natural language processing e ne fa una tecnologia utile per il trattamento della conoscenza presente in sorgenti non strutturate

42 Capitolo 9 TECNOLOGIE PER LA RAPPRESENTAZIONE DELLA CONOSCENZA Alle tecnologie viste nei paragrafi precedenti si stanno affiancando un insieme di nuove applicazioni e nuovi modelli, frutto delle più recenti ricerche nel settore informatico, in grado di dare un deciso contributo alla gestione della conoscenza presente all interno di un organizzazione. Queste tecnologie, che aprono nuovi scenari tecnologici e commerciali, sono le ontologie e i workflow: esse consentono una più efficace e raffinata rappresentazione e gestione della conoscenza dichiarativa (statica) e procedurale (dinamica) presente all interno di un dato dominio applicativo. In particolare, le ontologie, consentono la rappresentazione strutturata dei concetti caratterizzanti un organizzazione. I workflow sono in grado di dare una rappresentazione strutturata e flessibile dei processi interni ad un organizzazione, aprendo la strada ad una più efficace comprensione, gestione ed automazione degli stessi. È molto probabile che queste tecnologie, unite a quelle dei web service, degli agenti intelligenti e delle tecnologie per il trattamento della conoscenza esplicita in formato semi e non strutturato, assumeranno un ruolo sempre più rilevante nel panorama delle tecnologie per la gestione della conoscenza e del capitale intellettuale. Esse, infatti, sono in grado di dare impulso e migliorare le applicazioni già diffuse quali i sistemi di gestione documentale, di e-learning, di supporto alle decisioni, di reingegnerizzazione dei processi, di comunicazione e di lavoro collaborativo

43 Ontologie e knowledge representation and reasoning Un area scientifico-tecnologica in grado di fornire un contributo fondamentale al superamento delle attuali limitazioni nella rappresentazione formale della conoscenza organizzativa è, senz altro, il knowledge representation and reasoning (KRR). Fornisce, infatti, una varietà di metodi e tecniche, proveniente principalmente dal mondo dell intelligenza artificiale, idonea a rappresentare in maniera naturale, diverse forme di conoscenza e di ragionamento per la risoluzione di problemi complessi. Alcuni esempi di questi formalismi sono basati sulla logica (datalog, logica disgiuntiva, logica ordinata, logica descrittiva) che consente una specificazione puramente dichiarativa dei problemi. Nel contesto del knowledge representation and reasoning, assumono particolare rilevanza le ontologie, il cui scopo è quello di rappresentare mediante opportuni linguaggi e formalismi i concetti ascrivibili ad un dominio applicativo. Il corpo di questa rappresentazione formale è basato sulla concettualizzazione che consiste nella specificazione del significato dei termini relativi ad un dominio applicativo. Specificare la concettualizzazione vuol dire, quindi, attribuire un significato non ambiguo ai termini che definiscono la conoscenza in un preciso dominio. L uso di ontologie per la descrizione formale della struttura concettuale di un dominio applicativo, costituisce un aspetto importante della rappresentazione della conoscenza nel knowledge management. Le ontologie descrivono le classi di oggetti, le loro proprietà e le relazioni, in maniera simile ai modelli concettuali per basi di dati, definendo la mappa della conoscenza fornita in un applicazione di knowledge management. Workflow I workflow management system sono diventati una tecnologia chiave per gestire processi in molti domini applicativi quali, per esempio la produzione industriale,

44 la gestione di flussi finanziari, la razionalizzazione dei processi informativi, il monitoraggio delle attività sanitarie. Secondo la workflow management coalition, con il termine workflow, si intende l automazione di una parte o di un intero processo aziendale nel quale documenti, informazioni e compiti vengono passati da un partecipante ad un altro, per ricevere qualche tipo di azione, seguendo un determinato insieme di regole. Dunque, un workflow, riassume una serie di procedure che, poste in relazione le une con le altre, definiscono un contesto di lavoro strutturato, dove più unità lavorative, siano esse risorse umane, gruppi di lavoro o sistemi computerizzati, collaborano per un determinato fine. Ogni workflow è composto di un certo numero di attività e sottoprocessi (procedure), da seguire per ottenere un certo risultato a partire da determinate condizioni di partenza. Gli intelligent workflow rappresentano un evoluzione dei sistemi di workflow management che integrano, all interno di questi ultimi, strumenti tipici del knowledge management, in grado di implementare una politica di gestione intelligente dei processi aziendali. Queste tecnologie, abilitano la costruzione di un infrastruttura di comunicazione, mediante la quale i diversi attori che concorrono ad un processo, possono colloquiare tra loro. Web services e service oriented architecture Una service oriented architecture (SOA) è, essenzialmente, una collezione di web service comunicanti tra loro. La comunicazione può riguardare semplici trasferimenti di dati tra due servizi web oppure il coordinamento delle attività svolte da più servizi web. Un web service (vedremo in seguito come è stato implementato nel progetto) è un sistema software identificato da un uniform resource identifier (URI). La sua definizione può essere scoperta da altri sistemi software che possono interagire con esso usando messaggi basati su XML, convogliati attraverso opportuni protocolli di rete. La cosa più importante nei web service è la possibilità di descrivere l interfaccia del servizio in maniera standard

45 usando appositi linguaggi come il web service description language (WSDL) e renderla disponibile tramite protocolli standard quali il simple object application protocol (SOAP) e remote metod invocation (RMI). La maturazione delle tecnologie dei web service ha reso possibile ripensare la struttura dei sistemi aziendali in termini di service oriented architecture. Una service oriented architecture consente, tra l altro, di organizzare un sistema come uno o più gruppi di web services e di riorganizzare i processi, collegandoli opportunamente all universo di servizi resi disponibili nell ambito di un organizzazione o all esterno di essa. Inoltre facilitano l integrazione di sorgenti informative diverse per struttura e semantica dei dati contenuti, identificano uno specifico servizio, ricorrendo ad una moltitudine di parametri che comprendono, input ed output, qualità, affidabilità, costo, etc

46 PARTE II SEMANTIC WEB

47 Capitolo 10 LO STANDARD W3C Il Web nasce al CERN di Ginevra da un idea di Tim Berners-Lee (che ebbe l intuizione di integrare le tecnologie di networking con quelle degli ipertesti) con l obiettivo di rispondere all esigenza dei ricercatori sparsi in tutto il mondo di condividere, in tempo reale, le informazioni scientifiche. A partire da lì, si è poi diffuso su scala planetaria, modificando profondamente molti aspetti della nostra società, in campo economico e sociale. Nell'ottobre del 1994 Tim Berners-Lee, considerato padre del web, fondò al MIT (Massachusset Instutute of Technlogy), in collaborazione con il CERN (il laboratorio dal quale proveniva), un'associazione di nome World Wide Web Consortium (W3C), con lo scopo di migliorare i protocolli esistenti, i linguaggi per il WWW e per aiutare il web a sviluppare tutte le sue potenzialità. Nell'aprile del 1995 l'inria (Istituto Nazionale di Ricerca Informatica ed Automatica francese) divenne il primo membro europeo dell'organizzazione. Nel 1996 approdò anche l'asia, grazie alla Keio University of Japan. Nel 2003 l'ercim (Il Consorzio Europeo di Ricerca in Informatica e Matematica) prese il ruolo di host europeo del W3 dall'inria. Attualmente il W3C comprende circa 300 membri, tra questi aziende informatiche del calibro di Microsoft, Oracle, IBM, Sun Microsystems, Apple, Macromedia, Adobe, Google, Intel, Cisco systems, Sony, Siemens, aziende telefoniche, società di grandi dimensioni appartenenti ai più svariati settori ma strategicamente interessate alla crescita del web, università e istituti di ricerca tra i più prestigiosi. L'importanza dei suoi membri fa del W3C un organismo di grande autorevolezza e molti lo chiamano Consorzio, per antonomasia. Il W3C crea gli standard web ed il suo scopo è portare il web al suo massimo potenziale, mediante lo sviluppo di

48 tecnologie che possano creare un forum per informazioni, commercio, ispirazioni, pensiero indipendente e comprensione collettiva. W3C in sette punti 1. Accesso universale Il W3C definisce il web come l'universo delle informazioni accessibili in rete. Oggigiorno questo universo permette alla società di fruire nuove forme di comunicazione umana e offre nuove opportunità di condivisione della conoscenza. Uno degli scopi principali consiste nel rendere queste opportunità fruibili a tutti, indipendentemente da eventuali limitazioni determinate da hardware, software, supporti di rete a disposizione, lingua madre, cultura, collocazione geografica, capacità fisiche e mentali. L'impegno del Consorzio per l'accesso universale è dimostrato da varie attività: Internationalization Activity, Device Independence Activity, Voice Browser Activity, e Web Accessibility Initiative. 2. Web Semantico Attualmente si condividono le conoscenze sul web utilizzando un linguaggio umano, comprensibile dalle altre persone. Con l avvento del Semantic Web gli utenti saranno capaci di esprimersi in modo tale da interpretare e scambiare informazioni attraverso qualsiasi sorgente telematica. In questo modo, si darà la possibilità ai computer di risolvere i problemi che troviamo noiosi da affrontare, e di aiutarci a trovare velocemente quello che stiamo cercando: informazioni mediche, l'ordine di un libro attraverso un catalogo, la pubblicazione di un articolo scientifico. 3. Fiducia Il web è un mezzo di collaborazione, non un supporto di sola lettura. Di fatto, il primo browser web era anche un editor, sebbene molti oggi pensino al browsing essenzialmente in termini di visualizzazione dell'informazione, senza interazione. Per promuovere un ambiente più collaborativo il Consorzio ha progettato il Web

49 of Trust, capace di offrire riservatezza, che ispiri gradualmente fiducia e che responsabilizzi gli utenti su ciò che viene pubblicato. 4. Interoperabilità Venti anni fa si acquistavano software che funzionavano solo con altri software dello stesso produttore. Oggi esiste maggior libertà di scelta ed i componenti software devono essere interscambiabili. Il W3C è un organizzazione neutrale, che incoraggia l interoperabilità attraverso la progettazione e la promozione di linguaggi informatici e protocolli aperti (non proprietari), che evita la frammentazione del mercato. 5. Capacità evolutiva Il W3C mira all eccellenza tecnica, ma è consapevole che quello che oggi conosciamo e di cui abbiamo bisogno, potrebbe essere insufficiente per risolvere i problemi di domani. Il Consorzio si adopera, perciò, per costruire una Rete che possa facilmente evolvere, senza dover distruggere ciò che già funziona. I principi di semplicità, modularità, compatibilità ed estensibilità guidano tutti i progetti del Consorzio. 6. Decentralizzazione La decentralizzazione è un principio fondamentale dei moderni sistemi distribuiti, comprese le società umane. In un sistema centralizzato, ogni messaggio o azione deve passare attraverso un autorità centrale, causando ingorghi quando il traffico aumenta. Il progetto del Consorzio consiste nel limitare il numero delle risorse web centralizzate, al fine di ridurne la vulnerabilità nel suo complesso. La flessibilità è l indispensabile compagna dei sistemi distribuiti, è la vita e l'anima di Internet, non solo del web. 7. Multimedialità A chi non piacerebbe maggiore interattività e supporti informativi e multimediali più ricchi sulla rete? Il processo di consenso del W3C non limita la creatività dei content provider e non rende noiosa la navigazione. Grazie ai suoi membri dà ascolto ai consumatori e opera per fornire una solida infrastruttura di sviluppo grazie a linguaggi come SVG (Scalable Vector Graphics) e SMIL (Synchronized Multimedia Integration Language)

50 HTML E XML L HTML (Hypertext Markup Language) è considerato la base del World Wide Web. Questo linguaggio consente, infatti, di creare in maniera standardizzata pagine di informazioni formattate in grado di raggiungere, un numero di utenti in costante aumento. Insieme al protocollo HTTP (HyperText Transport Protocol), l HTML ha rivoluzionato il modo in cui le persone inviano e ricevono informazioni, anche se lo scopo principale per cui è stato realizzato consiste nella visualizzazione dei dati. Per questo motivo, l HTML, prende in considerazione soprattutto il modo in cui le informazioni vengono presentate e non il tipo o la struttura di tali informazioni. La necessità di espandere le capacità di questo linguaggio, ha spinto i produttori di browser a introdurre nuovi marcatori nella sintassi, rendendola a tutti gli effetti proprietaria e non più standard. Da ciò segue che una pagina HTML che sfrutti marcatori proprietari non può essere visualizzata correttamente se non con il browser adatto, con le ovvie conseguenze che ne derivano. L Extensible Markup Language (XML) è un metalinguaggio che permette di creare dei linguaggi personalizzati di markup; nasce dall esigenza di portare nel World Wide Web lo Standard Generalized Markup Language (SGML madre di tutti i linguaggi di markup), lo standard internazionale per la descrizione della struttura e del contenuto di documenti elettronici di qualsiasi tipo; ne contiene quindi tutta la potenza, ma non tutte le funzioni complesse raramente utilizzate. Si caratterizza per la semplicità con cui è possibile scrivere, condividere e trasmettere documenti nel web. L utilizzo di XML permette di superare il grosso limite attuale, che è quello della dipendenza da un tipo di documento HTML, singolo e non estensibile. Questo linguaggio è nato per permettere agli utenti di condividere le informazioni su sistemi differenti; il presupposto era che quelle informazioni fossero testo con al più alcune immagini e collegamenti ipertestuali. Attualmente, però, le informazioni sul World Wide Web sono database di testo, immagini, suoni, video, audio. Quindi l HTML è stato chiamato sempre più di frequente a fornire soluzioni a problemi che non aveva lo scopo di risolvere,

51 descrivere tipi differenti e specifici di informazioni, definire relazioni complesse di collegamenti fra documenti, trasmettere informazioni in diversi formati. Per superare questi problemi, sono state create apposite estensioni di questo linguaggio, spesso fra loro incompatibili. I vantaggi offerti da XML sono: o ampi ambiti di utilizzo, grazie ai tag personalizzati; o attitudine ad essere impiegato come formato per lo scambio di dati tra applicazioni e web; o netta distinzione tra contenuto informativo e sua presentazione; o possibilità di verificare la validità della struttura dei dati di un documento XML rispetto ad un insieme di regole liberamente definite mediante DTD (Document Type Definition) o XML-Schema; o possibilità di essere processato in modo semplice per eseguire le elaborazioni sui dati (quali ordinamenti, filtraggi, riorganizzazioni); o impiego al fine della serializzazione sintattica per altri linguaggi di markup, ad esempio SMIL6 (Synchronized Multimedia Integration Language) I documenti XML hanno una loro semantica che rimane però implicita e pertanto, non essendo definita formalmente, può essere eventualmente indovinata e compresa unicamente dall uomo, non dalla macchina. Le applicazioni che devono scambiarsi dati in formato XML devono condividere a priori ed off-line la conoscenza della semantica dei vari tag. Non esiste, infatti, un meccanismo che consenta alle applicazioni di scoprire (in un documento XML con semantica non nota a priori) quali entità rappresentino i singoli tag e non è possibile indagare circa la natura delle relazioni semantiche tra i vari tag innestati. I nomi dei tag, che spesso permettono agli esseri umani di intuirne il significato, non sono infatti significativi per il computer ed inoltre l innestamento tra elementi può rappresentare molteplici relazioni semantiche, senza però poterle specificare in modo esplicito. Un ulteriore limitazione è data dal fatto che le applicazioni che trattano documenti XML non sono capaci di trarre da essi nuova conoscenza, a meno che non siano stati precedentemente programmati in modo opportuno. Dunque la nuova conoscenza non viene dedotta partendo solo ed esclusivamente

52 dall informazione contenuta nei documenti XML, ma è necessario uno specifico intervento esterno che sia antecedente al momento dell elaborazione. Quello che si desidera è, invece, un linguaggio che codifichi l informazione in modo tale da avere sistemi diversi che, basandosi unicamente sulla pura informazione contenuta nel documento, possano inferire correttamente nuova conoscenza senza utilizzare nulla di esterno. Un altro problema è costituito dal fatto che possono essere date diverse rappresentazioni XML di una stessa informazione e le applicazioni si costruiscono internamente delle strutture dati ad albero differenti per ciascuna di queste rappresentazioni. Da quanto esposto consegue che XML può essere considerato il mattone del Syntactic Web (nel quale i costrutti sintattici sono dotati di significato implicito solo in virtù di accordi off-line inaccessibili alle macchine), ma non potrà essere il building block del Semantic Web. Questo compito, nelle intenzioni del comitato W3C, sarà infatti affidato al Resource Description Framework (RDF) e rappresenta il primo passo da compiere, per arrivare all attribuzione di un contenuto semantico ai documenti in rete. Resource Description Framework RDF offre l opportunità di esprimere affermazioni che siano machineprocessable, cosicché, anche se i computer non sono in grado di comprenderne effettivamente il significato, essi possono comunque elaborare queste affermazioni come se le comprendessero, producendo risultati significativi per gli utenti. Si tratta infatti di una classificazione più articolata, ma pur sempre meccanica, tra concetti formalizzati. RDF è un linguaggio per descrivere le risorse. Una risorsa è una qualsiasi entità, materiale (un oggetto, una persona) o immateriale (una relazione tra persone) a cui si fa riferimento tramite l Universal Resource Identifier (URI). Gli URI garantiscono che, in un documento, i concetti non siano solo parole, ma che siano legati ad una definizione univoca che chiunque può trovare in rete. Si noti che un enorme mole di conoscenze può

53 essere espressa in questa forma semplicissima di asserzioni descrittive che dicono quale relazione sussiste tra due entità. Le asserzioni RDF possono così esprimere praticamente qualunque cosa, e non importa chi sia ad affermarle: non esiste, infatti, un sito web ufficiale che esprima tutto, in modo completamente esaustivo, su un certo argomento, ma l informazione sarà spalmata su tutta la Rete e affermazioni fatte da persone diverse potranno risultare tra loro contraddittorie. I documenti oltre ad essere sintatticamente corretti devono essere conformi a determinate specifiche. Attraverso il DTD siamo in grado di esprimere regole e vincoli cui dovranno sottostare i documenti XML affinché siano considerati strutturalmente validi dalle applicazione che dovranno farne uso. Questo standard di validazione era preesistente ad XML e non è stato originariamente concepito come linguaggio di descrizione per documenti XML. Questo causa significative lacune espressive, in particolare per quanto riguarda i tipi di dati primitivi che mette a disposizione. Inoltre, la sua sintassi, è diversa da quella di XML. Per questi motivi si utilizza per la validazione di questi documenti XML Schema, espressamente progettato per questo scopo

54 Capitolo 11 WEB SEMANTICO UN ARCHITETTURA A STRATI Secondo Tim Berners-Lee il Web Semantico è un estensione del web attuale in cui le informazioni sono strutturate con un senso compiuto, migliorando il lavoro tra le persone e i computer. Attualmente, il funzionamento della Rete, è reso possibile dall adozione su larga scala di un insieme di standard che garantiscono l interoperabilità a vari livelli. Anche il Web Semantico si consolida fondandosi su standard che realizzano un nuovo livello di interoperabilità, quella semantica. I documenti dovranno essere annotati semanticamente (dai loro autori o in modo automatico) attraverso la dichiarazione esplicita di meta-informazioni espresse in linguaggio formale, il quale dovrà essere universale (in grado di rappresentare la conoscenza su qualunque realtà di interesse), conciso (per poter essere ampliamente adottato deve essere semplice), non ambiguo (per consentire il ragionamento automatico), espandibile (flessibile ed aperto alle personalizzazioni ed alle evoluzioni future), globale (adottato da tutti coloro che pubblicano sul web), comprensibile alle macchine e trattabile con un basso costo computazionale. Le meta-informazioni permetteranno agli autori di specificare informazioni sui loro documenti così da renderli non soltanto leggibili, ma anche interpretabili in maniera intelligente dalle applicazioni di rielaborazione e dai motori di ricerca. Affinché ciò sia possibile sarà però necessario sviluppare delle descrizioni di dominio condivise (ontologie), indicando in modo formale il significato ed i legami tra i termini. Una soluzione meno percorribile potrebbe essere quella di costruire un sistema di intelligenza artificiale in grado di estrarre e comprendere, senza l ausilio di metadati, il contenuto concettuale di un testo scritto in linguaggio naturale (ed espresso in una forma semistrutturata quale

55 quella di HTML). Anche immaginando che ciò sia possibile, le ingenti risorse di calcolo richieste e l elevato tempo di elaborazione necessario al processamento di tutti i documenti web (che, oltre ad essere in numero immenso, variano dinamicamente) sarebbero un ostacolo tale da rendere comunque inaccettabile questo tipo di approccio. Occorre inoltre, sottolineare, come spesso una parte rilevante dell informazione venga espressa in forma non testuale, rendendo ancora più complessa l operazione di estrazione del significato. FIGURA 2.1 L architettura del Semantic Web Gli obiettivi del Web Semantico sono finalizzati a migliorare l efficienza e la precisione dei motori di ricerca, realizzare sistemi di catalogazione dei contenuti e delle relazioni tra le pagine di un particolare sito web, favorire la condivisione e lo scambio di informazioni tra agenti software intelligenti, aumentare l accessibilità dell informazione e l integrazione di informazioni provenienti da sorgenti diverse, riunire in un unico documento logico collezioni di pagine web semanticamente correlate ma distribuite su più siti, semplificare l automazione di transazioni di tipo commerciale aumentandone la sicurezza, descrivere i diritti di proprietà intellettuale di pagine web, permettere a ciascun utente di esprimere le preferenze

56 sul trattamento elettronico dei propri dati personali e ai siti web di comunicare le politiche di riservatezza che essi adottano, aumentare il livello di fiducia degli utenti sulla qualità dei servizi e delle risposte del web semantico grazie all uso estensivo della firma digitale. Al fine di avere una conoscenza processabile automaticamente è dunque preliminare affrontare il problema di come gestire il modo (generale, conciso e non ambiguo) in cui un applicativo software modella ciò che conosce del mondo in cui è inserito. La possibile affermazione di un linguaggio di rappresentazione della conoscenza dipenderà non tanto dalla sua raffinatezza formale e completezza espressiva, quanto piuttosto dalla sua semplicità e capacità di adattarsi ai nuovi linguaggi di markup che godranno di un vasto supporto nel web. Il nuovo scenario rappresentato dal web impone di rivedere e di modificare alcune delle assunzioni su cui si fondano le attuali tecnologie di knowledge representation: I. Scala: finora le tecnologie di knowledge representation sono state sviluppate per basi di conoscenza singole, le cui dimensioni finora sono inferiori di svariati ordini di grandezza rispetto a quella del web. Un sistema di knowledge representation che elabori l enorme mole di dati raccolti sul web senza andare in crisi, deve essere di gran lunga più efficiente di quanto non lo siano gli attuali, trovando il giusto compromesso tra espressività ed efficienza. II. Ritmo di cambiamento: numerose porzioni della Rete manifestano un alto ritmo di cambiamento, con informazioni che mutano con frequenza quotidiana o addirittura oraria: le tecniche di knowledge representation dovranno essere progettate con una frequenza di aggiornamento conforme, in grado di capire in modo del tutto asincrono il mutamento della base dati. Inoltre, le pagine web, possono essere statiche nel tempo, o cambiare senza modificare il loro contenuto semantico o essere del tutto rimosse mentre ne nascono in continuo di nuove. III. Mancanza di integrità referenziale: agli inizi degli anni 90 uno dei più significativi scostamenti del web dai tradizionali sistemi di ipertesti fu

57 quello di rinunciare all integrità referenziale, non era più garantito che i link puntassero effettivamente a qualcosa e veniva dunque accettato che potessero anche essere dei broken link. Anziché risultare fonte di problemi insormontabili, questa decisione consentì al web di crescere a ritmi enormemente superiori a quelli di qualunque altro sistema di iperlink tradizionale. Allo stesso modo, il Web Semantico, per garantirsi una rapida crescita, dovrà far fronte a forme semantiche di broken link, ossia a porzioni di basi di conoscenza che semplicemente risultano mancanti e non più raggiungibili. IV. Autorità distribuita: i tradizionali sistemi di knowledge representation hanno largamente trascurato la questione dell affidabilità delle affermazioni in una base di conoscenza: esse venivano semplicemente assunte come vere. Chiaramente, questa assunzione, dovrà essere rivista in un contesto nel quale la base di conoscenza è suddivisa in varie sezioni, importate da sorgenti diverse che non sono armonizzate da un controllo centrale. In un simile ambiente la questione della fiducia assume un importanza preminente. Anche in questo caso la rinuncia ad un autorità centrale è conseguenza della volontà di assicurare al Web Semantico la possibilità di una crescita esponenziale senza limitazioni, unita alla massima versatilità: un sistema di rappresentazione della conoscenza con un controllo centrale, in cui vengono condivise le definizioni dei concetti comuni, è infatti opprimente e diventa rapidamente ingestibile al crescere delle dimensioni e degli obiettivi. Il prezzo della decentralizzazione è quello dell abbandono dell idea di una coerenza totale e la conseguente accettazione dell eventualità di paradossi e di domande prive di risposta. Certe inconsistenze saranno da considerarsi degli errori, altre potranno essere imputate a differenti punti di vista degli autori. V. Conoscenza di qualità variabile: in un ambiente distribuito come quello del Web Semantico, è assai probabile che la conoscenza proveniente da sorgenti diverse differisca notevolmente in qualità. Di conseguenza, tali sorgenti, non dovranno essere trattate tutte allo stesso modo e la ricerca

58 nell ambito del knowledge representation dovrà concentrarsi maggiormente sulle tecniche di contenimento locale delle inconsistenze. VI. Uso impredicibile della conoscenza: tipicamente le basi di conoscenza vengono progettate avendo già in mente quale sarà il loro utilizzo. Ciò consente di adottare specifiche progettuali sulla base della conoscenza suggerita dall uso che se ne dovrà fare. In un ambiente aperto come il web, è invece probabile che le basi di conoscenza vengano utilizzate da terze parti con obiettivi del tutto diversi da quelli per i quali esse erano state originariamente progettate. La formulazione della conoscenza per il web dovrà, perciò, essere indipendente dalla particolare finalità applicativa. VII. Molteplicità: la conoscenza sarà il risultato del collegamento e dell importazione tra molteplici sorgenti di conoscenza e si dovranno trovare soluzioni ai problemi dovuti a vocabolari non omogenei e a concettualizzazioni diverse dello stesso dominio. VIII. Diversità dei contenuti: tipicamente le basi di conoscenza si occupano di uno specifico e limitato campo di interesse ed assumono che vi sia omogeneità nel vocabolario usato. Questa assunzione non può più essere verificata e si ripropone la questione di come riconciliare molteplici vocabolari relativi allo stesso argomento. IX. Collegamenti: a causa delle dimensioni del web, sarà impossibile copiare fisicamente il contenuto di altre sorgenti di conoscenza al momento del loro utilizzo. Dovranno essere escogitati dei meccanismi di link a queste sorgenti remote (occorrerà sviluppare un equivalente semantico al noto comando HREF) e allo stesso tempo si dovranno trovare soluzioni all aumento in termini di tempo di accesso che ciò comporta. In altre parole, si dovrà tenere presente il costo di accesso ad ogni singolo assioma, operazione che nelle situazioni tradizionali di sorgenti di conoscenza unitarie viene invece considerata una operazione di costo nullo. X. Importanza delle giustificazioni: in un ambiente nel quale le conclusioni raggiunte possono dipendere in modo cruciale dalla conoscenza fornita da

59 terze parti non conosciute, risulta di primaria importanza, la giustificazione di queste conclusioni, ossia la catena di ragionamenti attraverso la quale esse sono state ricavate. Tutto ciò è certamente connesso al lavoro tradizionalmente svolto sui sistemi esperti autoesplicativi ma con una sostanziale differenza: le giustificazioni non sono più rivolte ad un fruitore umano, piuttosto costituiscono le basi attraverso le quali le macchine sono in grado di verificare la qualità delle conclusioni raggiunte (esaminando le catene di inferenza attraverso le quali esse sono state dedotte). Questo significa che le giustificazioni dovranno assumere un ruolo primario nel Web Semantico. Questo ruolo è molto diverso da quello secondario, giocato negli attuali sistemi di knowledge representation. XI. Robustezza delle inferenze: è necessario abbandonare l idea classica di ragionatori (software in grado di inferire nuova conoscenza, deducendola logicamente a partire da una data base di conoscenza) validi e completi. I ragionatori, per il Web Semantico, dovranno quasi certamente essere incompleti (non garantiranno più la restituzione di tutti i risultati logicamente validi) e probabilmente saranno anche non-validi. Potranno, cioè, fornire anche conclusioni prive di garanzie di validità logica. Inoltre, il grado di incompletezza e di non-validità non sarà fisso, ma funzione delle risorse disponibili. Le risposte saranno spesso approssimate ed il ragionatore potrà fornire solo un indicazione della qualità di tali approssimazioni. Le linee guida che indirizzano l evoluzione del web, riguardano la separazione sempre più netta del contenuto informativo dalla sua presentazione ed il passaggio dall interazione uomo-web all interazione macchina-macchina. Nella visione del W3C, il Web Semantico potrà essere realizzato solamente attraverso una stratificazione di più livelli, ciascuno dei quali sarà caratterizzato da un proprio linguaggio, il quale avrà il compito di estendere e completare i servizi offerti dallo strato sottostante, presentando al livello sovrastante nuove funzionalità

60 Nell architettura del Web Semantico bisogna far riferimento a specifici principi progettuali: o Semplicità: un linguaggio che utilizza un numero minore di elementi di base per raggiungere lo stesso potere espressivo è più semplice. La semplicità può essere confusa con la facilità di comprensione: un codice sorgente di poche righe che utilizza la ricorsione è senz altro semplice, ma probabilmente non altrettanto facile da comprendere. Molti ritengono più facile lavorare con un codice sorgente più esteso che non utilizza la ricorsione. o Progettazione Modulare: se nella progettazione di un sistema o di un linguaggio si riconoscono caratteristiche che possono essere separate in gruppi che sono internamente omogenee, ma tra loro solo debolmente correlate, allora è consigliabile effettuare la divisione del sistema in più parti. Se in futuro il sistema dovrà essere modificato, sarà sufficiente modificarne un unica parte e, in ogni caso, team diversi potranno lavorare contemporaneamente ed in modo indipendente su parti diverse dello stesso sistema. o Tolleranza: il principio di tolleranza valorizza l impiego di protocolli con specifiche chiare e precise, in grado di tracciare una netta distinzione tra ciò che è ad essi conforme e ciò che non lo è. Inoltre, non deve costituire un pretesto per i prodotti che non rispettano gli standard. o Decentralizzazione: qualunque singolo punto coinvolto nelle operazioni limita la scalabilità del sistema, fino a diventare un punto singolo di fallimento completo. Se costruiamo un sistema di knowledge representation che richieda, a chiunque utilizzi il concetto di automobile, di riferirsi ad uno specifico termine, allora stiamo restringendo l insieme degli utenti del sistema a coloro per i quali questa particolare formulazione funziona bene. Il Web Semantico dovrà evitare simili colli di bottiglia rappresentati da concetti, così come Internet evita quelli rappresentati dalle reti fisiche

61 o Test di Invenzione Indipendente: rappresenta la modularità nel suo complesso e riguarda la possibilità di progettare un sistema che non sia solo modulare in sé, ma possa essere una parte di un sistema più grande e non ancora specificato. o Principio del Least Power: l informatica ha speso molte energie per produrre linguaggi che fossero sempre più potenti. Oggi apprezziamo la scelta di soluzioni meno potenti. La ragione di tutto ciò sta nella considerazione che tanto minore è la potenza del linguaggio, tanto maggiori saranno la trattabilità e l usabilità dei dati che esso memorizza. Se infatti i dati sono memorizzati in una forma semplice e dichiarativa, ciascuno potrà scrivere un software in grado di analizzarli per finalità diverse. Il Web Semantico è, in gran parte, un tentativo di tradurre grandi quantità di dati esistenti in una lingua comune. Ontologie Una ontologia rappresenta il tentativo di formulare uno schema concettuale esaustivo e rigoroso nell ambito di un dato dominio. Si tratta generalmente di una struttura dati gerarchica che contiene tutte le entità rilevanti, le relazioni esistenti fra di esse, le regole, gli assiomi, ed i vincoli specifici del dominio. L uso del termine, è derivato dal precedente impiego in filosofia, dove ha il significato dello studio dell essere o dell esistere. La costruzione di una ontologia non è altro che la definizione dei caratteri fondamentali di quanto può venire accettato in un determinato mondo possibile, sottoinsieme dei possibili mondi di significato del Web Semantico. Ha lo scopo di determinare con precisione quali predicati definiscano un soggetto, ne precisino l essenza, quali predicati siano possibili di un soggetto e, infine, quali oggetti necessariamente esistano nel mondo possibile descritto. Con ontologia ci si riferisce all insieme di termini che, in un particolare dominio applicativo, denotano in modo univoco una particolare conoscenza e fra i quali non esiste ambiguità poiché sono condivisi dall intera comunità di utenti del

62 dominio applicativo stesso. Le ontologie vengono utilizzate come strumenti di integrazione fra le diverse fonti, propriamente in virtù dell istanza di unitarietà che portano con sé. L obiettivo è dunque quello di descrivere i concetti necessari a parlare di un certo dominio e costituisce uno stadio preliminare della base di conoscenza, la quale include, in più, modellare ed elaborare un problema, derivare nuova conoscenza, provare teoremi, rispondere a domande concernenti un certo dominio. Le Reti Semantiche rappresentano una forma scarna di ontologia. Un ontologia può avere vari livelli di formalizzazione, ma, necessariamente, deve includere: o un vocabolario di termini (concept names): identifica in modo non ambiguo i nomi dei concetti. Non necessariamente un termine coincide con una parola del linguaggio naturale, ma spesso ha un riferimento intuitivo con esso; o le definizioni associate ai termini (assiomi): ad ogni concetto va associata una definizione, scritta in linguaggio naturale oppure usando un linguaggio formale; o un insieme di relazioni: devono esistere almeno relazioni tassonomiche. Un ontologia deve essere inoltre corredata di meccanismi per la verifica di correttezza e consistenza. Mediante l introduzione in Rete delle ontologie si intende far fronte ad alcuni fattori critici del web tradizionale: o superare il caos dei formati: le varie sorgenti producono informazioni in diversi formati e la creazione di indici per localizzare queste sorgenti è piuttosto complessa poiché per una macchina è molto difficile, ad esempio, ottenere indicazioni da sorgenti audio o video. Un ontologia può facilitare questa operazione descrivendo in modo formale i contenuti di ogni sorgente ed aiutare l utente nella ricerca di sorgenti che generano un particolare tipo di informazione; o dotare struttura: HTML è un linguaggio di formattazione display-oriented che non si occupa di gestire le informazioni per facilitare il loro

63 reperimento. Un ontologia descrive il dominio dal punto di vista strutturale, definendone i componenti e i loro legami; o Risolvere l ambiguità: definendo per mezzo di un ontologia il contesto in cui è presentato un certo documento, i termini utilizzati sono propri di quell ambito e quindi il loro significato è certo e ben definito. Uniform Resource Identifier Gli URI rappresentano le fondamenta del web e sono stati tra i fattori determinanti per il suo successo: attraverso di essi il web è stato in grado di identificare risorse accessibili tramite il proprio protocollo, HTTP, e tramite tutti gli altri protocolli esistenti. Il punto principale a cui gli altri sistemi non erano arrivati era una sintassi universale, indipendente dal protocollo e facilmente memorizzabile o scambiabile, con cui identificare le risorse di rete. La sintassi degli URI é progettata per essere: o estensibile: si possono aggiungere nuovi schemi, al fine di mantenere l accessibilità delle risorse anche se nuovi protocolli vengono inventati. L'estensibilità degli URI permette l'introduzione di identificatori per qualsiasi entità immaginabile; o completa: tutti i nomi esistenti sono codificabili e nuovi protocolli sono comunque esprimibili tramite URI; o stampabile: é possibile esprimere URI con caratteri ASCII a 7-bit così da permettere scambi lungo qualunque canale, per quanto limitato o inefficiente possa essere, inclusi carta e penna. Un URI fa riferimento non soltanto ad una risorsa (oggetto di interesse del server), ma anche a frammenti interni alla risorsa (che verranno identificati dal client). Può essere assegnato a qualunque cosa, materiale o immateriale che sia, indipendentemente dal fatto che essa sia accessibile via Internet o meno: si considera, inoltre, che tutto ciò che possiede un proprio URI faccia parte del Web Semantico

64 Nel linguaggio umano spesso si usa lo stesso termine per designare cose diverse, ciò non è ammissibile per un elaboratore elettronico: ogni URI dovrà mappare un unico concetto. È opportuno avere ben chiara la differenza tra URI e URL (Uniform Resource Locator): gli URI sono un meccanismo generale per identificare una specifica risorsa (che può anche non essere raggiungibile via web), mentre gli URL sono un particolare sottoinsieme di URI che, oltre ad identificare una pagina web, localizzano le risorse sul web. Le specifiche degli URI vengono gestite dall Internet Engineering Task Force (IETF). La sola identificazione di una risorsa (URI), non ne consente la localizzazione. Esistono schemi di URI completamente decentralizzati che creano il problema di esistenza dello stesso nome per due oggetti diversi. Al contrario, lo schema URI che definisce gli URL, è invece controllato in modo centralizzato dal DNS (Domain Name Server) e ciò garantisce l impossibilità che lo stesso nome si riferisca a due oggetti diversi. Nulla vieta (e ciò vale per qualunque forma di URI) che URI diverse si riferiscano allo stesso oggetto e, cosa ancora peggiore, non è possibile accorgersi quando ciò accade. Sul Web Semantico non è perciò possibile fare la cosiddetta Assunzione di Nome Unico (UNA, Unique Name Assumption) in cui si presume che ogni oggetto del dominio del discorso sia nominato attraverso un solo termine. Una pratica comune per creare una URI relativa ad un certo oggetto è quella di partire da una pagina web che descriva l oggetto stesso, annotando su quella pagina che l URL associato ad essa funge anche da URI (non dimentichiamo che un URL è anche un URI). Questo meccanismo permetterà di domiciliare nomi diversi alla stessa URL, ossia nella stessa pagina web. RDF Schema Quando scriviamo una frase in linguaggio naturale, usiamo parole che convenzionalmente sono associate ad uno specifico significato. Questo significato è fondamentale per la comprensione delle asserzioni, e, nel caso di applicazioni

65 RDF, è cruciale per stabilire il trattamento corretto che si intende indicare. È fondamentale che sia colui che scrive una asserzione, sia colui che la legge (per esempio un applicazioni software), attribuisca lo stesso significato ai termini impiegati, altrimenti sorgerà solo confusione. RDF consente di definire un semplice modello dei dati per descrivere proprietà di risorse e relazioni tra le risorse stesse ma senza contemplare livelli di astrazione differenti: le risorse e le loro relazioni sono tutte organizzate allo stesso livello di astrazione, in un grafo piatto. In altre parole RDF non permette di definire tipi o classi di risorse con loro proprietà specifiche e proprio per questo è stato arricchito con RDF Schema con un semplice sistema di tipi (che ricorda i sistemi di tipi dei linguaggi di programmazione object-oriented). Una risorsa può essere definita come istanza di una classe (o di più classi) e le classi possono essere organizzate in modo gerarchico, permettendo di derivare, per ereditarietà, nuova conoscenza. Altra lacuna di RDF (alla quale RDF Schema pone rimedio) è quella di non fornire alcun meccanismo per dichiarare le proprietà, per definirne i vincoli di applicabilità, per organizzarle gerarchicamente. Attraverso un RDF Schema è possibile definire tutti i termini che saranno usati nelle asserzioni RDF assegnando, ad essi, un significato specifico come in una sorta di vocabolario. Questi vocabolari, liberamente creati dai singoli utenti (o dalle singole comunità di utenti), risiederanno in opportuni documenti reperibili direttamente sul web ai quali potranno accedere sia agenti software che utenti. RDF Schema offre, inoltre, degli strumenti linguistici per limitare il campo di applicabilità delle varie proprietà definite a livello utente, consentendo di porre, per ciascuna di esse, vincoli sul loro dominio e sul loro codominio. Esistono alcune importanti differenze tra il modello dei tipi di RDF Schema e i linguaggi di programmazione object-oriented: o anziché descrivere una classe come un entità avente una collezione di proprietà specifiche che la caratterizzano e la distinguono dalle altre, un RDF Schema descrive le proprietà come un qualcosa che può essere applicata a specifiche classi di risorse. In RDF le descrizioni delle proprietà sono, per default, indipendenti dalla definizione delle classi ed

66 hanno scope globale (anche se è possibile limitarne il campo di applicabilità a determinate classi, ponendo vincoli sul loro dominio/codominio). In questo modo è possibile estendere l uso delle proprietà a situazioni non previste al momento della loro descrizione originale, potremmo pertanto definire RDF un modello property-oriented; o in RDF Schema le descrizioni non sono necessariamente normative e vincolanti. RDF Schema fornisce strumenti per aggiungere ulteriori descrizioni sulle risorse senza stabilire come debbano essere utilizzate da un applicazione. Gli statements di un RDF Schema sono sempre e solo delle descrizioni, che possono anche essere considerate vincolanti, ma soltanto se l applicazione che li tratta è stata progettata per seguire questa interpretazione. RDF Schema è un linguaggio dichiarativo utile per esprimere informazioni addizionali sui dati, sono però le singole applicazioni che stabiliscono individualmente come affrontare l eventualità che i dati non siano conformi agli schemi. Carenze di Rdf Schema La creazione di ontologie è un attività concettualmente complessa e raffinata che prevede profonde conoscenze sul dominio che si intende modellare e sugli strumenti linguistici che vengono impiegati per farlo. Le ontologie possono essere classificate in due grandi famiglie: alla prima appartengono quelle di dominio stretto, che permettono la creazione di tassonomie le quali, pur avendo una validità generale, risultano ristrette uno specifico dominio. Alla seconda appartengono ontologie generali, che forniscono un vocabolario così ampio da essere utilizzabile per creare ontologie di dominio stretto. RDF ed RDF Schema fanno parte di questa seconda famiglia, ma il loro vocabolario presenta rilevanti lacune espressive, ed è pertanto opportuno estenderlo con ulteriori strumenti linguistici. In aggiunta alle basilari capacità espressive offerte da RDF Schema per descrivere i vocabolari RDF, se ne possono infatti individuare altre che risultano

67 assai utili, benché non strettamente necessarie: queste capacità addizionali potranno essere incluse in successivi sviluppi di RDF Schema, o in linguaggi separati che si integrino con esso. Ogni ontologia scritta con RDF Schema sarà poi utilizzabile da qualsiasi ontologia scritta in un estensione di RDF Schema, come per esempio DAML+OIL. OIL (Ontology Inference Layer) è stato sviluppato in Europa ed è il risultato dell influenza di varie discipline. OIL eredita dal campo delle Description Logic (DL) la semantica formale ed il supporto per il ragionamento efficiente fornito da questi linguaggi: per questa ragione si potrebbe pensare di inquadrarlo anche all interno del livello logico, oltre che in quello ontologico. Le description logic sono una famiglia di formalismi, elaborate nella ricerca sulla rappresentazione della conoscenza. Descrivono la conoscenza in termini di concetti (classi) e ruoli (relazioni) e sono utilizzate per derivare automaticamente classificazioni tassonomiche. Tentano di trovare un frammento della logica del prim ordine che abbia un alto potere espressivo, ma che sia ancora dotato di efficienti procedure di inferenza. Le description logic possono essere descritte in forma matematica, in modo che si possano fare ragionamenti, basati sulla descrizione dei concetti, e classificazioni automatiche. Dai sistemi basasti su frame, OIL eredita le primitive di modellazione essenziali. I linguaggi basati su frame modellano la realtà in classi (o frame), ognuna delle quali ha delle proprietà (slot). Le classi sono legate tra di loro da relazioni di sottoclasse/superclasse. DAML (DARPA Agent Markup Language) è un linguaggio di markup il cui progetto è stato promosso dall agenzia DARPA (Defence Advanced Research Projects Agency), col proposito di aggiungere un mattone alla costruzione del Web Semantico. E fondato principalmente su RDF ed i suoi sviluppi procedono di pari passo con i lavori del W3C, per assicurarsi che le caratteristiche del linguaggio corrispondano con i piani del Comitato per il livello ontologico del Web Semantico

68 IsaViz - una piattaforma per la visualizzazione IsaViz è un editor visuale che rappresenta i modelli RDF come diagrammi formati da nodi e archi, fornendo una struttura grafica di facile comprensione rispetto ad una presentazione testuale. Questo toolkit, si basa sulla metafora di universi che possono essere osservati attraverso telecamere mobili e zoomabili, permettendo di mantenere una buona percezione del contesto; inoltre offre caratteristiche come la continuità della percezione nell animazione degli oggetti e nei movimenti della telecamera, che dovrebbero rendere l esperienza dell utente finale complessivamente più apprezzabile. IsaViz è uno degli ambienti visuali più efficaci per la presentazione e la preparazione di modelli RDF rappresentati come grafi. E stato sviluppato e implementato in Java e utilizza GraphViz per calcolare il layout iniziale del grafo. Inoltre include Jena 2 Semantic Web Toolkit (è la libreria Java per applicazioni di Web Semantico utilizzata per il progetto durante il tirocinio svolto in ASUR7 sviluppata da HP Labs) e Xerces Java (è il parser XML sviluppato da The Apache Software Foundation). Senza dubbio il potere espressivo e la facilità d uso di IsaViz lo rendono uno dei tool più efficaci per la visualizzazione delle ontologie e questa espressività è sicuramente accresciuta dal vantaggio di permettere il diretto accesso alle risorse. IsaViz, infatti, oltre a prevedere la funzionalità della navigazione dei concetti attraverso il grafo, offre anche la possibilità della visualizzazione delle risorse che consiste nel poter accedere ai contenuti veri e propri, quindi nel poter aprire l URI di una risorsa nel proprio web browser direttamente dal grafo

69 PARTE III IMPLEMENTAZIONE

70 Capitolo 12 RETI ASSOCIATIVE Nel processo di gestione della conoscenza, i dati e la conoscenza necessitano di informazione tra i vari soggetti coinvolti, affinché si possa giungere ad una corretta interpretazione dei dati stessi e contemporaneamente determinano l elaborazione di nuove conoscenze. In questo caso la conoscenza può essere vista come una struttura dinamica, contesualizzata e orientata al raggiungimento dell obiettivo. Nasce quindi spontanea l esigenza di adottare una rappresentazione schematica dinamica la cui struttura sia capace di variare nel tempo ed in base al particolare contesto di utilizzo. Questo tipo di formalismo (sostenuto da nutriti dati sperimentali) permette la ricerca dinamica della conoscenza attraverso semplici procedure come la diffusione di un segnale di attivazione affinché si possa selezionare la parte di rappresentazione della conoscenza che riguarda il dominio semantico considerato. Si è dimostrato come le reti associative siano particolarmente funzionali per rappresentare la conoscenza tacita degli impiegati: Polanyi (1975) presume che questo genere di conoscenza sia collegato all identificazione di particolari aspetti percepiti nella realtà. Egli opera una distinzione tra aspetti prossimali ed aspetti distali dell attenzione. I primi sono quelli che associamo a noi stessi, i secondi sono quelli che associamo al mondo esterno. Durante un processo cognitivo gli aspetti prossimali vengono relazionati attraverso un processo di selezione e categorizzazione. Questo processo a sua volta scatena un meccanismo tacito di richiamo di elementi di conoscenza distale. Celebre è l esempio di conoscenza tacita che Polanyi fa del riconoscimento di un volto. Siamo in grado di riconoscere il volto di una persona tra milioni di altri,

71 ma non sappiamo spiegare esattamente in che modo si compie questo processo. Il riconoscimento avviene relazionando i tratti facciali che maggiormente richiamano la nostra attenzione (e cioè gli aspetti prossimali della conoscenza). Queste relazioni richiamano a loro volta un aspetto distale della nostra conoscenza: la persona a cui attribuiamo il volto percepito. In questo modo la conoscenza che abbiamo del volto dell individuo viene interiorizzata e diventa parte integrante delle nostre percezioni. Lo stesso meccanismo può essere utilizzato per spiegare qualsiasi altro processo cognitivo tra cui quello dell apprendimento. Quando vogliamo apprendere una nuova materia iniziamo a leggere tutti gli articoli ed i documenti che la riguardano, acquisendo conoscenza esplicita della materia e dei principi che la regolano da alcuni esempi pratici. Questa conoscenza diventa tacita, viene cioè interiorizzata, solo quando stabiliamo relazioni implicite fra i principi che costituiscono la materia (conoscenza prossimale). Le medesime relazioni, ci permetteranno di estrapolare le soluzioni ad un nuovo problema e costituiranno la conoscenza distale. Questi esempi sembrano suggerire l idea che la conoscenza tacita possa essere rappresentata mediante uno schema che relaziona alcuni elementi di conoscenza esplicita (parole, numeri, immagini, suoni, interi documenti etc.) mediante relazioni implicite aventi differenti gradi di rilevanza ovvero pesi differenti. La definizione di una rete associativa permette il recupero contestualizzato di concetti mediante il meccanismo di diffusione di un segnale di attivazione (Mc Clelland J. L., Rumelhart D. E., 1986). Facendo partire un segnale dai nodi che rappresentano il contenuto dell informazione analizzata, questo si diffonde per tutta la rete in modo più o meno amplificato a seconda del peso dei collegamenti attraversati. Quando il valore del segnale di attivazione in corrispondenza dei vari nodi si stabilizza, quelli maggiormente attivati potrebbero rappresentare, utilizzando l espressione di Polanyi, elementi di conoscenza distale. La costituzione della rete associativa deve avvenire sulla base di precisi criteri. Lo schema di connessioni ed il peso delle connessioni devono risultare variabili

72 nel tempo, in modo da garantire una certa flessibilità del sistema di rappresentazione. In particolare i pesi dei collegamenti vanno aggiornati a seguito dell analisi di nuova informazione. Inoltre, l evoluzione della rete, deve avvenire sulla base di un preciso schema interno. In questo modo essa può manifestare una struttura emergente rappresentante una buona approssimazione della conoscenza tacita modellata. La formazione dello schema interno deve essere condizionata dalla conoscenza accumulata in precedenza. Questa, ad esempio, deve servire a determinare il contesto della nuova informazione elaborata

73 Capitolo 13 ACQUISIZIONE DELLA CONOSCENZA Il sistema di acquisizione della conoscenza si basa sul modello della memoria di lavoro a lungo termine (Long Term Working Memory) di Kintsch, Patel ed Ericsson (1999). Questo modello simula il modo in cui la mente umana comprende un discorso. La memoria umana può essere suddivisa in due parti: La memoria di lavoro, avente capacità limitata, ha il compito di attribuire un significato all informazione attualmente analizzata. La memoria a lungo termine rappresenta tutta la conoscenza acquisita in precedenza. Secondo il modello di Kintsch la memoria di lavoro è suddivisibile a sua volta in una parte a breve termine che contiene la nuova informazione, ed una parte a lungo termine che viene recuperata dalla memoria a lungo termine. La parte a breve termine della memoria di lavoro genera automaticamente quella a lungo termine grazie al fatto che alcuni elementi di conoscenza, come vengono definiti da Kintsch, presenti nella parte a breve termine sono collegati ad elementi di conoscenza presenti nella memoria a lungo termine. Il modello della memoria di lavoro a lungo termine sembra quindi avere parecchi punti in comune con la definizione di conoscenza tacita introdotta da Polanyi. Gli elementi della memoria di lavoro collegati agli elementi della memoria a lungo termine possono essere infatti considerati elementi di conoscenza prossimale. Anche nel modello di Kintsch la memoria di lavoro a lungo termine è strutturata come una rete associativa e per assegnare un significato all informazione analizzata, alla fase di creazione della rete, deve seguire una fase di integrazione. Questa corrisponde al momento in cui nel

74 modello di Polanyi gli elementi di conoscenza prossimale vengono messi in relazione fra loro. Kintsch utilizza proprio la diffusione di un segnale di attivazione per selezionare quei nodi del grafo che rappresentano la conoscenza distale estrapolata. Il segnale di attivazione parte dai nodi che definiscono tutta la conoscenza ricavabile direttamente dal testo analizzato. La conoscenza tacita è rappresentata quindi dallo schema di connessioni che relaziona gli elementi di conoscenza presenti nella parte a lungo termine della memoria di lavoro. Il sistema di acquisizione della conoscenza è strutturato modularmente come nella rappresentazione di figura 3.1. FIGURA 3.1 Implementazione semplificata del modello della memoria di lavoro a lungo termine di Kintsch, Patel ed Ericsson Il suo funzionamento è descritto nei seguenti punti: o Estrapolazione del corpo del nuovo messaggio postato dall utente nel forum sia esso un topic (nuovo messaggio), una response (riposta al topic) o una response to response (risposta alla risposta e/o tutte le possibili risposte concatenate ad una risposta). Esso sarà analizzato utilizzando: 1. una stoplist di parole da non considerare contenente tutti i termini più frequenti che, secondo il teorema di Shannon, portano poca informazione (articoli, avverbi, pronomi, etc.); 2. Una stemlist che permette l identificazione di parole simili

75 Infine si selezioneranno tutti i termini che rappresentano la parte a breve termine della memoria di lavoro. o Analisi del contenuto del messaggio per mezzo del Buffer (associabile ad una memoria temporanea), opportunamente codificato tenendo conto il suo contesto di appartenenza. Il contesto rappresenta il tema ovvero l argomento trattato dalla parte del contenuto elaborato. Per individuarlo correttamente occorre considerare non solo l informazione che è stata già analizzata nel documento, ma anche quella che è possibile richiamare dalla struttura che rappresenta la conoscenza accumulata nel corso delle varie analisi effettuate in precedenza nella Long Term Memory (LTM). o Confronto per mezzo della Working Memory del contenuto estratto con la tutta la conoscenza fino a quel momento assimilata dal sistema ed archiviata nella LTM. o Eventuale aggiornamento della LTM sulla base delle possibili correlazioni fra il contenuto del messaggio appena estratto e la LTM stessa. L intervento della LTM è indispensabile per garantire la corretta disambiguazione del contenuto di un post e per velocizzarne il suo processo di classificazione che avverrà nella memoria di lavoro e che porterà l aggiornamento della rappresentazione della conoscenza presente nella LTM. L effetto complessivo, operando come descritto, fa sì che la LTM subisca variazioni dinamiche della propria struttura in funzione della quantità di messaggi che nel tempo verranno analizzati. Aumenterà, in questo caso, il grado di correlazione esistente fra messaggio e messaggio, producendo una misura più fine ed approfondita del grado semantico fra i post. Il vantaggio risiede nel fatto che la quantità delle informazioni reperibili dall utente in merito ad un topic non siano fini a se stesse. Con questo metodo le ricerche saranno guidate a raggiungere in poco tempo tutte le informazioni che l utente ha necessità di conoscere semplificandone la gestione ed il reperimento

76 Capitolo 14 RAPPRESENTAZIONE DELLA CONOSCENZA La rappresentazione della conoscenza contenuta nella LTM è implementata dalle reti associative. La scelta di questo percorso è di fondamentale importanza: le altre possibili strutture cognitive (logica dei predicati, reti semantiche, grafi concettuali) non assicurano, infatti, una rappresentazione fedele e non permettono il grado di imprecisione e di inconsistenza dovuti: solo in questo modo la semantica potrà emergere dal contesto analizzato e dalla conoscenza accumulata. La creazione delle reti associative, in questo caso, si avvale della tecnica dei grafi scale-free. Recentemente è stato dimostrato che alcune rappresentazioni prodotte dall uomo (WordNet, Roget Thesaurus) o ricavate analizzando i dati forniti dall uomo (reti associative ottenute mediante esperimenti di libere associazioni di parole) sembrano essere strutturate come grafi particolari conosciuti come scalefree. Un grafo scale-free ha tre caratteristiche principali: 1. conformazione a piccolo mondo; 2. tendenza all aggregazione dei nodi che lo costituiscono; 3. particolare distribuzione dei gradi dei nodi, ovvero del numero delle connessioni da questi stabiliti, che presenta un caratteristico decadimento (power law tail). La conformazione a piccolo mondo è caratterizzata dalla presenza di percorsi relativamente brevi che connettono qualsiasi coppia di nodi. Tale proprietà è quantificata dal cosiddetto cammino libero medio (L) che è una media della lunghezza dei percorsi più brevi che collegano ogni coppia di nodi. La tendenza all aggregazione si manifesta con la presenza di gruppi di nodi fortemente interconnessi tra loro. Tale proprietà è quantificata dal coefficiente di

77 clustering (C). La particolare distribuzione dei gradi indica la presenza di alcuni nodi (detti hub) che stabiliscono più connessioni rispetto alla media. Da qui il nome scale-free assegnato a tali tipi di grafi. Il parametro che caratterizza la legge di potenza che approssima tale distribuzione viene spesso utilizzato per confrontare questo genere di grafi. Per arrivare alla definizione di un grafo di parole che rappresenti il contenuto di un testo scritto (di un messaggio postato) si può utilizzare un modello di grafo scale-free. La sua evoluzione strutturale deve però poter essere condizionata dai valori di una funzione di fitness che quantifica il grado di correlazione tra tutte le coppie di parole presenti nel testo. Il modello scelto è simile a quello proposto da Bianconi e Barabasi (2001). Considerando il sistema di acquisizione della conoscenza introdotto precedentemente, il valore della funzione di fitness associato a due parole potrebbe essere dato dal rapporto tra il numero di paragrafi in cui compaiono entrambe le parole ed il numero totale di paragrafi in cui compare almeno una delle due. In altri termini si considerano le informazioni relative alla co-occorrenza delle parole nei vari paragrafi del testo analizzato (Licata, Tascini, Lella, Montesanto e Giordano, 2006). Nella figura 5 è rappresentato un esempio di memoria a lungo termine ricavata adottando il modello di comprensione del discorso di Kintsch ed il modello di Bianconi e Barabasi per la generazione dei grafi di parole

78 FIGURA 3.2 Esempio di rete associativa Questo grafo rappresenta il contenuto di sei articoli medici riguardanti differenti argomenti. Precisamente una statistica sulla diffusione dell AIDS, tre articoli sulla Computer Aided Diagnosis ed un articolo sul diabete. Gli articoli riguardanti il CAD ed il diabete sono centrati sui sintomi presentati dal paziente. Questo giustifica la presenza dell hub patient che collega i due sottografi rappresentanti il contenuto di tali articoli. L elaborazione dell articolo sulla diffusione dell AIDS porta invece alla formazione di un sottografo separato di termini. L analisi dei tre differenti articoli sul CAD ha portato invece al rafforzamento delle connessioni tra le parole CAD, diagnosis e radiologist. Come si vede, nonostante l esiguo numero di articoli analizzati, il sistema sembra

79 aver iniziato ad operare una netta distinzione tra i vari domini semantici considerati. Modellare un sistema per la rappresentazione della conoscenza di un organizzazione aziendale, che nello specifico è stata implementata con un forum, significa poter definire diverse forme elementari di ontologia rappresentabili mediante un linguaggio, un modello astratto di descrizione delle risorse, RDF appunto. Attraverso RDF Schema è possibile definire tutti i termini che saranno usati nelle asserzioni RDF, assegnando ad essi un significato specifico. Questa sovrastruttura semantica è sintatticamente legata ad XML ed è schematizzabile sotto forma grafica mediante l ausilio di IsaViz RDF Editor. In figura 3.2 è schematizzata la rappresentazione grafica con questo tool. FIGURA 3.3 Rappresentazione grafica in un RDF Schema con IsaViz

80 Capitolo 15 IL PROGETTO WEB GUICONTROLLER L architettura del progetto web GuiController rappresenta il cuore dell intero sistema di gestione del forum. E stato programmato con la piattaforma Java, nella versione JDK 1.5, con supporto Web Server Apache Tomcat 5.5. La scelta implementativa lato server è stata indirizzata verso l ausilio di Java Server Pages, anche se si è preferito lavorare quasi totalmente in ambiente Java grazie ai componenti software Servlets e JavaBeans (vedremo in seguito le porzioni di codice sorgente e le scelte maturate in fase di stesura del progetto). E stata considerata l ipotesi di poter utilizzare due database distinti, MySQL AB versione rc e IBM LotusDomino versione 6: il sistema gode di questa scelta per ragioni di maggiore portabilità. Le componenti Java Servlets implementate sono: o GuiController.java Viene invocata nella fase iniziale di accesso al forum dell utente: gestisce i criteri di ricerca del singolo messaggio scelto o di tutti i messaggi presenti nel forum, ne pubblica il risultato e regola le eventuali eccezioni in caso di eventuale errore del database. o MsgSelected.java Pubblica i thread relativi al messaggio selezionato dall utente e tutti gli eventuali messaggi correlati presenti nel forum che non sono naturalmente collegati al thread, restituendo, per ognuno, un valore indice di similarità (somiglianza) in base a quanto calcolato dal sistema di acquisizione della conoscenza. Si interfaccia direttamente con il package SemWebForum e per la rappresentazione di coerenza

81 o MsgInserted.java Amministra tutte le risposte del forum ai topic, alle risposte dei topic e a tutte le altre concatenazioni di risposta possibili. o TopicInserted.java Permette l inserimento di un nuovo topic. Le componenti Java Beans sono o SearchStatusBean.java o ResponseBean.java Entrambe mantengono la struttura dati del sistema per tutta la durata (scope) della sessione di navigazione dell utente e fungono principalmente come strumento di lettura/scrittura per le servlets e per eventuali controlli lato server da parte delle pagine jsp componenti il sistema. Il motore della rappresentazione della conoscenza si basa sullo studio di un precedente sviluppo realizzato dall Ing. Luigi Lella ed è stato opportunamente adattato ed esteso per questo tool. Le classi Java che si occupano della visualizzazione della conoscenza di tutti i messaggi correlati costituenti il forum sono presenti nel package SemWebForum, e sono: o FileGraph.java o GraphMap.java o MsgRelations.java L informazione relativa alla correlazione dei messaggi postati è depositata nel package dbs dai file: o docs.rdf o graphs.data Per comprenderne meglio funzionalità e attività sono stati inclusi i relativi diagrammi Uml. La documentazione dell architettura è stata realizzata facendo riferimento ad una serie di modelli (di analisi, di disegno e di implementazione) e di diagrammi che ne illustrano in modo esaustivo la capacità. In riferimento alla

82 figura 3.4 si percepisce il significato di quanto espresso finora: il diagramma dei casi d uso rappresenta il più alto livello di astrazione, esso descrive cosa fa il sistema astraendosi dal come lo fa, definendo un comportamento coerente senza rivelare la struttura interna del sistema. FIGURA 3.4 Use Case Diagram del progetto web GuiController Nello specifico l attore rappresenta l utente (User) e la funzionalità (Use Case) che svolge è la ricerca dei messaggi nel forum (Message Search) costituenti il thread di discussione. L esito della ricerca genera la pubblicazione di: 1. risposte naturalmente collegate al messaggio selezionato: in questo caso d uso, il meccanismo di recupero delle informazioni dei post, avviene attraverso una normale query al database, in base ai criteri di ricerca scelti dall utente opzionabili per Data, Oggetto ed Autore o eventualmente estendendo la ricerca su tutti i messaggi presenti nel forum (fig. 3.5); 2. risposte correlate al messaggio selezionato estratte dal motore semantico: in questo secondo caso d uso il recupero delle informazioni correlate dei post si realizza con una query RDQL (RDF Data Query Language) al file

83 docs.rdf presente, come descritto in precedenza, nel package dbs ed opportunamente aggiornato dal sistema tramite il servizio web CheckMsgs. FIGURA 3.5 Screenshot relativa all interfaccia di ricerca dei messaggi presenti nel forum A questo punto il sistema provvede alla classificazione automatica dei messaggi, producendo un risultato simile a quello mostrato nella figura

84 FIGURA 3.6 Screenshot relativa alla selezione del messaggio Selezionato il messaggio da leggere, si aprirà una seconda vista inerente il messaggio specifico. Sarà quindi possibile verificare se esistono risposte naturali e messaggi correlati ad esso. In questo caso il sistema estenderà entrambi i casi d uso, come nella figura

85 FIGURA 3.7 Screenshot del messaggio selezionato

86 Le altre funzionalità di cui dispone questo sistema sono le stesse di un qualsiasi altro forum. E possibile quindi inserire nuovi topics (fig. 3.8) e rispondere ad essi (fig. 3.9). FIGURA 3.8 Screenshot della form di un nuovo topic

87 FIGURA 3.9 Screenshot della form di risposta ad un messaggio

88 Capitolo 16 WEB SERVICE E DATABASE Le funzionalità e le capacità di questo sistema di analizzare prima ed acquisire poi i messaggi postati nel forum sono possibili grazie al servizio web istallato nel server Apache, che, a sua volta, mantiene disponibili tutti i servizi di amministrazione, archiviazione e pubblicazione. Dal momento in cui si è fatto uso del linguaggio di programmazione Java, lo strumento più utile (e soprattutto open source) per lo sviluppo di un web services è il tool di Apache chiamato Axis. Axis non è altro che un api di programmazione e deployment di WS che permette di lavorare ad un livello di astrazione elevato (ed evita di farci preoccupare del protocollo SOAP). Una volta installato Axis nel server Apache, in pratica, è possibile implementare web services molto rapidamente. Il servizio web in questione, denominato CheckMsgs, è stato programmato come si fa solitamente per una normale classe Java. Viene successivamente cambiata l estensione del file in CheckMsgs.jws ed installato sotto Axis che provvederà alla sua compilazione. A questo punto rimane da effettuare il deployment ed il servizio web sarà pronto. CheckMsgs controlla il flusso dei nuovi messaggi in arrivo (nuovi topic e le eventuali risposte) postati nel forum e ciò avviene facendo un controllo sul valore del campo flag_elaborazione (vedi grafico sottostante) del database. Prima di andare avanti, però, è utile qualche cenno su come è stato strutturato il database ospitante tutti i messaggi del forum. Il db è stato suddiviso in tre tables, ognuna delle quali fa riferimento ad una definita categoria di messaggio ed è classificato in questo modo: o Maintopics (rappresentano i nuovi messaggi di discussione del forum) o Risposte ai maintopics

89 o Risposte delle risposte I campi di ogni categoria (quindi di ogni table) sono strutturati in sette differenti sottocategorie, specificanti: 1. data di creazione del messaggio; 2. oggetto del messaggio; 3. corpo del messaggio; 4. dello scrivente; 5. codice uri di appartenenza del messaggio; 6. codice uri di provenienza del messaggio; 7. flag di controllo per l apprendimento del nuovo messaggio. A questo punto, conoscendo la struttura portante del db, si possono chiarire ulteriori aspetti per la comprensione del WS. Alla sua esecuzione fa una verifica del campo flag_elaborazione di ogni categoria, passando al Buffer solo il messaggio con valore 0 (che rappresenta il messaggio non ancora letto dal sistema), setta successivamente il flag_elaborazione a 1 ed infine processa il messaggio attraverso la Working Memory. A questo punto le informazioni vengono distribuite al motore semantico, analizzate e confrontate con i messaggi precedentemente acquisiti nella Long Term Memory. Così facendo il servizio è in grado di decidere autonomamente il flusso di tutta la corrispondenza degli utenti in quella specifica istanza, ciclicamente eseguita allo scadere di un timeout. Qui di seguito il sorgente del web service creato: import java.sql.*; import java.util.arraylist; public class CheckMsgs public Object[] filternews(string tabletype) Statement stmt; ResultSet rs = null; String[] results; Object[] risultati2 = null; String sql = "SELECT _scrittore, data_creazione, subject, Body FROM"+tableType+" WHERE flag_elaborazione = '0' "; try

90 try Class.forName("com.mysql.jdbc.Driver"); catch (ClassNotFoundException e) System.out.println("ClassNotFoundException: "+e.getmessage()); Connection con=drivermanager.getconnection("jdbc:mysql://localhost/testschema"); stmt = con.createstatement(); rs = stmt.executequery(sql); ArrayList risultati = new ArrayList(); while(rs.next()) risultati.add(rs.getstring(" _scrittore")+ "ççç"+rs.getstring("data_creazione")+ "ççç"+rs.getstring("subject")+ "ççç"+rs.getstring("body")); risultati2 = risultati.toarray(); stmt.executeupdate("update "+tabletype+" SET flag_elaborazione = '1' WHERE flag_elaborazione LIKE '0'"); stmt.close(); con.close(); catch (Exception e) System.out.print(e.getMessage()); return risultati2; In figura 3.10 lo screenshot di MySql Table Editor: una vista dei campi della categoria Maintopic. FIGURA 3.10 Campi del database MySQL relativi alla categoria Maintopic

Vedere altro