Motori di ricerca di ultima generazione: il web semantico



Documenti analoghi
IL MARKETING E QUELLA FUNZIONE D IMPRESA CHE:

IDENTIFICAZIONE DEI BISOGNI DEL CLIENTE

CORSO ACCESS PARTE II. Esistono diversi tipi di aiuto forniti con Access, generalmente accessibili tramite la barra dei menu (?)

Ata_NiAg02. Modulo Gestione Agenti

MANUALE DELLA QUALITÀ Pag. 1 di 6

COME SVILUPPARE UN EFFICACE PIANO DI INTERNET MARKETING

Introduzione Ai Data Bases. Prof. Francesco Accarino IIS Altiero Spinelli Via Leopardi 132 Sesto San giovanni

uadro Soluzioni software per L archiviazione elettronica dei documenti Gestione Aziendale Fa quadrato attorno alla tua azienda

Sommario. Definizione di informatica. Definizione di un calcolatore come esecutore. Gli algoritmi.

NUOVI APPROCCI PER UN MANAGER ALLENATORE : IL PROCESSO DI COACHING

La manutenzione come elemento di garanzia della sicurezza di macchine e impianti

TECNICO SUPERIORE DEI TRASPORTI E DELL INTERMODALITÀ

LO SVILUPPO DELLE COMPETENZE PER UNA FORZA VENDITA VINCENTE

Project Cycle Management

PROGRAMMAZIONE E GESTIONE DI UN PROGETTO DI SERVIZIO SOCIALE

ARCHIVIAZIONE DOCUMENTALE

Alla c.a. Sindaco/Presidente Segretario Generale Dirigente competente

L ORGANIZZAZIONE AZIENDALE

HR - Sicurezza. Parma 17/12/2015

La Qualità il Controllo ed il Collaudo della macchina utensile. Dr. Giacomo Gelmi

Protocollo Informatico (D.p.r. 445/2000)

Valutare gli esiti di una consultazione online

Tesina per il corso di Psicotecnologie dell apprendimento per l integrazione delle disabilità

Titolo I Definizioni ed ambito di applicazione. Articolo 1 Definizioni

Ridurre i rischi. Ridurre i costi. Migliorare i risultati.

Project Cycle Management La programmazione della fase di progettazione esecutiva. La condivisione dell idea progettuale.

MANUALE DELLA QUALITA Revisione: Sezione 4 SISTEMA DI GESTIONE PER LA QUALITA

SOLUZIONE Web.Orders online

lem logic enterprise manager

Come archiviare i dati per le scienze sociali

connessioni tra i singoli elementi Hanno caratteristiche diverse e sono presentati con modalità diverse Tali relazioni vengono rappresentate QUINDI

Il servizio di registrazione contabile. che consente di azzerare i tempi di registrazione delle fatture e dei relativi movimenti contabili

RICERCA DELL INFORMAZIONE

Il glossario della Posta Elettronica Certificata (PEC) Diamo una definizione ai termini tecnici relativi al mondo della PEC.

COMUNE DI RAVENNA GUIDA ALLA VALUTAZIONE DELLE POSIZIONI (FAMIGLIE, FATTORI, LIVELLI)

Come funziona il WWW. Architettura client-server. Web: client-server. Il protocollo

25/11/14 ORGANIZZAZIONE AZIENDALE. Tecnologie dell informazione e controllo

IT Questionario per formatori di insegnanti di lingue Analisi dei dati

A cura di Giorgio Mezzasalma

Piano di gestione della qualità


Come scrivere una proposta progettuale

MANUALE DI UTILIZZO: INTRANET PROVINCIA DI POTENZA

DISPOSIZIONI DELL AUTORITA PER L ENERGIA ELETTRICA E IL GAS IN TEMA DI STANDARD DI COMUNICAZIONE

Enrico Alletto

BASE DI DATI: introduzione. Informatica 5BSA Febbraio 2015

Piani integrati per lo sviluppo locale. Progetti di marketing territoriale. Progettazione e start-up di Sistemi Turistici Locali

CAPITOLO CAPIT Tecnologie dell ecnologie dell info inf rmazione e controllo

Strutturazione logica dei dati: i file

Le strumentazioni laser scanning oriented per i processi di censimento anagrafico dei patrimoni

Corso di Informatica

PROCESSO DI INDICIZZAZIONE SEMANTICA

Dall Archivio al Polo tecnologico dell audiovisivo didattico e documentale per l Alto Lazio

La fattura elettronica. Settore Sistemi Informatici Associati

ISTITUTO STATALE D ISTRUZIONE SUPERIORE F. BESTA MILANO

SOFTWARE PER LA RILEVAZIONE PRESENZE SUL WEB

La Certificazione di qualità in accordo alla norma UNI EN ISO 9001:2000

CitySoftware PROTOCOLLO. Info-Mark srl

Linee guida per il Comitato Tecnico Operativo 1

uadro Soluzione software e hardware Per la gestione degli appuntamenti Gestione Aziendale Fa quadrato attorno alla tua azienda

MANUALE MOODLE STUDENTI. Accesso al Materiale Didattico

Abitantionline. Il social network per la casa e il costruito. Per chi è Cosa offre Lancio e partner. creato

Dematerializzare per Semplificare

NOTIFICAZIONE E PUBBLICITÀ LEGALE DEGLI ATTI NELL AMMINISTRAZIONE PUBBLICA DIGITALE

STAMPA DI UNA PAGINA SEMPLICE

Autorità Nazionale Anticorruzione e per la valutazione e la trasparenza delle amministrazioni pubbliche

Cos è la UNI EN ISO 9001?

Guida operativa per il versamento in conservazione dei documenti informatici gestiti nel sistema P.I.Tre

Le comunicazioni telematiche in Toscana

Novità di Access 2010

IL PROCESSO DI BUDGETING. Dott. Claudio Orsini Studio Cauli, Marmocchi, Orsini & Associati Bologna


Capitolo 5. Cercare informazioni sul Web

Premesso che il Sistema di e-learning federato per la pubblica amministrazione dell Emilia-Romagna (SELF):

Il corso di italiano on-line: presentazione

Appunti di Sistemi Distribuiti

Nota interpretativa. La definizione delle imprese di dimensione minori ai fini dell applicazione dei principi di revisione internazionali

BASI DI DATI per la gestione dell informazione. Angelo Chianese Vincenzo Moscato Antonio Picariello Lucio Sansone

Università Politecnica delle Marche. Progetto Didattico

IDENTIKIT delle FATTORIE DIDATTICHE della Regione EMILIA-ROMAGNA

ammesso solo con il tuo consenso. Le modifiche apportate hanno lo scopo di semplificare il controllo di quali

Sistemi per la Sicurezza Consulenza. Sicurezza Analisi Consulenza. La La Sicurezza non è un gioco. non è un gioco

Dematerializzare per Semplificare

Università degli Studi di Macerata UN MODELLO DI AMMINISTRAZIONE PUBBLICA DIGITALE EFFICIENTE E SOSTENIBILE SOTTO IL PROFILO ARCHIVISTICO

uadro Soluzione software e hardware Per le rilevazione presenze Gestione Aziendale Fa quadrato attorno alla tua azienda

Attività destinata a raccogliere e a catalogare documenti con l'obiettivo di farli conoscere e diffonderli.

Channel Assicurativo

La progettazione centrata sull utente nei bandi di gara

THS: un idea semplice, per un lavoro complesso.

ISA 610 e ISA 620 L'utilizzo durante la revisione dei revisori interni e degli esperti. Corso di revisione legale dei conti progredito

S i s t e m a d i v a l u t a z i o n e d e l l e p r e s t a z i o n i d e i d i p e n d e n t i

Database. Si ringrazia Marco Bertini per le slides

OSINT, acronimo di Open Source INTelligence, uno dei modi per acquisire dati utili per l intelligence:

Informatica. Prof. M. Colajanni Università di Modena Reggio Emilia

Al termine del lavoro ad uno dei componenti del gruppo verrà affidato l incarico di relazionare a nome di tutto il gruppo.

L IT a supporto della condivisione della conoscenza

Creare una Rete Locale Lezione n. 1

L uso della Balanced Scorecard nel processo di Business Planning

La tecnologia cloud computing a supporto della gestione delle risorse umane

Protocollo Informatico (D.p.r. 445/2000)

Transcript:

Motori di ricerca di ultima generazione: il web semantico Quando parliamo di vie di comunicazione di un sistema EWS, è opportuno pensare a quale strada può essere la più rapida per il recupero dei dati e la segnalazione dell informazione e quale tipologia di percorso informativo sia migliore per una unità operativa piuttosto che per un altra. La questione della comunicazione in entrata ed in uscita dall EWS si fa complessa se si pensa alle diverse fonti da cui i dati provengono e ai diversi destinatari cui l informazione deve giungere. Ciò significa che i dati di input potrebbero presentarsi in formati differenziati la cui comparazione e valutazione da parte del Centro dell EWS, quindi, potrebbero essere rese poco agevoli proprio per il format diversificato con cui si presentano. Se guardiamo alla strutturazione e alla gestione dell informazione in altri sistemi, al di fuori dei sistemi di allerta rapida sulle droghe, è possibile rilevare che, attualmente, gran parte dell informazione è conservata in formati di testo non strutturati e difficilmente trattabili. In particolare, prendendo come esempio la rete informatica, è possibile notare che il Web, così come si presenta oggi, richiede strumenti di lavoro più progrediti rispetto agli attuali, per facilitare e velocizzare la navigazione attraverso gli innumerevoli documenti che sono pubblicati nella Rete. Non sempre, infatti, la rete porta dove ci si attende e le difficoltà d orientamento sono significative soprattutto quando si è alla ricerca di qualche soggetto tematico di cui non si conosce la localizzazione precisa. Scorrere una lunga quantità di elenchi alla ricerca dell informazione desiderata è un azione molto frequente, soprattutto quando la ricerca interessa un termine piuttosto comune, ma che, di fatto, rallenta la ricerca e la fruizione dell informazione disponibile. Similmente, in ambito aziendale, è possibile notare il fatto che grandi compagnie possiedono milioni di documenti, molto spesso allocati in diverse parti del mondo, che sono resi disponibili su Internet ma che, secondo le semplici procedure di interrogazione attualmente in uso, non possono essere agevolmente interrogati e, quindi, vedono ridotto il loro potenziale informativo. Per questo, l informazione contenuta in essi non può essere né usata dai sistemi automatici, né essere facilmente gestita dall uomo. Ciò significa che l informazione è difficile da catturare, da condividere e da riutilizzare anche tra i lavoratori stessi di un organizzazione, riducendo l efficienza dell impresa e la sua competitività. Dati in format diversi Informazione non strutturata Inoltre, in una realtà in cui le compagnie sono sempre più valorizzate per le loro attività intangibili (ad esempio, il tipo e la qualità della conoscenza aziendale che le compagnie possiedono e utilizzano, che fa la differenza nella realizzazione e nella fornitura dei prodotti), la presenza di informazione non gestibile implica una perdita in termini di valore della compagnia. In maniera analoga, l EWS si ritrova a fare i conti con vari dati, sparsi tra le varie unità 119

Sistema di allerta precoce e risposta rapida per le droghe operative deputate al loro raccoglimento e alla loro trasmissione, di natura molteplice (dal referto delle analisi di laboratorio all intervista con persone tossicodipendenti), la cui gestione risulta complessa, quindi, non solo per la dislocazione dei dati ma anche per il loro format. Informazioni utili sui venditori di sostanze in Internet sono, anch esse, di grande interesse e costituiscono elementi per valutare un avviso di allerta ma si tratta, pur sempre, di notizie sparse nella Rete e decisamente difficili da rilevare, considerando sia l abilità di questi soggetti nell eludere controlli e verifiche da parte delle forze dell ordine sia l enorme quantità di informazioni che si trovano in rete. Esaminati gli ostacoli per il raccoglimento e la gestione dei dati, la velocità dell informazione rischia di risentirne negativamente, ciò traducendosi in lentezza e/o imprecisione della trasmissione dell informazione e/o in un raggiungimento inefficiente delle strutture operative coinvolte nel sistema. L iniziativa del Web semantico prende in considerazione proprio queste questioni. Con il Web semantico è possibile associare ai documenti web un senso compiuto, un significato che vada oltre le parole scritte, una personalità che possa aiutare ogni motore di ricerca ad individuare ciò che si sta cercando. Tutto ciò avviene in virtù non di sistemi di intelligenza artificiale bensì della marcatura dei documenti caricati sul web, di un linguaggio gestibile da tutte le applicazioni e dell uso di vocabolari specifici, ossia insiemi di frasi alle quali possono associarsi relazioni stabilite fra elementi marcati. Più precisamente, con il termine Web semantico si intende la trasformazione del World Wide Web in un ambiente dove è possibile pubblicare non più solo documenti (pagine HTML, file, immagini, ecc ) ma anche informazioni e dati relativi ai documenti stessi (detti metadati) in un formato adatto all interrogazione, interpretazione e, più in generale, all elaborazione automatica di quella stessa informazione (Daconta, 2003). Per funzionare, il Web semantico deve poter disporre di un tipo di informazione strutturata e di regole di deduzione per gestirla, in modo da accostare il più precisamente possibile le informazioni che un interrogazione ha richiesto. Per la sua costruzione/definizione, quindi, si utilizza il linguaggio XML 1 che consente di descrivere semanticamente (e con il dettaglio desiderato) le diverse parti di un documento. Un documento così descritto può, in seguito, essere elaborato per usi diversi: estrazione di informazioni secondo specifici criteri, riformulazione più o meno parziale per adattarlo ad altri formati, visualizzazione del documento in funzione della capacità del terminale. Tuttavia, sebbene sia un buon modo per specificare le informazioni, un documento, ancorché espresso in formato XML, è poco adatto al Web, che per sua natura è distribuito e decentralizzato e, per tanto, le informazioni su una particolare entità possono essere dislocate ovunque. Infatti, con XML è possibile descrivere adeguatamente i contenuti di un documento ma la sintassi XML non definisce alcun tipo di meccanismo esplicito per qualificare le relazioni tra i documenti. Nel fare ciò non è d aiuto neppure il meccanismo dei collegamenti ipertestuali, reso popolare dall HTML, perché amorfo, ossia non in grado di prevedere la descrizione del legame definito (Berners- Lee 2002). L evoluzione del Web in Web semantico inizia con la definizione, da parte del World Wide Web Consortium, dello standard RDF (Resource Description Framework), una Informazione non rilevabile Web semantico Descrizione semantica dei documenti 1 Extensible Markup Language, ovvero linguaggio di marcatura estensibile. Si tratta di un metalinguaggio creato e gestito dal World Wide Web Consortium e costituisce una semplificazione dell SGLM, da cui nacque nel 1988. L SGLM, acronimo per Standard General Markup Language è uno standard per la descrizione logica dei documenti che si basa su un tipo di marcatura generica chiamata marcatura descrittiva. 120

Motori di ricerca di ultima generazione: il web semantico particolare applicazione XML che standardizza la definizione di relazioni tra informazioni, ispirandosi ai principi della logica dei predicati 2 e ricorrendo agli strumenti tipici del Web e dell XML. Comunque, al di là dei linguaggi specifici necessari alla marcatura dei documenti, lo sforzo che sta alla base del Web semantico, in pratica, è quello di aggiungere contenuto concettuale ai documenti Web, in modo da accedere al quid dell informazione piuttosto che a del materiale non strutturato, permettendo così all informazione stessa di essere gestita in modo automatico. A tal fine, come abbiamo visto, è essenziale per il Web semantico produrre metodi automatici o semiautomatici, come i linguaggi RDF, che estraggano informazioni dai documenti relativi al Web, sia per contribuire alla registrazione dei nuovi documenti sia per estrarre informazioni aggiuntive da documenti esistenti non strutturati o solo parzialmente strutturati. Dato l aumento dell uso del Web (e in futuro del Web semantico) per la gestione dell informazione, questo processo di trattamento dei documenti risulta essere importante anche per la gestione della conoscenza aziendale tout court. Infatti, da quanto precedentemente detto si evince che, se il linguaggio XML si rivolge alla semplice descrizione di documenti, il linguaggio RDF (e le sue evoluzioni) è particolarmente indicato per rappresentare dati, fornendo un metodo potenzialmente capace di risolvere un tema fino ad oggi solo parzialmente soddisfatto dagli strumenti informatici quale la gestione della conoscenza aziendale, ovvero la capacità di trattare non solo le diverse anagrafiche (di prodotto, clienti, fornitori, dipendenti, ecc ) e di classificare i documenti tecnici o amministrativi (analisi di mercato, specifiche tecniche, norme, procedure, ecc ) ma di arrivare anche a gestire i contenuti di questi documenti permettendo, per esempio, il reperimento delle informazioni in funzione delle specifiche esigenze del richiedente, integrando quanto reso disponibile da fonti diverse. L applicazione potenziale di questi strumenti del Web è piuttosto ampia. Un esempio che abbiamo ritenuto interessante considerare in vista di una possibile relazione tra tale strumento e i sistemi EWS è rappresentato dal Server IDOL (Intelligence Data Operating Layer), prodotto in esclusiva dall azienda inglese Autonomy. Questo software costituisce una soluzione alla comprensione dei contenuti di qualsiasi tipo di informazione, indipendentemente dal luogo in cui quest informazione è contenuta e/o dal formato con cui si presenta sia essa in formato di testo, in qualunque lingua, immagine, audio, strutturata o non strutturata. Tale tecnologia fornisce la cosiddetta integrazione attraverso la comprensione, consentendo lo scambio di comunicazione all interno del sistema organizzativo senza alcuno sforzo e senza dover utilizzare complicati connettori o metadati, di difficile comprensione e/o gestione. In particolare, il server IDOL si basa sul tipo di ricerca concettuale cui si riferisce il Web semantico e fornisce le funzioni operative chiave che, per un azienda, rappresentano effettivi benefici, quali l aumento della produttività all interno dell organizzazione, un aumento della protezione dell informazione, una significativa riduzione dei costi per il mantenimento dei dati e l eliminazione di inesattezze provocate da errore umano. Le funzionalità di IDOL spaziano tra il reperimento dei dati, la loro categorizzazione, l allerta e la diffusione dei dati, il loro raggruppamento, la gestione di metadati e la sicurezza dei dati stessi. Tutto ciò con lo scopo, da un lato, di meglio informare e velocizzare il processo di decision making, dall altro di migliorare l efficienza operativa e ridurre i costi della gestione dell informazione. Gestione della conoscenza Intelligence Data Operating Layer 2 In estrema sintesi, secondo la logica dei predicati le informazioni sono esprimibili con asserzioni costituite da triple formate da soggetto, predicato, valore. Per maggiori informazioni si veda RDF Primer del W3C, http://www.w3.org/tr/rdf-primer/ 121

Sistema di allerta precoce e risposta rapida per le droghe Figura 1 - Schema delle funzionalità di IDOL. Le caratteristiche del raccoglimento concettuale dei dati include l uso di un linguaggio non strutturato di interrogazione dei documenti, detto Unstructured Query Language (UQL) che è in grado di affrontare le sintassi più complesse, anche quelle poste in un linguaggio naturale. IDOL accetta, in qualità di input, parti di contenuti, quali possono essere una frase, un paragrafo o una pagina di testo, o un informazione contenuta in frammenti di file audio o di discorsi, e riporta riferimenti a documenti concettualmente relazionati, ordinati per rilevanza o distanza contestuale. Tale processo viene utilizzato per generare hyperlinks tra parti di contenuti. Ciò che risulta innovativo e utile per un EWS è il fatto che le soluzioni di Autonomy per la classificazione dell informazione rimuovono la necessità, da parte delle organizzazioni, di basarsi sull intervento umano o sul processamento manuale dell informazione, come, ad esempio, l etichettatura manuale dei documenti, di solito richiesta per far funzionare la maggior parte delle altre applicazioni di e-business. Basandosi sulla capacità del Server IDOL di capire qualsiasi tipo di informazione contestuale utilizzando un avanzata tecnologia di pattern-recognition, Autonomy fornisce varie soluzioni di classificazione ampiamente graduata, che cataloga l informazione in maniera completamente automatica. In questo modo, i dati risultano più accessibili, fornendo agli utenti un informazione che è stata chiaramente definita e automaticamente localizzata all interno di una struttura logicamente guidata. In un tale stato di cose, Autonomy costruisce automaticamente un network di collaborazioni tale per cui è possibile che l organizzazione si concentri sulla costruzione di comunità d esperti, alimentando la collaborazione e riunendo i soggetti coinvolti attorno a forum di discussione per realizzare una congruenza di obiettivi, limitare gli sforzi e aumentare i livelli di produttività. Per quanto riguarda la diffusione dei contenuti, questi possono essere trasmessi e anche personalizzati attraverso numerosi canali, inclusi browsers, dispositivi mobili (telefono, personal digital assistants, ecc ), o anche TV digitale. Lo stesso contenuto può essere riproposto ad ogni dispositivo e l interazione tra utenti attraverso tali dispositivi aiuta il software a capire il tipo di interesse e l expertise degli utenti. In questo modo, vengono condizionate le successive ricerche di informazione e vengono perfezionati i criteri di rilevanza con cui presentare i documenti. In questo modo si ottiene la con- Network di collaborazioni Trasmissione dei contenuti 122

Motori di ricerca di ultima generazione: il web semantico segna automatica e la personalizzazione di informazioni rilevanti e puntuali ai diversi utenti e, oltre a rendere la fase di decision making più informata e più rapida, il sistema rende l informazione maggiormente accessibile, aumentando i vantaggi competitivi dell organizzazione. Figura 2 - Esempio degli avvisi che IDOL è in grado dare nell ambito del rispetto delle policy aziendali: se il contenuto delle mail inviate dagli impiegati non è in linea con le policy dell azienda, il sistema segnala l evento al mittente con un warning o, eventualmente, bloccando l invio della mail. In riferimento all utilizzo che un EWS potrebbe fare di un tale software, è possibile sostenere che una sua eventuale applicazione potrebbe agevolare il raccoglimento di differenti tipologie di dati sia in termini di contenuto che di tempistica. In altre parole, l utilizzo di un motore di ricerca come IDOL consentirebbe di mettere insieme dati provenienti da varie fonti, e quindi disponibili in modo più o meno strutturato, ma accomunati dallo stesso concetto di base, in relazione al fenomeno oggetto di analisi (la comparsa di nuove sostanze e/o di nuovi pattern di consumo). Ciò garantirebbe una maggior rapidità nella comunicazione di tali dati perché automaticamente definiti e localizzati dal server. Verrebbe, inoltre, agevolata la ricerca su Web di elementi che denotano una vendita di sostanze via Internet, poiché sarebbe possibile ricevere l avviso di eventuali segni e avvisaglie del fenomeno tramite il riconoscimento concettuale di questo tipo di dato: la raccolta di più indizi, anche di natura diversa, ma significativamente e concettualmente correlati, può arrivare a costituire una segnalazione d allerta. I questo modo, chi è responsabile della definizione del grado di allerta attorno a cui organizzare l azione di risposta potrebbe avvalersi di un tipo di informazione più chiara e completa, favorendo la valutazione dell informazione stessa e la presa di decisioni correlate. Non è da sottovalutare nemmeno l importanza dell azione di gestione dell informazione se si considera il fatto che, una volta raccolta l informazione dai vari spazi in cui era conservata, è possibile elaborarla in modo tale da giungere ad un vocabolario e ad IDOL e EWS 123

Sistema di allerta precoce e risposta rapida per le droghe uno standard di interpretazione comuni, comprensibile a tutti i soggetti partecipanti nel sistema e da loro stessi condivisibile. L importanza dell utilizzo di un prodotto come IDOL è data anche dal fatto che, in corrispondenza della gestione dell informazione, vi sarebbe la promozione di un network collaborativo tra tutti gli attori coinvolti nell EWS. Una rete di collaborazione, in un contesto come quello dell EWS, rappresenta una garanzia alla corretta diffusione dei contenuti dell informazione e alla personalizzazione di tale informazione in relazione al destinatario della stessa, secondo i criteri già descritti in paragrafi precedenti. Agevolare la collaborazione tra attori, quindi, contribuirebbe ad incrementare l efficienza del sistema, riducendo i tempi per l acquisizione dei dati e della trasmissione dell avviso di allerta, e rafforzerebbe la capacità cooperativa delle unità operative, aumentando l efficienza e l efficacia di un Early Warning System. 124