POLITECNICO DI TORINO

Transcript

1 POLITECNICO DI TORINO IV Facoltà di Ingegneria Corso di Laurea in Ingegneria dell Organizzazione d Impresa La classificazione a faccette fra Knowledge Management e Information Architecture: metodologie e strumenti Relatore Professor Fulvio Corno Tutore Aziendale Ingegnere Alberto Ciaramella Candidata Giulia Barroero Ottobre 2007

2 - 2 -

3 INDICE Introduzione Capitolo 1 - La knowledge organization Introduzione I sistemi di organizzazione Indicizzazione semantica Tesauri Tassonomie Ontologie Conclusioni Gli schemi di classificazione Classificazione a faccette Introduzione I vantaggi degli schemi a faccette per il Web I vantaggi per l'utente Il caso wine.com Capitolo 2 - Analisi di faceted browser I browser visionati The Flamenco Search Interface Project Introduzione Demo (Nobel Prize Winners) Prerequisiti richiesti Architettura SW Dati in ingresso MIT Longwell Introduzione Demo (MIT Libraries) Prerequisiti richiesti Architettura SW AquaBrowser Library Introduzione Demo (Queens Library) Architettura SW mspace Introduzione Demo Tecnologia Architettura SW Aduna Autofocus Introduzione Demo Prerequisiti richiesti Tecnologia SWED Introduzione

4 2.7.2 Demo (MokaByteSWP) Tecnologia Prerequisiti richiesti Architettura SW Tabella riassuntiva Capitolo 3 - Il progetto Intellifacet Introduzione Tipologie di informazione Fasi di realizzazione Utilizzo di H-DOSE Lato server Ontologia Indicizzazione Interfaccia di navigazione Ricerca testuale Architettura SW Possibili miglioramenti Backoffice Conclusioni Ringraziamenti...Errore. Il segnalibro non è definito. Bibliografia e siti consultati

5 Introduzione Ognuno di noi cerca in modo diverso, in base alle proprie esigenze e all'obiettivo che guida la sua ricerca; si ha, perciò, l esigenza di sistemi capaci di adattarsi a tale diversità di esigenze e profili di pubblico. E necessario garantire un accesso all'informazione secondo strade diverse con il concetto di multidimensionalità. I sistemi di ricerca full-text si limitano a cercare l'occorrenza di una parola (o di una stringa) all'interno di un insieme di documenti rischiando di estrarre risorse che non riguardano ciò che stiamo cercando, ma presentano la stringa cercata o di non considerare documenti pertinenti che contengono sinonimi delle parole cercate. I sistemi a faccette, invece, sono particolarmente indicati in quanto risultano comodi non solo per la classificazione, che incarna perfettamente questa logica multidimensionale, ma anche per la possibilità che offrono di associare fra loro concetti diversi. Questa monografia è strutturata in tre capitoli principali. Nel primo capitolo si effettua una breve introduzione sui fondamenti della knowledge organization, descrivendone i sistemi di organizzazione e gli schemi di classificazione. Inoltre viene descritto cosa si intende per classificazione a faccette e i vantaggi che questa ha portato nell organizzazione dei contenuti e nell esperienza degli utenti nel Web. Il secondo capitolo presenta una descrizione di alcuni casi dell impiego di sistemi di navigazione a faccette nel web che ho esaminato e confrontato secondo criteri comuni. Il terzo capitolo descrive la struttura di Intellifacet, la demo del faceted browser, realizzato dall Intellisemantic srl durante il mio periodo di tirocinio formativo

6 - 6 -

7 Capitolo 1 - La knowledge organization 1.1 Introduzione La rivoluzione informatica ha creato l illusione che si potesse improvvisamente risolvere il problema dell organizzazione e della gestione dell informazione per favorirne la reperibilità. Oggi si è capito che la tecnologia è sicuramente un supporto per la gestione della conoscenza ma ciò non elimina il problema dell organizzazione dei suoi contenuti. L organizzazione delle conoscenze, che si fonda su principi in gran parte indipendenti dal supporto fisico su cui sono memorizzate, è indispensabile per poterle utilizzare, trovando le informazioni che occorrono allo scopo del momento tra quelle disponibili. Inoltre, è anche una fase fondamentale per la ricerca di conoscenze nuove: i ricercatori che sviluppano, inconsapevolmente, conoscenze già possedute da altri, stanno perdendo tempo e non contribuiscono all avanzamento del sapere. 1.2 I sistemi di organizzazione Uno degli aspetti che interessano l'architettura dell'informazione è l'organizzazione ottimale dei contenuti nei documenti, in particolare nei siti web. A questo scopo vengono utilizzate, più o meno consapevolmente, varie forme di sistemi per l'organizzazione della conoscenza (knowledge organization system, KOS), come parole-chiave, tesauri, stringhe di soggetto, tassonomie, ontologie, schemi di classificazione Indicizzazione semantica In tutti i casi l informazione viene reperita per mezzo di indici che descrivono: le entità (caso db) i documenti (caso information retrieval) le pagine Web (caso ricerca in rete) - 7 -

8 Gli indici sono metadati cioè dati sui dati, rappresentazioni sintetiche che contengono riferimenti ai documenti interi, che vengono creati sia manualmente che automaticamente e sono indispensabili per far trovare i documenti e quindi farli leggere. Per migliorare la navigazione e il recupero dei dati da parte dell utente, gli autori di pagine web hanno, quindi, la possibilità di aggiungere parole o frasi che ne descrivono il contenuto attraverso i cosiddetti metadati Tesauri Nella sua forma più semplice un vocabolario controllato è un sottoinsieme di un linguaggio che rappresenta un sapere specialistico, per esempio un elenco dei termini specifici di una disciplina (arte, medicina, economia, ecc. ). Un vocabolario controllato di questo tipo può essere deciso da uno o più esperti, o costruito automaticamente scartando dai testi del settore le parole cosiddette nonstop (articoli, preposizioni, pronomi, ecc.) Un primo arricchimento del vocabolario controllato è costituito dalla introduzione dei sinonimi, o meglio di termini considerati equivalenti secondo certi criteri, nella stessa lingua o in lingue diverse, comprendendo anche errori ortografici comuni. Poiché nessuno dei termini equivalenti è considerato preferito, si parla di anelli di sinonimi. Un thesaurus è un vocabolario di un linguaggio d indicizzazione controllato (standard ISO 1986) in cui vengono esplicitate relazioni semantiche fra termini. Precisamente: relazioni di equivalenza fra i termini; relazioni gerarchiche fra i termini preferiti; relazioni associative fra i termini. Lo scopo di un tesauro è quello di formalizzare la terminologia per evitare la ridondanza del linguaggio naturale, che è quanto può accadere con le parole-chiave, così da aumentare il richiamo (recall) dei documenti rilevanti tra i risultati Tassonomie Un vocabolario controllato diventa uno schema di classificazione, tassonomia, quando i termini vengono organizzati in una gerarchia. Le tassonomie non sono molto diverse dai tesauri, tranne per la rappresentazione ad albero e il minor rigore con cui vengono specificate le relazioni. Uno schema di classificazione svolge un triplice ruolo: per l architetto dell informazione, come strumento di organizzazione e etichettatura dei documenti per l utente, come ausilio alla navigazione (se, come in Yahoo!, è resa visibile come parte integrante dell interfaccia) per l utente, nella ricerca, quando gli vengono mostrate le categorie in cui è stato trovato il termine dell interrogazione familiarizzandolo con lo schema di classificazione del sistema

9 1.2.4 Ontologie Anche le ontologie hanno una struttura concettuale simile a quella dei tesauri ma le relazioni tra i termini è nella forma gatto IS-A felino. Oltre alle relazioni generiche, partitive e associative, possono essere utilizzate molte altre relazioni, in base alle definizioni della singola ontologia. In questo modo, più che un albero gerarchico, si forma una vera e propria rete complessa di relazioni tra i concetti che può essere visualizzata, anche graficamente, in modi efficaci. Quello che rende le ontologie particolarmente utili è il fatto che in esse le relazioni sono generalmente registrate in modo formale e trattabile in automatico, utilizzando un apposito linguaggio di rappresentazione della conoscenza. Un agente intelligente software potrà così elaborarle secondo personali regole, quindi essere in grado di inserire nuove relazioni. La possibilità di mettere online diverse ontologie porta all idea di farle dialogare fra loro, affinché venga moltiplicata la conoscenza complessiva trattabile in automatico, realizzando l auspicato web semantico. A tale scopo occorre scegliere dei linguaggi di rappresentazione standard condivisi dai diversi sistemi, come DAML o il più recente OWL (Web Ontology Language) sviluppato dal World Wide Web Consortium (W3C) Conclusioni Oggi i nuovi modelli di KOS sono orientati verso un potenziamento delle operazioni di information retrieval e verso un automazione spinta nella fase di indicizzazione. Per raggiungere il primo obiettivo si sta cercando di velocizzare i motori di ricerca, che dovrebbero catturare le queries richieste dagli utenti all interno di un database ben strutturato, mostrando i risultati della ricerca attraverso l utilizzo di semplici interfacce in grado di servire meglio l utente, pilotandolo intelligentemente a seconda dei suoi interessi e delle sue necessità. La sfida più grande nel campo dell information retrieval è l identificazione concettuale all interno di uno specifico dominio di interesse. Infatti, un sistema di information retrieval semanticamente guidato ha la capacità di riconoscere, ovvero capire, attraverso chiarificazioni e precisazioni imposte all utente, i possibili e vari significati di una determinata parola nella stringa di ricerca. Soltanto quando l utente abbia disambiguato completamente il termine, il sistema potrà essere in grado di eseguire la ricerca senza troppo rumore nel risultato. Un sistema intelligente potrebbe non soltanto catturare l informazione pertinente alla richiesta dell utente, ma anche aiutarlo nell esplorare e chiarire cosa sta cercando fornendogli informazione utile e correlata. In questo scenario un KOS ha due funzioni: assistere l utente; supportare l indicizzazione automatica attraverso l analisi sintattico-semantica del testo. Queste due funzioni richiedono un KOS con una ricca struttura semantica. Per realizzare questi e altri obiettivi, i nuovi KOS devono sposare la struttura concettuale - 9 -

10 delle ontologie, ovvero, gerarchie ben strutturate di concetti connesse attraverso un network di relazioni dettagliate su base concettuale con la ricchezza terminologica dei migliori tesauri. I nuovi KOS devono contenere concetti specifici linkabili attraverso un network di relazioni ben definite e un ricco set di termini che identifichino questi concetti. In un ontologia si verificherà l assegnazione di un unico identificatore ad ogni concetto; in questo modo ogni concetto e relazione saranno esplicitamente definite come un unica entità e l ontologia diventerà una formalizzazione semantica. 1.3 Gli schemi di classificazione Gli schemi di classificazione sono forse i più classici tra i KOS. Sono stati sviluppati soprattutto a partire dalla fine dell'ottocento, per far fronte alla crescita della quantità di documenti da ordinare e gestire nelle biblioteche e nelle bibliografie. La maggior parte degli schemi di classificazione sono sostanzialmente enumerativi, ossia si basano sull'elencazione delle classi nelle quali è possibile ripartire i documenti da classificare. Poiché le possibilità di combinare fra loro i concetti sono limitate, quasi tutti i concetti da utilizzare devono essere già previsti dallo schema, che perciò è necessariamente costituito da tavole voluminose. L'universo della conoscenza viene suddiviso in un certo numero di classi principali, ognuna di queste in sottoclassi, e così via, sviluppando in questo modo un albero gerarchico, di profondità teoricamente illimitata. L'esempio più famoso è la Classificazione decimale Dewey (CDD), introdotta dal bibliotecario newyorkese Melvil Dewey a partire dal 1876, e da allora progressivamente espansa, aggiornata e adottata in biblioteche di tutto il mondo. 1.4 Classificazione a faccette Introduzione Un'evoluzione della classificazione enumerativa è stata introdotta dall'indiano S.R. Ranganathan a partire dagli anni Trenta, e successivamente diffusa dai membri del Classification Research Group. Nella concezione di Ranganathan uno schema di classificazione deve essere utilizzato in biblioteca in modo integrato: non soltanto cioè per realizzare un catalogo da consultare, ma anche per disporre i volumi negli scaffali secondo un ordine adeguato, che permetta agli utenti di localizzare direttamente quelli che trattano gli argomenti di loro interesse. Perciò, egli dedicò molto del suo lavoro a identificare dei principi fondanti per la classificazione, e introdusse soluzioni profondamente innovative all'eterno problema di rappresentare le innumerevoli sfumature dell'opera dell'intelletto umano. In alternativa agli schemi di classificazione già esistenti da diversi decenni, Ranganathan studiò un sistema meno rigido e più articolato, che definì classificazione a faccette. Una faccetta (in inglese "facet") è un particolare aspetto sotto il quale un argomento viene trattato; secondo Ranganathan, le faccette di qualsiasi classe si possono

11 ricondurre a cinque categorie fondamentali: personalità (l'oggetto centrale di un discorso), materia (i componenti e le proprietà dell'oggetto), energia (le caratteristiche dinamiche dei processi che lo interessano), spazio (i suoi elementi geografici o in genere spaziali), e tempo (le sue fasi cronologiche). Con una classificazione a faccette, il contenuto di un documento può essere descritto analiticamente nei suoi diversi aspetti; questi sono poi espressi tutti insieme, secondo una sequenza determinata da regole di funzionalità: perciò Ranganathan definisce questo tipo di classificazione analitico-sintetico. La classificazione a faccette è nota anche come Colon Classification, per la caratteristica frequenza con cui ricorre nella sua notazione il simbolo di due punti (in inglese "colon"). La classificazione a faccette non si preoccupa di collocare un oggetto in una gerarchia, ma di descriverlo in termini di sue proprietà o caratteristiche mutuamente esclusive. Non una singola grande tassonomia, ma tante piccole tassonomie che rispecchiano altrettanti diversi punti di vista. Nella classificazione a faccette, il contenuto dei documenti è analizzato in una serie di aspetti fra loro complementari, le cosiddette faccette, e quindi espresso per combinazione dei codici corrispondenti a ciascuna faccetta. Poiché le tavole di uno schema a faccette devono elencare solo i possibili valori (fuochi) di ogni faccetta, lasciando le loro possibili combinazioni al classificatore, esse risultano molto più compatte di quelle di uno schema enumerativo. Pur godendo della stima degli esperti di tutto il mondo, in quanto metodo più avanzato ed efficace di quello enumerativo, l'analisi a faccette non è stata ancora applicata in modo massiccio a biblioteche e bibliografie. Infatti, gli schemi enumerativi godono di maggiore notorietà e di strutture organizzative più potenti che forniscono una ricca documentazione anche in lingue diverse dall'inglese, e questo basta a convincere molti enti ad utilizzarle in luogo dei più avanzati schemi a faccette. Tuttavia, i principi individuati e definiti esplicitamente da Ranganathan a proposito della formazione delle classi, delle faccette, del loro ordine di citazione, della notazione adottata per esprimerli hanno una grandissima importanza teorica. Essi infatti, ripresi da autorevoli studiosi - fra i quali i membri del Classification Research Group - hanno fornito le basi per lo sviluppo di avanzati sistemi di indicizzazione: thesauri, classificazioni a faccette speciali e generali, I vantaggi degli schemi a faccette per il Web Un nuovo interesse per la potenza della logica a faccette si riscontra negli ultimi anni proprio nell architettura dell'informazione. Numerosi siti infatti adottano, più o meno esplicitamente, un'indicizzazione "a faccette", in cui, cioè, il contenuto di ciascuna pagina è accessibile alternativamente attraverso l'uno o l'altro degli aspetti che contribuiscono a formarlo. Questa tecnica è ritenuta vantaggiosa anche ai fini dell'usabilità, in quanto offre agli utenti diversi percorsi per arrivare alle stesse risorse a seconda dei loro rispettivi punti di partenza, invece di costringerli ad adattarsi a un modello concettuale gerarchico che inevitabilmente esprime solo uno di tali possibili percorsi

12 Nella progettazione e nella gestione di un sito web, così come di un qualsiasi sistema informativo digitale complesso (per esempio, un'intranet aziendale o un sistema di knowledge management), i principi della classificazione vengono impiegati in continuazione. Ci si trova, infatti, spesso nella situazione di dover organizzare una gran mole di contenuti con lo scopo principale di consentirne un facile recupero e, nella maggioranza dei casi, la soluzione più efficace risulta essere quella di ricorrere al buon vecchio metodo della classificazione. L'uso più evidente sul Web dei principi della classificazione si può riscontrare negli indici sistematici, cioè in quei siti che fungono da cataloghi organizzati delle risorse presenti on-line (Yahoo!, Virgilio, Open Directory, ). Ma classificare non è un compito semplice: un'attività di classificazione non supportata da strategie, metodologie e competenze adeguate rischia di produrre organizzazioni degli item illogiche e incoerenti, quindi poco scalabili e, soprattutto, difficilmente usabili dagli utenti. L incoerenza, quando è accompagnata da un design non adeguato, risulta la causa delle difficoltà di utilizzo del sistema da parte degli utenti che non riescono a costruirsi un modello mentale dell organizzazione del sito, fase determinante per una navigazione proficua. Il potere di uno schema organizzativo puro deriva dalla sua capacità di suggerire un semplice modello mentale che l'utente può facilmente comprendere. Gli utenti riconoscono facilmente un'organizzazione specifica per audience o per argomento e schemi organizzativi puri abbastanza piccoli possono essere applicati a grandi quantità di contenuto senza sacrificarne l'integrità o sminuirne l'usabilità. Tuttavia, quando si inizia a miscelare elementi di molteplici schemi, ne consegue spesso confusione e le soluzioni sono raramente scalabili. Poiché le parti sono mischiate tra loro, non possiamo formarci un modello mentale (Rosenfeld e Morville-2002). Un sistema coerente è anche maggiormente prevedibile: all'utente potrebbe bastare la lettura di solo alcune classi per dedurre tutte le altre, rendendo così più semplice e più rapida l'attività di comprensione e di apprendimento. A volte, per esempio se l'utente trova subito l'informazione che cercava (magari ancor prima che la pagina si sia completamente caricata), può capitare che veri e propri modelli mentali non vengano prodotti. Quando modelli mentali sono invece necessari, la rapidità della loro creazione e la prevedibilità del sistema sono aspetti molto importanti. Date tali premesse, l'utilizzo anche sul Web delle classificazioni bibliografiche potrebbe sembrare una soluzione ragionevole in quanto esse mostrano un livello di coerenza maggiore rispetto agli schemi home-grown. Ovviamente, nel proporre per il Web le classificazioni bibliografiche i bibliotecari sono comunque consapevoli del fatto che accorgimenti e modifiche all'impianto tradizionale debbano essere necessariamente apportati, non fosse altro che per la sostanziale diversità tra la fisicità del libro e la virtualità del Web. Ma le classificazioni bibliografiche classiche, in quanto enumerative e condivise, soffrono soprattutto di un problema: sono di fatto conservative perché strutturalmente chiuse, istituzionalizzate e centralizzate. Infatti non consentono in fase di indicizzazione, quando diviene necessario, l'inserimento da parte del classificatore di una nuova categoria; solo il compilatore può modificare la classificazione

13 Ben diverso è il caso delle classificazioni a faccette, le quali consentono un'effettiva apertura grazie a innovazioni sostanziali nel procedimento stesso di classificazione. Tali sistemi, dichiaratamente alternativi agli schemi gerarchico-enumerativi tradizionali, sono infatti frutto di un ripensamento radicale delle tecniche di classificazione: abbandonano l'idea di un'enumerazione a priori di tutte le classi a favore di una metodologia che consente di crearle "on the fly" partendo da alcuni elementi preventivamente decisi (le faccette e i fuochi). Durante la fase di indicizzazione, l indicizzatore ha il compito di descrivere l oggetto rispetto alle faccette previste, assegnando per ogni faccetta i fuochi più adatti. Sarà l unione dei fuochi selezionati per ogni faccetta che genererà automaticamente la classe per l oggetto in questione. Un sistema on-line basato su una classificazione a faccette, in quanto effettivamente aperto, è quindi una soluzione interessante per andare incontro alla necessità, così urgente sul Web, di poter fare affidamento su schemi di classificazione flessibili e velocemente adattabili. Non si deve però cadere nell'errore di considerare tale apertura assoluta. È infatti chiaro che il numero di categorie potenziali previste ha un limite che, sebbene molto elevato, rappresenta in ogni caso un vincolo nelle capacità rappresentative del sistema. Ma gli schemi a faccette rimediano a questo problema attraverso un alto livello di scalabilità, assai maggiore rispetto alle classificazioni gerarchicoenumerative classiche. Queste ultime sono infatti difficilmente scalabili: l'aggiunta di una nuova categoria rende spesso necessaria la modifica delle classi dello stesso livello (per assicurarne la mutua esclusività) e/o di una grossa parte della struttura ad albero dello schema. La colpa di tale difetto delle classificazioni gerarchico-enumerative è da imputare anche alla loro struttura gerarchica. In uno schema ad albero tradizionale ci sono infatti forti relazioni per ogni ramo: le classi inferiori dipendono da quelle superiori. Negli schemi a faccette è invece sempre possibile aggiungere una nuova faccetta descrittiva di un nuovo aspetto dell'oggetto e non si avranno ripercussioni di alcun tipo sulle altre faccette. In una classificazione analitico-sintetica ogni faccetta è infatti autonoma dalle altre: determina una proprietà ("sfaccettatura") dell'oggetto da classificare indipendentemente dalle proprietà descritte dalle altre faccette. Se il sistema può accogliere nuove faccette senza doversi "aggiustare" globalmente, ed è quindi intrinsecamente scalabile, si ripropone tuttavia anche in questo caso a questione della riclassificazione. L'aggiunta di una faccetta rende infatti necessaria la riclassificazione di tutte le entità secondo la nuova faccetta e, quando migliaia sono gli oggetti già classificati, il lavoro non è certo di poco conto. È però evidente come l'aggiunta di una faccetta abbia vantaggi di gran lunga superiori rispetto all'inserimento o alla modifica di una o più categorie in uno schema gerarchico. Una faccetta in più determina infatti un aumento esponenziale del numero delle combinazioni potenziali e, quindi, un livello di specificazione maggiore del carattere descrittivo delle classi. Cosa comporta, invece, l'introduzione di un nuovo focus in una faccetta? I problemi si avranno se l'aggiunta di un nuovo focus rende non mutuamente esclusive le classi: essendo queste parte di una precisa tassonomia costruita sulla base del principio di divisione della faccetta, si ripropongono infatti gli stessi

14 problemi di inserimento e di riclassificazione tipici delle classificazioni gerarchicoenumerative: la riclassificazione del materiale non riguarderà tutti gli item, ma è tuttavia probabile per una parte di questi. È consigliabile allora prestare sempre molta attenzione e tempo alla preliminare analisi a faccette: tale fase è, infatti, di strategica importanza nello sviluppo di un sistema di classificazione analitico-sintetico e, se compiuta con cura, evita poi problemi di riclassificazione I vantaggi per l'utente Sono stati dimostrati i vantaggi che l'adozione sul Web di uno schema a faccette può comportare per il lavoro dei designer e degli architetti dell'informazione di un sito, consentendo loro di fare affidamento su un sistema aperto, facilmente scalabile e flessibile in fase di indicizzazione. Per esaminare i vantaggi degli schemi a faccette sul Web in una prospettiva di esperienza-utente, invece, è necessario ritornare alla "questione dell'incoerenza", e chiederci perché i siti web facciano così ampio uso di classificazioni altamente ibride e incoerenti nonostante le difficoltà che queste possono comportare per l'utente. Il motivo principale di tale utilizzo può essere fatto risalire alla necessità di inserire nel top-level della gerarchia (e quindi in homepage) il numero più alto possibile di "categorie popolari", attuando così una strategia di "popularity-based classification". Lo scopo è quello di consentire all'utente un accesso più veloce a tali "categorie popolari", intendendo con questa espressione gli argomenti, i servizi, le azioni, i prodotti, e in generale tutti gli item classificati, che sono considerati più rilevanti per le tipologie di utente a cui il sito si rivolge. Uno schema di classificazione rigorosamente coerente può comportare il rischio che alcune categorie ritenute popolari, o addirittura tutte, siano collocate in nodi inferiori e diversi dello schema, causando così sia un aumento delle difficoltà nel loro ritrovamento da parte dell'utente, sia la necessità di un numero di click maggiore rispetto all'ipotesi in cui tali categorie fossero direttamente disponibili in homepage. Se l'obiettivo è realizzare una "popularity-based classification", spesso risulta allora essere necessario rinunciare alla coerenza dello schema (mutua esclusività delle categorie e adozione di un unico principio di divisione per nodo). In una struttura gerarchico-enumerativa, la progettazione di una "popularity-based classification" può infatti implicare che le categorie del top-level: siano fra loro sovrapponibili; siano generate con principi di divisione differenti. Di fatto, attraverso una "popularity-based classification", i siti web cercano di soddisfare già in homepage molti dei bisogni informativi e delle esigenze dei loro potenziali utenti. Sanno benissimo, nonostante a dir la verità non ci sia un totale accordo su questo tema, che al navigatore del Web non piace fare molti click per arrivare a ciò che cerca. Sanno anche che uno schema di classificazione è sempre soggettivo e arbitrario: orientarsi nelle tassonomie compilate da altri non è spesso semplice. Riassumendo, le classificazioni gerarchico-enumerative pienamente coerenti determinano un doppio vincolo: possono spingere in basso le categorie popolari;

15 non permettono ad uno stesso livello (e in particolare in homepage) strategie di navigazione e di ricerca differenti, cioè secondo diversi principi di divisione/raggruppamento. L'usabilità e l'utilità in un sistema di questo tipo risultano compromesse, soprattutto se la strategia è quella di una classificazione che soddisfi il prima possibile, magari già in homepage, le esigenze più popolari. Sembrano esserci allora motivi sufficienti per sposare la causa dell'incoerenza, come d'altronde fanno molti degli indici sistematici e dei portali della rete. Le classificazioni a faccette, in quanto multidimensionali (diversi criteri di divisione possono essere applicati contemporaneamente), permettono di aumentare notevolmente il numero di esigenze di ricerca e di interrogazione soddisfatte, senza rinunciare alla coerenza. Gli utenti possono iniziare la ricerca dalla faccetta che più interessa loro: ognuno potrà trovare tutti gli item che rispondono a quella che considera essere la caratteristica più importante, senza l'obbligo di un unico percorso che parta da una faccetta specifica e senza dover controllare diverse sottocategorie. Il sistema garantisce infatti una pluralità di accessi, cioè una molteplicità di modalità di navigazione e di ricerca secondo principi di divisione differenti e, quindi, secondo bisogni informativi diversi. Si realizza così un ottimo sistema di accessi multipli. Ogni faccetta corrisponde a un tipo di esigenza degli utenti: eliminando un principio di divisione che potrebbe essere utile, non si permette più agli utenti di navigare lo schema secondo la corrispondente modalità di ricerca/esigenza. Un'interfaccia analitico-sintetica può inoltre risolvere la questione delle categorie popolari: sotto l'etichetta della faccetta corrispondente non saranno elencati tutti i fuochi, soprattutto se troppi, ma solo quelli che si prevede verranno cliccati più frequentemente dagli utenti, magari ordinandoli proprio per popolarità e non sulla base di un criterio alfabetico. Se l'utente preferirà vederli tutti, potrà farlo in un secondo tempo. Inoltre, se i criteri di divisione vengono pure chiaramente mostrati la classificazione diventa anche autoesplicativa e trasparente, risolvendo il problema, tipico di uno schema gerarchico-enumerativo classico, di non avere "una struttura esplicita tale da appalesare o da adombrare la teoria che esso incarna" (Serrai, 1977). La familiarizzazione con lo schema diventa, quindi, non più necessaria. Riassumendo, si realizza quindi un sistema che prevede: accessi multipli sulla base di diversi bisogni informativi; la soddisfazione, senza troppi click, delle esigenze più popolari; una classificazione coerente, intuitiva e autoesplicativa. Aggiungendo a questa lista anche le proprietà, già evidenziate, di apertura, scalabilità, flessibilità e possibilità, senza controindicazioni, di cross-classification in fase di indicizzazione, è ora possibile cogliere tutte le potenzialità che l'applicazione al Web della teoria delle faccette comporta Il caso wine.com Anche il sito wine.com offre un esempio di felice applicazione della classificazione mediante faccette. Fin dalla homepage, sono presentate all utente diverse opzioni di accesso (browsing) al catalogo dei vini

16 Figura 1.1 Schermata iniziale del wine shop PRICE, REGION e TYPE rappresentano le faccette primarie di questo catalogo, a sua volta ripartite in topics (o faccette di secondo livello). Anche in questo caso, è possibile utilizzare le faccette in combinazione (mediante la ricerca avanzata), così da ottenere un set di risultati che soddisfano più criteri. Figura 1.2 Esempio di ricerca avanzata dei vini

17 Capitolo 2 - Analisi di faceted browser 2.1 I browser visionati La maggior parte del tirocinio svolto presso l'intellisemantic srl è stata dedicata alla ricerca e analisi delle prestazioni di browser a faccette. I facet browsers visionati sono i seguenti: Progetto Creatori Sito del progetto Flamenco Università di Berkeley Longwell AquaBrowser Medialab mspace Autofocus SIMILE (MIT Libraries e MIT CSAIL) Università di Southampton, School of Electronics and Computer Science Aduna Swed Università di Bristol Ho deciso di esaminare più approfonditamente, in questa monografia, questo gruppo di soluzioni perché penso compongano un quadro generale sufficientemente vario e descrittivo delle diverse applicazioni della classificazione a faccette presenti nel web. Quindi sono andata a specificare meglio i programmi nella tabella, tentando di farne un confronto in base ai parametri sotto riportati: Funzionalità: descrizione delle caratteristiche generali del progetto. Architettura del software: descrizione dei moduli che compongono il progetto e permettono la realizzazione di tutte le sue funzionalità

18 Prerequisiti richiesti: risorse che l utente necessita per poter far funzionare il software sul proprio sistema. Esempi di utilizzo con relativi link: descrizione di alcune demo e siti che utilizzano i software. Interfaccia utente: giudizio di come le funzionalità del browser vengono visualizzate all utente. Output search testuale: in che modo vengono visualizzate le risorse che sono il risultato della search tradizionale. Dati in ingresso: descrizione dei formati dei dati che premettono alle risorse di essere catalogate Open source si/no? 2.2 The Flamenco Search Interface Project Introduzione Flamenco (FLexible information Access using MEtadata in Novel Combinations) è un progetto curato dall'università di Berkeley, scritto in Python, che consiste in un motore di ricerca e directory organizzati con il criterio delle faccette, disponibile open source con licenza BSD. E uno strumento concepito per guidare gli utenti attraverso la vastità delle informazioni d'architettura presenti sul web. L'interfaccia muove i suoi esploratori attraverso categorie di scelta e parole chiave in un'organizzazione strutturale fondata sul metadato. Consente quindi un'amplificazione delle tradizionali pratiche di catalogazione bibliografica in ambiente elettronico Demo (Nobel Prize Winners) Accedendo alla demo, si nota subito la presenza di una doppia via: la ricerca diretta; una directory di link. Figura 2.1 Interfaccia della demo di Flamenco utilizzato per catalogare i vincitori dei premi nobel

19 Come si può osservare nell immagine la directory di link si presenta graficamente simile a quella di Yahoo o Google dando l impressione che ogni riquadro colorato sia l insieme di oggetti diversi. In realtà la logica della directory è molto diversa: ciascun ramo rappresenta un percorso di accesso alternativo alla stessa collezione di items ma parallelo agli altri; ogni riquadro è quindi una faccetta della medesima collezione, rappresentato visivamente con un colore diverso dagli altri. E necessario notare che le faccette rappresentano non tanto un contenitore dei dati a nostra disposizione ma un loro descrittore semantico (proprietà o aspetto dei dati stessi). E possibile effettuare, sfogliando la directory, una selezione progressiva definita filtraggio. Una volta operata una prima selezione è sempre possibile raffinare ulteriormente la ricerca all'interno del sottoinsieme estratto utilizzando le altre faccette che vengono sempre ripresentate assieme ai risultati. Inoltre, per ogni insieme di risultati vengono specificate le sue coordinate semantiche rispetto a tutte le faccette del sistema: oltre a mostrare l insieme dei risultati, Flamenco rende visibile la collocazione di tali risultati rispetto alle varie faccette. Il motore di ricerca associato alla directory lavora in modo simile: quando si opera una ricerca diretta, esso non esegue una semplice ricerca full-text, ma si appoggia al sistema di classificazione a faccette per estrarre i risultati. L utente, impiegando in modo combinato e complementare searching e browsing, può: scegliere se cercare un informazione mediante ricerca diretta o sfogliando una directory; raffinare o espandere i risultati della propria ricerca; esplorare risorse correlate in maniera semantica a quelle trovate; scegliere punti di vista alternativi in ogni momento Prerequisiti richiesti Per utilizzare il server di Flamenco, serve un computer su cui è installato Linux o Mac OS X con: Web server che supporta CGI scripts (es: Apache è preinstallato in Mac OS X e nella maggior parte dei sistemi Linux); Python 2.3 o superiore. Flamenco usa anche il modulo di MySQLdb per Python; se non è già installato Flamenco lo installa automaticamente usando una copia di MySQLdb che è inclusa nella distribuzione di Flamenco. Serve, quindi, un account MySQL per avere il permesso di creare nuovi database o avere l accesso al database in cui flamenco raccoglie le collection dell utente

20 Lucene è usata opzionalmente per garantire una ricerca full-text ottimizzata (la ricerca full-text è già disponibile via MySQL senza l uso di Lucene). Se si desidera integrare Lucene bisogna avere: Java (JRE) 1.2 or superiore. Accesso al proprio MySQL server sulla porta TCP Architettura SW Il diagramma seguente illustra l architettura SW di Flamenco (i blocchi colorati sono parte di Flamenco). Tutti i blocchi (eccetto Java, MySQL, Lucene e WebKit) sono scritti in Python. Figura 2.2 Architettura di Flamenco I metadati relativi agli oggetti della collection sono salvati in un database SQL. Flamenco usa MySQL, sebbene qualunque database SQL sarebbe sufficiente. MySQLdb è l interfaccia Python per MySQL. Flamenco usa anche il motore di ricerca Lucene, scritto in Java, per le sue caratteristiche della full-text search. Se java o Lucene non sono disponibili la ricerca testuale è implementata usando MySQL. Il modulo metadb, core dell implementazione a faccette dei metadati di Flamenco, fornisce un livello di astrazione sopra il database SQL e le funzionalità di ricerca testuale. Il modulo html fornisce le funzionalità per generare HTML. Il modulo components usa le informazioni salvate nel database per costruire l interfaccia utente di Flamenco. Queste parti sono combinate insieme e trasformate in pagine Web dal modulo Flamenco. Floogle e FrankenMatrix sono altre variazioni dell interfaccia utente

21 Il CSS per l interfaccia utente è generato dinamicamente dal modulo FlamencoStyle che è composto da css, generatore automatico di fogli di stile, and Style, per inviare CSS anzichè HTML. WebKit, parte di Webware, permette la corretta visualizzazione delle pagine generate e dei fogli di stile Dati in ingresso Per caricare una collection in Flamenco devono essere forniti i metadati relativi alla collection in tab-delimited files (TSV files, estensione ".tsv") che possono essere facilmente manipolati usando OpenOffice o Microsoft Excel. Una collection di Flamenco è un set di oggetti tutti dello stesso tipo (es: tutti gli oggetti sono libri, tutti gli oggetti sono canzoni, ) mentre i metadati relativi a un oggetto consistono nei suoi valori delle faccette e degli attributi. Il primo passo nella preparazione di una collection è decidere quali informazioni diventeranno faccette e quali attributi: i valori delle faccette sono usati per organizzare gli oggetti in categorie mentre i valori degli attributi sono solo visualizzati con un oggetto individuale. Figura 2.3 Esempio di faccette e attributi di una collection Nell esempio, relativo alla demo sui premi nobel, prize è una faccetta che indica il tipo di premio nobel vinto mentre name è un attributo che indica il nome del vincitore. Infatti, ha senso raggruppare i vincitori in categorie per il tipo di premio e non per i loro nomi. I valori delle faccette sono associati a un numero ID mentre i valori degli attributi sono stringhe

22 I file TSV che bisogna fornire sono: attrs.tsv Tabella in cui ogni linea rappresenta un attributo. Il campo attribute identifier deve essere un nome corto e univoco che contiene solo lettere e _ (no spazi o punteggiatura) mentre displayable name è ciò che viene visualizzato dall utente. facets.tsv Tabella in cui ogni linea rappresenta una faccetta. Il campo facet identifier deve essere un nome corto e univoco (anche rispetto agli attributi) che contiene solo lettere e _, displayable name è ciò che viene visualizzato dall utente e long description fornisce una descrizione dettagliata della faccetta. items.tsv Tabella che fornisce ID e attributi per tutti gli oggetti. Ogni oggetto ha un suo ID univoco che può essere una stringa o un numero. Il campo item identifier è seguito dai valori degli attributi per l oggetto nell ordine in cui gli attributi sono inseriti in attrs.tsv. facet_terms.tsv Tabella che, per ogni faccetta ( facet è il facet identifier di facets.tsv), fornisce l albero dei termini delle categorie nella faccetta. E l unico file che, in ogni riga, può avere un diverso numero di campi. Ogni linea rappresenta una categoria e fornisce l intera catena di categorie padre. Il campo term identifier deve essere un numero univoco all interno della faccetta. facet_map.tsv

23 Tabella che, per ogni faccetta, collega gli oggetti ai termini della categoria. sortkeys.tsv Tabella opzionale che indica quali faccette o attributi sono utilizzate per ordinare i risultati. Il campo description è il testo del link da usare per ordinare i risultati. text.tsv Tabella opzionale che supporta la ricerca testuale per Flamenco. 2.3 MIT Longwell Introduzione Longwell è un web browser RDF a faccette, scritto come un applicazione web java, che visualizza il contenuto del thesaurus nascondendo il modello RDF sottostante. E' disponibile open source con licenza BSD-style. E un progetto creato e gestito da SIMILE, joint project di MIT Libraries e MIT CSAIL Demo (MIT Libraries) Figura 2.4 Pagina iniziale della demo di Longwell

24 Una faccetta è un particolare metadato che è considerato importante per l insieme di documenti che sto navigando. Quando una collection è selezionata, Longwell inizia a processare l insieme dei documenti ed estrae una lista di faccette, i loro valori e il numero di volte che ciascun valore della faccetta è presente nel dataset (colonna a destra della schermata) Cliccando sul titolo della faccetta è possibile visualizzarne i valori. Figura 2.5 Esempio della ricerca a faccette della demo di Longwell Aggiungere restrizioni nel pannello di destra ha l effetto di zoom in nel dataset, cioè, di rimuovere dall elenco tutto ciò che non ci interessa. Quando non è più possibile un ulteriore restrizione per faccette il pannello di destra risulta vuoto. Allo stesso modo l utente può effettuare zoom out rimuovendo delle restrizioni inserite precedentemente (nella parte alta a sinistra della schermata). Il risultato della restrizione è una selezione degli oggetti presenti nel dataset. Longwell può anche essere configurato per visualizzare particolari proprietà degli oggetti in diversi modi, e, con i fogli di stile CSS, è possibile ottenere una bella presentazione dei dati senza dover modificare il codice sorgente di Longwell. Longwell ha anche l abilità di usare una restrizione free-text che riduce il dataset a tutti gli oggetti che contengono la stringa cercata nei valori delle loro proprietà. Questa restrizione è attivata inserendo il testo nel box sopra la lista delle faccette

25 2.3.3 Prerequisiti richiesti I requisiti necessari per utilizzare Longwell su dati RDF: Java Virtual Machine (JVM) versione 1.4 o superiore Apache Maven Architettura SW Il lato Client di Longwell ha 3 componenti: Query Engine, History, User Interface. Query Engine Questo componente tiene traccia della corrente faceted query che consiste in due collections di facette: root facets : selezione delle cose tramite cui l utente può rifinire la ricerca. current facets : risultato della navigazione a faccette, cambiano ogni volta che l utente interagisce con le faccette nella UI. History Component E responsabile di tener traccia delle azioni dell utente e di rispondere all uso dei pulsanti di backward e forward del browser. User Interface Component UI è formata da 3 parti: control panel : in alto a sinistra e contiene il pulsante Add View. browse panel : a destra, contiene i controlli per la navigazione del dataset (facets e text search). view panel : oggetti visualizzati dall utente. Queste 3 parti si comportano in maniera diversa a seconda della presenza o meno di restrizioni. 2.4 AquaBrowser Library Introduzione AquaBrowser è un potente motore di ricerca e visualizzatore di dati che consente il recupero di informazioni, sviluppato in maniera specifica per le biblioteche, e supportato da sistemi di associazione tra termini, varianti di scrittura, tesauri e varianti linguistiche del termine o dei termini ricercati. Offre inoltre la possibilità di gestione amministrativa e produzione di statistiche finalizzate sia al miglioramento del servizio, sia ad una più puntuale configurazione del sistema stesso

26 E una soluzione a pagamento realizzata dalla società olandese Medialab Demo (Queens Library) L'interfaccia presenta tre differenti funzioni di recupero e presentazione delle informazioni: search, discover, refine. Figura 2.6 Interfaccia della demo di AquaBrowser per la Queens Library Search Figura 2.7 Funzione di search nell interfaccia di AquaBrowser ABL consente agli utenti di cercare informazioni sul proprio catalogo e presenta i risultati di tale ricerca in una lista, personalizzabile, ordinata per rilevanza rispetto alla query stessa

27 Altri criteri di ordinamento (per titolo, per data, per autore etc.) sono disponibili per una differente presentazione dei medesimi risultati, in relazione alle specifiche esigenze di ricerca dell'utente. Figura 2.8 Selezione del criterio di ordinamento dei risultati Dalla schermata di presentazione dei risultati è possibile, attraverso una semplice funzione di navigazione, accedere direttamente al catalogo informatizzato della biblioteca (OPAC) per fruire dei servizi (informazioni sulle copie, prestito, prenotazione, document delivery etc.) a cui l'utente è abilitato. Discover Funzione di navigazione delle informazioni attraverso una nuvola o galassia di termini relazionati, in vario modo, al termine ricercato. Figura 2.9 Funzione di discover nell interfaccia di AquaBrowser

28 Ponendo al centro della galassia il termine ricercato, il sistema recupera e presenta, come suggerimenti di esplorazione del catalogo, una serie di termini relazionati al termine ricercato per associazioni (i termini più utilizzati nei record in associazione a quello ricercato), per traduzioni (le traduzioni linguistiche del termine ricercato), per sinonimi, per varianti di scrittura, per gerarchie tesaurali. La galassia o nuvola di termini associati a quello ricercato si rigenera ad ogni nuova ricerca e ad ogni nuova esplorazione del catalogo. Refine Consente all'utente di filtrare la propria ricerca al fine di recuperare cio che è di suo interesse. Questa funzione permette, partendo dal risultato di una query, di recuperare una serie di filtri da utilizzare ai fini di un ulteriore restringimento delle proprie ricerche cioè di effettuare una navigazione a faccette. Figura 2.10 Funzione di refine nell interfaccia di AquaBrowser Ogni biblioteca, in relazione alle abitudini ed attitudini della propria utenza, decide quali categorie di dati mettere a disposizione nella sezione di Refine come filtri delle successive ricerche Architettura SW Figura 2.11 Architettura SW di AquaBrowser

29 Data Connectors: link tra Aquabrowser e le sue sorgenti di dati; trasformano i dati in input nel formato di Medialab. Medialab ha sviluppato data adapters per informazioni non strutturate (Microsoft Word e Excel, HTML e siti web) ma anche per informazioni strutturate come quelle fornite da MSSQL, XML, Knowledge Builder: fornisce un analisi dei dati in input usando la frequenza delle parole e l analisi delle co-occorrenze per creare una rete semantica che può supportare i processi di search e refine. Igor: motore di ricerca di AquaBrowser. Context Builder: insieme di componenti che crea l ambiente di navigazione per gli utenti. Arricchisce le queries, fornisce suggerimenti, aiuti e altri tipi di feedback. Inoltre, compila i risultati della ricerca e le associazioni dal motore di ricerca. Questo componente inoltre fornisce l opzione di refine sul set di risultati. User Interface: unisce tutto insieme. Presenta i risultati e offre l ambiente per formulare le queries. 2.5 mspace Introduzione mspace è un servizio di interfaccia che include un modello di interazione e un software framework per aiutare le persone ad accedere ed esplorare le informazioni sviluppato dalla School of Electronics and Computer Science (università di Southampton) scritto in javascript e PHP. mspace software framework può essere scaricato gratuitamente dal sito di sourceforge. Presenta molte categorie associate alle informazioni e permette di manipolarle e decidere quante presentarne e come. In questo modo le persone possono organizzare le informazioni rispetto ai loro interessi e contemporaneamente avere a disposizione percorsi complementari per accedere alle stesse risorse Demo Cosa succederebbe se voglio trovare qualcosa da un dominio di cui ho un interesse generale senza averne una conoscenza specifica? mspace utilizza come esempio della sua demo una raccolta di brani di musica classica e si chiede: come fare a trovare un brano di musica classica che può piacere, utilizzando Google, se non si conosce la differenza tra Beethoven e Chopin o non si sa cosa sia una sonata? Se digito classical music su Google troverò una lista di pagine informative sulla musica classica: descrizioni sui termini e sui brani, raccomandazioni su cosa ascoltare, biografie dei compositori, Tantissima informazione dispersa in una marea di click!

30 Figura 2.12 Schermata di Google itunes Music Store potrebbe aiutare: la sua browse area permette di usare il software itunes per navigare la musica disponibile nel suo store. Figura 2.13 Schermata di itunes Ma anche in questo caso devi già sapere ciò che vuoi e quale artista vuoi ascoltare. Non si può organizzare il browser in altre categorie, per es: strumenti (piano, violino, violoncello,..) o genere (sinfonia, sonata, concerto,..) o periodo (romantico, contemporaneo, ), ecc... Non si ha nemmeno la possibilità di avere informazioni sul significato dei termini presenti nel browser. Ciò che mspace fa è combinare la semplicità di itunes con le informazioni che ottengo dalla Google search. mspace software framework consente di organizzare qualunque tipo di dati in un browser simile, graficamente, ad itunes, associarci delle informazioni ed esplorarli nel modo che l utente preferisce. Avendo una lista di brani di musica classica, siti che contengono informazioni sulla musica classica (nella rete) e un set di categorie, si può applicare il framework mspace a queste risorse per associarle l une alle altre. L interfaccia mspace permette poi di esplorare e manipolare le informazioni

31 Figura 2.14 Schermata di mspace La figura 2.14 mostra mspace Classical Music Broswer : ci sono tre categorie(era, Composer and Piece) disposte in modo simile ad itunes e una finestra Information in cui è visualizzata la descrizione dell elemento che clicco in una categoria. Figura 2.15 Funzione preview cues di mspace Il testo è utile ma alcune volte non è sufficiente, specialmente quando ciò che sto cercando riguarda la musica o i video. Con mspace passando con il mouse sopra un titolo in una categoria visualizzo una selezione definita preview cues. Per esempio, se non conosco il suono della musica Romantica posso cliccare sulla preview cues di Romantic e ascoltare un esempio del tipo di musica che trovo lì dentro

32 Figura 2.16 Scelta delle categorie di mspace Inoltre in mspace l utente ha la possibilità di organizzare l informazione come desidera scegliendo quali categorie usare, per organizzare l informazione, aggiungendole o sottraendole dall elenco in alto nella pagina. mspace può essere applicato potenzialmente a qualunque area informativa (film, Internet Movie Database (IMDB), ) Tecnologia Il Semantic Web Le macchine che processano pagine Web non sanno nulla del loro contenuto. I motori di ricerca cercano documenti che contengano le parole ricercate e producono una lista di risultati. Con il Web Semantico vengono aggiunti dati alle pagine che aiutano le macchine a creare connessioni tra le pagine e anche a compiere ragionamenti sulle pagine stesse. Ma, oltre che ritornare più e migliori risultati, il Web semantico può essere utilizzato per creare associazioni e questa è la caratteristica alla base di mspace Architettura SW

33 Figura 2.17 Architettura di mspace MK: Ogni datastore all interno del modello mspace è gestito da un Server mspace Knowledge (MK) associato. Questo livello di astrazione permette l accesso a ogni Semantic storage scelto, presentandolo con un protocollo fissato. MQ: mspace Query Servers sono potenti che gestiscono il complicato e intenso processo richiesto per fare query attraverso MKs multipli. Questa distribuzione permette ai clients meno potenti (MAs) di avere l accesso alle informazioni semantiche richieste in maniera efficiente. Le queries sono costruite qui e vengono mandate su un protocollo fissato ai MKs per ottenere i risultati. MA mspace Mobile è un esempio di un applicazione mspace (MA). Possono esistere molte applicazioni mspace e possono riferirsi a svariate sorgenti di conoscenza. Con l astrazione a tre livelli sopra, un poco potente dispositivo mobile può facilmente avere accesso alle informazioni tramite qualsiasi MQ che può produrre ed eseguire queries complicate e ritornare risultati semplici. 2.6 Aduna Autofocus Introduzione AutoFocus è un software di Desktop Search sviluppato dalla società olandese Aduna, disponibile open source e senza registrazione richiesta con licenza OSL e Aduna Commercial License (ACL). Il software è stato creato per permettere il reperimento di documenti testuali (anche in diversi formati) all'interno di file system ma anche di siti web, intranet, IMAP server e in Microsoft Outlook. Il sistema software è stato pensato per fondere assieme tre meccanismi che possano aiutare nel migliore dei modi l'utente nella propria ricerca: fulltext search, metadati e cluster map. Il primo permette di ricercare tramite query i documenti che contengono i termini richiesti dall'utente, i secondi sono sfruttati per agevolare ulteriori scremature nella ricerca usando le faccette e l'ultimo permette di visualizzare e analizzare i risultati ottenuti in un modo visuale più diretto

34 Il maggior vantaggio rispetto a tools simili è quindi che AutoFocus presenta i risultati della search usando le faccette e Cluster Maps. AutoFocus ha l abilità di monitorare tutte le sorgenti in cui ci si aspetta di avere informazioni preziose e fornisce i mezzi per la ricerca mirata di quelle informazioni. Dall'analisi effettuata si evince come il sistema utilizzato sia piuttosto innovativo sotto certi aspetti e di certo diverso dai più comuni strumenti di Desktop Search. Lo strumento sembra più indirizzato ad essere una guida nelle ricerche dell'utente, comunque lascia molto spazio per operare a chi lo utilizza, senza contare il fatto che l'interfaccia utente è realizzata piuttosto bene. Per certi aspetti questo potrebbe essere interessante, e di sicuro risultare accattivante per un utente medio per via della visualizzazione grafica dei risultati, che aiuta e stimola ad interagire con lo strumento Demo Figura 2.17 Schermata di Autofocus Desktop client per una search basata su metadati e un esplorazione delle sorgenti dei dati personali

35 Ricerca più efficiente grazie ai termini suggeriti (suggested search terms) Risultati della search visualizzati in Cluster Maps per mostrare la sovrapposizione tra le queries. Sorgenti: File systems, IMAP servers, HTTP servers Tipi di file supportati: è una lista lunga e in continua crescita, ad esempio: MS Office, Open Office, txt, html, pdf, xml Versione: 4.0 beta 3 (Maggio 2007) Piattaforme: Windows, Linux, Mac OS e tutte le altre piattaforme Java 5-enabled Può connettersi a AutoFocus Server(s) per l amministrazione centrale Prerequisiti richiesti Sistema operativo Windows 98 (Second Edition) Windows ME Windows NT 4.0 SP6 e successivi Windows 2000 SP3 e successivi Windows XP SP1 e successivi Solaris 8 e successivi Red Hat Linux 8 e successivi SuSe Linux 8 e successivi Mandrake Linux 9 e successivi MacOS X n.b.: AutoFocus può girare su qualunque piattaforma con una Java virtual machine usando il Java installer, anche se non è garantito il suo corretto funzionamento. Hardware richiesto CPU: il minimo è Pentium II a 400 MHz, raccomandata Pentium III a 1 GHz o superiore. RAM: minimo 128 MB, raccomandata 256 MB. Spazio su disco: 100 MB + 2 MB ogni 1000 items Tecnologia AutoFocus è basato sulle seguenti tecnologie: Aperture: per l estrazione e la richiesta di contenuti full text e di metadati di file systems, caselle mail e siti web

36 Sesame: per uno storage scalabile e veloce dei metadati. Cluster Map Library: per la visualizzazione delle Cluster Maps. AutoFocus è un sistema di reperimento dell'informazione basato sul modello booleano, ma la struttura generale con cui unisce le funzionalità di metadati e fulltext search è abbastanza complessa. Per l'archiviazione dei metadati, il software sfrutta le potenzialità di Sesame, mentre per l'indicizzazione del fulltext si appoggia alla libreria Lucene. Per fondere le due componenti all'interno del sistema è stato creato un Sail tra i due (LuceneSail.java), e sfruttato il framework Aperture (anch'esso sviluppato da Aduna). Questo in sostanza ha la funzione di estrarre metadati e fulltext (Data Objects) dalle collezioni prescelte (Data Sources) attraverso un apposito Crawler, operando in modo diverso dopo aver distinto attraverso il MIMEType il tipo di documento ed utilizzando appositi Extractors. A questo punto avviene la connessione al Sail prima citato e vengono memorizzati i DataObject raccolti. In particolare alcuni tipi di dati verranno indicizzati con Lucene (per esempio fulltext), altri saranno inseriti come metadati negli archivi di Sesame (per esempio la data di ultima modifica del documento), mentre altri ancora saranno sia raccolti in Sesame sia indicizzati con Lucene (per esempio titolo e autore). I dati archiviati in Sesame sono direttamente raggiungibili tramite query in linguaggio SERQL, mentre i dati indicizzati da Lucene sono reperibili attraverso l'uso di una o più proprietà virtuali del grafo RDF che connette la risorsa alla query di Lucene, contenuta come literal nella query RDF. A questo punto la query di Lucene viene valutata sull'indice creato e viene ritornata la lista degli URI dei documenti ricercati, utilizzata eventualmente per effettuare un join con altre sottoquery di Lucene. Figura 2.18 Struttura di Aduna Aperture

Vedere altro