Tesi di laurea Semantica: un sistema per l indicizzazione, il retrieval semantico di learning objects e la generazione automatica di corsi didattici Anno Accademico 2007/2008 Relatori Ch.mo prof. Angelo Chianese Ch.mo Ing. Vincenzo Moscato candidato Francesco Ficetola Matr. 885/184
Introduzione & Obiettivi Da un progetto del Gruppo di Basi di Dati... Un approccio al problema della ricerca semantica di LOs: implementazione di retrieval models, tecniche di analisi testuale ed utilizzo di ontologie didattiche e di dominio; impiego delle tecnologie del Web Semantico per la realizzazione di un sistema di indexing e di retrieval di learning objects grazie ad annotazioni semantiche, e sperimentazione per la generazione dei corsi didattici (Courseware Generation ) Perché il retrieval semantico dei contenuti multimediali? Ricerca affidabile ed esatta di ciò che effettivamente si vuole (relevant (relevant information) information) I motori di ricerca diventano dei reasoner, reasoner, capaci di effettuare inferenze Un motore di ricerca semantica si pone l obiettivo ambizioso di comprendere così bene la vostra domanda, da essere in grado di fornirvi LA risposta corretta Motore di ricerca semantica Annotare semanticamente le risorse del Web Ma gli ostacoli da superare sono molti: La mole di informazioni sparse sul Web è vastissima (information (information overload) overload) Mancanza di un dominio universale ed accettato da tutti (ontologia (ontologia universale) universale) Ambiguità nel linguaggio (natural (natural language processing e word sense disambiguation) disambiguation)
Il Web Semantico: un illusione realizzabile? Problema. Al momento e nel breve tempo, non è pensabile un motore di ricerca semantica per tutto il Web, ma solo per alcuni domini applicativi. Eppure Il Web Semantico è una estensione del Web corrente in cui tutte le informazioni hanno un ben preciso significato e in cui computers e utenti lavorano in cooperazione (Tim Berners-Lee ) Web Semantico Rete Semantica Aspettative:: Web inteso come rete di relazioni e connessioni tra documenti secondo logiche più elaborate del semplice link ipertestuale Come? Imposizione mposizione di standard e tecnologie per l annotazione delle risorse multimediali (Resource (Resource Description Framework) Framework) ed adozione di una ontologia universale (Ontology (Ontology Web Language) Language) Ontologia: descrizione formale di ciò che esiste in un dominio Problemi.. Quanto tempo occorre per mappare tutto il Web sulle ontologie e annotare tutti i contenuti? Non avendo una ontologia universale, come far comunicare ontologie e domini differenti?
L approccio ontologico al retrieval semantico di learning objects Suggerimento. Le aspettative e gli obiettivi del Semantic Web diventano meno problematici se riferiti a domini più ristretti, come l e-learning Approccio bottom-up: non un unica mappa concettuale di tutto il Web, ma tante piccole mappe interconnesse, realizzate da singoli utenti, a cui interessa formalizzare un dominio aggungendogli semantica. Dal Semantic Web All e-learning Concetti chiave Centralità del linguaggio naturale: non più semplice insieme di parole chiave, ma struttura complessa in cui sintassi e semantica danno significato Utilizzo delle tecniche e dei modelli di Information Retrieval: insieme delle tecniche utilizzate per il recupero delle informazioni in formato elettronico Le risorse dell e-learning: i Learning Objects Semantica Sistema di inferenze: il sistema di analisi e retrieval semantico effettua delle inferenze, passando da un concetto ad un altro e saltando tra relazioni semantiche qualunque cosa faccia un analisi del testo che vada oltre i caratteri di cui è composto
Il nostro approccio: Semantica Project Fase 1. Definizione di un modello di macchina semantica che: a) garantisca flessibilità b) massimizzi l'interoperabilità c) retrieval efficace Fase 2. Progettazione modulare della macchina semantica: a) sfruttando le tecnologie del Semantic Web Stack b) introducendo ontologie di dominio e pedagogiche c) considerando la struttura della risorsa informativa (learning object) per un retrieval efficace e la successiva generazione automatica di corsi didattici Fase 3. Implementazione della macchina semantica ed integrazione nella web application Tecnologie e Linguaggi: Tomcat, Java, JSP, IBATIS, JENA, RDF, OWL, SPARQL Ontologie e dizionari: CuONTO, DOMONTO, WordNet, Pedagogical Strategies Pattern: MVC, Domain Model, Data Transfer Object, Strategy, Singleton, RMI
Architettura logica di Semantica I componenti della macchina semantica Learning Object Repository. Memorizza i learning objects, visti secondo il modello SCAM. Discovery. Analizza i learning objects ed estrae da essi conoscenza. 3 tipi di informazioni: vettori dei significati, delle content units e delle binding annotations. Semantic Knowledge Base. Memorizza tutte le informazioni del sistema in sottomoduli, a seconda del tipo di informazione. Knowledge Management System. Gestisce la knowledge base semantica del sistema, permettendo l'accesso alle informazioni e la memorizzazione di nuova conoscenza. Ontology Management System. Carica i modelli di ontologia e permette la navigazione e l'interrogazione dei loro concetti. Web Server. GUI per il retrieval dei contenuti e la generazione automatica dei corsi didattici
L'applicazione Semantica
I modelli di retrieval e di courseware generation Il sistema tratta 3 tipi di informazioni, prelevate ed elaborate dal Discovery (indexing) indexing), memorizzate nella Knowledge Base ed utilizzate dai diversi modelli di retrieval: Vettore dei significati Vettore delle content unit Vettore delle BA I modelli di retrieval di Semantica Sense Boolean Retrieval Model (SBRM). Simile al meccanismo tradizionale utilizzato dai motori di ricerca con la differenza che lavora sui sensi e non sulla rappresentazione lessicografica del termine (text processing); Content Unit Retrieval Model (CURM). Permette di cercare un learning object sulla base delle unità di contenuto che possiede (argomento e proprietà delle content units); Ontology Driven Retrieval Model (ODRM). Cerca i learning objects sulla base di concetti di una ontologia di dominio che contiene (binding annotations) Courseware Generation ContentUnit Adaptive Courseware Generation (CUACG). Utilizza il modello CURM per il retrieval dei LOs e prevede la possibilità di generare automaticamente i corsi didattici definendo obiettivi di apprendimento, conoscenze da acquisire e già acquisite, vincoli delle content units e strategie pedagogiche. Ontology Driven Adaptive Courseware Generation (ODACG). Utilizza il modello ODRM per il retrieval dei LOs, permettendo di navigare nella knowledge base e selezionare il dominio da cui selezionare i concetti da soddisfare.
Ricerca basata sul Sense Boolean Retrieval Model Fase di indexing dei learning objects (Text Processing) Informazione Vettore dei significati Text Processing Vettore risultante Fase di retrieval 1. Costruzione della SenseQuery. L'utente costruisce un vettore di termini collegati tra di loro tramite operatori booleani ed indica per ogni termine il synset (prelevato da WordNet) 2. Ricerca nella Semantic Knowledge Base. Il sistema ricerca nella struttura dati Term Inverted Index della SKB un vettore dei significati costruito in fase di indexing. Il senso per cui esiste corrispondenza nella KB viene detto senso vincente. Il sistema estrae i LOs in cui si trova il senso vincente ed associa ad essi un rank. 3. Aggiornamento del rank. A partire dal vettore dei sensi vincenti, il sistema individua i sensi vincenti secondari all'interno dei LOs, aggiornando il rank con le sense density di questi sensi ed un certo peso.
Ricerca basata sul Content Unit Retrieval Model Fase di indexing (Content Unit Extraction) Approccio semiautomatico Utilizzo di annotazioni semantiche associate ai LOs (triple RDF) Ontologia CuOnto Content Unit Extraction Il Discovery preleva le CU Annotation ed elabora le proprietà testuali delle istanze (SBRM) Vettore risultante Il sistema memorizza le istanze delle content units e i vettori dei significati (termine, synset, CU) Fase di retrieval 1. Sottomissione della Query-by-Example. L'utente sottopone al sistema una query secondo l'approccio QBE, instanziando oggetti di esempio dell'ontologia CuOnto. Il sistema costruisce automaticamente delle interrogazioni in linguaggio SPARQL contro l'ontologia didattica. 2. Definizione dei vincoli. Per ogni oggetto di esempio, l'utente specifica le proprietà per la ricerca dei learning objects (come le categorie delle unità di contenuto, l'argomento che esse dovranno trattare, tempi di apprendimento, campi e contesti applicativi, propedeuticità, ecc.) 3. Restituzione dei risultati. I risultati del CURM saranno tutti i LOs che soddisfano i vincoli di ricerca dell'utente. Se i vincoli si riferiscono a proprietà testuali (hastext ) il sistema considera l'intersezione dei risultati restituiti dal CURM e dall' SBRM.
Ricerca basata sull'ontology Driven Retrieval Model 1. Uso massiccio di ontologie di dominio (DOMONTO) Peculiarità dell' ODRM 2. Fase di indexing condotta dall'ontology Binding Resolver 3. Due modalità di ricerca: esplicita e non esplicita Modalità esplicita Ricerca i LOs annotati con delle binding annotations in fase di editing. Ogni BA contiene: nome dell'ontologia di dominio e nome del concetto contenuto. Modalità non esplicita Ricerca i LOs non esplicitamente annotati. Il sistema per ogni concetto della query accede ai vettori dei sensi dei documenti creati con l'approccio SBRM (strategia mista di retrieval)
Courseware Generation: Approcci 1. Approccio semiautomatico. L'utente può scegliere quale modello di retrieval utilizzare. Vengono sfruttati tutti i modelli del sistema. I risultati sono costituiti dalle content units che l'utente inserisce manualmente nel corso. 2. Approccio automatico. Si sfrutta il modello CUACG, che si basa sul CURM. Quindi, l'utente effettua una ricerca per argomento (strategia mista SBRM-CURM), definisce dei vincoli sulle content units e una strategia pedagogica. Query = argument + constraints + pedagogical strategy Esempio (CUACG) Sharing WORDNET Sharing: using or enjoying something jointly with others
Esempio: Courseware Generation (CUACG) Course: Sharing Information
Sperimentazione & Sviluppi Futuri TEST SET. Insieme di circa 150 learning objects appartenenti al dominio dell' Informatic Archeology Ground Truth. Insieme di 20 keywords altamente polisemiche per il testing del retrieval semantico e generazione di corsi da parte di 10 esperti del settore. (0<= Rank <= 10) CUACG SVILUPPI FUTURI - Ottimizzazione dei moduli del sistema e della web application - Adattamento del sistema per altre applicazioni e domini - Integrazione del sistema Semantica in IdeaWeb per la ricerca dei contenuti e la generazione dei corsi didattici