1 Introduzione Information Retrieval: promesse e problemi Presentazione del lavoro Sommario... 5

Dimensione: px
Iniziare la visualizzazioe della pagina:

Download "1 Introduzione 1 1.1 Information Retrieval: promesse e problemi... 1 1.2 Presentazione del lavoro... 3 1.3 Sommario... 5"

Transcript

1 Indice 1 Introduzione Information Retrieval: promesse e problemi Presentazione del lavoro Sommario Il recupero dell informazione Analisi dei diversi aspetti dell Information Retrieval Analisi della ricerca nel Web Tecniche di ricerca Il processo di ricerca Considerazione sulla semantica nell IR Caratterizzazione formale dei modelli di IR Modello booleano Il modello vettoriale Ricerca tramite matching di termini Ricerca Text Matching classica Latent Semantic Indexing Notazione Cos è la SVD Approssimazione di rango k Matrici di cambiamento di base Calcolo della SVD Latent Semantic Indexing Ricerca LSI Generazione ed uso della conoscenza terminologica Introduzione Analisi automatica globale i

2 ii INDICE 5.3 La struttura di un thesaurus Similarity Thesaurus Obiettivi della ricerca documenti Espansione di query mediante thesaurus La creazione del thesaurus e il concetto di conoscenza terminologica Criteri per migliorare la qualità della ricerca Updating 45 7 Implementazione 47 8 Analisi prestazionale Introduzione Metriche di valutazione Precision e recall Singoli valori riassuntivi Tecniche di ricerca a confronto Conclusioni e sviluppi futuri 57 A Glossario 59 Bibliografia 61 Elenco delle Tabelle 62 Elenco delle Figure 64

3 Capitolo 1 Introduzione Il testo è la principale forma di comunicazione della conoscenza. Iniziando dai geroglifici, le prime superfici scritte (pietre, legno, pelli di animali, papiri, carta di riso) e poi in seguito la carta, il testo è stato creato ovunque, in molte forme e linguaggi. Utilizziamo il termine documento per denotare una singola unità informativa, tipicamente testo in forma digitale, ma può anche includere altri media. In pratica vi è una non netta definizione di documento. Può essere una completa unità logica, come un articolo di ricerca, un libro o un manuale. Può anche essere parte di un testo più grande, come un paragrafo o una sequenza di paragrafi (anche detti passaggi del testo), la descrizione di un vocabolo in un dizionario, la descrizione di una parte di automobile, etc. Inoltre, rispetto alla sua rappresentazione fisica, un documento può essere ogni unità fisica, per esempio un file, una , una pagina Web, etc. 1.1 Information Retrieval: promesse e problemi Lo sviluppo dell informatica è stato, ed è tutt ora, un valido aiuto per la risoluzione di piccole e grandi problematiche. Le recenti tecnologie sviluppate negli ultimi anni hanno confermato il valente supporto dell informatizzazione, determinando un sempre più crescente utilizzo dei sistemi software. Questo ha comportato forti stravolgimenti in diversi campi, in particolare nel campo lavorativo, portando cambiamenti sia di tipo tecnico che di tipo gestionale. Esaminando ad esempio le innovazioni a cui sono andate incontro le aziende di piccole o medie dimensioni, un primo cambiamento che risulta evidente è la gestione della documentazione. Mentre prima i documenti erano disponibili nel solo formato cartaceo, oggi vi sono numerosi formati elettronici (tra cui txt, html, doc, pdf), in grado di consentire una trattazione delle informazioni completamente automatizzata. Ciò ha permesso una serie di operazioni e van- 1

4 2 Cap. 1: INTRODUZIONE taggi prima impensabili, come una facile accessibilità di documenti condivisi, la possibilità di effettuare modifiche e, soprattutto, grazie a Internet, il poter accedere agli stessi da qualsiasi computer collegato alla rete. Inoltre, grazie a sistemi per il recupero dei dati (Information Retrieval Systems), l accesso ai documenti, o meglio alle informazioni contenute nei documenti, è divenuto sempre più facile e veloce. Avendo il supporto informatico consentito un aumento esponenziale della quantità di documenti producibile e gestibile all interno di un azienda o una istituzione, sono sorte nuove problematiche. L efficienza dei sistemi per il recupero delle informazioni in modo particolare ha risentito negativamente della consistente crescita dei documenti, registrando l incapacità di ritrovare informazioni utili in un vasto insieme di documenti. Assume, in questo problema, importanza fondamentale la nozione di rilevanza per un documento: in passato bastava che un dato documento contenesse le parole chiave della interrogazione (query), affinchè fosse rilevante. Ora, con la mole di documenti sempre crescente, il semplice incorporamento di un termine (di una interrogazione) non garantisce la rilevanza. Ad esempio, una query con le seguenti parole chiave: Marilyn Monroe effettuata su un set di documenti che include la presente tesi, restituirebbe questa pagina, senza aver fornito al fruitore informazioni su Marylin Monroe. Quindi, se da un lato l informatizzazione ha migliorato la qualità (e la quantità) del lavoro, dall altro il conseguente incremento del numero dei documenti pone nuovi problemi: mentre prima era sufficiente ritrovare il documento rilevante per un dato compito, adesso la mole di documenti rilevanti è tale da necessitare un ordinamento degli stessi. Un altro aspetto da tenere in considerazione è l accessibilità dei sistemi di Information Retrieval. Mentre sino a poco tempo fa, l accesso a sistemi di Information Retrieval era riservato esclusivamente a pochi tecnici in grado di saper formulare in modo ottimale una query, oggi l accesso a tali sistemi è possibile anche ad utenti inesperti, per cui le interrogazioni rivolte spesso presentano ambiguità o risultano poco esatte. Questo tipo di interrogazioni hanno come conseguenza la scarsa relazione tra ciò che un utente si aspetta di ritrovare e la risposta ottenuta. A questo si aggiunge l intrinseca ambiguità di alcuni termini se considerati isolatamente (polisemia). Ad esempio la parola java può riferirsi indifferentemente a: un isola un linguaggio di programmazione un tipo di caffè Nasce quindi l esigenza di sviluppare sistemi per il recupero di informazione sempre più sofisticati, capaci di assistere l utente nella formulazione di una interrogazione e in grado di valutarne la semantica concettuale, ed il livello di attinenza dei documenti per tale ricerca.

5 1.2. PRESENTAZIONE DEL LAVORO Presentazione del lavoro In tale contesto si inserisce questo lavoro di tesi, che si prefigge come scopo quello di sviluppare un sistema per il recupero d informazioni portabile, con costi di realizzazione contenuti, utilizzabile attraverso Internet e capace di interpretare una interrogazione, di risolvere i problemi relativi alla ricerca di documenti rilevanti e in grado di eseguire una loro classificazione. Per raggiungere codesti obiettivi, si è scelto di utilizzare un thesaurus per poter acquisire una conoscenza terminologica dell interrogazione formulata dall utente. Un thesaurus è un insieme di termini correlati tra loro attraverso diverse relazioni, tra cui la similarità tra termini, i contrari, le parole spesso utilizzate insieme, etc. L utilizzo di un thesaurus per questo progetto è stato pensato in modo da interporsi tra la richiesta fatta al sistema e la sua risposta, al fine di rendere minima ogni possibile divergenza tra essi. Il tipo di relazione tra i termini che a noi più interessa, è quella che riesce a cogliere meglio le diversità dei concetti espressi dalle parole. Pertanto abbiamo deciso di sviluppare un thesaurus in cui la relazione tra i termini sia quella di similarità. Definendo quanto il significato di una parola sia vicina o distante dal significato di un altra, è possibile acquisire una conoscenza della parola in esame, senza entrare nel merito della sua semantica. Valutare quindi quanto una parola sia distante concettualmente da un altra, equivale a fornire una maggior comprensione del termine e diventa fondamentale ai fini di un buon comportamento del sistema. E importante che questa valutazione non venga fatta solo attraverso il confronto dei significati delle singole parole, ma venga realizzata anche in base alla collezione di documenti in cui si intende svolgere le ricerche. Fondamentale infatti, è che i termini siano relazionati al contenuto dei documenti e ancor di più, che le distanze tra i termini siano studiate in base alla documentazione presente. Per esempio, la parola albero in un contesto informatico ha un significato diverso da quello relativo alla vita quotidiana. Una prima scelta importante è stata quella di decidere in che modo costruire il thesaurus. Una possibilità era di crearlo manualmente, ma questa operazione avrebbe comportato lunghi tempi di realizzo, la necessità di esperti del settore cui la documentazione faceva riferimento e, soprattutto, grossi costi uniti a poca modularità (cambiare il set di documenti implicherebbe il cambio degli esperti). L alternativa era la creazione automatica del thesaurus e questa ci ha portato all approfondimento di alcune tecniche utilizzate nell Information Retrieval e in particolare dell algoritmo LSI (Latent Semantic Indexing). Questo algoritmo calcola la similarità tra documenti, a partire dall insieme dei documenti stessi e dall insieme delle parole contenute nel loro testo. Questo tecnica è capace di interpretare la semantica dei documenti proiettandoli in uno spazio vettoriale di dimensione ridotta in cui, informalmente, possiamo dire di aver filtrato il rumore costituito dai termini non significativi dal punto di vista informativo ma necessari da quello linguistico. Per esempio articoli, avverbi, il verbo essere in tutte le sue coniugazioni, congiunzioni, etc. I risultati prodotti da LSI sono ottimi e la sua applicazione in un Information Retrieval system migliora di molto le prestazioni, ritrovando informazioni

6 4 Cap. 1: INTRODUZIONE con un alto grado di rilevanza. Questo approccio però, ha dei tempi di computazione molto alti, pertanto la sua diretta applicazione per una ricerca diventa improponibile. L analisi di questo processo, ci ha portato a pensare ad LSI come metodo per elaborare le distanze tra termini. Come spiegato, LSI non calcola la similitudine tra i termini, ma la similitudine tra documenti. E però possibile modificare una fase della processo di calcolo al fine di ricavare, per tutti i termini più rilevanti di una collezione, il loro grado di similarità. Quindi con un processo analogo al calcolo della similarità tra documenti determiniamo la similarità tra i termini. In base a queste considerazioni, abbiamo ritenuto di utilizzare questa tecnica per generare in maniera automatica il nostro thesaurus. In questo modo riusciamo a generare un thesaurus strettamente correlato con i documenti, o, più precisamente, con la semantica dei documenti su cui vogliamo effettuare le ricerche. Inoltre, come già sottolineato in precedenza, la creazione automatica permette maggiore elasticità al progetto, minori costi e tempi di sviluppo. Tra i diversi vantaggi, questo approccio ci consente di superare le problematiche analizzate in precedenza, come il caso di interrogazioni ambigue e inesatte. Un utente con difficoltà nel trovare termini appropriati potrà trovare ugualmente documenti attinenti, perché sarà compito del thesaurus ricercare i termini più adatti a partire da quelli introdotti. La comprensione semantica, avviene cercando questi termini all interno del thesaurus ed esaminando tutte le relazioni che questi hanno con i termini vicini, presenti nel thesaurus. La richiesta viene così analizzata e in base alle relazioni trovate tra i termini, potrà essere eventualmente espansa, introducendo tutte le parole fortemente correlate ai termini stessi. Dopo questa analisi si determina l insieme di documenti rilevanti, i quali contengono sia le parole richieste in principio che le parole trovate in un secondo momento nel thesaurus. Un altro aspetto importante affrontato nella nostra tesi è la classificazione dei documenti. Per grandi quantitativi di dati, l ordine con cui vengono proposti all utente i documenti ritrovati assume un aspetto cruciale. L utente deve scegliere se un documento ritrovato è pertinente alla sua ricerca e la sua analisi inizierà verosimilmente dal primo della lista. Se non è presente un ordine, l utente è costretto a scandire tutto l insieme avuto in risposta dal sistema. Diventa importante quindi che i risultati ottenuti dal sistema siano ordinati in base alla loro rilevanza. Se è presente questo ordinamento l utente sarà facilitato nella sua ricerca, avendo molte probabilità di ritrovare l informazione necessaria ai primi posti. Il nostro progetto sviluppa una modalità di ordinamento di base a cui è possibile affiancare altre tre tipi di ordinamento definiti di supporto. L ordinamento di base calcola il peso di un documento in corrispondenza al peso delle parole contenute al suo interno. La tecnica utilizzata è quella di assegnare un peso diverso sia alle parole che descrivono la richiesta di informazione, sia alle parole trovate nel thesaurus. Al peso si fa corrispondere l importanza: più un documento ha un peso elevato, maggiore è la sua importanza. In questo modo è possibile stabilire un ordinamento tra i documenti ritrovati. Gli ordinamenti di supporto sono stati pensati con l intento di valutare l attinenza di un documento anche in base alla disposizione e la quantità delle parole trovate nel testo di un documento. Queste stime, adottate anche da alcuni motori di ricerca, quali ad esempio Google, riescono a discriminare in modo considerevole

7 1.3. SOMMARIO 5 l importanza dei documenti che si sta analizzando. La prima misura è il calcolo del numero di occorrenze di una parola all interno del documento. Dal numero di occorrenze possiamo capire se la parola è casuale in quel documento o se è pertinente alla ricerca. Nel caso che un utente stia cercando più parole all interno di un documento, un altra misura utilizzata è il calcolo della distanza tra le parole all interno dello stesso documento. La motivazione che ci ha spinto al calcolo di questa misura è l osservazione che la vicinanza delle parole può farci capire meglio quanto nel documento queste siano correlate. Nel contesto di una ricerca con più di due termini, risulta utile determinare anche la distanza tra le coppie di parole, perché spesso in questo tipo interrogazioni, alcuni termini hanno un ruolo discriminante e non associativo. Queste tre tecniche, attraverso la misura delle metriche definite, tentano di sintetizzare alcuni comportamenti tipici di un utente, interpretando il tipo di ricerca che l utente potrebbe eseguire. Il sistema si interfaccia con un web-server consentendo una facile consultazione attraverso Internet. Gli utenti che vi accedono possono richiedere i diversi tipi di documenti specificando un insieme di parole che descrivono l informazione di cui necessitano. La ricerca quindi si basa interamente sul contenuto dei documenti e non sulle loro caratteristiche. L approccio considerato, inquadra in pieno le tematiche che vogliamo affrontare in questo contesto, perché mette in luce gli aspetti relativi all attinenza tra la richiesta e la risposta. A fronte di quanto discusso, si è pensato di sviluppare un interfaccia in grado di tenere conto di tutti i diversi tipi di ricerche che è possibile effettuare. Dall esame dei diversi atteggiamenti, si intuisce che l utilizzo del thesaurus in una ricerca che non lo richieda, potrebbe disorientare la ricerca stessa, causando una forte irrilevanza. E quindi utile far scegliere all utente se utilizzare o meno la tecnica del thesaurus. E inoltre conveniente far scegliere all utente se e quali metriche utilizzare per la sua richiesta, senza la necessità di dover prevedere a priori quale potrebbe essere l atteggiamento dell utente. L interfaccia da noi sviluppata vuole essere semplice e di facile utilizzo. Ci proponiamo di mettere il fruitore del servizio nelle condizioni di decidere quale euristica attivare, assegnando un valore a ciascun delle euristiche (eventualmente nullo). A seconda dei valori scelti, sarà attribuita una diversa importanza a ciascuna euristica. Questi valori infatti, saranno utilizzati per operare un bilanciamento di questi tre criteri, per restituire in fine un ordinamento unico. La scelta di utilizzare una interfaccia il più possibile trasparente all utente, permette un duplice utilizzo. Se da una parte facilita la comprensione della interrogazione, facendo scegliere all utente il tipo di ricerca che si vuole effettuare, dall altra permette di sperimentare in quale condizioni sia valida un tipo di ricerca e di individuare quale metodo restituisce le risposte più rilevanti. Per di più, attraverso una fase di analisi del comportamento del sistema per i diversi valori assegnati alle euristiche, è possibile determinare quali sono i valori per cui si ottengono i migliori risultati. 1.3 Sommario Il Capitolo 2 è incentrato sulle tematiche inerenti all Information Retrieval, spiegando la necessità di determinare la rilevanza dell informazione e analizzando alcune delle tecniche utilizzate

8 6 Cap. 1: INTRODUZIONE nei diversi scenari applicativi. Nel Capitolo 4 viene analizzata la tecnica del Latent Semantic Indexing ed il suo utilizzo per la ricerca di documenti; sono spiegati gli elementi matematici che ne sono alla base (la Singular Value Decomposition), e ne viene data una spiegazione semi-rigorosa sul perchè riesca a migliorare la qualità di ricerca dei documenti. Nel Capitolo 5 terzo capitolo è presentato lo stato dell arte sulla generazione e l uso di conoscenza terminologica al fine di migliorare la qualità della ricerca, ed in particolare per una riformulazione più efficace della richiesta di informazione dell utente. In particolare si spiegano le motivazioni che ci hanno spinto alla scelta del thesaurus e il sistema adottato per la sua costruzione automatica. Vengono inoltre illustrate alcune funzionalità per migliorare la ricerca. Nel terzo capitolo è sviluppata un ampia panoramica degli strumenti software utilizzati per la realizzazione del progetto. Sono evidenziati, inoltre, i motivi che hanno portato alla loro scelta attraverso un attenta esamina delle differenze con le altre tecnologie esistenti. Nel quarto capitolo è esaminata l applicazione software realizzata, sono giustificate le scelte tecniche ed analizzati i problemi sorti durante la stesura del codice. In questo capitolo viene illustrato il principio di funzionamento di ogni modulo che compone il sistema, riportando stralci di codice in cui sono evidenziati gli aspetti più interessanti. Nel quinto capitolo viene mostrata la fase di testing del sistema, definendo l insieme di documenti con cui si è svolta la sperimentazione, spiegando gli indici relativi alla sperimentazione e mostrando grafici inerenti alle simulazioni effettuate. Infine l appendice completa la trattazione, descrivendo il pacchetto software realizzato e le operazioni di configurazioni da eseguire per renderlo funzionante.

9 Capitolo 2 Il recupero dell informazione Il recupero dell informazione affronta le problematiche inerenti l organizzazione, la rappresentazione, l immagazzinamento e l accesso dell elemento informazione. La rappresentazione e l organizzazione dell informazioni provvede infatti a facilitare l accesso alla informazione di cui un utente necessita. Tuttavia caratterizzare tale informazione non risulta un compito semplice. Un sistema software non è (al momento) in grado di comprendere una richiesta espressa in linguaggio naturale, quindi l interrogazione dell utente deve essere prima tradotta in una query che può esser processata dal sistema che recupera l informazione. Il modo più semplice per la traduzione della richiesta dal linguaggio naturale a un linguaggio che un sistema informatico può capire, consiste nel riformulare tale interrogazione come un insieme di parole (o keyword, o termini) idonee a descrivere il contenuto dell informazione desiderata. Tale compito è, nella maggioranza dei casi, lasciato all utente. Data una query, l obiettivo di un sistema per il recupero dell informazione (IR system) è di trovare l informazione più rilevante per l utilizzatore del sistema a seguito della query immessa. 2.1 Analisi dei diversi aspetti dell Information Retrieval L Information Retrieval si indirizza su due principali aspetti: il ritrovamento dei dati e il ritrovamento dell informazione. Il ritrovamento dei dati, nel contesto dell Information Retrieval system, si pone come obiettivo quello di determinare quali documenti contengono le parole utilizzate nella query, e ciò, nella maggior parte dei casi, non è sufficiente a soddisfare la necessità dell utente. Un linguaggio di data retrieval permette di recuperare tutti gli oggetti che soddisfano condizioni ben definite, come quelle date da espressioni regolari o da espressioni in algebra relazionale. Dunque, per un sistema di data retrieval, un singolo oggetto erroneamente recuperato (o non recuperato) su migliaia di oggetti, può significare un sistema fallimentare. Il ritrovamento dell informazione, sposta invece il punto di vista sul concetto che la query 7

10 8 CAP. 2: IL RECUPERO DELL INFORMAZIONE vuole descrivere, cercando di interpretarne il contenuto semantico, per poter restituire i documenti più attinenti a tale argomento. La principale differenza tra questi due approcci è nella modalità di intendere la richiesta: il ritrovamento dei dati vede la richiesta come una semplice ricerca di una o più parole all interno dei documenti, il ritrovamento dell informazione cerca di capire a quale informazione si vuole accedere; mentre la teoria delle basi di dati ha a che fare con richieste sotto forma di precisi predicati, nell Information Retrieval si ha a che fare con il nebuloso e mal definito concetto di rilevanza, che dipende in modo intricato dall intento dell utente e dalla natura del corpus. Per un sistema di Information Retrieval, dunque, gli elementi recuperati possono essere inaccurati e piccoli errori possono rimanere del tutto non notati. Un aspetto importante da evidenziare, che ha fortemente influenzato i metodi per la ricerca dei documenti, è il considerevole incremento della mole di dati da memorizzare e da gestire che si è registrato negli ultimi anni. Questo ha comportato lo sviluppo di particolari sistemi software, ovvero i database, in grado di migliorare la gestione dei dati, archiviandoli e strutturandoli in maniera omogenea. Un buona organizzazione dei dati migliora il sistema di ritrovamento, tuttavia non soddisfa le richieste di ricerca inerenti al testo di un documento. Questi sistemi infatti, non riescono a discriminare i documenti per il loro contenuto, ma solo per le loro caratteristiche generali. Il compito di ricercare un documento che contenga una specifica informazione al suo interno è lasciato all utente, ma il grande quantitativo dei dati può rendere improponibile una ricerca manuale. In questo scenario l IR è stato di grande ausilio, perché prende in considerazione anche il testo dei documenti. Tuttavia, con interrogazioni poco selettive, l IR system potrebbe dare in risposta molti documenti, di cui non si conosce a priori il grado di rilevanza. Anche in questo caso, è l utente a dover cercare, tra tutti i documenti restituiti, quello più attinente alla sua richiesta. Nasce così l esigenza di ordinare i documenti ritrovati in base alla loro rilevanza. Le difficoltà per raggiungere questo obiettivo, è sia nel capire quale informazione l utente vuole ritrovare, sia nel decidere, per ogni documento ritrovato, quale è il suo grado di rilevanza rispetto a tale informazione. 2.2 Analisi della ricerca nel Web L IR, sebbene molto utilizzato, in passato ha avuto poca considerazione negli ambienti della ricerca, perché applicabile ad una ristretta area di interesse. Questa considerazione è stata prevalente per molti anni, nonostante la rapida crescita dell informatizzazione e il forte utilizzo dei personal computer. All inizio degli anni 90, però, un fatto determinante ha cambiato una volta per tutte questa opinione: la nascita del Word Wide Web. Il Web sta diventando un universale repository di conoscenza umana e culturale che ci ha portato a una condivisione di idee e di informazione in una espansione senza precedenti: ognuno può creare propri documenti

11 2.2. ANALISI DELLA RICERCA NEL WEB 9 Web, pubblicarli e farli puntare a qualsiasi altro documento Web senza alcuna restrizione. Questo è un aspetto chiave, in quanto trasforma il Web in un nuovo mezzo di pubblicazione, accessibile a chiunque. Questo grande successo del Web ha tuttavia introdotto nuove problematiche. Trovare informazioni utili sul Web è spesso un compito tedioso e difficile. L utente è spesso costretto, per soddisfare la sua necessità di informazione, a navigare di link in link alla ricerca, talvolta vana, di ciò che lo interessa; ciò può rivelarsi un ostacolo insormontabile, soprattutto per gli utenti alle prime armi. L ostacolo principale è l assenza di un ben definito modello per la presentazione dei dati sul Web, che implica una spesso scarsa qualità della definizione e strutturazione dei dati. Un passo per facilitare la ricerca nel web è stato fatto attraverso lo sviluppo di XML, un linguaggio che fornisce la possibilità di rappresentare ogni tipo di documento o dato, proteggendo le informazioni dalle evoluzioni tecnologiche. XML è una estensione dell HTML, ma a differenza dell HTML non si occupa di descrivere la formattazione del testo, ma di descrivere il ruolo logico degli elementi associati. Da questo segue che le applicazioni possono riconoscere i dati all interno dei documenti, potendo quindi svolgere operazioni che non sarebbero mai stati capaci di svolgere prima. Tuttavia un grande ostacolo resta l assenza di un modello ben definito di dati per il Web. Infatti sul Web può essere messo materiale creato da chiunque e considerando che la gran parte di utenti sono dilettanti, spesso si ha una bassa qualità della informazione e della struttura dei dati. Un altra questione che si affronta nel Web è il Ranking delle pagine, che tratta la problematica di attribuire un ordine ai risultati ottenuti da una ricerca. Molti algoritmi, sviluppati per risolvere il problema, calcolano l ordinamento dei risultati esaminando l importanza di ciascuna pagina. L importanza di una pagina Web viene determinata considerando il contenuto e l interesse che questa ha suscitato nei lettori. In tal modo, è possibile stabilire un ordine delle pagine ritrovate, in base all effettiva attenzione ed importanza che queste hanno riscosso. Seguendo come obiettivo quello di filtrare le pagine più attinenti per la ricerca, si sono sviluppati algoritmi che prendono in esame la struttura del WWW, che ha come caratteristica fondamentale il collegamento ( link) tra le diverse paginone. E possibile infatti, analizzare tale struttura per estrarre informazioni utili circa le pagine che trattano un determinato argomento, focalizzando quelle più autorevoli. In generale, queste tecniche calcolano l importanza di una pagina in base all importanza delle pagine che puntano ad essa. In questo modo, se una pagina ritenuta autorevole ha un link ad un altra, quest ultima assume una importanza maggiore rispetto al caso in cui ha un link con una pagina poco autorevole [7] [8]. L analisi della ricerca nel Web presenta scenari e problematiche assai ampie e complesse, ma gli sforzi nello studio di tecniche innovative nel campo dell IR stanno portando la ricerca nel Web a livelli sempre più accurati. Tuttavia, le tecniche che tendono a migliorare la qualità della ricerca devo essere compatibili con tempi di risposta accettabili per il Web, che sono molto rigidi. In media infatti, si può affermare che se un utente entro alcuni secondi di attesa non riceve una risposta, tende a cambiare la sua ricerca, riformulandola in maniera diversa o andando su un altro sito. Questo

12 10 CAP. 2: IL RECUPERO DELL INFORMAZIONE tipo di atteggiamento, rende i tempi di attesa determinanti ai fini di una ricerca soddisfacente nel Web. Tuttavia, non è sempre possibile conciliare buoni algoritmi con tempi di risposta accettabili e sono molti i casi in cui questo compromesso non viene raggiunto. Di conseguenza, metodi validi nell IR, ma con tempi di computazione molto lunghi, non possono essere utilizzati nella ricerca nel Web [9]. 2.3 Tecniche di ricerca Il recupero dell informazione ha avuto la sua crescita seguendo come obiettivo primario l indicizzazione del testo e il ritrovamento dei documenti più utilizzati in una collezione. Ad oggi, la ricerca in Information Retrieval include modellazione, classificazione e catalogazione dei documenti, visualizzazione dei dati, filtraggio, etc. In questo paragrafo esamineremo alcune delle tecniche più significative. Il recupero dell informazione è un problema che può essere affrontato su diversi livelli, in funzione del grado di rilevanza che la risposta vuole soddisfare. Una delle tecniche più semplici per il ritrovamento dei documenti è il Full Text Scanning. Tale tecnica consiste in una prima fase, in cui vengono memorizzate le parole e le caratteristiche dei documenti in un database e in una seconda fase, in cui si esaminano le parole memorizzate confrontandole con l insieme di parole scelto per la query. Se un documento contiene anche solo una di queste parole, viene restituito. Sebbene semplice, i tempi di risposta di una ricerca eseguita con il Full Text Scanning diventano improponibili per Data Base di dimensioni molto grandi. Una estensione di questa tecnica è rappresentata dall Inversion. L idea di base è pensare un documento come caratterizzato da una lista di parole chiave, le quali riescono a descrivere il contenuto del documento. Le parole chiave sono memorizzate in un file e per ognuna, viene mantenuto un collegamento al documento caratterizzato dalla parola stessa. Un ritrovamento veloce può essere fatto indirizzando la ricerca solo su queste parole chiave. Questo metodo è utilizzato dalla maggior parte dei sistemi in commercio. Un altra tecnica utilizzata è il Clustering (raggruppamento), in cui documenti simili vengono raggruppati insieme. Questo raggruppamento viene giustificato con il presupposto che documenti simili tendono a essere rilevanti per lo stesso tipo di ricerca. Raggruppando documenti simili si accelera il ritrovamento. Le tecniche analizzate fin ora associano a ciascun documento poche informazioni. Questa tendenza è stata superata dai più recenti metodi, i quali cercano di catturare maggiori dati da un documento, per ottenere performance migliori. L obiettivo è quello di cogliere il significato semantico dell informazione richiesta, interpretando la collezione di documenti su cui va ricercata. Per catturare maggiore informazione vengono utilizzati gli spazi vettoriali. Tra i metodi più importanti citiamo Latent Semantic Indexing (LSI). Questa tecnica, tra tutte quelle che utilizzano lo spazio vettoriale, ha ottenuto i risultati migliori. Data una collezione di documenti, viene formata una matrice termine-documento, i cui valori sono rappresentati da numeri interi che determinano le occorrenze di uno specifico termine in uno specifico documento. I singoli el-

13 2.4. IL PROCESSO DI RICERCA 11 ementi di questa matrice vengono poi elaborati e i valori più piccoli vengono eliminati. I vettori e i valori risultanti nella matrice, sono utilizzati per mappare la frequenza dei vettori di termini all interno dei documenti, in un sottospazio in cui sono preservate le relazioni semantiche per la matrice termine-documento. I vettori di termini che hanno forti variazione sono soppressi. Su questi dati vengono poi compiute operazioni di similarità tra i documenti e i documenti possono poi essere classificati in ordine di somiglianza decrescente. 2.4 Il processo di ricerca Per descrivere il processo di ricerca, utilizziamo una semplice e generica architettura software mostrata in figura. Innanzitutto, prima che inizi il processo di retrieval vero e proprio, è necessario definire la base di dati dei testi. Ciò viene generalmente effettuato dal manager del database che specifica: 1. i documenti da indicizzare; 2. le operazioni da effettuare sul testo, le quali trasformano i documenti originari, generando una vista logica su di essi; 3. il modello di testo (la struttura del testo e quali elementi possono essere recuperati).

14 12 CAP. 2: IL RECUPERO DELL INFORMAZIONE Una volta definita una vista logica dei documenti, il DB Manager genera un indice dei testi. Un indice è una struttura critica poichè consente una ricerca rapida su enormi volumi di dati. Si possono utilizzare differenti strutture di indice, ma la più popolare è la cosiddetta inverted file. Si noti che le risorse (di tempo e di spazio di memorizzazione) spese nella costruzione dell indice vengono ammortizzate dalle numerose richieste rivolte al sistema di retrieval. Una volta costruito l indice, il processo di ricerca può essere iniziato. L utente definisce inizialmente la sua necessità informativa, la quale viene poi analizzata e trasformata tramite le stesse operazioni applicate al testo. Successivamente, si possono effettuare operazioni sulle query prima che sia generata la query finale, la quale fornisce una rappresentazione per il sistema della necessità dell utente. La query è poi processata al fine di ottenere i documenti richiesti. Un veloce processamento della query è reso possibile dall indice precedentemente costruito. Prima di essere forniti all utente, i documenti recuperati possono essere ordinati in base ad una misura di somiglianza. L utente quindi esamina l insieme dei documenti restituiti, in cerca di informazioni utili. A questo punto, è possibile che l utente selezioni un sottoinsieme dei documenti ricevuti come di interesse, dando inizio così ad un ciclo di feedback. In tale ciclo, il sistema utilizza i documenti selezionati dall utente per modificare la query, al fine di renderla più adatta al recupero delle reali informazioni necessarie all utente. 2.5 Considerazione sulla semantica nell IR Le tecniche di IR tendano ad essere più efficaci qualora si prefiggano come obiettivo quello di catturare più informazioni possibili dal documento per meglio cogliere la sua semantica [2]. Questa strada è seguita anche dalle tecniche per l analisi del linguaggio naturale, le quali tentano di cogliere il contenuto semantico della interrogazione, per confrontarlo con il contenuto semantico del documento. In realtà la distinzione tra l analisi del linguaggio naturale e le tecniche dell IR non è così netta. Un esempio dell integrazione tra le tecniche per il recupero dell informazione e il processamento del linguaggio, è dato dall uso di frasi come termini indicizzanti per i documenti [2]. L utilizzo di una frase come query porta come beneficio un maggiore contenuto semantico, ma potrebbero esserci dei riscontri negativi, come ad esempio il rischio che l alta specificazione della frase comporti una riduzione delle performance del ranking. Un risultato che l IR deve raggiungere, consiste nel riuscire, data una query, a capire il suo significato semantico e restituire uno o più documenti attinenti alla richiesta, ritenuti rilevanti rispetto al resto della collezione in base ad una modellazione della semantica dei contenuti di ciascun documento. Nei tradizionali sistemi di IR, usualmente si adottano indici per il recupero dei documenti. In senso stretto, un indice è una parola chiave la quale racchiude un proprio significato al suo interno. In senso più generale, un indice è una parola che compare all in-

15 2.6. CARATTERIZZAZIONE FORMALE DEI MODELLI DI IR 13 terno di un documento di una collezione. Di regola, la scelta dell indice ricade sulla parola maggiormente presente nel documento. Definito un indice, questo viene collegato ad uno o più documenti. In questo modo, se nell interrogazione fatta dall utente è presente uno degli indici definiti, vengono velocemente restituiti i documenti con cui l indice è stato collegato. Quindi la parola che si scegli come indice è tale che il suo significato possa rappresentare il contenuto del documento a cui indicizza. Il ritrovamento basato sugli indici è molto semplice, ma fa sorgere alcune problematiche. Per esempio, nel ritrovamento dei documenti utilizzando gli indici si assume come idea fondamentale che, sia la semantica di un documento, sia l informazione di cui si ha bisogno, possano essere naturalmente espressi attraverso un insieme di parole. Chiaramente questa è una considerazione molto semplificata del problema, perché la semantica espressa nella richiesta e la semantica espressa nel documento, è molto bassa quando viene sintetizzata da un insieme di parole [19]. Per ciò che riguarda la semantica della richiesta fatta utilizzando un insieme di parole chiave, spesso c è difficoltà da parte dell utente a trovare i termini più adatti per esprimere l informazione ricercata. In tali condizione è più facile incorrere in documenti irrilevanti. Per ciò che riguarda la semantica del documento, talvolta il suo significato non può essere direttamente espresso dalle parole presenti al suo interno. Ad esempio, un documento che tratta di programmazione, potrebbe non contenere la parola PROGRAMMAZIONE. Quindi i risultati ottenuti dalle ricerche che considerano l attinenza di un documento confrontando gli indici, potrebbero portare un certo grado di irrilevanza. Da qui nasce l esigenza di studiare la semantica di una richiesta in relazione alla semantica della collezione di documenti. L introduzione dei Thesaurus, ha permesso di superare molte difficoltà, consentendo di trovare una maggiore affinità tra la richiesta e la risposta. Questo argomento sarà trattato nel capitolo seguente. 2.6 Caratterizzazione formale dei modelli di IR Si è intuito che le premesse fondamentali che formano le basi di un algoritmo di ranking, determinano il modello di Information Retrieval. Analizzeremo ora differenti insiemi di tali premesse. Tuttavia, prima di far ciò bisogna definire con precisione cosa sia un modello di Information Retrieval. Definizione 1. Un modello per l information retrieval è una quadrupla [D, Q, F, R(q i, d j )] dove: D è un insieme costituito da viste logiche (o rappresentazioni) dei documenti della collezione. Q è un insieme costituito da viste logiche (o rappresentazioni) delle necessità informative dell utente. Tali rappresentazioni sono dette queries. F è un framework per modellare le rappresentazioni dei documenti, le queries e le relazioni tra loro.

16 14 CAP. 2: IL RECUPERO DELL INFORMAZIONE R(q i, d j ) è una funzione di ranking che associa un numero reale con una query q i Q e la rappresentazione di un documento d j D. Tale ranking definisce un ordine tra i documenti rispetto ad ogni query q i. Per costruire un modello pensiamo dapprima alle rappresentazioni dei documenti ed alle necessità dell utente. Date queste rappresentazioni, elaboriamo poi il framework in cui possono essere modellati. Questo framework dovrebbe anche fornire l idea per costruire una funzione di ranking. Per esempio, per il modello classico Booleano, il framework è composto da insiemi dei documenti e da operazioni standard sugli insiemi. Per il modello classico vettoriale, il framework è composto da uno spazio vettoriale m-dimensionale e da operazioni sui vettori derivate dall algebra lineare. Vediamo ora i due principali modelli classici per l Information Retrieval. Essi sono caratterizzati dalla considerazione che ogni documento è descritto tramite un insieme di parole chiave (keywords) rappresentative, detti termini index terms. Un termine è semplicemente una parola la cui semantica aiuta a ricordare gli argomenti principali di un documento. Dunque i termini sono utilizzati per indicizzare e riassumere il contenuto di un documento. In generale i termini sono essenzialmente nomi, poichè solo essi hanno significato in quanto tali, e quindi è più facile carpire la loro semantica. Aggettivi, avverbi, congiunzioni sono meno utili dei termini in quanto funzionano principalmente come complementi. Tuttavia, può essere interessante considerare tutte le parole distinte in una collezione di documenti come termini. Questo è ad esempio l approccio seguito dalla maggioranza dei motori di ricerca Web (in questo caso la vista logica dei documenti è detta full text). Dato un insieme di termini per un documento, osserviamo che non tutti i termini sono ugualmente utili per descrivere il contenuto di un documento. Infatti vi sono termini che possono essere più vaghi di altri. Decidere sull importanza di un termine per riassumere il contenuto di un documento non è un problema banale. Nonostante questa difficoltà, vi sono proprietà di un termine che possono essere facilmente misurate e che sono utili per valutare le potenzialità di un termine come tale. Si consideri, ad esempio, una collezione con centinaia di migliaia di documenti. Una parola che appare in ognuno delle centinaia di migliaia di documenti, è completamente inutile come termine, poichè non dice nulla su quale documento l utente possa essere interessato. D altro canto, una parola che appare in una manciata di documenti è pienamente utile, in quanto restringe considerevolmente lo spazio dei documenti a cui può essere interessato l utente. Dunque, dovrebbe esser chiaro che termini distinti hanno varia rilevanza quando utilizzati per descrivere i contenuti dei documenti.

17 2.6. CARATTERIZZAZIONE FORMALE DEI MODELLI DI IR 15 Questo effetto viene catturato attraverso l assegnazione di pesi numerici ad ogni termine del documento. Sia k i un termine, d j un documento e w i,j 0 un peso associato alla coppia (k i, d j ). Dunque un peso quantifica l importanza di un termine per descrivere il contesto semantico del documento. Definizione 2. Sia m il numero dei termini distinti in una collezione, e K = k 1,..., k t l insieme di tutti i termini. Un peso w i,j > 0 è associato ad ogni termine k i di un documento d j. Per ogni termine che non compare nel testo del documento d j, w i,j = 0. Con il documento d j è associato un vettore di termini d j = (w 1,j, w 2,j,..., w m,j ). Inoltre, sia g i la funzione che restituisce il peso associato al termine k i in ogni vettore m- dimensionale (g i ( d j ) = w i,j ). Come vedremo in seguito, i pesi dei termini si considerano mutuamente indipendenti. Ciò significa che conoscere il peso w i,j associato alla coppia (k i, d j ) non ci dice nulla riguardo al peso w i+1, j associato alla coppia (k i+1, d j ). Questa è chiaramente una semplificazione perchè le occorrenze dei termini in un documento sono chiaramente correlate, basti pensare ai termini HOME e PAGE in una collezione di documenti aventi a che fare con Internet. Spesso, in tali documenti, la presenza di un termine comporterà la presenza anche dell altro termine, e dunque queste due parole sono correlate, ed i loro pesi dovrebbero riflettere questa correlazione. Mentre la mutua indipendenza sembra essere una forte semplificazione, semplifica il compito di calcolare i pesi dei termini e permette un veloce calcolo del ranking. Tuttavia, avvantaggiarsi della correlazione tra i termini per migliorare la classificazione finale dei documenti, non è un compito semplice. Infatti, nessuno dei molti approcci proposti in passato ha chiaramente dimostrato che le correlazioni fra termini siano vantaggiose per collezioni generiche di documenti. Vedremo tuttavia come nuove tecniche, tra cui quella proposta in questo lavoro, sembrano rivelarsi di successo con particolari collezioni di documenti. Ciò non può che far pendere la credenza attuale verso una visione più favorevole dell utilità delle correlazioni fra termini nei sistemi di Information Retrieval Modello booleano Il modello booleano è un semplice modello di IR basato sulla teoria degli insiemi e sull algebra di Boole, il cui concetto è molto intuitivo, e facile da carpire per un utente comune di un sistema di IR. Il modello booleano considera i termini assenti o presenti in un documento. Come risultato, i pesi dei termini si presumono essere binari: w i,j {0, 1}.

18 16 CAP. 2: IL RECUPERO DELL INFORMAZIONE Una query q una espressione booleana composta di termini collegati fra loro dai tre operatori booleani not, and, or, che può anche essere rappresentata in forma disgiuntiva normale (DNF - disjunctive normal form). Per esempio, la query [q = k a (k b k c )] può essere scritta in DNF come [ q dnf = (1, 1, 1) (1, 1, 0) (1, 0, 0)], dove ogni elemento è una vettore binario associato alla tupla (k a, k b, k c ). Questi vettori binari sono chiamati componenti congiuntive di q dnf. Sia dunque q cc ognuna delle componenti congiuntive di q dnf. La similarità di un documento d j rispetto ad una query q è definita come: { 1 se q cc ( q cc q dnf ) ( ki, g i ( d sim(d j, q) = j ) = g i ( q cc ) ) (2.1) 0 altrimenti Se sim(d j, q) = 1 il modello booleano assume che il documento d j sia rilevante per la query q (potrebbe in realtà non esserlo). Altrimenti, assume che il documento sia non rilevante. In seguito alla sua inerente semplicità ed al formalismo pulito, il modello Booleano ha ricevuto grande attenzione negli anni passati ed è stato adottato da molti dei primi sistemi bibliografici commerciali. Sfortunatamente questo modello soffre di numerosi inconvenienti. Innanzitutto la sua strategia di ricerca è basata su di un criterio di decisione binaria (un documento può cioè essere rilevante o non rilevante ); non esiste la nozione di matching parziale di un documento rispetto ad una query, non vi soprattutto una possibilità di ranking, condizione necessaria per una buona ricerca. Dunque il modello booleano può esser più considerato come un modello di ricerca dei dati, più che di informazione. I sistemi commerciali spesso tentano di aggirare questo problema, generando un ordinamento associato con qualche metadato descrittivo, o più semplicemente un ordine cronologico inverso (spesso utilizzato nei sistemi che indicizzano news o giornali, in cui la data di pubblicazione è una delle caratteristiche salienti del documento). Vi è poi il non banale problema di tradurre una necessità di informazione in una espressione booleana. Infatti studi hanno dimostrato che molti utenti trovano difficile e scomodo esprimere le loro richieste in termini di espressioni booleane, e spesso hanno un idea sbagliata di quali siano i risultati, per cui si giunge in pratica, a formulare le queries in modo banale, senza sfruttare minimamente le possibilità offerte dall algebra booleana. Le queries booleane sono problematiche per molte ragioni. Tra tutte la maggiore è quella che molte persone trovano la sintassi base controintuitiva. Soprattutto gli utenti di lingua inglese, assumono la semantica della lingua comune nell uso dei vocaboli AND e OR, piuttosto che i loro equivalenti logici. Per gli utenti inesperti, utilizzare AND implica l allargamento del campo d azione della query. Ad esempio la richiesta DOG AND CAT può significare l interesse per documenti che riguardano cani e documenti che riguardano gatti, piuttosto che documenti che riguardino entrambi. Così

19 2.6. CARATTERIZZAZIONE FORMALE DEI MODELLI DI IR 17 TEA OR COFFEE può implicare una scelta mutuamente esclusiva nel linguaggio di ogni giorno. In aggiunta molti linguaggi di query che incorporando operatori booleani richiedono all utente anche di specificare una complessa sintassi per altri tipi di connettori e per i metadati. Molti utenti non sono inoltre familiari con l uso delle parentesi, per valutazioni annidate, nè con la nozione di precedenza fra operatori. I progettisti di motori di ricerca Web, sapendo di dover avere a che fare con un audience di massa in possesso di scarsa esperienza nella specifica delle queries, si sono adattati ad approcci più intuitivi. Piuttosto che forzare gli utenti a specificare complesse combinazioni di AND e OR, consentono agli utenti di scegliere da una selezione di semplici modi di combinare i termini, tipo tutte le parole (ovvero poni tutti i termini in AND ) o almeno una delle parole (ovvero poni tutti i termini in OR ), o l ormai divenuto famoso operatore + utilizzato dal motore di ricerca Altavista. Nonostante questi problemi il modello booleano ancora il modello dominante nei sistemi commerciali e costituisce un buon punto di partenza per chi inizia a studiare la materia Il modello vettoriale Il modello vettoriale parte dall assunzione che l uso di pesi binari è troppo limitante, e propone un framework in cui sia reso possibile un matching parziale. Ciò ottenuto assegnando pesi non binari ai termini nelle queries e nei documenti. Questi termini sono infine usati per calcolare il grado di similarità tra ogni documento indicizzato e una query utente. Ordinando i documenti recuperati in ordine discendente di similarità, tale modello tiene in considerazione documenti che soddisfano anche solo parzialmente i termini della query. Ciò produce, come primo effetto positivo, un insieme ordinato di documenti recuperati assai più preciso 1 dell insieme ottenuto tramite modello booleano. Per il modello vettoriale, il peso w i,j associato alla coppia (k i, d j ) è positivo e non binario. Inoltre sono pesati anche i termini della query. Sia w i,q 0 il peso associato alla coppia (k i, q). Allora il vettore query q è definito come q = (w 1,q, w 2,q,..., w m,q ) dove m è il numero totale di termini indicizzati nel sistema. Come prima, il vettore relativo al documento d j è rappresentato come d j = (w 1,j, w 2,j,..., w m,j ). Dunque un documento d j ed una query q sono rappresentati come vettori m-dimensionali. Il modello vettoriale propone di valutare il grado di similarità del un documento d j rispetto ad una query q come la correlazione tra i vettori d j e q. Tale distanza può esser quantificata, ad esempio, con il coseno dell angolo tra i due vettori: sim(d j, q) = d j q d j q = m i=1 w i,j w i,q m i=1 w2 i,j m j=1 w2 i,q (2.2) 1 sarà data in seguito una definizione esatta del vocabolo precisione nell ambito dell Information Retrieval; si interpreti per ora come insieme che meglio soddisfa la necessità di informazione dell utente;

20 18 CAP. 2: IL RECUPERO DELL INFORMAZIONE avendo indicato con d j e q le norme di tali vettori. Si osservi come, mentre il fattore d j fornisce una normalizzazione nello spazio dei documenti, il fattore q non ha influenza sul ranking dei documenti poichè rimane costante per tutti i documenti. Si osservi inoltre che, poichè w i,j 0 e w i,q 0, sim(q, d j ) è compreso fra 0 e 1. Dunque invece di stabilire se un documento sia o non sia rilevante, il modello vettoriale classifica i documenti in base al loro grado di similarità rispetto alla query. Un documento può esser recuperato anche se soddisfa solo parzialmente la query. Si può ad esempio stabilire una soglia su sim(d j, q) e riportare i documenti con un grado di similarità sopra tale soglia. Ma per calcolare un ordinamento, bisogna prima definire come ottenere i pesi per i termini. I pesi per i termini possono essere ottenuti in diversi modi. [7] analizza varie tecniche di termweighting. Pur non analizzandole in dettaglio, scopriamo l idea alla base delle più efficaci tecniche di termweighting. L idea è collegata ai principi di base che supportano le tecniche di clustering. Data una collezione C di oggetti, e una descrizione non ben definita di un insieme A 2, l obbiettivo di un semplice algoritmo di clustering è quello di separare la collezione C in due insiemi: un primo insieme composto da oggetti in relazione con A, ed un secondo insieme composto da oggetti non in relazione con il set A. Algoritmi di clustering più complessi possono tentare di separare gli oggetti di una collezione in più classi, tuttavia noi ci riferiamo alla versione più semplice del problema di clustering (quella che considera solo due classi), perchè tutto ciò che ci viene richiesto è una decisione su quali documenti possano essere rilevanti e quali no. Per vedere il problema di IR come un problema di clustering, consideriamo i documenti come una collezione C di oggetti e vediamo la query utente come una non ben definita specifica dell insieme A (i documenti rilevanti). Si può così ridurre il problema alla determinazione di quali documenti sono nell insieme A e quali non lo sono. Vi sono due problemi fondamentali da risolvere: 1. si deve determinare quali sono le caratteristiche che meglio descrivono gli oggetti nell insieme A; 2. si deve determinare quali sono le caratteristiche che meglio distinguono gli oggetti nell insieme A dai rimanenti oggetti della collezione C. Il primo insieme di caratteristiche dà una quantificazione della similarità intra-cluster, mentre il secondo insieme di caratteristiche quantifica la dissimilarità inter-cluster. Per un clustering efficiente, si deve tentare di bilanciare questi due effetti. 2 con ciò intendiamo dire che non abbiamo una informazione completa per decidere precisamente quali oggetti appartengono e quali non appartengono all insieme

Introduzione all Information Retrieval

Introduzione all Information Retrieval Introduzione all Information Retrieval Argomenti della lezione Definizione di Information Retrieval. Information Retrieval vs Data Retrieval. Indicizzazione di collezioni e ricerca. Modelli per Information

Dettagli

I Modelli della Ricerca Operativa

I Modelli della Ricerca Operativa Capitolo 1 I Modelli della Ricerca Operativa 1.1 L approccio modellistico Il termine modello è di solito usato per indicare una costruzione artificiale realizzata per evidenziare proprietà specifiche di

Dettagli

Indicizzazione. Fasi del processo di IR. Indicizzazione: due aspetti. Corpus: Costruzione delle viste logiche dei documenti: Termine indice

Indicizzazione. Fasi del processo di IR. Indicizzazione: due aspetti. Corpus: Costruzione delle viste logiche dei documenti: Termine indice Fasi del processo di IR Indicizzazione Information need text input Pre-process documents Parse Query Index Rank Indicizzazione: due aspetti Costruzione delle viste logiche dei documenti: Per ogni documento

Dettagli

Modelli di Information Retrieval: I modelli base

Modelli di Information Retrieval: I modelli base Modelli di Information Retrieval: I modelli base Gabriella Pasi 1 Università degli Studi di Milano Bicocca Via Bicocca degli Arcimboldi 8 e-mail: pasi@disco.unimib.it Struttura base di un IRS ARCHIVIO

Dettagli

RICERCA DELL INFORMAZIONE

RICERCA DELL INFORMAZIONE RICERCA DELL INFORMAZIONE DOCUMENTO documento (risorsa informativa) = supporto + contenuto analogico o digitale locale o remoto (accessibile in rete) testuale, grafico, multimediale DOCUMENTO risorsa continuativa

Dettagli

La gestione del documento

La gestione del documento Operatore giuridico d impresa Informatica Giuridica A.A 2002/2003 II Semestre La gestione del documento prof. Monica Palmirani Il documento A differenza del dato il documento è solitamente un oggetto non

Dettagli

Sorgenti autorevoli in ambienti hyperlinkati.

Sorgenti autorevoli in ambienti hyperlinkati. Sorgenti autorevoli in ambienti hyperlinkati. La qualità di un metodo di ricerca richiede la valutazione umana dovuta alla soggettività inerente alla nozione di rilevanza. I motori di ricerca correnti,

Dettagli

Indicizzazione terza parte e modello booleano

Indicizzazione terza parte e modello booleano Reperimento dell informazione (IR) - aa 2014-2015 Indicizzazione terza parte e modello booleano Gruppo di ricerca su Sistemi di Gestione delle Informazioni (IMS) Dipartimento di Ingegneria dell Informazione

Dettagli

Sistemi Informativi Multimediali 1 - Introduzione

Sistemi Informativi Multimediali 1 - Introduzione Che cos è un sistema informativo multimediale? Sistemi Informativi li 1 - Introduzione Augusto Celentano Università Ca Foscari di Venezia Un sistema informativo multimediale (MMDBMS) è un framework che

Dettagli

1. FINALITA DELLA DISCIPLINA

1. FINALITA DELLA DISCIPLINA Ministero dell Istruzione dell Università e della Ricerca LICEO SCIENTIFICO STATALE Donato Bramante Via Trieste, 70-20013 MAGENTA (MI) - MIUR: MIPS25000Q Tel.: +39 02 97290563/4/5 Fax: 02 97220275 Sito:

Dettagli

Metodi basati sugli autovettori per il Web Information Retrieval

Metodi basati sugli autovettori per il Web Information Retrieval Metodi basati sugli autovettori per il Web Information Retrieval HITS, PageRank e il metodo delle potenze LSI e SVD LSI è diventato famoso per la sua abilità nel permettere di manipolare i termini (all

Dettagli

Prime sperimentazioni d'indicizzazione [semi]automatica alla BNCF

Prime sperimentazioni d'indicizzazione [semi]automatica alla BNCF Prime sperimentazioni d'indicizzazione [semi]automatica alla BNCF Maria Grazia Pepe - Elisabetta Viti (Biblioteca nazionale centrale di Firenze) 6. Incontro ISKO Italia Firenze 20 maggio 2013 SOMMARIO

Dettagli

Navigazione. per associazione. ipertesti/ipermedia. l utente naviga nello spazio dei documenti alla ricerca dei nodi di interesse

Navigazione. per associazione. ipertesti/ipermedia. l utente naviga nello spazio dei documenti alla ricerca dei nodi di interesse Tipologia dei dati e organizzazione delle informazioni Sistemi di indicizzazione e recupero 5. Database e Information Retrieval per associazione Navigazione ipertesti/ipermedia l utente naviga nello spazio

Dettagli

RILEVANZA = attinenza oggettiva/assoluta PERTINENZA = attinenza soggettiva/relativa (effettivo interesse personale) PUNTO DI FUTILITA ---> ranking

RILEVANZA = attinenza oggettiva/assoluta PERTINENZA = attinenza soggettiva/relativa (effettivo interesse personale) PUNTO DI FUTILITA ---> ranking NOZIONI DI INFORMATION RETRIEVAL a cura di Riccardo Ridi (Università Ca' Foscari di Venezia) aggiornate a Ottobre 2014 RILEVANZA = attinenza oggettiva/assoluta PERTINENZA = attinenza soggettiva/relativa

Dettagli

IL PROBLEMA DELLA RICERCA DI INFORMAZIONI su Internet e sul web

IL PROBLEMA DELLA RICERCA DI INFORMAZIONI su Internet e sul web IL PROBLEMA DELLA RICERCA DI INFORMAZIONI su Internet e sul web GLI INTERROGATIVI 1. Perché Internet è il più grande contenitore di info del mondo? 2. Perché non è sempre facile reperire informazione utile

Dettagli

Introduzione alla Business Intelligence. E-mail: infobusiness@zucchetti.it

Introduzione alla Business Intelligence. E-mail: infobusiness@zucchetti.it Introduzione alla Business Intelligence E-mail: infobusiness@zucchetti.it Introduzione alla Business Intelligence Introduzione Definizione di Business Intelligence: insieme di processi per raccogliere

Dettagli

Pedigree Documentazione aggiuntiva Corso di reperimento dell informazione a.a. 2005/2006 prof.sa Maristella Agosti

Pedigree Documentazione aggiuntiva Corso di reperimento dell informazione a.a. 2005/2006 prof.sa Maristella Agosti Pedigree Documentazione aggiuntiva Corso di reperimento dell informazione a.a. 25/26 prof.sa Maristella Agosti Argenton Matteo Buzzi Lorenzo Gatto Giorgio Molinaro Matteo Zorzan Emmanuele Prestazioni

Dettagli

ANNO SCOLASTICO 2014/2015. LICEO SCIENTIFICO STATALE A. VOLTA Via Juvarra, 14 - Torino

ANNO SCOLASTICO 2014/2015. LICEO SCIENTIFICO STATALE A. VOLTA Via Juvarra, 14 - Torino ANNO SCOLASTICO 2014/2015 LICEO SCIENTIFICO STATALE A. VOLTA Via Juvarra, 14 - Torino Obiettivi minimi Informatica Prime Conoscere il sistema di numerazione binaria e la sua importanza nella codifica delle

Dettagli

Text mining ed analisi di dati codificati in linguaggio naturale. Analisi esplorative di dati testuali

Text mining ed analisi di dati codificati in linguaggio naturale. Analisi esplorative di dati testuali Text mining ed analisi di dati codificati in linguaggio naturale Analisi esplorative di dati testuali Il text mining: una definizione Data mining per dati destrutturati ovvero documenti codificati in linguaggio

Dettagli

Sommario [1/2] Vannevar Bush Dalle Biblioteche ai Cataloghi Automatizzati Gli OPAC accessibili via Web Le Biblioteche Digitali

Sommario [1/2] Vannevar Bush Dalle Biblioteche ai Cataloghi Automatizzati Gli OPAC accessibili via Web Le Biblioteche Digitali Introduzione alle Biblioteche Digitali Sommario [1/2] Cenni storici Vannevar Bush Dalle Biblioteche ai Cataloghi Automatizzati Gli OPAC accessibili via Web Le Biblioteche Digitali Cos è una Biblioteca

Dettagli

La Metodologia adottata nel Corso

La Metodologia adottata nel Corso La Metodologia adottata nel Corso 1 Mission Statement + Glossario + Lista Funzionalià 3 Descrizione 6 Funzionalità 2 Schema 4 Schema 5 concettuale Logico EA Relazionale Codice Transazioni In PL/SQL Schema

Dettagli

Spettabile. Termine attività PREMESSA

Spettabile. Termine attività PREMESSA Spettabile Ogetto: Regione Lazio - Bando per l educazione permanente degli adulti. Misura 1.a di Sistema. Delibera Giunta Regionale n. 30 dell 11/01/2001 - (Pubblicato nel BUR Lazio n.5 del 20 febbraio

Dettagli

Basi di Dati. Introduzione ai sistemi di basi di dati. K.Donno - Introduzione ai sistemi di basi di dati

Basi di Dati. Introduzione ai sistemi di basi di dati. K.Donno - Introduzione ai sistemi di basi di dati Basi di Dati Introduzione ai sistemi di basi di dati Introduzione ai sistemi di basi di dati Gestione dei Dati Una prospettiva storica File system verso DBSM Vantaggi di un DBMS Modelli dei dati Utenti

Dettagli

Breve descrizione del prodotto

Breve descrizione del prodotto Breve descrizione del prodotto 1. Il software AquaBrowser Library...2 1.1 Le funzioni di Search Discover Refine...3 1.2 Search: la funzione di ricerca e di presentazione dei risultati...3 1.2.1 La configurazione

Dettagli

Introduzione ai sistemi di basi di dati

Introduzione ai sistemi di basi di dati Basi di Dati Introduzione ai sistemi di basi di dati Alessandro.bardine@gmail.com alessandro.bardine@iet.unipi.it Introduzione ai sistemi di basi di dati Gestione dei Dati Una prospettiva storica File

Dettagli

Dall italiano alla logica proposizionale

Dall italiano alla logica proposizionale Rappresentare l italiano in LP Dall italiano alla logica proposizionale Sandro Zucchi 2009-10 In questa lezione, vediamo come fare uso del linguaggio LP per rappresentare frasi dell italiano. Questo ci

Dettagli

Linguaggi e Paradigmi di Programmazione

Linguaggi e Paradigmi di Programmazione Linguaggi e Paradigmi di Programmazione Cos è un linguaggio Definizione 1 Un linguaggio è un insieme di parole e di metodi di combinazione delle parole usati e compresi da una comunità di persone. È una

Dettagli

Lezione 2 Gestione del testo

Lezione 2 Gestione del testo Lezione 2 Gestione del testo Pasquale Savino ISTI - CNR Sommario La gestione dei dati in una Biblioteca Digitale Acquisizione Rappresentazione Indicizzazione Ricerca Conservazione Gestione del testo Gestione

Dettagli

Risoluzione. Eric Miotto Corretto dal prof. Silvio Valentini 15 giugno 2005

Risoluzione. Eric Miotto Corretto dal prof. Silvio Valentini 15 giugno 2005 Risoluzione Eric Miotto Corretto dal prof. Silvio Valentini 15 giugno 2005 1 Risoluzione Introdurremo ora un metodo per capire se un insieme di formule è soddisfacibile o meno. Lo vedremo prima per insiemi

Dettagli

Tecniche di DM: Link analysis e Association discovery

Tecniche di DM: Link analysis e Association discovery Tecniche di DM: Link analysis e Association discovery Vincenzo Antonio Manganaro vincenzomang@virgilio.it, www.statistica.too.it Indice 1 Architettura di un generico algoritmo di DM. 2 2 Regole di associazione:

Dettagli

@Giusi Castagnetta tutti i diritti riservati. Seo e contenuti video

@Giusi Castagnetta tutti i diritti riservati. Seo e contenuti video @Giusi Castagnetta tutti i diritti riservati Seo e contenuti video SEO facile Quando cerchiamo qualcosa sui motori di ricerca, ci aspettiamo di trovare per primi i risultati migliori, cioè quelli più pertinenti

Dettagli

IL PROBLEMA DELLA RICERCA DI INFORMAZIONI su Internet e sul web

IL PROBLEMA DELLA RICERCA DI INFORMAZIONI su Internet e sul web IL PROBLEMA DELLA RICERCA DI INFORMAZIONI su Internet e sul web GLI INTERROGATIVI 1. Perché Internet è diventato il più grande contenitore di informazioni del mondo? 2. Perché non è sempre facile reperire

Dettagli

Intelligenza Artificiale

Intelligenza Artificiale Intelligenza Artificiale Anno accademico 2008-2009 Information Retrieval: Text Categorization Una definizione formale Sia D il dominio dei documenti Sia C = {c 1,,c C } un insieme di categorie predefinite

Dettagli

Corso di Informatica di Base. Laboratorio 2

Corso di Informatica di Base. Laboratorio 2 Corso di Informatica di Base Laboratorio 2 Motori di Ricerca Sara Casolari Cercare nel posto giusto Andare in posti noti Esempio: per reperire informazioni sui contributi pensionistici chiediamo all INPS

Dettagli

estratto da Competenze assi culturali Raccolta delle rubriche di competenza formulate secondo i livelli EFQ a cura USP Treviso Asse matematico

estratto da Competenze assi culturali Raccolta delle rubriche di competenza formulate secondo i livelli EFQ a cura USP Treviso Asse matematico Competenza matematica n. BIENNIO, BIENNIO Utilizzare le tecniche e le procedure del calcolo aritmetico ed algebrico, rappresentandole anche sotto forma grafica BIENNIO BIENNIO Operare sui dati comprendendone

Dettagli

ACRL Association of College and Research Libraries

ACRL Association of College and Research Libraries ACRL Association of College and Research Libraries Standard delle competenze per il possesso dell informazione (information literacy) nell educazione superiore Standard, indicatori di performance, obiettivi

Dettagli

03 La ricerca testuale

03 La ricerca testuale 03 La ricerca testuale 3.1. Gli operatori booleani La stringa di ricerca può essere costituita da un solo termine o da più termini. Nel primo caso, l interrogazione viene effettuata mediante la specificazione

Dettagli

Architettura dell informazione. Sistemi di ricerca

Architettura dell informazione. Sistemi di ricerca Architettura dell informazione Sistemi di ricerca Sistemi di ricerca Il sistema di ricerca è un elemento centrale della navigazione supplementare. La ricerca è uno degli strumenti preferiti dagli utenti

Dettagli

Relazione Pinakes3 Analisi modello di business (BOZZA) di Valeriano Sandrucci 08/09/07

Relazione Pinakes3 Analisi modello di business (BOZZA) di Valeriano Sandrucci 08/09/07 Relazione Pinakes3 Analisi modello di business (BOZZA) di Valeriano Sandrucci 08/09/07 1. Introduzione...3 1.2. Application vs Tool... 3 2. Componenti logiche di un modello... 6 3. Ontologie e Semantic

Dettagli

Uno sguardo a Lucene. Diego De Cao, Roberto Basili Web Mining and Information Retrieval a.a. 2010/2011

Uno sguardo a Lucene. Diego De Cao, Roberto Basili Web Mining and Information Retrieval a.a. 2010/2011 Uno sguardo a Lucene Diego De Cao, Roberto Basili Web Mining and Information Retrieval a.a. 2010/2011 Outline Uno sguardo a Lucene Descrizione delle principali caratteristiche Realizzazione di un semplice

Dettagli

Introduzione al data base

Introduzione al data base Introduzione al data base L Informatica è quella disciplina che si occupa del trattamento automatico dei dati con l ausilio del computer. Trattare i dati significa: raccoglierli, elaborarli e conservarli

Dettagli

ELEMENTI DI INFORMATICA GIURIDICA

ELEMENTI DI INFORMATICA GIURIDICA Università degli Studi di Napoli «Federico II» Scuola Specializzazione Professioni Legali ELEMENTI DI INFORMATICA GIURIDICA Avv. Delia Boscia 18 marzo 2015 IL RAPPORTO TRA INFORMATICA E DIRITTO HA DATO

Dettagli

Progettaz. e sviluppo Data Base

Progettaz. e sviluppo Data Base Progettaz. e sviluppo Data Base! Introduzione ai Database! Tipologie di DB (gerarchici, reticolari, relazionali, oodb) Introduzione ai database Cos è un Database Cos e un Data Base Management System (DBMS)

Dettagli

Data Base. Prof. Filippo TROTTA

Data Base. Prof. Filippo TROTTA Data Base Definizione di DataBase Un Database può essere definito come un insieme di informazioni strettamente correlate, memorizzate su un supporto di memoria di massa, costituenti un tutt uno, che possono

Dettagli

Chi è il buon architetto dell informazione?

Chi è il buon architetto dell informazione? Elementi di Information Architecture e Web Styling Fonte: Louis Rosenfeld & Peter Morville, Information Architecture for the World Wide Web, O Reilly & Associates, 1998 1 L'architetto dell'informazione

Dettagli

Come utilizzare il nuovo LEGGI D ITALIA Pubblica Amministrazione

Come utilizzare il nuovo LEGGI D ITALIA Pubblica Amministrazione Come utilizzare il nuovo LEGGI D ITALIA Pubblica Amministrazione 1 Cos è il nuovo Sistema LEGGI D ITALIA Pubblica Amministrazione è la nuova soluzione on line integrata e intelligente, realizzata su misura

Dettagli

Università degli studi di Modena e Reggio Emilia. EXTRA: Progetto e Sviluppo di un Ambiente per Traduzioni Multilingua Assistite

Università degli studi di Modena e Reggio Emilia. EXTRA: Progetto e Sviluppo di un Ambiente per Traduzioni Multilingua Assistite Università degli studi di Modena e Reggio Emilia Facoltà di Ingegneria Corso di Laurea in Ingegneria Informatica EXTRA: Progetto e Sviluppo di un Ambiente per Traduzioni Multilingua Assistite Riccardo

Dettagli

2.1 Introduzione ai linguaggi di marcatura

2.1 Introduzione ai linguaggi di marcatura Fondamenti di Informatica Sistemi di Elaborazione delle Informazioni Informatica Applicata 2.1 Introduzione ai linguaggi di marcatura Antonella Poggi Anno Accademico 2012-2013 DIPARTIMENTO DI SCIENZE DOCUMENTARIE

Dettagli

PDF created with pdffactory trial version www.pdffactory.com. Il processo di KDD

PDF created with pdffactory trial version www.pdffactory.com. Il processo di KDD Il processo di KDD Introduzione Crescita notevole degli strumenti e delle tecniche per generare e raccogliere dati (introduzione codici a barre, transazioni economiche tramite carta di credito, dati da

Dettagli

Siti Web e Information Architecture: organizzare i contenuti e strutturare le informazioni

Siti Web e Information Architecture: organizzare i contenuti e strutturare le informazioni Siti Web e Information Architecture: organizzare i contenuti e strutturare le informazioni Ornella Nicotra A.A.1999-2000 Modulo europeo Action Jean Monnet Scuola Speciale per Archivisti e Bibliotecari

Dettagli

il Mac e lo studio legale: primi passi in EasyLex

il Mac e lo studio legale: primi passi in EasyLex _tutorial Come approcciare il software per la gestione degli studi legali che accompagna gli utenti della Mela dai lontani tempi di Mac OS Francesco Pignatelli il Mac e lo studio legale: primi passi in

Dettagli

Ingegneria dei Requisiti

Ingegneria dei Requisiti Corso di Laurea Specialistica in Ingegneria Informatica Corso di Ingegneria del Software A. A. 2008 - Ingegneria dei Requisiti E. TINELLI Contenuti I requisiti del software Documento dei requisiti I processi

Dettagli

Università degli studi di Genova. Implementazione e Valutazione di Tecniche di Information Retrieval basate su Stem, Lemma e Synset

Università degli studi di Genova. Implementazione e Valutazione di Tecniche di Information Retrieval basate su Stem, Lemma e Synset Università degli studi di Genova Facoltà di Scienze Matematiche Fisiche e Naturali Corso di Diploma in Informatica Anno Accademico 2003/2004 Implementazione e Valutazione di Tecniche di Information Retrieval

Dettagli

Sistemi di information retrieval e HCIR

Sistemi di information retrieval e HCIR Sistemi di information retrieval e HCIR Dott. Giuseppe Desolda Outline! Panoramica sui sistemi IR! Progettazione di interfacce per i sistemi IR! Framework di valutazione! Tecniche di visualizzazione e

Dettagli

Automatic Text Processing

Automatic Text Processing Automatic Text Processing Ing. Leonardo Rigutini Dipartimento di Ingegneria dell Informazione Università di Siena Via Roma 53 53100 SIENA ITALY rigutini@dii.unisi.it Outlines L era dell informazione Information

Dettagli

Ricerca di informazioni nelle banche dati giuridiche

Ricerca di informazioni nelle banche dati giuridiche Informatica giuridica A.A. 2005-06 Ricerca di informazioni nelle banche dati giuridiche Parte I Avv. Chiara Giovanna Bernardi bernardi@cirfid.unibo.it Definizioni NEL LINGUAGGIO COMUNE: Data base = base

Dettagli

Lezione 8. Motori di Ricerca

Lezione 8. Motori di Ricerca Lezione 8 Motori di Ricerca Basi di dati Un campo prevalente dell applicazione informatica è quello costituito dall archiviazione e dalla gestione dei dati (basi di dati). Sistema Informativo. Un sistema

Dettagli

Basi di Dati Multimediali. Fabio Strocco

Basi di Dati Multimediali. Fabio Strocco Basi di Dati Multimediali Fabio Strocco September 19, 2011 1 Contents 2 Introduzione Le basi di dati (o database) hanno applicazioni in molti campi, in cui è necessario memorizzare, analizzare e gestire

Dettagli

SCHEDA DI PROGRAMMAZIONE DISCIPLINARE DA RIPORTARE SUL P.O.F. A.S. 2014-2015. Ripasso programmazione ad oggetti. Basi di dati: premesse introduttive

SCHEDA DI PROGRAMMAZIONE DISCIPLINARE DA RIPORTARE SUL P.O.F. A.S. 2014-2015. Ripasso programmazione ad oggetti. Basi di dati: premesse introduttive SCHEDA DI PROGRAMMAZIONE DISCIPLINARE DA RIPORTARE SUL P.O.F. A.S. 2014-2015 ASSE DISCIPLINA DOCENTE MATEMATICO INFORMATICA Cattani Barbara monoennio CLASSE: quinta CORSO D SEZIONE LICEO SCIENZE APPLICATE

Dettagli

4. Requisiti del Software

4. Requisiti del Software 4. Requisiti del Software Cosa? Andrea Polini Ingegneria del Software Corso di Laurea in Informatica (Ingegneria del Software) 4. Requisiti del Software 1 / 35 Sommario 1 Generalità 2 Categorizzazione

Dettagli

Il World Wide Web. Il Web. La nascita del Web. Le idee di base del Web

Il World Wide Web. Il Web. La nascita del Web. Le idee di base del Web Il World Wide Web Il Web Claudio Fornaro ver. 1.3 1 Il World Wide Web (ragnatela di estensione mondiale) o WWW o Web è un sistema di documenti ipertestuali collegati tra loro attraverso Internet Attraverso

Dettagli

Analisi dei requisiti e casi d uso

Analisi dei requisiti e casi d uso Analisi dei requisiti e casi d uso Indice 1 Introduzione 2 1.1 Terminologia........................... 2 2 Modello del sistema 4 2.1 Requisiti hardware........................ 4 2.2 Requisiti software.........................

Dettagli

CURRICOLO MATEMATICA

CURRICOLO MATEMATICA 1 CURRICOLO MATEMATICA Competenza 1 al termine della scuola dell Infanzia 2 NUMERI Raggruppare, ordinare, contare, misurare oggetti, grandezze ed eventi direttamente esperibili. Utilizzare calendari settimanali

Dettagli

Introduzione Ai Data Bases. Prof. Francesco Accarino IIS Altiero Spinelli Via Leopardi 132 Sesto San giovanni

Introduzione Ai Data Bases. Prof. Francesco Accarino IIS Altiero Spinelli Via Leopardi 132 Sesto San giovanni Introduzione Ai Data Bases Prof. Francesco Accarino IIS Altiero Spinelli Via Leopardi 132 Sesto San giovanni I Limiti Degli Archivi E Il Loro Superamento Le tecniche di gestione delle basi di dati nascono

Dettagli

Altri strumenti di comunicazione degli Enti locali

Altri strumenti di comunicazione degli Enti locali Altri strumenti di comunicazione degli Enti locali 18-19 lezione - 3 novembre 2011 La Guida ai Servizi realizzata da molte Pubbliche Amministrazioni rappresenta uno degli strumenti cartacei più tradizionali

Dettagli

Il modello relazionale dei dati

Il modello relazionale dei dati Il modello relazionale dei dati Master Alma Graduate School Sistemi Informativi Home Page del corso: http://www-db.deis.unibo.it/courses/alma_si1/ Versione elettronica: 04Relazionale.pdf Obiettivi della

Dettagli

Introduzione alla Business Intelligence

Introduzione alla Business Intelligence SOMMARIO 1. DEFINIZIONE DI BUSINESS INTELLIGENCE...3 2. FINALITA DELLA BUSINESS INTELLIGENCE...4 3. DESTINATARI DELLA BUSINESS INTELLIGENCE...5 4. GLOSSARIO...7 BIM 3.1 Introduzione alla Pag. 2/ 9 1.DEFINIZIONE

Dettagli

I MOTORI DI RICERCA motori di ricerca. motori di ricerca per termini motori di ricerca sistematici

I MOTORI DI RICERCA motori di ricerca. motori di ricerca per termini motori di ricerca sistematici I MOTORI DI RICERCA Il numero di siti Internet è infinito e ormai ha raggiunto una crescita esponenziale; inoltre, ogni sito è costituito da diverse pagine, alcune volte centinaia, e individuare un informazione

Dettagli

GLOSSARIO DI ARCHITETTURA DELL INFORMAZIONE

GLOSSARIO DI ARCHITETTURA DELL INFORMAZIONE GLOSSARIO DI ARCHITETTURA DELL INFORMAZIONE di K A T H A G E D O R N, A R G U S A S S O C I A T E S MARZO 2 0 0 0 traduzione di: BARBARA WIEL MARIN DICEMBRE 2009 1 GLOSSARIO DI ARCHITETTURA DELL INFORMAZIONE

Dettagli

DIREZIONE DIDATTICA DI BRA 1 CIRCOLO. Progettazione annuale anno scolastico 2015/16 classi quinte

DIREZIONE DIDATTICA DI BRA 1 CIRCOLO. Progettazione annuale anno scolastico 2015/16 classi quinte DIREZIONE DIDATTICA DI BRA 1 CIRCOLO Progettazione annuale anno scolastico 2015/16 classi quinte Le cose che noi scegliamo di insegnare e il modo in cui noi scegliamo di valutare riflettono l idea che

Dettagli

ICF CLASSIFICAZIONE INTERNAZIONALE DEL FUNZIONAMENTO DELLA DISABILITÀ E DELLA SALUTE

ICF CLASSIFICAZIONE INTERNAZIONALE DEL FUNZIONAMENTO DELLA DISABILITÀ E DELLA SALUTE ICF CLASSIFICAZIONE INTERNATIONAL CLASSIFICATION OF FUNCTIONING, DISABILITY AND HEALTH INTERNAZIONALE DEL FUNZIONAMENTO DELLA DISABILITÀ E DELLA SALUTE COMMISSIONE DISAGIO E DISABILITÀ A. S. 2010- PREMESSA

Dettagli

Basi di dati. Basi di dati = database. Basi di dati

Basi di dati. Basi di dati = database. Basi di dati Basi di dati Da leggere: Cap. 6 Sawyer, Williams (testo A) Basi di dati = database Sono una delle applicazioni informatiche che hanno avuto il maggiore utilizzo in uffici, aziende, servizi -> oggi anche

Dettagli

Information Retrieval

Information Retrieval Information Retrieval Dario Rigolin Comperio srl CTO dario.rigolin@comperio.it Bologna 22 Maggio 2009 Master in Tecnologie OpenSource Agenda Presentazioni di rito Piccola introduzione sull'ir Cosa offre

Dettagli

Introduzione all informatica (cosa è, di cosa si occupa) 9/2/2015 Informatica applicata alla comunicazione multimediale Cristina Bosco

Introduzione all informatica (cosa è, di cosa si occupa) 9/2/2015 Informatica applicata alla comunicazione multimediale Cristina Bosco Introduzione all informatica (cosa è, di cosa si occupa) 9/2/2015 Informatica applicata alla comunicazione multimediale Cristina Bosco Indice - Di cosa si occupa l informatica? - Cosa sono gli algoritmi?

Dettagli

MATEMATICA Competenza chiave europea: COMPETENZA MATEMATICA E COMPETENZE DI BASE IN SCIENZA E TECNOLOGIA Competenza specifica: MATEMATICA

MATEMATICA Competenza chiave europea: COMPETENZA MATEMATICA E COMPETENZE DI BASE IN SCIENZA E TECNOLOGIA Competenza specifica: MATEMATICA MATEMATICA Competenza chiave europea: COMPETENZA MATEMATICA E COMPETENZE DI BASE IN SCIENZA E TECNOLOGIA Competenza specifica: MATEMATICA Le conoscenze matematiche contribuiscono alla formazione culturale

Dettagli

Cultura Tecnologica di Progetto

Cultura Tecnologica di Progetto Cultura Tecnologica di Progetto Politecnico di Milano Facoltà di Disegno Industriale - DATABASE - A.A. 2003-2004 2004 DataBase DB e DataBase Management System DBMS - I database sono archivi che costituiscono

Dettagli

PIANIFICAZIONE E REALIZZAZIONE DI UN SISTEMA INFORMATIVO 147 6/001.0

PIANIFICAZIONE E REALIZZAZIONE DI UN SISTEMA INFORMATIVO 147 6/001.0 PIANIFICAZIONE E REALIZZAZIONE DI UN SISTEMA INFORMATIVO 147 6/001.0 PIANIFICAZIONE E REALIZZAZIONE DI UN SISTEMA INFORMATIVO ELEMENTI FONDAMENTALI PER LO SVILUPPO DI SISTEMI INFORMATIVI ELABORAZIONE DI

Dettagli

Lezione 1. Introduzione e Modellazione Concettuale

Lezione 1. Introduzione e Modellazione Concettuale Lezione 1 Introduzione e Modellazione Concettuale 1 Tipi di Database ed Applicazioni Database Numerici e Testuali Database Multimediali Geographic Information Systems (GIS) Data Warehouses Real-time and

Dettagli

Dispense di Filosofia del Linguaggio

Dispense di Filosofia del Linguaggio Dispense di Filosofia del Linguaggio Vittorio Morato II settimana Gottlob Frege (1848 1925), un matematico e filosofo tedesco, è unanimemente considerato come il padre della filosofia del linguaggio contemporanea.

Dettagli

GOOGLE VALUTAZIONE DI UN SITO INTERNET GOOGLE SCHOLAR

GOOGLE VALUTAZIONE DI UN SITO INTERNET GOOGLE SCHOLAR CORSO DI LAUREA IN SCIENZE DELL EDUCAZIONE E DEI PROCESSI FORMATIVI CORSO DI LAUREA MAGISTRALE IN PROGETTAZIONE E COORDINAMENTO DEI SERVIZI EDUCATIVI ALLA RICERCA DI LIBRI E ARTICOLI : OPAC, RISORSE ELETTRONICHE

Dettagli

Indicizzazione di documenti testuali

Indicizzazione di documenti testuali Indicizzazione di documenti testuali Generazione di un archivio di Documenti Testuali E eseguita off-line necessaria per accelerare il reperimento dei documenti E un processo che esegue le seguenti attività:

Dettagli

COMPETENZE SPECIFICHE

COMPETENZE SPECIFICHE COMPETENZE IN MATEMATICA DISCIPLINA DI RIFERIMENTO: MATEMATICA TRAGUARDI PER LO SVILUPPO DELLE COMPETENZE FISSATI DALLE INDICAZIONI NAZIONALI PER IL CURRICOLO 2012. MATEMATICA TRAGUARDI ALLA FINE DELLA

Dettagli

Sistemi Informativi I Lezioni di Ingegneria del Software

Sistemi Informativi I Lezioni di Ingegneria del Software 4 Codifica, Test e Collaudo. Al termine della fase di progettazione, a volte anche in parallelo, si passa alla fase di codifica e successivamente alla fase di test e collaudo. In questa parte viene approfondita

Dettagli

PROGRAMMAZIONE GENERALE DI INFORMATICA a.s.2014/2015

PROGRAMMAZIONE GENERALE DI INFORMATICA a.s.2014/2015 LICEO SCIENTIFICO LICEO SCIENTIFICO opzione SCIENZE APPLICATE LICEO CLASSICO G. BODONI 12037 SALUZZO DIPARTIMENTO DI MATEMATICA FISICA E INFORMATICA PROGRAMMAZIONE GENERALE DI INFORMATICA a.s.2014/2015

Dettagli

Informatica Documentale

Informatica Documentale Informatica Documentale Ivan Scagnetto (scagnett@dimi.uniud.it) Stanza 3, Nodo Sud Dipartimento di Matematica e Informatica Via delle Scienze, n. 206 33100 Udine Tel. 0432 558451 Ricevimento: giovedì,

Dettagli

Quali sono le tecnologie che l ente ha a disposizione e quelle predisposte ad essere implementate in un prossimo futuro.

Quali sono le tecnologie che l ente ha a disposizione e quelle predisposte ad essere implementate in un prossimo futuro. Esercizio di GRUPPO: PROTOCOLLO INFORMATICO Mappa concettuale TECNOLOGIE DISPONIBILI Quali sono le tecnologie che l ente ha a disposizione e quelle predisposte ad essere implementate in un prossimo futuro.

Dettagli

TEORIA sulle BASI DI DATI

TEORIA sulle BASI DI DATI TEORIA sulle BASI DI DATI A cura del Prof. Enea Ferri Cos è un DATA BASE E un insieme di archivi legati tra loro da relazioni. Vengono memorizzati su memorie di massa come un unico insieme, e possono essere

Dettagli

Motori di Ricerca. Vale a dire: ci sono troppe informazioni, il problema è trovarle!

Motori di Ricerca. Vale a dire: ci sono troppe informazioni, il problema è trovarle! Motori di Ricerca "La Rete Internet equivale all unificazione di tutte le biblioteche del mondo, dove però qualcuno si è divertito a togliere tutti i libri dagli scaffali". Vale a dire: ci sono troppe

Dettagli

Introduzione. è uguale a 0, spostamento di dati da una parte della memoria del calcolatore ad un altra.

Introduzione. è uguale a 0, spostamento di dati da una parte della memoria del calcolatore ad un altra. Appunti di Calcolatori Elettronici Modello di macchina multilivello Introduzione... 1 Linguaggi, livelli e macchine virtuali... 3 La struttura a livelli delle macchine odierne... 4 Evoluzione delle macchine

Dettagli

Database e Microsoft Access. Ing. Antonio Guadagno

Database e Microsoft Access. Ing. Antonio Guadagno Database e Microsoft Access Ing. Antonio Guadagno Database e Microsoft Access Un Database non è altro che un insieme di contenitori e di strumenti informatici che ci permette di gestire grossi quantitativi

Dettagli

Strategie didattiche per gli studenti dislessici in tutti i gradi di scuola tratto dal sito AID -Sezione di Roma

Strategie didattiche per gli studenti dislessici in tutti i gradi di scuola tratto dal sito AID -Sezione di Roma Strategie didattiche per gli studenti dislessici in tutti i gradi di scuola tratto dal sito AID -Sezione di Roma (testo tradotto da Accommodating students with dyslexia in all classroom settings International

Dettagli

MATEMATICA TRAGUARDI PER LO SVILUPPO DELLE COMPETENZE ALLA FINE DELLA SCUOLA PRIMARIA

MATEMATICA TRAGUARDI PER LO SVILUPPO DELLE COMPETENZE ALLA FINE DELLA SCUOLA PRIMARIA MATEMATICA TRAGUARDI PER LO SVILUPPO DELLE COMPETENZE ALLA FINE DELLA SCUOLA PRIMARIA L alunno si muove con sicurezza nel calcolo scritto e mentale con i numeri naturali e sa valutare l opportunità di

Dettagli

INFANZIA PRIMARIA SECONDARIA

INFANZIA PRIMARIA SECONDARIA INFANZIA PRIMARIA SECONDARIA MATEMATICA - TRAGUARDI DI SVILUPPO DELLE COMPETENZE Raggruppa e ordina secondo criteri diversi. Confronta e valuta quantità. Utilizza semplici simboli per registrare. Compie

Dettagli

Introduzione. Perché è stato scritto questo libro

Introduzione. Perché è stato scritto questo libro Introduzione Perché è stato scritto questo libro Sul mercato sono presenti molti libri introduttivi a Visual C# 2005, tuttavia l autore ha deciso di scrivere il presente volume perché è convinto che possa

Dettagli

Sistemi Informativi e Basi di Dati

Sistemi Informativi e Basi di Dati Sistemi Informativi e Basi di Dati Laurea Specialistica in Tecnologie di Analisi degli Impatti Ecotossicologici Docente: Francesco Geri Dipartimento di Scienze Ambientali G. Sarfatti Via P.A. Mattioli

Dettagli

Modulo 1 Concetti generali 4 settimane

Modulo 1 Concetti generali 4 settimane OBIETTIVI SPECIFICI DEL PRIMO BIENNIO - CLASSE PRIMA settore ECONOMICO: NUCLEI FONDANTI, CONOSCENZE E COMPETENZE NB per ciascuno dei moduli di insegnamento/apprendimento viene indicato il tempo di trattazione

Dettagli

Software. Definizione, tipologie, progettazione

Software. Definizione, tipologie, progettazione Software Definizione, tipologie, progettazione Definizione di software Dopo l hardware analizziamo l altra componente fondamentale di un sistema di elaborazione. La macchina come insieme di componenti

Dettagli

Sistemi di supporto alle decisioni Ing. Valerio Lacagnina

Sistemi di supporto alle decisioni Ing. Valerio Lacagnina Cosa è il DSS L elevato sviluppo dei personal computer, delle reti di calcolatori, dei sistemi database di grandi dimensioni, e la forte espansione di modelli basati sui calcolatori rappresentano gli sviluppi

Dettagli

Periodici elettronici e banche dati

Periodici elettronici e banche dati Servizio civile nazionale volontario Università di Pavia Progetto Vivere la biblioteca: dalla gestione al servizio - 2009 Periodici elettronici e banche dati Caterina Barazia Periodici elettronici: definizione

Dettagli

Esercizi di Ricerca Operativa I

Esercizi di Ricerca Operativa I Esercizi di Ricerca Operativa I Dario Bauso, Raffaele Pesenti May 10, 2006 Domande Programmazione lineare intera 1. Gli algoritmi per la programmazione lineare continua possono essere usati per la soluzione

Dettagli