1 Introduzione Information Retrieval: promesse e problemi Presentazione del lavoro Sommario... 5

Dimensione: px
Iniziare la visualizzazioe della pagina:

Download "1 Introduzione 1 1.1 Information Retrieval: promesse e problemi... 1 1.2 Presentazione del lavoro... 3 1.3 Sommario... 5"

Transcript

1 Indice 1 Introduzione Information Retrieval: promesse e problemi Presentazione del lavoro Sommario Il recupero dell informazione Analisi dei diversi aspetti dell Information Retrieval Analisi della ricerca nel Web Tecniche di ricerca Il processo di ricerca Considerazione sulla semantica nell IR Caratterizzazione formale dei modelli di IR Modello booleano Il modello vettoriale Ricerca tramite matching di termini Ricerca Text Matching classica Latent Semantic Indexing Notazione Cos è la SVD Approssimazione di rango k Matrici di cambiamento di base Calcolo della SVD Latent Semantic Indexing Ricerca LSI Generazione ed uso della conoscenza terminologica Introduzione Analisi automatica globale i

2 ii INDICE 5.3 La struttura di un thesaurus Similarity Thesaurus Obiettivi della ricerca documenti Espansione di query mediante thesaurus La creazione del thesaurus e il concetto di conoscenza terminologica Criteri per migliorare la qualità della ricerca Updating 45 7 Implementazione 47 8 Analisi prestazionale Introduzione Metriche di valutazione Precision e recall Singoli valori riassuntivi Tecniche di ricerca a confronto Conclusioni e sviluppi futuri 57 A Glossario 59 Bibliografia 61 Elenco delle Tabelle 62 Elenco delle Figure 64

3 Capitolo 1 Introduzione Il testo è la principale forma di comunicazione della conoscenza. Iniziando dai geroglifici, le prime superfici scritte (pietre, legno, pelli di animali, papiri, carta di riso) e poi in seguito la carta, il testo è stato creato ovunque, in molte forme e linguaggi. Utilizziamo il termine documento per denotare una singola unità informativa, tipicamente testo in forma digitale, ma può anche includere altri media. In pratica vi è una non netta definizione di documento. Può essere una completa unità logica, come un articolo di ricerca, un libro o un manuale. Può anche essere parte di un testo più grande, come un paragrafo o una sequenza di paragrafi (anche detti passaggi del testo), la descrizione di un vocabolo in un dizionario, la descrizione di una parte di automobile, etc. Inoltre, rispetto alla sua rappresentazione fisica, un documento può essere ogni unità fisica, per esempio un file, una , una pagina Web, etc. 1.1 Information Retrieval: promesse e problemi Lo sviluppo dell informatica è stato, ed è tutt ora, un valido aiuto per la risoluzione di piccole e grandi problematiche. Le recenti tecnologie sviluppate negli ultimi anni hanno confermato il valente supporto dell informatizzazione, determinando un sempre più crescente utilizzo dei sistemi software. Questo ha comportato forti stravolgimenti in diversi campi, in particolare nel campo lavorativo, portando cambiamenti sia di tipo tecnico che di tipo gestionale. Esaminando ad esempio le innovazioni a cui sono andate incontro le aziende di piccole o medie dimensioni, un primo cambiamento che risulta evidente è la gestione della documentazione. Mentre prima i documenti erano disponibili nel solo formato cartaceo, oggi vi sono numerosi formati elettronici (tra cui txt, html, doc, pdf), in grado di consentire una trattazione delle informazioni completamente automatizzata. Ciò ha permesso una serie di operazioni e van- 1

4 2 Cap. 1: INTRODUZIONE taggi prima impensabili, come una facile accessibilità di documenti condivisi, la possibilità di effettuare modifiche e, soprattutto, grazie a Internet, il poter accedere agli stessi da qualsiasi computer collegato alla rete. Inoltre, grazie a sistemi per il recupero dei dati (Information Retrieval Systems), l accesso ai documenti, o meglio alle informazioni contenute nei documenti, è divenuto sempre più facile e veloce. Avendo il supporto informatico consentito un aumento esponenziale della quantità di documenti producibile e gestibile all interno di un azienda o una istituzione, sono sorte nuove problematiche. L efficienza dei sistemi per il recupero delle informazioni in modo particolare ha risentito negativamente della consistente crescita dei documenti, registrando l incapacità di ritrovare informazioni utili in un vasto insieme di documenti. Assume, in questo problema, importanza fondamentale la nozione di rilevanza per un documento: in passato bastava che un dato documento contenesse le parole chiave della interrogazione (query), affinchè fosse rilevante. Ora, con la mole di documenti sempre crescente, il semplice incorporamento di un termine (di una interrogazione) non garantisce la rilevanza. Ad esempio, una query con le seguenti parole chiave: Marilyn Monroe effettuata su un set di documenti che include la presente tesi, restituirebbe questa pagina, senza aver fornito al fruitore informazioni su Marylin Monroe. Quindi, se da un lato l informatizzazione ha migliorato la qualità (e la quantità) del lavoro, dall altro il conseguente incremento del numero dei documenti pone nuovi problemi: mentre prima era sufficiente ritrovare il documento rilevante per un dato compito, adesso la mole di documenti rilevanti è tale da necessitare un ordinamento degli stessi. Un altro aspetto da tenere in considerazione è l accessibilità dei sistemi di Information Retrieval. Mentre sino a poco tempo fa, l accesso a sistemi di Information Retrieval era riservato esclusivamente a pochi tecnici in grado di saper formulare in modo ottimale una query, oggi l accesso a tali sistemi è possibile anche ad utenti inesperti, per cui le interrogazioni rivolte spesso presentano ambiguità o risultano poco esatte. Questo tipo di interrogazioni hanno come conseguenza la scarsa relazione tra ciò che un utente si aspetta di ritrovare e la risposta ottenuta. A questo si aggiunge l intrinseca ambiguità di alcuni termini se considerati isolatamente (polisemia). Ad esempio la parola java può riferirsi indifferentemente a: un isola un linguaggio di programmazione un tipo di caffè Nasce quindi l esigenza di sviluppare sistemi per il recupero di informazione sempre più sofisticati, capaci di assistere l utente nella formulazione di una interrogazione e in grado di valutarne la semantica concettuale, ed il livello di attinenza dei documenti per tale ricerca.

5 1.2. PRESENTAZIONE DEL LAVORO Presentazione del lavoro In tale contesto si inserisce questo lavoro di tesi, che si prefigge come scopo quello di sviluppare un sistema per il recupero d informazioni portabile, con costi di realizzazione contenuti, utilizzabile attraverso Internet e capace di interpretare una interrogazione, di risolvere i problemi relativi alla ricerca di documenti rilevanti e in grado di eseguire una loro classificazione. Per raggiungere codesti obiettivi, si è scelto di utilizzare un thesaurus per poter acquisire una conoscenza terminologica dell interrogazione formulata dall utente. Un thesaurus è un insieme di termini correlati tra loro attraverso diverse relazioni, tra cui la similarità tra termini, i contrari, le parole spesso utilizzate insieme, etc. L utilizzo di un thesaurus per questo progetto è stato pensato in modo da interporsi tra la richiesta fatta al sistema e la sua risposta, al fine di rendere minima ogni possibile divergenza tra essi. Il tipo di relazione tra i termini che a noi più interessa, è quella che riesce a cogliere meglio le diversità dei concetti espressi dalle parole. Pertanto abbiamo deciso di sviluppare un thesaurus in cui la relazione tra i termini sia quella di similarità. Definendo quanto il significato di una parola sia vicina o distante dal significato di un altra, è possibile acquisire una conoscenza della parola in esame, senza entrare nel merito della sua semantica. Valutare quindi quanto una parola sia distante concettualmente da un altra, equivale a fornire una maggior comprensione del termine e diventa fondamentale ai fini di un buon comportamento del sistema. E importante che questa valutazione non venga fatta solo attraverso il confronto dei significati delle singole parole, ma venga realizzata anche in base alla collezione di documenti in cui si intende svolgere le ricerche. Fondamentale infatti, è che i termini siano relazionati al contenuto dei documenti e ancor di più, che le distanze tra i termini siano studiate in base alla documentazione presente. Per esempio, la parola albero in un contesto informatico ha un significato diverso da quello relativo alla vita quotidiana. Una prima scelta importante è stata quella di decidere in che modo costruire il thesaurus. Una possibilità era di crearlo manualmente, ma questa operazione avrebbe comportato lunghi tempi di realizzo, la necessità di esperti del settore cui la documentazione faceva riferimento e, soprattutto, grossi costi uniti a poca modularità (cambiare il set di documenti implicherebbe il cambio degli esperti). L alternativa era la creazione automatica del thesaurus e questa ci ha portato all approfondimento di alcune tecniche utilizzate nell Information Retrieval e in particolare dell algoritmo LSI (Latent Semantic Indexing). Questo algoritmo calcola la similarità tra documenti, a partire dall insieme dei documenti stessi e dall insieme delle parole contenute nel loro testo. Questo tecnica è capace di interpretare la semantica dei documenti proiettandoli in uno spazio vettoriale di dimensione ridotta in cui, informalmente, possiamo dire di aver filtrato il rumore costituito dai termini non significativi dal punto di vista informativo ma necessari da quello linguistico. Per esempio articoli, avverbi, il verbo essere in tutte le sue coniugazioni, congiunzioni, etc. I risultati prodotti da LSI sono ottimi e la sua applicazione in un Information Retrieval system migliora di molto le prestazioni, ritrovando informazioni

6 4 Cap. 1: INTRODUZIONE con un alto grado di rilevanza. Questo approccio però, ha dei tempi di computazione molto alti, pertanto la sua diretta applicazione per una ricerca diventa improponibile. L analisi di questo processo, ci ha portato a pensare ad LSI come metodo per elaborare le distanze tra termini. Come spiegato, LSI non calcola la similitudine tra i termini, ma la similitudine tra documenti. E però possibile modificare una fase della processo di calcolo al fine di ricavare, per tutti i termini più rilevanti di una collezione, il loro grado di similarità. Quindi con un processo analogo al calcolo della similarità tra documenti determiniamo la similarità tra i termini. In base a queste considerazioni, abbiamo ritenuto di utilizzare questa tecnica per generare in maniera automatica il nostro thesaurus. In questo modo riusciamo a generare un thesaurus strettamente correlato con i documenti, o, più precisamente, con la semantica dei documenti su cui vogliamo effettuare le ricerche. Inoltre, come già sottolineato in precedenza, la creazione automatica permette maggiore elasticità al progetto, minori costi e tempi di sviluppo. Tra i diversi vantaggi, questo approccio ci consente di superare le problematiche analizzate in precedenza, come il caso di interrogazioni ambigue e inesatte. Un utente con difficoltà nel trovare termini appropriati potrà trovare ugualmente documenti attinenti, perché sarà compito del thesaurus ricercare i termini più adatti a partire da quelli introdotti. La comprensione semantica, avviene cercando questi termini all interno del thesaurus ed esaminando tutte le relazioni che questi hanno con i termini vicini, presenti nel thesaurus. La richiesta viene così analizzata e in base alle relazioni trovate tra i termini, potrà essere eventualmente espansa, introducendo tutte le parole fortemente correlate ai termini stessi. Dopo questa analisi si determina l insieme di documenti rilevanti, i quali contengono sia le parole richieste in principio che le parole trovate in un secondo momento nel thesaurus. Un altro aspetto importante affrontato nella nostra tesi è la classificazione dei documenti. Per grandi quantitativi di dati, l ordine con cui vengono proposti all utente i documenti ritrovati assume un aspetto cruciale. L utente deve scegliere se un documento ritrovato è pertinente alla sua ricerca e la sua analisi inizierà verosimilmente dal primo della lista. Se non è presente un ordine, l utente è costretto a scandire tutto l insieme avuto in risposta dal sistema. Diventa importante quindi che i risultati ottenuti dal sistema siano ordinati in base alla loro rilevanza. Se è presente questo ordinamento l utente sarà facilitato nella sua ricerca, avendo molte probabilità di ritrovare l informazione necessaria ai primi posti. Il nostro progetto sviluppa una modalità di ordinamento di base a cui è possibile affiancare altre tre tipi di ordinamento definiti di supporto. L ordinamento di base calcola il peso di un documento in corrispondenza al peso delle parole contenute al suo interno. La tecnica utilizzata è quella di assegnare un peso diverso sia alle parole che descrivono la richiesta di informazione, sia alle parole trovate nel thesaurus. Al peso si fa corrispondere l importanza: più un documento ha un peso elevato, maggiore è la sua importanza. In questo modo è possibile stabilire un ordinamento tra i documenti ritrovati. Gli ordinamenti di supporto sono stati pensati con l intento di valutare l attinenza di un documento anche in base alla disposizione e la quantità delle parole trovate nel testo di un documento. Queste stime, adottate anche da alcuni motori di ricerca, quali ad esempio Google, riescono a discriminare in modo considerevole

7 1.3. SOMMARIO 5 l importanza dei documenti che si sta analizzando. La prima misura è il calcolo del numero di occorrenze di una parola all interno del documento. Dal numero di occorrenze possiamo capire se la parola è casuale in quel documento o se è pertinente alla ricerca. Nel caso che un utente stia cercando più parole all interno di un documento, un altra misura utilizzata è il calcolo della distanza tra le parole all interno dello stesso documento. La motivazione che ci ha spinto al calcolo di questa misura è l osservazione che la vicinanza delle parole può farci capire meglio quanto nel documento queste siano correlate. Nel contesto di una ricerca con più di due termini, risulta utile determinare anche la distanza tra le coppie di parole, perché spesso in questo tipo interrogazioni, alcuni termini hanno un ruolo discriminante e non associativo. Queste tre tecniche, attraverso la misura delle metriche definite, tentano di sintetizzare alcuni comportamenti tipici di un utente, interpretando il tipo di ricerca che l utente potrebbe eseguire. Il sistema si interfaccia con un web-server consentendo una facile consultazione attraverso Internet. Gli utenti che vi accedono possono richiedere i diversi tipi di documenti specificando un insieme di parole che descrivono l informazione di cui necessitano. La ricerca quindi si basa interamente sul contenuto dei documenti e non sulle loro caratteristiche. L approccio considerato, inquadra in pieno le tematiche che vogliamo affrontare in questo contesto, perché mette in luce gli aspetti relativi all attinenza tra la richiesta e la risposta. A fronte di quanto discusso, si è pensato di sviluppare un interfaccia in grado di tenere conto di tutti i diversi tipi di ricerche che è possibile effettuare. Dall esame dei diversi atteggiamenti, si intuisce che l utilizzo del thesaurus in una ricerca che non lo richieda, potrebbe disorientare la ricerca stessa, causando una forte irrilevanza. E quindi utile far scegliere all utente se utilizzare o meno la tecnica del thesaurus. E inoltre conveniente far scegliere all utente se e quali metriche utilizzare per la sua richiesta, senza la necessità di dover prevedere a priori quale potrebbe essere l atteggiamento dell utente. L interfaccia da noi sviluppata vuole essere semplice e di facile utilizzo. Ci proponiamo di mettere il fruitore del servizio nelle condizioni di decidere quale euristica attivare, assegnando un valore a ciascun delle euristiche (eventualmente nullo). A seconda dei valori scelti, sarà attribuita una diversa importanza a ciascuna euristica. Questi valori infatti, saranno utilizzati per operare un bilanciamento di questi tre criteri, per restituire in fine un ordinamento unico. La scelta di utilizzare una interfaccia il più possibile trasparente all utente, permette un duplice utilizzo. Se da una parte facilita la comprensione della interrogazione, facendo scegliere all utente il tipo di ricerca che si vuole effettuare, dall altra permette di sperimentare in quale condizioni sia valida un tipo di ricerca e di individuare quale metodo restituisce le risposte più rilevanti. Per di più, attraverso una fase di analisi del comportamento del sistema per i diversi valori assegnati alle euristiche, è possibile determinare quali sono i valori per cui si ottengono i migliori risultati. 1.3 Sommario Il Capitolo 2 è incentrato sulle tematiche inerenti all Information Retrieval, spiegando la necessità di determinare la rilevanza dell informazione e analizzando alcune delle tecniche utilizzate

8 6 Cap. 1: INTRODUZIONE nei diversi scenari applicativi. Nel Capitolo 4 viene analizzata la tecnica del Latent Semantic Indexing ed il suo utilizzo per la ricerca di documenti; sono spiegati gli elementi matematici che ne sono alla base (la Singular Value Decomposition), e ne viene data una spiegazione semi-rigorosa sul perchè riesca a migliorare la qualità di ricerca dei documenti. Nel Capitolo 5 terzo capitolo è presentato lo stato dell arte sulla generazione e l uso di conoscenza terminologica al fine di migliorare la qualità della ricerca, ed in particolare per una riformulazione più efficace della richiesta di informazione dell utente. In particolare si spiegano le motivazioni che ci hanno spinto alla scelta del thesaurus e il sistema adottato per la sua costruzione automatica. Vengono inoltre illustrate alcune funzionalità per migliorare la ricerca. Nel terzo capitolo è sviluppata un ampia panoramica degli strumenti software utilizzati per la realizzazione del progetto. Sono evidenziati, inoltre, i motivi che hanno portato alla loro scelta attraverso un attenta esamina delle differenze con le altre tecnologie esistenti. Nel quarto capitolo è esaminata l applicazione software realizzata, sono giustificate le scelte tecniche ed analizzati i problemi sorti durante la stesura del codice. In questo capitolo viene illustrato il principio di funzionamento di ogni modulo che compone il sistema, riportando stralci di codice in cui sono evidenziati gli aspetti più interessanti. Nel quinto capitolo viene mostrata la fase di testing del sistema, definendo l insieme di documenti con cui si è svolta la sperimentazione, spiegando gli indici relativi alla sperimentazione e mostrando grafici inerenti alle simulazioni effettuate. Infine l appendice completa la trattazione, descrivendo il pacchetto software realizzato e le operazioni di configurazioni da eseguire per renderlo funzionante.

9 Capitolo 2 Il recupero dell informazione Il recupero dell informazione affronta le problematiche inerenti l organizzazione, la rappresentazione, l immagazzinamento e l accesso dell elemento informazione. La rappresentazione e l organizzazione dell informazioni provvede infatti a facilitare l accesso alla informazione di cui un utente necessita. Tuttavia caratterizzare tale informazione non risulta un compito semplice. Un sistema software non è (al momento) in grado di comprendere una richiesta espressa in linguaggio naturale, quindi l interrogazione dell utente deve essere prima tradotta in una query che può esser processata dal sistema che recupera l informazione. Il modo più semplice per la traduzione della richiesta dal linguaggio naturale a un linguaggio che un sistema informatico può capire, consiste nel riformulare tale interrogazione come un insieme di parole (o keyword, o termini) idonee a descrivere il contenuto dell informazione desiderata. Tale compito è, nella maggioranza dei casi, lasciato all utente. Data una query, l obiettivo di un sistema per il recupero dell informazione (IR system) è di trovare l informazione più rilevante per l utilizzatore del sistema a seguito della query immessa. 2.1 Analisi dei diversi aspetti dell Information Retrieval L Information Retrieval si indirizza su due principali aspetti: il ritrovamento dei dati e il ritrovamento dell informazione. Il ritrovamento dei dati, nel contesto dell Information Retrieval system, si pone come obiettivo quello di determinare quali documenti contengono le parole utilizzate nella query, e ciò, nella maggior parte dei casi, non è sufficiente a soddisfare la necessità dell utente. Un linguaggio di data retrieval permette di recuperare tutti gli oggetti che soddisfano condizioni ben definite, come quelle date da espressioni regolari o da espressioni in algebra relazionale. Dunque, per un sistema di data retrieval, un singolo oggetto erroneamente recuperato (o non recuperato) su migliaia di oggetti, può significare un sistema fallimentare. Il ritrovamento dell informazione, sposta invece il punto di vista sul concetto che la query 7

10 8 CAP. 2: IL RECUPERO DELL INFORMAZIONE vuole descrivere, cercando di interpretarne il contenuto semantico, per poter restituire i documenti più attinenti a tale argomento. La principale differenza tra questi due approcci è nella modalità di intendere la richiesta: il ritrovamento dei dati vede la richiesta come una semplice ricerca di una o più parole all interno dei documenti, il ritrovamento dell informazione cerca di capire a quale informazione si vuole accedere; mentre la teoria delle basi di dati ha a che fare con richieste sotto forma di precisi predicati, nell Information Retrieval si ha a che fare con il nebuloso e mal definito concetto di rilevanza, che dipende in modo intricato dall intento dell utente e dalla natura del corpus. Per un sistema di Information Retrieval, dunque, gli elementi recuperati possono essere inaccurati e piccoli errori possono rimanere del tutto non notati. Un aspetto importante da evidenziare, che ha fortemente influenzato i metodi per la ricerca dei documenti, è il considerevole incremento della mole di dati da memorizzare e da gestire che si è registrato negli ultimi anni. Questo ha comportato lo sviluppo di particolari sistemi software, ovvero i database, in grado di migliorare la gestione dei dati, archiviandoli e strutturandoli in maniera omogenea. Un buona organizzazione dei dati migliora il sistema di ritrovamento, tuttavia non soddisfa le richieste di ricerca inerenti al testo di un documento. Questi sistemi infatti, non riescono a discriminare i documenti per il loro contenuto, ma solo per le loro caratteristiche generali. Il compito di ricercare un documento che contenga una specifica informazione al suo interno è lasciato all utente, ma il grande quantitativo dei dati può rendere improponibile una ricerca manuale. In questo scenario l IR è stato di grande ausilio, perché prende in considerazione anche il testo dei documenti. Tuttavia, con interrogazioni poco selettive, l IR system potrebbe dare in risposta molti documenti, di cui non si conosce a priori il grado di rilevanza. Anche in questo caso, è l utente a dover cercare, tra tutti i documenti restituiti, quello più attinente alla sua richiesta. Nasce così l esigenza di ordinare i documenti ritrovati in base alla loro rilevanza. Le difficoltà per raggiungere questo obiettivo, è sia nel capire quale informazione l utente vuole ritrovare, sia nel decidere, per ogni documento ritrovato, quale è il suo grado di rilevanza rispetto a tale informazione. 2.2 Analisi della ricerca nel Web L IR, sebbene molto utilizzato, in passato ha avuto poca considerazione negli ambienti della ricerca, perché applicabile ad una ristretta area di interesse. Questa considerazione è stata prevalente per molti anni, nonostante la rapida crescita dell informatizzazione e il forte utilizzo dei personal computer. All inizio degli anni 90, però, un fatto determinante ha cambiato una volta per tutte questa opinione: la nascita del Word Wide Web. Il Web sta diventando un universale repository di conoscenza umana e culturale che ci ha portato a una condivisione di idee e di informazione in una espansione senza precedenti: ognuno può creare propri documenti

11 2.2. ANALISI DELLA RICERCA NEL WEB 9 Web, pubblicarli e farli puntare a qualsiasi altro documento Web senza alcuna restrizione. Questo è un aspetto chiave, in quanto trasforma il Web in un nuovo mezzo di pubblicazione, accessibile a chiunque. Questo grande successo del Web ha tuttavia introdotto nuove problematiche. Trovare informazioni utili sul Web è spesso un compito tedioso e difficile. L utente è spesso costretto, per soddisfare la sua necessità di informazione, a navigare di link in link alla ricerca, talvolta vana, di ciò che lo interessa; ciò può rivelarsi un ostacolo insormontabile, soprattutto per gli utenti alle prime armi. L ostacolo principale è l assenza di un ben definito modello per la presentazione dei dati sul Web, che implica una spesso scarsa qualità della definizione e strutturazione dei dati. Un passo per facilitare la ricerca nel web è stato fatto attraverso lo sviluppo di XML, un linguaggio che fornisce la possibilità di rappresentare ogni tipo di documento o dato, proteggendo le informazioni dalle evoluzioni tecnologiche. XML è una estensione dell HTML, ma a differenza dell HTML non si occupa di descrivere la formattazione del testo, ma di descrivere il ruolo logico degli elementi associati. Da questo segue che le applicazioni possono riconoscere i dati all interno dei documenti, potendo quindi svolgere operazioni che non sarebbero mai stati capaci di svolgere prima. Tuttavia un grande ostacolo resta l assenza di un modello ben definito di dati per il Web. Infatti sul Web può essere messo materiale creato da chiunque e considerando che la gran parte di utenti sono dilettanti, spesso si ha una bassa qualità della informazione e della struttura dei dati. Un altra questione che si affronta nel Web è il Ranking delle pagine, che tratta la problematica di attribuire un ordine ai risultati ottenuti da una ricerca. Molti algoritmi, sviluppati per risolvere il problema, calcolano l ordinamento dei risultati esaminando l importanza di ciascuna pagina. L importanza di una pagina Web viene determinata considerando il contenuto e l interesse che questa ha suscitato nei lettori. In tal modo, è possibile stabilire un ordine delle pagine ritrovate, in base all effettiva attenzione ed importanza che queste hanno riscosso. Seguendo come obiettivo quello di filtrare le pagine più attinenti per la ricerca, si sono sviluppati algoritmi che prendono in esame la struttura del WWW, che ha come caratteristica fondamentale il collegamento ( link) tra le diverse paginone. E possibile infatti, analizzare tale struttura per estrarre informazioni utili circa le pagine che trattano un determinato argomento, focalizzando quelle più autorevoli. In generale, queste tecniche calcolano l importanza di una pagina in base all importanza delle pagine che puntano ad essa. In questo modo, se una pagina ritenuta autorevole ha un link ad un altra, quest ultima assume una importanza maggiore rispetto al caso in cui ha un link con una pagina poco autorevole [7] [8]. L analisi della ricerca nel Web presenta scenari e problematiche assai ampie e complesse, ma gli sforzi nello studio di tecniche innovative nel campo dell IR stanno portando la ricerca nel Web a livelli sempre più accurati. Tuttavia, le tecniche che tendono a migliorare la qualità della ricerca devo essere compatibili con tempi di risposta accettabili per il Web, che sono molto rigidi. In media infatti, si può affermare che se un utente entro alcuni secondi di attesa non riceve una risposta, tende a cambiare la sua ricerca, riformulandola in maniera diversa o andando su un altro sito. Questo

12 10 CAP. 2: IL RECUPERO DELL INFORMAZIONE tipo di atteggiamento, rende i tempi di attesa determinanti ai fini di una ricerca soddisfacente nel Web. Tuttavia, non è sempre possibile conciliare buoni algoritmi con tempi di risposta accettabili e sono molti i casi in cui questo compromesso non viene raggiunto. Di conseguenza, metodi validi nell IR, ma con tempi di computazione molto lunghi, non possono essere utilizzati nella ricerca nel Web [9]. 2.3 Tecniche di ricerca Il recupero dell informazione ha avuto la sua crescita seguendo come obiettivo primario l indicizzazione del testo e il ritrovamento dei documenti più utilizzati in una collezione. Ad oggi, la ricerca in Information Retrieval include modellazione, classificazione e catalogazione dei documenti, visualizzazione dei dati, filtraggio, etc. In questo paragrafo esamineremo alcune delle tecniche più significative. Il recupero dell informazione è un problema che può essere affrontato su diversi livelli, in funzione del grado di rilevanza che la risposta vuole soddisfare. Una delle tecniche più semplici per il ritrovamento dei documenti è il Full Text Scanning. Tale tecnica consiste in una prima fase, in cui vengono memorizzate le parole e le caratteristiche dei documenti in un database e in una seconda fase, in cui si esaminano le parole memorizzate confrontandole con l insieme di parole scelto per la query. Se un documento contiene anche solo una di queste parole, viene restituito. Sebbene semplice, i tempi di risposta di una ricerca eseguita con il Full Text Scanning diventano improponibili per Data Base di dimensioni molto grandi. Una estensione di questa tecnica è rappresentata dall Inversion. L idea di base è pensare un documento come caratterizzato da una lista di parole chiave, le quali riescono a descrivere il contenuto del documento. Le parole chiave sono memorizzate in un file e per ognuna, viene mantenuto un collegamento al documento caratterizzato dalla parola stessa. Un ritrovamento veloce può essere fatto indirizzando la ricerca solo su queste parole chiave. Questo metodo è utilizzato dalla maggior parte dei sistemi in commercio. Un altra tecnica utilizzata è il Clustering (raggruppamento), in cui documenti simili vengono raggruppati insieme. Questo raggruppamento viene giustificato con il presupposto che documenti simili tendono a essere rilevanti per lo stesso tipo di ricerca. Raggruppando documenti simili si accelera il ritrovamento. Le tecniche analizzate fin ora associano a ciascun documento poche informazioni. Questa tendenza è stata superata dai più recenti metodi, i quali cercano di catturare maggiori dati da un documento, per ottenere performance migliori. L obiettivo è quello di cogliere il significato semantico dell informazione richiesta, interpretando la collezione di documenti su cui va ricercata. Per catturare maggiore informazione vengono utilizzati gli spazi vettoriali. Tra i metodi più importanti citiamo Latent Semantic Indexing (LSI). Questa tecnica, tra tutte quelle che utilizzano lo spazio vettoriale, ha ottenuto i risultati migliori. Data una collezione di documenti, viene formata una matrice termine-documento, i cui valori sono rappresentati da numeri interi che determinano le occorrenze di uno specifico termine in uno specifico documento. I singoli el-

13 2.4. IL PROCESSO DI RICERCA 11 ementi di questa matrice vengono poi elaborati e i valori più piccoli vengono eliminati. I vettori e i valori risultanti nella matrice, sono utilizzati per mappare la frequenza dei vettori di termini all interno dei documenti, in un sottospazio in cui sono preservate le relazioni semantiche per la matrice termine-documento. I vettori di termini che hanno forti variazione sono soppressi. Su questi dati vengono poi compiute operazioni di similarità tra i documenti e i documenti possono poi essere classificati in ordine di somiglianza decrescente. 2.4 Il processo di ricerca Per descrivere il processo di ricerca, utilizziamo una semplice e generica architettura software mostrata in figura. Innanzitutto, prima che inizi il processo di retrieval vero e proprio, è necessario definire la base di dati dei testi. Ciò viene generalmente effettuato dal manager del database che specifica: 1. i documenti da indicizzare; 2. le operazioni da effettuare sul testo, le quali trasformano i documenti originari, generando una vista logica su di essi; 3. il modello di testo (la struttura del testo e quali elementi possono essere recuperati).

14 12 CAP. 2: IL RECUPERO DELL INFORMAZIONE Una volta definita una vista logica dei documenti, il DB Manager genera un indice dei testi. Un indice è una struttura critica poichè consente una ricerca rapida su enormi volumi di dati. Si possono utilizzare differenti strutture di indice, ma la più popolare è la cosiddetta inverted file. Si noti che le risorse (di tempo e di spazio di memorizzazione) spese nella costruzione dell indice vengono ammortizzate dalle numerose richieste rivolte al sistema di retrieval. Una volta costruito l indice, il processo di ricerca può essere iniziato. L utente definisce inizialmente la sua necessità informativa, la quale viene poi analizzata e trasformata tramite le stesse operazioni applicate al testo. Successivamente, si possono effettuare operazioni sulle query prima che sia generata la query finale, la quale fornisce una rappresentazione per il sistema della necessità dell utente. La query è poi processata al fine di ottenere i documenti richiesti. Un veloce processamento della query è reso possibile dall indice precedentemente costruito. Prima di essere forniti all utente, i documenti recuperati possono essere ordinati in base ad una misura di somiglianza. L utente quindi esamina l insieme dei documenti restituiti, in cerca di informazioni utili. A questo punto, è possibile che l utente selezioni un sottoinsieme dei documenti ricevuti come di interesse, dando inizio così ad un ciclo di feedback. In tale ciclo, il sistema utilizza i documenti selezionati dall utente per modificare la query, al fine di renderla più adatta al recupero delle reali informazioni necessarie all utente. 2.5 Considerazione sulla semantica nell IR Le tecniche di IR tendano ad essere più efficaci qualora si prefiggano come obiettivo quello di catturare più informazioni possibili dal documento per meglio cogliere la sua semantica [2]. Questa strada è seguita anche dalle tecniche per l analisi del linguaggio naturale, le quali tentano di cogliere il contenuto semantico della interrogazione, per confrontarlo con il contenuto semantico del documento. In realtà la distinzione tra l analisi del linguaggio naturale e le tecniche dell IR non è così netta. Un esempio dell integrazione tra le tecniche per il recupero dell informazione e il processamento del linguaggio, è dato dall uso di frasi come termini indicizzanti per i documenti [2]. L utilizzo di una frase come query porta come beneficio un maggiore contenuto semantico, ma potrebbero esserci dei riscontri negativi, come ad esempio il rischio che l alta specificazione della frase comporti una riduzione delle performance del ranking. Un risultato che l IR deve raggiungere, consiste nel riuscire, data una query, a capire il suo significato semantico e restituire uno o più documenti attinenti alla richiesta, ritenuti rilevanti rispetto al resto della collezione in base ad una modellazione della semantica dei contenuti di ciascun documento. Nei tradizionali sistemi di IR, usualmente si adottano indici per il recupero dei documenti. In senso stretto, un indice è una parola chiave la quale racchiude un proprio significato al suo interno. In senso più generale, un indice è una parola che compare all in-

15 2.6. CARATTERIZZAZIONE FORMALE DEI MODELLI DI IR 13 terno di un documento di una collezione. Di regola, la scelta dell indice ricade sulla parola maggiormente presente nel documento. Definito un indice, questo viene collegato ad uno o più documenti. In questo modo, se nell interrogazione fatta dall utente è presente uno degli indici definiti, vengono velocemente restituiti i documenti con cui l indice è stato collegato. Quindi la parola che si scegli come indice è tale che il suo significato possa rappresentare il contenuto del documento a cui indicizza. Il ritrovamento basato sugli indici è molto semplice, ma fa sorgere alcune problematiche. Per esempio, nel ritrovamento dei documenti utilizzando gli indici si assume come idea fondamentale che, sia la semantica di un documento, sia l informazione di cui si ha bisogno, possano essere naturalmente espressi attraverso un insieme di parole. Chiaramente questa è una considerazione molto semplificata del problema, perché la semantica espressa nella richiesta e la semantica espressa nel documento, è molto bassa quando viene sintetizzata da un insieme di parole [19]. Per ciò che riguarda la semantica della richiesta fatta utilizzando un insieme di parole chiave, spesso c è difficoltà da parte dell utente a trovare i termini più adatti per esprimere l informazione ricercata. In tali condizione è più facile incorrere in documenti irrilevanti. Per ciò che riguarda la semantica del documento, talvolta il suo significato non può essere direttamente espresso dalle parole presenti al suo interno. Ad esempio, un documento che tratta di programmazione, potrebbe non contenere la parola PROGRAMMAZIONE. Quindi i risultati ottenuti dalle ricerche che considerano l attinenza di un documento confrontando gli indici, potrebbero portare un certo grado di irrilevanza. Da qui nasce l esigenza di studiare la semantica di una richiesta in relazione alla semantica della collezione di documenti. L introduzione dei Thesaurus, ha permesso di superare molte difficoltà, consentendo di trovare una maggiore affinità tra la richiesta e la risposta. Questo argomento sarà trattato nel capitolo seguente. 2.6 Caratterizzazione formale dei modelli di IR Si è intuito che le premesse fondamentali che formano le basi di un algoritmo di ranking, determinano il modello di Information Retrieval. Analizzeremo ora differenti insiemi di tali premesse. Tuttavia, prima di far ciò bisogna definire con precisione cosa sia un modello di Information Retrieval. Definizione 1. Un modello per l information retrieval è una quadrupla [D, Q, F, R(q i, d j )] dove: D è un insieme costituito da viste logiche (o rappresentazioni) dei documenti della collezione. Q è un insieme costituito da viste logiche (o rappresentazioni) delle necessità informative dell utente. Tali rappresentazioni sono dette queries. F è un framework per modellare le rappresentazioni dei documenti, le queries e le relazioni tra loro.

16 14 CAP. 2: IL RECUPERO DELL INFORMAZIONE R(q i, d j ) è una funzione di ranking che associa un numero reale con una query q i Q e la rappresentazione di un documento d j D. Tale ranking definisce un ordine tra i documenti rispetto ad ogni query q i. Per costruire un modello pensiamo dapprima alle rappresentazioni dei documenti ed alle necessità dell utente. Date queste rappresentazioni, elaboriamo poi il framework in cui possono essere modellati. Questo framework dovrebbe anche fornire l idea per costruire una funzione di ranking. Per esempio, per il modello classico Booleano, il framework è composto da insiemi dei documenti e da operazioni standard sugli insiemi. Per il modello classico vettoriale, il framework è composto da uno spazio vettoriale m-dimensionale e da operazioni sui vettori derivate dall algebra lineare. Vediamo ora i due principali modelli classici per l Information Retrieval. Essi sono caratterizzati dalla considerazione che ogni documento è descritto tramite un insieme di parole chiave (keywords) rappresentative, detti termini index terms. Un termine è semplicemente una parola la cui semantica aiuta a ricordare gli argomenti principali di un documento. Dunque i termini sono utilizzati per indicizzare e riassumere il contenuto di un documento. In generale i termini sono essenzialmente nomi, poichè solo essi hanno significato in quanto tali, e quindi è più facile carpire la loro semantica. Aggettivi, avverbi, congiunzioni sono meno utili dei termini in quanto funzionano principalmente come complementi. Tuttavia, può essere interessante considerare tutte le parole distinte in una collezione di documenti come termini. Questo è ad esempio l approccio seguito dalla maggioranza dei motori di ricerca Web (in questo caso la vista logica dei documenti è detta full text). Dato un insieme di termini per un documento, osserviamo che non tutti i termini sono ugualmente utili per descrivere il contenuto di un documento. Infatti vi sono termini che possono essere più vaghi di altri. Decidere sull importanza di un termine per riassumere il contenuto di un documento non è un problema banale. Nonostante questa difficoltà, vi sono proprietà di un termine che possono essere facilmente misurate e che sono utili per valutare le potenzialità di un termine come tale. Si consideri, ad esempio, una collezione con centinaia di migliaia di documenti. Una parola che appare in ognuno delle centinaia di migliaia di documenti, è completamente inutile come termine, poichè non dice nulla su quale documento l utente possa essere interessato. D altro canto, una parola che appare in una manciata di documenti è pienamente utile, in quanto restringe considerevolmente lo spazio dei documenti a cui può essere interessato l utente. Dunque, dovrebbe esser chiaro che termini distinti hanno varia rilevanza quando utilizzati per descrivere i contenuti dei documenti.

17 2.6. CARATTERIZZAZIONE FORMALE DEI MODELLI DI IR 15 Questo effetto viene catturato attraverso l assegnazione di pesi numerici ad ogni termine del documento. Sia k i un termine, d j un documento e w i,j 0 un peso associato alla coppia (k i, d j ). Dunque un peso quantifica l importanza di un termine per descrivere il contesto semantico del documento. Definizione 2. Sia m il numero dei termini distinti in una collezione, e K = k 1,..., k t l insieme di tutti i termini. Un peso w i,j > 0 è associato ad ogni termine k i di un documento d j. Per ogni termine che non compare nel testo del documento d j, w i,j = 0. Con il documento d j è associato un vettore di termini d j = (w 1,j, w 2,j,..., w m,j ). Inoltre, sia g i la funzione che restituisce il peso associato al termine k i in ogni vettore m- dimensionale (g i ( d j ) = w i,j ). Come vedremo in seguito, i pesi dei termini si considerano mutuamente indipendenti. Ciò significa che conoscere il peso w i,j associato alla coppia (k i, d j ) non ci dice nulla riguardo al peso w i+1, j associato alla coppia (k i+1, d j ). Questa è chiaramente una semplificazione perchè le occorrenze dei termini in un documento sono chiaramente correlate, basti pensare ai termini HOME e PAGE in una collezione di documenti aventi a che fare con Internet. Spesso, in tali documenti, la presenza di un termine comporterà la presenza anche dell altro termine, e dunque queste due parole sono correlate, ed i loro pesi dovrebbero riflettere questa correlazione. Mentre la mutua indipendenza sembra essere una forte semplificazione, semplifica il compito di calcolare i pesi dei termini e permette un veloce calcolo del ranking. Tuttavia, avvantaggiarsi della correlazione tra i termini per migliorare la classificazione finale dei documenti, non è un compito semplice. Infatti, nessuno dei molti approcci proposti in passato ha chiaramente dimostrato che le correlazioni fra termini siano vantaggiose per collezioni generiche di documenti. Vedremo tuttavia come nuove tecniche, tra cui quella proposta in questo lavoro, sembrano rivelarsi di successo con particolari collezioni di documenti. Ciò non può che far pendere la credenza attuale verso una visione più favorevole dell utilità delle correlazioni fra termini nei sistemi di Information Retrieval Modello booleano Il modello booleano è un semplice modello di IR basato sulla teoria degli insiemi e sull algebra di Boole, il cui concetto è molto intuitivo, e facile da carpire per un utente comune di un sistema di IR. Il modello booleano considera i termini assenti o presenti in un documento. Come risultato, i pesi dei termini si presumono essere binari: w i,j {0, 1}.

18 16 CAP. 2: IL RECUPERO DELL INFORMAZIONE Una query q una espressione booleana composta di termini collegati fra loro dai tre operatori booleani not, and, or, che può anche essere rappresentata in forma disgiuntiva normale (DNF - disjunctive normal form). Per esempio, la query [q = k a (k b k c )] può essere scritta in DNF come [ q dnf = (1, 1, 1) (1, 1, 0) (1, 0, 0)], dove ogni elemento è una vettore binario associato alla tupla (k a, k b, k c ). Questi vettori binari sono chiamati componenti congiuntive di q dnf. Sia dunque q cc ognuna delle componenti congiuntive di q dnf. La similarità di un documento d j rispetto ad una query q è definita come: { 1 se q cc ( q cc q dnf ) ( ki, g i ( d sim(d j, q) = j ) = g i ( q cc ) ) (2.1) 0 altrimenti Se sim(d j, q) = 1 il modello booleano assume che il documento d j sia rilevante per la query q (potrebbe in realtà non esserlo). Altrimenti, assume che il documento sia non rilevante. In seguito alla sua inerente semplicità ed al formalismo pulito, il modello Booleano ha ricevuto grande attenzione negli anni passati ed è stato adottato da molti dei primi sistemi bibliografici commerciali. Sfortunatamente questo modello soffre di numerosi inconvenienti. Innanzitutto la sua strategia di ricerca è basata su di un criterio di decisione binaria (un documento può cioè essere rilevante o non rilevante ); non esiste la nozione di matching parziale di un documento rispetto ad una query, non vi soprattutto una possibilità di ranking, condizione necessaria per una buona ricerca. Dunque il modello booleano può esser più considerato come un modello di ricerca dei dati, più che di informazione. I sistemi commerciali spesso tentano di aggirare questo problema, generando un ordinamento associato con qualche metadato descrittivo, o più semplicemente un ordine cronologico inverso (spesso utilizzato nei sistemi che indicizzano news o giornali, in cui la data di pubblicazione è una delle caratteristiche salienti del documento). Vi è poi il non banale problema di tradurre una necessità di informazione in una espressione booleana. Infatti studi hanno dimostrato che molti utenti trovano difficile e scomodo esprimere le loro richieste in termini di espressioni booleane, e spesso hanno un idea sbagliata di quali siano i risultati, per cui si giunge in pratica, a formulare le queries in modo banale, senza sfruttare minimamente le possibilità offerte dall algebra booleana. Le queries booleane sono problematiche per molte ragioni. Tra tutte la maggiore è quella che molte persone trovano la sintassi base controintuitiva. Soprattutto gli utenti di lingua inglese, assumono la semantica della lingua comune nell uso dei vocaboli AND e OR, piuttosto che i loro equivalenti logici. Per gli utenti inesperti, utilizzare AND implica l allargamento del campo d azione della query. Ad esempio la richiesta DOG AND CAT può significare l interesse per documenti che riguardano cani e documenti che riguardano gatti, piuttosto che documenti che riguardino entrambi. Così

19 2.6. CARATTERIZZAZIONE FORMALE DEI MODELLI DI IR 17 TEA OR COFFEE può implicare una scelta mutuamente esclusiva nel linguaggio di ogni giorno. In aggiunta molti linguaggi di query che incorporando operatori booleani richiedono all utente anche di specificare una complessa sintassi per altri tipi di connettori e per i metadati. Molti utenti non sono inoltre familiari con l uso delle parentesi, per valutazioni annidate, nè con la nozione di precedenza fra operatori. I progettisti di motori di ricerca Web, sapendo di dover avere a che fare con un audience di massa in possesso di scarsa esperienza nella specifica delle queries, si sono adattati ad approcci più intuitivi. Piuttosto che forzare gli utenti a specificare complesse combinazioni di AND e OR, consentono agli utenti di scegliere da una selezione di semplici modi di combinare i termini, tipo tutte le parole (ovvero poni tutti i termini in AND ) o almeno una delle parole (ovvero poni tutti i termini in OR ), o l ormai divenuto famoso operatore + utilizzato dal motore di ricerca Altavista. Nonostante questi problemi il modello booleano ancora il modello dominante nei sistemi commerciali e costituisce un buon punto di partenza per chi inizia a studiare la materia Il modello vettoriale Il modello vettoriale parte dall assunzione che l uso di pesi binari è troppo limitante, e propone un framework in cui sia reso possibile un matching parziale. Ciò ottenuto assegnando pesi non binari ai termini nelle queries e nei documenti. Questi termini sono infine usati per calcolare il grado di similarità tra ogni documento indicizzato e una query utente. Ordinando i documenti recuperati in ordine discendente di similarità, tale modello tiene in considerazione documenti che soddisfano anche solo parzialmente i termini della query. Ciò produce, come primo effetto positivo, un insieme ordinato di documenti recuperati assai più preciso 1 dell insieme ottenuto tramite modello booleano. Per il modello vettoriale, il peso w i,j associato alla coppia (k i, d j ) è positivo e non binario. Inoltre sono pesati anche i termini della query. Sia w i,q 0 il peso associato alla coppia (k i, q). Allora il vettore query q è definito come q = (w 1,q, w 2,q,..., w m,q ) dove m è il numero totale di termini indicizzati nel sistema. Come prima, il vettore relativo al documento d j è rappresentato come d j = (w 1,j, w 2,j,..., w m,j ). Dunque un documento d j ed una query q sono rappresentati come vettori m-dimensionali. Il modello vettoriale propone di valutare il grado di similarità del un documento d j rispetto ad una query q come la correlazione tra i vettori d j e q. Tale distanza può esser quantificata, ad esempio, con il coseno dell angolo tra i due vettori: sim(d j, q) = d j q d j q = m i=1 w i,j w i,q m i=1 w2 i,j m j=1 w2 i,q (2.2) 1 sarà data in seguito una definizione esatta del vocabolo precisione nell ambito dell Information Retrieval; si interpreti per ora come insieme che meglio soddisfa la necessità di informazione dell utente;

20 18 CAP. 2: IL RECUPERO DELL INFORMAZIONE avendo indicato con d j e q le norme di tali vettori. Si osservi come, mentre il fattore d j fornisce una normalizzazione nello spazio dei documenti, il fattore q non ha influenza sul ranking dei documenti poichè rimane costante per tutti i documenti. Si osservi inoltre che, poichè w i,j 0 e w i,q 0, sim(q, d j ) è compreso fra 0 e 1. Dunque invece di stabilire se un documento sia o non sia rilevante, il modello vettoriale classifica i documenti in base al loro grado di similarità rispetto alla query. Un documento può esser recuperato anche se soddisfa solo parzialmente la query. Si può ad esempio stabilire una soglia su sim(d j, q) e riportare i documenti con un grado di similarità sopra tale soglia. Ma per calcolare un ordinamento, bisogna prima definire come ottenere i pesi per i termini. I pesi per i termini possono essere ottenuti in diversi modi. [7] analizza varie tecniche di termweighting. Pur non analizzandole in dettaglio, scopriamo l idea alla base delle più efficaci tecniche di termweighting. L idea è collegata ai principi di base che supportano le tecniche di clustering. Data una collezione C di oggetti, e una descrizione non ben definita di un insieme A 2, l obbiettivo di un semplice algoritmo di clustering è quello di separare la collezione C in due insiemi: un primo insieme composto da oggetti in relazione con A, ed un secondo insieme composto da oggetti non in relazione con il set A. Algoritmi di clustering più complessi possono tentare di separare gli oggetti di una collezione in più classi, tuttavia noi ci riferiamo alla versione più semplice del problema di clustering (quella che considera solo due classi), perchè tutto ciò che ci viene richiesto è una decisione su quali documenti possano essere rilevanti e quali no. Per vedere il problema di IR come un problema di clustering, consideriamo i documenti come una collezione C di oggetti e vediamo la query utente come una non ben definita specifica dell insieme A (i documenti rilevanti). Si può così ridurre il problema alla determinazione di quali documenti sono nell insieme A e quali non lo sono. Vi sono due problemi fondamentali da risolvere: 1. si deve determinare quali sono le caratteristiche che meglio descrivono gli oggetti nell insieme A; 2. si deve determinare quali sono le caratteristiche che meglio distinguono gli oggetti nell insieme A dai rimanenti oggetti della collezione C. Il primo insieme di caratteristiche dà una quantificazione della similarità intra-cluster, mentre il secondo insieme di caratteristiche quantifica la dissimilarità inter-cluster. Per un clustering efficiente, si deve tentare di bilanciare questi due effetti. 2 con ciò intendiamo dire che non abbiamo una informazione completa per decidere precisamente quali oggetti appartengono e quali non appartengono all insieme

Introduzione all Information Retrieval

Introduzione all Information Retrieval Introduzione all Information Retrieval Argomenti della lezione Definizione di Information Retrieval. Information Retrieval vs Data Retrieval. Indicizzazione di collezioni e ricerca. Modelli per Information

Dettagli

Database. Si ringrazia Marco Bertini per le slides

Database. Si ringrazia Marco Bertini per le slides Database Si ringrazia Marco Bertini per le slides Obiettivo Concetti base dati e informazioni cos è un database terminologia Modelli organizzativi flat file database relazionali Principi e linee guida

Dettagli

PROCESSO DI INDICIZZAZIONE SEMANTICA

PROCESSO DI INDICIZZAZIONE SEMANTICA PROCESSO DI INDICIZZAZIONE SEMANTICA INDIVIDUAZIONE DEI TEMI/CONCETTI SELEZIONE DEI TEMI/CONCETTI ESPRESSIONE DEI CONCETTI NEL LINGUAGGIO DI INDICIZZAZIONE TIPI DI INDICIZZAZIONE SOMMARIZZAZIONE INDICIZZAZIONE

Dettagli

uadro Soluzioni software per L archiviazione elettronica dei documenti Gestione Aziendale Fa quadrato attorno alla tua azienda

uadro Soluzioni software per L archiviazione elettronica dei documenti Gestione Aziendale Fa quadrato attorno alla tua azienda Fa quadrato attorno alla tua azienda Soluzioni software per L archiviazione elettronica dei documenti Perché scegliere Q Archiviazione Elettronica dei Documenti? Tale applicativo si pone come obbiettivo

Dettagli

Il database management system Access

Il database management system Access Il database management system Access Corso di autoistruzione http://www.manualipc.it/manuali/ corso/manuali.php? idcap=00&idman=17&size=12&sid= INTRODUZIONE Il concetto di base di dati, database o archivio

Dettagli

Siamo così arrivati all aritmetica modulare, ma anche a individuare alcuni aspetti di come funziona l aritmetica del calcolatore come vedremo.

Siamo così arrivati all aritmetica modulare, ma anche a individuare alcuni aspetti di come funziona l aritmetica del calcolatore come vedremo. DALLE PESATE ALL ARITMETICA FINITA IN BASE 2 Si è trovato, partendo da un problema concreto, che con la base 2, utilizzando alcune potenze della base, operando con solo addizioni, posso ottenere tutti

Dettagli

La Metodologia adottata nel Corso

La Metodologia adottata nel Corso La Metodologia adottata nel Corso 1 Mission Statement + Glossario + Lista Funzionalià 3 Descrizione 6 Funzionalità 2 Schema 4 Schema 5 concettuale Logico EA Relazionale Codice Transazioni In PL/SQL Schema

Dettagli

Linguaggi e Paradigmi di Programmazione

Linguaggi e Paradigmi di Programmazione Linguaggi e Paradigmi di Programmazione Cos è un linguaggio Definizione 1 Un linguaggio è un insieme di parole e di metodi di combinazione delle parole usati e compresi da una comunità di persone. È una

Dettagli

Automazione Industriale (scheduling+mms) scheduling+mms. adacher@dia.uniroma3.it

Automazione Industriale (scheduling+mms) scheduling+mms. adacher@dia.uniroma3.it Automazione Industriale (scheduling+mms) scheduling+mms adacher@dia.uniroma3.it Introduzione Sistemi e Modelli Lo studio e l analisi di sistemi tramite una rappresentazione astratta o una sua formalizzazione

Dettagli

Manuale Utente Amministrazione Trasparente GA

Manuale Utente Amministrazione Trasparente GA Manuale Utente GA IDENTIFICATIVO DOCUMENTO MU_AMMINISTRAZIONETRASPARENTE-GA_1.0 Versione 1.0 Data edizione 03.05.2013 1 Albo Pretorio On Line TABELLA DELLE VERSIONI Versione Data Paragrafo Descrizione

Dettagli

SISTEMI INFORMATIVI AVANZATI -2010/2011 1. Introduzione

SISTEMI INFORMATIVI AVANZATI -2010/2011 1. Introduzione SISTEMI INFORMATIVI AVANZATI -2010/2011 1 Introduzione In queste dispense, dopo aver riportato una sintesi del concetto di Dipendenza Funzionale e di Normalizzazione estratti dal libro Progetto di Basi

Dettagli

1. BASI DI DATI: GENERALITÀ

1. BASI DI DATI: GENERALITÀ 1. BASI DI DATI: GENERALITÀ BASE DI DATI (DATABASE, DB) Raccolta di informazioni o dati strutturati, correlati tra loro in modo da risultare fruibili in maniera ottimale. Una base di dati è usualmente

Dettagli

Organizzazione degli archivi

Organizzazione degli archivi COSA E UN DATA-BASE (DB)? è l insieme di dati relativo ad un sistema informativo COSA CARATTERIZZA UN DB? la struttura dei dati le relazioni fra i dati I REQUISITI DI UN DB SONO: la ridondanza minima i

Dettagli

Dimensione di uno Spazio vettoriale

Dimensione di uno Spazio vettoriale Capitolo 4 Dimensione di uno Spazio vettoriale 4.1 Introduzione Dedichiamo questo capitolo ad un concetto fondamentale in algebra lineare: la dimensione di uno spazio vettoriale. Daremo una definizione

Dettagli

I motori di ricerca. Che cosa sono. Stefania Marrara Corso di Sistemi Informativi

I motori di ricerca. Che cosa sono. Stefania Marrara Corso di Sistemi Informativi I motori di ricerca Stefania Marrara Corso di Sistemi Informativi a.a 2002/2003 Che cosa sono Un motore di ricerca è uno strumento per mezzo del quale è possibile ricercare alcuni termini (parole) all

Dettagli

2003.06.16 Il sistema C.R.M. / E.R.M.

2003.06.16 Il sistema C.R.M. / E.R.M. 2003.06.16 Il sistema C.R.M. / E.R.M. Customer / Enterprise : Resource Management of Informations I-SKIPPER è un sistema di CONOSCENZE che raccoglie ed integra INFORMAZIONI COMMERCIALI, dati su Clienti,

Dettagli

ControlloCosti. Cubi OLAP. Controllo Costi Manuale Cubi

ControlloCosti. Cubi OLAP. Controllo Costi Manuale Cubi ControlloCosti Cubi OLAP I cubi OLAP Un Cubo (OLAP, acronimo di On-Line Analytical Processing) è una struttura per la memorizzazione e la gestione dei dati che permette di eseguire analisi in tempi rapidi,

Dettagli

BASI DI DATI per la gestione dell informazione. Angelo Chianese Vincenzo Moscato Antonio Picariello Lucio Sansone

BASI DI DATI per la gestione dell informazione. Angelo Chianese Vincenzo Moscato Antonio Picariello Lucio Sansone BASI DI DATI per la gestione dell informazione Angelo Chianese Vincenzo Moscato Antonio Picariello Lucio Sansone Libro di Testo 22 Chianese, Moscato, Picariello e Sansone BASI DI DATI per la Gestione dell

Dettagli

Appunti sulla Macchina di Turing. Macchina di Turing

Appunti sulla Macchina di Turing. Macchina di Turing Macchina di Turing Una macchina di Turing è costituita dai seguenti elementi (vedi fig. 1): a) una unità di memoria, detta memoria esterna, consistente in un nastro illimitato in entrambi i sensi e suddiviso

Dettagli

Le fattispecie di riuso

Le fattispecie di riuso Le fattispecie di riuso Indice 1. PREMESSA...3 2. RIUSO IN CESSIONE SEMPLICE...4 3. RIUSO CON GESTIONE A CARICO DEL CEDENTE...5 4. RIUSO IN FACILITY MANAGEMENT...6 5. RIUSO IN ASP...7 1. Premessa Poiché

Dettagli

Sommario. Definizione di informatica. Definizione di un calcolatore come esecutore. Gli algoritmi.

Sommario. Definizione di informatica. Definizione di un calcolatore come esecutore. Gli algoritmi. Algoritmi 1 Sommario Definizione di informatica. Definizione di un calcolatore come esecutore. Gli algoritmi. 2 Informatica Nome Informatica=informazione+automatica. Definizione Scienza che si occupa dell

Dettagli

Capitolo 2. Operazione di limite

Capitolo 2. Operazione di limite Capitolo 2 Operazione di ite In questo capitolo vogliamo occuparci dell operazione di ite, strumento indispensabile per scoprire molte proprietà delle funzioni. D ora in avanti riguarderemo i domini A

Dettagli

Introduzione Ai Data Bases. Prof. Francesco Accarino IIS Altiero Spinelli Via Leopardi 132 Sesto San giovanni

Introduzione Ai Data Bases. Prof. Francesco Accarino IIS Altiero Spinelli Via Leopardi 132 Sesto San giovanni Introduzione Ai Data Bases Prof. Francesco Accarino IIS Altiero Spinelli Via Leopardi 132 Sesto San giovanni I Limiti Degli Archivi E Il Loro Superamento Le tecniche di gestione delle basi di dati nascono

Dettagli

Capitolo 5. Cercare informazioni sul Web

Capitolo 5. Cercare informazioni sul Web Capitolo 5 Cercare informazioni sul Web Cercare nel posto giusto Posti logici e noti per reperire informazioni sui nostri contributi pensionistici, chiediamo all INPS Biblioteche on-line La maggior parte

Dettagli

Modulo 1: Motori di ricerca

Modulo 1: Motori di ricerca Contenuti Architettura di Internet Principi di interconnessione e trasmissione World Wide Web Posta elettronica Motori di ricerca Antivirus Personal firewall Tecnologie delle reti di calcolatori Servizi

Dettagli

Project Cycle Management La programmazione della fase di progettazione esecutiva. La condivisione dell idea progettuale.

Project Cycle Management La programmazione della fase di progettazione esecutiva. La condivisione dell idea progettuale. Project Cycle Management La programmazione della fase di progettazione esecutiva. La condivisione dell idea progettuale. Il presente materiale didattico costituisce parte integrante del percorso formativo

Dettagli

RICERCA DELL INFORMAZIONE

RICERCA DELL INFORMAZIONE RICERCA DELL INFORMAZIONE DOCUMENTO documento (risorsa informativa) = supporto + contenuto analogico o digitale locale o remoto (accessibile in rete) testuale, grafico, multimediale DOCUMENTO risorsa continuativa

Dettagli

ALGEBRA DELLE PROPOSIZIONI

ALGEBRA DELLE PROPOSIZIONI Università di Salerno Fondamenti di Informatica Corso di Laurea Ingegneria Corso B Docente: Ing. Giovanni Secondulfo Anno Accademico 2010-2011 ALGEBRA DELLE PROPOSIZIONI Fondamenti di Informatica Algebra

Dettagli

Analisi sensitività. Strumenti per il supporto alle decisioni nel processo di Valutazione d azienda

Analisi sensitività. Strumenti per il supporto alle decisioni nel processo di Valutazione d azienda Analisi sensitività. Strumenti per il supporto alle decisioni nel processo di Valutazione d azienda Premessa Con l analisi di sensitività il perito valutatore elabora un range di valori invece di un dato

Dettagli

Archivi e database. Prof. Michele Batocchi A.S. 2013/2014

Archivi e database. Prof. Michele Batocchi A.S. 2013/2014 Archivi e database Prof. Michele Batocchi A.S. 2013/2014 Introduzione L esigenza di archiviare (conservare documenti, immagini, ricordi, ecc.) è un attività senza tempo che è insita nell animo umano Primi

Dettagli

LA REVISIONE LEGALE DEI CONTI La comprensione

LA REVISIONE LEGALE DEI CONTI La comprensione LA REVISIONE LEGALE DEI CONTI La comprensione dell impresa e del suo contesto e la valutazione dei rischi di errori significativi Ottobre 2013 Indice 1. La comprensione dell impresa e del suo contesto

Dettagli

GOOGLE VALUTAZIONE DI UN SITO INTERNET GOOGLE SCHOLAR

GOOGLE VALUTAZIONE DI UN SITO INTERNET GOOGLE SCHOLAR CORSO DI LAUREA IN SCIENZE DELL EDUCAZIONE E DEI PROCESSI FORMATIVI CORSO DI LAUREA MAGISTRALE IN PROGETTAZIONE E COORDINAMENTO DEI SERVIZI EDUCATIVI ALLA RICERCA DI LIBRI E ARTICOLI : OPAC, RISORSE ELETTRONICHE

Dettagli

Manuale Utente Albo Pretorio GA

Manuale Utente Albo Pretorio GA Manuale Utente Albo Pretorio GA IDENTIFICATIVO DOCUMENTO MU_ALBOPRETORIO-GA_1.4 Versione 1.4 Data edizione 04.04.2013 1 TABELLA DELLE VERSIONI Versione Data Paragrafo Descrizione delle modifiche apportate

Dettagli

Corrispondenze e funzioni

Corrispondenze e funzioni Corrispondenze e funzioni L attività fondamentale della mente umana consiste nello stabilire corrispondenze e relazioni tra oggetti; è anche per questo motivo che il concetto di corrispondenza è uno dei

Dettagli

Introduzione al data base

Introduzione al data base Introduzione al data base L Informatica è quella disciplina che si occupa del trattamento automatico dei dati con l ausilio del computer. Trattare i dati significa: raccoglierli, elaborarli e conservarli

Dettagli

Capitolo 13: L offerta dell impresa e il surplus del produttore

Capitolo 13: L offerta dell impresa e il surplus del produttore Capitolo 13: L offerta dell impresa e il surplus del produttore 13.1: Introduzione L analisi dei due capitoli precedenti ha fornito tutti i concetti necessari per affrontare l argomento di questo capitolo:

Dettagli

Progettaz. e sviluppo Data Base

Progettaz. e sviluppo Data Base Progettaz. e sviluppo Data Base! Progettazione Basi Dati: Metodologie e modelli!modello Entita -Relazione Progettazione Base Dati Introduzione alla Progettazione: Il ciclo di vita di un Sist. Informativo

Dettagli

Lezione 1. Introduzione e Modellazione Concettuale

Lezione 1. Introduzione e Modellazione Concettuale Lezione 1 Introduzione e Modellazione Concettuale 1 Tipi di Database ed Applicazioni Database Numerici e Testuali Database Multimediali Geographic Information Systems (GIS) Data Warehouses Real-time and

Dettagli

Il sapere tende oggi a caratterizzarsi non più come un insieme di contenuti ma come un insieme di metodi e di strategie per risolvere problemi.

Il sapere tende oggi a caratterizzarsi non più come un insieme di contenuti ma come un insieme di metodi e di strategie per risolvere problemi. E. Calabrese: Fondamenti di Informatica Problemi-1 Il sapere tende oggi a caratterizzarsi non più come un insieme di contenuti ma come un insieme di metodi e di strategie per risolvere problemi. L'informatica

Dettagli

Lezioni di Matematica 1 - I modulo

Lezioni di Matematica 1 - I modulo Lezioni di Matematica 1 - I modulo Luciano Battaia 16 ottobre 2008 Luciano Battaia - http://www.batmath.it Matematica 1 - I modulo. Lezione del 16/10/2008 1 / 13 L introduzione dei numeri reali si può

Dettagli

Lezione 8. La macchina universale

Lezione 8. La macchina universale Lezione 8 Algoritmi La macchina universale Un elaboratore o computer è una macchina digitale, elettronica, automatica capace di effettuare trasformazioni o elaborazioni su i dati digitale= l informazione

Dettagli

Banca dati Professioniste in rete per le P.A. Guida all uso per le Professioniste

Banca dati Professioniste in rete per le P.A. Guida all uso per le Professioniste Banca dati Professioniste in rete per le P.A. Guida all uso per le Professioniste versione 2.1 24/09/2015 aggiornamenti: 23-set-2015; 24-set-2015 Autore: Francesco Brunetta (http://www.francescobrunetta.it/)

Dettagli

Tecnologie dell informazione e della comunicazione per le aziende

Tecnologie dell informazione e della comunicazione per le aziende ! "#%&"'(&)*++,%#,"'"(&("##&-"! "!#!. /##&('"*#,0"1&,2)*',%3"2&11"1&,2& 4 "3'&"22&5 "3'&"22&6 "3'&"22&7 "0#8"22&9! "0#8"22&9 ",33& : '&&0+"##&)*''";,%,!,00"%&, Obiettivo del presente capitolo è presentare

Dettagli

Basi di Dati Multimediali. Fabio Strocco

Basi di Dati Multimediali. Fabio Strocco Basi di Dati Multimediali Fabio Strocco September 19, 2011 1 Contents 2 Introduzione Le basi di dati (o database) hanno applicazioni in molti campi, in cui è necessario memorizzare, analizzare e gestire

Dettagli

UTILIZZATORI A VALLE: COME RENDERE NOTI GLI USI AI FORNITORI

UTILIZZATORI A VALLE: COME RENDERE NOTI GLI USI AI FORNITORI UTILIZZATORI A VALLE: COME RENDERE NOTI GLI USI AI FORNITORI Un utilizzatore a valle di sostanze chimiche dovrebbe informare i propri fornitori riguardo al suo utilizzo delle sostanze (come tali o all

Dettagli

YOU ARE WHAT YOU CURATE COS E LA CONTENT CURATION E COME APPLICARLA

YOU ARE WHAT YOU CURATE COS E LA CONTENT CURATION E COME APPLICARLA YOU ARE WHAT YOU CURATE COS E LA CONTENT CURATION E COME APPLICARLA YOU ARE WHAT YOU CURATE INTRODUZIONE DEFINIZIONE: COS E LA CONTENT CURATION? PERCHE FARNE USO IL CONTENT CURATOR COME NON FARE CONTENT

Dettagli

PROGETTO REGIONALE MISURAZIONE E VALUTAZIONE DELLE BIBLIOTECHE VENETE

PROGETTO REGIONALE MISURAZIONE E VALUTAZIONE DELLE BIBLIOTECHE VENETE PROGETTO REGIONALE MISURAZIONE E VALUTAZIONE DELLE BIBLIOTECHE VENETE Analisi dinamica dei dati dei questionari per le biblioteche di pubblica lettura. GLI INDICATORI Gli indicatori sono particolari rapporti

Dettagli

TRAGUARDI PER LO SVILUPPO DELLE COMPETENZE AL TERMINE DELLA SCUOLA PRIMARIA

TRAGUARDI PER LO SVILUPPO DELLE COMPETENZE AL TERMINE DELLA SCUOLA PRIMARIA SCUOLA PRIMARIA DI CORTE FRANCA MATEMATICA CLASSE QUINTA TRAGUARDI PER LO SVILUPPO DELLE COMPETENZE AL TERMINE DELLA SCUOLA PRIMARIA L ALUNNO SVILUPPA UN ATTEGGIAMENTO POSITIVO RISPETTO ALLA MATEMATICA,

Dettagli

MANUALE MOODLE STUDENTI. Accesso al Materiale Didattico

MANUALE MOODLE STUDENTI. Accesso al Materiale Didattico MANUALE MOODLE STUDENTI Accesso al Materiale Didattico 1 INDICE 1. INTRODUZIONE ALLA PIATTAFORMA MOODLE... 3 1.1. Corso Moodle... 4 2. ACCESSO ALLA PIATTAFORMA... 7 2.1. Accesso diretto alla piattaforma...

Dettagli

GIOCHI MATEMATICI PER LA SCUOLA SECONDARIA DI I GRADO ANNO SCOLASTICO 2011-2012

GIOCHI MATEMATICI PER LA SCUOLA SECONDARIA DI I GRADO ANNO SCOLASTICO 2011-2012 GIOCHI MATEMATICI PER LA SCUOLA SECONDARIA DI I GRADO ANNO SCOLASTICO 2011-2012 L unità di Milano Città Studi del Centro matematita propone anche per l a.s. 2011-2012 una serie di problemi pensati per

Dettagli

. A primi passi con microsoft a.ccepss SommarIo: i S 1. aprire e chiudere microsoft access Start (o avvio) l i b tutti i pro- grammi

. A primi passi con microsoft a.ccepss SommarIo: i S 1. aprire e chiudere microsoft access Start (o avvio) l i b tutti i pro- grammi Capitolo Terzo Primi passi con Microsoft Access Sommario: 1. Aprire e chiudere Microsoft Access. - 2. Aprire un database esistente. - 3. La barra multifunzione di Microsoft Access 2007. - 4. Creare e salvare

Dettagli

risulta (x) = 1 se x < 0.

risulta (x) = 1 se x < 0. Questo file si pone come obiettivo quello di mostrarvi come lo studio di una funzione reale di una variabile reale, nella cui espressione compare un qualche valore assoluto, possa essere svolto senza necessariamente

Dettagli

UNIVERSITA DEGLI STUDI DI BRESCIA Facoltà di Ingegneria

UNIVERSITA DEGLI STUDI DI BRESCIA Facoltà di Ingegneria ESAME DI STATO DI ABILITAZIONE ALL'ESERCIZIO DELLA PROFESSIONE DI INGEGNERE PRIMA PROVA SCRITTA DEL 22 giugno 2011 SETTORE DELL INFORMAZIONE Tema n. 1 Il candidato sviluppi un analisi critica e discuta

Dettagli

Manuale Knowledge Base

Manuale Knowledge Base (Riservato a rivenditori e agenzie) Versione Luglio 2010 SOMMARIO Introduzione... 2 Accesso... 2 Menu Conoscenze... 3 Bacheca... 4 Voci di menu... 5 Ricerca... 5 Ricerca Semplice... 6 Ricerca avanzata...

Dettagli

La valutazione nella didattica per competenze

La valutazione nella didattica per competenze Nella scuola italiana il problema della valutazione delle competenze è particolarmente complesso, infatti la nostra scuola è tradizionalmente basata sulla trasmissione di saperi e saper fare ed ha affrontato

Dettagli

Mon Ami 3000 Varianti articolo Gestione di varianti articoli

Mon Ami 3000 Varianti articolo Gestione di varianti articoli Prerequisiti Mon Ami 3000 Varianti articolo Gestione di varianti articoli L opzione Varianti articolo è disponibile per le versioni Azienda Light e Azienda Pro e include tre funzionalità distinte: 1. Gestione

Dettagli

I MODULI Q.A.T. PANORAMICA. La soluzione modulare di gestione del Sistema Qualità Aziendale

I MODULI Q.A.T. PANORAMICA. La soluzione modulare di gestione del Sistema Qualità Aziendale La soluzione modulare di gestione del Sistema Qualità Aziendale I MODULI Q.A.T. - Gestione clienti / fornitori - Gestione strumenti di misura - Gestione verifiche ispettive - Gestione documentazione del

Dettagli

Comune di San Martino Buon Albergo

Comune di San Martino Buon Albergo Comune di San Martino Buon Albergo Provincia di Verona - C.A.P. 37036 SISTEMA DI VALUTAZIONE DELLE POSIZIONI DIRIGENZIALI Approvato dalla Giunta Comunale il 31.07.2012 INDICE PREMESSA A) LA VALUTAZIONE

Dettagli

La gestione del documento

La gestione del documento Operatore giuridico d impresa Informatica Giuridica A.A 2002/2003 II Semestre La gestione del documento prof. Monica Palmirani Il documento A differenza del dato il documento è solitamente un oggetto non

Dettagli

MANUALE DI UTILIZZO: INTRANET PROVINCIA DI POTENZA

MANUALE DI UTILIZZO: INTRANET PROVINCIA DI POTENZA MANUALE DI UTILIZZO: INTRANET PROVINCIA DI POTENZA Fornitore: Publisys Prodotto: Intranet Provincia di Potenza http://www.provincia.potenza.it/intranet Indice 1. Introduzione... 3 2. I servizi dell Intranet...

Dettagli

Capitolo II. La forma del valore. 7. La duplice forma in cui si presenta la merce: naturale e di valore.

Capitolo II. La forma del valore. 7. La duplice forma in cui si presenta la merce: naturale e di valore. Capitolo II La forma del valore 7. La duplice forma in cui si presenta la merce: naturale e di valore. I beni nascono come valori d uso: nel loro divenire merci acquisiscono anche un valore (di scambio).

Dettagli

Alla ricerca dell algoritmo. Scoprire e formalizzare algoritmi.

Alla ricerca dell algoritmo. Scoprire e formalizzare algoritmi. PROGETTO SeT Il ciclo dell informazione Alla ricerca dell algoritmo. Scoprire e formalizzare algoritmi. Scuola media Istituto comprensivo di Fagagna (Udine) Insegnanti referenti: Guerra Annalja, Gianquinto

Dettagli

Corso di Informatica Generale (C. L. Economia e Commercio) Ing. Valerio Lacagnina Rappresentazione in virgola mobile

Corso di Informatica Generale (C. L. Economia e Commercio) Ing. Valerio Lacagnina Rappresentazione in virgola mobile Problemi connessi all utilizzo di un numero di bit limitato Abbiamo visto quali sono i vantaggi dell utilizzo della rappresentazione in complemento alla base: corrispondenza biunivoca fra rappresentazione

Dettagli

Light CRM. Documento Tecnico. Descrizione delle funzionalità del servizio

Light CRM. Documento Tecnico. Descrizione delle funzionalità del servizio Documento Tecnico Light CRM Descrizione delle funzionalità del servizio Prosa S.r.l. - www.prosa.com Versione documento: 1, del 11 Luglio 2006. Redatto da: Michela Michielan, michielan@prosa.com Revisionato

Dettagli

03. Il Modello Gestionale per Processi

03. Il Modello Gestionale per Processi 03. Il Modello Gestionale per Processi Gli aspetti strutturali (vale a dire l organigramma e la descrizione delle funzioni, ruoli e responsabilità) da soli non bastano per gestire la performance; l organigramma

Dettagli

Introduzione. Classificazione di Flynn... 2 Macchine a pipeline... 3 Macchine vettoriali e Array Processor... 4 Macchine MIMD... 6

Introduzione. Classificazione di Flynn... 2 Macchine a pipeline... 3 Macchine vettoriali e Array Processor... 4 Macchine MIMD... 6 Appunti di Calcolatori Elettronici Esecuzione di istruzioni in parallelo Introduzione... 1 Classificazione di Flynn... 2 Macchine a pipeline... 3 Macchine vettoriali e Array Processor... 4 Macchine MIMD...

Dettagli

1. Scopo dell esperienza.

1. Scopo dell esperienza. 1. Scopo dell esperienza. Lo scopo di questa esperienza è ricavare la misura di tre resistenze il 4 cui ordine di grandezza varia tra i 10 e 10 Ohm utilizzando il metodo olt- Amperometrico. Tale misura

Dettagli

Analisi dei requisiti e casi d uso

Analisi dei requisiti e casi d uso Analisi dei requisiti e casi d uso Indice 1 Introduzione 2 1.1 Terminologia........................... 2 2 Modello del sistema 4 2.1 Requisiti hardware........................ 4 2.2 Requisiti software.........................

Dettagli

Dispensa di Informatica I.1

Dispensa di Informatica I.1 IL COMPUTER: CONCETTI GENERALI Il Computer (o elaboratore) è un insieme di dispositivi di diversa natura in grado di acquisire dall'esterno dati e algoritmi e produrre in uscita i risultati dell'elaborazione.

Dettagli

ISTITUTO TECNICO ECONOMICO MOSSOTTI

ISTITUTO TECNICO ECONOMICO MOSSOTTI CLASSE III INDIRIZZO S.I.A. UdA n. 1 Titolo: conoscenze di base Conoscenza delle caratteristiche dell informatica e degli strumenti utilizzati Informatica e sistemi di elaborazione Conoscenza delle caratteristiche

Dettagli

f(x) = 1 x. Il dominio di questa funzione è il sottoinsieme proprio di R dato da

f(x) = 1 x. Il dominio di questa funzione è il sottoinsieme proprio di R dato da Data una funzione reale f di variabile reale x, definita su un sottoinsieme proprio D f di R (con questo voglio dire che il dominio di f è un sottoinsieme di R che non coincide con tutto R), ci si chiede

Dettagli

APPUNTI DI MATEMATICA LE FRAZIONI ALGEBRICHE ALESSANDRO BOCCONI

APPUNTI DI MATEMATICA LE FRAZIONI ALGEBRICHE ALESSANDRO BOCCONI APPUNTI DI MATEMATICA LE FRAZIONI ALGEBRICHE ALESSANDRO BOCCONI Indice 1 Le frazioni algebriche 1.1 Il minimo comune multiplo e il Massimo Comun Divisore fra polinomi........ 1. Le frazioni algebriche....................................

Dettagli

EXPLOit Content Management Data Base per documenti SGML/XML

EXPLOit Content Management Data Base per documenti SGML/XML EXPLOit Content Management Data Base per documenti SGML/XML Introduzione L applicazione EXPLOit gestisce i contenuti dei documenti strutturati in SGML o XML, utilizzando il prodotto Adobe FrameMaker per

Dettagli

Hub-PA Versione 1.0.6 Manuale utente

Hub-PA Versione 1.0.6 Manuale utente Hub-PA Versione 1.0.6 Manuale utente (Giugno 2014) Hub-PA è la porta d ingresso al servizio di fatturazione elettronica verso la Pubblica Amministrazione (PA) a disposizione di ogni fornitore. Questo manuale

Dettagli

Novità di Access 2010

Novità di Access 2010 2 Novità di Access 2010 In questo capitolo: Gestire le impostazioni e i file di Access nella visualizzazione Backstage Personalizzare l interfaccia utente di Access 2010 Creare database utilizzando modelli

Dettagli

HR - Sicurezza. Parma 17/12/2015

HR - Sicurezza. Parma 17/12/2015 HR - Sicurezza Parma 17/12/2015 FG Software Produce software gestionale da più di 10 anni Opera nel mondo del software qualità da 15 anni Sviluppa i propri software con un motore completamente proprietario

Dettagli

IDENTIFICAZIONE DEI BISOGNI DEL CLIENTE

IDENTIFICAZIONE DEI BISOGNI DEL CLIENTE IDENTIFICAZIONE DEI BISOGNI DEL CLIENTE 51 Dichiarazione d intenti (mission statement) La dichiarazione d intenti ha il compito di stabilire degli obiettivi dal punto di vista del mercato, e in parte dal

Dettagli

L ergonomia dei sistemi informativi

L ergonomia dei sistemi informativi Strumenti non convenzionali per l evoluzione d Impresa: L ergonomia dei sistemi informativi di Pier Alberto Guidotti 1 L ergonomia dei sistemi informativi CHI SONO Pier Alberto Guidotti Fondatore e direttore

Dettagli

Indice generale. OOA Analisi Orientata agli Oggetti. Introduzione. Analisi

Indice generale. OOA Analisi Orientata agli Oggetti. Introduzione. Analisi Indice generale OOA Analisi Orientata agli Oggetti Introduzione Analisi Metodi d' analisi Analisi funzionale Analisi del flusso dei dati Analisi delle informazioni Analisi Orientata agli Oggetti (OOA)

Dettagli

GUIDA AL CALCOLO DEI COSTI DELLE ATTIVITA DI RICERCA DOCUMENTALE

GUIDA AL CALCOLO DEI COSTI DELLE ATTIVITA DI RICERCA DOCUMENTALE GUIDA AL CALCOLO DEI COSTI DELLE ATTIVITA DI RICERCA DOCUMENTALE L applicazione elaborata da Nordest Informatica e disponibile all interno del sito è finalizzata a fornirvi un ipotesi dell impatto economico

Dettagli

Progettazione di un Database

Progettazione di un Database Progettazione di un Database Per comprendere il processo di progettazione di un Database deve essere chiaro il modo con cui vengono organizzati e quindi memorizzati i dati in un sistema di gestione di

Dettagli

CURRICULUM SCUOLA PRIMARIA MATEMATICA

CURRICULUM SCUOLA PRIMARIA MATEMATICA Ministero dell istruzione, dell università e della ricerca Istituto Comprensivo Giulio Bevilacqua Via Cardinale Giulio Bevilacqua n 8 25046 Cazzago San Martino (Bs) telefono 030 / 72.50.53 - fax 030 /

Dettagli

1- Corso di IT Strategy

1- Corso di IT Strategy Descrizione dei Corsi del Master Universitario di 1 livello in IT Governance & Compliance INPDAP Certificated III Edizione A. A. 2011/12 1- Corso di IT Strategy Gli analisti di settore riportano spesso

Dettagli

Accogliere e trattenere i volontari in associazione. Daniela Caretto Lecce, 27-28 aprile

Accogliere e trattenere i volontari in associazione. Daniela Caretto Lecce, 27-28 aprile Accogliere e trattenere i volontari in associazione Daniela Caretto Lecce, 27-28 aprile Accoglienza Ogni volontario dovrebbe fin dal primo incontro con l associazione, potersi sentire accolto e a proprio

Dettagli

GUIDA ALLA RILEVANZA

GUIDA ALLA RILEVANZA GUIDA ALLA RILEVANZA Posizionamento per Rilevanza Suggerimenti per una migliore visibilità su ebay www.egolden.it Vers. 1.1 Questa guida puo essere ridistribuita con l obbligo di non modificarne contenuto

Dettagli

Software per Helpdesk

Software per Helpdesk Software per Helpdesk Padova - maggio 2010 Antonio Dalvit - www.antoniodalvit.com Cosa è un helpdesk? Un help desk è un servizio che fornisce informazioni e assistenza ad utenti che hanno problemi nella

Dettagli

Stefania Marrara - Esercitazioni di Tecnologie dei Sistemi Informativi. Integrazione di dati di sorgenti diverse

Stefania Marrara - Esercitazioni di Tecnologie dei Sistemi Informativi. Integrazione di dati di sorgenti diverse Politecnico di Milano View integration 1 Integrazione di dati di sorgenti diverse Al giorno d oggi d la mole di informazioni che viene gestita in molti contesti applicativi è enorme. In alcuni casi le

Dettagli

LE SUCCESSIONI 1. COS E UNA SUCCESSIONE

LE SUCCESSIONI 1. COS E UNA SUCCESSIONE LE SUCCESSIONI 1. COS E UNA SUCCESSIONE La sequenza costituisce un esempio di SUCCESSIONE. Ecco un altro esempio di successione: Una successione è dunque una sequenza infinita di numeri reali (ma potrebbe

Dettagli

Il calendario di Windows Vista

Il calendario di Windows Vista Il calendario di Windows Vista Una delle novità introdotte in Windows Vista è il Calendario di Windows, un programma utilissimo per la gestione degli appuntamenti, delle ricorrenze e delle attività lavorative

Dettagli

Strutturazione logica dei dati: i file

Strutturazione logica dei dati: i file Strutturazione logica dei dati: i file Informazioni più complesse possono essere composte a partire da informazioni elementari Esempio di una banca: supponiamo di voler mantenere all'interno di un computer

Dettagli

Riconoscibilità dei siti pubblici: i domini della Pa e le regole di.gov.it

Riconoscibilità dei siti pubblici: i domini della Pa e le regole di.gov.it Riconoscibilità dei siti pubblici: i domini della Pa e le regole di.gov.it Gabriella Calderisi - DigitPA 2 dicembre 2010 Dicembre 2010 Dominio.gov.it Cos è un dominio? Se Internet è una grande città, i

Dettagli

Volume GESTFLORA. Gestione aziende agricole e floricole. Guidaall uso del software

Volume GESTFLORA. Gestione aziende agricole e floricole. Guidaall uso del software Volume GESTFLORA Gestione aziende agricole e floricole Guidaall uso del software GESTIONE AZIENDE AGRICOLE E FLORICOLE Guida all uso del software GestFlora Ver. 2.00 Inter-Ware Srl Viadegli Innocenti,

Dettagli

Cercare documenti Web

Cercare documenti Web Pagine web (struttura html) Cercare documenti Web Motori di Ricerca I MOTORI DI RICERCA Sulla rete Web vi sono strumenti specifici chiamati motori di ricerca (research engines) per la ricerca di siti e

Dettagli

Lezione 8. Motori di Ricerca

Lezione 8. Motori di Ricerca Lezione 8 Motori di Ricerca Basi di dati Un campo prevalente dell applicazione informatica è quello costituito dall archiviazione e dalla gestione dei dati (basi di dati). Sistema Informativo. Un sistema

Dettagli

I database relazionali sono il tipo di database attualmente piu diffuso. I motivi di questo successo sono fondamentalmente due:

I database relazionali sono il tipo di database attualmente piu diffuso. I motivi di questo successo sono fondamentalmente due: Il modello relazionale I database relazionali sono il tipo di database attualmente piu diffuso. I motivi di questo successo sono fondamentalmente due: 1. forniscono sistemi semplici ed efficienti per rappresentare

Dettagli

DEPLOY YOUR BUSINESS

DEPLOY YOUR BUSINESS DEPLOY YOUR BUSINESS COS É ARROCCO? E uno strumento online per lo sviluppo del Piano Economico-Finanziario del Business Plan. Arrocco è uno strumento online appositamente progettato per lo sviluppo di

Dettagli

Il Problem-Based Learning dalla pratica alla teoria

Il Problem-Based Learning dalla pratica alla teoria Il Problem-Based Learning dalla pratica alla teoria Il Problem-based learning (apprendimento basato su un problema) è un metodo di insegnamento in cui un problema costituisce il punto di inizio del processo

Dettagli

Ottimizzazione delle interrogazioni (parte I)

Ottimizzazione delle interrogazioni (parte I) Ottimizzazione delle interrogazioni I Basi di Dati / Complementi di Basi di Dati 1 Ottimizzazione delle interrogazioni (parte I) Angelo Montanari Dipartimento di Matematica e Informatica Università di

Dettagli

Progettaz. e sviluppo Data Base

Progettaz. e sviluppo Data Base Progettaz. e sviluppo Data Base! Introduzione ai Database! Tipologie di DB (gerarchici, reticolari, relazionali, oodb) Introduzione ai database Cos è un Database Cos e un Data Base Management System (DBMS)

Dettagli

MANUALE DELLA QUALITÀ Pag. 1 di 6

MANUALE DELLA QUALITÀ Pag. 1 di 6 MANUALE DELLA QUALITÀ Pag. 1 di 6 INDICE GESTIONE DELLE RISORSE Messa a disposizione delle risorse Competenza, consapevolezza, addestramento Infrastrutture Ambiente di lavoro MANUALE DELLA QUALITÀ Pag.

Dettagli