1 Introduzione Information Retrieval: promesse e problemi Presentazione del lavoro Sommario... 5

Save this PDF as:
 WORD  PNG  TXT  JPG

Dimensione: px
Iniziare la visualizzazioe della pagina:

Download "1 Introduzione 1 1.1 Information Retrieval: promesse e problemi... 1 1.2 Presentazione del lavoro... 3 1.3 Sommario... 5"

Transcript

1 Indice 1 Introduzione Information Retrieval: promesse e problemi Presentazione del lavoro Sommario Il recupero dell informazione Analisi dei diversi aspetti dell Information Retrieval Analisi della ricerca nel Web Tecniche di ricerca Il processo di ricerca Considerazione sulla semantica nell IR Caratterizzazione formale dei modelli di IR Modello booleano Il modello vettoriale Ricerca tramite matching di termini Ricerca Text Matching classica Latent Semantic Indexing Notazione Cos è la SVD Approssimazione di rango k Matrici di cambiamento di base Calcolo della SVD Latent Semantic Indexing Ricerca LSI Generazione ed uso della conoscenza terminologica Introduzione Analisi automatica globale i

2 ii INDICE 5.3 La struttura di un thesaurus Similarity Thesaurus Obiettivi della ricerca documenti Espansione di query mediante thesaurus La creazione del thesaurus e il concetto di conoscenza terminologica Criteri per migliorare la qualità della ricerca Updating 45 7 Implementazione 47 8 Analisi prestazionale Introduzione Metriche di valutazione Precision e recall Singoli valori riassuntivi Tecniche di ricerca a confronto Conclusioni e sviluppi futuri 57 A Glossario 59 Bibliografia 61 Elenco delle Tabelle 62 Elenco delle Figure 64

3 Capitolo 1 Introduzione Il testo è la principale forma di comunicazione della conoscenza. Iniziando dai geroglifici, le prime superfici scritte (pietre, legno, pelli di animali, papiri, carta di riso) e poi in seguito la carta, il testo è stato creato ovunque, in molte forme e linguaggi. Utilizziamo il termine documento per denotare una singola unità informativa, tipicamente testo in forma digitale, ma può anche includere altri media. In pratica vi è una non netta definizione di documento. Può essere una completa unità logica, come un articolo di ricerca, un libro o un manuale. Può anche essere parte di un testo più grande, come un paragrafo o una sequenza di paragrafi (anche detti passaggi del testo), la descrizione di un vocabolo in un dizionario, la descrizione di una parte di automobile, etc. Inoltre, rispetto alla sua rappresentazione fisica, un documento può essere ogni unità fisica, per esempio un file, una , una pagina Web, etc. 1.1 Information Retrieval: promesse e problemi Lo sviluppo dell informatica è stato, ed è tutt ora, un valido aiuto per la risoluzione di piccole e grandi problematiche. Le recenti tecnologie sviluppate negli ultimi anni hanno confermato il valente supporto dell informatizzazione, determinando un sempre più crescente utilizzo dei sistemi software. Questo ha comportato forti stravolgimenti in diversi campi, in particolare nel campo lavorativo, portando cambiamenti sia di tipo tecnico che di tipo gestionale. Esaminando ad esempio le innovazioni a cui sono andate incontro le aziende di piccole o medie dimensioni, un primo cambiamento che risulta evidente è la gestione della documentazione. Mentre prima i documenti erano disponibili nel solo formato cartaceo, oggi vi sono numerosi formati elettronici (tra cui txt, html, doc, pdf), in grado di consentire una trattazione delle informazioni completamente automatizzata. Ciò ha permesso una serie di operazioni e van- 1

4 2 Cap. 1: INTRODUZIONE taggi prima impensabili, come una facile accessibilità di documenti condivisi, la possibilità di effettuare modifiche e, soprattutto, grazie a Internet, il poter accedere agli stessi da qualsiasi computer collegato alla rete. Inoltre, grazie a sistemi per il recupero dei dati (Information Retrieval Systems), l accesso ai documenti, o meglio alle informazioni contenute nei documenti, è divenuto sempre più facile e veloce. Avendo il supporto informatico consentito un aumento esponenziale della quantità di documenti producibile e gestibile all interno di un azienda o una istituzione, sono sorte nuove problematiche. L efficienza dei sistemi per il recupero delle informazioni in modo particolare ha risentito negativamente della consistente crescita dei documenti, registrando l incapacità di ritrovare informazioni utili in un vasto insieme di documenti. Assume, in questo problema, importanza fondamentale la nozione di rilevanza per un documento: in passato bastava che un dato documento contenesse le parole chiave della interrogazione (query), affinchè fosse rilevante. Ora, con la mole di documenti sempre crescente, il semplice incorporamento di un termine (di una interrogazione) non garantisce la rilevanza. Ad esempio, una query con le seguenti parole chiave: Marilyn Monroe effettuata su un set di documenti che include la presente tesi, restituirebbe questa pagina, senza aver fornito al fruitore informazioni su Marylin Monroe. Quindi, se da un lato l informatizzazione ha migliorato la qualità (e la quantità) del lavoro, dall altro il conseguente incremento del numero dei documenti pone nuovi problemi: mentre prima era sufficiente ritrovare il documento rilevante per un dato compito, adesso la mole di documenti rilevanti è tale da necessitare un ordinamento degli stessi. Un altro aspetto da tenere in considerazione è l accessibilità dei sistemi di Information Retrieval. Mentre sino a poco tempo fa, l accesso a sistemi di Information Retrieval era riservato esclusivamente a pochi tecnici in grado di saper formulare in modo ottimale una query, oggi l accesso a tali sistemi è possibile anche ad utenti inesperti, per cui le interrogazioni rivolte spesso presentano ambiguità o risultano poco esatte. Questo tipo di interrogazioni hanno come conseguenza la scarsa relazione tra ciò che un utente si aspetta di ritrovare e la risposta ottenuta. A questo si aggiunge l intrinseca ambiguità di alcuni termini se considerati isolatamente (polisemia). Ad esempio la parola java può riferirsi indifferentemente a: un isola un linguaggio di programmazione un tipo di caffè Nasce quindi l esigenza di sviluppare sistemi per il recupero di informazione sempre più sofisticati, capaci di assistere l utente nella formulazione di una interrogazione e in grado di valutarne la semantica concettuale, ed il livello di attinenza dei documenti per tale ricerca.

5 1.2. PRESENTAZIONE DEL LAVORO Presentazione del lavoro In tale contesto si inserisce questo lavoro di tesi, che si prefigge come scopo quello di sviluppare un sistema per il recupero d informazioni portabile, con costi di realizzazione contenuti, utilizzabile attraverso Internet e capace di interpretare una interrogazione, di risolvere i problemi relativi alla ricerca di documenti rilevanti e in grado di eseguire una loro classificazione. Per raggiungere codesti obiettivi, si è scelto di utilizzare un thesaurus per poter acquisire una conoscenza terminologica dell interrogazione formulata dall utente. Un thesaurus è un insieme di termini correlati tra loro attraverso diverse relazioni, tra cui la similarità tra termini, i contrari, le parole spesso utilizzate insieme, etc. L utilizzo di un thesaurus per questo progetto è stato pensato in modo da interporsi tra la richiesta fatta al sistema e la sua risposta, al fine di rendere minima ogni possibile divergenza tra essi. Il tipo di relazione tra i termini che a noi più interessa, è quella che riesce a cogliere meglio le diversità dei concetti espressi dalle parole. Pertanto abbiamo deciso di sviluppare un thesaurus in cui la relazione tra i termini sia quella di similarità. Definendo quanto il significato di una parola sia vicina o distante dal significato di un altra, è possibile acquisire una conoscenza della parola in esame, senza entrare nel merito della sua semantica. Valutare quindi quanto una parola sia distante concettualmente da un altra, equivale a fornire una maggior comprensione del termine e diventa fondamentale ai fini di un buon comportamento del sistema. E importante che questa valutazione non venga fatta solo attraverso il confronto dei significati delle singole parole, ma venga realizzata anche in base alla collezione di documenti in cui si intende svolgere le ricerche. Fondamentale infatti, è che i termini siano relazionati al contenuto dei documenti e ancor di più, che le distanze tra i termini siano studiate in base alla documentazione presente. Per esempio, la parola albero in un contesto informatico ha un significato diverso da quello relativo alla vita quotidiana. Una prima scelta importante è stata quella di decidere in che modo costruire il thesaurus. Una possibilità era di crearlo manualmente, ma questa operazione avrebbe comportato lunghi tempi di realizzo, la necessità di esperti del settore cui la documentazione faceva riferimento e, soprattutto, grossi costi uniti a poca modularità (cambiare il set di documenti implicherebbe il cambio degli esperti). L alternativa era la creazione automatica del thesaurus e questa ci ha portato all approfondimento di alcune tecniche utilizzate nell Information Retrieval e in particolare dell algoritmo LSI (Latent Semantic Indexing). Questo algoritmo calcola la similarità tra documenti, a partire dall insieme dei documenti stessi e dall insieme delle parole contenute nel loro testo. Questo tecnica è capace di interpretare la semantica dei documenti proiettandoli in uno spazio vettoriale di dimensione ridotta in cui, informalmente, possiamo dire di aver filtrato il rumore costituito dai termini non significativi dal punto di vista informativo ma necessari da quello linguistico. Per esempio articoli, avverbi, il verbo essere in tutte le sue coniugazioni, congiunzioni, etc. I risultati prodotti da LSI sono ottimi e la sua applicazione in un Information Retrieval system migliora di molto le prestazioni, ritrovando informazioni

6 4 Cap. 1: INTRODUZIONE con un alto grado di rilevanza. Questo approccio però, ha dei tempi di computazione molto alti, pertanto la sua diretta applicazione per una ricerca diventa improponibile. L analisi di questo processo, ci ha portato a pensare ad LSI come metodo per elaborare le distanze tra termini. Come spiegato, LSI non calcola la similitudine tra i termini, ma la similitudine tra documenti. E però possibile modificare una fase della processo di calcolo al fine di ricavare, per tutti i termini più rilevanti di una collezione, il loro grado di similarità. Quindi con un processo analogo al calcolo della similarità tra documenti determiniamo la similarità tra i termini. In base a queste considerazioni, abbiamo ritenuto di utilizzare questa tecnica per generare in maniera automatica il nostro thesaurus. In questo modo riusciamo a generare un thesaurus strettamente correlato con i documenti, o, più precisamente, con la semantica dei documenti su cui vogliamo effettuare le ricerche. Inoltre, come già sottolineato in precedenza, la creazione automatica permette maggiore elasticità al progetto, minori costi e tempi di sviluppo. Tra i diversi vantaggi, questo approccio ci consente di superare le problematiche analizzate in precedenza, come il caso di interrogazioni ambigue e inesatte. Un utente con difficoltà nel trovare termini appropriati potrà trovare ugualmente documenti attinenti, perché sarà compito del thesaurus ricercare i termini più adatti a partire da quelli introdotti. La comprensione semantica, avviene cercando questi termini all interno del thesaurus ed esaminando tutte le relazioni che questi hanno con i termini vicini, presenti nel thesaurus. La richiesta viene così analizzata e in base alle relazioni trovate tra i termini, potrà essere eventualmente espansa, introducendo tutte le parole fortemente correlate ai termini stessi. Dopo questa analisi si determina l insieme di documenti rilevanti, i quali contengono sia le parole richieste in principio che le parole trovate in un secondo momento nel thesaurus. Un altro aspetto importante affrontato nella nostra tesi è la classificazione dei documenti. Per grandi quantitativi di dati, l ordine con cui vengono proposti all utente i documenti ritrovati assume un aspetto cruciale. L utente deve scegliere se un documento ritrovato è pertinente alla sua ricerca e la sua analisi inizierà verosimilmente dal primo della lista. Se non è presente un ordine, l utente è costretto a scandire tutto l insieme avuto in risposta dal sistema. Diventa importante quindi che i risultati ottenuti dal sistema siano ordinati in base alla loro rilevanza. Se è presente questo ordinamento l utente sarà facilitato nella sua ricerca, avendo molte probabilità di ritrovare l informazione necessaria ai primi posti. Il nostro progetto sviluppa una modalità di ordinamento di base a cui è possibile affiancare altre tre tipi di ordinamento definiti di supporto. L ordinamento di base calcola il peso di un documento in corrispondenza al peso delle parole contenute al suo interno. La tecnica utilizzata è quella di assegnare un peso diverso sia alle parole che descrivono la richiesta di informazione, sia alle parole trovate nel thesaurus. Al peso si fa corrispondere l importanza: più un documento ha un peso elevato, maggiore è la sua importanza. In questo modo è possibile stabilire un ordinamento tra i documenti ritrovati. Gli ordinamenti di supporto sono stati pensati con l intento di valutare l attinenza di un documento anche in base alla disposizione e la quantità delle parole trovate nel testo di un documento. Queste stime, adottate anche da alcuni motori di ricerca, quali ad esempio Google, riescono a discriminare in modo considerevole

7 1.3. SOMMARIO 5 l importanza dei documenti che si sta analizzando. La prima misura è il calcolo del numero di occorrenze di una parola all interno del documento. Dal numero di occorrenze possiamo capire se la parola è casuale in quel documento o se è pertinente alla ricerca. Nel caso che un utente stia cercando più parole all interno di un documento, un altra misura utilizzata è il calcolo della distanza tra le parole all interno dello stesso documento. La motivazione che ci ha spinto al calcolo di questa misura è l osservazione che la vicinanza delle parole può farci capire meglio quanto nel documento queste siano correlate. Nel contesto di una ricerca con più di due termini, risulta utile determinare anche la distanza tra le coppie di parole, perché spesso in questo tipo interrogazioni, alcuni termini hanno un ruolo discriminante e non associativo. Queste tre tecniche, attraverso la misura delle metriche definite, tentano di sintetizzare alcuni comportamenti tipici di un utente, interpretando il tipo di ricerca che l utente potrebbe eseguire. Il sistema si interfaccia con un web-server consentendo una facile consultazione attraverso Internet. Gli utenti che vi accedono possono richiedere i diversi tipi di documenti specificando un insieme di parole che descrivono l informazione di cui necessitano. La ricerca quindi si basa interamente sul contenuto dei documenti e non sulle loro caratteristiche. L approccio considerato, inquadra in pieno le tematiche che vogliamo affrontare in questo contesto, perché mette in luce gli aspetti relativi all attinenza tra la richiesta e la risposta. A fronte di quanto discusso, si è pensato di sviluppare un interfaccia in grado di tenere conto di tutti i diversi tipi di ricerche che è possibile effettuare. Dall esame dei diversi atteggiamenti, si intuisce che l utilizzo del thesaurus in una ricerca che non lo richieda, potrebbe disorientare la ricerca stessa, causando una forte irrilevanza. E quindi utile far scegliere all utente se utilizzare o meno la tecnica del thesaurus. E inoltre conveniente far scegliere all utente se e quali metriche utilizzare per la sua richiesta, senza la necessità di dover prevedere a priori quale potrebbe essere l atteggiamento dell utente. L interfaccia da noi sviluppata vuole essere semplice e di facile utilizzo. Ci proponiamo di mettere il fruitore del servizio nelle condizioni di decidere quale euristica attivare, assegnando un valore a ciascun delle euristiche (eventualmente nullo). A seconda dei valori scelti, sarà attribuita una diversa importanza a ciascuna euristica. Questi valori infatti, saranno utilizzati per operare un bilanciamento di questi tre criteri, per restituire in fine un ordinamento unico. La scelta di utilizzare una interfaccia il più possibile trasparente all utente, permette un duplice utilizzo. Se da una parte facilita la comprensione della interrogazione, facendo scegliere all utente il tipo di ricerca che si vuole effettuare, dall altra permette di sperimentare in quale condizioni sia valida un tipo di ricerca e di individuare quale metodo restituisce le risposte più rilevanti. Per di più, attraverso una fase di analisi del comportamento del sistema per i diversi valori assegnati alle euristiche, è possibile determinare quali sono i valori per cui si ottengono i migliori risultati. 1.3 Sommario Il Capitolo 2 è incentrato sulle tematiche inerenti all Information Retrieval, spiegando la necessità di determinare la rilevanza dell informazione e analizzando alcune delle tecniche utilizzate

8 6 Cap. 1: INTRODUZIONE nei diversi scenari applicativi. Nel Capitolo 4 viene analizzata la tecnica del Latent Semantic Indexing ed il suo utilizzo per la ricerca di documenti; sono spiegati gli elementi matematici che ne sono alla base (la Singular Value Decomposition), e ne viene data una spiegazione semi-rigorosa sul perchè riesca a migliorare la qualità di ricerca dei documenti. Nel Capitolo 5 terzo capitolo è presentato lo stato dell arte sulla generazione e l uso di conoscenza terminologica al fine di migliorare la qualità della ricerca, ed in particolare per una riformulazione più efficace della richiesta di informazione dell utente. In particolare si spiegano le motivazioni che ci hanno spinto alla scelta del thesaurus e il sistema adottato per la sua costruzione automatica. Vengono inoltre illustrate alcune funzionalità per migliorare la ricerca. Nel terzo capitolo è sviluppata un ampia panoramica degli strumenti software utilizzati per la realizzazione del progetto. Sono evidenziati, inoltre, i motivi che hanno portato alla loro scelta attraverso un attenta esamina delle differenze con le altre tecnologie esistenti. Nel quarto capitolo è esaminata l applicazione software realizzata, sono giustificate le scelte tecniche ed analizzati i problemi sorti durante la stesura del codice. In questo capitolo viene illustrato il principio di funzionamento di ogni modulo che compone il sistema, riportando stralci di codice in cui sono evidenziati gli aspetti più interessanti. Nel quinto capitolo viene mostrata la fase di testing del sistema, definendo l insieme di documenti con cui si è svolta la sperimentazione, spiegando gli indici relativi alla sperimentazione e mostrando grafici inerenti alle simulazioni effettuate. Infine l appendice completa la trattazione, descrivendo il pacchetto software realizzato e le operazioni di configurazioni da eseguire per renderlo funzionante.

9 Capitolo 2 Il recupero dell informazione Il recupero dell informazione affronta le problematiche inerenti l organizzazione, la rappresentazione, l immagazzinamento e l accesso dell elemento informazione. La rappresentazione e l organizzazione dell informazioni provvede infatti a facilitare l accesso alla informazione di cui un utente necessita. Tuttavia caratterizzare tale informazione non risulta un compito semplice. Un sistema software non è (al momento) in grado di comprendere una richiesta espressa in linguaggio naturale, quindi l interrogazione dell utente deve essere prima tradotta in una query che può esser processata dal sistema che recupera l informazione. Il modo più semplice per la traduzione della richiesta dal linguaggio naturale a un linguaggio che un sistema informatico può capire, consiste nel riformulare tale interrogazione come un insieme di parole (o keyword, o termini) idonee a descrivere il contenuto dell informazione desiderata. Tale compito è, nella maggioranza dei casi, lasciato all utente. Data una query, l obiettivo di un sistema per il recupero dell informazione (IR system) è di trovare l informazione più rilevante per l utilizzatore del sistema a seguito della query immessa. 2.1 Analisi dei diversi aspetti dell Information Retrieval L Information Retrieval si indirizza su due principali aspetti: il ritrovamento dei dati e il ritrovamento dell informazione. Il ritrovamento dei dati, nel contesto dell Information Retrieval system, si pone come obiettivo quello di determinare quali documenti contengono le parole utilizzate nella query, e ciò, nella maggior parte dei casi, non è sufficiente a soddisfare la necessità dell utente. Un linguaggio di data retrieval permette di recuperare tutti gli oggetti che soddisfano condizioni ben definite, come quelle date da espressioni regolari o da espressioni in algebra relazionale. Dunque, per un sistema di data retrieval, un singolo oggetto erroneamente recuperato (o non recuperato) su migliaia di oggetti, può significare un sistema fallimentare. Il ritrovamento dell informazione, sposta invece il punto di vista sul concetto che la query 7

10 8 CAP. 2: IL RECUPERO DELL INFORMAZIONE vuole descrivere, cercando di interpretarne il contenuto semantico, per poter restituire i documenti più attinenti a tale argomento. La principale differenza tra questi due approcci è nella modalità di intendere la richiesta: il ritrovamento dei dati vede la richiesta come una semplice ricerca di una o più parole all interno dei documenti, il ritrovamento dell informazione cerca di capire a quale informazione si vuole accedere; mentre la teoria delle basi di dati ha a che fare con richieste sotto forma di precisi predicati, nell Information Retrieval si ha a che fare con il nebuloso e mal definito concetto di rilevanza, che dipende in modo intricato dall intento dell utente e dalla natura del corpus. Per un sistema di Information Retrieval, dunque, gli elementi recuperati possono essere inaccurati e piccoli errori possono rimanere del tutto non notati. Un aspetto importante da evidenziare, che ha fortemente influenzato i metodi per la ricerca dei documenti, è il considerevole incremento della mole di dati da memorizzare e da gestire che si è registrato negli ultimi anni. Questo ha comportato lo sviluppo di particolari sistemi software, ovvero i database, in grado di migliorare la gestione dei dati, archiviandoli e strutturandoli in maniera omogenea. Un buona organizzazione dei dati migliora il sistema di ritrovamento, tuttavia non soddisfa le richieste di ricerca inerenti al testo di un documento. Questi sistemi infatti, non riescono a discriminare i documenti per il loro contenuto, ma solo per le loro caratteristiche generali. Il compito di ricercare un documento che contenga una specifica informazione al suo interno è lasciato all utente, ma il grande quantitativo dei dati può rendere improponibile una ricerca manuale. In questo scenario l IR è stato di grande ausilio, perché prende in considerazione anche il testo dei documenti. Tuttavia, con interrogazioni poco selettive, l IR system potrebbe dare in risposta molti documenti, di cui non si conosce a priori il grado di rilevanza. Anche in questo caso, è l utente a dover cercare, tra tutti i documenti restituiti, quello più attinente alla sua richiesta. Nasce così l esigenza di ordinare i documenti ritrovati in base alla loro rilevanza. Le difficoltà per raggiungere questo obiettivo, è sia nel capire quale informazione l utente vuole ritrovare, sia nel decidere, per ogni documento ritrovato, quale è il suo grado di rilevanza rispetto a tale informazione. 2.2 Analisi della ricerca nel Web L IR, sebbene molto utilizzato, in passato ha avuto poca considerazione negli ambienti della ricerca, perché applicabile ad una ristretta area di interesse. Questa considerazione è stata prevalente per molti anni, nonostante la rapida crescita dell informatizzazione e il forte utilizzo dei personal computer. All inizio degli anni 90, però, un fatto determinante ha cambiato una volta per tutte questa opinione: la nascita del Word Wide Web. Il Web sta diventando un universale repository di conoscenza umana e culturale che ci ha portato a una condivisione di idee e di informazione in una espansione senza precedenti: ognuno può creare propri documenti

11 2.2. ANALISI DELLA RICERCA NEL WEB 9 Web, pubblicarli e farli puntare a qualsiasi altro documento Web senza alcuna restrizione. Questo è un aspetto chiave, in quanto trasforma il Web in un nuovo mezzo di pubblicazione, accessibile a chiunque. Questo grande successo del Web ha tuttavia introdotto nuove problematiche. Trovare informazioni utili sul Web è spesso un compito tedioso e difficile. L utente è spesso costretto, per soddisfare la sua necessità di informazione, a navigare di link in link alla ricerca, talvolta vana, di ciò che lo interessa; ciò può rivelarsi un ostacolo insormontabile, soprattutto per gli utenti alle prime armi. L ostacolo principale è l assenza di un ben definito modello per la presentazione dei dati sul Web, che implica una spesso scarsa qualità della definizione e strutturazione dei dati. Un passo per facilitare la ricerca nel web è stato fatto attraverso lo sviluppo di XML, un linguaggio che fornisce la possibilità di rappresentare ogni tipo di documento o dato, proteggendo le informazioni dalle evoluzioni tecnologiche. XML è una estensione dell HTML, ma a differenza dell HTML non si occupa di descrivere la formattazione del testo, ma di descrivere il ruolo logico degli elementi associati. Da questo segue che le applicazioni possono riconoscere i dati all interno dei documenti, potendo quindi svolgere operazioni che non sarebbero mai stati capaci di svolgere prima. Tuttavia un grande ostacolo resta l assenza di un modello ben definito di dati per il Web. Infatti sul Web può essere messo materiale creato da chiunque e considerando che la gran parte di utenti sono dilettanti, spesso si ha una bassa qualità della informazione e della struttura dei dati. Un altra questione che si affronta nel Web è il Ranking delle pagine, che tratta la problematica di attribuire un ordine ai risultati ottenuti da una ricerca. Molti algoritmi, sviluppati per risolvere il problema, calcolano l ordinamento dei risultati esaminando l importanza di ciascuna pagina. L importanza di una pagina Web viene determinata considerando il contenuto e l interesse che questa ha suscitato nei lettori. In tal modo, è possibile stabilire un ordine delle pagine ritrovate, in base all effettiva attenzione ed importanza che queste hanno riscosso. Seguendo come obiettivo quello di filtrare le pagine più attinenti per la ricerca, si sono sviluppati algoritmi che prendono in esame la struttura del WWW, che ha come caratteristica fondamentale il collegamento ( link) tra le diverse paginone. E possibile infatti, analizzare tale struttura per estrarre informazioni utili circa le pagine che trattano un determinato argomento, focalizzando quelle più autorevoli. In generale, queste tecniche calcolano l importanza di una pagina in base all importanza delle pagine che puntano ad essa. In questo modo, se una pagina ritenuta autorevole ha un link ad un altra, quest ultima assume una importanza maggiore rispetto al caso in cui ha un link con una pagina poco autorevole [7] [8]. L analisi della ricerca nel Web presenta scenari e problematiche assai ampie e complesse, ma gli sforzi nello studio di tecniche innovative nel campo dell IR stanno portando la ricerca nel Web a livelli sempre più accurati. Tuttavia, le tecniche che tendono a migliorare la qualità della ricerca devo essere compatibili con tempi di risposta accettabili per il Web, che sono molto rigidi. In media infatti, si può affermare che se un utente entro alcuni secondi di attesa non riceve una risposta, tende a cambiare la sua ricerca, riformulandola in maniera diversa o andando su un altro sito. Questo

12 10 CAP. 2: IL RECUPERO DELL INFORMAZIONE tipo di atteggiamento, rende i tempi di attesa determinanti ai fini di una ricerca soddisfacente nel Web. Tuttavia, non è sempre possibile conciliare buoni algoritmi con tempi di risposta accettabili e sono molti i casi in cui questo compromesso non viene raggiunto. Di conseguenza, metodi validi nell IR, ma con tempi di computazione molto lunghi, non possono essere utilizzati nella ricerca nel Web [9]. 2.3 Tecniche di ricerca Il recupero dell informazione ha avuto la sua crescita seguendo come obiettivo primario l indicizzazione del testo e il ritrovamento dei documenti più utilizzati in una collezione. Ad oggi, la ricerca in Information Retrieval include modellazione, classificazione e catalogazione dei documenti, visualizzazione dei dati, filtraggio, etc. In questo paragrafo esamineremo alcune delle tecniche più significative. Il recupero dell informazione è un problema che può essere affrontato su diversi livelli, in funzione del grado di rilevanza che la risposta vuole soddisfare. Una delle tecniche più semplici per il ritrovamento dei documenti è il Full Text Scanning. Tale tecnica consiste in una prima fase, in cui vengono memorizzate le parole e le caratteristiche dei documenti in un database e in una seconda fase, in cui si esaminano le parole memorizzate confrontandole con l insieme di parole scelto per la query. Se un documento contiene anche solo una di queste parole, viene restituito. Sebbene semplice, i tempi di risposta di una ricerca eseguita con il Full Text Scanning diventano improponibili per Data Base di dimensioni molto grandi. Una estensione di questa tecnica è rappresentata dall Inversion. L idea di base è pensare un documento come caratterizzato da una lista di parole chiave, le quali riescono a descrivere il contenuto del documento. Le parole chiave sono memorizzate in un file e per ognuna, viene mantenuto un collegamento al documento caratterizzato dalla parola stessa. Un ritrovamento veloce può essere fatto indirizzando la ricerca solo su queste parole chiave. Questo metodo è utilizzato dalla maggior parte dei sistemi in commercio. Un altra tecnica utilizzata è il Clustering (raggruppamento), in cui documenti simili vengono raggruppati insieme. Questo raggruppamento viene giustificato con il presupposto che documenti simili tendono a essere rilevanti per lo stesso tipo di ricerca. Raggruppando documenti simili si accelera il ritrovamento. Le tecniche analizzate fin ora associano a ciascun documento poche informazioni. Questa tendenza è stata superata dai più recenti metodi, i quali cercano di catturare maggiori dati da un documento, per ottenere performance migliori. L obiettivo è quello di cogliere il significato semantico dell informazione richiesta, interpretando la collezione di documenti su cui va ricercata. Per catturare maggiore informazione vengono utilizzati gli spazi vettoriali. Tra i metodi più importanti citiamo Latent Semantic Indexing (LSI). Questa tecnica, tra tutte quelle che utilizzano lo spazio vettoriale, ha ottenuto i risultati migliori. Data una collezione di documenti, viene formata una matrice termine-documento, i cui valori sono rappresentati da numeri interi che determinano le occorrenze di uno specifico termine in uno specifico documento. I singoli el-

13 2.4. IL PROCESSO DI RICERCA 11 ementi di questa matrice vengono poi elaborati e i valori più piccoli vengono eliminati. I vettori e i valori risultanti nella matrice, sono utilizzati per mappare la frequenza dei vettori di termini all interno dei documenti, in un sottospazio in cui sono preservate le relazioni semantiche per la matrice termine-documento. I vettori di termini che hanno forti variazione sono soppressi. Su questi dati vengono poi compiute operazioni di similarità tra i documenti e i documenti possono poi essere classificati in ordine di somiglianza decrescente. 2.4 Il processo di ricerca Per descrivere il processo di ricerca, utilizziamo una semplice e generica architettura software mostrata in figura. Innanzitutto, prima che inizi il processo di retrieval vero e proprio, è necessario definire la base di dati dei testi. Ciò viene generalmente effettuato dal manager del database che specifica: 1. i documenti da indicizzare; 2. le operazioni da effettuare sul testo, le quali trasformano i documenti originari, generando una vista logica su di essi; 3. il modello di testo (la struttura del testo e quali elementi possono essere recuperati).

14 12 CAP. 2: IL RECUPERO DELL INFORMAZIONE Una volta definita una vista logica dei documenti, il DB Manager genera un indice dei testi. Un indice è una struttura critica poichè consente una ricerca rapida su enormi volumi di dati. Si possono utilizzare differenti strutture di indice, ma la più popolare è la cosiddetta inverted file. Si noti che le risorse (di tempo e di spazio di memorizzazione) spese nella costruzione dell indice vengono ammortizzate dalle numerose richieste rivolte al sistema di retrieval. Una volta costruito l indice, il processo di ricerca può essere iniziato. L utente definisce inizialmente la sua necessità informativa, la quale viene poi analizzata e trasformata tramite le stesse operazioni applicate al testo. Successivamente, si possono effettuare operazioni sulle query prima che sia generata la query finale, la quale fornisce una rappresentazione per il sistema della necessità dell utente. La query è poi processata al fine di ottenere i documenti richiesti. Un veloce processamento della query è reso possibile dall indice precedentemente costruito. Prima di essere forniti all utente, i documenti recuperati possono essere ordinati in base ad una misura di somiglianza. L utente quindi esamina l insieme dei documenti restituiti, in cerca di informazioni utili. A questo punto, è possibile che l utente selezioni un sottoinsieme dei documenti ricevuti come di interesse, dando inizio così ad un ciclo di feedback. In tale ciclo, il sistema utilizza i documenti selezionati dall utente per modificare la query, al fine di renderla più adatta al recupero delle reali informazioni necessarie all utente. 2.5 Considerazione sulla semantica nell IR Le tecniche di IR tendano ad essere più efficaci qualora si prefiggano come obiettivo quello di catturare più informazioni possibili dal documento per meglio cogliere la sua semantica [2]. Questa strada è seguita anche dalle tecniche per l analisi del linguaggio naturale, le quali tentano di cogliere il contenuto semantico della interrogazione, per confrontarlo con il contenuto semantico del documento. In realtà la distinzione tra l analisi del linguaggio naturale e le tecniche dell IR non è così netta. Un esempio dell integrazione tra le tecniche per il recupero dell informazione e il processamento del linguaggio, è dato dall uso di frasi come termini indicizzanti per i documenti [2]. L utilizzo di una frase come query porta come beneficio un maggiore contenuto semantico, ma potrebbero esserci dei riscontri negativi, come ad esempio il rischio che l alta specificazione della frase comporti una riduzione delle performance del ranking. Un risultato che l IR deve raggiungere, consiste nel riuscire, data una query, a capire il suo significato semantico e restituire uno o più documenti attinenti alla richiesta, ritenuti rilevanti rispetto al resto della collezione in base ad una modellazione della semantica dei contenuti di ciascun documento. Nei tradizionali sistemi di IR, usualmente si adottano indici per il recupero dei documenti. In senso stretto, un indice è una parola chiave la quale racchiude un proprio significato al suo interno. In senso più generale, un indice è una parola che compare all in-

15 2.6. CARATTERIZZAZIONE FORMALE DEI MODELLI DI IR 13 terno di un documento di una collezione. Di regola, la scelta dell indice ricade sulla parola maggiormente presente nel documento. Definito un indice, questo viene collegato ad uno o più documenti. In questo modo, se nell interrogazione fatta dall utente è presente uno degli indici definiti, vengono velocemente restituiti i documenti con cui l indice è stato collegato. Quindi la parola che si scegli come indice è tale che il suo significato possa rappresentare il contenuto del documento a cui indicizza. Il ritrovamento basato sugli indici è molto semplice, ma fa sorgere alcune problematiche. Per esempio, nel ritrovamento dei documenti utilizzando gli indici si assume come idea fondamentale che, sia la semantica di un documento, sia l informazione di cui si ha bisogno, possano essere naturalmente espressi attraverso un insieme di parole. Chiaramente questa è una considerazione molto semplificata del problema, perché la semantica espressa nella richiesta e la semantica espressa nel documento, è molto bassa quando viene sintetizzata da un insieme di parole [19]. Per ciò che riguarda la semantica della richiesta fatta utilizzando un insieme di parole chiave, spesso c è difficoltà da parte dell utente a trovare i termini più adatti per esprimere l informazione ricercata. In tali condizione è più facile incorrere in documenti irrilevanti. Per ciò che riguarda la semantica del documento, talvolta il suo significato non può essere direttamente espresso dalle parole presenti al suo interno. Ad esempio, un documento che tratta di programmazione, potrebbe non contenere la parola PROGRAMMAZIONE. Quindi i risultati ottenuti dalle ricerche che considerano l attinenza di un documento confrontando gli indici, potrebbero portare un certo grado di irrilevanza. Da qui nasce l esigenza di studiare la semantica di una richiesta in relazione alla semantica della collezione di documenti. L introduzione dei Thesaurus, ha permesso di superare molte difficoltà, consentendo di trovare una maggiore affinità tra la richiesta e la risposta. Questo argomento sarà trattato nel capitolo seguente. 2.6 Caratterizzazione formale dei modelli di IR Si è intuito che le premesse fondamentali che formano le basi di un algoritmo di ranking, determinano il modello di Information Retrieval. Analizzeremo ora differenti insiemi di tali premesse. Tuttavia, prima di far ciò bisogna definire con precisione cosa sia un modello di Information Retrieval. Definizione 1. Un modello per l information retrieval è una quadrupla [D, Q, F, R(q i, d j )] dove: D è un insieme costituito da viste logiche (o rappresentazioni) dei documenti della collezione. Q è un insieme costituito da viste logiche (o rappresentazioni) delle necessità informative dell utente. Tali rappresentazioni sono dette queries. F è un framework per modellare le rappresentazioni dei documenti, le queries e le relazioni tra loro.

16 14 CAP. 2: IL RECUPERO DELL INFORMAZIONE R(q i, d j ) è una funzione di ranking che associa un numero reale con una query q i Q e la rappresentazione di un documento d j D. Tale ranking definisce un ordine tra i documenti rispetto ad ogni query q i. Per costruire un modello pensiamo dapprima alle rappresentazioni dei documenti ed alle necessità dell utente. Date queste rappresentazioni, elaboriamo poi il framework in cui possono essere modellati. Questo framework dovrebbe anche fornire l idea per costruire una funzione di ranking. Per esempio, per il modello classico Booleano, il framework è composto da insiemi dei documenti e da operazioni standard sugli insiemi. Per il modello classico vettoriale, il framework è composto da uno spazio vettoriale m-dimensionale e da operazioni sui vettori derivate dall algebra lineare. Vediamo ora i due principali modelli classici per l Information Retrieval. Essi sono caratterizzati dalla considerazione che ogni documento è descritto tramite un insieme di parole chiave (keywords) rappresentative, detti termini index terms. Un termine è semplicemente una parola la cui semantica aiuta a ricordare gli argomenti principali di un documento. Dunque i termini sono utilizzati per indicizzare e riassumere il contenuto di un documento. In generale i termini sono essenzialmente nomi, poichè solo essi hanno significato in quanto tali, e quindi è più facile carpire la loro semantica. Aggettivi, avverbi, congiunzioni sono meno utili dei termini in quanto funzionano principalmente come complementi. Tuttavia, può essere interessante considerare tutte le parole distinte in una collezione di documenti come termini. Questo è ad esempio l approccio seguito dalla maggioranza dei motori di ricerca Web (in questo caso la vista logica dei documenti è detta full text). Dato un insieme di termini per un documento, osserviamo che non tutti i termini sono ugualmente utili per descrivere il contenuto di un documento. Infatti vi sono termini che possono essere più vaghi di altri. Decidere sull importanza di un termine per riassumere il contenuto di un documento non è un problema banale. Nonostante questa difficoltà, vi sono proprietà di un termine che possono essere facilmente misurate e che sono utili per valutare le potenzialità di un termine come tale. Si consideri, ad esempio, una collezione con centinaia di migliaia di documenti. Una parola che appare in ognuno delle centinaia di migliaia di documenti, è completamente inutile come termine, poichè non dice nulla su quale documento l utente possa essere interessato. D altro canto, una parola che appare in una manciata di documenti è pienamente utile, in quanto restringe considerevolmente lo spazio dei documenti a cui può essere interessato l utente. Dunque, dovrebbe esser chiaro che termini distinti hanno varia rilevanza quando utilizzati per descrivere i contenuti dei documenti.

17 2.6. CARATTERIZZAZIONE FORMALE DEI MODELLI DI IR 15 Questo effetto viene catturato attraverso l assegnazione di pesi numerici ad ogni termine del documento. Sia k i un termine, d j un documento e w i,j 0 un peso associato alla coppia (k i, d j ). Dunque un peso quantifica l importanza di un termine per descrivere il contesto semantico del documento. Definizione 2. Sia m il numero dei termini distinti in una collezione, e K = k 1,..., k t l insieme di tutti i termini. Un peso w i,j > 0 è associato ad ogni termine k i di un documento d j. Per ogni termine che non compare nel testo del documento d j, w i,j = 0. Con il documento d j è associato un vettore di termini d j = (w 1,j, w 2,j,..., w m,j ). Inoltre, sia g i la funzione che restituisce il peso associato al termine k i in ogni vettore m- dimensionale (g i ( d j ) = w i,j ). Come vedremo in seguito, i pesi dei termini si considerano mutuamente indipendenti. Ciò significa che conoscere il peso w i,j associato alla coppia (k i, d j ) non ci dice nulla riguardo al peso w i+1, j associato alla coppia (k i+1, d j ). Questa è chiaramente una semplificazione perchè le occorrenze dei termini in un documento sono chiaramente correlate, basti pensare ai termini HOME e PAGE in una collezione di documenti aventi a che fare con Internet. Spesso, in tali documenti, la presenza di un termine comporterà la presenza anche dell altro termine, e dunque queste due parole sono correlate, ed i loro pesi dovrebbero riflettere questa correlazione. Mentre la mutua indipendenza sembra essere una forte semplificazione, semplifica il compito di calcolare i pesi dei termini e permette un veloce calcolo del ranking. Tuttavia, avvantaggiarsi della correlazione tra i termini per migliorare la classificazione finale dei documenti, non è un compito semplice. Infatti, nessuno dei molti approcci proposti in passato ha chiaramente dimostrato che le correlazioni fra termini siano vantaggiose per collezioni generiche di documenti. Vedremo tuttavia come nuove tecniche, tra cui quella proposta in questo lavoro, sembrano rivelarsi di successo con particolari collezioni di documenti. Ciò non può che far pendere la credenza attuale verso una visione più favorevole dell utilità delle correlazioni fra termini nei sistemi di Information Retrieval Modello booleano Il modello booleano è un semplice modello di IR basato sulla teoria degli insiemi e sull algebra di Boole, il cui concetto è molto intuitivo, e facile da carpire per un utente comune di un sistema di IR. Il modello booleano considera i termini assenti o presenti in un documento. Come risultato, i pesi dei termini si presumono essere binari: w i,j {0, 1}.

18 16 CAP. 2: IL RECUPERO DELL INFORMAZIONE Una query q una espressione booleana composta di termini collegati fra loro dai tre operatori booleani not, and, or, che può anche essere rappresentata in forma disgiuntiva normale (DNF - disjunctive normal form). Per esempio, la query [q = k a (k b k c )] può essere scritta in DNF come [ q dnf = (1, 1, 1) (1, 1, 0) (1, 0, 0)], dove ogni elemento è una vettore binario associato alla tupla (k a, k b, k c ). Questi vettori binari sono chiamati componenti congiuntive di q dnf. Sia dunque q cc ognuna delle componenti congiuntive di q dnf. La similarità di un documento d j rispetto ad una query q è definita come: { 1 se q cc ( q cc q dnf ) ( ki, g i ( d sim(d j, q) = j ) = g i ( q cc ) ) (2.1) 0 altrimenti Se sim(d j, q) = 1 il modello booleano assume che il documento d j sia rilevante per la query q (potrebbe in realtà non esserlo). Altrimenti, assume che il documento sia non rilevante. In seguito alla sua inerente semplicità ed al formalismo pulito, il modello Booleano ha ricevuto grande attenzione negli anni passati ed è stato adottato da molti dei primi sistemi bibliografici commerciali. Sfortunatamente questo modello soffre di numerosi inconvenienti. Innanzitutto la sua strategia di ricerca è basata su di un criterio di decisione binaria (un documento può cioè essere rilevante o non rilevante ); non esiste la nozione di matching parziale di un documento rispetto ad una query, non vi soprattutto una possibilità di ranking, condizione necessaria per una buona ricerca. Dunque il modello booleano può esser più considerato come un modello di ricerca dei dati, più che di informazione. I sistemi commerciali spesso tentano di aggirare questo problema, generando un ordinamento associato con qualche metadato descrittivo, o più semplicemente un ordine cronologico inverso (spesso utilizzato nei sistemi che indicizzano news o giornali, in cui la data di pubblicazione è una delle caratteristiche salienti del documento). Vi è poi il non banale problema di tradurre una necessità di informazione in una espressione booleana. Infatti studi hanno dimostrato che molti utenti trovano difficile e scomodo esprimere le loro richieste in termini di espressioni booleane, e spesso hanno un idea sbagliata di quali siano i risultati, per cui si giunge in pratica, a formulare le queries in modo banale, senza sfruttare minimamente le possibilità offerte dall algebra booleana. Le queries booleane sono problematiche per molte ragioni. Tra tutte la maggiore è quella che molte persone trovano la sintassi base controintuitiva. Soprattutto gli utenti di lingua inglese, assumono la semantica della lingua comune nell uso dei vocaboli AND e OR, piuttosto che i loro equivalenti logici. Per gli utenti inesperti, utilizzare AND implica l allargamento del campo d azione della query. Ad esempio la richiesta DOG AND CAT può significare l interesse per documenti che riguardano cani e documenti che riguardano gatti, piuttosto che documenti che riguardino entrambi. Così

19 2.6. CARATTERIZZAZIONE FORMALE DEI MODELLI DI IR 17 TEA OR COFFEE può implicare una scelta mutuamente esclusiva nel linguaggio di ogni giorno. In aggiunta molti linguaggi di query che incorporando operatori booleani richiedono all utente anche di specificare una complessa sintassi per altri tipi di connettori e per i metadati. Molti utenti non sono inoltre familiari con l uso delle parentesi, per valutazioni annidate, nè con la nozione di precedenza fra operatori. I progettisti di motori di ricerca Web, sapendo di dover avere a che fare con un audience di massa in possesso di scarsa esperienza nella specifica delle queries, si sono adattati ad approcci più intuitivi. Piuttosto che forzare gli utenti a specificare complesse combinazioni di AND e OR, consentono agli utenti di scegliere da una selezione di semplici modi di combinare i termini, tipo tutte le parole (ovvero poni tutti i termini in AND ) o almeno una delle parole (ovvero poni tutti i termini in OR ), o l ormai divenuto famoso operatore + utilizzato dal motore di ricerca Altavista. Nonostante questi problemi il modello booleano ancora il modello dominante nei sistemi commerciali e costituisce un buon punto di partenza per chi inizia a studiare la materia Il modello vettoriale Il modello vettoriale parte dall assunzione che l uso di pesi binari è troppo limitante, e propone un framework in cui sia reso possibile un matching parziale. Ciò ottenuto assegnando pesi non binari ai termini nelle queries e nei documenti. Questi termini sono infine usati per calcolare il grado di similarità tra ogni documento indicizzato e una query utente. Ordinando i documenti recuperati in ordine discendente di similarità, tale modello tiene in considerazione documenti che soddisfano anche solo parzialmente i termini della query. Ciò produce, come primo effetto positivo, un insieme ordinato di documenti recuperati assai più preciso 1 dell insieme ottenuto tramite modello booleano. Per il modello vettoriale, il peso w i,j associato alla coppia (k i, d j ) è positivo e non binario. Inoltre sono pesati anche i termini della query. Sia w i,q 0 il peso associato alla coppia (k i, q). Allora il vettore query q è definito come q = (w 1,q, w 2,q,..., w m,q ) dove m è il numero totale di termini indicizzati nel sistema. Come prima, il vettore relativo al documento d j è rappresentato come d j = (w 1,j, w 2,j,..., w m,j ). Dunque un documento d j ed una query q sono rappresentati come vettori m-dimensionali. Il modello vettoriale propone di valutare il grado di similarità del un documento d j rispetto ad una query q come la correlazione tra i vettori d j e q. Tale distanza può esser quantificata, ad esempio, con il coseno dell angolo tra i due vettori: sim(d j, q) = d j q d j q = m i=1 w i,j w i,q m i=1 w2 i,j m j=1 w2 i,q (2.2) 1 sarà data in seguito una definizione esatta del vocabolo precisione nell ambito dell Information Retrieval; si interpreti per ora come insieme che meglio soddisfa la necessità di informazione dell utente;

20 18 CAP. 2: IL RECUPERO DELL INFORMAZIONE avendo indicato con d j e q le norme di tali vettori. Si osservi come, mentre il fattore d j fornisce una normalizzazione nello spazio dei documenti, il fattore q non ha influenza sul ranking dei documenti poichè rimane costante per tutti i documenti. Si osservi inoltre che, poichè w i,j 0 e w i,q 0, sim(q, d j ) è compreso fra 0 e 1. Dunque invece di stabilire se un documento sia o non sia rilevante, il modello vettoriale classifica i documenti in base al loro grado di similarità rispetto alla query. Un documento può esser recuperato anche se soddisfa solo parzialmente la query. Si può ad esempio stabilire una soglia su sim(d j, q) e riportare i documenti con un grado di similarità sopra tale soglia. Ma per calcolare un ordinamento, bisogna prima definire come ottenere i pesi per i termini. I pesi per i termini possono essere ottenuti in diversi modi. [7] analizza varie tecniche di termweighting. Pur non analizzandole in dettaglio, scopriamo l idea alla base delle più efficaci tecniche di termweighting. L idea è collegata ai principi di base che supportano le tecniche di clustering. Data una collezione C di oggetti, e una descrizione non ben definita di un insieme A 2, l obbiettivo di un semplice algoritmo di clustering è quello di separare la collezione C in due insiemi: un primo insieme composto da oggetti in relazione con A, ed un secondo insieme composto da oggetti non in relazione con il set A. Algoritmi di clustering più complessi possono tentare di separare gli oggetti di una collezione in più classi, tuttavia noi ci riferiamo alla versione più semplice del problema di clustering (quella che considera solo due classi), perchè tutto ciò che ci viene richiesto è una decisione su quali documenti possano essere rilevanti e quali no. Per vedere il problema di IR come un problema di clustering, consideriamo i documenti come una collezione C di oggetti e vediamo la query utente come una non ben definita specifica dell insieme A (i documenti rilevanti). Si può così ridurre il problema alla determinazione di quali documenti sono nell insieme A e quali non lo sono. Vi sono due problemi fondamentali da risolvere: 1. si deve determinare quali sono le caratteristiche che meglio descrivono gli oggetti nell insieme A; 2. si deve determinare quali sono le caratteristiche che meglio distinguono gli oggetti nell insieme A dai rimanenti oggetti della collezione C. Il primo insieme di caratteristiche dà una quantificazione della similarità intra-cluster, mentre il secondo insieme di caratteristiche quantifica la dissimilarità inter-cluster. Per un clustering efficiente, si deve tentare di bilanciare questi due effetti. 2 con ciò intendiamo dire che non abbiamo una informazione completa per decidere precisamente quali oggetti appartengono e quali non appartengono all insieme

Introduzione all Information Retrieval

Introduzione all Information Retrieval Introduzione all Information Retrieval Argomenti della lezione Definizione di Information Retrieval. Information Retrieval vs Data Retrieval. Indicizzazione di collezioni e ricerca. Modelli per Information

Dettagli

Linguaggi e Paradigmi di Programmazione

Linguaggi e Paradigmi di Programmazione Linguaggi e Paradigmi di Programmazione Cos è un linguaggio Definizione 1 Un linguaggio è un insieme di parole e di metodi di combinazione delle parole usati e compresi da una comunità di persone. È una

Dettagli

RICERCA DELL INFORMAZIONE

RICERCA DELL INFORMAZIONE RICERCA DELL INFORMAZIONE DOCUMENTO documento (risorsa informativa) = supporto + contenuto analogico o digitale locale o remoto (accessibile in rete) testuale, grafico, multimediale DOCUMENTO risorsa continuativa

Dettagli

La gestione del documento

La gestione del documento Operatore giuridico d impresa Informatica Giuridica A.A 2002/2003 II Semestre La gestione del documento prof. Monica Palmirani Il documento A differenza del dato il documento è solitamente un oggetto non

Dettagli

Introduzione Ai Data Bases. Prof. Francesco Accarino IIS Altiero Spinelli Via Leopardi 132 Sesto San giovanni

Introduzione Ai Data Bases. Prof. Francesco Accarino IIS Altiero Spinelli Via Leopardi 132 Sesto San giovanni Introduzione Ai Data Bases Prof. Francesco Accarino IIS Altiero Spinelli Via Leopardi 132 Sesto San giovanni I Limiti Degli Archivi E Il Loro Superamento Le tecniche di gestione delle basi di dati nascono

Dettagli

I Modelli della Ricerca Operativa

I Modelli della Ricerca Operativa Capitolo 1 I Modelli della Ricerca Operativa 1.1 L approccio modellistico Il termine modello è di solito usato per indicare una costruzione artificiale realizzata per evidenziare proprietà specifiche di

Dettagli

Text mining ed analisi di dati codificati in linguaggio naturale. Analisi esplorative di dati testuali

Text mining ed analisi di dati codificati in linguaggio naturale. Analisi esplorative di dati testuali Text mining ed analisi di dati codificati in linguaggio naturale Analisi esplorative di dati testuali Il text mining: una definizione Data mining per dati destrutturati ovvero documenti codificati in linguaggio

Dettagli

Lezione 8. Motori di Ricerca

Lezione 8. Motori di Ricerca Lezione 8 Motori di Ricerca Basi di dati Un campo prevalente dell applicazione informatica è quello costituito dall archiviazione e dalla gestione dei dati (basi di dati). Sistema Informativo. Un sistema

Dettagli

Intelligenza Artificiale

Intelligenza Artificiale Intelligenza Artificiale Anno accademico 2008-2009 Information Retrieval: Text Categorization Una definizione formale Sia D il dominio dei documenti Sia C = {c 1,,c C } un insieme di categorie predefinite

Dettagli

Organizzazione delle informazioni: Database

Organizzazione delle informazioni: Database Organizzazione delle informazioni: Database Laboratorio Informatico di base A.A. 2013/2014 Dipartimento di Scienze Aziendali e Giuridiche Università della Calabria Dott. Pierluigi Muoio (pierluigi.muoio@unical.it)

Dettagli

Introduzione al data base

Introduzione al data base Introduzione al data base L Informatica è quella disciplina che si occupa del trattamento automatico dei dati con l ausilio del computer. Trattare i dati significa: raccoglierli, elaborarli e conservarli

Dettagli

Facoltà di Farmacia - Corso di Informatica

Facoltà di Farmacia - Corso di Informatica Basi di dati Riferimenti: Curtin cap. 8 Versione: 13/03/2007 1 Basi di dati (Database, DB) Una delle applicazioni informatiche più utilizzate, ma meno conosciute dai non informatici Avete già interagito

Dettagli

Il consulente aziendale di Richard Newton, FrancoAngeli 2012

Il consulente aziendale di Richard Newton, FrancoAngeli 2012 Introduzione Chiedete a qualunque professionista di darvi una definizione dell espressione consulente aziendale, e vedrete che otterrete molte risposte diverse, non tutte lusinghiere! Con tale espressione,

Dettagli

Indicizzazione terza parte e modello booleano

Indicizzazione terza parte e modello booleano Reperimento dell informazione (IR) - aa 2014-2015 Indicizzazione terza parte e modello booleano Gruppo di ricerca su Sistemi di Gestione delle Informazioni (IMS) Dipartimento di Ingegneria dell Informazione

Dettagli

Codici Numerici. Modifica dell'informazione. Rappresentazione dei numeri.

Codici Numerici. Modifica dell'informazione. Rappresentazione dei numeri. Codici Numerici. Modifica dell'informazione. Rappresentazione dei numeri. A partire da questa lezione, ci occuperemo di come si riescono a codificare con sequenze binarie, quindi con sequenze di 0 e 1,

Dettagli

Le Basi di dati: generalità. Unità di Apprendimento A1 1

Le Basi di dati: generalità. Unità di Apprendimento A1 1 Le Basi di dati: generalità Unità di Apprendimento A1 1 1 Cosa è una base di dati In ogni modello di organizzazione della vita dell uomo vengono trattate informazioni Una volta individuate e raccolte devono

Dettagli

Software. Definizione, tipologie, progettazione

Software. Definizione, tipologie, progettazione Software Definizione, tipologie, progettazione Definizione di software Dopo l hardware analizziamo l altra componente fondamentale di un sistema di elaborazione. La macchina come insieme di componenti

Dettagli

Progettaz. e sviluppo Data Base

Progettaz. e sviluppo Data Base Progettaz. e sviluppo Data Base! Introduzione ai Database! Tipologie di DB (gerarchici, reticolari, relazionali, oodb) Introduzione ai database Cos è un Database Cos e un Data Base Management System (DBMS)

Dettagli

Metodi basati sugli autovettori per il Web Information Retrieval

Metodi basati sugli autovettori per il Web Information Retrieval Metodi basati sugli autovettori per il Web Information Retrieval HITS, PageRank e il metodo delle potenze LSI e SVD LSI è diventato famoso per la sua abilità nel permettere di manipolare i termini (all

Dettagli

MANUALE UTENTE DELLA BIBLIOTECA VIRTUALE

MANUALE UTENTE DELLA BIBLIOTECA VIRTUALE MANUALE UTENTE DELLA BIBLIOTECA VIRTUALE Il sistema di ricerca della biblioteca virtuale permette di accedere in maniera rapida ai materiali didattici di interesse degli studenti presenti all interno del

Dettagli

ANNO SCOLASTICO 2014/2015. LICEO SCIENTIFICO STATALE A. VOLTA Via Juvarra, 14 - Torino

ANNO SCOLASTICO 2014/2015. LICEO SCIENTIFICO STATALE A. VOLTA Via Juvarra, 14 - Torino ANNO SCOLASTICO 2014/2015 LICEO SCIENTIFICO STATALE A. VOLTA Via Juvarra, 14 - Torino Obiettivi minimi Informatica Prime Conoscere il sistema di numerazione binaria e la sua importanza nella codifica delle

Dettagli

REQUISITI FUNZIONALI DELLE PROCEDURE ELETTRONICHE PER GLI APPALTI PUBBLICI NELL UE VOLUME I

REQUISITI FUNZIONALI DELLE PROCEDURE ELETTRONICHE PER GLI APPALTI PUBBLICI NELL UE VOLUME I REQUISITI FUNZIONALI DELLE PROCEDURE ELETTRONICHE PER GLI APPALTI PUBBLICI NELL UE VOLUME I GENNAIO 2005 eprocurement pubblico Clausola di esclusione della responsabilità Commissione europea Original document

Dettagli

Programmi. Algoritmi scritti in un linguaggio di programmazione

Programmi. Algoritmi scritti in un linguaggio di programmazione Programmi Algoritmi scritti in un linguaggio di programmazione Sistema operativo:programma supervisore che coordina tutte le operazioni del calcolatore Programmi applicativi esistenti Sistemi di videoscrittura

Dettagli

Cercare informazioni in rete. Uno strumento metacognitivo per sviluppare le abilità di ricerca e di costruzione di conoscenza

Cercare informazioni in rete. Uno strumento metacognitivo per sviluppare le abilità di ricerca e di costruzione di conoscenza Cercare informazioni in rete Uno strumento metacognitivo per sviluppare le abilità di ricerca e di costruzione di conoscenza L information overload Internet con la sua enorme mole di informazione disponibili

Dettagli

Prime sperimentazioni d'indicizzazione [semi]automatica alla BNCF

Prime sperimentazioni d'indicizzazione [semi]automatica alla BNCF Prime sperimentazioni d'indicizzazione [semi]automatica alla BNCF Maria Grazia Pepe - Elisabetta Viti (Biblioteca nazionale centrale di Firenze) 6. Incontro ISKO Italia Firenze 20 maggio 2013 SOMMARIO

Dettagli

Corso di Informatica Generale (C. L. Economia e Commercio) Ing. Valerio Lacagnina Rappresentazione in virgola mobile

Corso di Informatica Generale (C. L. Economia e Commercio) Ing. Valerio Lacagnina Rappresentazione in virgola mobile Problemi connessi all utilizzo di un numero di bit limitato Abbiamo visto quali sono i vantaggi dell utilizzo della rappresentazione in complemento alla base: corrispondenza biunivoca fra rappresentazione

Dettagli

IL PROBLEMA DELLA RICERCA DI INFORMAZIONI su Internet e sul web

IL PROBLEMA DELLA RICERCA DI INFORMAZIONI su Internet e sul web IL PROBLEMA DELLA RICERCA DI INFORMAZIONI su Internet e sul web GLI INTERROGATIVI 1. Perché Internet è il più grande contenitore di info del mondo? 2. Perché non è sempre facile reperire informazione utile

Dettagli

uadro Soluzioni software per L archiviazione elettronica dei documenti Gestione Aziendale Fa quadrato attorno alla tua azienda

uadro Soluzioni software per L archiviazione elettronica dei documenti Gestione Aziendale Fa quadrato attorno alla tua azienda Fa quadrato attorno alla tua azienda Soluzioni software per L archiviazione elettronica dei documenti Perché scegliere Q Archiviazione Elettronica dei Documenti? Tale applicativo si pone come obbiettivo

Dettagli

Obiettivo Principale: Spiegare come la stessa cosa possa essere realizzata in molti modi diversi e come, a volte, ci siano modi migliori di altri.

Obiettivo Principale: Spiegare come la stessa cosa possa essere realizzata in molti modi diversi e come, a volte, ci siano modi migliori di altri. 6 LEZIONE: Algoritmi Tempo della lezione: 45-60 Minuti. Tempo di preparazione: 10-25 Minuti (a seconda che tu abbia dei Tangram disponibili o debba tagliarli a mano) Obiettivo Principale: Spiegare come

Dettagli

1. I database. La schermata di avvio di Access

1. I database. La schermata di avvio di Access 7 Microsoft Access 1. I database Con il termine database (o base di dati) si intende una raccolta organizzata di dati, strutturati in maniera tale che, effettuandovi operazioni di vario tipo (inserimento

Dettagli

Introduzione alla Progettazione per Componenti

Introduzione alla Progettazione per Componenti Introduzione alla Progettazione per Componenti Alessandro Martinelli 6 ottobre 2014 Obiettivo del Corso Il Progetto Software Reale Il Componente Software La Programmazione Ad Oggetti Fondamenti di Informatica

Dettagli

Capitolo 20: Scelta Intertemporale

Capitolo 20: Scelta Intertemporale Capitolo 20: Scelta Intertemporale 20.1: Introduzione Gli elementi di teoria economica trattati finora possono essere applicati a vari contesti. Tra questi, due rivestono particolare importanza: la scelta

Dettagli

disponibili nel pacchetto software.

disponibili nel pacchetto software. Modulo syllabus 4 00 000 00 0 000 000 0 Modulo syllabus 4 DATABASE 00 000 00 0 000 000 0 Richiede che il candidato dimostri di possedere la conoscenza relativa ad alcuni concetti fondamentali sui database

Dettagli

Siti Web e Information Architecture: organizzare i contenuti e strutturare le informazioni

Siti Web e Information Architecture: organizzare i contenuti e strutturare le informazioni Siti Web e Information Architecture: organizzare i contenuti e strutturare le informazioni Ornella Nicotra A.A.1999-2000 Modulo europeo Action Jean Monnet Scuola Speciale per Archivisti e Bibliotecari

Dettagli

Altri metodi di indicizzazione

Altri metodi di indicizzazione Organizzazione a indici su più livelli Altri metodi di indicizzazione Al crescere della dimensione del file l organizzazione sequenziale a indice diventa inefficiente: in lettura a causa del crescere del

Dettagli

Il PageRank è obsoleto? Via libera al TrustRank

Il PageRank è obsoleto? Via libera al TrustRank Il PageRank è obsoleto? Via libera al TrustRank Prefazione: Questo documento si basa sull originale Combating web spam with TrustRank firmato da alcuni ricercatori del dipartimento di Computer Science

Dettagli

Questa pagina e tutti i capitoli della guida che trovate elencati a destra costituiscono il cuore di questo sito web.

Questa pagina e tutti i capitoli della guida che trovate elencati a destra costituiscono il cuore di questo sito web. Posizionamento sui motori di ricerca. Cos'è il "posizionamento"? Per posizionamento si intente un insieme di tecniche che hanno l'obiettivo di migliorare la posizione di un sito web nei risultati delle

Dettagli

Risoluzione. Eric Miotto Corretto dal prof. Silvio Valentini 15 giugno 2005

Risoluzione. Eric Miotto Corretto dal prof. Silvio Valentini 15 giugno 2005 Risoluzione Eric Miotto Corretto dal prof. Silvio Valentini 15 giugno 2005 1 Risoluzione Introdurremo ora un metodo per capire se un insieme di formule è soddisfacibile o meno. Lo vedremo prima per insiemi

Dettagli

TEORIA sulle BASI DI DATI

TEORIA sulle BASI DI DATI TEORIA sulle BASI DI DATI A cura del Prof. Enea Ferri Cos è un DATA BASE E un insieme di archivi legati tra loro da relazioni. Vengono memorizzati su memorie di massa come un unico insieme, e possono essere

Dettagli

Metodologia Classica di Progettazione delle Basi di Dati

Metodologia Classica di Progettazione delle Basi di Dati Metodologia Classica di Progettazione delle Basi di Dati Metodologia DB 1 Due Situazioni Estreme Realtà Descritta da un documento testuale che rappresenta un insieme di requisiti del software La maggiore

Dettagli

Sorgenti autorevoli in ambienti hyperlinkati.

Sorgenti autorevoli in ambienti hyperlinkati. Sorgenti autorevoli in ambienti hyperlinkati. La qualità di un metodo di ricerca richiede la valutazione umana dovuta alla soggettività inerente alla nozione di rilevanza. I motori di ricerca correnti,

Dettagli

Basi di dati. Basi di dati = database. Basi di dati

Basi di dati. Basi di dati = database. Basi di dati Basi di dati Da leggere: Cap. 6 Sawyer, Williams (testo A) Basi di dati = database Sono una delle applicazioni informatiche che hanno avuto il maggiore utilizzo in uffici, aziende, servizi -> oggi anche

Dettagli

La Metodologia adottata nel Corso

La Metodologia adottata nel Corso La Metodologia adottata nel Corso 1 Mission Statement + Glossario + Lista Funzionalià 3 Descrizione 6 Funzionalità 2 Schema 4 Schema 5 concettuale Logico EA Relazionale Codice Transazioni In PL/SQL Schema

Dettagli

SVILUPPO ONTOLOGIE PER LA GESTIONE DOCUMENTALE E LORO INTEGRAZIONE ALL INTERNO DI UNA PIATTAFORMA WEB

SVILUPPO ONTOLOGIE PER LA GESTIONE DOCUMENTALE E LORO INTEGRAZIONE ALL INTERNO DI UNA PIATTAFORMA WEB Facoltà di Ingegneria Corso di Laurea Specialistica in Ingegneria Informatica SVILUPPO ONTOLOGIE PER LA GESTIONE DOCUMENTALE E LORO INTEGRAZIONE ALL INTERNO DI UNA PIATTAFORMA WEB Relatore Chiarissimo

Dettagli

Processo di risoluzione di un problema ingegneristico. Processo di risoluzione di un problema ingegneristico

Processo di risoluzione di un problema ingegneristico. Processo di risoluzione di un problema ingegneristico Processo di risoluzione di un problema ingegneristico 1. Capire l essenza del problema. 2. Raccogliere le informazioni disponibili. Alcune potrebbero essere disponibili in un secondo momento. 3. Determinare

Dettagli

Manuale Utente Amministrazione Trasparente GA

Manuale Utente Amministrazione Trasparente GA Manuale Utente GA IDENTIFICATIVO DOCUMENTO MU_AMMINISTRAZIONETRASPARENTE-GA_1.0 Versione 1.0 Data edizione 03.05.2013 1 Albo Pretorio On Line TABELLA DELLE VERSIONI Versione Data Paragrafo Descrizione

Dettagli

Semantica operazionale dei linguaggi di Programmazione

Semantica operazionale dei linguaggi di Programmazione Semantica operazionale dei linguaggi di Programmazione Oggetti sintattici e oggetti semantici Rosario Culmone, Luca Tesei Lucidi tratti dalla dispensa Elementi di Semantica Operazionale R. Barbuti, P.

Dettagli

BARRA LATERALE AD APERTURA AUTOMATICA...

BARRA LATERALE AD APERTURA AUTOMATICA... INDICE 1) SOMMARIO... 1 2) PRIMO AVVIO... 1 3) BARRA LATERALE AD APERTURA AUTOMATICA... 2 4) DATI AZIENDALI... 3 5) CONFIGURAZIONE DEL PROGRAMMA... 4 6) ARCHIVIO CLIENTI E FORNITORI... 5 7) CREAZIONE PREVENTIVO...

Dettagli

TRAGUARDI PER LO SVILUPPO DELLE COMPETENZE AL TERMINE DELLA SCUOLA PRIMARIA

TRAGUARDI PER LO SVILUPPO DELLE COMPETENZE AL TERMINE DELLA SCUOLA PRIMARIA SCUOLA PRIMARIA DI CORTE FRANCA MATEMATICA CLASSE QUINTA TRAGUARDI PER LO SVILUPPO DELLE COMPETENZE AL TERMINE DELLA SCUOLA PRIMARIA L ALUNNO SVILUPPA UN ATTEGGIAMENTO POSITIVO RISPETTO ALLA MATEMATICA,

Dettagli

catalogo corsi di formazione 2014/2015

catalogo corsi di formazione 2014/2015 L offerta formativa inserita in questo catalogo è stata suddivisa in quattro sezioni tematiche che raggruppano i corsi di formazione sulla base degli argomenti trattati. Organizzazione, progettazione e

Dettagli

GOOGLE VALUTAZIONE DI UN SITO INTERNET GOOGLE SCHOLAR

GOOGLE VALUTAZIONE DI UN SITO INTERNET GOOGLE SCHOLAR CORSO DI LAUREA IN SCIENZE DELL EDUCAZIONE E DEI PROCESSI FORMATIVI CORSO DI LAUREA MAGISTRALE IN PROGETTAZIONE E COORDINAMENTO DEI SERVIZI EDUCATIVI ALLA RICERCA DI LIBRI E ARTICOLI : OPAC, RISORSE ELETTRONICHE

Dettagli

Lezione 1. Introduzione e Modellazione Concettuale

Lezione 1. Introduzione e Modellazione Concettuale Lezione 1 Introduzione e Modellazione Concettuale 1 Tipi di Database ed Applicazioni Database Numerici e Testuali Database Multimediali Geographic Information Systems (GIS) Data Warehouses Real-time and

Dettagli

ALLINEARE LA GESTIONE OPERATIVA ALLA STRATEGIA AZIENDALE

ALLINEARE LA GESTIONE OPERATIVA ALLA STRATEGIA AZIENDALE http://www.sinedi.com ARTICOLO 9 FEBBRAIO 2007 ALLINEARE LA GESTIONE OPERATIVA ALLA STRATEGIA AZIENDALE La formulazione della strategia aziendale rappresenta un momento estremamente importante per tutte

Dettagli

Relazione introduttiva Febbraio 2006

Relazione introduttiva Febbraio 2006 Amministrazione Provincia di Rieti Febbraio 2006 1 Progetto Sistema Informativo Territoriale Amministrazione Provincia di Rieti Premessa L aumento della qualità e quantità dei servizi che ha caratterizzato

Dettagli

IL PROBLEMA DELLA RICERCA DI INFORMAZIONI su Internet e sul web

IL PROBLEMA DELLA RICERCA DI INFORMAZIONI su Internet e sul web IL PROBLEMA DELLA RICERCA DI INFORMAZIONI su Internet e sul web GLI INTERROGATIVI 1. Perché Internet è diventato il più grande contenitore di informazioni del mondo? 2. Perché non è sempre facile reperire

Dettagli

1. Scopo dell esperienza.

1. Scopo dell esperienza. 1. Scopo dell esperienza. Lo scopo di questa esperienza è ricavare la misura di tre resistenze il 4 cui ordine di grandezza varia tra i 10 e 10 Ohm utilizzando il metodo olt- Amperometrico. Tale misura

Dettagli

LEZIONE 3. Il pannello di amministrazione di Drupal, configurazione del sito

LEZIONE 3. Il pannello di amministrazione di Drupal, configurazione del sito LEZIONE 3 Il pannello di amministrazione di Drupal, configurazione del sito Figura 12 pannello di controllo di Drupal il back-end Come già descritto nella lezione precedente il pannello di amministrazione

Dettagli

catalogo corsi di formazione 2015/2016

catalogo corsi di formazione 2015/2016 L offerta formativa inserita in questo catalogo è stata suddivisa in quattro sezioni tematiche che raggruppano i corsi di formazione sulla base degli argomenti trattati. Organizzazione, progettazione e

Dettagli

INFORMATICA. Applicazioni WEB a tre livelli con approfondimento della loro manutenzione e memorizzazione dati e del DATABASE.

INFORMATICA. Applicazioni WEB a tre livelli con approfondimento della loro manutenzione e memorizzazione dati e del DATABASE. INFORMATICA Applicazioni WEB a tre livelli con approfondimento della loro manutenzione e memorizzazione dati e del DATABASE. APPLICAZIONI WEB L architettura di riferimento è quella ampiamente diffusa ed

Dettagli

Il database management system Access

Il database management system Access Il database management system Access Corso di autoistruzione http://www.manualipc.it/manuali/ corso/manuali.php? idcap=00&idman=17&size=12&sid= INTRODUZIONE Il concetto di base di dati, database o archivio

Dettagli

Organizzazione degli archivi

Organizzazione degli archivi COSA E UN DATA-BASE (DB)? è l insieme di dati relativo ad un sistema informativo COSA CARATTERIZZA UN DB? la struttura dei dati le relazioni fra i dati I REQUISITI DI UN DB SONO: la ridondanza minima i

Dettagli

Alla ricerca dell usabilità

Alla ricerca dell usabilità Comune di Modena Alla ricerca dell usabilità La struttura di navigazione dei siti web dei settori/servizi del Comune di Modena Settore Sistemi Informativi e Telematici - Comunicazione e Relazione con i

Dettagli

Operatori logici e porte logiche

Operatori logici e porte logiche Operatori logici e porte logiche Operatori unari.......................................... 730 Connettivo AND........................................ 730 Connettivo OR..........................................

Dettagli

GUIDA SULL'APPROCCIO PER PROCESSI DEI SISTEMI DI GESTIONE PER LA QUALITÀ (AGGIORNAMENTO DEL 8.6.01)

GUIDA SULL'APPROCCIO PER PROCESSI DEI SISTEMI DI GESTIONE PER LA QUALITÀ (AGGIORNAMENTO DEL 8.6.01) "L'APPROCCIO PER PROCESSI": UNA DELLE PRINCIPALI INNOVAZIONI DELLA NORMA I significati di questa impostazione e un aiuto per la sua attuazione nell'ambito dei SGQ L'importanza che l'impostazione "per processi"

Dettagli

Guida rapida all uso di Moodle per i docenti

Guida rapida all uso di Moodle per i docenti Guida rapida all uso di Moodle per i docenti Avvertenze: 1) Questo NON è un manuale completo di Moodle. La guida è esplicitamente diretta a docenti poco esperti che devono cimentarsi per la prima volta

Dettagli

Ministero della Pubblica Istruzione Ufficio Scolastico Regionale per la Sicilia Direzione Generale

Ministero della Pubblica Istruzione Ufficio Scolastico Regionale per la Sicilia Direzione Generale Unione Europea Regione Sicilia Ministero della Pubblica Istruzione Ufficio Scolastico Regionale per la Sicilia Direzione Generale ISTITUTO TECNICO INDUSTRIALE STATALE G. MARCONI EDILIZIA ELETTRONICA e

Dettagli

Tipologie di macchine di Turing

Tipologie di macchine di Turing Tipologie di macchine di Turing - Macchina di Turing standard - Macchina di Turing con un nastro illimitato in una sola direzione - Macchina di Turing multinastro - Macchina di Turing non deterministica

Dettagli

Cercare è per metà trovare

Cercare è per metà trovare Introduzione Cercare è per metà trovare Cercare su Internet Un Web nella Rete Struttura del libro I n t r o d u z i o n e La prima edizione del libro che avete tra le mani nasceva nel 2005. Si trattava

Dettagli

Tecniche avanzate di sintesi di algoritmi: Programmazione dinamica Algoritmi greedy

Tecniche avanzate di sintesi di algoritmi: Programmazione dinamica Algoritmi greedy Tecniche avanzate di sintesi di algoritmi: Programmazione dinamica Algoritmi greedy Dr Maria Federico Programmazione dinamica Solitamente usata per risolvere problemi di ottimizzazione il problema ammette

Dettagli

2.1 Introduzione ai linguaggi di marcatura

2.1 Introduzione ai linguaggi di marcatura Fondamenti di Informatica Sistemi di Elaborazione delle Informazioni Informatica Applicata 2.1 Introduzione ai linguaggi di marcatura Antonella Poggi Anno Accademico 2012-2013 DIPARTIMENTO DI SCIENZE DOCUMENTARIE

Dettagli

Progettazione di un Database

Progettazione di un Database Progettazione di un Database Per comprendere il processo di progettazione di un Database deve essere chiaro il modo con cui vengono organizzati e quindi memorizzati i dati in un sistema di gestione di

Dettagli

La comunicazione per il successo nella vita e nel lavoro. Corso a cura di Agape Consulting

La comunicazione per il successo nella vita e nel lavoro. Corso a cura di Agape Consulting La comunicazione per il successo nella vita e nel lavoro Corso a cura di Agape Consulting La comunicazione per il successo nella vita e nel lavoro La capacità di comunicare e di negoziare è il principale

Dettagli

Il sapere tende oggi a caratterizzarsi non più come un insieme di contenuti ma come un insieme di metodi e di strategie per risolvere problemi.

Il sapere tende oggi a caratterizzarsi non più come un insieme di contenuti ma come un insieme di metodi e di strategie per risolvere problemi. E. Calabrese: Fondamenti di Informatica Problemi-1 Il sapere tende oggi a caratterizzarsi non più come un insieme di contenuti ma come un insieme di metodi e di strategie per risolvere problemi. L'informatica

Dettagli

Database. Si ringrazia Marco Bertini per le slides

Database. Si ringrazia Marco Bertini per le slides Database Si ringrazia Marco Bertini per le slides Obiettivo Concetti base dati e informazioni cos è un database terminologia Modelli organizzativi flat file database relazionali Principi e linee guida

Dettagli

Progetto Finale: Modelli semantici dei dati in domini applicativi specifici

Progetto Finale: Modelli semantici dei dati in domini applicativi specifici Progetto Finale: Modelli semantici dei dati in domini applicativi specifici Roberto Basili, Marco Pennacchiotti Corso di Fondamenti di Informatica a.a. 2003-2004 Definizioni Generali e Regole d esame Il

Dettagli

EUROPEAN COMPUTER DRIVING LICENCE. Using Databases. Syllabus

EUROPEAN COMPUTER DRIVING LICENCE. Using Databases. Syllabus EUROPEAN COMPUTER DRIVING LICENCE Using Databases Syllabus Scopo Questo documento presenta il syllabus di ECDL Standard Modulo 5 Uso delle basi di dati. Il syllabus descrive, attraverso i risultati del

Dettagli

COMUNE DI RICCIONE Provincia di Rimini

COMUNE DI RICCIONE Provincia di Rimini COMUNE DI RICCIONE Provincia di Rimini Sistema di valutazione della performance individuale del personale dipendente Allegato 2 1 di 9 Oggetto della valutazione Il sistema di valutazione della performance

Dettagli

IL SISTEMA INFORMATIVO AZIENDALE

IL SISTEMA INFORMATIVO AZIENDALE IL SISTEMA INFORMATIVO AZIENDALE CL. 5ATP - A.S. 2006/2007 L azienda e i suoi elementi PERSONE AZIENDA BENI ECONOMICI ORGANIZZAZIONE L azienda è un insieme di beni organizzati e coordinati dall imprenditore

Dettagli

FLSS Flatmates life support system. Report Usability Test. Chiara Frantini Sara Minoli Matteo Vacca

FLSS Flatmates life support system. Report Usability Test. Chiara Frantini Sara Minoli Matteo Vacca FLSS Flatmates life support system Report Usability Test Chiara Frantini Sara Minoli Matteo Vacca INDICE 1. Campione 2. Analisi dei risultati 2.1 Task analysis 2.2 Valutazioni soggettive 3. Errori 4. Possibili

Dettagli

Guida Utente PS Contact Manager GUIDA UTENTE

Guida Utente PS Contact Manager GUIDA UTENTE GUIDA UTENTE Installazione...2 Prima esecuzione...5 Login...7 Registrazione del programma...8 Inserimento clienti...9 Gestione contatti...11 Agenti...15 Archivi di base...16 Installazione in rete...16

Dettagli

L interfaccia di Mo-Net Rete Civica di Modena

L interfaccia di Mo-Net Rete Civica di Modena L interfaccia di Mo-Net Rete Civica di Modena L interfaccia di Mo-Net nasce dal recepimento degli stimoli e delle indicazioni prodotte a livello nazionale, europeo e internazionale in tema di accessibilità

Dettagli

1. BASI DI DATI: GENERALITÀ

1. BASI DI DATI: GENERALITÀ 1. BASI DI DATI: GENERALITÀ BASE DI DATI (DATABASE, DB) Raccolta di informazioni o dati strutturati, correlati tra loro in modo da risultare fruibili in maniera ottimale. Una base di dati è usualmente

Dettagli

Manuale d uso. UTILIZZO delle PROCEDURE

Manuale d uso. UTILIZZO delle PROCEDURE Manuale d uso UTILIZZO delle PROCEDURE Versione 1.0 Maint manager è sviluppato da ISI per Sommario. Manuale utente...1 Sommario...2 Gestione della manutenzione:...3 Richieste di servizio...3 Dichiarazione

Dettagli

COS È UN LINGUAGGIO? LINGUAGGI DI ALTO LIVELLO LA NOZIONE DI LINGUAGGIO LINGUAGGIO & PROGRAMMA

COS È UN LINGUAGGIO? LINGUAGGI DI ALTO LIVELLO LA NOZIONE DI LINGUAGGIO LINGUAGGIO & PROGRAMMA LINGUAGGI DI ALTO LIVELLO Si basano su una macchina virtuale le cui mosse non sono quelle della macchina hardware COS È UN LINGUAGGIO? Un linguaggio è un insieme di parole e di metodi di combinazione delle

Dettagli

uadro Business Intelligence Professional Gestione Aziendale Fa quadrato attorno alla tua azienda

uadro Business Intelligence Professional Gestione Aziendale Fa quadrato attorno alla tua azienda Fa quadrato attorno alla tua azienda Professional Perché scegliere Cosa permette di fare la businessintelligence: Conoscere meglio i dati aziendali, Individuare velocemente inefficienze o punti di massima

Dettagli

Data Base. Prof. Filippo TROTTA

Data Base. Prof. Filippo TROTTA Data Base Definizione di DataBase Un Database può essere definito come un insieme di informazioni strettamente correlate, memorizzate su un supporto di memoria di massa, costituenti un tutt uno, che possono

Dettagli

Verifica e Validazione del Simulatore

Verifica e Validazione del Simulatore Verifica e del Simulatore I 4 passi principali del processo simulativo Formulare ed analizzare il problema Sviluppare il Modello del Sistema Raccolta e/o Stima dati per caratterizzare l uso del Modello

Dettagli

online La situazione operativa. In ambito aziendale i processi decisionali richiedono assunzioni di responsabilità a vari LABORATORIO 1

online La situazione operativa. In ambito aziendale i processi decisionali richiedono assunzioni di responsabilità a vari LABORATORIO 1 LABORATORIO 1 Scelta tra preventivi per l acquisto di un impianto di Luca CAGLIERO Materie: Informatica, Matematica, Economia aziendale (Triennio IT) L attività da svolgere in laboratorio, di carattere

Dettagli

INTRODUZIONE. Le società e le economie occidentali, al giorno d oggi, sono fortemente caratterizzate da un

INTRODUZIONE. Le società e le economie occidentali, al giorno d oggi, sono fortemente caratterizzate da un INTRODUZIONE Le società e le economie occidentali, al giorno d oggi, sono fortemente caratterizzate da un continuo aumento d importanza, in termini qualitativi e quantitativi, del settore dei servizi,

Dettagli

ISTITUTO TECNICO ECONOMICO MOSSOTTI

ISTITUTO TECNICO ECONOMICO MOSSOTTI CLASSE III INDIRIZZO S.I.A. UdA n. 1 Titolo: conoscenze di base Conoscenza delle caratteristiche dell informatica e degli strumenti utilizzati Informatica e sistemi di elaborazione Conoscenza delle caratteristiche

Dettagli

CITTÀ DI AVIGLIANO. (Provincia di Potenza) METODOLOGIA PERMANENTE DI VALUTAZIONE DEL PERSONALE. (art. 6 C.C.N.L. 31/3/1999) SEZIONE I

CITTÀ DI AVIGLIANO. (Provincia di Potenza) METODOLOGIA PERMANENTE DI VALUTAZIONE DEL PERSONALE. (art. 6 C.C.N.L. 31/3/1999) SEZIONE I CITTÀ DI AVIGLIANO (Provincia di Potenza) METODOLOGIA PERMANENTE DI DEL PERSONALE (art. 6 C.C.N.L. 31/3/1999) SEZIONE I PRINCIPI GENERALI 1. Generalità Il Comune di Avigliano valuta il proprio personale

Dettagli

Crescita della produttività e delle economie

Crescita della produttività e delle economie Lezione 21 1 Crescita della produttività e delle economie Il più spettacolare effetto della sviluppo economico è stata la crescita della produttività, ossia la quantità di prodotto per unità di lavoro.

Dettagli

Pubblicazione di Linked Data in e-commerce: Progettazione e Sperimentazione (Riassunto)

Pubblicazione di Linked Data in e-commerce: Progettazione e Sperimentazione (Riassunto) Universitá degli Studi di Milano Bicocca Dipartimento di Informatica, Sistemistica e Comunicazione Corso di Laurea in Informatica Pubblicazione di Linked Data in e-commerce: Progettazione e Sperimentazione

Dettagli

Elementi di Algebra Relazionale

Elementi di Algebra Relazionale Note dalle lezioni di INFORMATICA (per gli allievi della classe quinta - indirizzo MERCURIO) Elementi di Algebra Relazionale prof. Stefano D.L.Campanozzi I.T.C. Giulio Cesare Bari - a.s. 2008-2009 1 Introduzione

Dettagli

Dispense del corso di Logica a.a. 2015/16: Problemi di primo livello. V. M. Abrusci

Dispense del corso di Logica a.a. 2015/16: Problemi di primo livello. V. M. Abrusci Dispense del corso di Logica a.a. 2015/16: Problemi di primo livello V. M. Abrusci 12 ottobre 2015 0.1 Problemi logici basilari sulle classi Le classi sono uno dei temi della logica. Esponiamo in questa

Dettagli

Algebra Booleana ed Espressioni Booleane

Algebra Booleana ed Espressioni Booleane Algebra Booleana ed Espressioni Booleane Che cosa è un Algebra? Dato un insieme E di elementi (qualsiasi, non necessariamente numerico) ed una o più operazioni definite sugli elementi appartenenti a tale

Dettagli

ESERCIZI DI ALGEBRA LINEARE E GEOMETRIA

ESERCIZI DI ALGEBRA LINEARE E GEOMETRIA ESERCIZI DI ALGEBRA LINEARE E GEOMETRIA Francesco Bottacin Padova, 24 febbraio 2012 Capitolo 1 Algebra Lineare 1.1 Spazi e sottospazi vettoriali Esercizio 1.1. Sia U il sottospazio di R 4 generato dai

Dettagli

Cenni di logica & algebra booleana

Cenni di logica & algebra booleana Cenni di algebra booleana e dei sistemi di numerazione Dr. Carlo Sansotta - 25 2 Parte Cenni di logica & algebra booleana 3 introduzione L elaboratore elettronico funziona secondo una logica a 2 stati:

Dettagli

Basi di Dati Multimediali. Fabio Strocco

Basi di Dati Multimediali. Fabio Strocco Basi di Dati Multimediali Fabio Strocco September 19, 2011 1 Contents 2 Introduzione Le basi di dati (o database) hanno applicazioni in molti campi, in cui è necessario memorizzare, analizzare e gestire

Dettagli

Linguaggi per il web oltre HTML: XML

Linguaggi per il web oltre HTML: XML Linguaggi per il web oltre HTML: XML Luca Console Con XML si arriva alla separazione completa tra il contenuto e gli aspetti concernenti la presentazione (visualizzazione). XML è in realtà un meta-formalismo

Dettagli