1 Introduzione Information Retrieval: promesse e problemi Presentazione del lavoro Sommario... 5

Dimensione: px
Iniziare la visualizzazioe della pagina:

Download "1 Introduzione 1 1.1 Information Retrieval: promesse e problemi... 1 1.2 Presentazione del lavoro... 3 1.3 Sommario... 5"

Transcript

1 Indice 1 Introduzione Information Retrieval: promesse e problemi Presentazione del lavoro Sommario Il recupero dell informazione Analisi dei diversi aspetti dell Information Retrieval Analisi della ricerca nel Web Tecniche di ricerca Il processo di ricerca Considerazione sulla semantica nell IR Caratterizzazione formale dei modelli di IR Modello booleano Il modello vettoriale Ricerca tramite matching di termini Ricerca Text Matching classica Latent Semantic Indexing Notazione Cos è la SVD Approssimazione di rango k Matrici di cambiamento di base Calcolo della SVD Latent Semantic Indexing Ricerca LSI Generazione ed uso della conoscenza terminologica Introduzione Analisi automatica globale i

2 ii INDICE 5.3 La struttura di un thesaurus Similarity Thesaurus Obiettivi della ricerca documenti Espansione di query mediante thesaurus La creazione del thesaurus e il concetto di conoscenza terminologica Criteri per migliorare la qualità della ricerca Updating 45 7 Implementazione 47 8 Analisi prestazionale Introduzione Metriche di valutazione Precision e recall Singoli valori riassuntivi Tecniche di ricerca a confronto Conclusioni e sviluppi futuri 57 A Glossario 59 Bibliografia 61 Elenco delle Tabelle 62 Elenco delle Figure 64

3 Capitolo 1 Introduzione Il testo è la principale forma di comunicazione della conoscenza. Iniziando dai geroglifici, le prime superfici scritte (pietre, legno, pelli di animali, papiri, carta di riso) e poi in seguito la carta, il testo è stato creato ovunque, in molte forme e linguaggi. Utilizziamo il termine documento per denotare una singola unità informativa, tipicamente testo in forma digitale, ma può anche includere altri media. In pratica vi è una non netta definizione di documento. Può essere una completa unità logica, come un articolo di ricerca, un libro o un manuale. Può anche essere parte di un testo più grande, come un paragrafo o una sequenza di paragrafi (anche detti passaggi del testo), la descrizione di un vocabolo in un dizionario, la descrizione di una parte di automobile, etc. Inoltre, rispetto alla sua rappresentazione fisica, un documento può essere ogni unità fisica, per esempio un file, una , una pagina Web, etc. 1.1 Information Retrieval: promesse e problemi Lo sviluppo dell informatica è stato, ed è tutt ora, un valido aiuto per la risoluzione di piccole e grandi problematiche. Le recenti tecnologie sviluppate negli ultimi anni hanno confermato il valente supporto dell informatizzazione, determinando un sempre più crescente utilizzo dei sistemi software. Questo ha comportato forti stravolgimenti in diversi campi, in particolare nel campo lavorativo, portando cambiamenti sia di tipo tecnico che di tipo gestionale. Esaminando ad esempio le innovazioni a cui sono andate incontro le aziende di piccole o medie dimensioni, un primo cambiamento che risulta evidente è la gestione della documentazione. Mentre prima i documenti erano disponibili nel solo formato cartaceo, oggi vi sono numerosi formati elettronici (tra cui txt, html, doc, pdf), in grado di consentire una trattazione delle informazioni completamente automatizzata. Ciò ha permesso una serie di operazioni e van- 1

4 2 Cap. 1: INTRODUZIONE taggi prima impensabili, come una facile accessibilità di documenti condivisi, la possibilità di effettuare modifiche e, soprattutto, grazie a Internet, il poter accedere agli stessi da qualsiasi computer collegato alla rete. Inoltre, grazie a sistemi per il recupero dei dati (Information Retrieval Systems), l accesso ai documenti, o meglio alle informazioni contenute nei documenti, è divenuto sempre più facile e veloce. Avendo il supporto informatico consentito un aumento esponenziale della quantità di documenti producibile e gestibile all interno di un azienda o una istituzione, sono sorte nuove problematiche. L efficienza dei sistemi per il recupero delle informazioni in modo particolare ha risentito negativamente della consistente crescita dei documenti, registrando l incapacità di ritrovare informazioni utili in un vasto insieme di documenti. Assume, in questo problema, importanza fondamentale la nozione di rilevanza per un documento: in passato bastava che un dato documento contenesse le parole chiave della interrogazione (query), affinchè fosse rilevante. Ora, con la mole di documenti sempre crescente, il semplice incorporamento di un termine (di una interrogazione) non garantisce la rilevanza. Ad esempio, una query con le seguenti parole chiave: Marilyn Monroe effettuata su un set di documenti che include la presente tesi, restituirebbe questa pagina, senza aver fornito al fruitore informazioni su Marylin Monroe. Quindi, se da un lato l informatizzazione ha migliorato la qualità (e la quantità) del lavoro, dall altro il conseguente incremento del numero dei documenti pone nuovi problemi: mentre prima era sufficiente ritrovare il documento rilevante per un dato compito, adesso la mole di documenti rilevanti è tale da necessitare un ordinamento degli stessi. Un altro aspetto da tenere in considerazione è l accessibilità dei sistemi di Information Retrieval. Mentre sino a poco tempo fa, l accesso a sistemi di Information Retrieval era riservato esclusivamente a pochi tecnici in grado di saper formulare in modo ottimale una query, oggi l accesso a tali sistemi è possibile anche ad utenti inesperti, per cui le interrogazioni rivolte spesso presentano ambiguità o risultano poco esatte. Questo tipo di interrogazioni hanno come conseguenza la scarsa relazione tra ciò che un utente si aspetta di ritrovare e la risposta ottenuta. A questo si aggiunge l intrinseca ambiguità di alcuni termini se considerati isolatamente (polisemia). Ad esempio la parola java può riferirsi indifferentemente a: un isola un linguaggio di programmazione un tipo di caffè Nasce quindi l esigenza di sviluppare sistemi per il recupero di informazione sempre più sofisticati, capaci di assistere l utente nella formulazione di una interrogazione e in grado di valutarne la semantica concettuale, ed il livello di attinenza dei documenti per tale ricerca.

5 1.2. PRESENTAZIONE DEL LAVORO Presentazione del lavoro In tale contesto si inserisce questo lavoro di tesi, che si prefigge come scopo quello di sviluppare un sistema per il recupero d informazioni portabile, con costi di realizzazione contenuti, utilizzabile attraverso Internet e capace di interpretare una interrogazione, di risolvere i problemi relativi alla ricerca di documenti rilevanti e in grado di eseguire una loro classificazione. Per raggiungere codesti obiettivi, si è scelto di utilizzare un thesaurus per poter acquisire una conoscenza terminologica dell interrogazione formulata dall utente. Un thesaurus è un insieme di termini correlati tra loro attraverso diverse relazioni, tra cui la similarità tra termini, i contrari, le parole spesso utilizzate insieme, etc. L utilizzo di un thesaurus per questo progetto è stato pensato in modo da interporsi tra la richiesta fatta al sistema e la sua risposta, al fine di rendere minima ogni possibile divergenza tra essi. Il tipo di relazione tra i termini che a noi più interessa, è quella che riesce a cogliere meglio le diversità dei concetti espressi dalle parole. Pertanto abbiamo deciso di sviluppare un thesaurus in cui la relazione tra i termini sia quella di similarità. Definendo quanto il significato di una parola sia vicina o distante dal significato di un altra, è possibile acquisire una conoscenza della parola in esame, senza entrare nel merito della sua semantica. Valutare quindi quanto una parola sia distante concettualmente da un altra, equivale a fornire una maggior comprensione del termine e diventa fondamentale ai fini di un buon comportamento del sistema. E importante che questa valutazione non venga fatta solo attraverso il confronto dei significati delle singole parole, ma venga realizzata anche in base alla collezione di documenti in cui si intende svolgere le ricerche. Fondamentale infatti, è che i termini siano relazionati al contenuto dei documenti e ancor di più, che le distanze tra i termini siano studiate in base alla documentazione presente. Per esempio, la parola albero in un contesto informatico ha un significato diverso da quello relativo alla vita quotidiana. Una prima scelta importante è stata quella di decidere in che modo costruire il thesaurus. Una possibilità era di crearlo manualmente, ma questa operazione avrebbe comportato lunghi tempi di realizzo, la necessità di esperti del settore cui la documentazione faceva riferimento e, soprattutto, grossi costi uniti a poca modularità (cambiare il set di documenti implicherebbe il cambio degli esperti). L alternativa era la creazione automatica del thesaurus e questa ci ha portato all approfondimento di alcune tecniche utilizzate nell Information Retrieval e in particolare dell algoritmo LSI (Latent Semantic Indexing). Questo algoritmo calcola la similarità tra documenti, a partire dall insieme dei documenti stessi e dall insieme delle parole contenute nel loro testo. Questo tecnica è capace di interpretare la semantica dei documenti proiettandoli in uno spazio vettoriale di dimensione ridotta in cui, informalmente, possiamo dire di aver filtrato il rumore costituito dai termini non significativi dal punto di vista informativo ma necessari da quello linguistico. Per esempio articoli, avverbi, il verbo essere in tutte le sue coniugazioni, congiunzioni, etc. I risultati prodotti da LSI sono ottimi e la sua applicazione in un Information Retrieval system migliora di molto le prestazioni, ritrovando informazioni

6 4 Cap. 1: INTRODUZIONE con un alto grado di rilevanza. Questo approccio però, ha dei tempi di computazione molto alti, pertanto la sua diretta applicazione per una ricerca diventa improponibile. L analisi di questo processo, ci ha portato a pensare ad LSI come metodo per elaborare le distanze tra termini. Come spiegato, LSI non calcola la similitudine tra i termini, ma la similitudine tra documenti. E però possibile modificare una fase della processo di calcolo al fine di ricavare, per tutti i termini più rilevanti di una collezione, il loro grado di similarità. Quindi con un processo analogo al calcolo della similarità tra documenti determiniamo la similarità tra i termini. In base a queste considerazioni, abbiamo ritenuto di utilizzare questa tecnica per generare in maniera automatica il nostro thesaurus. In questo modo riusciamo a generare un thesaurus strettamente correlato con i documenti, o, più precisamente, con la semantica dei documenti su cui vogliamo effettuare le ricerche. Inoltre, come già sottolineato in precedenza, la creazione automatica permette maggiore elasticità al progetto, minori costi e tempi di sviluppo. Tra i diversi vantaggi, questo approccio ci consente di superare le problematiche analizzate in precedenza, come il caso di interrogazioni ambigue e inesatte. Un utente con difficoltà nel trovare termini appropriati potrà trovare ugualmente documenti attinenti, perché sarà compito del thesaurus ricercare i termini più adatti a partire da quelli introdotti. La comprensione semantica, avviene cercando questi termini all interno del thesaurus ed esaminando tutte le relazioni che questi hanno con i termini vicini, presenti nel thesaurus. La richiesta viene così analizzata e in base alle relazioni trovate tra i termini, potrà essere eventualmente espansa, introducendo tutte le parole fortemente correlate ai termini stessi. Dopo questa analisi si determina l insieme di documenti rilevanti, i quali contengono sia le parole richieste in principio che le parole trovate in un secondo momento nel thesaurus. Un altro aspetto importante affrontato nella nostra tesi è la classificazione dei documenti. Per grandi quantitativi di dati, l ordine con cui vengono proposti all utente i documenti ritrovati assume un aspetto cruciale. L utente deve scegliere se un documento ritrovato è pertinente alla sua ricerca e la sua analisi inizierà verosimilmente dal primo della lista. Se non è presente un ordine, l utente è costretto a scandire tutto l insieme avuto in risposta dal sistema. Diventa importante quindi che i risultati ottenuti dal sistema siano ordinati in base alla loro rilevanza. Se è presente questo ordinamento l utente sarà facilitato nella sua ricerca, avendo molte probabilità di ritrovare l informazione necessaria ai primi posti. Il nostro progetto sviluppa una modalità di ordinamento di base a cui è possibile affiancare altre tre tipi di ordinamento definiti di supporto. L ordinamento di base calcola il peso di un documento in corrispondenza al peso delle parole contenute al suo interno. La tecnica utilizzata è quella di assegnare un peso diverso sia alle parole che descrivono la richiesta di informazione, sia alle parole trovate nel thesaurus. Al peso si fa corrispondere l importanza: più un documento ha un peso elevato, maggiore è la sua importanza. In questo modo è possibile stabilire un ordinamento tra i documenti ritrovati. Gli ordinamenti di supporto sono stati pensati con l intento di valutare l attinenza di un documento anche in base alla disposizione e la quantità delle parole trovate nel testo di un documento. Queste stime, adottate anche da alcuni motori di ricerca, quali ad esempio Google, riescono a discriminare in modo considerevole

7 1.3. SOMMARIO 5 l importanza dei documenti che si sta analizzando. La prima misura è il calcolo del numero di occorrenze di una parola all interno del documento. Dal numero di occorrenze possiamo capire se la parola è casuale in quel documento o se è pertinente alla ricerca. Nel caso che un utente stia cercando più parole all interno di un documento, un altra misura utilizzata è il calcolo della distanza tra le parole all interno dello stesso documento. La motivazione che ci ha spinto al calcolo di questa misura è l osservazione che la vicinanza delle parole può farci capire meglio quanto nel documento queste siano correlate. Nel contesto di una ricerca con più di due termini, risulta utile determinare anche la distanza tra le coppie di parole, perché spesso in questo tipo interrogazioni, alcuni termini hanno un ruolo discriminante e non associativo. Queste tre tecniche, attraverso la misura delle metriche definite, tentano di sintetizzare alcuni comportamenti tipici di un utente, interpretando il tipo di ricerca che l utente potrebbe eseguire. Il sistema si interfaccia con un web-server consentendo una facile consultazione attraverso Internet. Gli utenti che vi accedono possono richiedere i diversi tipi di documenti specificando un insieme di parole che descrivono l informazione di cui necessitano. La ricerca quindi si basa interamente sul contenuto dei documenti e non sulle loro caratteristiche. L approccio considerato, inquadra in pieno le tematiche che vogliamo affrontare in questo contesto, perché mette in luce gli aspetti relativi all attinenza tra la richiesta e la risposta. A fronte di quanto discusso, si è pensato di sviluppare un interfaccia in grado di tenere conto di tutti i diversi tipi di ricerche che è possibile effettuare. Dall esame dei diversi atteggiamenti, si intuisce che l utilizzo del thesaurus in una ricerca che non lo richieda, potrebbe disorientare la ricerca stessa, causando una forte irrilevanza. E quindi utile far scegliere all utente se utilizzare o meno la tecnica del thesaurus. E inoltre conveniente far scegliere all utente se e quali metriche utilizzare per la sua richiesta, senza la necessità di dover prevedere a priori quale potrebbe essere l atteggiamento dell utente. L interfaccia da noi sviluppata vuole essere semplice e di facile utilizzo. Ci proponiamo di mettere il fruitore del servizio nelle condizioni di decidere quale euristica attivare, assegnando un valore a ciascun delle euristiche (eventualmente nullo). A seconda dei valori scelti, sarà attribuita una diversa importanza a ciascuna euristica. Questi valori infatti, saranno utilizzati per operare un bilanciamento di questi tre criteri, per restituire in fine un ordinamento unico. La scelta di utilizzare una interfaccia il più possibile trasparente all utente, permette un duplice utilizzo. Se da una parte facilita la comprensione della interrogazione, facendo scegliere all utente il tipo di ricerca che si vuole effettuare, dall altra permette di sperimentare in quale condizioni sia valida un tipo di ricerca e di individuare quale metodo restituisce le risposte più rilevanti. Per di più, attraverso una fase di analisi del comportamento del sistema per i diversi valori assegnati alle euristiche, è possibile determinare quali sono i valori per cui si ottengono i migliori risultati. 1.3 Sommario Il Capitolo 2 è incentrato sulle tematiche inerenti all Information Retrieval, spiegando la necessità di determinare la rilevanza dell informazione e analizzando alcune delle tecniche utilizzate

8 6 Cap. 1: INTRODUZIONE nei diversi scenari applicativi. Nel Capitolo 4 viene analizzata la tecnica del Latent Semantic Indexing ed il suo utilizzo per la ricerca di documenti; sono spiegati gli elementi matematici che ne sono alla base (la Singular Value Decomposition), e ne viene data una spiegazione semi-rigorosa sul perchè riesca a migliorare la qualità di ricerca dei documenti. Nel Capitolo 5 terzo capitolo è presentato lo stato dell arte sulla generazione e l uso di conoscenza terminologica al fine di migliorare la qualità della ricerca, ed in particolare per una riformulazione più efficace della richiesta di informazione dell utente. In particolare si spiegano le motivazioni che ci hanno spinto alla scelta del thesaurus e il sistema adottato per la sua costruzione automatica. Vengono inoltre illustrate alcune funzionalità per migliorare la ricerca. Nel terzo capitolo è sviluppata un ampia panoramica degli strumenti software utilizzati per la realizzazione del progetto. Sono evidenziati, inoltre, i motivi che hanno portato alla loro scelta attraverso un attenta esamina delle differenze con le altre tecnologie esistenti. Nel quarto capitolo è esaminata l applicazione software realizzata, sono giustificate le scelte tecniche ed analizzati i problemi sorti durante la stesura del codice. In questo capitolo viene illustrato il principio di funzionamento di ogni modulo che compone il sistema, riportando stralci di codice in cui sono evidenziati gli aspetti più interessanti. Nel quinto capitolo viene mostrata la fase di testing del sistema, definendo l insieme di documenti con cui si è svolta la sperimentazione, spiegando gli indici relativi alla sperimentazione e mostrando grafici inerenti alle simulazioni effettuate. Infine l appendice completa la trattazione, descrivendo il pacchetto software realizzato e le operazioni di configurazioni da eseguire per renderlo funzionante.

9 Capitolo 2 Il recupero dell informazione Il recupero dell informazione affronta le problematiche inerenti l organizzazione, la rappresentazione, l immagazzinamento e l accesso dell elemento informazione. La rappresentazione e l organizzazione dell informazioni provvede infatti a facilitare l accesso alla informazione di cui un utente necessita. Tuttavia caratterizzare tale informazione non risulta un compito semplice. Un sistema software non è (al momento) in grado di comprendere una richiesta espressa in linguaggio naturale, quindi l interrogazione dell utente deve essere prima tradotta in una query che può esser processata dal sistema che recupera l informazione. Il modo più semplice per la traduzione della richiesta dal linguaggio naturale a un linguaggio che un sistema informatico può capire, consiste nel riformulare tale interrogazione come un insieme di parole (o keyword, o termini) idonee a descrivere il contenuto dell informazione desiderata. Tale compito è, nella maggioranza dei casi, lasciato all utente. Data una query, l obiettivo di un sistema per il recupero dell informazione (IR system) è di trovare l informazione più rilevante per l utilizzatore del sistema a seguito della query immessa. 2.1 Analisi dei diversi aspetti dell Information Retrieval L Information Retrieval si indirizza su due principali aspetti: il ritrovamento dei dati e il ritrovamento dell informazione. Il ritrovamento dei dati, nel contesto dell Information Retrieval system, si pone come obiettivo quello di determinare quali documenti contengono le parole utilizzate nella query, e ciò, nella maggior parte dei casi, non è sufficiente a soddisfare la necessità dell utente. Un linguaggio di data retrieval permette di recuperare tutti gli oggetti che soddisfano condizioni ben definite, come quelle date da espressioni regolari o da espressioni in algebra relazionale. Dunque, per un sistema di data retrieval, un singolo oggetto erroneamente recuperato (o non recuperato) su migliaia di oggetti, può significare un sistema fallimentare. Il ritrovamento dell informazione, sposta invece il punto di vista sul concetto che la query 7

10 8 CAP. 2: IL RECUPERO DELL INFORMAZIONE vuole descrivere, cercando di interpretarne il contenuto semantico, per poter restituire i documenti più attinenti a tale argomento. La principale differenza tra questi due approcci è nella modalità di intendere la richiesta: il ritrovamento dei dati vede la richiesta come una semplice ricerca di una o più parole all interno dei documenti, il ritrovamento dell informazione cerca di capire a quale informazione si vuole accedere; mentre la teoria delle basi di dati ha a che fare con richieste sotto forma di precisi predicati, nell Information Retrieval si ha a che fare con il nebuloso e mal definito concetto di rilevanza, che dipende in modo intricato dall intento dell utente e dalla natura del corpus. Per un sistema di Information Retrieval, dunque, gli elementi recuperati possono essere inaccurati e piccoli errori possono rimanere del tutto non notati. Un aspetto importante da evidenziare, che ha fortemente influenzato i metodi per la ricerca dei documenti, è il considerevole incremento della mole di dati da memorizzare e da gestire che si è registrato negli ultimi anni. Questo ha comportato lo sviluppo di particolari sistemi software, ovvero i database, in grado di migliorare la gestione dei dati, archiviandoli e strutturandoli in maniera omogenea. Un buona organizzazione dei dati migliora il sistema di ritrovamento, tuttavia non soddisfa le richieste di ricerca inerenti al testo di un documento. Questi sistemi infatti, non riescono a discriminare i documenti per il loro contenuto, ma solo per le loro caratteristiche generali. Il compito di ricercare un documento che contenga una specifica informazione al suo interno è lasciato all utente, ma il grande quantitativo dei dati può rendere improponibile una ricerca manuale. In questo scenario l IR è stato di grande ausilio, perché prende in considerazione anche il testo dei documenti. Tuttavia, con interrogazioni poco selettive, l IR system potrebbe dare in risposta molti documenti, di cui non si conosce a priori il grado di rilevanza. Anche in questo caso, è l utente a dover cercare, tra tutti i documenti restituiti, quello più attinente alla sua richiesta. Nasce così l esigenza di ordinare i documenti ritrovati in base alla loro rilevanza. Le difficoltà per raggiungere questo obiettivo, è sia nel capire quale informazione l utente vuole ritrovare, sia nel decidere, per ogni documento ritrovato, quale è il suo grado di rilevanza rispetto a tale informazione. 2.2 Analisi della ricerca nel Web L IR, sebbene molto utilizzato, in passato ha avuto poca considerazione negli ambienti della ricerca, perché applicabile ad una ristretta area di interesse. Questa considerazione è stata prevalente per molti anni, nonostante la rapida crescita dell informatizzazione e il forte utilizzo dei personal computer. All inizio degli anni 90, però, un fatto determinante ha cambiato una volta per tutte questa opinione: la nascita del Word Wide Web. Il Web sta diventando un universale repository di conoscenza umana e culturale che ci ha portato a una condivisione di idee e di informazione in una espansione senza precedenti: ognuno può creare propri documenti

11 2.2. ANALISI DELLA RICERCA NEL WEB 9 Web, pubblicarli e farli puntare a qualsiasi altro documento Web senza alcuna restrizione. Questo è un aspetto chiave, in quanto trasforma il Web in un nuovo mezzo di pubblicazione, accessibile a chiunque. Questo grande successo del Web ha tuttavia introdotto nuove problematiche. Trovare informazioni utili sul Web è spesso un compito tedioso e difficile. L utente è spesso costretto, per soddisfare la sua necessità di informazione, a navigare di link in link alla ricerca, talvolta vana, di ciò che lo interessa; ciò può rivelarsi un ostacolo insormontabile, soprattutto per gli utenti alle prime armi. L ostacolo principale è l assenza di un ben definito modello per la presentazione dei dati sul Web, che implica una spesso scarsa qualità della definizione e strutturazione dei dati. Un passo per facilitare la ricerca nel web è stato fatto attraverso lo sviluppo di XML, un linguaggio che fornisce la possibilità di rappresentare ogni tipo di documento o dato, proteggendo le informazioni dalle evoluzioni tecnologiche. XML è una estensione dell HTML, ma a differenza dell HTML non si occupa di descrivere la formattazione del testo, ma di descrivere il ruolo logico degli elementi associati. Da questo segue che le applicazioni possono riconoscere i dati all interno dei documenti, potendo quindi svolgere operazioni che non sarebbero mai stati capaci di svolgere prima. Tuttavia un grande ostacolo resta l assenza di un modello ben definito di dati per il Web. Infatti sul Web può essere messo materiale creato da chiunque e considerando che la gran parte di utenti sono dilettanti, spesso si ha una bassa qualità della informazione e della struttura dei dati. Un altra questione che si affronta nel Web è il Ranking delle pagine, che tratta la problematica di attribuire un ordine ai risultati ottenuti da una ricerca. Molti algoritmi, sviluppati per risolvere il problema, calcolano l ordinamento dei risultati esaminando l importanza di ciascuna pagina. L importanza di una pagina Web viene determinata considerando il contenuto e l interesse che questa ha suscitato nei lettori. In tal modo, è possibile stabilire un ordine delle pagine ritrovate, in base all effettiva attenzione ed importanza che queste hanno riscosso. Seguendo come obiettivo quello di filtrare le pagine più attinenti per la ricerca, si sono sviluppati algoritmi che prendono in esame la struttura del WWW, che ha come caratteristica fondamentale il collegamento ( link) tra le diverse paginone. E possibile infatti, analizzare tale struttura per estrarre informazioni utili circa le pagine che trattano un determinato argomento, focalizzando quelle più autorevoli. In generale, queste tecniche calcolano l importanza di una pagina in base all importanza delle pagine che puntano ad essa. In questo modo, se una pagina ritenuta autorevole ha un link ad un altra, quest ultima assume una importanza maggiore rispetto al caso in cui ha un link con una pagina poco autorevole [7] [8]. L analisi della ricerca nel Web presenta scenari e problematiche assai ampie e complesse, ma gli sforzi nello studio di tecniche innovative nel campo dell IR stanno portando la ricerca nel Web a livelli sempre più accurati. Tuttavia, le tecniche che tendono a migliorare la qualità della ricerca devo essere compatibili con tempi di risposta accettabili per il Web, che sono molto rigidi. In media infatti, si può affermare che se un utente entro alcuni secondi di attesa non riceve una risposta, tende a cambiare la sua ricerca, riformulandola in maniera diversa o andando su un altro sito. Questo

12 10 CAP. 2: IL RECUPERO DELL INFORMAZIONE tipo di atteggiamento, rende i tempi di attesa determinanti ai fini di una ricerca soddisfacente nel Web. Tuttavia, non è sempre possibile conciliare buoni algoritmi con tempi di risposta accettabili e sono molti i casi in cui questo compromesso non viene raggiunto. Di conseguenza, metodi validi nell IR, ma con tempi di computazione molto lunghi, non possono essere utilizzati nella ricerca nel Web [9]. 2.3 Tecniche di ricerca Il recupero dell informazione ha avuto la sua crescita seguendo come obiettivo primario l indicizzazione del testo e il ritrovamento dei documenti più utilizzati in una collezione. Ad oggi, la ricerca in Information Retrieval include modellazione, classificazione e catalogazione dei documenti, visualizzazione dei dati, filtraggio, etc. In questo paragrafo esamineremo alcune delle tecniche più significative. Il recupero dell informazione è un problema che può essere affrontato su diversi livelli, in funzione del grado di rilevanza che la risposta vuole soddisfare. Una delle tecniche più semplici per il ritrovamento dei documenti è il Full Text Scanning. Tale tecnica consiste in una prima fase, in cui vengono memorizzate le parole e le caratteristiche dei documenti in un database e in una seconda fase, in cui si esaminano le parole memorizzate confrontandole con l insieme di parole scelto per la query. Se un documento contiene anche solo una di queste parole, viene restituito. Sebbene semplice, i tempi di risposta di una ricerca eseguita con il Full Text Scanning diventano improponibili per Data Base di dimensioni molto grandi. Una estensione di questa tecnica è rappresentata dall Inversion. L idea di base è pensare un documento come caratterizzato da una lista di parole chiave, le quali riescono a descrivere il contenuto del documento. Le parole chiave sono memorizzate in un file e per ognuna, viene mantenuto un collegamento al documento caratterizzato dalla parola stessa. Un ritrovamento veloce può essere fatto indirizzando la ricerca solo su queste parole chiave. Questo metodo è utilizzato dalla maggior parte dei sistemi in commercio. Un altra tecnica utilizzata è il Clustering (raggruppamento), in cui documenti simili vengono raggruppati insieme. Questo raggruppamento viene giustificato con il presupposto che documenti simili tendono a essere rilevanti per lo stesso tipo di ricerca. Raggruppando documenti simili si accelera il ritrovamento. Le tecniche analizzate fin ora associano a ciascun documento poche informazioni. Questa tendenza è stata superata dai più recenti metodi, i quali cercano di catturare maggiori dati da un documento, per ottenere performance migliori. L obiettivo è quello di cogliere il significato semantico dell informazione richiesta, interpretando la collezione di documenti su cui va ricercata. Per catturare maggiore informazione vengono utilizzati gli spazi vettoriali. Tra i metodi più importanti citiamo Latent Semantic Indexing (LSI). Questa tecnica, tra tutte quelle che utilizzano lo spazio vettoriale, ha ottenuto i risultati migliori. Data una collezione di documenti, viene formata una matrice termine-documento, i cui valori sono rappresentati da numeri interi che determinano le occorrenze di uno specifico termine in uno specifico documento. I singoli el-

13 2.4. IL PROCESSO DI RICERCA 11 ementi di questa matrice vengono poi elaborati e i valori più piccoli vengono eliminati. I vettori e i valori risultanti nella matrice, sono utilizzati per mappare la frequenza dei vettori di termini all interno dei documenti, in un sottospazio in cui sono preservate le relazioni semantiche per la matrice termine-documento. I vettori di termini che hanno forti variazione sono soppressi. Su questi dati vengono poi compiute operazioni di similarità tra i documenti e i documenti possono poi essere classificati in ordine di somiglianza decrescente. 2.4 Il processo di ricerca Per descrivere il processo di ricerca, utilizziamo una semplice e generica architettura software mostrata in figura. Innanzitutto, prima che inizi il processo di retrieval vero e proprio, è necessario definire la base di dati dei testi. Ciò viene generalmente effettuato dal manager del database che specifica: 1. i documenti da indicizzare; 2. le operazioni da effettuare sul testo, le quali trasformano i documenti originari, generando una vista logica su di essi; 3. il modello di testo (la struttura del testo e quali elementi possono essere recuperati).

14 12 CAP. 2: IL RECUPERO DELL INFORMAZIONE Una volta definita una vista logica dei documenti, il DB Manager genera un indice dei testi. Un indice è una struttura critica poichè consente una ricerca rapida su enormi volumi di dati. Si possono utilizzare differenti strutture di indice, ma la più popolare è la cosiddetta inverted file. Si noti che le risorse (di tempo e di spazio di memorizzazione) spese nella costruzione dell indice vengono ammortizzate dalle numerose richieste rivolte al sistema di retrieval. Una volta costruito l indice, il processo di ricerca può essere iniziato. L utente definisce inizialmente la sua necessità informativa, la quale viene poi analizzata e trasformata tramite le stesse operazioni applicate al testo. Successivamente, si possono effettuare operazioni sulle query prima che sia generata la query finale, la quale fornisce una rappresentazione per il sistema della necessità dell utente. La query è poi processata al fine di ottenere i documenti richiesti. Un veloce processamento della query è reso possibile dall indice precedentemente costruito. Prima di essere forniti all utente, i documenti recuperati possono essere ordinati in base ad una misura di somiglianza. L utente quindi esamina l insieme dei documenti restituiti, in cerca di informazioni utili. A questo punto, è possibile che l utente selezioni un sottoinsieme dei documenti ricevuti come di interesse, dando inizio così ad un ciclo di feedback. In tale ciclo, il sistema utilizza i documenti selezionati dall utente per modificare la query, al fine di renderla più adatta al recupero delle reali informazioni necessarie all utente. 2.5 Considerazione sulla semantica nell IR Le tecniche di IR tendano ad essere più efficaci qualora si prefiggano come obiettivo quello di catturare più informazioni possibili dal documento per meglio cogliere la sua semantica [2]. Questa strada è seguita anche dalle tecniche per l analisi del linguaggio naturale, le quali tentano di cogliere il contenuto semantico della interrogazione, per confrontarlo con il contenuto semantico del documento. In realtà la distinzione tra l analisi del linguaggio naturale e le tecniche dell IR non è così netta. Un esempio dell integrazione tra le tecniche per il recupero dell informazione e il processamento del linguaggio, è dato dall uso di frasi come termini indicizzanti per i documenti [2]. L utilizzo di una frase come query porta come beneficio un maggiore contenuto semantico, ma potrebbero esserci dei riscontri negativi, come ad esempio il rischio che l alta specificazione della frase comporti una riduzione delle performance del ranking. Un risultato che l IR deve raggiungere, consiste nel riuscire, data una query, a capire il suo significato semantico e restituire uno o più documenti attinenti alla richiesta, ritenuti rilevanti rispetto al resto della collezione in base ad una modellazione della semantica dei contenuti di ciascun documento. Nei tradizionali sistemi di IR, usualmente si adottano indici per il recupero dei documenti. In senso stretto, un indice è una parola chiave la quale racchiude un proprio significato al suo interno. In senso più generale, un indice è una parola che compare all in-

15 2.6. CARATTERIZZAZIONE FORMALE DEI MODELLI DI IR 13 terno di un documento di una collezione. Di regola, la scelta dell indice ricade sulla parola maggiormente presente nel documento. Definito un indice, questo viene collegato ad uno o più documenti. In questo modo, se nell interrogazione fatta dall utente è presente uno degli indici definiti, vengono velocemente restituiti i documenti con cui l indice è stato collegato. Quindi la parola che si scegli come indice è tale che il suo significato possa rappresentare il contenuto del documento a cui indicizza. Il ritrovamento basato sugli indici è molto semplice, ma fa sorgere alcune problematiche. Per esempio, nel ritrovamento dei documenti utilizzando gli indici si assume come idea fondamentale che, sia la semantica di un documento, sia l informazione di cui si ha bisogno, possano essere naturalmente espressi attraverso un insieme di parole. Chiaramente questa è una considerazione molto semplificata del problema, perché la semantica espressa nella richiesta e la semantica espressa nel documento, è molto bassa quando viene sintetizzata da un insieme di parole [19]. Per ciò che riguarda la semantica della richiesta fatta utilizzando un insieme di parole chiave, spesso c è difficoltà da parte dell utente a trovare i termini più adatti per esprimere l informazione ricercata. In tali condizione è più facile incorrere in documenti irrilevanti. Per ciò che riguarda la semantica del documento, talvolta il suo significato non può essere direttamente espresso dalle parole presenti al suo interno. Ad esempio, un documento che tratta di programmazione, potrebbe non contenere la parola PROGRAMMAZIONE. Quindi i risultati ottenuti dalle ricerche che considerano l attinenza di un documento confrontando gli indici, potrebbero portare un certo grado di irrilevanza. Da qui nasce l esigenza di studiare la semantica di una richiesta in relazione alla semantica della collezione di documenti. L introduzione dei Thesaurus, ha permesso di superare molte difficoltà, consentendo di trovare una maggiore affinità tra la richiesta e la risposta. Questo argomento sarà trattato nel capitolo seguente. 2.6 Caratterizzazione formale dei modelli di IR Si è intuito che le premesse fondamentali che formano le basi di un algoritmo di ranking, determinano il modello di Information Retrieval. Analizzeremo ora differenti insiemi di tali premesse. Tuttavia, prima di far ciò bisogna definire con precisione cosa sia un modello di Information Retrieval. Definizione 1. Un modello per l information retrieval è una quadrupla [D, Q, F, R(q i, d j )] dove: D è un insieme costituito da viste logiche (o rappresentazioni) dei documenti della collezione. Q è un insieme costituito da viste logiche (o rappresentazioni) delle necessità informative dell utente. Tali rappresentazioni sono dette queries. F è un framework per modellare le rappresentazioni dei documenti, le queries e le relazioni tra loro.

16 14 CAP. 2: IL RECUPERO DELL INFORMAZIONE R(q i, d j ) è una funzione di ranking che associa un numero reale con una query q i Q e la rappresentazione di un documento d j D. Tale ranking definisce un ordine tra i documenti rispetto ad ogni query q i. Per costruire un modello pensiamo dapprima alle rappresentazioni dei documenti ed alle necessità dell utente. Date queste rappresentazioni, elaboriamo poi il framework in cui possono essere modellati. Questo framework dovrebbe anche fornire l idea per costruire una funzione di ranking. Per esempio, per il modello classico Booleano, il framework è composto da insiemi dei documenti e da operazioni standard sugli insiemi. Per il modello classico vettoriale, il framework è composto da uno spazio vettoriale m-dimensionale e da operazioni sui vettori derivate dall algebra lineare. Vediamo ora i due principali modelli classici per l Information Retrieval. Essi sono caratterizzati dalla considerazione che ogni documento è descritto tramite un insieme di parole chiave (keywords) rappresentative, detti termini index terms. Un termine è semplicemente una parola la cui semantica aiuta a ricordare gli argomenti principali di un documento. Dunque i termini sono utilizzati per indicizzare e riassumere il contenuto di un documento. In generale i termini sono essenzialmente nomi, poichè solo essi hanno significato in quanto tali, e quindi è più facile carpire la loro semantica. Aggettivi, avverbi, congiunzioni sono meno utili dei termini in quanto funzionano principalmente come complementi. Tuttavia, può essere interessante considerare tutte le parole distinte in una collezione di documenti come termini. Questo è ad esempio l approccio seguito dalla maggioranza dei motori di ricerca Web (in questo caso la vista logica dei documenti è detta full text). Dato un insieme di termini per un documento, osserviamo che non tutti i termini sono ugualmente utili per descrivere il contenuto di un documento. Infatti vi sono termini che possono essere più vaghi di altri. Decidere sull importanza di un termine per riassumere il contenuto di un documento non è un problema banale. Nonostante questa difficoltà, vi sono proprietà di un termine che possono essere facilmente misurate e che sono utili per valutare le potenzialità di un termine come tale. Si consideri, ad esempio, una collezione con centinaia di migliaia di documenti. Una parola che appare in ognuno delle centinaia di migliaia di documenti, è completamente inutile come termine, poichè non dice nulla su quale documento l utente possa essere interessato. D altro canto, una parola che appare in una manciata di documenti è pienamente utile, in quanto restringe considerevolmente lo spazio dei documenti a cui può essere interessato l utente. Dunque, dovrebbe esser chiaro che termini distinti hanno varia rilevanza quando utilizzati per descrivere i contenuti dei documenti.

17 2.6. CARATTERIZZAZIONE FORMALE DEI MODELLI DI IR 15 Questo effetto viene catturato attraverso l assegnazione di pesi numerici ad ogni termine del documento. Sia k i un termine, d j un documento e w i,j 0 un peso associato alla coppia (k i, d j ). Dunque un peso quantifica l importanza di un termine per descrivere il contesto semantico del documento. Definizione 2. Sia m il numero dei termini distinti in una collezione, e K = k 1,..., k t l insieme di tutti i termini. Un peso w i,j > 0 è associato ad ogni termine k i di un documento d j. Per ogni termine che non compare nel testo del documento d j, w i,j = 0. Con il documento d j è associato un vettore di termini d j = (w 1,j, w 2,j,..., w m,j ). Inoltre, sia g i la funzione che restituisce il peso associato al termine k i in ogni vettore m- dimensionale (g i ( d j ) = w i,j ). Come vedremo in seguito, i pesi dei termini si considerano mutuamente indipendenti. Ciò significa che conoscere il peso w i,j associato alla coppia (k i, d j ) non ci dice nulla riguardo al peso w i+1, j associato alla coppia (k i+1, d j ). Questa è chiaramente una semplificazione perchè le occorrenze dei termini in un documento sono chiaramente correlate, basti pensare ai termini HOME e PAGE in una collezione di documenti aventi a che fare con Internet. Spesso, in tali documenti, la presenza di un termine comporterà la presenza anche dell altro termine, e dunque queste due parole sono correlate, ed i loro pesi dovrebbero riflettere questa correlazione. Mentre la mutua indipendenza sembra essere una forte semplificazione, semplifica il compito di calcolare i pesi dei termini e permette un veloce calcolo del ranking. Tuttavia, avvantaggiarsi della correlazione tra i termini per migliorare la classificazione finale dei documenti, non è un compito semplice. Infatti, nessuno dei molti approcci proposti in passato ha chiaramente dimostrato che le correlazioni fra termini siano vantaggiose per collezioni generiche di documenti. Vedremo tuttavia come nuove tecniche, tra cui quella proposta in questo lavoro, sembrano rivelarsi di successo con particolari collezioni di documenti. Ciò non può che far pendere la credenza attuale verso una visione più favorevole dell utilità delle correlazioni fra termini nei sistemi di Information Retrieval Modello booleano Il modello booleano è un semplice modello di IR basato sulla teoria degli insiemi e sull algebra di Boole, il cui concetto è molto intuitivo, e facile da carpire per un utente comune di un sistema di IR. Il modello booleano considera i termini assenti o presenti in un documento. Come risultato, i pesi dei termini si presumono essere binari: w i,j {0, 1}.

18 16 CAP. 2: IL RECUPERO DELL INFORMAZIONE Una query q una espressione booleana composta di termini collegati fra loro dai tre operatori booleani not, and, or, che può anche essere rappresentata in forma disgiuntiva normale (DNF - disjunctive normal form). Per esempio, la query [q = k a (k b k c )] può essere scritta in DNF come [ q dnf = (1, 1, 1) (1, 1, 0) (1, 0, 0)], dove ogni elemento è una vettore binario associato alla tupla (k a, k b, k c ). Questi vettori binari sono chiamati componenti congiuntive di q dnf. Sia dunque q cc ognuna delle componenti congiuntive di q dnf. La similarità di un documento d j rispetto ad una query q è definita come: { 1 se q cc ( q cc q dnf ) ( ki, g i ( d sim(d j, q) = j ) = g i ( q cc ) ) (2.1) 0 altrimenti Se sim(d j, q) = 1 il modello booleano assume che il documento d j sia rilevante per la query q (potrebbe in realtà non esserlo). Altrimenti, assume che il documento sia non rilevante. In seguito alla sua inerente semplicità ed al formalismo pulito, il modello Booleano ha ricevuto grande attenzione negli anni passati ed è stato adottato da molti dei primi sistemi bibliografici commerciali. Sfortunatamente questo modello soffre di numerosi inconvenienti. Innanzitutto la sua strategia di ricerca è basata su di un criterio di decisione binaria (un documento può cioè essere rilevante o non rilevante ); non esiste la nozione di matching parziale di un documento rispetto ad una query, non vi soprattutto una possibilità di ranking, condizione necessaria per una buona ricerca. Dunque il modello booleano può esser più considerato come un modello di ricerca dei dati, più che di informazione. I sistemi commerciali spesso tentano di aggirare questo problema, generando un ordinamento associato con qualche metadato descrittivo, o più semplicemente un ordine cronologico inverso (spesso utilizzato nei sistemi che indicizzano news o giornali, in cui la data di pubblicazione è una delle caratteristiche salienti del documento). Vi è poi il non banale problema di tradurre una necessità di informazione in una espressione booleana. Infatti studi hanno dimostrato che molti utenti trovano difficile e scomodo esprimere le loro richieste in termini di espressioni booleane, e spesso hanno un idea sbagliata di quali siano i risultati, per cui si giunge in pratica, a formulare le queries in modo banale, senza sfruttare minimamente le possibilità offerte dall algebra booleana. Le queries booleane sono problematiche per molte ragioni. Tra tutte la maggiore è quella che molte persone trovano la sintassi base controintuitiva. Soprattutto gli utenti di lingua inglese, assumono la semantica della lingua comune nell uso dei vocaboli AND e OR, piuttosto che i loro equivalenti logici. Per gli utenti inesperti, utilizzare AND implica l allargamento del campo d azione della query. Ad esempio la richiesta DOG AND CAT può significare l interesse per documenti che riguardano cani e documenti che riguardano gatti, piuttosto che documenti che riguardino entrambi. Così

19 2.6. CARATTERIZZAZIONE FORMALE DEI MODELLI DI IR 17 TEA OR COFFEE può implicare una scelta mutuamente esclusiva nel linguaggio di ogni giorno. In aggiunta molti linguaggi di query che incorporando operatori booleani richiedono all utente anche di specificare una complessa sintassi per altri tipi di connettori e per i metadati. Molti utenti non sono inoltre familiari con l uso delle parentesi, per valutazioni annidate, nè con la nozione di precedenza fra operatori. I progettisti di motori di ricerca Web, sapendo di dover avere a che fare con un audience di massa in possesso di scarsa esperienza nella specifica delle queries, si sono adattati ad approcci più intuitivi. Piuttosto che forzare gli utenti a specificare complesse combinazioni di AND e OR, consentono agli utenti di scegliere da una selezione di semplici modi di combinare i termini, tipo tutte le parole (ovvero poni tutti i termini in AND ) o almeno una delle parole (ovvero poni tutti i termini in OR ), o l ormai divenuto famoso operatore + utilizzato dal motore di ricerca Altavista. Nonostante questi problemi il modello booleano ancora il modello dominante nei sistemi commerciali e costituisce un buon punto di partenza per chi inizia a studiare la materia Il modello vettoriale Il modello vettoriale parte dall assunzione che l uso di pesi binari è troppo limitante, e propone un framework in cui sia reso possibile un matching parziale. Ciò ottenuto assegnando pesi non binari ai termini nelle queries e nei documenti. Questi termini sono infine usati per calcolare il grado di similarità tra ogni documento indicizzato e una query utente. Ordinando i documenti recuperati in ordine discendente di similarità, tale modello tiene in considerazione documenti che soddisfano anche solo parzialmente i termini della query. Ciò produce, come primo effetto positivo, un insieme ordinato di documenti recuperati assai più preciso 1 dell insieme ottenuto tramite modello booleano. Per il modello vettoriale, il peso w i,j associato alla coppia (k i, d j ) è positivo e non binario. Inoltre sono pesati anche i termini della query. Sia w i,q 0 il peso associato alla coppia (k i, q). Allora il vettore query q è definito come q = (w 1,q, w 2,q,..., w m,q ) dove m è il numero totale di termini indicizzati nel sistema. Come prima, il vettore relativo al documento d j è rappresentato come d j = (w 1,j, w 2,j,..., w m,j ). Dunque un documento d j ed una query q sono rappresentati come vettori m-dimensionali. Il modello vettoriale propone di valutare il grado di similarità del un documento d j rispetto ad una query q come la correlazione tra i vettori d j e q. Tale distanza può esser quantificata, ad esempio, con il coseno dell angolo tra i due vettori: sim(d j, q) = d j q d j q = m i=1 w i,j w i,q m i=1 w2 i,j m j=1 w2 i,q (2.2) 1 sarà data in seguito una definizione esatta del vocabolo precisione nell ambito dell Information Retrieval; si interpreti per ora come insieme che meglio soddisfa la necessità di informazione dell utente;

20 18 CAP. 2: IL RECUPERO DELL INFORMAZIONE avendo indicato con d j e q le norme di tali vettori. Si osservi come, mentre il fattore d j fornisce una normalizzazione nello spazio dei documenti, il fattore q non ha influenza sul ranking dei documenti poichè rimane costante per tutti i documenti. Si osservi inoltre che, poichè w i,j 0 e w i,q 0, sim(q, d j ) è compreso fra 0 e 1. Dunque invece di stabilire se un documento sia o non sia rilevante, il modello vettoriale classifica i documenti in base al loro grado di similarità rispetto alla query. Un documento può esser recuperato anche se soddisfa solo parzialmente la query. Si può ad esempio stabilire una soglia su sim(d j, q) e riportare i documenti con un grado di similarità sopra tale soglia. Ma per calcolare un ordinamento, bisogna prima definire come ottenere i pesi per i termini. I pesi per i termini possono essere ottenuti in diversi modi. [7] analizza varie tecniche di termweighting. Pur non analizzandole in dettaglio, scopriamo l idea alla base delle più efficaci tecniche di termweighting. L idea è collegata ai principi di base che supportano le tecniche di clustering. Data una collezione C di oggetti, e una descrizione non ben definita di un insieme A 2, l obbiettivo di un semplice algoritmo di clustering è quello di separare la collezione C in due insiemi: un primo insieme composto da oggetti in relazione con A, ed un secondo insieme composto da oggetti non in relazione con il set A. Algoritmi di clustering più complessi possono tentare di separare gli oggetti di una collezione in più classi, tuttavia noi ci riferiamo alla versione più semplice del problema di clustering (quella che considera solo due classi), perchè tutto ciò che ci viene richiesto è una decisione su quali documenti possano essere rilevanti e quali no. Per vedere il problema di IR come un problema di clustering, consideriamo i documenti come una collezione C di oggetti e vediamo la query utente come una non ben definita specifica dell insieme A (i documenti rilevanti). Si può così ridurre il problema alla determinazione di quali documenti sono nell insieme A e quali non lo sono. Vi sono due problemi fondamentali da risolvere: 1. si deve determinare quali sono le caratteristiche che meglio descrivono gli oggetti nell insieme A; 2. si deve determinare quali sono le caratteristiche che meglio distinguono gli oggetti nell insieme A dai rimanenti oggetti della collezione C. Il primo insieme di caratteristiche dà una quantificazione della similarità intra-cluster, mentre il secondo insieme di caratteristiche quantifica la dissimilarità inter-cluster. Per un clustering efficiente, si deve tentare di bilanciare questi due effetti. 2 con ciò intendiamo dire che non abbiamo una informazione completa per decidere precisamente quali oggetti appartengono e quali non appartengono all insieme

Indicizzazione terza parte e modello booleano

Indicizzazione terza parte e modello booleano Reperimento dell informazione (IR) - aa 2014-2015 Indicizzazione terza parte e modello booleano Gruppo di ricerca su Sistemi di Gestione delle Informazioni (IMS) Dipartimento di Ingegneria dell Informazione

Dettagli

Text mining ed analisi di dati codificati in linguaggio naturale. Analisi esplorative di dati testualilezione

Text mining ed analisi di dati codificati in linguaggio naturale. Analisi esplorative di dati testualilezione Text mining ed analisi di dati codificati in linguaggio naturale Analisi esplorative di dati testualilezione 2 Le principali tecniche di analisi testuale Facendo riferimento alle tecniche di data mining,

Dettagli

Analisi dei requisiti e casi d uso

Analisi dei requisiti e casi d uso Analisi dei requisiti e casi d uso Indice 1 Introduzione 2 1.1 Terminologia........................... 2 2 Modello del sistema 4 2.1 Requisiti hardware........................ 4 2.2 Requisiti software.........................

Dettagli

Dall italiano alla logica proposizionale

Dall italiano alla logica proposizionale Rappresentare l italiano in LP Dall italiano alla logica proposizionale Sandro Zucchi 2009-10 In questa lezione, vediamo come fare uso del linguaggio LP per rappresentare frasi dell italiano. Questo ci

Dettagli

Sistemi di supporto alle decisioni Ing. Valerio Lacagnina

Sistemi di supporto alle decisioni Ing. Valerio Lacagnina Cosa è il DSS L elevato sviluppo dei personal computer, delle reti di calcolatori, dei sistemi database di grandi dimensioni, e la forte espansione di modelli basati sui calcolatori rappresentano gli sviluppi

Dettagli

Applicazione: Share - Sistema per la gestione strutturata di documenti

Applicazione: Share - Sistema per la gestione strutturata di documenti Riusabilità del software - Catalogo delle applicazioni: Gestione Documentale Applicazione: Share - Sistema per la gestione strutturata di documenti Amministrazione: Regione Piemonte - Direzione Innovazione,

Dettagli

(anno accademico 2008-09)

(anno accademico 2008-09) Calcolo relazionale Prof Alberto Belussi Prof. Alberto Belussi (anno accademico 2008-09) Calcolo relazionale E un linguaggio di interrogazione o e dichiarativo: at specifica le proprietà del risultato

Dettagli

Algebra Relazionale. algebra relazionale

Algebra Relazionale. algebra relazionale Algebra Relazionale algebra relazionale Linguaggi di Interrogazione linguaggi formali Algebra relazionale Calcolo relazionale Programmazione logica linguaggi programmativi SQL: Structured Query Language

Dettagli

Relazione sul data warehouse e sul data mining

Relazione sul data warehouse e sul data mining Relazione sul data warehouse e sul data mining INTRODUZIONE Inquadrando il sistema informativo aziendale automatizzato come costituito dall insieme delle risorse messe a disposizione della tecnologia,

Dettagli

DBMS (Data Base Management System)

DBMS (Data Base Management System) Cos'è un Database I database o banche dati o base dati sono collezioni di dati, tra loro correlati, utilizzati per rappresentare una porzione del mondo reale. Sono strutturati in modo tale da consentire

Dettagli

Applicazione: DoQui/Index - Motore di gestione dei contenuti digitali

Applicazione: DoQui/Index - Motore di gestione dei contenuti digitali Riusabilità del software - Catalogo delle applicazioni: Applicativo verticale Applicazione: DoQui/Index - Motore di gestione dei contenuti digitali Amministrazione: Regione Piemonte - Direzione Innovazione,

Dettagli

ORACLE BUSINESS INTELLIGENCE STANDARD EDITION ONE A WORLD CLASS PERFORMANCE

ORACLE BUSINESS INTELLIGENCE STANDARD EDITION ONE A WORLD CLASS PERFORMANCE ORACLE BUSINESS INTELLIGENCE STANDARD EDITION ONE A WORLD CLASS PERFORMANCE Oracle Business Intelligence Standard Edition One è una soluzione BI completa, integrata destinata alle piccole e medie imprese.oracle

Dettagli

Introduzione al GIS (Geographic Information System)

Introduzione al GIS (Geographic Information System) Introduzione al GIS (Geographic Information System) Sommario 1. COS E IL GIS?... 3 2. CARATTERISTICHE DI UN GIS... 3 3. COMPONENTI DI UN GIS... 4 4. CONTENUTI DI UN GIS... 5 5. FASI OPERATIVE CARATTERIZZANTI

Dettagli

Algoritmo euclideo, massimo comun divisore ed equazioni diofantee

Algoritmo euclideo, massimo comun divisore ed equazioni diofantee Algoritmo euclideo, massimo comun divisore ed equazioni diofantee Se a e b sono numeri interi, si dice che a divide b, in simboli: a b, se e solo se esiste c Z tale che b = ac. Si può subito notare che:

Dettagli

Le funzionalità di un DBMS

Le funzionalità di un DBMS Le funzionalità di un DBMS Sistemi Informativi L-A Home Page del corso: http://www-db.deis.unibo.it/courses/sil-a/ Versione elettronica: DBMS.pdf Sistemi Informativi L-A DBMS: principali funzionalità Le

Dettagli

Corso di Informatica Generale (C. L. Economia e Commercio) Ing. Valerio Lacagnina Rappresentazione in virgola mobile

Corso di Informatica Generale (C. L. Economia e Commercio) Ing. Valerio Lacagnina Rappresentazione in virgola mobile Problemi connessi all utilizzo di un numero di bit limitato Abbiamo visto quali sono i vantaggi dell utilizzo della rappresentazione in complemento alla base: corrispondenza biunivoca fra rappresentazione

Dettagli

ITALIANO - ASCOLTARE E PARLARE

ITALIANO - ASCOLTARE E PARLARE O B I E T T I V I M I N I M I P E R L A S C U O L A P R I M A R I A E S E C O N D A R I A D I P R I M O G R A D O ITALIANO - ASCOLTARE E PARLARE Ascoltare e comprendere semplici consegne operative Comprendere

Dettagli

Algebra di Boole ed Elementi di Logica

Algebra di Boole ed Elementi di Logica Algebra di Boole ed Elementi di Logica 53 Cenni all algebra di Boole L algebra di Boole (inventata da G. Boole, britannico, seconda metà 8), o algebra della logica, si basa su operazioni logiche Le operazioni

Dettagli

Appunti di Logica Matematica

Appunti di Logica Matematica Appunti di Logica Matematica Francesco Bottacin 1 Logica Proposizionale Una proposizione è un affermazione che esprime un valore di verità, cioè una affermazione che è VERA oppure FALSA. Ad esempio: 5

Dettagli

APPLICAZIONE WEB PER LA GESTIONE DELLE RICHIESTE DI ACQUISTO DEL MATERIALE INFORMATICO. Francesco Marchione e Dario Richichi

APPLICAZIONE WEB PER LA GESTIONE DELLE RICHIESTE DI ACQUISTO DEL MATERIALE INFORMATICO. Francesco Marchione e Dario Richichi APPLICAZIONE WEB PER LA GESTIONE DELLE RICHIESTE DI ACQUISTO DEL MATERIALE INFORMATICO Francesco Marchione e Dario Richichi Istituto Nazionale di Geofisica e Vulcanologia Sezione di Palermo Indice Introduzione...

Dettagli

white paper La Process Intelligence migliora le prestazioni operative del settore assicurativo

white paper La Process Intelligence migliora le prestazioni operative del settore assicurativo white paper La Process Intelligence migliora le prestazioni operative del settore assicurativo White paper La Process Intelligence migliora le prestazioni operative del settore assicurativo Pagina 2 Sintesi

Dettagli

Metadati e Modellazione. standard P_META

Metadati e Modellazione. standard P_META Metadati e Modellazione Lo standard Parte I ing. Laurent Boch, ing. Roberto Del Pero Rai Centro Ricerche e Innovazione Tecnologica Torino 1. Introduzione 1.1 Scopo dell articolo Questo articolo prosegue

Dettagli

Accuratezza di uno strumento

Accuratezza di uno strumento Accuratezza di uno strumento Come abbiamo già accennato la volta scora, il risultato della misurazione di una grandezza fisica, qualsiasi sia lo strumento utilizzato, non è mai un valore numerico X univocamente

Dettagli

1. Scopo dell esperienza.

1. Scopo dell esperienza. 1. Scopo dell esperienza. Lo scopo di questa esperienza è ricavare la misura di tre resistenze il 4 cui ordine di grandezza varia tra i 10 e 10 Ohm utilizzando il metodo olt- Amperometrico. Tale misura

Dettagli

GOOGLE, WIKIPEDIA E VALUTAZIONE SITI WEB. A cura delle biblioteche Umanistiche e Giuridiche

GOOGLE, WIKIPEDIA E VALUTAZIONE SITI WEB. A cura delle biblioteche Umanistiche e Giuridiche GOOGLE, WIKIPEDIA E VALUTAZIONE SITI WEB A cura delle biblioteche Umanistiche e Giuridiche ISTRUZIONI PER Usare in modo consapevole i motori di ricerca Valutare un sito web ed utilizzare: Siti istituzionali

Dettagli

ITALIANO TRAGUARDI PER LO SVILUPPO DELLE COMPETENZE AL TERMINE DELLA SCUOLA PRIMARIA

ITALIANO TRAGUARDI PER LO SVILUPPO DELLE COMPETENZE AL TERMINE DELLA SCUOLA PRIMARIA ITALIANO TRAGUARDI PER LO SVILUPPO DELLE COMPETENZE AL TERMINE DELLA SCUOLA PRIMARIA L allievo partecipa a scambi comunicativi (conversazione, discussione di classe o di gruppo) con compagni e insegnanti

Dettagli

Analisi dei requisiti e casi d uso

Analisi dei requisiti e casi d uso Analisi dei requisiti e casi d uso Indice 1 Introduzione 2 1.1 Terminologia........................... 2 2 Modello della Web Application 5 3 Struttura della web Application 6 4 Casi di utilizzo della Web

Dettagli

Capitolo 9: PROPAGAZIONE DEGLI ERRORI

Capitolo 9: PROPAGAZIONE DEGLI ERRORI Capitolo 9: PROPAGAZIOE DEGLI ERRORI 9.1 Propagazione degli errori massimi ella maggior parte dei casi le grandezze fisiche vengono misurate per via indiretta. Il valore della grandezza viene cioè dedotto

Dettagli

LEZIONE 14. a 1,1 v 1 + a 1,2 v 2 + a 1,3 v 3 + + a 1,n 1 v n 1 + a 1,n v n = w 1

LEZIONE 14. a 1,1 v 1 + a 1,2 v 2 + a 1,3 v 3 + + a 1,n 1 v n 1 + a 1,n v n = w 1 LEZIONE 14 141 Dimensione di uno spazio vettoriale Abbiamo visto come l esistenza di una base in uno spazio vettoriale V su k = R, C, permetta di sostituire a V, che può essere complicato da trattare,

Dettagli

GLI ASSI CULTURALI. Allegato 1 - Gli assi culturali. Nota. rimessa all autonomia didattica del docente e alla programmazione collegiale del

GLI ASSI CULTURALI. Allegato 1 - Gli assi culturali. Nota. rimessa all autonomia didattica del docente e alla programmazione collegiale del GLI ASSI CULTURALI Nota rimessa all autonomia didattica del docente e alla programmazione collegiale del La normativa italiana dal 2007 13 L Asse dei linguaggi un adeguato utilizzo delle tecnologie dell

Dettagli

I.Stat Guida utente Versione 1.7 Dicembre 2010

I.Stat Guida utente Versione 1.7 Dicembre 2010 I.Stat Guida utente Versione 1.7 Dicembre 2010 1 Sommario INTRODUZIONE 3 I concetti principali di I.Stat 4 Organizzazione dei dati 4 Ricerca 5 GUIDA UTENTE 6 Per iniziare 6 Selezione della lingua 7 Individuazione

Dettagli

CAPITOLO CAPIT Tecnologie dell ecnologie dell info inf rmazione e controllo

CAPITOLO CAPIT Tecnologie dell ecnologie dell info inf rmazione e controllo CAPITOLO 8 Tecnologie dell informazione e controllo Agenda Evoluzione dell IT IT, processo decisionale e controllo Sistemi di supporto al processo decisionale Sistemi di controllo a feedback IT e coordinamento

Dettagli

Processi di business sovra-regionali relativi ai sistemi regionali di FSE. Versione 1.0 24 Giugno 2014

Processi di business sovra-regionali relativi ai sistemi regionali di FSE. Versione 1.0 24 Giugno 2014 Processi di business sovra-regionali relativi ai sistemi regionali di FSE Versione 1.0 24 Giugno 2014 1 Indice Indice... 2 Indice delle figure... 3 Indice delle tabelle... 4 Obiettivi del documento...

Dettagli

Mario Polito IARE: Press - ROMA

Mario Polito IARE: Press - ROMA Mario Polito info@mariopolito.it www.mariopolito.it IMPARARE A STUD IARE: LE TECNICHE DI STUDIO Come sottolineare, prendere appunti, creare schemi e mappe, archiviare Pubblicato dagli Editori Riuniti University

Dettagli

I Numeri Complessi. Si verifica facilmente che, per l operazione di somma in definita dalla (1), valgono le seguenti

I Numeri Complessi. Si verifica facilmente che, per l operazione di somma in definita dalla (1), valgono le seguenti Y T T I Numeri Complessi Operazioni di somma e prodotto su Consideriamo, insieme delle coppie ordinate di numeri reali, per cui si ha!"# $&% '( e )("+* Introduciamo in tale insieme una operazione di somma,/0"#123045"#

Dettagli

Processi (di sviluppo del) software. Fase di Analisi dei Requisiti. Esempi di Feature e Requisiti. Progettazione ed implementazione

Processi (di sviluppo del) software. Fase di Analisi dei Requisiti. Esempi di Feature e Requisiti. Progettazione ed implementazione Processi (di sviluppo del) software Fase di Analisi dei Requisiti Un processo software descrive le attività (o task) necessarie allo sviluppo di un prodotto software e come queste attività sono collegate

Dettagli

PRINCIPIO DI REVISIONE INTERNAZIONALE (ISA) N. 210 ACCORDI RELATIVI AI TERMINI DEGLI INCARICHI DI REVISIONE

PRINCIPIO DI REVISIONE INTERNAZIONALE (ISA) N. 210 ACCORDI RELATIVI AI TERMINI DEGLI INCARICHI DI REVISIONE PRINCIPIO DI REVISIONE INTERNAZIONALE (ISA) N. 210 ACCORDI RELATIVI AI TERMINI DEGLI INCARICHI DI REVISIONE (In vigore per le revisioni contabili dei bilanci relativi ai periodi amministrativi che iniziano

Dettagli

Il Business Process Management: nuova via verso la competitività aziendale

Il Business Process Management: nuova via verso la competitività aziendale Il Business Process Management: nuova via verso la competitività Renata Bortolin Che cosa significa Business Process Management? In che cosa si distingue dal Business Process Reingeneering? Cosa ha a che

Dettagli

su web che riportano documentazione e software dedicati agli argomenti trattati nel libro, riportandone, alla fine dei rispettivi capitoli, gli

su web che riportano documentazione e software dedicati agli argomenti trattati nel libro, riportandone, alla fine dei rispettivi capitoli, gli Prefazione Non è facile definire che cosa è un problema inverso anche se, ogni giorno, facciamo delle operazioni mentali che sono dei metodi inversi: riconoscere i luoghi che attraversiamo quando andiamo

Dettagli

Semantica operazionale dei linguaggi di Programmazione

Semantica operazionale dei linguaggi di Programmazione Semantica operazionale dei linguaggi di Programmazione Oggetti sintattici e oggetti semantici Rosario Culmone, Luca Tesei Lucidi tratti dalla dispensa Elementi di Semantica Operazionale R. Barbuti, P.

Dettagli

Il mondo in cui viviamo

Il mondo in cui viviamo Il mondo in cui viviamo Il modo in cui lo vediamo/ conosciamo Dalle esperienze alle idee Dalle idee alla comunicazione delle idee Quando sono curioso di una cosa, matematica o no, io le faccio delle domande.

Dettagli

Enrico Persico, Il Giornale di Fisica, 1, (1956), 64-67. 1

Enrico Persico, Il Giornale di Fisica, 1, (1956), 64-67. 1 Che cos è che non va? Enrico Persico, Il Giornale di Fisica, 1, (1956), 64-67. 1 Mi dica almeno qualcosa sulle onde elettromagnetiche. La candidata, che poco fa non aveva saputo dire perché i fili della

Dettagli

White Paper. Operational DashBoard. per una Business Intelligence. in real-time

White Paper. Operational DashBoard. per una Business Intelligence. in real-time White Paper Operational DashBoard per una Business Intelligence in real-time Settembre 2011 www.axiante.com A Paper Published by Axiante CAMBIARE LE TRADIZIONI C'è stato un tempo in cui la Business Intelligence

Dettagli

Da una a più variabili: derivate

Da una a più variabili: derivate Da una a più variabili: derivate ( ) 5 gennaio 2011 Scopo di questo articolo è di evidenziare le analogie e le differenze, relativamente al calcolo differenziale, fra le funzioni di una variabile reale

Dettagli

GeoGebra 4.2 Introduzione all utilizzo della Vista CAS per il secondo biennio e il quinto anno

GeoGebra 4.2 Introduzione all utilizzo della Vista CAS per il secondo biennio e il quinto anno GeoGebra 4.2 Introduzione all utilizzo della Vista CAS per il secondo biennio e il quinto anno La Vista CAS L ambiente di lavoro Le celle Assegnazione di una variabile o di una funzione / visualizzazione

Dettagli

Abstract Data Type (ADT)

Abstract Data Type (ADT) Abstract Data Type Pag. 1/10 Abstract Data Type (ADT) Iniziamo la nostra trattazione presentando una nozione che ci accompagnerà lungo l intero corso di Laboratorio Algoritmi e Strutture Dati: il Tipo

Dettagli

Principal Component Analysis (PCA)

Principal Component Analysis (PCA) Principal Component Analysis (PCA) Come evidenziare l informazione contenuta nei dati S. Marsili-Libelli: Calibrazione di Modelli Dinamici pag. Perche PCA? E un semplice metodo non-parametrico per estrarre

Dettagli

SCHEDA DI PROGRAMMAZIONE DELLE ATTIVITA EDUCATIVE DIDATTICHE. Disciplina: Matematica Classe: 5A sia A.S. 2014/15 Docente: Rosito Franco

SCHEDA DI PROGRAMMAZIONE DELLE ATTIVITA EDUCATIVE DIDATTICHE. Disciplina: Matematica Classe: 5A sia A.S. 2014/15 Docente: Rosito Franco Disciplina: Matematica Classe: 5A sia A.S. 2014/15 Docente: Rosito Franco ANALISI DI SITUAZIONE - LIVELLO COGNITIVO La classe ha dimostrato fin dal primo momento grande attenzione e interesse verso gli

Dettagli

Quando A e B coincidono una coppia ordinata é determinata anche dalla loro posizione.

Quando A e B coincidono una coppia ordinata é determinata anche dalla loro posizione. Grafi ed Alberi Pag. /26 Grafi ed Alberi In questo capitolo richiameremo i principali concetti di due ADT che ricorreranno puntualmente nel corso della nostra trattazione: i grafi e gli alberi. Naturale

Dettagli

Project Cycle Management. 3. La tecnica di valutazione basata sul Quadro Logico. di Federico Bussi

Project Cycle Management. 3. La tecnica di valutazione basata sul Quadro Logico. di Federico Bussi Project Cycle Management 3. La tecnica di valutazione basata sul Quadro Logico di Federico Bussi federicobussi1@gmail.com 1 La tecnica di valutazione basata sul Quadro Logico Nelle pagine precedenti abbiamo

Dettagli

Dimensione di uno Spazio vettoriale

Dimensione di uno Spazio vettoriale Capitolo 4 Dimensione di uno Spazio vettoriale 4.1 Introduzione Dedichiamo questo capitolo ad un concetto fondamentale in algebra lineare: la dimensione di uno spazio vettoriale. Daremo una definizione

Dettagli

RELAZIONI TRA SERVIZI PER L IMPIEGO

RELAZIONI TRA SERVIZI PER L IMPIEGO RELAZIONI TRA SERVIZI PER L IMPIEGO E AZIENDE-UTENTI L IMPATTO DELLE PROCEDURE INFORMATIZZATE a cura di Germana Di Domenico Elaborazione grafica di ANNA NARDONE Monografie sul Mercato del lavoro e le politiche

Dettagli

Parte 2. Determinante e matrice inversa

Parte 2. Determinante e matrice inversa Parte. Determinante e matrice inversa A. Savo Appunti del Corso di Geometria 013-14 Indice delle sezioni 1 Determinante di una matrice, 1 Teorema di Cramer (caso particolare), 3 3 Determinante di una matrice

Dettagli

Cos è l Ingegneria del Software?

Cos è l Ingegneria del Software? Cos è l Ingegneria del Software? Corpus di metodologie e tecniche per la produzione di sistemi software. L ingegneria del software è la disciplina tecnologica e gestionale che riguarda la produzione sistematica

Dettagli

Estensione di un servizo di messaggistica per telefonia mobile (per una società di agenti TuCSoN)

Estensione di un servizo di messaggistica per telefonia mobile (per una società di agenti TuCSoN) Estensione di un servizo di messaggistica per telefonia mobile (per una società di agenti TuCSoN) System Overview di Mattia Bargellini 1 CAPITOLO 1 1.1 Introduzione Il seguente progetto intende estendere

Dettagli

QUARTA E QUINTA ISTITUTO TECNICO INDUSTRIALE

QUARTA E QUINTA ISTITUTO TECNICO INDUSTRIALE QUARTA E QUINTA ISTITUTO TECNICO INDUSTRIALE - Matematica - Griglie di valutazione Materia: Matematica Obiettivi disciplinari Gli obiettivi indicati si riferiscono all intero percorso della classe quarta

Dettagli

BRM. Tutte le soluzioni. per la gestione delle informazioni aziendali. BusinessRelationshipManagement

BRM. Tutte le soluzioni. per la gestione delle informazioni aziendali. BusinessRelationshipManagement BRM BusinessRelationshipManagement Tutte le soluzioni per la gestione delle informazioni aziendali - Business Intelligence - Office Automation - Sistemi C.R.M. I benefici di BRM Garantisce la sicurezza

Dettagli

Istituto per l Energia Rinnovabile. Autori: David Moser, PhD; Daniele Vettorato, PhD. Bolzano, Gennaio 2013

Istituto per l Energia Rinnovabile. Autori: David Moser, PhD; Daniele Vettorato, PhD. Bolzano, Gennaio 2013 Istituto per l Energia Rinnovabile Catasto Solare Alta Val di Non Relazione Versione: 2.0 Autori: David Moser, PhD; Daniele Vettorato, PhD. Coordinamento e Revisione: dott. Daniele Vettorato, PhD (daniele.vettorato@eurac.edu)

Dettagli

IDENTIFICAZIONE dei MODELLI e ANALISI dei DATI. Lezione 40: Filtro di Kalman - introduzione. Struttura ricorsiva della soluzione.

IDENTIFICAZIONE dei MODELLI e ANALISI dei DATI. Lezione 40: Filtro di Kalman - introduzione. Struttura ricorsiva della soluzione. IDENTIFICAZIONE dei MODELLI e ANALISI dei DATI Lezione 40: Filtro di Kalman - introduzione Cenni storici Filtro di Kalman e filtro di Wiener Formulazione del problema Struttura ricorsiva della soluzione

Dettagli

Elementi di semantica denotazionale ed operazionale

Elementi di semantica denotazionale ed operazionale Elementi di semantica denotazionale ed operazionale 1 Contenuti! sintassi astratta e domini sintattici " un frammento di linguaggio imperativo! semantica denotazionale " domini semantici: valori e stato

Dettagli

Linguistica Generale

Linguistica Generale Linguistica Generale Docente: Paola Monachesi Aprile-Maggio 2003 Contents 1 La linguistica e i suoi settori 2 2 La grammatica come mezzo per rappresentare la competenza linguistica 2 3 Le componenti della

Dettagli

Rappresentazione dei numeri in un calcolatore

Rappresentazione dei numeri in un calcolatore Corso di Calcolatori Elettronici I A.A. 2010-2011 Rappresentazione dei numeri in un calcolatore Lezione 2 Università degli Studi di Napoli Federico II Facoltà di Ingegneria Rappresentazione dei numeri

Dettagli

((e ita e itb )h(t)/it)dt. z k p(dz) + r n (t),

((e ita e itb )h(t)/it)dt. z k p(dz) + r n (t), SINTESI. Una classe importante di problemi probabilistici e statistici é quella della stima di caratteristiche relative ad un certo processo aleatorio. Esistono svariate tecniche di stima dei parametri

Dettagli

I MIGLIORI SI RICONOSCONO DAI RISULTATI

I MIGLIORI SI RICONOSCONO DAI RISULTATI I MIGLIORI SI RICONOSCONO DAI RISULTATI LO STRUMENTO PER GESTIRE A 360 LE ATTIVITÀ DELLO STUDIO, CON IL MOTORE DI RICERCA PIÙ INTELLIGENTE, L UNICO CHE TI CAPISCE AL VOLO. www.studiolegale.leggiditalia.it

Dettagli

VC-dimension: Esempio

VC-dimension: Esempio VC-dimension: Esempio Quale è la VC-dimension di. y b = 0 f() = 1 f() = 1 iperpiano 20? VC-dimension: Esempio Quale è la VC-dimension di? banale. Vediamo cosa succede con 2 punti: 21 VC-dimension: Esempio

Dettagli

Panoramica su ITIL V3 ed esempio di implementazione del Service Design

Panoramica su ITIL V3 ed esempio di implementazione del Service Design Master Universitario di II livello in Interoperabilità Per la Pubblica Amministrazione e Le Imprese Panoramica su ITIL V3 ed esempio di implementazione del Service Design Lavoro pratico II Periodo didattico

Dettagli

Informatica Applicata

Informatica Applicata Ing. Irina Trubitsyna Concetti Introduttivi Programma del corso Obiettivi: Il corso di illustra i principi fondamentali della programmazione con riferimento al linguaggio C. In particolare privilegia gli

Dettagli

CAMPO DI ESPERIENZA: IL SE E L ALTRO

CAMPO DI ESPERIENZA: IL SE E L ALTRO CAMPO DI ESPERIENZA: IL SE E L ALTRO I. Il bambino gioca in modo costruttivo e creativo con gli altri, sa argomentare, confrontarsi, sostenere le proprie ragioni con adulti e bambini. I I. Sviluppa il

Dettagli

Modal 2 Modulo Analisi modale Modulo per l Analisi della dinamica strutturale.

Modal 2 Modulo Analisi modale Modulo per l Analisi della dinamica strutturale. Modal 2 Modulo Analisi modale Modulo per l Analisi della dinamica strutturale. L analisi modale è un approccio molto efficace al comportamento dinamico delle strutture, alla verifica di modelli di calcolo

Dettagli

Logica del primo ordine

Logica del primo ordine Università di Bergamo Facoltà di Ingegneria Intelligenza Artificiale Paolo Salvaneschi A7_4 V1.3 Logica del primo ordine Il contenuto del documento è liberamente utilizzabile dagli studenti, per studio

Dettagli

Come scrivere una Review

Come scrivere una Review Come scrivere una Review Federico Caobelli per AIMN Giovani Fondazione Poliambulanza - Brescia federico.caobelli@gmail.com SOMMARIO Nel precedente articolo, scritto da Laura Evangelista per AIMN Giovani,

Dettagli

Minimizzazione di Reti Logiche Combinatorie Multi-livello

Minimizzazione di Reti Logiche Combinatorie Multi-livello Minimizzazione di Reti Logiche Combinatorie Multi-livello Maurizio Palesi Maurizio Palesi 1 Introduzione Obiettivo della sintesi logica: ottimizzazione delle cifre di merito area e prestazioni Prestazioni:

Dettagli

UNIVERSITA DI PISA FACOLTA DI INGEGNERIA CORSO DI LAUREA IN INGEGNERIA ELETTRONICA ANNO ACCADEMICO 2004-2005 TESI DI LAUREA

UNIVERSITA DI PISA FACOLTA DI INGEGNERIA CORSO DI LAUREA IN INGEGNERIA ELETTRONICA ANNO ACCADEMICO 2004-2005 TESI DI LAUREA UNIVERSITA DI PISA FACOLTA DI INGEGNERIA CORSO DI LAUREA IN INGEGNERIA ELETTRONICA ANNO ACCADEMICO 2004-2005 TESI DI LAUREA SVILUPPO DI METODI DECONVOLUTIVI PER L INDIVIDUAZIONE DI SORGENTI INDIPENDENTI

Dettagli

Analisi delle Corrispondenze Multiple Prof. Roberto Fantaccione

Analisi delle Corrispondenze Multiple Prof. Roberto Fantaccione Analisi delle Corrispondenze Multiple Prof. Roberto Fantaccione Consideriamo il nostro dataset formato da 468 individui e 1 variabili nominali costituite dalle seguenti modalità : colonna D: Age of client

Dettagli

Metodi e strategie per la redazione di una tesi di dottorato in diritto comparto

Metodi e strategie per la redazione di una tesi di dottorato in diritto comparto Metodi e strategie per la redazione di una tesi di dottorato in diritto comparto Elena Sorda Con le note del Prof. G. Rolla Premessa Questo breve scritto nasce dall idea, espressa dal Prof. Rolla, di individuare

Dettagli

LABORATORIO di RICERCA BIBLIOGRAFICA SUI TEST

LABORATORIO di RICERCA BIBLIOGRAFICA SUI TEST LABORATORIO di RICERCA BIBLIOGRAFICA SUI TEST emanuela.canepa@unipd.it Biblioteca di psicologia Fabio Metelli Università degli Studi di Padova Materiale didattico: guida corso Casella della biblioteca

Dettagli

Elementi di Statistica

Elementi di Statistica Elementi di Statistica Contenuti Contenuti di Statistica nel corso di Data Base Elementi di statistica descrittiva: media, moda, mediana, indici di dispersione Introduzione alle variabili casuali e alle

Dettagli

PROGETTO FORMATIVO ECM TEORICO-PRATICO in INFORMATICA MEDICA

PROGETTO FORMATIVO ECM TEORICO-PRATICO in INFORMATICA MEDICA PROGETTO FORMATIVO ECM TEORICO-PRATICO in INFORMATICA MEDICA SEDE: ORDINE DEI MEDICI E DEGLI ODONTOIATRI DELLA PROVINCIA DI LECCE Via Nazario Sauro, n. 31 LECCE Presentazione Progetto: Dal 9 Novembre 2013

Dettagli

ALGEBRA: LEZIONI DAL 13 OTTOBRE AL 3 NOVEMBRE

ALGEBRA: LEZIONI DAL 13 OTTOBRE AL 3 NOVEMBRE ALGEBRA: LEZIONI DAL 13 OTTOBRE AL 3 NOVEMBRE 1 DIPENDENZA E INDIPENDENZA LINEARE Se ho alcuni vettori v 1, v 2,, v n in uno spazio vettoriale V, il sottospazio 1 W = v 1,, v n di V da loro generato è

Dettagli

CONSIGLIO NAZIONALE DEI DOTTORI COMMERCIALISTI E CONSIGLIO NAZIONALE DEI RAGIONIERI

CONSIGLIO NAZIONALE DEI DOTTORI COMMERCIALISTI E CONSIGLIO NAZIONALE DEI RAGIONIERI CONSIGLIO NAZIONALE DEI DOTTORI COMMERCIALISTI E CONSIGLIO NAZIONALE DEI RAGIONIERI COMMISSIONE PARITETICA PER I PRINCIPI DI REVISIONE LA COMPRENSIONE DELL IMPRESA E DEL SUO CONTESTO E LA VALUTAZIONE DEI

Dettagli

SOA GOVERNANCE: WHAT DOES IT MEAN? Giorgio Marras

SOA GOVERNANCE: WHAT DOES IT MEAN? Giorgio Marras SOA GOVERNANCE: WHAT DOES IT MEAN? Giorgio Marras 2 Introduzione Le architetture basate sui servizi (SOA) stanno rapidamente diventando lo standard de facto per lo sviluppo delle applicazioni aziendali.

Dettagli

REALIZZARE UN MODELLO DI IMPRESA

REALIZZARE UN MODELLO DI IMPRESA REALIZZARE UN MODELLO DI IMPRESA - organizzare e gestire l insieme delle attività, utilizzando una piattaforma per la gestione aziendale: integrata, completa, flessibile, coerente e con un grado di complessità

Dettagli

IBM Cognos 8 BI Midmarket Reporting Packages Per soddisfare tutte le vostre esigenze di reporting restando nel budget

IBM Cognos 8 BI Midmarket Reporting Packages Per soddisfare tutte le vostre esigenze di reporting restando nel budget Data Sheet IBM Cognos 8 BI Midmarket Reporting Packages Per soddisfare tutte le vostre esigenze di reporting restando nel budget Panoramica Le medie aziende devono migliorare nettamente le loro capacità

Dettagli

Business Process Management

Business Process Management Corso di Certificazione in Business Process Management Progetto Didattico 2015 con la supervisione scientifica del Dipartimento di Informatica Università degli Studi di Torino Responsabile scientifico

Dettagli

10. Insiemi non misurabili secondo Lebesgue.

10. Insiemi non misurabili secondo Lebesgue. 10. Insiemi non misurabili secondo Lebesgue. Lo scopo principale di questo capitolo è quello di far vedere che esistono sottoinsiemi di R h che non sono misurabili secondo Lebesgue. La costruzione di insiemi

Dettagli

CURATORI E INFORMATIZZAZIONE PROCEDURE CONCORSUALI. presentazione novità Legge 221/2012 e Legge Stabilità

CURATORI E INFORMATIZZAZIONE PROCEDURE CONCORSUALI. presentazione novità Legge 221/2012 e Legge Stabilità CURATORI E INFORMATIZZAZIONE PROCEDURE CONCORSUALI presentazione novità Legge 221/2012 e Legge Stabilità Zucchetti Software Giuridico srl - Viale della Scienza 9/11 36100 Vicenza tel 0444 346211 info@fallco.it

Dettagli

La ricerca empirica: una definizione

La ricerca empirica: una definizione Lucido 35/51 La ricerca empirica: una definizione La ricerca empirica si distingue da altri tipi di ricerca per tre aspetti (Ricolfi, 23): 1. produce asserti o stabilisce nessi tra asserti ipotesi teorie,

Dettagli

Funzioni in più variabili

Funzioni in più variabili Funzioni in più variabili Corso di Analisi 1 di Andrea Centomo 27 gennaio 2011 Indichiamo con R n, n 1, l insieme delle n-uple ordinate di numeri reali R n4{(x 1, x 2,,x n ), x i R, i =1,,n}. Dato X R

Dettagli

1 Numeri Complessi, Formula di Eulero, Decomposizioni Notevoli,... ecc.

1 Numeri Complessi, Formula di Eulero, Decomposizioni Notevoli,... ecc. Classi Numeriche 1 1 Numeri Complessi, Formula di Eulero, Decomposizioni Notevoli,... ecc. In questo breve capitolo richiamiamo le definizioni delle classi numeriche fondamentali, già note al lettore,

Dettagli

Data warehouse.stat Guida utente

Data warehouse.stat Guida utente Data warehouse.stat Guida utente Versione 3.0 Giugno 2013 1 Sommario INTRODUZIONE 3 I concetti principali 4 Organizzazione dei dati 4 Ricerca 5 Il browser 5 GUIDA UTENTE 6 Per iniziare 6 Selezione della

Dettagli

SIASFi: il sistema ed il suo sviluppo

SIASFi: il sistema ed il suo sviluppo SIASFI: IL SISTEMA ED IL SUO SVILUPPO 187 SIASFi: il sistema ed il suo sviluppo Antonio Ronca Il progetto SIASFi nasce dall esperienza maturata da parte dell Archivio di Stato di Firenze nella gestione

Dettagli

un occhio al passato per il tuo business futuro

un occhio al passato per il tuo business futuro 2 3 5 7 11 13 17 19 23 29 31 37 41 43 47 53 59 61 un occhio al passato per il tuo business futuro BUSINESS DISCOVERY Processi ed analisi per aziende virtuose Che cos è La Business Discovery è un insieme

Dettagli

METODO DEI MINIMI QUADRATI. Quest articolo discende soprattutto dai lavori di Deming, Press et al. (Numerical Recipes) e Jefferys.

METODO DEI MINIMI QUADRATI. Quest articolo discende soprattutto dai lavori di Deming, Press et al. (Numerical Recipes) e Jefferys. METODO DEI MINIMI QUADRATI GIUSEPPE GIUDICE Sommario Il metodo dei minimi quadrati è trattato in tutti i testi di statistica e di elaborazione dei dati sperimentali, ma non sempre col rigore necessario

Dettagli

L evoluzione del software per l azienda moderna. Gestirsi / Capirsi / Migliorarsi

L evoluzione del software per l azienda moderna. Gestirsi / Capirsi / Migliorarsi IL GESTIONALE DEL FUTURO L evoluzione del software per l azienda moderna Gestirsi / Capirsi / Migliorarsi IL MERCATO ITALIANO L Italia è rappresentata da un numero elevato di piccole e medie aziende che

Dettagli

AOT Lab Dipartimento di Ingegneria dell Informazione Università degli Studi di Parma. Unified Process. Prof. Agostino Poggi

AOT Lab Dipartimento di Ingegneria dell Informazione Università degli Studi di Parma. Unified Process. Prof. Agostino Poggi AOT Lab Dipartimento di Ingegneria dell Informazione Università degli Studi di Parma Unified Process Prof. Agostino Poggi Unified Process Unified Software Development Process (USDP), comunemente chiamato

Dettagli

Scuola primaria: obiettivi al termine della classe 5

Scuola primaria: obiettivi al termine della classe 5 Competenza: partecipare e interagire con gli altri in diverse situazioni comunicative Scuola Infanzia : 3 anni Obiettivi di *Esprime e comunica agli altri emozioni, sentimenti, pensieri attraverso il linguaggio

Dettagli

Sistemi Operativi. Interfaccia del File System FILE SYSTEM : INTERFACCIA. Concetto di File. Metodi di Accesso. Struttura delle Directory

Sistemi Operativi. Interfaccia del File System FILE SYSTEM : INTERFACCIA. Concetto di File. Metodi di Accesso. Struttura delle Directory FILE SYSTEM : INTERFACCIA 8.1 Interfaccia del File System Concetto di File Metodi di Accesso Struttura delle Directory Montaggio del File System Condivisione di File Protezione 8.2 Concetto di File File

Dettagli

Università degli Studi di Parma. Facoltà di Scienze MM. FF. NN. Corso di Laurea in Informatica

Università degli Studi di Parma. Facoltà di Scienze MM. FF. NN. Corso di Laurea in Informatica Università degli Studi di Parma Facoltà di Scienze MM. FF. NN. Corso di Laurea in Informatica A.A. 2007-08 CORSO DI INGEGNERIA DEL SOFTWARE Prof. Giulio Destri http://www.areasp.com (C) 2007 AreaSP for

Dettagli

Per lo svolgimento del corso risulta particolarmente utile considerare l insieme

Per lo svolgimento del corso risulta particolarmente utile considerare l insieme 1. L insieme R. Per lo svolgimento del corso risulta particolarmente utile considerare l insieme R = R {, + }, detto anche retta reale estesa, che si ottiene aggiungendo all insieme dei numeri reali R

Dettagli

Gestione delle Architetture e dei Servizi IT con ADOit. Un Prodotto della Suite BOC Management Office

Gestione delle Architetture e dei Servizi IT con ADOit. Un Prodotto della Suite BOC Management Office Gestione delle Architetture e dei Servizi IT con ADOit Un Prodotto della Suite BOC Management Office Controllo Globale e Permanente delle Architetture IT Aziendali e dei Processi IT: IT-Governance Definire

Dettagli