CiteSeer Europe Architettura e Sistema di Information Extraction

Dimensione: px
Iniziare la visualizzazioe della pagina:

Download "CiteSeer Europe Architettura e Sistema di Information Extraction"

Transcript

1 Università degli studi di Siena Facoltà di Ingegneria Corso di Laurea Specialistica in Ingegneria Informatica CiteSeer Europe Architettura e Sistema di Information Extraction Relatore: Prof. Marco Maggini Correlatore: Dott. Ing. Leonardo Rigutini Tesi di Laurea di: Ernesto Di Iorio Anno accademico

2 CiteSeer Europe:Architettura e Sistema di Information Extraction di Ernesto Di Iorio Prefazione 5 Capitolo 1 Motori di ricerca per il Web Principali strutture dati Architettura di Google 8 Capitolo 2 CiteSeer: il primo motore di ricerca dedicato alla letteratura scientifica Introduzione Caratteristiche principali Architettura del sistema Entità del sistema Descrizione del sistema Funzionamento interno Limiti 32 Capitolo 3 CiteSeer Europe Obiettivi Architettura Componenti Struttura logica Interazione dei componenti Il Virtual Citation Graph 47 Capitolo 4 Estrazione automatica di metadati HMM: Introduzione Funzionamento Stima dei parametri Scelta del modello Le Support Vector Machine: Introduzione Funzionamento Estrazione dei metadati mediante SVM Conditional Random Fields: Introduzione Funzionamento Regolarizzazione Esplorazione dello spazio delle feature Sistema di estrazione dei metadati in CiteSeer Europe Obiettivi L architettura 66 La DocumentRappresentation library 69 La Metadata library 73 La CiteSeerEuropeBlackBoardSystem library 74 La Expert library Sviluppi futuri 84 2

3 Capitolo 5 Il futuro di CiteSeer Europe 86 Appendice A Hidden Markov Model 88 Appendice B Support Vector Machine 95 Bibliografia 106 3

4 E sempre difficile decidere a chi dedicare il lavoro di una vita. Tante sono le persone da ringraziare; chi più chi meno ha contribuito al raggiungimento di questo traguardo e a rendermi la persona che sono oggi, qualunque essa sia. Un abbraccio fortissimo va ai miei genitori, e credo ci sia poco da motivare; tanti sono stati i vostri sacrifici, tante le parole di conforto, tanta la fiducia nei miei confronti. Spero che questa laurea vi donerà un po di soddisfazione ed un attimo di serenità. Alle mie due pesti, le mie bellissime nipotine Giorga e Sarah, che con il loro affetto mi ricordano lo scopo di tanto lavoro e sacrifici. A Pina ed Enzo, so bene che questo lo ricorderete come un periodo davvero difficile della vostra vita, ma spero che mi possiate perdonare se in tanto dolore, proverò a portare un po di gioia nella nostra casa. A nonno Giuseppe, che con immenso orgoglio ha aspettato questo giorno. A Maria, lo so, avresti preferito un anello ed una promessa alla luce della luna; per ora accontentati dei miei ringraziamenti più sentiti per avermi sopportato per tutti questi anni e non avermi fatto pesare troppo la lontananza che ci ha diviso. E come non ricordare gli amici; ringrazio gli amici del quinquetto, Augusto, Giovanni, Guido ed Emiliano, è stata dura ma alla fine uno per volta stiamo giungendo al traguardo. 4

5 Prefazione Questo lavoro si è sviluppato nel contesto del progetto CiteSeer Europe, che prevede la costruzione del primo motore di ricerca europeo focalizzato alla letteratura scientifica, ovvero che gestisca esclusiavemente gli articoli scientifici che sono disponibili liberamente sul Web. CiteSeer Europe si occuperà di scaricare i documenti segnalati da ricercatori in tutto il mondo, estrarre da tali documenti un insieme di informazioni necessarie al sistema per gestire la base documentale (tali informazioni in seguito saranno chiamate metadati), indicizzare i documenti e costruire delle statistiche che sintetizzano l impatto (importanza) di ogni articolo e di ogni autore in modo da rendere più semplice ed efficace la ricerca degli articoli nell ambito della comunità scientifica. Sebbene l idea di un motore di ricerca dedicato alla letteratura scientifica non è nuova, in quanto già nel 1999 fu realizzato un motore di ricerca di questo tipo, noto con il nome di CiteSeer (da cui prende il nome il nostro progetto), CiteSeer Europe si differenzierà dal suo predecessore grazie ad una nuova veste tecnologica, realizzata con un accurata progettazione dell architettura del sistema che massimizzi la scalabilità in termini di quantà di documenti gestiti e del numero di utenti serviti contemporaneamente, la costruzione di un sistema di estrazione dell informazione il più possibile flessibile ed efficiente in modo che si possa adattare facilmente a documenti di varie tipologie, e uno strato di software (middleware) che mascheri i servizi di basso livello (quelli classici di un motore di ricerca, crawling, estrazione del testo, indicizzazione, analisi del grafo) in modo da rendere più facilmente espandibili i servizi offerti dal sistema. Nell ambito del progetto CiteSeer Europe, infatti, sono già previsti una serie di servizi che il sistema dovrà fruire ai ricercatori di tutto il mondo; tali servizi andranno dalla classica risposta alle query, a servizi avanzati di collaborative filtering per il filtraggio del Web che permetta il recupero e la gestione di informazioni di qualità, a servizi di assistenza alla produzione di contenuti, che nell ambito del mondo accademico, sono di spiccato interesse. Dunque CiteSeer Europe, inteso come motore di ricerca, sarà solo il punto di partenza del nostro progetto che come vedremo nel dettaglio, già nella sua versione prototipale ha una notevole complessità. In questa tesi metteremo in evidenza le caratteristiche peculiari di un motore di ricerca, dunque analizzeremo l architettura di Google per dare un idea abbastanza accurata dei servizi di base di un search engine. Ciò ci permetterà di comprendere al meglio le scelte architetturali che abbiamo fatto nella realizzazione di CiteSeer Europe e di mettere in evidenza le differenze sostanziali tra un motore di ricerca dedicato al Web e un sistema dedicato alla letteratura scientifica. Inoltre descriveremo nel dettaglio le varie tipologie di sistemi di estrazione dei metadati proposte in letteratura e discuteremo del sistema sviluppato in CiteSeer Europe e dei suoi sviluppi futuri. 5

6 Capitolo 1 Motori di ricerca per il Web In questo capitolo daremo una breve descrizione dei motori di ricerca orientati al Web. A tale scopo descriveremo l architettura di Google proposta da Sergey Brin e Lawrence Page nel 1998 in [1]. Per iniziare descriveremo nel dettaglio le principali strutture dati usate in un motore di ricerca, in quanto la sua efficienza è strettamente legata all ottimizzazione di tali meccanismi per la memorizzazione e la gestione dell enorme quantità di dati presenti sul Web. 1.1 Principali strutture dati Repository: struttura che contiene l intero HTML di ciascuna pagina web acquisita dal sistema. Ogni pagina viene compressa usando un sistema di compressione (in Google è usata la zlib). La scelta di un meccanismo di compressione è un tradeoff tra velocità e memoria necessaria. Ogni pagina viene memorizzata una dopo l altra ed è preceduta dal suo docid, la lunghezza e l URL come si può vedere in Figura 1. Il Repository non richiede altre strutture dati per l accesso. Questo aiuta per la consistenza dei dati e rende lo sviluppo più semplice. Figura 1: Struttura del Repository di Google. E possibile ricostruire tutte le altre strutture dati a partire solo dal Repository ed un file che contiene tutti gli errori del crawler. Indice dei documenti: L indice dei documenti contiene un insieme di informazioni per ogni documento. Esso è un ISAM (Index Sequential Access Mode) a lunghezza fissa, ordinato per docid. L informazione memorizzata in ogni elemento dell indice include lo stato del documento, un puntatore al Repository, un checksum del documento, e varie statistiche. Se il documento è stato scaricato, esso contiene anche un puntatore ad un file di grandezza variabile chiamato docinfo costituito dal suo URL e dal titolo, altrimenti il puntatore punta alla URL list che contiene solo l URL. Addizionalmente esiste un file che è usato per convertire gli URL in docid. Questo file è una lista di checksum degli URL con i corrispondenti docid. Vengono usati i checksum in modo tale da poter effettuare una ricerca binaria su questo file, e reperire in maniera efficiente il docid associato ad uno specifico URL. I nuovi URL possono essere convertiti in docid in batch e poi uniti con il file pre-esistente. Lessico: E l insieme dei termini distinti estratti dai documenti. 6

7 Ai suoi albori, Google usava una sola macchina con 256 MB di memoria principale dedicata a tenere in memoria l intero lessico. Il lessico conteneva circa 14 milioni di termini sebbene alcune parole rare non erano inserite nel lessico. Hit Lists: Una lista di hit corrisponde ad una lista di occorrenze di una particolare parola in un determinato documento ed include le informazioni circa la posizione, il font e se la parola è scritta in lettera maiuscola. Le hit list rappresentano la maggior parte dello spazio usato sia nell indice in avanti che nell indice inverso (di cui parleremo successivamente). Per questo motivo è necessario riuscire a rappresentarli nella maniera più efficiente possibile. Figura 2: Rappresentazione degli hit in Google. In Google gli hit sono codificati usando solo 2 byte. Ci sono due tipi di hit: i fancy e i plain. I fancy includono gli hit che occorrono in un URL, in un titolo e negli anchor text o nei meta tag. I plain includono tutto il resto. Dunque un plain hit consiste di un bit che specifica se la parola è scritta in lettera maiuscola, 3 che specificano la dimensione del font (sono usati solo 7 valori, da 0 a 6 in quanto il 7 è riservato per i fancy hit) e 12 che indicano la posizione della parola nel documento (tutte le posizioni superiori a 4095 sono etichettate come 4096). Un fancy hit è costituito da un bit che specifica se la parola è in lettera maiuscola, il font size è impostato a 7 (111) per indicare che è un fancy hit, 4 bit per indicare il tipo di fancy hit e 8 per la posizione. Per gli anchor hit, gli 8 bit della posizione sono divisi in 4 bit per la posizione nell anchor text e 4 bit per un hash del docid che l anchor contiene al suo interno. Questa scelta di rappresentare gli anchor hit, chiaramente ha varie limitazioni dovute al fatto che per una specifica parola non ci possono essere molti anchor. Per quanto riguarda i font, Google codifica la dimensione del font in maniera relativa, cioè non considerando la grandezza assoluta (12 pt, 17pt ecc.), ma in base alla dimensione media nel documento, il font di ogni parola può essere codificato relativamente a tale valore medio (più grande, molto più grande, grandissimo, più piccolo e così via). Ciò permette ovviamente di ordinare i documenti che soddisfano una certa query anche in funzione di questa codifica della dimensione del font delle parole. Forward Index: l indice in avanti in Google è parzialmente ordinato. E memorizzato in 64 barrel. Ogni barrel contiene un range di wordid. Se un documento contiene parole che cadono in un Figura 3: Schema relativo all'indice in avanti in Google. 7

8 particolare barrel, il docid è memorizzato nel barrel, seguito da una lista di wordid con la hit list che corrisponde a quelle parole. Inverted Index: L indice inverso consiste degli stessi barrel dell indice in avanti, eccetto per il fatto che essi sono stati elaborati dal Sorter (di cui parleremo in seguito). Per ogni wordid valido, il lessico contiene un puntatore al barrel in cui il wordid cade. Figura 4: Schema relativo all'indice inverso in Google. Tale puntatore fa riferimento a una lista di docid e alle corrispondenti liste di hit. Questa lista di documenti rappresenta tutte le occorrenze di una parola in tutti i documenti. Un questione interessante è come i documenti appaiono nella lista dei documenti associati a quella wordid. Una semplice soluzione è quella di memorizzare i documenti ordinandoli per docid. Questo permette, ad esempio, di combinare in maniera semplice ed efficiente liste di documenti ritrovati per parole distinte contenute in una stessa query. Un altra opzione è di memorizzarli ordinandoli in funzione del numero di occorrenze di una parola in ogni documento. Questa strategia rende banale la risposta ad una query con una singola parola e fa sì che le risposte a query costituite da più parole siano vicine all inizio delle liste. In ogni caso tale strategia rende più complesso l intersezione delle liste. In Google esiste un compromesso tra queste due strategie; dunque vengono usate due differenti inverted barrel, uno che memorizza la lista completa di hit (full inverted barrel) ed uno in cui vengono memorizzati solo titolo ed anchor hit dei documenti (short inverted barrel). Viene controllato prima quest ultimo inverted barrel e solo se la corrispondenza con la query non è sufficiente viene analizzata anche la lista completa. Ora passeremo a descrivere brevemente i moduli che costituiscono l architettura di un motore di ricerca orientato al Web. 1.2 Architettura di Google In questo paragrafo, daremo uno sguardo ad alto livello all architettura di un motore di ricerca come Google. In Figura 4 riportiamo lo schema logico dell architettura di Google. Web Crawler: modulo che si occupa di scaricare le pagine dal Web. In Google, il web crawler è un sistema completamente distribuito. Il Figura 4: Schema architetturale di Google. 8

9 crawler ha un URL Server che manda le liste di URL che devono essere scaricati ai crawler disponibili nel sistema distribuito. Le pagine Web che sono scaricate vengono mandate ad uno Strore Server che le comprime e le memorizza in un archivio (Repository). Ogni pagina ha associato un ID chiamato docid che è assegnato quando un nuovo URL viene estratto da una pagina web già scaricata. Indexer: modulo che si occupa di indicizzare le pagine scaricate. L indexer si occupa di leggere l archivio dei documenti scaricati, decomprime i documenti e li analizza 1. Ogni documento è convertito in un insieme di occorrenze di parole chiamate hits. Una hit memorizza al suo interno la parola, la posizione della parola nel documento e un valore codificato della grandezza del font e se la parola è scritta in lettera maiuscola. L Indexer distribuisce questi hits in un insieme di barrels, creando un indice parzialmente ordinato in funzione dei docid. L Indexer inoltre si occupa di un altra importante funzione; infatti, ha il compito di estrarre dai documenti analizzati tutti i link e memorizza negli anchor file il contesto dei link trovati nel documento. Questi file contengono abbastanza informazione per determinare dove ogni link punta e il testo del link. URL Revolver: modulo che si occupa di trasformare URL relativi in URL assoluti ed associarvi un docid. Esso legge gli anchor file e converte gli indirizzi. A tal punto inserisce l anchor text nell indice, associato con il corrispondente docid del documento a cui l anchor text punta. Inoltre l URL Revolver genera un database di link che sono coppie di docid (connectivity graph). Questo database è usato per calcolare il PageRank di tutti i documenti. PageRank: una delle prime tecniche di analisi del contesto ipertestuale in cui le pagine Web sono immerse. Per darne un idea intuitiva, si considerino le pagine presenti sul Web (o anche in altri contesti in cui i documenti sono forniti di link ad altri documenti) come nodi di un grafo ed i link tra queste pagine come gli archi. E possibile definire il PageRank mediante un framework probabilistico [2] in cui esso corrisponde essenzialmente alla probabilità di trovarci in una pagina p all istante t in una passeggiata casuale sul grafo del web. Tale probabilità, indicata come x ( ) p t, è il PageRank della pagina p. A differenza dei sistemi proposti precedentemente al PageRank, esso non conta allo stesso modo tutti i link ad una pagina p provenienti da ogni altra pagina, ma pesa tali link sul PageRank delle pagine padri di p (ovvero che puntano la pagina p) e così via ricorsivamente. Dunque il PageRank si può esprimere mediante un sistema dinamico che itera varie volte (t) fino al raggiungimento della convergenza (che è dimostrata sotto alcune ipotesi). 1 Il documento viene portato in formato testo. 9

10 Assumiamo che la pagina p ha i padri (pagine che puntano p) q 1,,q n. Il parametro d descrive la probabilità di seguire un link, mentre 1-d è la probabilità di saltare direttamente su una nuova pagina. Tale valore è impostato a Sia C(q) il numero di link uscenti da una pagina q. Il PageRank della pagina p è definito come: i= 1 ( t 1) ( ) n xq i xp () t = ( 1 d) + d C q i E da notare che il PageRank forma una distribuzione di probabilità sulle pagine web, dunque la somma di tutti PageRank sarà pari ad 1. Senza dilungarci ulteriormente, il PageRank riesce a modellare il contesto ipertestuale delle pagine e il valore assegnato ad ogni pagina riflette l importanza nel grafo del Web del documento indipendentemente dalle query effettuate. L idea è quella di estrarre l informazione sulla qualità delle pagine nascosta nel concetto di citazione in modo analogo a quello che accade nella letteratura scientifica: le pagine che ricevono riferimenti da autori di pagine autorevoli ereditano a loro volta un certo grado di autorevolezza. Sorter: modulo che prende i barrels che sono ordinati mediante i docid (forward barrel) e li riordina per wordid in modo da generare gli inverted barrel per i titoli, gli anchor hit e per l intero testo della pagina. Il processo avviene un barrel alla volta, dunque richiede temporaneamte una piccola quantità di memoria da usare. In Google tale fase viene parallelizzata usando molte macchine che possono elaborare differenti bucket alla volta. Poiché un barrel non riesce ad entrare completamente nella memoria principale di una singola macchina, il Sorter si occupa di suddividere ogni barrel in unità più piccole dette appunto bucket che riescono ad essere caricate completamente nella memoria principale. A tal punto il Sorter carica ogni bucket nella memoria, lo ordina e scrive il suo contenuto negli inverted barrel. Searcher: è un web server e usa il lessico generato nella fase di indicizzazione, l indice inverso ed il PageRank per rispondere alle query. Di seguito riassumiamo i passi che esegue il Searcher per rispondere ad una query. 1. Analisi della query; 2. Conversione delle parole in wordid; 3. Posizionamento nel barrel all inizio della lista dei documenti (doclist) associata ad ogni parola della query; 10

11 4. Scansione della doclist finché c è un documento che soddisfa tutti i termini della query; 5. Calcola dell attinenza del documento alla query (score); 6. Se siamo nello short inverted barrel alla fine di una doclist associata ad una parola della query, ci si posiziona all inizio della corrispondente lista di documenti nella full inverted barrel e si riparte dal passo Ordinamento i documenti che rispondono alla query in funzione dello score ottenuto e creazione della lista dei primi k risultati. L obiettivo del Searcher è ritrovare in maniera efficiente i risultati migliori per la query. Per limitare il tempo di risposta, una volta che un certo numero di documenti (circa 40000) sono stati trovati, automaticamente il Searcher va al passo 7. Questo significa che può accadere che venga prodotto un insieme di risultati non ottimale. Per ammortizzare tale situazione, in Google gli hit vengono ordinati anche in base al PageRank. Ranker: è il sistema che si occupa di ordinare i documenti risultanti da una query. Come abbiamo visto, Google memorizza molta informazione per ogni pagina web. Ogni lista di hit contiene la posizione delle parole, il font e l informazione sulla lettera maiuscola. Inoltre sono usate anche liste di hit per gli anchor text e viene memorizzato anche il PageRank per ciascuna pagina. Tutte queste informazioni sono usate nella funzione di ranking, ovvero nella procedura di ordinamento delle pagine risultanti da una query. Per descrivere qualitativamente il sistema di ranking di Google possiamo partire dal caso più semplice, ovvero per una query con una singola parola. Al fine di assegnare un peso ad un documento che soddisfa la query, Google guarda nella lista di hit di quel documento. Google considera la tipologia di ogni hit (title, anchor, URL, plain text con font grande, plain text con font piccolo, ) a cui è associato un certo peso. Il Ranker conta il numero di hit di ogni tipo nella lista degli hit. A tal punto viene effettuato un prodotto scalare tra i valori ottenuti ed il vettore dei pesi relativi alla tipologia di hit. Il valore ottenuto è il valore di rank per il documento in questione. Tale valore viene combinato con il PageRank per dare il rank finale al documento. Per una query con più parole, la situazione è molto più complicata. In tal caso, più liste di hit devono essere analizzate in modo tale che hit che occorrono vicini in un documento sono pesati maggiormente rispetto a hit che occorrono più lontani. Gli hit di liste relative a parole della query distinte, sono messi insieme in funzione della loro vicinanza. Per ciascun insieme di hit viene calcolato un valore di prossimità. Tale valore si basa su quanto lontano gli hit sono lontani nel documento (o nell anchor), ma viene classificato in 10 valori differenti bin che vanno da un intera frase corrispondente, a nessuna 11

12 corrispondenza. A questo punto viene effettuato un conteggio che prende in considerazione tutti i tipi di hit e tutte le prossimità. Ogni coppia tipo/prossimità ha un peso detto type-prox-weight. Effettuando il prodotto scalate tra i type-prox-weight e i conteggi pesati viene calcolato lo score. Dunque abbiamo descritto i moduli che costituiscono un motore di ricerca per il Web. Nello specifico abbiamo analizzato la struttura di Google, che come è noto è il motore di ricerca per il Web più popolare ed efficiente al momento attuale. Nel prossimo capitolo tratteremo una tipologia particolare di motori di ricerca: i motori di ricerca focalizzati alla letteratura scientifica. Analizzeremo nel dettaglio l architettura di CiteSeer, il primo motore di ricerca focalizzato alla Computer Science, il quale ha ispirato il progetto CiteSeer Europe al quale è stata legata l attività oggetto di questa tesi. 12

13 Capitolo 2 CiteSeer: Il primo motore di ricerca dedicato alla letteratura scientifica Il rapido aumento del volume della letteratura scientifica ha ben presto portato i ricercatori ad un costante sforzo al fine di trovare e gestire informazioni di qualità, ovvero informazioni effettivamente rilevanti per il proprio lavoro di ricerca e di sicuro utili per il proprio bagaglio di conoscenza. Seguire costantemente la letteratura pubblicata e poi trovare le informazioni d interesse per la risoluzione di problemi legati alla propria attività di ricerca è diventato subito molto difficile, per non dire impossibile. Il Web permette di rendere gli articoli scientifici più facilmente disponibili, facilitando notevolmente il lavoro dei ricercatori, anche se, i motori di ricerca per il Web, si sono mostrati fin da subito inadatti ad immagazzinare e gestire questa tipologia di documenti, che per alcuni aspetti, risultano molto diversi rispetto alle tradizionali pagine HTML che popolano il Web. Sono in continuo aumento il numero di autori, riviste, istituzioni e archivi che rendono disponibili su rete gli articoli scientifici per un accesso immediato a queste informazioni. In ogni caso la letteratura scientifica sul Web rimane disorganizzata e dunque difficile da reperire. I ricercatori inseriscono articoli o technical report di particolare interesse sui propri siti, ma trovarli e risalire rapidamente all insieme dei riferimenti bibliografici da essi citati resta un compito molto difficile, addirittura un utopia fino a qualche anno fa. E solo da pochi anni, infatti, che i tradizionali motori di ricerca come Google o Yahoo, si sono adeguati alla realtà di una porzione del Web costituita da informazione di notevole interesse e che andava gestita altrettanto bene quanto le informazioni contenute nelle tradizionali pagine HTML; la maggior parte della letteratura scientifica, infatti, è disponibile sul Web solo in formato PS o PDF, e questi due formati non furono supportati fin da subito dai motori di ricerca, a causa della difficoltà di analizzare correttamente questi formati mantenendo una certa velocità nella creazione degli indici. Motori di ricerca focalizzati alla letteratura scientifica, come CiteSeer[5], Cora[6], o Google Scholar, sono strumenti di enorme importanza per i ricercatori, in quanto semplificano notevolmente e migliorano la loro attività di ricerca. Questo è possibile, in quanto come vedremo, questa tipologia di motori di ricerca, essendo focalizzati, riescono ad individuare ed inoltre semantizzare in maniera del tutto automatica i dati estratti mediante il parsing di questi documenti; i dati semantizzati, ovvero interpretati in un modo specifico, prendono il nome di metadati. CiteSeer è stato il primo motore di ricerca, infatti, capace di individuare ed interpretare come tali, le citazioni presenti nel testo. Tale 13

14 caratteristica dà il nome al motore di ricerca, anche se CiteSeer non riesce ad individuare esclusivamente questo metadato, ma anche titoli, autori ed abstract. Questa sua capacità ha permesso a CiteSeer di ricostruire il grafo delle citazioni tra gli articoli ed offrire una serie di servizi di notevole importanza che l hanno reso famoso tra i ricercatori di Computer Science ed indispensabile nel loro lavoro di ricerca bibliografica. L estrazione e l utilizzo dei metadati permette ai motori di ricerca, di fornire una serie di informazioni molto più dettagliate di quelle che tradizionalmente siamo abituati a ricevere da un motore di ricerca tradizionale come risposta ad una query. Infatti il risultato di una query ad un motore di ricerca tradizionale, fornisce un unica informazione, cioè quali sono i documenti che contengono determinate parole (o in ogni caso semplici varianti a questo concetto). Un motore di ricerca focalizzato alla letteratura, capace di estrarre in maniera efficiente i metadati contenuti nei documenti, permettere di estrarre una serie di informazioni molto più dettagliate, restringendo le query non all intero documento, ma solo ai metadati. Facciamo un esempio: una query ad un motore di ricerca che sfrutta a pieno i metadati estratti potrebbe essere ristretta al metadato Section dove il titolo è Abstract oppure Introduction. L informazione risultante ad una query del genere risulterebbe ben più precisa e rilevante rispetto alle richieste dell utente, infatti il motore di ricerca, come è chiaro, risponderebbe con una lista di documenti che contengono le parole della query nella porzione del documento intitolata Abstract, oppure Introduction, scartando quei documenti che non contengono queste parole o che non le contengono nelle porzioni di testo desiderate. Un altro esempio che mette ulteriormente in evidenza l utilità dell estrazione e dell utilizzo di metadati per un motore di ricerca è fornito da una query ristretta ai metadati di tipo Author dove il nome è ad esempio Ernesto ed il cognome è Di Iorio. Una query di questo genere produrrebbe la lista degli articoli (indicizzati dal motore di ricerca) scritti da Ernesto Di Iorio ; in tal caso sarebbero scartati tutti quei documenti in cui, pur essendo contenute le parole Ernesto e Di Iorio, esse non sono state identificate come parti di un metadato Author in quanto, ad esempio, queste parole sono contenute in una citazione, oppure nei ringraziamenti o nel testo. Ovviamente saranno anche scartati quei documenti che non contengono le parole richieste. Questi sono solo alcuni dei casi d uso che mettono in rilievo la potenzialità intrinseca di un motore di ricerca con un sistema di estrazione dei metadati efficiente. Infatti l estrazione dei metadati non solo permette di rendere le query più espressive, ma addirittura permette di pensare a nuovi sistemi di ranking che come sappiamo bene, in passato hanno fatto la differenza nella competizione tra i motori 14

15 di ricerca tradizionali. Infatti ritornando di qualche anno indietro nel tempo, ricorderemo sicuramente che Google ebbe il suo successo, grazie non solo ad una capacità tecnica eccezionale, ma soprattutto alla sua eccezionale (per quei tempi) capacità di ordinamento dei risultati delle query. Google infatti ordinava i risultati non solo in funzione dell attinenza del contenuto dei documenti alla query, ma anche dell autorità della pagina calcolata mediante il grafo del Web[3]. Questa tecnica permise a Google di fare maggiormente luce nel mare sconfinato di pagine Web, distinguendosi dai suoi rivali fino a tal punto che oggi giorno la parola google è diventata sinonimo di fare ricerche sul web. Mediante la tecnica che ha preso il nome di PageRank, Google fu il padre di una nuova generazione di motori di ricerca che tutt oggi sono lo strumento più efficiente per la ricerca sul Web. Dunque credo sia chiara l utilità e l importanza di un motore di ricerca focalizzato alla letteratura scientifica, in cui opera un sistema di estrazione di metadati efficiente. Gli utenti di questa tipologia di sistemi hanno bisogno di avere sempre una maggiore rapidità e precisione delle risposte per riuscire a governare il mondo della letteratura scientifica. I motori di ricerca tradizionali dunque non bastano, e lo dimostra il fatto che Google si è preoccupato di creare Google Scholar, che per l appunto è un motore di ricerca focalizzato alla letteratura scientifica e che ha una serie di caratteristiche innovative rispetto ai suoi predecessori proprio per quanto riguarda il sistema di estrazione dei metadati. A differenza di CiteSeer, infatti, Google Scholar è un motore di ricerca focalizzato alla letteratura scientifica, ma che non ha limiti dal punto di vista del dominio semantico dei documenti che riesce a trattare. CiteSeer infatti è focalizzato ai documenti di Computer Science, e scarta automaticamente documenti che non fanno parte di questo dominio semantico, come ad esempio articoli di matematica, fisica, economia ecc. Google Scholar è un motore domain independent in quanto il suo sistema di estrazione di metadati riesce a trattare articoli scientifici di ogni tipo. Nel prossimo paragrafo descriveremo dettagliatamente l architettura di CiteSeer che è stato il primo motore di ricerca focalizzato alla letteratura scientifica. Inoltre metteremo in evidenza i limiti di CiteSeer che ci hanno portato ad una riprogettazione del sistema e alla costruzione di CiteSeerEurope. 2.1 Introduzione Nell'estate del 1997 tre ricercatori della NEC (Kurt Bollacker, Steve Lawrence e Lee Giles) iniziarono a lavorare ad un progetto che, inizialmente rivolto solo all'uso interno nei laboratori di ricerca dell'azienda, divenne un servizio disponibile gratuitamente sul Web nella primavera del Il progetto in questione, originariamente chiamato ResearchIndex, è più noto al pubblico con il suo "marchio" successivo CiteSeer [4][5]. 15

16 Quando parliamo di CiteSeer ci riferiamo ad un motore di ricerca specializzato su documenti di letteratura accademica, un servizio in cui si pone, come suggerisce il nome stesso, una particolare enfasi sulla struttura dei collegamenti esistenti tra i documenti in questione. Grazie al successo riscosso CiteSeer continua ad esistere anche dopo l'abbandono del progetto da parte della NEC. Il servizio, attualmente, viene mantenuto operativo presso la School of Information Science and Technology della Pennsylvania State University, con il nuovo marchio CiteSeer.IST 2 (dalla sigla del centro di ricerca in cui viene ospitato il progetto). Attualmente CiteSeer è specializzato nell'indicizzazione di articoli scientifici correlati al dominio della Computer Science (al momento della stesura di questo testo il suo storage contiene documenti) e nell'estrazione automatica delle citazioni tra gli stessi. CiteSeer è esplicitamente progettato per indicizzare articoli scientifici, con una particolare attenzione per i preprint. Le particolarità che distinguono CiteSeer da un motore di ricerca tradizionale (come ad esempio Google, Yahoo o MSN Search) derivano dal fatto che gli oggetti trattati dal sistema hanno, in effetti, caratteristiche peculiari che li distinguono dalle pagine Web, comunemente oggetto delle attenzioni dei motori di ricerca tradizionali. La prima particolarità che vale la pena di notare è che gli articoli scientifici sono tipicamente disponibili in formato elettronico codificati prevalentemente nei noti formati PostScript (.ps) e Adobe Portable Document Format (.pdf). Dunque CiteSeer deve trattare con tali formati e provvedere ad estrarre da questi il testo da indicizzare; lo storage di CiteSeer contiene infatti unicamente articoli in ps e pdf (e altri formati in cui li converte automaticamente). Da notare inoltre che un articolo scientifico non può essere certo considerato informazione strutturata nel senso classico in cui si userebbe il termine nel campo dei database riferendosi a dati organizzati in tabelle, record, campi e così via, ma non è neppure del tutto destrutturato. Gli articoli seguono infatti una organizzazione logica (che si riflette nel proprio layout) piuttosto standardizzata: sicuramente potremo distinguere una intestazione (o header) ben separata dal corpo del testo. Nell'intestazione (di cui troviamo un esempio in Figura 5) troverà posto il titolo dell'articolo, una lista di autori con le relative affiliazioni (università, centri di ricerca, imprese...) magari corredati del 2 16

17 corrispettivo indirizzo di posta di superficie e/o di posta elettronica, un breve abstract che descrive il contenuto dell'articolo e talvolta anche un elenco di keyword associate al lavoro che si sta esaminando. Figura 5: Header di un documento. In giallo è evidenziato il titolo; in azzurro gli autori, in verde le affiliazioni e in rosso pastello l'abstract. Al termine dell'intestazione (tipicamente presente all'inizio della prima pagina) comincia il corpo dell'articolo vero e proprio organizzato in sezioni e sotto-sezioni, che potremmo considerare come flussi di testo autocontenuti, interrotti saltuariamente da figure, grafici ed equazioni; per finire troveremo una sezione particolarmente importante: i riferimenti bibliografici (come vediamo in Figura 6). 17

18 Figura 6: Pagina dell articolo in cui inizia la sezione dedicata alla bibliografia. E pratica comune nel corso di un articolo fare riferimento ad altri lavori correlati con quanto si sta scrivendo; talvolta per inquadrare meglio il problema studiato nel suo contesto, altre volte per brevità cercando di evitare prolisse spiegazioni su tecniche utilizzate già note (e di cui si rimanda a lavori che contengano spiegazioni dettagliate), in altri casi ancora per criticare o confrontare altre ricerche con la propria. A prescindere dalla specifica motivazione per cui si fa una citazione è abbastanza ovvio notare come tale pratica sia dovuta alla natura stessa dell'indagine scientifica, che si propone di esplorare ed arricchire la conoscenza su di un certo tema costruendo a partire da quanto già si conosce su di un certo argomento. Se vogliamo, parte del successo di CiteSeer sta proprio nel fatto di aver saputo valorizzare una componente come quella della rete sociale, già ampiamente presente e riconosciuta nell'ambito della ricerca scientifica. 18

19 Poter disporre di un indice delle citazioni permette di individuare facilmente i collegamenti tra gli articoli seguendo le citazioni; in particolare è possibile seguire le citazioni direttamente a partire dalla lista dei riferimenti presenti in ogni articolo e in questo modo è possibile risalire alle fonti e ricostruire il background e l'evoluzione storica di una specifica disciplina o segmento di ricerca. L'uso di indici delle citazioni permette in particolare di: scoprire le relazioni tra articoli; portare all'attenzione del lettore informazioni circa correzioni o ritrattazioni di lavori pubblicati; identificare i miglioramenti o le critiche significative ai lavori precedenti; limitare l'inutile spreco di tempo dovuto alla duplicazione di ricerche già effettuate. Oltre a questi obiettivi base gli indici di citazioni (insieme ai metadati: autore, titolo, abstract, affiliazione etc...) possono essere usati per analizzare le tendenze della ricerca nel corso del tempo, le aree emergenti della scienza, i fronti di ricerca, le relazioni che esistono tra i vari ricercatori e tra i vari enti di ricerca. Sfortunatamente però, in assenza di strumenti automatici come l Automatic Citation Indexing (ACI), la costruzione di indici di citazioni sarebbe un lavoro lungo, noioso, dispendioso e soggetto comunque a errori o distorsioni umane. Quando Robert D. Cameron propose (vedere [7]) una bibliografia universale e un database di citazioni che avrebbe collegato ogni articolo scientifico mai scritto, stava in effetti descrivendo un sistema in cui tutta la ricerca pubblicata sarebbe stata disponibile e consultabile da qualunque ricercatore, tuttavia l'onere per la costruzione di un simile database secondo Cameron avrebbe dovuto essere a carico degli autori e delle istituzioni che avrebbero dovuto fornire in un formato opportuno le informazioni utili per la costruzione del sistema. Purtroppo, ad eccezione di alcuni settori ben delimitati e in riferimento solo alla produzione di certi editori, la mole enorme di lavoro necessaria per costruire manualmente un simile database ha finora impedito la realizzazione di un sogno così ambizioso. Proprio per queste difficoltà oggettive i sistemi basati sull'aci possono rivelarsi insostituibili nella lotta tra la crescente produzione scientifica e la necessità di mettere ordine nel caos. 19

20 2.1.1 Caratteristiche principali La caratteristica più innovativa del sistema CiteSeer è indubbiamente l'indicizzazione automatica delle citazioni ovvero "Autonomous Citation Indexing" (ACI), tuttavia il sistema presenta diverse funzioni interessanti su cui il tutto è stato armonicamente costruito. In particolare, volendo stilare un breve elenco: Indicizzazione automatica delle citazioni; Analisi ed estrazione di testo da pdf e ps; Visualizzazione e conversione di documenti multi-formato (oltre a.ps e.pdf anche.dvi e immagini); Localizzazione efficiente dei documenti sul Web tramite segnalazioni da parte degli utenti (comprese limitate capacità di crawling); Indicizzazione full-text degli articoli e delle citazioni, supporta ricerca booleana, di frasi, per prossimità e, mancando la rimozione delle stopwords, anche di iniziali e sigle; Estrazione automatica dei metadati presenti in un articolo (titolo, autore, abstract...) e delle citazioni; Contestualizzazione delle citazioni; Notifica automatica di nuove citazioni verso un dato articolo e di nuovi articoli che corrispondono al profilo di un certo utente; Calcolo di statistiche di popolarità su ogni autore, documento e articolo citato (anche se non presente nello storage); Esplorazione del database degli articoli seguendo direttamente le citazioni; Creazione di bibliografia attiva che mostra i documenti correlati basandosi sulle citazioni e su metriche basate sul testo; Rilevamento di documenti simili basato sul testo; Rilevamento e rimozione di duplicati e semi-duplicati del documento preso in esame; Uso del grafo delle citazioni per individuare gli hub, le authority e calcolare il PageRank degli articoli. Ritorneremo dettagliatamente sulle funzioni più rilevanti appena elencate, ma prima di passare ad una analisi dei servizi offerti è importante chiarire maggiormente il funzionamento del sistema nei suoi vari componenti. 20

Introduzione E. TINELLI LTW A. A. 2011-2012

Introduzione E. TINELLI LTW A. A. 2011-2012 Corso di Laurea Specialistica in Ingegneria Informatica Corso di Linguaggi e Tecnologie Web A. A. 2011-2012 Web Information Retrieval Eufemia TINELLI Introduzione Per Web information Retrieval si intende

Dettagli

@Giusi Castagnetta tutti i diritti riservati. Seo e contenuti video

@Giusi Castagnetta tutti i diritti riservati. Seo e contenuti video @Giusi Castagnetta tutti i diritti riservati Seo e contenuti video SEO facile Quando cerchiamo qualcosa sui motori di ricerca, ci aspettiamo di trovare per primi i risultati migliori, cioè quelli più pertinenti

Dettagli

Tassonomia Web Spam GIUGNO 2005

Tassonomia Web Spam GIUGNO 2005 Prefazione: Questo documento si basa sull originale Web Spam Taxonomy firmato da alcuni ricercatori del dipartimento di Computer Science della Stanford University e pubblicato ad Aprile 2005. Tassonomia

Dettagli

ARCHIVI CLASSICI. Concetti di base

ARCHIVI CLASSICI. Concetti di base ARCHIVI CLASSICI Concetti di base Per svolgere una qualsiasi attività gestionale, amministrativa, o statistica è necessario utilizzare grandi quantità di dati e scegliere per essi una opportuna organizzazione,

Dettagli

Il World Wide Web. Il Web. La nascita del Web. Le idee di base del Web

Il World Wide Web. Il Web. La nascita del Web. Le idee di base del Web Il World Wide Web Il Web Claudio Fornaro ver. 1.3 1 Il World Wide Web (ragnatela di estensione mondiale) o WWW o Web è un sistema di documenti ipertestuali collegati tra loro attraverso Internet Attraverso

Dettagli

2.1 Introduzione ai linguaggi di marcatura

2.1 Introduzione ai linguaggi di marcatura Fondamenti di Informatica Sistemi di Elaborazione delle Informazioni Informatica Applicata 2.1 Introduzione ai linguaggi di marcatura Antonella Poggi Anno Accademico 2012-2013 DIPARTIMENTO DI SCIENZE DOCUMENTARIE

Dettagli

Che cos'è e come funziona un motore di ricerca

Che cos'è e come funziona un motore di ricerca Che cos'è e come funziona un motore di ricerca Un motore di ricerca è un sistema automatico che analizza un insieme di dati raccolti e restituisce un indice dei contenuti disponibili, classificandoli in

Dettagli

GOOGLE VALUTAZIONE DI UN SITO INTERNET GOOGLE SCHOLAR

GOOGLE VALUTAZIONE DI UN SITO INTERNET GOOGLE SCHOLAR CORSO DI LAUREA IN SCIENZE DELL EDUCAZIONE E DEI PROCESSI FORMATIVI CORSO DI LAUREA MAGISTRALE IN PROGETTAZIONE E COORDINAMENTO DEI SERVIZI EDUCATIVI ALLA RICERCA DI LIBRI E ARTICOLI : OPAC, RISORSE ELETTRONICHE

Dettagli

Breve descrizione del prodotto

Breve descrizione del prodotto Breve descrizione del prodotto 1. Il software AquaBrowser Library...2 1.1 Le funzioni di Search Discover Refine...3 1.2 Search: la funzione di ricerca e di presentazione dei risultati...3 1.2.1 La configurazione

Dettagli

MANUALE UTENTE DELLA BIBLIOTECA VIRTUALE

MANUALE UTENTE DELLA BIBLIOTECA VIRTUALE MANUALE UTENTE DELLA BIBLIOTECA VIRTUALE Il sistema di ricerca della biblioteca virtuale permette di accedere in maniera rapida ai materiali didattici di interesse degli studenti presenti all interno del

Dettagli

Reti complesse Ranking

Reti complesse Ranking Reti complesse Ranking dellamico@disi.unige.it Applicazioni di rete 2 A.A. 2006-07 Outline 1 Ricerca sul web Ranking 2 L'ago nel pagliaio Ricerca sul web Ranking Immaginiamo di avere una biblioteca con

Dettagli

I MOTORI DI RICERCA motori di ricerca. motori di ricerca per termini motori di ricerca sistematici

I MOTORI DI RICERCA motori di ricerca. motori di ricerca per termini motori di ricerca sistematici I MOTORI DI RICERCA Il numero di siti Internet è infinito e ormai ha raggiunto una crescita esponenziale; inoltre, ogni sito è costituito da diverse pagine, alcune volte centinaia, e individuare un informazione

Dettagli

Parte 7. Ricerca di informazione sul Web e. ! Strumenti per la gestione e ricerca di informazione. " Paradigmi basati su ontologie

Parte 7. Ricerca di informazione sul Web e. ! Strumenti per la gestione e ricerca di informazione.  Paradigmi basati su ontologie Ricerca di informazione sul Web! Strumenti per la gestione e ricerca di informazione " Paradigmi basati su ontologie # Directories gerarchiche " Ricerche per similarità # What s related (Alexa/Netscape)

Dettagli

I MOTORI DI RICERCA (I Parte)

I MOTORI DI RICERCA (I Parte) Introduzione I MOTORI DI RICERCA (I Parte) Una delle cose più incredibili che possiamo affermare riguardo ad Internet è che possiamo trovarci veramente di tutto. Qualsiasi argomento che ci viene in mente

Dettagli

Indicazioni pratiche per realizzare una campagna marketing digitale

Indicazioni pratiche per realizzare una campagna marketing digitale Indicazioni pratiche per realizzare una campagna marketing digitale La fase strategia SEO: la scelta delle keyword Questa fase è fondamentale, qualunque attività SEO risulta essere priva di senso se non

Dettagli

Corso di Informatica di Base. Laboratorio 2

Corso di Informatica di Base. Laboratorio 2 Corso di Informatica di Base Laboratorio 2 Motori di Ricerca Sara Casolari Cercare nel posto giusto Andare in posti noti Esempio: per reperire informazioni sui contributi pensionistici chiediamo all INPS

Dettagli

Navigazione. per associazione. ipertesti/ipermedia. l utente naviga nello spazio dei documenti alla ricerca dei nodi di interesse

Navigazione. per associazione. ipertesti/ipermedia. l utente naviga nello spazio dei documenti alla ricerca dei nodi di interesse Tipologia dei dati e organizzazione delle informazioni Sistemi di indicizzazione e recupero 5. Database e Information Retrieval per associazione Navigazione ipertesti/ipermedia l utente naviga nello spazio

Dettagli

Cultura Tecnologica di Progetto

Cultura Tecnologica di Progetto Cultura Tecnologica di Progetto Politecnico di Milano Facoltà di Disegno Industriale - DATABASE - A.A. 2003-2004 2004 DataBase DB e DataBase Management System DBMS - I database sono archivi che costituiscono

Dettagli

Tracce di approfondimento per il capitolo 6 La ricerca di informazioni per le scienze umane

Tracce di approfondimento per il capitolo 6 La ricerca di informazioni per le scienze umane Tracce di approfondimento per il capitolo 6 La ricerca di informazioni per le scienze umane Vantaggi e limiti delle folksonomie (difficoltà: *) Nel paragrafo 7.4 è stato introdotto il concetto di social

Dettagli

Motori di ricerca. Reti e Web. Motori di ricerca. Motori di ricerca - Interfaccia. Motori di ricerca

Motori di ricerca. Reti e Web. Motori di ricerca. Motori di ricerca - Interfaccia. Motori di ricerca Reti e Web Si stima vi siano almeno 13 miliardi di pagine Web Sistemi per la ricerca e la catalogazione delle pagine Web motori di ricerca (Google, Yahoo!, Bing,...) cataloghi sistematici (Yahoo! directory)

Dettagli

Search Engine Optimization per Calciomercato.it

Search Engine Optimization per Calciomercato.it www.mamadigital.com Search Engine Optimization per Calciomercato.it Mamadigital srl - Sede legale e operativa: Via Conegliano, 18-00182 Roma C.F. e P. iva 09738901009 Phone: +39 0670614560 Fax: +39 0670391132

Dettagli

Introduzione. Il principio di localizzazione... 2 Organizzazioni delle memorie cache... 4 Gestione delle scritture in una cache...

Introduzione. Il principio di localizzazione... 2 Organizzazioni delle memorie cache... 4 Gestione delle scritture in una cache... Appunti di Calcolatori Elettronici Concetti generali sulla memoria cache Introduzione... 1 Il principio di localizzazione... 2 Organizzazioni delle memorie cache... 4 Gestione delle scritture in una cache...

Dettagli

Prime sperimentazioni d'indicizzazione [semi]automatica alla BNCF

Prime sperimentazioni d'indicizzazione [semi]automatica alla BNCF Prime sperimentazioni d'indicizzazione [semi]automatica alla BNCF Maria Grazia Pepe - Elisabetta Viti (Biblioteca nazionale centrale di Firenze) 6. Incontro ISKO Italia Firenze 20 maggio 2013 SOMMARIO

Dettagli

Motori di Ricerca. Vale a dire: ci sono troppe informazioni, il problema è trovarle!

Motori di Ricerca. Vale a dire: ci sono troppe informazioni, il problema è trovarle! Motori di Ricerca "La Rete Internet equivale all unificazione di tutte le biblioteche del mondo, dove però qualcuno si è divertito a togliere tutti i libri dagli scaffali". Vale a dire: ci sono troppe

Dettagli

disponibili nel pacchetto software.

disponibili nel pacchetto software. Modulo syllabus 4 00 000 00 0 000 000 0 Modulo syllabus 4 DATABASE 00 000 00 0 000 000 0 Richiede che il candidato dimostri di possedere la conoscenza relativa ad alcuni concetti fondamentali sui database

Dettagli

RICERCA DELL INFORMAZIONE

RICERCA DELL INFORMAZIONE RICERCA DELL INFORMAZIONE DOCUMENTO documento (risorsa informativa) = supporto + contenuto analogico o digitale locale o remoto (accessibile in rete) testuale, grafico, multimediale DOCUMENTO risorsa continuativa

Dettagli

Relazione Pinakes3 Analisi modello di business (BOZZA) di Valeriano Sandrucci 08/09/07

Relazione Pinakes3 Analisi modello di business (BOZZA) di Valeriano Sandrucci 08/09/07 Relazione Pinakes3 Analisi modello di business (BOZZA) di Valeriano Sandrucci 08/09/07 1. Introduzione...3 1.2. Application vs Tool... 3 2. Componenti logiche di un modello... 6 3. Ontologie e Semantic

Dettagli

Cercare documenti Web

Cercare documenti Web Pagine web (struttura html) Cercare documenti Web Motori di Ricerca I MOTORI DI RICERCA Sulla rete Web vi sono strumenti specifici chiamati motori di ricerca (research engines) per la ricerca di siti e

Dettagli

Database e Microsoft Access. Ing. Antonio Guadagno

Database e Microsoft Access. Ing. Antonio Guadagno Database e Microsoft Access Ing. Antonio Guadagno Database e Microsoft Access Un Database non è altro che un insieme di contenitori e di strumenti informatici che ci permette di gestire grossi quantitativi

Dettagli

Sistemi Informativi e Basi di Dati

Sistemi Informativi e Basi di Dati Sistemi Informativi e Basi di Dati Laurea Specialistica in Tecnologie di Analisi degli Impatti Ecotossicologici Docente: Francesco Geri Dipartimento di Scienze Ambientali G. Sarfatti Via P.A. Mattioli

Dettagli

Dove iniziare la ricerca bibliografica

Dove iniziare la ricerca bibliografica Information Literacy Oggi ci sono molte risorse a disposizione per lo studio dell ingegneria, per questo è importante saperle utilizzare con discrezionalità per essere certi di aver fatto un lavoro di

Dettagli

Reti Informatiche: Internet e posta. elettronica. Tina Fasulo. Guida a Internet Explorer e alla posta elettronica Windows Live Mail

Reti Informatiche: Internet e posta. elettronica. Tina Fasulo. Guida a Internet Explorer e alla posta elettronica Windows Live Mail Reti Informatiche: Internet e posta elettronica Tina Fasulo 2012 Guida a Internet Explorer e alla posta elettronica Windows Live Mail 1 Parte prima: navigazione del Web Il browser è un programma che consente

Dettagli

Alla scoperta dei Graph Database

Alla scoperta dei Graph Database Alla scoperta dei Graph Database Matteo Pani 24 ottobre 2015 One size doesn t fit all Modellare le relazioni I Graph Database Il Labeled Property Graph Model I Graph-DBMS Neo4j Neo4j Internals Cypher Interagire

Dettagli

Questa pagina e tutti i capitoli della guida che trovate elencati a destra costituiscono il cuore di questo sito web.

Questa pagina e tutti i capitoli della guida che trovate elencati a destra costituiscono il cuore di questo sito web. Posizionamento sui motori di ricerca. Cos'è il "posizionamento"? Per posizionamento si intente un insieme di tecniche che hanno l'obiettivo di migliorare la posizione di un sito web nei risultati delle

Dettagli

POR Regione Campania 2000-2006 Misura 3.14. Promozione della partecipazione Femminile al Mercato del Lavoro. Dispensa

POR Regione Campania 2000-2006 Misura 3.14. Promozione della partecipazione Femminile al Mercato del Lavoro. Dispensa DISPENSA I.C.T. POR Regione Campania 2000-2006 Misura 3.14 Promozione della partecipazione Femminile al Mercato del Lavoro Dispensa IL SEARCH ENGINE RANKING, PER CONQUISTARE LA PRIMA PAGINA DEI MOTORI

Dettagli

*** QUESTO DOCUMENTO E' INCOMPLETO ED IN FASE AMPLIAMENTO CONTINUO. ***

*** QUESTO DOCUMENTO E' INCOMPLETO ED IN FASE AMPLIAMENTO CONTINUO. *** *** QUESTO DOCUMENTO E' INCOMPLETO ED IN FASE AMPLIAMENTO CONTINUO. *** PREFAZIONE Questo progetto nasce perchè mi sono reso conto dell'importanza che i motori di ricerca hanno su Internet. Internet rappresenta

Dettagli

Compilare e gestire bibliografie: i software gratuiti. a cura di Laura Perillo Sistema Bibliotecario di Ateneo Agg. ottobre 2014

Compilare e gestire bibliografie: i software gratuiti. a cura di Laura Perillo Sistema Bibliotecario di Ateneo Agg. ottobre 2014 Compilare e gestire bibliografie: i software gratuiti a cura di Laura Perillo Sistema Bibliotecario di Ateneo Agg. ottobre 2014 I software per la gestione di bibliografie Chiamati reference managers o

Dettagli

Information Literacy

Information Literacy Information Literacy Oggi ci sono molte risorse a disposizione per lo studio dell ingegneria, per questo è importante saperle utilizzare con discrezionalità per essere certi di aver fatto un lavoro di

Dettagli

fonti di informazione, qui intese come l insieme dei soggetti (singoli individui, imprese, enti,

fonti di informazione, qui intese come l insieme dei soggetti (singoli individui, imprese, enti, INTERNET COME RISORSA INFORMATIVA APPUNTI Internet e il Web rappresentano una risorsa informativa immensa, una delle più ricche ed eterogenee che siano mai state rese disponibili a un pubblico così vasto,

Dettagli

WWW.ICTIME.ORG. Introduzione al SEO. Cimini Simonelli Testa

WWW.ICTIME.ORG. Introduzione al SEO. Cimini Simonelli Testa WWW.ICTIME.ORG Introduzione al SEO Cimini Simonelli Testa v.1 28 Gennaio 2008 Cecilia Cimini Angelo Simonelli Francesco Testa Introduzione al SEO EDIZIONE Gennaio 2008 Questo manuale utilizza la Creative

Dettagli

Servizi di ricerca nel Web (Web search)

Servizi di ricerca nel Web (Web search) Servizi di ricerca nel Web (Web search) Generalità Introduzione Il web è il più grande database mondiali di contenuti. É un contenitore di informazioni che vengono pubblicate, modificate, cancellate, inserite

Dettagli

Sorgenti autorevoli in ambienti hyperlinkati.

Sorgenti autorevoli in ambienti hyperlinkati. Sorgenti autorevoli in ambienti hyperlinkati. La qualità di un metodo di ricerca richiede la valutazione umana dovuta alla soggettività inerente alla nozione di rilevanza. I motori di ricerca correnti,

Dettagli

Indice. settembre 2008 Il File System 2

Indice. settembre 2008 Il File System 2 Il File System Indice 4. Il File System 5. Vantaggi del FS 6. Protezione 7. Condivisione 8. I file - 1 9. I file - 2 10. Attributi dei file 11. Directory 12. Livelli di astrazione - 1 13. Livelli di astrazione

Dettagli

Introduzione alla Business Intelligence. E-mail: infobusiness@zucchetti.it

Introduzione alla Business Intelligence. E-mail: infobusiness@zucchetti.it Introduzione alla Business Intelligence E-mail: infobusiness@zucchetti.it Introduzione alla Business Intelligence Introduzione Definizione di Business Intelligence: insieme di processi per raccogliere

Dettagli

Laboratorio di Informatica

Laboratorio di Informatica Laboratorio di Informatica Introduzione al Web WWW World Wide Web CdL Economia A.A. 2012/2013 Domenica Sileo Università degli Studi della Basilicata Introduzione al Web : WWW >> Sommario Sommario 2 n World

Dettagli

Uno sguardo a Lucene. Diego De Cao, Roberto Basili Web Mining and Information Retrieval a.a. 2010/2011

Uno sguardo a Lucene. Diego De Cao, Roberto Basili Web Mining and Information Retrieval a.a. 2010/2011 Uno sguardo a Lucene Diego De Cao, Roberto Basili Web Mining and Information Retrieval a.a. 2010/2011 Outline Uno sguardo a Lucene Descrizione delle principali caratteristiche Realizzazione di un semplice

Dettagli

ARCHIVI E LORO ORGANIZZAZIONI

ARCHIVI E LORO ORGANIZZAZIONI ARCHIVI E LORO ORGANIZZAZIONI Archivio: - insieme di registrazioni (record), ciascuna costituita da un insieme prefissato di informazioni elementari dette attributi (campi) - insieme di informazioni relative

Dettagli

Rapporto tecnico contenente la selezione dei dataset per l addestramento e la convalida del caso di studio relativo all analisi web

Rapporto tecnico contenente la selezione dei dataset per l addestramento e la convalida del caso di studio relativo all analisi web Rapporto tecnico contenente la selezione dei dataset per l addestramento e la convalida del caso di studio relativo all analisi web 16 febbraio 2015 Indice 1 Individuazione dei dataset 1 2 Dataset Repositories

Dettagli

Le informazioni. Fondamenti di informatica. I documenti. Information retrieval. Information retrieval. Ricerche alternative 19/02/2015

Le informazioni. Fondamenti di informatica. I documenti. Information retrieval. Information retrieval. Ricerche alternative 19/02/2015 Fondamenti di informatica Appunti sulla ricerca di informazioni per le scienze umane dal capitolo 8 del testo: M. Lazzari, Informatica umanistica, McGraw-Hill, 2014 Marco Lazzari Le informazioni 1. letteratura

Dettagli

WEB. Visibilita' sul web. Gabriele Murara

WEB. Visibilita' sul web. Gabriele Murara WEB Visibilita' sul web Gabriele Murara 1 Definizione Visibilità sul web: posizionamento di un sito internet tra i primi posti nei risultati di un motore di ricerca. Rappresenta la più intelligente forma

Dettagli

Sistemi RAID. Sistemi RAID. Sistemi RAID

Sistemi RAID. Sistemi RAID. Sistemi RAID Sistemi RAID 1 Sistemi RAID Dei tre elementi fondamentali di un qualsiasi sistema computerizzato: processore, memoria primaria, memoria secondaria, quest ultimo è di gran lunga il più lento. Inoltre, il

Dettagli

Sistemi RAID. Sistemi RAID

Sistemi RAID. Sistemi RAID Sistemi RAID 1 Sistemi RAID Dei tre elementi fondamentali di un qualsiasi sistema computerizzato: processore, memoria primaria, memoria secondaria, quest ultimo è di gran lunga il più lento. Inoltre, il

Dettagli

Informatica Documentale

Informatica Documentale Informatica Documentale Ivan Scagnetto (scagnett@dimi.uniud.it) Stanza 3, Nodo Sud Dipartimento di Matematica e Informatica Via delle Scienze, n. 206 33100 Udine Tel. 0432 558451 Ricevimento: giovedì,

Dettagli

La gestione del documento

La gestione del documento Operatore giuridico d impresa Informatica Giuridica A.A 2002/2003 II Semestre La gestione del documento prof. Monica Palmirani Il documento A differenza del dato il documento è solitamente un oggetto non

Dettagli

Biblioteca di. A cura della Biblioteca di Economia Università Ca Foscari Venezia Con la collaborazione degli Studenti Tutor della Facoltà di Economia

Biblioteca di. A cura della Biblioteca di Economia Università Ca Foscari Venezia Con la collaborazione degli Studenti Tutor della Facoltà di Economia Biblioteca di Economia BREVE GUIDA ALL USO DELLE BANCHE DATI BUSINESS SOURCE ELITE (BSE) e ECONLIT A cura della Biblioteca di Economia Università Ca Foscari Venezia Con la collaborazione degli Studenti

Dettagli

Sistemi RAID tutti i dati che contiene RAID

Sistemi RAID tutti i dati che contiene RAID Sistemi RAID 1 Sistemi RAID Dei tre elementi fondamentali di un qualsiasi sistema computerizzato: processore, memoria primaria, memoria secondaria, quest ultimo è di gran lunga il più lento. Inoltre, il

Dettagli

SVILUPPO ONTOLOGIE PER LA GESTIONE DOCUMENTALE E LORO INTEGRAZIONE ALL INTERNO DI UNA PIATTAFORMA WEB

SVILUPPO ONTOLOGIE PER LA GESTIONE DOCUMENTALE E LORO INTEGRAZIONE ALL INTERNO DI UNA PIATTAFORMA WEB Facoltà di Ingegneria Corso di Laurea Specialistica in Ingegneria Informatica SVILUPPO ONTOLOGIE PER LA GESTIONE DOCUMENTALE E LORO INTEGRAZIONE ALL INTERNO DI UNA PIATTAFORMA WEB Relatore Chiarissimo

Dettagli

Reti di Calcolatori. Lezione 3

Reti di Calcolatori. Lezione 3 Reti di Calcolatori Lezione 3 I livelli di una rete Per ridurre la complessità di progetto, le reti sono in generale organizzate a livelli: Il Formato dei Pacchetti Tutti pacchetti sono fatti in questo

Dettagli

Metodi basati sugli autovettori per il Web Information Retrieval

Metodi basati sugli autovettori per il Web Information Retrieval Metodi basati sugli autovettori per il Web Information Retrieval HITS, PageRank e il metodo delle potenze LSI e SVD LSI è diventato famoso per la sua abilità nel permettere di manipolare i termini (all

Dettagli

MANUALE DI ISTRUZIONI

MANUALE DI ISTRUZIONI GUIDA AL SITO ANIN MANUALE DI ISTRUZIONI Prima Sezione COME MUOVERSI NELL AREA PUBBLICA DELL ANIN Seconda Sezione COME MUOVERSI NELL AREA RISERVATA DELL ANIN http://www.anin.it Prima Sezione 1) FORMAZIONE

Dettagli

Periodici elettronici e banche dati

Periodici elettronici e banche dati Servizio civile nazionale volontario Università di Pavia Progetto Vivere la biblioteca: dalla gestione al servizio - 2009 Periodici elettronici e banche dati Caterina Barazia Periodici elettronici: definizione

Dettagli

GUIDA UTENTE FATTURA IMPRESA

GUIDA UTENTE FATTURA IMPRESA GUIDA UTENTE FATTURA IMPRESA (Vers. 4.5.0) Installazione... 2 Prima esecuzione... 5 Login... 6 Funzionalità... 7 Documenti... 8 Creazione di un nuovo documento... 9 Ricerca di un documento... 17 Calcolare

Dettagli

Pedigree Documentazione aggiuntiva Corso di reperimento dell informazione a.a. 2005/2006 prof.sa Maristella Agosti

Pedigree Documentazione aggiuntiva Corso di reperimento dell informazione a.a. 2005/2006 prof.sa Maristella Agosti Pedigree Documentazione aggiuntiva Corso di reperimento dell informazione a.a. 25/26 prof.sa Maristella Agosti Argenton Matteo Buzzi Lorenzo Gatto Giorgio Molinaro Matteo Zorzan Emmanuele Prestazioni

Dettagli

Breve introduzione al Calcolo Evoluzionistico

Breve introduzione al Calcolo Evoluzionistico Breve introduzione al Calcolo Evoluzionistico Stefano Cagnoni Dipartimento di Ingegneria dell Informazione, Università di Parma cagnoni@ce.unipr.it 1 Introduzione Il mondo fisico ed i fenomeni naturali

Dettagli

VADEMECUM PER UNA STRATEGIA SEO VINCENTE

VADEMECUM PER UNA STRATEGIA SEO VINCENTE F a b r i z i o C a r u s o VADEMECUM PER UNA STRATEGIA SEO VINCENTE L esperienza maturata e i risultati raggiunti nel corso degli anni attraverso l insegnamento e la consulenza SEO mi hanno indotto a

Dettagli

Database Modulo 3 DEFINIRE LE CHIAVI

Database Modulo 3 DEFINIRE LE CHIAVI Database Modulo 3 DEFINIRE LE CHIAVI Nell organizzazione di un archivio informatizzato è indispensabile poter definire univocamente le informazioni in esso inserite. Tale esigenza è abbastanza ovvia se

Dettagli

browser Tipologia dei dati e organizzazione delle informazioni Sistemi di indicizzazione e recupero

browser Tipologia dei dati e organizzazione delle informazioni Sistemi di indicizzazione e recupero Tipologia dei dati e organizzazione delle informazioni Sistemi di indicizzazione e recupero 7. Ricerca delle informazioni in rete, browsers, portali, motori di ricerca browser Un browser è un programma

Dettagli

VENETO LAVORO Osservatorio & Ricerca DOCUMENTO INTERNO N. 50. PLANET 2.0 e successive Note e specifiche guida

VENETO LAVORO Osservatorio & Ricerca DOCUMENTO INTERNO N. 50. PLANET 2.0 e successive Note e specifiche guida VENETO LAVORO Osservatorio & Ricerca DOCUMENTO INTERNO N. 50 PLANET 2.0 e successive Note e specifiche guida Venezia-Mestre, Gennaio 2011 1 1. Planet è il nuovo database statistico, costruito con i dati

Dettagli

Motori di ricerca. Andrea Marin

Motori di ricerca. Andrea Marin Andrea Marin Università Ca Foscari Venezia SVILUPPO INTERCULTURALE DEI SISTEMI TURISTICI SISTEMI INFORMATIVI E TECNOLOGIE WEB PER IL TURISMO - 1 a.a. 2012/2013 Section 1 Information Retrieval e Motori

Dettagli

Introduzione all elaborazione di database nel Web

Introduzione all elaborazione di database nel Web Introduzione all elaborazione di database nel Web Prof.ssa M. Cesa 1 Concetti base del Web Il Web è formato da computer nella rete Internet connessi fra loro in una modalità particolare che consente un

Dettagli

Facoltà di Farmacia - Corso di Informatica

Facoltà di Farmacia - Corso di Informatica Basi di dati Riferimenti: Curtin cap. 8 Versione: 13/03/2007 1 Basi di dati (Database, DB) Una delle applicazioni informatiche più utilizzate, ma meno conosciute dai non informatici Avete già interagito

Dettagli

Controllo I/O Costituito dai driver dei dispositivi e dai gestori dei segnali d interruzione.

Controllo I/O Costituito dai driver dei dispositivi e dai gestori dei segnali d interruzione. C6. REALIZZAZIONE DEL FILE SYSTEM Struttura del file system Un file è analizzabile da diversi punti di vista. Dal punto di vista del sistema è un contenitore di dati collegati tra di loro, mentre dal punto

Dettagli

Valutare e citare i documenti

Valutare e citare i documenti Valutare e citare i documenti di Stefania Fraschetta Corso di laurea Triennale in Comunicazione e Psicologia Prova finale - III modulo, 27 gennaio 2014 Sommario Cercare e valutare documenti in rete: La

Dettagli

Oracle 9i oracle text

Oracle 9i oracle text Argomenti trattati: Oracle 9i oracle text Rappresentare documenti di testo in un DBMS testuale Gestione di testi in Oracle 9i Corso di Laboratorio di Basi di dati II Autori: Myriam Mapelli, Guido Valente

Dettagli

Introduzione alle basi di dati (prima parte)

Introduzione alle basi di dati (prima parte) Introduzione alle basi di dati (prima parte) Università degli Studi di Salerno Corso di Laurea in Scienze della Comunicazione Informatica generale (matr. Dispari) Docente: Angela Peduto A.A. 2007/2008

Dettagli

Stampa di dati variabili (VDP)

Stampa di dati variabili (VDP) 2014 Electronics For Imaging. Per questo prodotto, il trattamento delle informazioni contenute nella presente pubblicazione è regolato da quanto previsto in Avvisi legali. 9 giugno 2014 Indice 3 Indice

Dettagli

Internet e World Wide Web

Internet e World Wide Web Alfonso Miola Internet e World Wide Web Dispensa C-02 Settembre 2005 1 Nota bene Il presente materiale didattico è derivato dalla dispensa prodotta da Luca Cabibbo Dip. Informatica e Automazione Università

Dettagli

IRIS (Institutional Research Information System) Manuale d uso

IRIS (Institutional Research Information System) Manuale d uso IRIS (Institutional Research Information System) Manuale d uso A cura dell Ufficio Ricerca Nazionale prodotti.ricerca@unife.it INDICE COS E IRIS... 3 IRIS AREA PUBBLICA... 4 IRIS AREA RISERVATA AI RICERCATORI

Dettagli

Base Dati Introduzione

Base Dati Introduzione Università di Cassino Facoltà di Ingegneria Modulo di Alfabetizzazione Informatica Base Dati Introduzione Si ringrazia l ing. Francesco Colace dell Università di Salerno Gli archivi costituiscono una memoria

Dettagli

Altri metodi di indicizzazione

Altri metodi di indicizzazione Organizzazione a indici su più livelli Altri metodi di indicizzazione Al crescere della dimensione del file l organizzazione sequenziale a indice diventa inefficiente: in lettura a causa del crescere del

Dettagli

MU/NDOC-ESIB Manuale utente Esibizione a norma Legaldoc

MU/NDOC-ESIB Manuale utente Esibizione a norma Legaldoc LegalDoc Servizio di Conservazione a norma MU/NDOC-ESIB Manuale utente Esibizione a norma Legaldoc MU/NDOC-ESIB Manuale utente Esibizione a norma Legaldoc 1.1 del 28/05/2015 pag. 1 di 18 1.Introduzione

Dettagli

Memorizzazione dei dati: Dischi e File

Memorizzazione dei dati: Dischi e File Memorizzazione dei dati: Dischi e File Query\update Query plan Execution Engine richieste di indici, record e file Index/file/record Manager comandi su pagine Query Compiler Buffer Manager Lettura/scrittura

Dettagli

Corso di Sistemi di Elaborazione delle informazioni

Corso di Sistemi di Elaborazione delle informazioni Corso di Sistemi di Elaborazione delle informazioni Reti di Calcolatori Francesco Fontanella Il DNS Gli indirizzi IP sono in formato numerico: sono difficili da ricordare; Ricordare delle stringhe di testo

Dettagli

ITI Galilei Salerno Corso Database ed SQL

ITI Galilei Salerno Corso Database ed SQL ITI Galilei Salerno Corso Database ed SQL prof Carmine Napoli Introduzione Database: Si definisce Database un insieme di dati, di solito di notevoli dimensioni, raccolti, memorizzati ed organizzai in modo

Dettagli

Lezione 8. Motori di Ricerca

Lezione 8. Motori di Ricerca Lezione 8 Motori di Ricerca Basi di dati Un campo prevalente dell applicazione informatica è quello costituito dall archiviazione e dalla gestione dei dati (basi di dati). Sistema Informativo. Un sistema

Dettagli

Dispense a cura del prof. Ing. Dino Molli. prof. ing. Dino Molli SVILUPPO SOFTWARE - FORMAZIONE E CONSULENZA INFORMATICA MARIGLIANO (NA)

Dispense a cura del prof. Ing. Dino Molli. prof. ing. Dino Molli SVILUPPO SOFTWARE - FORMAZIONE E CONSULENZA INFORMATICA MARIGLIANO (NA) prof. ing. Dino Molli SVILUPPO SOFTWARE - FORMAZIONE E CONSULENZA INFORMATICA MARIGLIANO (NA) http://www.dinomolli.it info@dinomolli.it Dispense a cura del prof. ing. Dino Molli Il sito Web Il Sito Web

Dettagli

WEB Information Retrieval

WEB Information Retrieval WEB Information Retrieval Materiale tratto dal corso di Gabriella Pasi Materiale tratto da cap. 13 Modern Information Retrieval by Ricardo Baeza-Yates and Berthier Ribeiro-Neto http://www.sims.berkeley.edu/~hearst/irbook/

Dettagli

http://mb.unisalento.it/index.htm

http://mb.unisalento.it/index.htm Appunti Fondamenti di Informatica 7/05/015 I motori di ricerca Algoritmi e strutture dati I motori di ricerca sono tra i servizi internet maggiormente utilizzati. Come in un libro sono generalmente presenti

Dettagli

AGGIORNAMENTO AREA SEMANTICA GESTIONE SOGGETTARI

AGGIORNAMENTO AREA SEMANTICA GESTIONE SOGGETTARI Pag. 1 di 9 Manuale Utente Aprile 2013 -MUT-01--Gestione_Soggetto Pag. 2 di 9 INDICE 1. SCOPO DEL DOCUMENTO... 3 2. DESCRIZIONE... 3 3. GESTIONE DI EDIZIONI DIVERSE DEL SOGGETTARIO DI FIRENZE... 3 3.1

Dettagli

Il database management system Access

Il database management system Access Il database management system Access Corso di autoistruzione http://www.manualipc.it/manuali/ corso/manuali.php? idcap=00&idman=17&size=12&sid= INTRODUZIONE Il concetto di base di dati, database o archivio

Dettagli

Tipologie di Biblioteche Digitali

Tipologie di Biblioteche Digitali Tipologie di Biblioteche Digitali Biblioteche Digitali 1 Tipologie Biblioteche Pubbliche e Biblioteche Specializzate Gestione letteratura white e gray Gestione di vari tipi di dati Biblioteche Digitali

Dettagli

Informativa e consenso per l utilizzo delle Google Apps for Education ISMC ALLEGATO 2 ALLEGATO 2 PRIVACY DI GOOGLE

Informativa e consenso per l utilizzo delle Google Apps for Education ISMC ALLEGATO 2 ALLEGATO 2 PRIVACY DI GOOGLE Pag. 1 di 8 PRIVACY DI GOOGLE (http://www.google.com/intl/it/policies/privacy/ Ultima modifica: 19 agosto 2015) I nostri servizi possono essere utilizzati in tanti modi diversi: per cercare e condividere

Dettagli

Mon Ami 3000 Varianti articolo Gestione di varianti articoli

Mon Ami 3000 Varianti articolo Gestione di varianti articoli Prerequisiti Mon Ami 3000 Varianti articolo Gestione di varianti articoli L opzione Varianti articolo è disponibile per le versioni Azienda Light e Azienda Pro e include tre funzionalità distinte: 1. Gestione

Dettagli

File e indici. Tecnologia delle BD: perché studiarla? Le basi di dati sono grandi e persistenti. DataBase Management System DBMS

File e indici. Tecnologia delle BD: perché studiarla? Le basi di dati sono grandi e persistenti. DataBase Management System DBMS 1 Tecnologia delle BD: perché studiarla? File e indici I DBMS offrono i loro servizi in modo "trasparente": per questo abbiamo potuto finora ignorare molti aspetti realizzativi abbiamo considerato il DBMS

Dettagli

Lezione 6 Introduzione a Microsoft Excel Parte Terza

Lezione 6 Introduzione a Microsoft Excel Parte Terza Lezione 6 Introduzione a Microsoft Excel Parte Terza I grafici in Excel... 1 Creazione di grafici con i dati di un foglio di lavoro... 1 Ricerca del tipo di grafico più adatto... 3 Modifica del grafico...

Dettagli

SISTEMA DI PREFETCHING CLIENT-SIDE PER TRAFFICO WEB

SISTEMA DI PREFETCHING CLIENT-SIDE PER TRAFFICO WEB UNIVERSITÀ DEGLI STUDI DI ROMA TOR VERGATA Facoltà di Ingegneria Corso di Laurea Specialistica in Ingegneria Informatica Progetto per il corso di Ingegneria del Web SISTEMA DI PREFETCHING CLIENT-SIDE PER

Dettagli

Relazione sul data warehouse e sul data mining

Relazione sul data warehouse e sul data mining Relazione sul data warehouse e sul data mining INTRODUZIONE Inquadrando il sistema informativo aziendale automatizzato come costituito dall insieme delle risorse messe a disposizione della tecnologia,

Dettagli

Indice generale. Nota dell editore...xiii. Parte I Antipattern nella progettazione logica di database 11

Indice generale. Nota dell editore...xiii. Parte I Antipattern nella progettazione logica di database 11 Indice generale Nota dell editore...xiii Capitolo 1 Introduzione...1 1.1 A chi si rivolge questo libro... 2 1.2 Contenuto del libro... 3 Struttura del libro... 3 Anatomia di un antipattern... 4 1.3 Che

Dettagli

Progettazione per requisiti

Progettazione per requisiti Progettazione per requisiti White paper La riproduzione totale o parziale di questo documento è permessa solo se esplicitamente autorizzata da Lecit Consulting Copyright 2003 Lecit Consulting Sommario

Dettagli

Modulo 3. Rappresentazione di solidi mediante forntiera e strutture dati collegate.

Modulo 3. Rappresentazione di solidi mediante forntiera e strutture dati collegate. Modulo 3. Rappresentazione di solidi mediante forntiera e strutture dati collegate. Nel precedente modulo abbiamo presentato le modalità di rappresentazione di un solido mediante enumerazione o mediante

Dettagli