Introduzione all'information retrieval

Dimensione: px
Iniziare la visualizzazioe della pagina:

Download "Introduzione all'information retrieval"

Transcript

1 Corso di Ontologie e Semantic Web Introduzione all'information retrieval Stefano Montanelli Schema di riferimento Definizioni essenziali Modello booleano Modello vettoriale Valutazione Riferimenti bibliografici Cos è l Information Retrieval? Information retrieval is a field concerned with the structure, analysis, organization, storage, searching, and retrieval of information (Salton, 1968) Information retrieval (IR) is finding material (usually documents) of an unstructured nature (usually text) that satisfies an information need from within large collections (usually stored on computers) (Manning et al., 2009) 2 1

2 Cos è l Information Retrieval? Information retrieval (IR) is concerned with representing, searching, and manipulating large collections of electronic text and other humanlanguage data (Büttcher et al., 2010) Information retrieval (lett. recupero d informazioni) è l'insieme delle tecniche utilizzate per il recupero mirato dell informazione in formato elettronico (Wikipedia, 2012) 3 Information vs. data retrieval Avere accesso a numerose informazioni rende difficile selezionare quelle che servono nel momento in cui servono I sistemi di IR sono ampiamente diffusi, ma non bisogna confondere Information Retrieval con Data Retrieval Trovare su web le pagine che trattano di basi di dati Trovare le ricevute da Stefano Montanelli nel mese di febbraio 2012 Trovare i documenti sul PC che riguardano il corso di ontologie e web semantico 4 2

3 Schema di un sistema di IR Il processo di indicizzazione (indexing) web pages, s,letters,news acquisizione trasformazione testo creazione indice archivio documenti classificazione (ranking) indice 5 Schema di un sistema di IR Il processo di interrogazione (query) utente finale archivio documenti elaborazione interrogazione dati di log valutazione classificazione (ranking) indice 6 3

4 Reperimento delle informazioni Il procedimento di ricerca delle informazioni in un sistema di IR segue il seguente schema: 1. L utente esprime il proprio bisogno informativo mediante un interrogazione 2. L interrogazione viene inviata al sistema di IR (trasformazione) 3. L indice fornisce i documenti rilevanti rispetto all interrogazione 7 Reperimento delle informazioni Il procedimento di ricerca delle informazioni in un sistema di IR segue il seguente schema: 4. (I documenti vengono ordinati rispetto alla presunta rilevanza per l utente) 5. I documenti vengono restituiti all utente 6. L utente valuta il risultato ed eventualmente raffina la ricerca dando vita a una nuova interrogazione 8 4

5 Definizioni essenziali Bisogno informativo E' l'argomento su cui l'utente vuole reperire informazioni Interrogazione E' il mezzo che il sistema di IR offre all'utente per comunicare il proprio bisogno informativo Collezione (o corpus) E l insieme dei documenti su cui vengono eseguite le operazioni di reperimento 9 Definizioni essenziali Documento E l unità informativa considerata dalle operazioni di reperimento (e costituisce un elemento del risultato di un'interrogazione) Termine (può non essere una parola) E l unità lessicale di cui sono costituiti i documenti Dizionario (dei termini) o vocabolario E l'insieme di tutti i termini che compaiono in un corpus 10 5

6 Definizioni essenziali Posting list (lista di corrispondenza) E la struttura dati che memorizza la corrispondenza tra un termine e i documenti in cui esso appare Indice (invertito) E' la struttura dati che consente di reperire in modo efficiente le liste di corrispondenza rilevanti per l'interrogazione 11 Corso di Ontologie e Semantic Web Il sistema booleano 6

7 Definizione di modello booleano Il modello booleano di IR è caratterizzato dall uso di interrogazioni espresse mediante predicati booleani Un predicato booleano è costituito da un elenco di termini connessi mediante operatori booleani (AND, OR, NOT) Un documento è restituito nel risultato dell interrogazione se e solo se soddisfa il predicato booleano 13 Processo di indicizzazione Trasformazione del testo: si costruisce il dizionario dei termini a partire dal contenuto dei documenti Creazione indice: si costruisce una matrice di incidenza in cui memorizzare le corrispondenze termine-documento Classificazione: è assente nel modello booleano 14 7

8 Processo di interrogazione Formulazione dell'interrogazione Elaborazione dell'interrogazione: Si estraggono i termini richiesti dal predicato booleano Si confrontano con l'indice Si valuta il valore di verità del predicato booleano Si restituisce il risultato Valutazione: è banale. Il sistema restituisce tutti i documenti che soddisfano il predicato booleano 15 Trasformazione del testo Mostra Cézanne, Milano (docid: 1) Faticò ad essere compreso dai contemporanei a causa del suo stile essenziale e inconfondibile ma riuscì ugualmente a lasciare un segno indelebile nei movimenti successivi, come il Cubismo e il Surrealismo. Paul Cézanne è protagonista di una grande antologica a Palazzo Reale: in mostra oltre quaranta tele, dalle prime opere ai ritratti, passando per i paesaggi e le nature morte, per arrivare contemporanei, stile, essenziale, inconfondibile, segno, indelebile, movimenti, cubismo, surrealismo, paul, cézanne, protagonista, antologica, palazzo, reale, mostra, tele, opere, ritratti, paesaggi, nature, morte, 16 8

9 Trasformazione del testo La pittura italiana del XIX secolo, Pavia (docid: 2) Il Castello Visconteo di Pavia è la cornice della grande mostra La pittura italiana del XIX secolo. In esposizione 70 tele provenienti dalle più prestigiose collezioni nazionali e firmate da artisti come Francesco Hayez e Giovanni Boldini. Un percorso che va dal Neoclassicismo al Simbolismo e che testimonia la ricchezza e la varietà dell'arte figurativa italiana dell'ottocento castello, visconteo, pavia, cornice, mostra, pittura, italiana, XIX, secolo, esposizione, 70, tele, collezioni, nazionali, artisti, francesco, hayez, giovanni, boldini, percorso, neoclassicismo, simbolismo, ricchezza, varietà, arte, italiana, ottocento. 17 Trasformazione del testo Mostra La natura squisita, Milano (docid: 3) Fulvio Di Piazza, Marco Mazzoni e Nicola Verlato: tre artisti per un viaggio alla scoperta del concetto di Natura, alla Fondazione Stelline fino al 25 febbraio. In mostra venticinque opere storiche e inedite che conducono il visitatore in un universo vitale e pulsante, sospeso tra atmosfere surreali e suggestioni contemporanee fulvio, piazza, marco, mazzoni, nicola, verlato, artisti, viaggio, scoperta, concetto, natura, fondazione, stelline, febbraio, mostra, venticinque, opere, storiche, inedite, visitatore, universo, vitale, pulsante, sospeso, atmosfere, surreali, suggestioni, contemporanee 18 9

10 Creazione dell'indice Matrice di incidenza Termine docid:1 docid: 2 docid: 3 Cubismo Surrealismo Cezanne Opere Tele Mostra Pittura Italiana artisti Fondazione Natura Formulazione dell'interrogazione bisogno informativo Eventi di mostre relative a opere ad eccezione di quelle di Cezanne Mostra AND Opere AND (NOT Cezanne) predicato booleano 20 10

11 Elaborazione dell'interrogazione Termine docid:1 docid: 2 docid: 3 Cubismo Surrealismo Cezanne Opere Tele Mostra Pittura Italiana artisti Fondazione Nature Elaborazione dell'interrogazione Mostra AND Opere AND (NOT Cezanne) Termine docid:1 docid: 2 docid: 3 Cezanne Opere Mostra NOT Cezanne Opere AND (NOT Cezanne) Mostra AND Opere AND (NOT Cezanne) docid 3 è il risultato dell'interrogazione 22 11

12 Corso di Ontologie e Semantic Web Il sistema vettoriale Limiti del modello booleano Il modello booleano è inadatto a sistemi di IR in cui il corpus di documenti è molto ampio I risultati non sono ordinati per rilevanza I risultati di una query possono essere troppo numerosi per un utente umano Il modello vettoriale è stato ideato per ovviare ai limiti del modello booleano 24 12

13 Il modello vettoriale Il modello vettoriale si basa sul principio che la rilevanza di un documento rispetto a una query è misurabile su un insieme di valori più ampio rispetto al semplice Sì/No Caratteristiche del modello vettoriale la rilevanza di un documento si misura sull'intervallo continuo [0,1] Le query degli utenti sono espresse come testo libero (e.g., una lista di keyword, una frase) 25 Il modello vettoriale La rilevanza di un documento rispetto a una query viene misurata come segue Si calcola la rilevanza di ciascuna chiave di ricerca della query rispetto al documento Si calcola una misura di rilevanza complessiva che combina le misure di rilevanza di ciascuna chiave di ricerca rispetto al documento considerato 26 13

14 Frequenza dei termini e pesatura Come valutare la rilevanza di una chiave di ricerca k per un certo documento d? Comunemente, la rilevanza di k è l'importanza (o peso, weight) che la chiave di ricerca ha per d e coincide con il numero di occorrenze di k in d 27 Frequenza dei termini e pesatura Nel modello vettoriale è necessario memorizzare la frequenza con cui i termini da indicizzare compaiono in ciascun documento La frequenza del termine t nel documento d è indicata come tf(t,d) 28 14

15 Frequenza dei termini e pesatura Considerazioni Misurare l'importanza di un termine in un documento basandosi esclusivamente sulla sua frequenza può essere fuorviante I termini che compaiono/occorrono in un documento non sempre hanno la medesima importanza 29 Frequenza dei termini e pesatura Esempio La Triennale, Milano (docid: 15) La Triennale di Milano ospita una collezione di opere di design e numerose mostre temporanee di design ed arte moderna Mostra Cézanne, Milano (docid: 1) Paul Cézanne è protagonista di una grande mostra antologica a Palazzo Reale: in mostra quaranta tele, dalle prime opere ai ritratti Organizzazione eventi, Milano (docid: 102) Il gruppo XXX vanta esperienza pluriennale nell'organizzazione di eventi e mostre di successo mediante soluzioni su misura per ogni tipo di evento 30 15

16 Frequenza dei termini e pesatura Esempio La Triennale, Milano (docid: 15) triennale milano raccogliere collezione opera design(2) numeroso mostra temporaneo arte moderno Mostra Cézanne, Milano (docid: 1) paul cezanne protagonista grande antologico palazzo reale mostra(2) quaranta tela primo opera ritratto Organizzazione eventi, Milano (docid: 102) gruppo XXX vantare esperienza pluriennale organizzazione evento(2) mostra successo mediante soluzione misura ogni tipo 31 Frequenza dei termini e pesatura Esempio La Triennale, Milano (docid: 15) triennale milano raccogliere collezione opera design(2) numeroso mostra temporaneo arte moderno Mostra Cézanne, Milano (docid: 1) paul cezanne protagonista grande antologico palazzo reale mostra(2) quaranta tela primo opera ritratto Organizzazione eventi, Milano (docid: 102) gruppo XXX vantare esperienza pluriennale organizzazione evento(2) mostra successo mediante soluzione misura ogni tipo 32 16

17 Frequenza dei termini e pesatura Esempio Quali termini meglio caratterizzano il contenuto dei tre documenti considerati? Se ci affidiamo alla frequenza dei termini risulta che "Design" descrive docid15 tf(design,docid15)=2 "Mostra" descrive docid1 tf(mostra,docid1)=2 "Evento" descrive docid102 tf(evento,docid102)=2 Questo risultato può essere soddisfacente per docid15 e docid102, ma non per docid1 Il termine "Mostra" è usato in tutti e tre i documenti e risulta poco significativo per catturare il contenuto specifico di un documento 33 Frequenza dei termini e pesatura E' possibile usare una tecnica di normalizzazione per attenuare l'effetto dei termini che occorrono molto frequentemente nel corpus A tal proposito per ogni termine t introduciamo la nozione di frequenza nei documenti (document frequency) df(t) La frequenza nei documenti df(t) è il numero di documenti in cui il termine t compare/occorre In alternativa, per scopi di normalizzazione, è possibile utilizzare la nozione di frequenza nel corpus (collection frequency) cf(t) 34 17

18 Frequenza inversa dei termini La frequenza nei documenti di un termine t consente di introdurre la nozione di frequenza inversa nei documenti (inverse document frequency) idf(t) La frequenza inversa nei documenti premia i termini che occorrono raramente nel corpus penalizza i termini molto frequenti 35 Frequenza inversa dei termini La frequenza inversa di un termine t è definita come segue N è il numero di documenti che appartengono al corpus 36 18

19 Frequenza inversa dei termini Esempio Corpus contenente N= 150 documenti relativi a eventi della città di Milano df(mostra)=121 df(evento)=25 df(design)=7 37 Importanza di un termine Per una più accurata misura dell'importanza di un termine t in un documento d è possibile combinare la frequenza tf(t,d) con la frequenza inversa idf(t) come segue La precedente misura è comunemente nota come tf-idf del termine t nel documento d 38 19

20 Importanza di un termine La misura tf-idf(t,d) È premiante (più elevata) quando il termine t occorre molte volte in pochi documenti (per i quali t ha una buona importanza) E' penalizzante (bassa) quando il termine t occorre poche volte in pochi documenti (per i quali t ha poca importanza) E' molto penalizzante (molto bassa) quanto il termine t occorre in tutti (o quasi) i documenti 39 Importanza di un termine Esempio (basato sui documenti docid15, docid102, docid1) tf-idf(design,docid15) = 2 * 3.1 = 6.2 tf-idf(evento,docid102) = 2 * 1.8 = 3.6 tf-idf(mostra,docid1) = 2 * 0.2 =

21 Documenti come vettori Nel modello vettoriale, un documento d può essere visto come un vettore (cioè una lista) i cui elementi sono i termini che compaiono in d docid1=<paul;cezanne;mostra;tela;opera> Ai fini del reperimento, ciascun termine t del vettore può essere sostituito dalla corrispondente misura di importanza per il documento d espressa mediante tf-idf(t,d) docid1=<5.2; 9.2; 0.4, 2.1; 1.9> 41 Rilevanza di un documento La rappresentazione di un documento d mediante un vettore v(d) è interessante per misurare la rilevanza del documento rispetto a una query q data La rilevanza di d rispetto a q è data dalla somma dei tf-idf dei termini t che appartengono a d e che sono stati inseriti nella query q 42 21

22 Rilevanza di un documento La rilevanza (score) di un documento d rispetto a una query q può essere calcolata come segue: 43 Rilevanza di un documento E' possibile calcolare una misura più articolata di score(q,d) utilizzando la similarità cosenica (cosine similarity) La similarità cosenica calcola score(q,d) mediante operazioni algebriche sui due vettori: Il vettore v(d) che contiene i termini del documento d Il vettore v(q) che contiene i termini della query q 44 22

23 Esercizio Si consideri un corpus di N=1000 documenti e si considerino i seguenti dati: tf(t1,d1)=5 tf(t2,d1)=3 df(t1)=115 df(t2)=25 Quale termine fra t1 e t2 è più importante per il documento d1? Se considero la query q={t1,t2}, qual è il valore di rilevanza del documento d1 rispetto a q? 45 Corso di Ontologie e Semantic Web Valutazione di un sistema di information retrieval 23

24 Valutare un sistema di IR E' un tema che riguarda la definizione di opportune strategie per misurare l'efficacia delle tecniche di reperimento su cui è costruito il sistema di IR considerato Intuitivamente, l'obiettivo è misurare quanto il sistema di IR è capace di restituire tutti e soli i documenti rilevanti rispetto a un dato bisogno informativo 47 Valutare un sistema di IR Questioni interessanti Gli aspetti quantitativi sono centrali: non basta restituire tutti i documenti rilevanti, è altrettanto cruciale scartare quelli non rilevanti Non sempre le tecniche di reperimento sono in grado di catturare il bisogno informativo Rispetto a cosa valutiamo se il risultato di una query è appropriato? 48 24

25 Valutare un sistema di IR Esempio 1, bis.inf.a: mostre in programma a Milano presso Palazzo Reale? Mostra Cézanne, Milano (docid: 1)? Mostra La perfezione dell'immagine, Milano (docid: 47)? Mostra Brera incontra il Pushkin, Milano (docid: 32)? Mostra Transavanguardia, Milano (docid: 83)? Mostra Anthony James, Milano (docid: 18) 49 Valutare un sistema di IR Esempio 2, bis.inf.b: mostre di arte figurativa? Mostra Cézanne, Milano (docid: 1)? Mostra La perfezione dell'immagine, Milano (docid: 47)? Mostra Brera incontra il Pushkin, Milano (docid: 32)? Mostra Transavanguardia, Milano (docid: 83)? Mostra Anthony James, Milano (docid: 18) 50 25

26 Valutare un sistema di IR Esempio 3, bis.inf.c: mostre di artisti eccentrici? Mostra Cézanne, Milano (docid: 1)? Mostra La perfezione dell'immagine, Milano (docid: 47)? Mostra Brera incontra il Pushkin, Milano (docid: 32)? Mostra Transavanguardia, Milano (docid: 83)? Mostra Anthony James, Milano (docid: 18) 51 Strategia di valutazione Componenti coinvolte nel procedimento di valutazione Un corpus di documenti sufficientemente ampio Una lista di bisogni informativi con relative query Una verità aurea (ground truth o gold standard) che distingue ciò che è vero da ciò che è falso e si assume corretta per definizione 52 26

27 La ground truth E' un insieme di corrispondenze (mapping) tra documenti e query Ogni corrispondenza della ground truth è un mapping atteso, cioè un risultato che il sistema di IR dovrebbe restituire Il sistema di IR perfetto deve restituire tutti e soli i mapping previsti dalla ground truth 53 La ground truth La ground truth è definita da un utente esperto, o una squadra di utenti esperti (esperti di cosa?!) L'efficacia del sistema di valutazione dipende dalle scelte interpretative che i progettisti della ground truth decidono di operare 54 27

28 La ground truth Esempio Bis.Inf.A Bis.Inf.A Bis.Inf.B Bis.Inf.B Bis.Inf.B Bis.Inf.B Bis.Inf.C Bis.Inf.C Mostra Cézanne, Milano (docid: 1) Mostra Transavanguardia, Milano (docid: 83) Mostra Cézanne, Milano (docid: 1) Mostra La perfezione dell'immagine, Milano (docid: 47) Mostra Brera incontra il Pushkin, Milano (docid: 32) Mostra Transavanguardia, Milano (docid: 83) Mostra Transavanguardia, Milano (docid: 83) Mostra Anthony James, Milano (docid: 18) 55 Come valutare Rispetto a un bisogno informativo La ground truth distingue i documenti rilevanti da quelli non rilevanti Il sistema di IR restituisce nel risultato alcuni documenti e ne scarta altri Nello scenario migliore, i documenti rilevanti nella ground truth coincidono con il risultato prodotto dal sistema di IR Il sistema di IR restituisce i documenti rilevanti (true positives, veri positivi) e scarta i documenti non rilevanti (true negatives, veri negativi) 56 28

29 Come valutare Nella realtà la situazione può essere più articolata Caso 1 (false positive, falsi positivi) Il sistema di IR restituisce documenti che non sono rilevanti rispetto al bisogno informativo (in base alla ground truth) Caso 2 (false negative, falsi negativi) Il sistema di IR scarta documenti che sono rilevanti rispetto al bisogno informativo (in base alla ground truth) 57 Come valutare Sintesi Doc. reperiti Doc. non reperiti Doc. rilevanti True positive (tp) Corretti e reperiti False negative (fn) Corretti ma non reperiti Doc. non rilevanti False positive (fp) Errati ma reperiti True negative (tn) Errati e non reperiti Falsi positivi e negativi compromettono l'efficacia del sistema di IR Gli strumenti di valutazione devono misurare l'entità di falsi positivi e falsi negativi per il sistema di IR 58 29

30 Misure di valutazione: precision Precision (P): è il rapporto tra il numero di documenti rilevanti reperiti dal sistema di IR e il numero di documenti complessivamente reperiti dal medesimo 59 Misure di valutazione: precision Considerazioni Quando P=1 siamo in presenza di un sistema di IR in cui tutti i risultati reperiti sono corretti (fp=0) P=1 è il miglior valore di precision Il valore di P decresce al crescere dei falsi positivi La precision da sola non è sufficiente a misurare l'efficacia di un sistema di IR: i possibili falsi negativi (fn) non sono considerati 60 30

31 Misure di valutazione: precision Esempio (Bis.Inf.B) Scenario 1: il sistema restituisce X Mostra Cézanne, Milano (docid: 1) Mostra La perfezione dell'immagine, Milano (docid: 47) Mostra Anthony James, Milano (docid: 18) 61 Misure di valutazione: precision Esempio (Bis.Inf.B) Scenario 2: il sistema restituisce Mostra Cézanne, Milano (docid: 1) 62 31

32 Misure di valutazione: recall Recall (R): è il rapporto tra il numero di documenti rilevanti reperiti dal sistema di IR e il numero di documenti complessivamente rilevanti previsto dalla ground truth 63 Misure di valutazione: recall Considerazioni Quando R=1 siamo in presenza di un sistema di IR in cui tutti i documenti rilevanti sono reperiti (fn=0) R=1 è il miglior valore di recall Il valore di R decresce al crescere dei falsi negativi La recall da sola non è sufficiente a misurare l'efficacia di un sistema di IR: i possibili falsi positivi (fp) non sono considerati 64 32

33 Misure di valutazione: recall Esempio (Bis.Inf.C) Scenario 3: il sistema restituisce X Mostra La perfezione dell'immagine, Milano (docid: 47) Mostra Anthony James, Milano (docid: 18) 65 Misure di valutazione: recall Esempio (Bis.Inf.C) Scenario 4: il sistema restituisce X X X Mostra Cézanne, Milano (docid: 1) Mostra La perfezione dell'immagine, Milano (docid: 47) Mostra Brera incontra il Pushkin, Milano (docid: 32) Mostra Transavanguardia, Milano (docid: 83) Mostra Anthony James, Milano (docid: 18) 66 33

34 Misure di valutazione Precision e recall misurano aspetti diversi ma egualmente importanti per un sistema di IR Talvolta precision è più importante di recall e.g., navigazione su web Mi interessa vedere risultati corretti, mi disinteresso di eventuali falsi negativi Talvolta recall è più importante di precision e.g., indagini professionali, ricerche personali su disco Mi interessa vedere il maggior numero di risultati rilevanti, anche se questo può comportare un certo numero di falsi positivi 67 Misure di valutazione: F-measure Per fornire una misura di efficacia complessiva di un sistema di IR è necessario combinare i valori di precision e recall E' questo l'obiettivo di F-measure F-measure è definita come la media armonica di precision e recall 68 34

35 Misure di valutazione: F-measure F-measure è premiante per i sistemi di IR che hanno valori bilanciati di precision e recall F-measure è penalizzante per i sistemi di IR che hanno elevata precision ma scadente recall e viceversa Nella precedente formula di F-measure, precision e recall sono egualmente considerate In una definizione più generale, è possibile definire F- measure dando maggiore importanza a una delle due misure in base alle necessità 69 Misure di valutazione: F-measure Esempio. Scenario

36 Misure di valutazione: F-measure Esempio. Scenario 2 71 Misure di valutazione: F-measure Esempio. Scenario

37 Misure di valutazione: F-measure Esempio. Scenario 4 73 Valutare un sistema di IR Considerazioni finali La ground truth finora considerata non contempla un ordinamento per rilevanza dei mapping Nei sistemi reali sono possibili schemi di valutazione più sofisticati K-precision (considero solo i primi K documenti reperiti dal sistema di IR) R-precision (considero gli R mapping più rilevanti della ground truth e misuro quanti di questi sono contenuti nei primi R documenti reperiti dal sistema di IR) 74 37

38 Valutare un sistema di IR Considerazioni finali Nel costruire la ground truth è opportuno considerare gli effetti dei possibili duplicati e l'importanza di esprimere la cosiddetta rilevanza marginale La qualità percepita dagli utenti è un ulteriore elemento di valutazione di un sistema di IR anche se più difficile da catturare (i log di sistema risultano utili in questo senso anche se richiedono di "riconoscere" gli utenti) 75 Riferimenti bibliografici C.D. Manning, P. Raghavan, H. Schütze, Introduction to Information Retrieval, Cambridge University Press Capitoli: 1, 2, 3, 6,

Introduzione all Information Retrieval

Introduzione all Information Retrieval Introduzione all Information Retrieval Argomenti della lezione Definizione di Information Retrieval. Information Retrieval vs Data Retrieval. Indicizzazione di collezioni e ricerca. Modelli per Information

Dettagli

Indicizzazione. Fasi del processo di IR. Indicizzazione: due aspetti. Corpus: Costruzione delle viste logiche dei documenti: Termine indice

Indicizzazione. Fasi del processo di IR. Indicizzazione: due aspetti. Corpus: Costruzione delle viste logiche dei documenti: Termine indice Fasi del processo di IR Indicizzazione Information need text input Pre-process documents Parse Query Index Rank Indicizzazione: due aspetti Costruzione delle viste logiche dei documenti: Per ogni documento

Dettagli

Indicizzazione terza parte e modello booleano

Indicizzazione terza parte e modello booleano Reperimento dell informazione (IR) - aa 2014-2015 Indicizzazione terza parte e modello booleano Gruppo di ricerca su Sistemi di Gestione delle Informazioni (IMS) Dipartimento di Ingegneria dell Informazione

Dettagli

Uno sguardo a Lucene. Diego De Cao, Roberto Basili Web Mining and Information Retrieval a.a. 2010/2011

Uno sguardo a Lucene. Diego De Cao, Roberto Basili Web Mining and Information Retrieval a.a. 2010/2011 Uno sguardo a Lucene Diego De Cao, Roberto Basili Web Mining and Information Retrieval a.a. 2010/2011 Outline Uno sguardo a Lucene Descrizione delle principali caratteristiche Realizzazione di un semplice

Dettagli

1 Introduzione 1 1.1 Information Retrieval: promesse e problemi... 1 1.2 Presentazione del lavoro... 3 1.3 Sommario... 5

1 Introduzione 1 1.1 Information Retrieval: promesse e problemi... 1 1.2 Presentazione del lavoro... 3 1.3 Sommario... 5 Indice 1 Introduzione 1 1.1 Information Retrieval: promesse e problemi..................... 1 1.2 Presentazione del lavoro................................ 3 1.3 Sommario........................................

Dettagli

Modelli di Information Retrieval: I modelli base

Modelli di Information Retrieval: I modelli base Modelli di Information Retrieval: I modelli base Gabriella Pasi 1 Università degli Studi di Milano Bicocca Via Bicocca degli Arcimboldi 8 e-mail: pasi@disco.unimib.it Struttura base di un IRS ARCHIVIO

Dettagli

Il web of data : evoluzione e prospettive del web semantico

Il web of data : evoluzione e prospettive del web semantico Facoltà di Lettere e Filosofia Scienze dell'informazione e della Comunicazione su Web Il web of data : evoluzione e prospettive del web semantico Silvana Castano, Alfio Ferrara, Stefano Montanelli Dipartimento

Dettagli

Navigazione. per associazione. ipertesti/ipermedia. l utente naviga nello spazio dei documenti alla ricerca dei nodi di interesse

Navigazione. per associazione. ipertesti/ipermedia. l utente naviga nello spazio dei documenti alla ricerca dei nodi di interesse Tipologia dei dati e organizzazione delle informazioni Sistemi di indicizzazione e recupero 5. Database e Information Retrieval per associazione Navigazione ipertesti/ipermedia l utente naviga nello spazio

Dettagli

Information Retrieval

Information Retrieval os è l! L (IR) si occupa della rappresentazione, memorizzazione e organizzazione dell informazione testuale, al fine di rendere agevole all utente il soddisfacimento dei propri bisogni informativi.! Data

Dettagli

Accesso ad archivi sonori

Accesso ad archivi sonori Accesso ad archivi sonori Nicola Orio Dipartimento di Ingegneria dell Informazione IV Scuola estiva AISV, 8-12 settembre 2008 Basi di dati Biblioteche e archivi digitali 2 Sistemi informativi e basi di

Dettagli

Introduzione all Information Retrieval

Introduzione all Information Retrieval Corso di Web Mining & Retrieval Introduzione all Information Retrieval (a.a. 2008-2009) Roberto Basili 1 Outline Accesso e Ricerca delle informazioni distribuite Il processo di base dell IR Rilevanza Applicazioni

Dettagli

UNIVERSITÀ DEGLI STUDI DI MILANO BICOCCA FACOLTÀ DI SCIENZE MATEMATICHE FISICHE E NATURALI Corso di Laurea in Informatica

UNIVERSITÀ DEGLI STUDI DI MILANO BICOCCA FACOLTÀ DI SCIENZE MATEMATICHE FISICHE E NATURALI Corso di Laurea in Informatica UNIVERSITÀ DEGLI STUDI DI MILANO BICOCCA FACOLTÀ DI SCIENZE MATEMATICHE FISICHE E NATURALI Corso di Laurea in Informatica Costruzione di un thesaurus per gli algoritmi di prossimità semantica DISCo LET

Dettagli

Sistemi di information retrieval e HCIR

Sistemi di information retrieval e HCIR Sistemi di information retrieval e HCIR Dott. Giuseppe Desolda Outline! Panoramica sui sistemi IR! Progettazione di interfacce per i sistemi IR! Framework di valutazione! Tecniche di visualizzazione e

Dettagli

Metriche di discriminanza e caratteristica. No Author Given

Metriche di discriminanza e caratteristica. No Author Given Metriche di discriminanza e caratteristica No Author Given 1 Contents Metriche di discriminanza e caratteristica........................... 1 No Author Given 1 Teoria sulla capacità discriminante e caratteristica.................

Dettagli

Pedigree Documentazione aggiuntiva Corso di reperimento dell informazione a.a. 2005/2006 prof.sa Maristella Agosti

Pedigree Documentazione aggiuntiva Corso di reperimento dell informazione a.a. 2005/2006 prof.sa Maristella Agosti Pedigree Documentazione aggiuntiva Corso di reperimento dell informazione a.a. 25/26 prof.sa Maristella Agosti Argenton Matteo Buzzi Lorenzo Gatto Giorgio Molinaro Matteo Zorzan Emmanuele Prestazioni

Dettagli

Semantica: un sistema per l indicizzazione, il retrieval semantico di learning objects e la generazione automatica di corsi didattici

Semantica: un sistema per l indicizzazione, il retrieval semantico di learning objects e la generazione automatica di corsi didattici Tesi di laurea Semantica: un sistema per l indicizzazione, il retrieval semantico di learning objects e la generazione automatica di corsi didattici Anno Accademico 2007/2008 Relatori Ch.mo prof. Angelo

Dettagli

RICERCA DELL INFORMAZIONE

RICERCA DELL INFORMAZIONE RICERCA DELL INFORMAZIONE DOCUMENTO documento (risorsa informativa) = supporto + contenuto analogico o digitale locale o remoto (accessibile in rete) testuale, grafico, multimediale DOCUMENTO risorsa continuativa

Dettagli

Tracce di approfondimento per il capitolo 6 La ricerca di informazioni per le scienze umane

Tracce di approfondimento per il capitolo 6 La ricerca di informazioni per le scienze umane Tracce di approfondimento per il capitolo 6 La ricerca di informazioni per le scienze umane Vantaggi e limiti delle folksonomie (difficoltà: *) Nel paragrafo 7.4 è stato introdotto il concetto di social

Dettagli

Information Retrieval

Information Retrieval Information Retrieval Dario Rigolin Comperio srl CTO dario.rigolin@comperio.it Bologna 22 Maggio 2009 Master in Tecnologie OpenSource Agenda Presentazioni di rito Piccola introduzione sull'ir Cosa offre

Dettagli

Michele Nappi, Ph.D Dipartimento di Matematica e Informatica Università degli Studi di Salerno mnappi@unisa.it www.dmi.unisa.

Michele Nappi, Ph.D Dipartimento di Matematica e Informatica Università degli Studi di Salerno mnappi@unisa.it www.dmi.unisa. Indicizzazione di Immagini (1) Michele Nappi, Ph.D Dipartimento di Matematica e Informatica Università degli Studi di Salerno mnappi@unisa.it www.dmi.unisa.it/people/nappi Agenda Introduzione al Problema

Dettagli

Introduzione E. TINELLI LTW A. A. 2011-2012

Introduzione E. TINELLI LTW A. A. 2011-2012 Corso di Laurea Specialistica in Ingegneria Informatica Corso di Linguaggi e Tecnologie Web A. A. 2011-2012 Web Information Retrieval Eufemia TINELLI Introduzione Per Web information Retrieval si intende

Dettagli

Lezione 2 Gestione del testo

Lezione 2 Gestione del testo Lezione 2 Gestione del testo Pasquale Savino ISTI - CNR Sommario La gestione dei dati in una Biblioteca Digitale Acquisizione Rappresentazione Indicizzazione Ricerca Conservazione Gestione del testo Gestione

Dettagli

Corso di Laurea in INFORMATICA

Corso di Laurea in INFORMATICA Corso di Laurea in INFORMATICA Algoritmi e Strutture Dati MODULO 2. Algebre di dati Dati e rappresentazioni, requisiti delle astrazioni di dati, costrutti. Astrazioni di dati e dati primitivi. Specifica

Dettagli

Indicizzazione di documenti testuali

Indicizzazione di documenti testuali Indicizzazione di documenti testuali Generazione di un archivio di Documenti Testuali E eseguita off-line necessaria per accelerare il reperimento dei documenti E un processo che esegue le seguenti attività:

Dettagli

WEB Information Retrieval

WEB Information Retrieval WEB Information Retrieval Materiale tratto dal corso di Gabriella Pasi Materiale tratto da cap. 13 Modern Information Retrieval by Ricardo Baeza-Yates and Berthier Ribeiro-Neto http://www.sims.berkeley.edu/~hearst/irbook/

Dettagli

Automatic Text Processing

Automatic Text Processing Automatic Text Processing Ing. Leonardo Rigutini Dipartimento di Ingegneria dell Informazione Università di Siena Via Roma 53 53100 SIENA ITALY rigutini@dii.unisi.it Outlines L era dell informazione Information

Dettagli

Intelligenza Artificiale

Intelligenza Artificiale Intelligenza Artificiale Anno accademico 2008-2009 Information Retrieval: Text Categorization Una definizione formale Sia D il dominio dei documenti Sia C = {c 1,,c C } un insieme di categorie predefinite

Dettagli

Periodici elettronici e banche dati

Periodici elettronici e banche dati Servizio civile nazionale volontario Università di Pavia Progetto Vivere la biblioteca: dalla gestione al servizio - 2009 Periodici elettronici e banche dati Caterina Barazia Periodici elettronici: definizione

Dettagli

Librerie digitali. Introduzione. Cos è una libreria digitale?

Librerie digitali. Introduzione. Cos è una libreria digitale? Librerie digitali Introduzione Cos è una libreria digitale? William Arms "An informal definition of a digital library is a managed collection of information, with associated services, where the information

Dettagli

Tecniche di caching per migliorare l'ecienza dei sistemi P2P di Web Search. Laureando: Elia Gaglio (matricola n 809477)

Tecniche di caching per migliorare l'ecienza dei sistemi P2P di Web Search. Laureando: Elia Gaglio (matricola n 809477) Tecniche di caching per migliorare l'ecienza dei sistemi P2P di Web Search Laureando: Elia Gaglio (matricola n 809477) 19/10/2007 Indice 1 Introduzione 6 2 Tecniche di Web Searching 12 2.1 Lo scenario

Dettagli

Lezioni di Informatica Giuridica

Lezioni di Informatica Giuridica UNIVERSITÀ DEGLI STUDI DI CAMERINO Scuola di Specializzazione in Diritto Civile III anno Anno accademico 2003/2004 Lezioni di Informatica Giuridica Costantino Ciampi - ITTIG/CNR Camerino, 27-28 28 settembre

Dettagli

Modulo 1: Motori di ricerca

Modulo 1: Motori di ricerca Contenuti Architettura di Internet Principi di interconnessione e trasmissione World Wide Web Posta elettronica Motori di ricerca Antivirus Personal firewall Tecnologie delle reti di calcolatori Servizi

Dettagli

L INNOVAZIONE SCIENTIFICO-TECNOLOGICA NEI PROCESSI PRODUTTIVI

L INNOVAZIONE SCIENTIFICO-TECNOLOGICA NEI PROCESSI PRODUTTIVI L INNOVAZIONE SCIENTIFICO-TECNOLOGICA NEI PROCESSI PRODUTTIVI Scienza ed industria hanno oggi costituito legami molto forti di collaborazione che hanno portato innovazione tecnologica sia a livello organizzativo-amministrativo

Dettagli

Archivio globale della Maremma

Archivio globale della Maremma Archivio globale della Maremma Archivi digitali della Biblioteca comunale Chelliana di Grosseto Programma per la gestione e consultazione SCIRE DBA Biblioteca Chelliana http://archivioglobale.chelliana.it/

Dettagli

Idee guida. Finite State Machine (1) Un automa a stati finiti è definito da una 5- pla: FSM = , dove: Finite State Machine (2)

Idee guida. Finite State Machine (1) Un automa a stati finiti è definito da una 5- pla: FSM = <Q,,, q0, F>, dove: Finite State Machine (2) Idee guida ASM = FSM con stati generalizzati Le ASM rappresentano la forma matematica di Macchine Astratte che estendono la nozione di Finite State Machine Ground Model (descrizioni formali) Raffinamenti

Dettagli

Motori di Ricerca. Vale a dire: ci sono troppe informazioni, il problema è trovarle!

Motori di Ricerca. Vale a dire: ci sono troppe informazioni, il problema è trovarle! Motori di Ricerca "La Rete Internet equivale all unificazione di tutte le biblioteche del mondo, dove però qualcuno si è divertito a togliere tutti i libri dagli scaffali". Vale a dire: ci sono troppe

Dettagli

RILEVANZA = attinenza oggettiva/assoluta PERTINENZA = attinenza soggettiva/relativa (effettivo interesse personale) PUNTO DI FUTILITA ---> ranking

RILEVANZA = attinenza oggettiva/assoluta PERTINENZA = attinenza soggettiva/relativa (effettivo interesse personale) PUNTO DI FUTILITA ---> ranking NOZIONI DI INFORMATION RETRIEVAL a cura di Riccardo Ridi (Università Ca' Foscari di Venezia) aggiornate a Ottobre 2014 RILEVANZA = attinenza oggettiva/assoluta PERTINENZA = attinenza soggettiva/relativa

Dettagli

Servizi di ricerca nel Web (Web search)

Servizi di ricerca nel Web (Web search) Servizi di ricerca nel Web (Web search) Generalità Introduzione Il web è il più grande database mondiali di contenuti. É un contenitore di informazioni che vengono pubblicate, modificate, cancellate, inserite

Dettagli

CAPITOLO 3 Previsione

CAPITOLO 3 Previsione CAPITOLO 3 Previsione 3.1 La previsione I sistemi evoluti, che apprendono le regole di funzionamento attraverso l interazione con l ambiente, si rivelano una risorsa essenziale nella rappresentazione di

Dettagli

Università degli studi di Genova. Implementazione e Valutazione di Tecniche di Information Retrieval basate su Stem, Lemma e Synset

Università degli studi di Genova. Implementazione e Valutazione di Tecniche di Information Retrieval basate su Stem, Lemma e Synset Università degli studi di Genova Facoltà di Scienze Matematiche Fisiche e Naturali Corso di Diploma in Informatica Anno Accademico 2003/2004 Implementazione e Valutazione di Tecniche di Information Retrieval

Dettagli

Sorgenti autorevoli in ambienti hyperlinkati.

Sorgenti autorevoli in ambienti hyperlinkati. Sorgenti autorevoli in ambienti hyperlinkati. La qualità di un metodo di ricerca richiede la valutazione umana dovuta alla soggettività inerente alla nozione di rilevanza. I motori di ricerca correnti,

Dettagli

Corso di Web Mining e Retrieval

Corso di Web Mining e Retrieval Corso di Web Mining e Retrieval (a.a. 2011-2012) Roberto Basili 1 Obbiettivi del Corso Introduzione alle nozioni di base per l accesso alle informazione distribuita Componente Fondazionale: Problemi di

Dettagli

I Modelli della Ricerca Operativa

I Modelli della Ricerca Operativa Capitolo 1 I Modelli della Ricerca Operativa 1.1 L approccio modellistico Il termine modello è di solito usato per indicare una costruzione artificiale realizzata per evidenziare proprietà specifiche di

Dettagli

Le informazioni. Fondamenti di informatica. I documenti. Information retrieval. Information retrieval. Ricerche alternative 19/02/2015

Le informazioni. Fondamenti di informatica. I documenti. Information retrieval. Information retrieval. Ricerche alternative 19/02/2015 Fondamenti di informatica Appunti sulla ricerca di informazioni per le scienze umane dal capitolo 8 del testo: M. Lazzari, Informatica umanistica, McGraw-Hill, 2014 Marco Lazzari Le informazioni 1. letteratura

Dettagli

Analisi dei requisiti e casi d uso

Analisi dei requisiti e casi d uso Analisi dei requisiti e casi d uso Indice 1 Introduzione 2 1.1 Terminologia........................... 2 2 Modello del sistema 4 2.1 Requisiti hardware........................ 4 2.2 Requisiti software.........................

Dettagli

Rappresentazione e Memorizzazione dei Dati

Rappresentazione e Memorizzazione dei Dati Rappresentazione e Memorizzazione dei Dati Giuseppe Nicosia CdL in Matematica (Laurea Triennale) Facoltà di Scienze MM.FF.NN. Università di Catania Bit e loro Memorizzazione Definizioni Algoritmo: una

Dettagli

Dispensa del corso di Informatica

Dispensa del corso di Informatica Dispensa 6-Boolean 1 Algebra Booleana Dispensa del corso di Informatica La logica George Boole (1815 1864) è stato un matematico e logico britannico, ed è considerato il padre fondatore della logica matematica.

Dettagli

Dati Non Strutturati: Information Retrieval

Dati Non Strutturati: Information Retrieval Sistemi di Elaborazione dell informazione II Corso di Laurea Specialistica in Ingegneria Telematica II anno 4 CFU Università Kore Enna A.A. 2009-2010 Alessandro Longheu http://www.diit.unict.it/users/alongheu

Dettagli

XML Retrieval Emanuele Panzeri

XML Retrieval Emanuele Panzeri Corso di Information Retrieval XML Retrieval Emanuele Panzeri panzeri@disco.unimib.it Università degli Studi di Milano Bicocca XML? extensible Markup Language Linguaggio definito come standard dal World

Dettagli

L archiviazione e la catalogazione

L archiviazione e la catalogazione Agostina Lavagnino L archiviazione e la catalogazione Il sistema di catalogazione AESS In collaborazione con l Istituto per le Tecnologie della Costruzione ITC CNR, è stata elaborata una procedura informatica

Dettagli

Introduzione. Elenco telefonico Conti correnti Catalogo libri di una biblioteca Orario dei treni aerei

Introduzione. Elenco telefonico Conti correnti Catalogo libri di una biblioteca Orario dei treni aerei Introduzione Elenco telefonico Conti correnti Catalogo libri di una biblioteca Orario dei treni aerei. ESEMPI DI INSIEMI DI DATI DA ORGANIZZARE ED USARE IN MANIERA EFFICIENTE Introduzione Più utenti con

Dettagli

ELEMENTI DI INFORMATICA GIURIDICA

ELEMENTI DI INFORMATICA GIURIDICA Università degli Studi di Napoli «Federico II» Scuola Specializzazione Professioni Legali ELEMENTI DI INFORMATICA GIURIDICA Avv. Delia Boscia 18 marzo 2015 IL RAPPORTO TRA INFORMATICA E DIRITTO HA DATO

Dettagli

Argomenti trattati nel corso

Argomenti trattati nel corso Scenari applicativi Prof. Paolo Ciaccia http://www-db. db.deis.unibo.it/courses/si-ls/ 01_Scenarios Scenarios.pdf Sistemi Informativi LS Argomenti trattati nel corso Inizieremo parlando di QUERY CON PREFERENZE

Dettagli

ALGEBRA DELLE PROPOSIZIONI

ALGEBRA DELLE PROPOSIZIONI Università di Salerno Fondamenti di Informatica Corso di Laurea Ingegneria Corso B Docente: Ing. Giovanni Secondulfo Anno Accademico 2010-2011 ALGEBRA DELLE PROPOSIZIONI Fondamenti di Informatica Algebra

Dettagli

Cenni di logica & algebra booleana

Cenni di logica & algebra booleana Cenni di algebra booleana e dei sistemi di numerazione Dr. Carlo Sansotta - 25 2 Parte Cenni di logica & algebra booleana 3 introduzione L elaboratore elettronico funziona secondo una logica a 2 stati:

Dettagli

GLOSSARIO DI ARCHITETTURA DELL INFORMAZIONE

GLOSSARIO DI ARCHITETTURA DELL INFORMAZIONE GLOSSARIO DI ARCHITETTURA DELL INFORMAZIONE di K A T H A G E D O R N, A R G U S A S S O C I A T E S MARZO 2 0 0 0 traduzione di: BARBARA WIEL MARIN DICEMBRE 2009 1 GLOSSARIO DI ARCHITETTURA DELL INFORMAZIONE

Dettagli

Analisi, progettazione e sviluppo di un software di Information Retrieval con Tecnologie J2EE

Analisi, progettazione e sviluppo di un software di Information Retrieval con Tecnologie J2EE Scuola Politecnica e delle Scienze di Base Corso di Laurea Triennale in Ingegneria Informatica Tesi di Laurea Triennale in Ingegneria Informatica Analisi, progettazione e sviluppo di un software di Information

Dettagli

Presentazione della Tesi di Laurea:

Presentazione della Tesi di Laurea: UNIVERSITÀ DEGLI STUDI DI NAPOLI "FEDERICO II" FACOLTA' DI INGEGNERIA Dipartimento di Informatica e Sistemistica Anno Accademico 1992-93 Presentazione della Tesi di Laurea: "Sistemi Informativi per la

Dettagli

Corso di Informatica Generale (C. L. Economia e Commercio) Ing. Valerio Lacagnina Fondamenti di calcolo booleano

Corso di Informatica Generale (C. L. Economia e Commercio) Ing. Valerio Lacagnina Fondamenti di calcolo booleano Breve introduzione storica Nel 1854, il prof. Boole pubblica un trattato ormai famosissimo: Le leggi del pensiero. Obiettivo finale del trattato è di far nascere la matematica dell intelletto umano, un

Dettagli

ANALISI AUTOMATICA DEI TESTI La Tona Letizia

ANALISI AUTOMATICA DEI TESTI La Tona Letizia ANALISI AUTOMATICA DEI TESTI La Tona Letizia The Text Analysis is the automatic analysis of the text made by means of the computer, its objective is to represent the meaning of the content and to extract

Dettagli

Interaction design Architettura dell informazione

Interaction design Architettura dell informazione Interaction design Architettura dell informazione Argomenti Un po di teoria: la ricerca dell informazione Schemi e strutture di organizzazione Progettare un IA: analisi degli utenti Gli elementi dell IA:

Dettagli

PROGETTO DI SISTEMI AD AGENTI

PROGETTO DI SISTEMI AD AGENTI PROGETTO DI SISTEMI AD AGENTI Anno Accademico: 2012-2013 Professore: Vincenzo Loia Introduzione alle Social Network. Indice Presentazione del Progetto di Sistemi ad Agenti. 1 Social Network Una rete sociale

Dettagli

MANUALE UTENTE DELLA BIBLIOTECA VIRTUALE

MANUALE UTENTE DELLA BIBLIOTECA VIRTUALE MANUALE UTENTE DELLA BIBLIOTECA VIRTUALE Il sistema di ricerca della biblioteca virtuale permette di accedere in maniera rapida ai materiali didattici di interesse degli studenti presenti all interno del

Dettagli

Che cos'è e come funziona un motore di ricerca

Che cos'è e come funziona un motore di ricerca Che cos'è e come funziona un motore di ricerca Un motore di ricerca è un sistema automatico che analizza un insieme di dati raccolti e restituisce un indice dei contenuti disponibili, classificandoli in

Dettagli

Banche dati e risorse straniere per Sociologia. di Michele Balzarini

Banche dati e risorse straniere per Sociologia. di Michele Balzarini Banche dati e risorse straniere per Sociologia di Michele Balzarini Ultimo aggiornamento: marzo 2013 Sociological abstracts Social service abstracts Family studies abstracts Web of science BANCHE DATI

Dettagli

WEB Information Retrieval

WEB Information Retrieval WEB Information Retrieval Gabriella Pasi Materiale tratto da cap. 13 Modern Information Retrieval by Ricardo Baeza-Yates and Berthier Ribeiro-Neto http://www.sims.berkeley.edu/~hearst/irbook/ Web Può essere

Dettagli

IL PROBLEMA DELLA RICERCA DI INFORMAZIONI su Internet e sul web

IL PROBLEMA DELLA RICERCA DI INFORMAZIONI su Internet e sul web IL PROBLEMA DELLA RICERCA DI INFORMAZIONI su Internet e sul web GLI INTERROGATIVI 1. Perché Internet è diventato il più grande contenitore di informazioni del mondo? 2. Perché non è sempre facile reperire

Dettagli

Automatic Ontology-Based Knowledge Extraction from Web Documents

Automatic Ontology-Based Knowledge Extraction from Web Documents Automatic Ontology-Based Knowledge Extraction from Web Documents 5 gennaio 2009 1 Introduzione Al ne di ottenere un eettivo WEB semantico bisogna essere in grado di costruire servizi che consentano l'estrazione

Dettagli

TECNICHE E MODELLI PER LA RICERCA SEMANTICA SUL WEB UN APPROCCIO BASATO SU ONTOLOGIE

TECNICHE E MODELLI PER LA RICERCA SEMANTICA SUL WEB UN APPROCCIO BASATO SU ONTOLOGIE A. D. MCCXXIV UNIVERSITA' DEGLI STUDI DI NAPOLI FEDERICO II Scuola di Dottorato in Ingegneria dell Informazione Dottorato di Ricerca in Ingegneria Informatica ed Automatica Comunità Europea Fondo Sociale

Dettagli

corso di Access MICROSOFT ACCESS Docente: Andrea Mereu Università degli studi di Cagliari 16 aprile 9 maggio 2012

corso di Access MICROSOFT ACCESS Docente: Andrea Mereu Università degli studi di Cagliari 16 aprile 9 maggio 2012 1 MICROSOFT ACCESS 1 Docente: Andrea Mereu Università degli studi di Cagliari 16 aprile 9 maggio 2012 Che cos'è Access? 2 Access è un'applicazione database (DBMS), cioè un programma che serve a gestire

Dettagli

Una interfaccia generalizzata per l interrogazione di documenti XML

Una interfaccia generalizzata per l interrogazione di documenti XML LogOnWeb Day on Web Services, Java and XML Milano, 30 ottobre 2003 Una interfaccia generalizzata per l interrogazione di documenti XML Oreste Signore Marco Andreini Cristian Lucchesi Silvia Martelli Ufficio

Dettagli

SQL prima parte D O C E N T E P R O F. A L B E R T O B E L U S S I. Anno accademico 2011/12

SQL prima parte D O C E N T E P R O F. A L B E R T O B E L U S S I. Anno accademico 2011/12 SQL prima parte D O C E N T E P R O F. A L B E R T O B E L U S S I Anno accademico 2011/12 DEFINIZIONE Il concetto di vista 2 È una relazione derivata. Si specifica l espressione che genera il suo contenuto.

Dettagli

Motori di ricerca. Andrea Marin

Motori di ricerca. Andrea Marin Andrea Marin Università Ca Foscari Venezia SVILUPPO INTERCULTURALE DEI SISTEMI TURISTICI SISTEMI INFORMATIVI E TECNOLOGIE WEB PER IL TURISMO - 1 a.a. 2012/2013 Section 1 Information Retrieval e Motori

Dettagli

Sistemi Informativi Multimediali Indicizzazione multidimensionale

Sistemi Informativi Multimediali Indicizzazione multidimensionale Indicizzazione nei sistemi di IR (1) Sistemi Informativi Multimediali Indicizzazione multidimensionale ugusto elentano Università a Foscari Venezia La struttura fondamentale di un sistema di information

Dettagli

SUCCESSO DI UN APPLICAZIONE WEB

SUCCESSO DI UN APPLICAZIONE WEB SUCCESSO DI UN APPLICAZIONE WEB Prevedere il Successo Per prevedere il successo di un prodotto di comunicazione nel web abbiamo varie strade: valutare la sua qualità come strumento tecnologico valutare

Dettagli

UNIVERSITÀ DEGLI STUDI DI ROMA TOR VERGATA

UNIVERSITÀ DEGLI STUDI DI ROMA TOR VERGATA UNIVERSITÀ DEGLI STUDI DI ROMA TOR VERGATA FACOLTÀ DI INGEGNERIA CORSO DI LAUREA IN INGEGNERIA INFORMATICA TESI DI LAUREA SPECIALISTICA FEATURE SELECTION IN SISTEMI DI CATEGORIZZAZIONE AUTOMATICA DI DOCUMENTI

Dettagli

Costruire un'ontologia degli International Financial Reporting Standards (IFRS)

Costruire un'ontologia degli International Financial Reporting Standards (IFRS) Costruire un'ontologia degli International Financial Reporting Standards (IFRS) Una ipotesi di applicabilità di strumenti di gestione della conoscenza Massimo Coletti Direttore Coordinamento ICT di Gruppo

Dettagli

Quick Introduction T-LAB 9.1. Strumenti per l Analisi dei Testi. Marzo 2014. Copyright 2001-2014 T-LAB by Franco Lancia All rights reserved.

Quick Introduction T-LAB 9.1. Strumenti per l Analisi dei Testi. Marzo 2014. Copyright 2001-2014 T-LAB by Franco Lancia All rights reserved. T-LAB 9.1 Marzo 2014 Quick Introduction Strumenti per l Analisi dei Testi Copyright 2001-2014 T-LAB by Franco Lancia All rights reserved. Website: http://www.tlab.it/ E-mail: info@tlab.it T-LAB is a registered

Dettagli

Dispense Corso Access

Dispense Corso Access Dispense Corso Access Introduzione La dispensa più che affrontare Access, dal punto di vista teorico, propone l implementazione di una completa applicazione Access, mettendo in risalto i punti critici

Dettagli

L'algebra di Boole falso vero livello logico alto livello logico basso Volts

L'algebra di Boole falso vero livello logico alto livello logico basso Volts L algebra di Boole L'algebra di Boole comprende una serie di regole per eseguire operazioni con variabili logiche. Le variabili logiche possono assumere solo due valori. I due possibili stati che possono

Dettagli

Uso del computer e gestione dei file. Elaborazione testi. Foglio elettronico. Strumenti di presentazione

Uso del computer e gestione dei file. Elaborazione testi. Foglio elettronico. Strumenti di presentazione Il è finalizzato a elevare il livello di competenza nell utilizzo del computer, del pacchetto Office e delle principali funzionalità di Internet. Il percorso formativo si struttura in 7 moduli Concetti

Dettagli

Algebra di Boole. Le operazioni, nell algebra booleana sono basate su questi tre operatori: AND ( ), OR ( + ),NOT ( )

Algebra di Boole. Le operazioni, nell algebra booleana sono basate su questi tre operatori: AND ( ), OR ( + ),NOT ( ) Algebra di Boole L algebra di Boole prende il nome da George Boole, matematico inglese (1815-1864), che pubblicò un libro nel 1854, nel quale vennero formulati i principi dell'algebra oggi conosciuta sotto

Dettagli

SISTEMI PER L ACCESSO L INFORMAZIONI. Gabriella Pasi. Università degli Studi di Milano Bicocca U14 - Viale Sarca 336 e-mail: pasi@disco.unimib.

SISTEMI PER L ACCESSO L INFORMAZIONI. Gabriella Pasi. Università degli Studi di Milano Bicocca U14 - Viale Sarca 336 e-mail: pasi@disco.unimib. SISTEMI PER L ACCESSO L A INFORMAZIONI Gabriella Pasi Università degli Studi di Milano Bicocca U14 - Viale Sarca 336 e-mail: pasi@disco.unimib.it Programma del corso 1. Introduzione Il problema dell accesso

Dettagli

Basi di Dati. Introduzione ai sistemi di basi di dati. K.Donno - Introduzione ai sistemi di basi di dati

Basi di Dati. Introduzione ai sistemi di basi di dati. K.Donno - Introduzione ai sistemi di basi di dati Basi di Dati Introduzione ai sistemi di basi di dati Introduzione ai sistemi di basi di dati Gestione dei Dati Una prospettiva storica File system verso DBSM Vantaggi di un DBMS Modelli dei dati Utenti

Dettagli

Introduzione ai sistemi di basi di dati

Introduzione ai sistemi di basi di dati Basi di Dati Introduzione ai sistemi di basi di dati Alessandro.bardine@gmail.com alessandro.bardine@iet.unipi.it Introduzione ai sistemi di basi di dati Gestione dei Dati Una prospettiva storica File

Dettagli

Sommario [1/2] Vannevar Bush Dalle Biblioteche ai Cataloghi Automatizzati Gli OPAC accessibili via Web Le Biblioteche Digitali

Sommario [1/2] Vannevar Bush Dalle Biblioteche ai Cataloghi Automatizzati Gli OPAC accessibili via Web Le Biblioteche Digitali Introduzione alle Biblioteche Digitali Sommario [1/2] Cenni storici Vannevar Bush Dalle Biblioteche ai Cataloghi Automatizzati Gli OPAC accessibili via Web Le Biblioteche Digitali Cos è una Biblioteca

Dettagli

Riconoscimento e recupero dell informazione per bioinformatica

Riconoscimento e recupero dell informazione per bioinformatica Riconoscimento e recupero dell informazione per bioinformatica Clustering: similarità Manuele Bicego Corso di Laurea in Bioinformatica Dipartimento di Informatica - Università di Verona Definizioni preliminari

Dettagli

Algebra Booleana 1 ALGEBRA BOOLEANA: VARIABILI E FUNZIONI LOGICHE

Algebra Booleana 1 ALGEBRA BOOLEANA: VARIABILI E FUNZIONI LOGICHE Algebra Booleana 1 ALGEBRA BOOLEANA: VARIABILI E FUNZIONI LOGICHE Andrea Bobbio Anno Accademico 2000-2001 Algebra Booleana 2 Calcolatore come rete logica Il calcolatore può essere visto come una rete logica

Dettagli

Text mining ed analisi di dati codificati in linguaggio naturale. Analisi esplorative di dati testualilezione

Text mining ed analisi di dati codificati in linguaggio naturale. Analisi esplorative di dati testualilezione Text mining ed analisi di dati codificati in linguaggio naturale Analisi esplorative di dati testualilezione 2 Le principali tecniche di analisi testuale Facendo riferimento alle tecniche di data mining,

Dettagli

Semantic Web. Semantic Web. Il Semantic Web: una semplice estensione. Il Web oggi. Il Semantic Web. Semantic Web

Semantic Web. Semantic Web. Il Semantic Web: una semplice estensione. Il Web oggi. Il Semantic Web. Semantic Web Semantic Web L. Farinetti - Politecnico di Torino Semantic Web Laura Farinetti Dip. Automatica e Informatica Politecnico di Torino farinetti@polito.it 1 z Seconda generazione del Web z conceptual structuring

Dettagli

Algebra Relazionale. algebra relazionale

Algebra Relazionale. algebra relazionale Algebra Relazionale algebra relazionale Linguaggi di Interrogazione linguaggi formali Algebra relazionale Calcolo relazionale Programmazione logica linguaggi programmativi SQL: Structured Query Language

Dettagli

VADEMECUM PER UNA STRATEGIA SEO VINCENTE

VADEMECUM PER UNA STRATEGIA SEO VINCENTE F a b r i z i o C a r u s o VADEMECUM PER UNA STRATEGIA SEO VINCENTE L esperienza maturata e i risultati raggiunti nel corso degli anni attraverso l insegnamento e la consulenza SEO mi hanno indotto a

Dettagli

ht://miner Un sistema open-source di data mining e data warehousing per lo studio dei comportamenti degli utenti su Internet

ht://miner Un sistema open-source di data mining e data warehousing per lo studio dei comportamenti degli utenti su Internet ht://miner Un sistema open-source di data mining e data warehousing per lo studio dei comportamenti degli utenti su Internet Gabriele Bartolini Comune di Prato Sistema Informativo Servizi di E-government

Dettagli

Ricerca di informazioni nelle banche dati giuridiche

Ricerca di informazioni nelle banche dati giuridiche Informatica giuridica A.A. 2005-06 Ricerca di informazioni nelle banche dati giuridiche Parte I Avv. Chiara Giovanna Bernardi bernardi@cirfid.unibo.it Definizioni NEL LINGUAGGIO COMUNE: Data base = base

Dettagli

Flow. by Proquest. una nuova piattaforma per il Citationi Management e la Research Collaboration. Workshop BIBLIOSAN.

Flow. by Proquest. una nuova piattaforma per il Citationi Management e la Research Collaboration. Workshop BIBLIOSAN. Flow by Proquest una nuova piattaforma per il Citationi Management e la Research Collaboration 1 Citation Manager: quale scegliere? 2 Criteri per la scelta Articoli e recensioni Tabelle comparative: Wikipedia

Dettagli

Lezione 3 Prof. Angela Bonifati

Lezione 3 Prof. Angela Bonifati Lezione 3 Prof. Angela Bonifati Complemento a 2 Algebra booleana Le infrastrutture hardware Esercizi sulla codifica dei numeri Eseguire le seguenti conversioni: Da base 2 e 16 in base 10: 110 2 =???? 10

Dettagli

INDICE. Capitolo 1. Considerazioni introduttive pag. 1

INDICE. Capitolo 1. Considerazioni introduttive pag. 1 INDICE Capitolo 1. Considerazioni introduttive pag. 1 Capitolo 2. Aspetti della traduzione multilingua di testo pag. 4 2.1. Il ciclo di traduzione di un testo pag. 4 2.2. La fase di pre-traduzione pag.

Dettagli

Progetto Lauree Scientifiche Liceo Classico L.Ariosto, Ferrara Dipartimento di Matematica Università di Ferrara 24 Gennaio 2012

Progetto Lauree Scientifiche Liceo Classico L.Ariosto, Ferrara Dipartimento di Matematica Università di Ferrara 24 Gennaio 2012 Progetto Lauree Scientifiche Liceo Classico L.Ariosto, Ferrara Dipartimento di Matematica Università di Ferrara 24 Gennaio 2012 Concetti importanti da (ri)vedere Programmazione imperativa Strutture di

Dettagli

Archiviazione e Conservazione Sostitutiva

Archiviazione e Conservazione Sostitutiva Archiviazione e Conservazione Sostitutiva AGENDA 1. L archiviazione elettronica semplice 2. La Conservazione Sostitutiva 3. La firma grafometrica Acquisizione: scansione Il documento scansito viene trasformato

Dettagli

Indicazioni pratiche per realizzare una campagna marketing digitale

Indicazioni pratiche per realizzare una campagna marketing digitale Indicazioni pratiche per realizzare una campagna marketing digitale La fase strategia SEO: la scelta delle keyword Questa fase è fondamentale, qualunque attività SEO risulta essere priva di senso se non

Dettagli