Introduzione all'information retrieval

Dimensione: px
Iniziare la visualizzazioe della pagina:

Download "Introduzione all'information retrieval"

Transcript

1 Corso di Ontologie e Semantic Web Introduzione all'information retrieval Stefano Montanelli Schema di riferimento Definizioni essenziali Modello booleano Modello vettoriale Valutazione Riferimenti bibliografici Cos è l Information Retrieval? Information retrieval is a field concerned with the structure, analysis, organization, storage, searching, and retrieval of information (Salton, 1968) Information retrieval (IR) is finding material (usually documents) of an unstructured nature (usually text) that satisfies an information need from within large collections (usually stored on computers) (Manning et al., 2009) 2 1

2 Cos è l Information Retrieval? Information retrieval (IR) is concerned with representing, searching, and manipulating large collections of electronic text and other humanlanguage data (Büttcher et al., 2010) Information retrieval (lett. recupero d informazioni) è l'insieme delle tecniche utilizzate per il recupero mirato dell informazione in formato elettronico (Wikipedia, 2012) 3 Information vs. data retrieval Avere accesso a numerose informazioni rende difficile selezionare quelle che servono nel momento in cui servono I sistemi di IR sono ampiamente diffusi, ma non bisogna confondere Information Retrieval con Data Retrieval Trovare su web le pagine che trattano di basi di dati Trovare le ricevute da Stefano Montanelli nel mese di febbraio 2012 Trovare i documenti sul PC che riguardano il corso di ontologie e web semantico 4 2

3 Schema di un sistema di IR Il processo di indicizzazione (indexing) web pages, s,letters,news acquisizione trasformazione testo creazione indice archivio documenti classificazione (ranking) indice 5 Schema di un sistema di IR Il processo di interrogazione (query) utente finale archivio documenti elaborazione interrogazione dati di log valutazione classificazione (ranking) indice 6 3

4 Reperimento delle informazioni Il procedimento di ricerca delle informazioni in un sistema di IR segue il seguente schema: 1. L utente esprime il proprio bisogno informativo mediante un interrogazione 2. L interrogazione viene inviata al sistema di IR (trasformazione) 3. L indice fornisce i documenti rilevanti rispetto all interrogazione 7 Reperimento delle informazioni Il procedimento di ricerca delle informazioni in un sistema di IR segue il seguente schema: 4. (I documenti vengono ordinati rispetto alla presunta rilevanza per l utente) 5. I documenti vengono restituiti all utente 6. L utente valuta il risultato ed eventualmente raffina la ricerca dando vita a una nuova interrogazione 8 4

5 Definizioni essenziali Bisogno informativo E' l'argomento su cui l'utente vuole reperire informazioni Interrogazione E' il mezzo che il sistema di IR offre all'utente per comunicare il proprio bisogno informativo Collezione (o corpus) E l insieme dei documenti su cui vengono eseguite le operazioni di reperimento 9 Definizioni essenziali Documento E l unità informativa considerata dalle operazioni di reperimento (e costituisce un elemento del risultato di un'interrogazione) Termine (può non essere una parola) E l unità lessicale di cui sono costituiti i documenti Dizionario (dei termini) o vocabolario E l'insieme di tutti i termini che compaiono in un corpus 10 5

6 Definizioni essenziali Posting list (lista di corrispondenza) E la struttura dati che memorizza la corrispondenza tra un termine e i documenti in cui esso appare Indice (invertito) E' la struttura dati che consente di reperire in modo efficiente le liste di corrispondenza rilevanti per l'interrogazione 11 Corso di Ontologie e Semantic Web Il sistema booleano 6

7 Definizione di modello booleano Il modello booleano di IR è caratterizzato dall uso di interrogazioni espresse mediante predicati booleani Un predicato booleano è costituito da un elenco di termini connessi mediante operatori booleani (AND, OR, NOT) Un documento è restituito nel risultato dell interrogazione se e solo se soddisfa il predicato booleano 13 Processo di indicizzazione Trasformazione del testo: si costruisce il dizionario dei termini a partire dal contenuto dei documenti Creazione indice: si costruisce una matrice di incidenza in cui memorizzare le corrispondenze termine-documento Classificazione: è assente nel modello booleano 14 7

8 Processo di interrogazione Formulazione dell'interrogazione Elaborazione dell'interrogazione: Si estraggono i termini richiesti dal predicato booleano Si confrontano con l'indice Si valuta il valore di verità del predicato booleano Si restituisce il risultato Valutazione: è banale. Il sistema restituisce tutti i documenti che soddisfano il predicato booleano 15 Trasformazione del testo Mostra Cézanne, Milano (docid: 1) Faticò ad essere compreso dai contemporanei a causa del suo stile essenziale e inconfondibile ma riuscì ugualmente a lasciare un segno indelebile nei movimenti successivi, come il Cubismo e il Surrealismo. Paul Cézanne è protagonista di una grande antologica a Palazzo Reale: in mostra oltre quaranta tele, dalle prime opere ai ritratti, passando per i paesaggi e le nature morte, per arrivare contemporanei, stile, essenziale, inconfondibile, segno, indelebile, movimenti, cubismo, surrealismo, paul, cézanne, protagonista, antologica, palazzo, reale, mostra, tele, opere, ritratti, paesaggi, nature, morte, 16 8

9 Trasformazione del testo La pittura italiana del XIX secolo, Pavia (docid: 2) Il Castello Visconteo di Pavia è la cornice della grande mostra La pittura italiana del XIX secolo. In esposizione 70 tele provenienti dalle più prestigiose collezioni nazionali e firmate da artisti come Francesco Hayez e Giovanni Boldini. Un percorso che va dal Neoclassicismo al Simbolismo e che testimonia la ricchezza e la varietà dell'arte figurativa italiana dell'ottocento castello, visconteo, pavia, cornice, mostra, pittura, italiana, XIX, secolo, esposizione, 70, tele, collezioni, nazionali, artisti, francesco, hayez, giovanni, boldini, percorso, neoclassicismo, simbolismo, ricchezza, varietà, arte, italiana, ottocento. 17 Trasformazione del testo Mostra La natura squisita, Milano (docid: 3) Fulvio Di Piazza, Marco Mazzoni e Nicola Verlato: tre artisti per un viaggio alla scoperta del concetto di Natura, alla Fondazione Stelline fino al 25 febbraio. In mostra venticinque opere storiche e inedite che conducono il visitatore in un universo vitale e pulsante, sospeso tra atmosfere surreali e suggestioni contemporanee fulvio, piazza, marco, mazzoni, nicola, verlato, artisti, viaggio, scoperta, concetto, natura, fondazione, stelline, febbraio, mostra, venticinque, opere, storiche, inedite, visitatore, universo, vitale, pulsante, sospeso, atmosfere, surreali, suggestioni, contemporanee 18 9

10 Creazione dell'indice Matrice di incidenza Termine docid:1 docid: 2 docid: 3 Cubismo Surrealismo Cezanne Opere Tele Mostra Pittura Italiana artisti Fondazione Natura Formulazione dell'interrogazione bisogno informativo Eventi di mostre relative a opere ad eccezione di quelle di Cezanne Mostra AND Opere AND (NOT Cezanne) predicato booleano 20 10

11 Elaborazione dell'interrogazione Termine docid:1 docid: 2 docid: 3 Cubismo Surrealismo Cezanne Opere Tele Mostra Pittura Italiana artisti Fondazione Nature Elaborazione dell'interrogazione Mostra AND Opere AND (NOT Cezanne) Termine docid:1 docid: 2 docid: 3 Cezanne Opere Mostra NOT Cezanne Opere AND (NOT Cezanne) Mostra AND Opere AND (NOT Cezanne) docid 3 è il risultato dell'interrogazione 22 11

12 Corso di Ontologie e Semantic Web Il sistema vettoriale Limiti del modello booleano Il modello booleano è inadatto a sistemi di IR in cui il corpus di documenti è molto ampio I risultati non sono ordinati per rilevanza I risultati di una query possono essere troppo numerosi per un utente umano Il modello vettoriale è stato ideato per ovviare ai limiti del modello booleano 24 12

13 Il modello vettoriale Il modello vettoriale si basa sul principio che la rilevanza di un documento rispetto a una query è misurabile su un insieme di valori più ampio rispetto al semplice Sì/No Caratteristiche del modello vettoriale la rilevanza di un documento si misura sull'intervallo continuo [0,1] Le query degli utenti sono espresse come testo libero (e.g., una lista di keyword, una frase) 25 Il modello vettoriale La rilevanza di un documento rispetto a una query viene misurata come segue Si calcola la rilevanza di ciascuna chiave di ricerca della query rispetto al documento Si calcola una misura di rilevanza complessiva che combina le misure di rilevanza di ciascuna chiave di ricerca rispetto al documento considerato 26 13

14 Frequenza dei termini e pesatura Come valutare la rilevanza di una chiave di ricerca k per un certo documento d? Comunemente, la rilevanza di k è l'importanza (o peso, weight) che la chiave di ricerca ha per d e coincide con il numero di occorrenze di k in d 27 Frequenza dei termini e pesatura Nel modello vettoriale è necessario memorizzare la frequenza con cui i termini da indicizzare compaiono in ciascun documento La frequenza del termine t nel documento d è indicata come tf(t,d) 28 14

15 Frequenza dei termini e pesatura Considerazioni Misurare l'importanza di un termine in un documento basandosi esclusivamente sulla sua frequenza può essere fuorviante I termini che compaiono/occorrono in un documento non sempre hanno la medesima importanza 29 Frequenza dei termini e pesatura Esempio La Triennale, Milano (docid: 15) La Triennale di Milano ospita una collezione di opere di design e numerose mostre temporanee di design ed arte moderna Mostra Cézanne, Milano (docid: 1) Paul Cézanne è protagonista di una grande mostra antologica a Palazzo Reale: in mostra quaranta tele, dalle prime opere ai ritratti Organizzazione eventi, Milano (docid: 102) Il gruppo XXX vanta esperienza pluriennale nell'organizzazione di eventi e mostre di successo mediante soluzioni su misura per ogni tipo di evento 30 15

16 Frequenza dei termini e pesatura Esempio La Triennale, Milano (docid: 15) triennale milano raccogliere collezione opera design(2) numeroso mostra temporaneo arte moderno Mostra Cézanne, Milano (docid: 1) paul cezanne protagonista grande antologico palazzo reale mostra(2) quaranta tela primo opera ritratto Organizzazione eventi, Milano (docid: 102) gruppo XXX vantare esperienza pluriennale organizzazione evento(2) mostra successo mediante soluzione misura ogni tipo 31 Frequenza dei termini e pesatura Esempio La Triennale, Milano (docid: 15) triennale milano raccogliere collezione opera design(2) numeroso mostra temporaneo arte moderno Mostra Cézanne, Milano (docid: 1) paul cezanne protagonista grande antologico palazzo reale mostra(2) quaranta tela primo opera ritratto Organizzazione eventi, Milano (docid: 102) gruppo XXX vantare esperienza pluriennale organizzazione evento(2) mostra successo mediante soluzione misura ogni tipo 32 16

17 Frequenza dei termini e pesatura Esempio Quali termini meglio caratterizzano il contenuto dei tre documenti considerati? Se ci affidiamo alla frequenza dei termini risulta che "Design" descrive docid15 tf(design,docid15)=2 "Mostra" descrive docid1 tf(mostra,docid1)=2 "Evento" descrive docid102 tf(evento,docid102)=2 Questo risultato può essere soddisfacente per docid15 e docid102, ma non per docid1 Il termine "Mostra" è usato in tutti e tre i documenti e risulta poco significativo per catturare il contenuto specifico di un documento 33 Frequenza dei termini e pesatura E' possibile usare una tecnica di normalizzazione per attenuare l'effetto dei termini che occorrono molto frequentemente nel corpus A tal proposito per ogni termine t introduciamo la nozione di frequenza nei documenti (document frequency) df(t) La frequenza nei documenti df(t) è il numero di documenti in cui il termine t compare/occorre In alternativa, per scopi di normalizzazione, è possibile utilizzare la nozione di frequenza nel corpus (collection frequency) cf(t) 34 17

18 Frequenza inversa dei termini La frequenza nei documenti di un termine t consente di introdurre la nozione di frequenza inversa nei documenti (inverse document frequency) idf(t) La frequenza inversa nei documenti premia i termini che occorrono raramente nel corpus penalizza i termini molto frequenti 35 Frequenza inversa dei termini La frequenza inversa di un termine t è definita come segue N è il numero di documenti che appartengono al corpus 36 18

19 Frequenza inversa dei termini Esempio Corpus contenente N= 150 documenti relativi a eventi della città di Milano df(mostra)=121 df(evento)=25 df(design)=7 37 Importanza di un termine Per una più accurata misura dell'importanza di un termine t in un documento d è possibile combinare la frequenza tf(t,d) con la frequenza inversa idf(t) come segue La precedente misura è comunemente nota come tf-idf del termine t nel documento d 38 19

20 Importanza di un termine La misura tf-idf(t,d) È premiante (più elevata) quando il termine t occorre molte volte in pochi documenti (per i quali t ha una buona importanza) E' penalizzante (bassa) quando il termine t occorre poche volte in pochi documenti (per i quali t ha poca importanza) E' molto penalizzante (molto bassa) quanto il termine t occorre in tutti (o quasi) i documenti 39 Importanza di un termine Esempio (basato sui documenti docid15, docid102, docid1) tf-idf(design,docid15) = 2 * 3.1 = 6.2 tf-idf(evento,docid102) = 2 * 1.8 = 3.6 tf-idf(mostra,docid1) = 2 * 0.2 =

21 Documenti come vettori Nel modello vettoriale, un documento d può essere visto come un vettore (cioè una lista) i cui elementi sono i termini che compaiono in d docid1=<paul;cezanne;mostra;tela;opera> Ai fini del reperimento, ciascun termine t del vettore può essere sostituito dalla corrispondente misura di importanza per il documento d espressa mediante tf-idf(t,d) docid1=<5.2; 9.2; 0.4, 2.1; 1.9> 41 Rilevanza di un documento La rappresentazione di un documento d mediante un vettore v(d) è interessante per misurare la rilevanza del documento rispetto a una query q data La rilevanza di d rispetto a q è data dalla somma dei tf-idf dei termini t che appartengono a d e che sono stati inseriti nella query q 42 21

22 Rilevanza di un documento La rilevanza (score) di un documento d rispetto a una query q può essere calcolata come segue: 43 Rilevanza di un documento E' possibile calcolare una misura più articolata di score(q,d) utilizzando la similarità cosenica (cosine similarity) La similarità cosenica calcola score(q,d) mediante operazioni algebriche sui due vettori: Il vettore v(d) che contiene i termini del documento d Il vettore v(q) che contiene i termini della query q 44 22

23 Esercizio Si consideri un corpus di N=1000 documenti e si considerino i seguenti dati: tf(t1,d1)=5 tf(t2,d1)=3 df(t1)=115 df(t2)=25 Quale termine fra t1 e t2 è più importante per il documento d1? Se considero la query q={t1,t2}, qual è il valore di rilevanza del documento d1 rispetto a q? 45 Corso di Ontologie e Semantic Web Valutazione di un sistema di information retrieval 23

24 Valutare un sistema di IR E' un tema che riguarda la definizione di opportune strategie per misurare l'efficacia delle tecniche di reperimento su cui è costruito il sistema di IR considerato Intuitivamente, l'obiettivo è misurare quanto il sistema di IR è capace di restituire tutti e soli i documenti rilevanti rispetto a un dato bisogno informativo 47 Valutare un sistema di IR Questioni interessanti Gli aspetti quantitativi sono centrali: non basta restituire tutti i documenti rilevanti, è altrettanto cruciale scartare quelli non rilevanti Non sempre le tecniche di reperimento sono in grado di catturare il bisogno informativo Rispetto a cosa valutiamo se il risultato di una query è appropriato? 48 24

25 Valutare un sistema di IR Esempio 1, bis.inf.a: mostre in programma a Milano presso Palazzo Reale? Mostra Cézanne, Milano (docid: 1)? Mostra La perfezione dell'immagine, Milano (docid: 47)? Mostra Brera incontra il Pushkin, Milano (docid: 32)? Mostra Transavanguardia, Milano (docid: 83)? Mostra Anthony James, Milano (docid: 18) 49 Valutare un sistema di IR Esempio 2, bis.inf.b: mostre di arte figurativa? Mostra Cézanne, Milano (docid: 1)? Mostra La perfezione dell'immagine, Milano (docid: 47)? Mostra Brera incontra il Pushkin, Milano (docid: 32)? Mostra Transavanguardia, Milano (docid: 83)? Mostra Anthony James, Milano (docid: 18) 50 25

26 Valutare un sistema di IR Esempio 3, bis.inf.c: mostre di artisti eccentrici? Mostra Cézanne, Milano (docid: 1)? Mostra La perfezione dell'immagine, Milano (docid: 47)? Mostra Brera incontra il Pushkin, Milano (docid: 32)? Mostra Transavanguardia, Milano (docid: 83)? Mostra Anthony James, Milano (docid: 18) 51 Strategia di valutazione Componenti coinvolte nel procedimento di valutazione Un corpus di documenti sufficientemente ampio Una lista di bisogni informativi con relative query Una verità aurea (ground truth o gold standard) che distingue ciò che è vero da ciò che è falso e si assume corretta per definizione 52 26

27 La ground truth E' un insieme di corrispondenze (mapping) tra documenti e query Ogni corrispondenza della ground truth è un mapping atteso, cioè un risultato che il sistema di IR dovrebbe restituire Il sistema di IR perfetto deve restituire tutti e soli i mapping previsti dalla ground truth 53 La ground truth La ground truth è definita da un utente esperto, o una squadra di utenti esperti (esperti di cosa?!) L'efficacia del sistema di valutazione dipende dalle scelte interpretative che i progettisti della ground truth decidono di operare 54 27

28 La ground truth Esempio Bis.Inf.A Bis.Inf.A Bis.Inf.B Bis.Inf.B Bis.Inf.B Bis.Inf.B Bis.Inf.C Bis.Inf.C Mostra Cézanne, Milano (docid: 1) Mostra Transavanguardia, Milano (docid: 83) Mostra Cézanne, Milano (docid: 1) Mostra La perfezione dell'immagine, Milano (docid: 47) Mostra Brera incontra il Pushkin, Milano (docid: 32) Mostra Transavanguardia, Milano (docid: 83) Mostra Transavanguardia, Milano (docid: 83) Mostra Anthony James, Milano (docid: 18) 55 Come valutare Rispetto a un bisogno informativo La ground truth distingue i documenti rilevanti da quelli non rilevanti Il sistema di IR restituisce nel risultato alcuni documenti e ne scarta altri Nello scenario migliore, i documenti rilevanti nella ground truth coincidono con il risultato prodotto dal sistema di IR Il sistema di IR restituisce i documenti rilevanti (true positives, veri positivi) e scarta i documenti non rilevanti (true negatives, veri negativi) 56 28

29 Come valutare Nella realtà la situazione può essere più articolata Caso 1 (false positive, falsi positivi) Il sistema di IR restituisce documenti che non sono rilevanti rispetto al bisogno informativo (in base alla ground truth) Caso 2 (false negative, falsi negativi) Il sistema di IR scarta documenti che sono rilevanti rispetto al bisogno informativo (in base alla ground truth) 57 Come valutare Sintesi Doc. reperiti Doc. non reperiti Doc. rilevanti True positive (tp) Corretti e reperiti False negative (fn) Corretti ma non reperiti Doc. non rilevanti False positive (fp) Errati ma reperiti True negative (tn) Errati e non reperiti Falsi positivi e negativi compromettono l'efficacia del sistema di IR Gli strumenti di valutazione devono misurare l'entità di falsi positivi e falsi negativi per il sistema di IR 58 29

30 Misure di valutazione: precision Precision (P): è il rapporto tra il numero di documenti rilevanti reperiti dal sistema di IR e il numero di documenti complessivamente reperiti dal medesimo 59 Misure di valutazione: precision Considerazioni Quando P=1 siamo in presenza di un sistema di IR in cui tutti i risultati reperiti sono corretti (fp=0) P=1 è il miglior valore di precision Il valore di P decresce al crescere dei falsi positivi La precision da sola non è sufficiente a misurare l'efficacia di un sistema di IR: i possibili falsi negativi (fn) non sono considerati 60 30

31 Misure di valutazione: precision Esempio (Bis.Inf.B) Scenario 1: il sistema restituisce X Mostra Cézanne, Milano (docid: 1) Mostra La perfezione dell'immagine, Milano (docid: 47) Mostra Anthony James, Milano (docid: 18) 61 Misure di valutazione: precision Esempio (Bis.Inf.B) Scenario 2: il sistema restituisce Mostra Cézanne, Milano (docid: 1) 62 31

32 Misure di valutazione: recall Recall (R): è il rapporto tra il numero di documenti rilevanti reperiti dal sistema di IR e il numero di documenti complessivamente rilevanti previsto dalla ground truth 63 Misure di valutazione: recall Considerazioni Quando R=1 siamo in presenza di un sistema di IR in cui tutti i documenti rilevanti sono reperiti (fn=0) R=1 è il miglior valore di recall Il valore di R decresce al crescere dei falsi negativi La recall da sola non è sufficiente a misurare l'efficacia di un sistema di IR: i possibili falsi positivi (fp) non sono considerati 64 32

33 Misure di valutazione: recall Esempio (Bis.Inf.C) Scenario 3: il sistema restituisce X Mostra La perfezione dell'immagine, Milano (docid: 47) Mostra Anthony James, Milano (docid: 18) 65 Misure di valutazione: recall Esempio (Bis.Inf.C) Scenario 4: il sistema restituisce X X X Mostra Cézanne, Milano (docid: 1) Mostra La perfezione dell'immagine, Milano (docid: 47) Mostra Brera incontra il Pushkin, Milano (docid: 32) Mostra Transavanguardia, Milano (docid: 83) Mostra Anthony James, Milano (docid: 18) 66 33

34 Misure di valutazione Precision e recall misurano aspetti diversi ma egualmente importanti per un sistema di IR Talvolta precision è più importante di recall e.g., navigazione su web Mi interessa vedere risultati corretti, mi disinteresso di eventuali falsi negativi Talvolta recall è più importante di precision e.g., indagini professionali, ricerche personali su disco Mi interessa vedere il maggior numero di risultati rilevanti, anche se questo può comportare un certo numero di falsi positivi 67 Misure di valutazione: F-measure Per fornire una misura di efficacia complessiva di un sistema di IR è necessario combinare i valori di precision e recall E' questo l'obiettivo di F-measure F-measure è definita come la media armonica di precision e recall 68 34

35 Misure di valutazione: F-measure F-measure è premiante per i sistemi di IR che hanno valori bilanciati di precision e recall F-measure è penalizzante per i sistemi di IR che hanno elevata precision ma scadente recall e viceversa Nella precedente formula di F-measure, precision e recall sono egualmente considerate In una definizione più generale, è possibile definire F- measure dando maggiore importanza a una delle due misure in base alle necessità 69 Misure di valutazione: F-measure Esempio. Scenario

36 Misure di valutazione: F-measure Esempio. Scenario 2 71 Misure di valutazione: F-measure Esempio. Scenario

37 Misure di valutazione: F-measure Esempio. Scenario 4 73 Valutare un sistema di IR Considerazioni finali La ground truth finora considerata non contempla un ordinamento per rilevanza dei mapping Nei sistemi reali sono possibili schemi di valutazione più sofisticati K-precision (considero solo i primi K documenti reperiti dal sistema di IR) R-precision (considero gli R mapping più rilevanti della ground truth e misuro quanti di questi sono contenuti nei primi R documenti reperiti dal sistema di IR) 74 37

38 Valutare un sistema di IR Considerazioni finali Nel costruire la ground truth è opportuno considerare gli effetti dei possibili duplicati e l'importanza di esprimere la cosiddetta rilevanza marginale La qualità percepita dagli utenti è un ulteriore elemento di valutazione di un sistema di IR anche se più difficile da catturare (i log di sistema risultano utili in questo senso anche se richiedono di "riconoscere" gli utenti) 75 Riferimenti bibliografici C.D. Manning, P. Raghavan, H. Schütze, Introduction to Information Retrieval, Cambridge University Press Capitoli: 1, 2, 3, 6,

Introduzione all Information Retrieval

Introduzione all Information Retrieval Introduzione all Information Retrieval Argomenti della lezione Definizione di Information Retrieval. Information Retrieval vs Data Retrieval. Indicizzazione di collezioni e ricerca. Modelli per Information

Dettagli

Indicizzazione terza parte e modello booleano

Indicizzazione terza parte e modello booleano Reperimento dell informazione (IR) - aa 2014-2015 Indicizzazione terza parte e modello booleano Gruppo di ricerca su Sistemi di Gestione delle Informazioni (IMS) Dipartimento di Ingegneria dell Informazione

Dettagli

Indicizzazione. Fasi del processo di IR. Indicizzazione: due aspetti. Corpus: Costruzione delle viste logiche dei documenti: Termine indice

Indicizzazione. Fasi del processo di IR. Indicizzazione: due aspetti. Corpus: Costruzione delle viste logiche dei documenti: Termine indice Fasi del processo di IR Indicizzazione Information need text input Pre-process documents Parse Query Index Rank Indicizzazione: due aspetti Costruzione delle viste logiche dei documenti: Per ogni documento

Dettagli

Uno sguardo a Lucene. Diego De Cao, Roberto Basili Web Mining and Information Retrieval a.a. 2010/2011

Uno sguardo a Lucene. Diego De Cao, Roberto Basili Web Mining and Information Retrieval a.a. 2010/2011 Uno sguardo a Lucene Diego De Cao, Roberto Basili Web Mining and Information Retrieval a.a. 2010/2011 Outline Uno sguardo a Lucene Descrizione delle principali caratteristiche Realizzazione di un semplice

Dettagli

Intelligenza Artificiale

Intelligenza Artificiale Intelligenza Artificiale Anno accademico 2008-2009 Information Retrieval: Text Categorization Una definizione formale Sia D il dominio dei documenti Sia C = {c 1,,c C } un insieme di categorie predefinite

Dettagli

Navigazione. per associazione. ipertesti/ipermedia. l utente naviga nello spazio dei documenti alla ricerca dei nodi di interesse

Navigazione. per associazione. ipertesti/ipermedia. l utente naviga nello spazio dei documenti alla ricerca dei nodi di interesse Tipologia dei dati e organizzazione delle informazioni Sistemi di indicizzazione e recupero 5. Database e Information Retrieval per associazione Navigazione ipertesti/ipermedia l utente naviga nello spazio

Dettagli

Corso di Informatica Generale (C. L. Economia e Commercio) Ing. Valerio Lacagnina Fondamenti di calcolo booleano

Corso di Informatica Generale (C. L. Economia e Commercio) Ing. Valerio Lacagnina Fondamenti di calcolo booleano Breve introduzione storica Nel 1854, il prof. Boole pubblica un trattato ormai famosissimo: Le leggi del pensiero. Obiettivo finale del trattato è di far nascere la matematica dell intelletto umano, un

Dettagli

Riconoscimento e Recupero dell'informazione per Bioinformatica

Riconoscimento e Recupero dell'informazione per Bioinformatica Riconoscimento e Recupero dell'informazione per Bioinformatica LAB. 8 PRTools (2) Pietro Lovato Corso di Laurea in Bioinformatica Dip. di Informatica Università di Verona A.A. 2015/2016 Ripasso: validazione

Dettagli

1 Introduzione 1 1.1 Information Retrieval: promesse e problemi... 1 1.2 Presentazione del lavoro... 3 1.3 Sommario... 5

1 Introduzione 1 1.1 Information Retrieval: promesse e problemi... 1 1.2 Presentazione del lavoro... 3 1.3 Sommario... 5 Indice 1 Introduzione 1 1.1 Information Retrieval: promesse e problemi..................... 1 1.2 Presentazione del lavoro................................ 3 1.3 Sommario........................................

Dettagli

Modelli di Information Retrieval: I modelli base

Modelli di Information Retrieval: I modelli base Modelli di Information Retrieval: I modelli base Gabriella Pasi 1 Università degli Studi di Milano Bicocca Via Bicocca degli Arcimboldi 8 e-mail: pasi@disco.unimib.it Struttura base di un IRS ARCHIVIO

Dettagli

Sorgenti autorevoli in ambienti hyperlinkati.

Sorgenti autorevoli in ambienti hyperlinkati. Sorgenti autorevoli in ambienti hyperlinkati. La qualità di un metodo di ricerca richiede la valutazione umana dovuta alla soggettività inerente alla nozione di rilevanza. I motori di ricerca correnti,

Dettagli

Cenni di logica & algebra booleana

Cenni di logica & algebra booleana Cenni di algebra booleana e dei sistemi di numerazione Dr. Carlo Sansotta - 25 2 Parte Cenni di logica & algebra booleana 3 introduzione L elaboratore elettronico funziona secondo una logica a 2 stati:

Dettagli

La gestione del documento

La gestione del documento Operatore giuridico d impresa Informatica Giuridica A.A 2002/2003 II Semestre La gestione del documento prof. Monica Palmirani Il documento A differenza del dato il documento è solitamente un oggetto non

Dettagli

Metodi basati sugli autovettori per il Web Information Retrieval

Metodi basati sugli autovettori per il Web Information Retrieval Metodi basati sugli autovettori per il Web Information Retrieval HITS, PageRank e il metodo delle potenze LSI e SVD LSI è diventato famoso per la sua abilità nel permettere di manipolare i termini (all

Dettagli

Il web of data : evoluzione e prospettive del web semantico

Il web of data : evoluzione e prospettive del web semantico Facoltà di Lettere e Filosofia Scienze dell'informazione e della Comunicazione su Web Il web of data : evoluzione e prospettive del web semantico Silvana Castano, Alfio Ferrara, Stefano Montanelli Dipartimento

Dettagli

Sistemi Informativi Multimediali 1 - Introduzione

Sistemi Informativi Multimediali 1 - Introduzione Che cos è un sistema informativo multimediale? Sistemi Informativi li 1 - Introduzione Augusto Celentano Università Ca Foscari di Venezia Un sistema informativo multimediale (MMDBMS) è un framework che

Dettagli

ALGEBRA DELLE PROPOSIZIONI

ALGEBRA DELLE PROPOSIZIONI Università di Salerno Fondamenti di Informatica Corso di Laurea Ingegneria Corso B Docente: Ing. Giovanni Secondulfo Anno Accademico 2010-2011 ALGEBRA DELLE PROPOSIZIONI Fondamenti di Informatica Algebra

Dettagli

Idee guida. Finite State Machine (1) Un automa a stati finiti è definito da una 5- pla: FSM = , dove: Finite State Machine (2)

Idee guida. Finite State Machine (1) Un automa a stati finiti è definito da una 5- pla: FSM = <Q,,, q0, F>, dove: Finite State Machine (2) Idee guida ASM = FSM con stati generalizzati Le ASM rappresentano la forma matematica di Macchine Astratte che estendono la nozione di Finite State Machine Ground Model (descrizioni formali) Raffinamenti

Dettagli

4 3 4 = 4 x 10 2 + 3 x 10 1 + 4 x 10 0 aaa 10 2 10 1 10 0

4 3 4 = 4 x 10 2 + 3 x 10 1 + 4 x 10 0 aaa 10 2 10 1 10 0 Rappresentazione dei numeri I numeri che siamo abituati ad utilizzare sono espressi utilizzando il sistema di numerazione decimale, che si chiama così perché utilizza 0 cifre (0,,2,3,4,5,6,7,8,9). Si dice

Dettagli

Modulo 1: Motori di ricerca

Modulo 1: Motori di ricerca Contenuti Architettura di Internet Principi di interconnessione e trasmissione World Wide Web Posta elettronica Motori di ricerca Antivirus Personal firewall Tecnologie delle reti di calcolatori Servizi

Dettagli

Dispensa del corso di Informatica

Dispensa del corso di Informatica Dispensa 6-Boolean 1 Algebra Booleana Dispensa del corso di Informatica La logica George Boole (1815 1864) è stato un matematico e logico britannico, ed è considerato il padre fondatore della logica matematica.

Dettagli

Corso di Laurea in INFORMATICA

Corso di Laurea in INFORMATICA Corso di Laurea in INFORMATICA Algoritmi e Strutture Dati MODULO 2. Algebre di dati Dati e rappresentazioni, requisiti delle astrazioni di dati, costrutti. Astrazioni di dati e dati primitivi. Specifica

Dettagli

Corso di Informatica di Base. Laboratorio 2

Corso di Informatica di Base. Laboratorio 2 Corso di Informatica di Base Laboratorio 2 Motori di Ricerca Sara Casolari Cercare nel posto giusto Andare in posti noti Esempio: per reperire informazioni sui contributi pensionistici chiediamo all INPS

Dettagli

RICERCA DELL INFORMAZIONE

RICERCA DELL INFORMAZIONE RICERCA DELL INFORMAZIONE DOCUMENTO documento (risorsa informativa) = supporto + contenuto analogico o digitale locale o remoto (accessibile in rete) testuale, grafico, multimediale DOCUMENTO risorsa continuativa

Dettagli

Capitolo 5. Cercare informazioni sul Web

Capitolo 5. Cercare informazioni sul Web Capitolo 5 Cercare informazioni sul Web Cercare nel posto giusto Posti logici e noti per reperire informazioni sui nostri contributi pensionistici, chiediamo all INPS Biblioteche on-line La maggior parte

Dettagli

USO E LIMITI DEI DATABASE CLINICI: LA RICERCA NELLE BANCHE DATI SPECIALIZZATE IN EBM

USO E LIMITI DEI DATABASE CLINICI: LA RICERCA NELLE BANCHE DATI SPECIALIZZATE IN EBM SM Romano. Dip.Area Critica Medico-Chirurgica, Università degli Studi di Firenze. Centro Italiano per la Medicina Basata sulle Prove. Clin. Med. Cardiol. FI Sapere eseguire una ricerca bibliografica accurata

Dettagli

Lezioni di Informatica Giuridica

Lezioni di Informatica Giuridica UNIVERSITÀ DEGLI STUDI DI CAMERINO Scuola di Specializzazione in Diritto Civile III anno Anno accademico 2003/2004 Lezioni di Informatica Giuridica Costantino Ciampi - ITTIG/CNR Camerino, 27-28 28 settembre

Dettagli

Corso di Laurea Ingegneria Informatica Fondamenti di Informatica

Corso di Laurea Ingegneria Informatica Fondamenti di Informatica Corso di Laurea Ingegneria Informatica Fondamenti di Informatica Dispensa 05 La rappresentazione dell informazione Carla Limongelli Ottobre 2011 http://www.dia.uniroma3.it/~java/fondinf/ La rappresentazione

Dettagli

Ricorsione in SQL-99. Introduzione. Idea di base

Ricorsione in SQL-99. Introduzione. Idea di base Ricorsione in SQL-99 Introduzione In SQL2 non è possibile definire interrogazioni che facciano uso della ricorsione Esempio Voli(lineaAerea, da, a, parte, arriva) non è possibile esprimere l interrogazione

Dettagli

Questa pagina e tutti i capitoli della guida che trovate elencati a destra costituiscono il cuore di questo sito web.

Questa pagina e tutti i capitoli della guida che trovate elencati a destra costituiscono il cuore di questo sito web. Posizionamento sui motori di ricerca. Cos'è il "posizionamento"? Per posizionamento si intente un insieme di tecniche che hanno l'obiettivo di migliorare la posizione di un sito web nei risultati delle

Dettagli

Information Retrieval

Information Retrieval os è l! L (IR) si occupa della rappresentazione, memorizzazione e organizzazione dell informazione testuale, al fine di rendere agevole all utente il soddisfacimento dei propri bisogni informativi.! Data

Dettagli

Periodici elettronici e banche dati

Periodici elettronici e banche dati Servizio civile nazionale volontario Università di Pavia Progetto Vivere la biblioteca: dalla gestione al servizio - 2009 Periodici elettronici e banche dati Caterina Barazia Periodici elettronici: definizione

Dettagli

ESERCIZI DI ALGEBRA LINEARE E GEOMETRIA

ESERCIZI DI ALGEBRA LINEARE E GEOMETRIA ESERCIZI DI ALGEBRA LINEARE E GEOMETRIA Francesco Bottacin Padova, 24 febbraio 2012 Capitolo 1 Algebra Lineare 1.1 Spazi e sottospazi vettoriali Esercizio 1.1. Sia U il sottospazio di R 4 generato dai

Dettagli

LA RAPPRESENTAZIONE DELLE INFORMAZIONI

LA RAPPRESENTAZIONE DELLE INFORMAZIONI ISTITUTO TECNICO E LICEO SCIENTIFICO TECNOLOGICO ANGIOY LA RAPPRESENTAZIONE DELLE INFORMAZIONI Prof. G. Ciaschetti DATI E INFORMAZIONI Sappiamo che il computer è una macchina stupida, capace di eseguire

Dettagli

I Modelli della Ricerca Operativa

I Modelli della Ricerca Operativa Capitolo 1 I Modelli della Ricerca Operativa 1.1 L approccio modellistico Il termine modello è di solito usato per indicare una costruzione artificiale realizzata per evidenziare proprietà specifiche di

Dettagli

Pedigree Documentazione aggiuntiva Corso di reperimento dell informazione a.a. 2005/2006 prof.sa Maristella Agosti

Pedigree Documentazione aggiuntiva Corso di reperimento dell informazione a.a. 2005/2006 prof.sa Maristella Agosti Pedigree Documentazione aggiuntiva Corso di reperimento dell informazione a.a. 25/26 prof.sa Maristella Agosti Argenton Matteo Buzzi Lorenzo Gatto Giorgio Molinaro Matteo Zorzan Emmanuele Prestazioni

Dettagli

Information Retrieval Systems

Information Retrieval Systems Information Retrieval Systems Oreste Signore (Oreste.Signore@cnuce.cnr.it) Contenuto Elaborazione automatica dell informazione Aspetti tecnici e semantici I sistemi di Information Retrieval Caratteristiche

Dettagli

Progetto Finale: Modelli semantici dei dati in domini applicativi specifici

Progetto Finale: Modelli semantici dei dati in domini applicativi specifici Progetto Finale: Modelli semantici dei dati in domini applicativi specifici Roberto Basili, Marco Pennacchiotti Corso di Fondamenti di Informatica a.a. 2003-2004 Definizioni Generali e Regole d esame Il

Dettagli

Algebra di Boole ed Elementi di Logica

Algebra di Boole ed Elementi di Logica Algebra di Boole ed Elementi di Logica 53 Cenni all algebra di Boole L algebra di Boole (inventata da G. Boole, britannico, seconda metà 8), o algebra della logica, si basa su operazioni logiche Le operazioni

Dettagli

L'algebra di Boole falso vero livello logico alto livello logico basso Volts

L'algebra di Boole falso vero livello logico alto livello logico basso Volts L algebra di Boole L'algebra di Boole comprende una serie di regole per eseguire operazioni con variabili logiche. Le variabili logiche possono assumere solo due valori. I due possibili stati che possono

Dettagli

SUCCESSO DI UN APPLICAZIONE WEB

SUCCESSO DI UN APPLICAZIONE WEB SUCCESSO DI UN APPLICAZIONE WEB Prevedere il Successo Per prevedere il successo di un prodotto di comunicazione nel web abbiamo varie strade: valutare la sua qualità come strumento tecnologico valutare

Dettagli

Analisi dei requisiti e casi d uso

Analisi dei requisiti e casi d uso Analisi dei requisiti e casi d uso Indice 1 Introduzione 2 1.1 Terminologia........................... 2 2 Modello del sistema 4 2.1 Requisiti hardware........................ 4 2.2 Requisiti software.........................

Dettagli

Introduzione all Information Retrieval

Introduzione all Information Retrieval Corso di Web Mining & Retrieval Introduzione all Information Retrieval (a.a. 2008-2009) Roberto Basili 1 Outline Accesso e Ricerca delle informazioni distribuite Il processo di base dell IR Rilevanza Applicazioni

Dettagli

corso di Access MICROSOFT ACCESS Docente: Andrea Mereu Università degli studi di Cagliari 16 aprile 9 maggio 2012

corso di Access MICROSOFT ACCESS Docente: Andrea Mereu Università degli studi di Cagliari 16 aprile 9 maggio 2012 1 MICROSOFT ACCESS 1 Docente: Andrea Mereu Università degli studi di Cagliari 16 aprile 9 maggio 2012 Che cos'è Access? 2 Access è un'applicazione database (DBMS), cioè un programma che serve a gestire

Dettagli

Algebra Booleana 1 ALGEBRA BOOLEANA: VARIABILI E FUNZIONI LOGICHE

Algebra Booleana 1 ALGEBRA BOOLEANA: VARIABILI E FUNZIONI LOGICHE Algebra Booleana 1 ALGEBRA BOOLEANA: VARIABILI E FUNZIONI LOGICHE Andrea Bobbio Anno Accademico 2000-2001 Algebra Booleana 2 Calcolatore come rete logica Il calcolatore può essere visto come una rete logica

Dettagli

APPUNTI DI ELETTRONICA DIGITALE

APPUNTI DI ELETTRONICA DIGITALE APPUNTI DI ELETTRONICA DIGITALE ITIS MARCONI-GORGONZOLA docente :dott.ing. Paolo Beghelli pag.1/24 Indice 1.ELETTRONICA DIGITALE 4 1.1 Generalità 4 1.2 Sistema di numerazione binario 4 1.3 Operazioni con

Dettagli

Accesso ad archivi sonori

Accesso ad archivi sonori Accesso ad archivi sonori Nicola Orio Dipartimento di Ingegneria dell Informazione IV Scuola estiva AISV, 8-12 settembre 2008 Basi di dati Biblioteche e archivi digitali 2 Sistemi informativi e basi di

Dettagli

Cercare documenti Web

Cercare documenti Web Pagine web (struttura html) Cercare documenti Web Motori di Ricerca I MOTORI DI RICERCA Sulla rete Web vi sono strumenti specifici chiamati motori di ricerca (research engines) per la ricerca di siti e

Dettagli

Il PageRank è obsoleto? Via libera al TrustRank

Il PageRank è obsoleto? Via libera al TrustRank Il PageRank è obsoleto? Via libera al TrustRank Prefazione: Questo documento si basa sull originale Combating web spam with TrustRank firmato da alcuni ricercatori del dipartimento di Computer Science

Dettagli

Cercare informazioni sul Web

Cercare informazioni sul Web Fluency Cercare informazioni sul Web Capitolo 4 Guardare nel posto giusto cosa cerco mondo fisico Web per avere informazioni su contributi pensionistici INPS www.inps.it per trovare un percorso tra due

Dettagli

Presentazione della Tesi di Laurea:

Presentazione della Tesi di Laurea: UNIVERSITÀ DEGLI STUDI DI NAPOLI "FEDERICO II" FACOLTA' DI INGEGNERIA Dipartimento di Informatica e Sistemistica Anno Accademico 1992-93 Presentazione della Tesi di Laurea: "Sistemi Informativi per la

Dettagli

Rappresentazione e Memorizzazione dei Dati

Rappresentazione e Memorizzazione dei Dati Rappresentazione e Memorizzazione dei Dati Giuseppe Nicosia CdL in Matematica (Laurea Triennale) Facoltà di Scienze MM.FF.NN. Università di Catania Bit e loro Memorizzazione Definizioni Algoritmo: una

Dettagli

CALCOLATORI ELETTRONICI A cura di Luca Orrù. Lezione n.6. Unità di controllo microprogrammata

CALCOLATORI ELETTRONICI A cura di Luca Orrù. Lezione n.6. Unità di controllo microprogrammata Lezione n.6 Unità di controllo microprogrammata 1 Sommario Unità di controllo microprogrammata Ottimizzazione, per ottimizzare lo spazio di memoria occupato Il moltiplicatore binario Esempio di architettura

Dettagli

Introduzione Chi siamo Dove siamo

Introduzione Chi siamo Dove siamo INFORMATION DESIGN 1 Single Entity Rappresentano informazioni generali riguardo al negozio, alla sua localizzazione e al personale che fa parte del negozio. Introduzione Chi siamo Dove siamo 2 Introduzione

Dettagli

UNIVERSITÀ DEGLI STUDI DI MILANO BICOCCA FACOLTÀ DI SCIENZE MATEMATICHE FISICHE E NATURALI Corso di Laurea in Informatica

UNIVERSITÀ DEGLI STUDI DI MILANO BICOCCA FACOLTÀ DI SCIENZE MATEMATICHE FISICHE E NATURALI Corso di Laurea in Informatica UNIVERSITÀ DEGLI STUDI DI MILANO BICOCCA FACOLTÀ DI SCIENZE MATEMATICHE FISICHE E NATURALI Corso di Laurea in Informatica Costruzione di un thesaurus per gli algoritmi di prossimità semantica DISCo LET

Dettagli

Motori di Ricerca. Vale a dire: ci sono troppe informazioni, il problema è trovarle!

Motori di Ricerca. Vale a dire: ci sono troppe informazioni, il problema è trovarle! Motori di Ricerca "La Rete Internet equivale all unificazione di tutte le biblioteche del mondo, dove però qualcuno si è divertito a togliere tutti i libri dagli scaffali". Vale a dire: ci sono troppe

Dettagli

Librerie digitali. Introduzione. Cos è una libreria digitale?

Librerie digitali. Introduzione. Cos è una libreria digitale? Librerie digitali Introduzione Cos è una libreria digitale? William Arms "An informal definition of a digital library is a managed collection of information, with associated services, where the information

Dettagli

Introduzione al Semantic Web

Introduzione al Semantic Web Corso di Laurea Specialistica in Ingegneria Gestionale Corso di Sistemi Informativi Modulo II A. A. 2013-2014 Giuseppe Loseto Dal Web al Semantic Web 2 Dal Web al Semantic Web: Motivazioni Il Web dovrebbe

Dettagli

Valutare e citare i documenti

Valutare e citare i documenti Valutare e citare i documenti di Stefania Fraschetta Corso di laurea Triennale in Comunicazione e Psicologia Prova finale - III modulo, 27 gennaio 2014 Sommario Cercare e valutare documenti in rete: La

Dettagli

SQL prima parte D O C E N T E P R O F. A L B E R T O B E L U S S I. Anno accademico 2011/12

SQL prima parte D O C E N T E P R O F. A L B E R T O B E L U S S I. Anno accademico 2011/12 SQL prima parte D O C E N T E P R O F. A L B E R T O B E L U S S I Anno accademico 2011/12 DEFINIZIONE Il concetto di vista 2 È una relazione derivata. Si specifica l espressione che genera il suo contenuto.

Dettagli

Tecniche avanzate di sintesi di algoritmi: Programmazione dinamica Algoritmi greedy

Tecniche avanzate di sintesi di algoritmi: Programmazione dinamica Algoritmi greedy Tecniche avanzate di sintesi di algoritmi: Programmazione dinamica Algoritmi greedy Dr Maria Federico Programmazione dinamica Solitamente usata per risolvere problemi di ottimizzazione il problema ammette

Dettagli

L INNOVAZIONE SCIENTIFICO-TECNOLOGICA NEI PROCESSI PRODUTTIVI

L INNOVAZIONE SCIENTIFICO-TECNOLOGICA NEI PROCESSI PRODUTTIVI L INNOVAZIONE SCIENTIFICO-TECNOLOGICA NEI PROCESSI PRODUTTIVI Scienza ed industria hanno oggi costituito legami molto forti di collaborazione che hanno portato innovazione tecnologica sia a livello organizzativo-amministrativo

Dettagli

GUIDA ALLE FUNZIONI DELL OPAC

GUIDA ALLE FUNZIONI DELL OPAC GUIDA ALLE FUNZIONI DELL OPAC Premessa... 2 Ricerca... 2 Ricerca semplice... 2 Ricerca multi-campo... 3 Ricerca avanzata... 3 Ricerca per scorrimento... 4 CCL... 5 Nuove acquisizioni... 5 Suggerimenti

Dettagli

E se l'errore fosse «Parola non compresa»? Leggibilità e qualità del lessico nei siti web

E se l'errore fosse «Parola non compresa»? Leggibilità e qualità del lessico nei siti web E se l'errore fosse «Parola non compresa»? Leggibilità e qualità del lessico nei siti web Mai più Not Found! L usabilità a basso costo per i siti web delle PA Forum PA - 29 maggio 2014 Nicola Mastidoro

Dettagli

Lezione 2 Gestione del testo

Lezione 2 Gestione del testo Lezione 2 Gestione del testo Pasquale Savino ISTI - CNR Sommario La gestione dei dati in una Biblioteca Digitale Acquisizione Rappresentazione Indicizzazione Ricerca Conservazione Gestione del testo Gestione

Dettagli

I.I.S. Primo Levi Badia Polesine A.S. 2012-2013

I.I.S. Primo Levi Badia Polesine A.S. 2012-2013 LGEBR DI BOOLE I.I.S. Primo Levi Badia Polesine.S. 2012-2013 Nel secolo scorso il matematico e filosofo irlandese Gorge Boole (1815-1864), allo scopo di procurarsi un simbolismo che gli consentisse di

Dettagli

DATABASE RELAZIONALI

DATABASE RELAZIONALI 1 di 54 UNIVERSITA DEGLI STUDI DI NAPOLI FEDERICO II DIPARTIMENTO DI DISCIPLINE STORICHE ETTORE LEPORE DATABASE RELAZIONALI Dott. Simone Sammartino Istituto per l Ambiente l Marino Costiero I.A.M.C. C.N.R.

Dettagli

Automatic Ontology-Based Knowledge Extraction from Web Documents

Automatic Ontology-Based Knowledge Extraction from Web Documents Automatic Ontology-Based Knowledge Extraction from Web Documents 5 gennaio 2009 1 Introduzione Al ne di ottenere un eettivo WEB semantico bisogna essere in grado di costruire servizi che consentano l'estrazione

Dettagli

Elementi di Algebra Relazionale

Elementi di Algebra Relazionale Note dalle lezioni di INFORMATICA (per gli allievi della classe quinta - indirizzo MERCURIO) Elementi di Algebra Relazionale prof. Stefano D.L.Campanozzi I.T.C. Giulio Cesare Bari - a.s. 2008-2009 1 Introduzione

Dettagli

Calcolo Relazionale Basi di dati e sistemi informativi 1. Calcolo Relazionale. Angelo Montanari

Calcolo Relazionale Basi di dati e sistemi informativi 1. Calcolo Relazionale. Angelo Montanari Calcolo Relazionale Basi di dati e sistemi informativi 1 Calcolo Relazionale Angelo Montanari Dipartimento di Matematica e Informatica Università di Udine Calcolo Relazionale Basi di dati e sistemi informativi

Dettagli

ELEMENTI DI INFORMATICA GIURIDICA

ELEMENTI DI INFORMATICA GIURIDICA Università degli Studi di Napoli «Federico II» Scuola Specializzazione Professioni Legali ELEMENTI DI INFORMATICA GIURIDICA Avv. Delia Boscia 18 marzo 2015 IL RAPPORTO TRA INFORMATICA E DIRITTO HA DATO

Dettagli

PRIMAVERA IN BICOCCA

PRIMAVERA IN BICOCCA PRIMAVERA IN BICOCCA 1. Numeri primi e fattorizzazione Una delle applicazioni più rilevanti della Teoria dei Numeri si ha nel campo della crittografia. In queste note vogliamo delineare, in particolare,

Dettagli

Codifica binaria e algebra di Boole

Codifica binaria e algebra di Boole Codifica binaria e algebra di Boole Corso di Programmazione A.A. 2008/09 G. Cibinetto Contenuti della lezione Codifica binaria dell informazione Numeri naturali, interi, frazionari, in virgola mobile Base

Dettagli

Qualificare i fornitori attraverso un sistema analitico di rating

Qualificare i fornitori attraverso un sistema analitico di rating articolo n. 3 giugno 2014 Qualificare i fornitori attraverso un sistema analitico di rating MASSIMILIANO MARI Responsabile Acquisti, SCANDOLARA s.p.a. Realizzare un sistema di rating costituisce un attività

Dettagli

Introduzione. Il principio di localizzazione... 2 Organizzazioni delle memorie cache... 4 Gestione delle scritture in una cache...

Introduzione. Il principio di localizzazione... 2 Organizzazioni delle memorie cache... 4 Gestione delle scritture in una cache... Appunti di Calcolatori Elettronici Concetti generali sulla memoria cache Introduzione... 1 Il principio di localizzazione... 2 Organizzazioni delle memorie cache... 4 Gestione delle scritture in una cache...

Dettagli

I motori di ricerca. Che cosa sono. Stefania Marrara Corso di Sistemi Informativi

I motori di ricerca. Che cosa sono. Stefania Marrara Corso di Sistemi Informativi I motori di ricerca Stefania Marrara Corso di Sistemi Informativi a.a 2002/2003 Che cosa sono Un motore di ricerca è uno strumento per mezzo del quale è possibile ricercare alcuni termini (parole) all

Dettagli

Reti complesse Ranking

Reti complesse Ranking Reti complesse Ranking dellamico@disi.unige.it Applicazioni di rete 2 A.A. 2006-07 Outline 1 Ricerca sul web Ranking 2 L'ago nel pagliaio Ricerca sul web Ranking Immaginiamo di avere una biblioteca con

Dettagli

CLASSE PRIMA COMPETENZE SPECIFICHE OBIETTIVI DI APPRENDIMENTO CONTENUTI E ATTIVITA'

CLASSE PRIMA COMPETENZE SPECIFICHE OBIETTIVI DI APPRENDIMENTO CONTENUTI E ATTIVITA' ISTITUTO COMPRENSIVO DI SOVIZZO SCUOLA PRIMARIA CURRICOLO DI ESPRESSIONE ARTISTICA FINALITA La disciplina mira nelle sue varie articolazioni, alla maturazione delle capacità di esprimersi e di comunicare

Dettagli

DESCRITTORI DELLA SCHEDA DI VALUTAZIONE DELLA SCUOLA PRIMARIA

DESCRITTORI DELLA SCHEDA DI VALUTAZIONE DELLA SCUOLA PRIMARIA DESCRITTORI DELLA SCHEDA DI VALUTAZIONE DELLA SCUOLA PRIMARIA Scuola Primaria G. Sordini Istituto Comprensivo Spoleto 2 Indicatori per la scheda di valutazione della classe I ITALIANO: Narrare brevi esperienze

Dettagli

Information Retrieval

Information Retrieval Information Retrieval Dario Rigolin Comperio srl CTO dario.rigolin@comperio.it Bologna 22 Maggio 2009 Master in Tecnologie OpenSource Agenda Presentazioni di rito Piccola introduzione sull'ir Cosa offre

Dettagli

PROGETTO DI SISTEMI AD AGENTI

PROGETTO DI SISTEMI AD AGENTI PROGETTO DI SISTEMI AD AGENTI Anno Accademico: 2012-2013 Professore: Vincenzo Loia Introduzione alle Social Network. Indice Presentazione del Progetto di Sistemi ad Agenti. 1 Social Network Una rete sociale

Dettagli

La Memoria Virtuale Ottimizzazione della memoria centrale

La Memoria Virtuale Ottimizzazione della memoria centrale La Memoria Virtuale Ottimizzazione della memoria centrale 1) Introduzione- Gerarchia della memoria Da un punto di vista funzionale, ogni dispositivo di memorizzazione elettronica di informazioni presenta

Dettagli

Metriche di discriminanza e caratteristica. No Author Given

Metriche di discriminanza e caratteristica. No Author Given Metriche di discriminanza e caratteristica No Author Given 1 Contents Metriche di discriminanza e caratteristica........................... 1 No Author Given 1 Teoria sulla capacità discriminante e caratteristica.................

Dettagli

Tassonomia Web Spam GIUGNO 2005

Tassonomia Web Spam GIUGNO 2005 Prefazione: Questo documento si basa sull originale Web Spam Taxonomy firmato da alcuni ricercatori del dipartimento di Computer Science della Stanford University e pubblicato ad Aprile 2005. Tassonomia

Dettagli

Sicurezza delle reti. Monga. Rilevamento delle intrusioni Classificazioni IDS. Misuse detection. Anomaly detection. Falsi allarmi

Sicurezza delle reti. Monga. Rilevamento delle intrusioni Classificazioni IDS. Misuse detection. Anomaly detection. Falsi allarmi Sicurezza dei sistemi e delle 1 Mattia Dip. di Informatica Università degli Studi di Milano, Italia mattia.monga@unimi.it a.a. 2014/15 Lezione XI: 1 cba 2011 15 M.. Creative Commons Attribuzione Condividi

Dettagli

Linguaggi. Claudio Sacerdoti Coen 11/04/2011. 18: Semantica della logica del prim ordine. Universitá di Bologna

Linguaggi. Claudio Sacerdoti Coen 11/04/2011. 18: Semantica della logica del prim ordine. <sacerdot@cs.unibo.it> Universitá di Bologna Linguaggi 18: Semantica della logica del prim ordine Universitá di Bologna 11/04/2011 Outline Semantica della logica del prim ordine 1 Semantica della logica del prim ordine Semantica

Dettagli

Michele Nappi, Ph.D Dipartimento di Matematica e Informatica Università degli Studi di Salerno mnappi@unisa.it www.dmi.unisa.

Michele Nappi, Ph.D Dipartimento di Matematica e Informatica Università degli Studi di Salerno mnappi@unisa.it www.dmi.unisa. Indicizzazione di Immagini (1) Michele Nappi, Ph.D Dipartimento di Matematica e Informatica Università degli Studi di Salerno mnappi@unisa.it www.dmi.unisa.it/people/nappi Agenda Introduzione al Problema

Dettagli

Database. Si ringrazia Marco Bertini per le slides

Database. Si ringrazia Marco Bertini per le slides Database Si ringrazia Marco Bertini per le slides Obiettivo Concetti base dati e informazioni cos è un database terminologia Modelli organizzativi flat file database relazionali Principi e linee guida

Dettagli

Algebra di Boole. Le operazioni, nell algebra booleana sono basate su questi tre operatori: AND ( ), OR ( + ),NOT ( )

Algebra di Boole. Le operazioni, nell algebra booleana sono basate su questi tre operatori: AND ( ), OR ( + ),NOT ( ) Algebra di Boole L algebra di Boole prende il nome da George Boole, matematico inglese (1815-1864), che pubblicò un libro nel 1854, nel quale vennero formulati i principi dell'algebra oggi conosciuta sotto

Dettagli

Codici Numerici. Modifica dell'informazione. Rappresentazione dei numeri.

Codici Numerici. Modifica dell'informazione. Rappresentazione dei numeri. Codici Numerici. Modifica dell'informazione. Rappresentazione dei numeri. A partire da questa lezione, ci occuperemo di come si riescono a codificare con sequenze binarie, quindi con sequenze di 0 e 1,

Dettagli

Una biblioteca per il Sociale

Una biblioteca per il Sociale Una biblioteca per il Sociale Torino Esposizioni, Aula Blu, mercoledì 20 aprile 2011 La Biblioteca del Centro Studi, Documentazione e Ricerche del Gruppo Abele incontra gli studenti della Facoltà di Scienze

Dettagli

Laboratorio di Progettazione di Sistemi Software Introduzione

Laboratorio di Progettazione di Sistemi Software Introduzione Laboratorio di Progettazione di Sistemi Software Introduzione Valentina Presutti (A-L) Riccardo Solmi (M-Z) Indice degli argomenti Introduzione all Ingegneria del Software UML Design Patterns Refactoring

Dettagli

Argomenti trattati nel corso

Argomenti trattati nel corso Scenari applicativi Prof. Paolo Ciaccia http://www-db. db.deis.unibo.it/courses/si-ls/ 01_Scenarios Scenarios.pdf Sistemi Informativi LS Argomenti trattati nel corso Inizieremo parlando di QUERY CON PREFERENZE

Dettagli

Corso di Analisi Matematica. Successioni e serie numeriche

Corso di Analisi Matematica. Successioni e serie numeriche a.a. 2011/12 Laurea triennale in Informatica Corso di Analisi Matematica Successioni e serie numeriche Avvertenza Questi sono appunti informali delle lezioni, che vengono resi disponibili per comodità

Dettagli

MODULO 5 Basi di dati (database)

MODULO 5 Basi di dati (database) MODULO 5 Basi di dati (database) I contenuti del modulo: questo modulo riguarda la conoscenza da parte del candidato dei concetti fondamentali sulle basi di dati e la sua capacità di utilizzarli. Il modulo

Dettagli

Algoritmi e Strutture Dati

Algoritmi e Strutture Dati schifano@fe.infn.it Laurea di Informatica - Università di Ferrara 2011-2012 [1] Strutture dati Dinamiche: Le liste Una lista è una sequenza di elementi di un certo tipo in cui è possibile aggiungere e/o

Dettagli

Introduzione alla tecnica di Programmazione Dinamica

Introduzione alla tecnica di Programmazione Dinamica Universitá degli Studi di Salerno Corso di Algoritmi Prof. Ugo Vaccaro Anno Acc. 2014/15 p. 1/37 Sommario della lezione Introduzione alla tecnica di Programmazione Dinamica Esempio di applicazione n. 1:

Dettagli

Semantica: un sistema per l indicizzazione, il retrieval semantico di learning objects e la generazione automatica di corsi didattici

Semantica: un sistema per l indicizzazione, il retrieval semantico di learning objects e la generazione automatica di corsi didattici Tesi di laurea Semantica: un sistema per l indicizzazione, il retrieval semantico di learning objects e la generazione automatica di corsi didattici Anno Accademico 2007/2008 Relatori Ch.mo prof. Angelo

Dettagli

Introduzione ai database relazionali

Introduzione ai database relazionali Introduzione ai database relazionali Tabelle Un database (DB) è costituito da un insieme di file che memorizzano dati opportunamente organizzati Nei database relazionale tale organizzazione è costituita

Dettagli

Il concetto di valore medio in generale

Il concetto di valore medio in generale Il concetto di valore medio in generale Nella statistica descrittiva si distinguono solitamente due tipi di medie: - le medie analitiche, che soddisfano ad una condizione di invarianza e si calcolano tenendo

Dettagli