Valutazione dei Sistemi di Information Retrieval. Gabriella Pasi

Documenti analoghi

Introduzione all Information Retrieval

Calcolatori Elettronici A a.a. 2008/2009

Il concetto di valore medio in generale

SPC e distribuzione normale con Access

Capitolo 13: L offerta dell impresa e il surplus del produttore

Strutturazione logica dei dati: i file

Elementi di Psicometria con Laboratorio di SPSS 1

Che cosa e come valutano le prove di matematica e con quali risultati. nell A.S

Progettaz. e sviluppo Data Base

Analisi e diagramma di Pareto

Ricerca di outlier. Ricerca di Anomalie/Outlier

Rapporto dal Questionari Insegnanti

I quattro ordini di scuola a confronto Elisabetta Malaguti

Automazione Industriale (scheduling+mms) scheduling+mms.

Matrice Excel Calcolo rata con DURATA DEL FINANZIAMENTO determinata dall'utente

Università degli Studi di Milano Bicocca CdS ECOAMM Corso di Metodi Statistici per l Amministrazione delle Imprese CARTE DI CONTROLLO PER VARIABILI

Valutazione dei rischi

Settori di attività economica

DIMENSIONI CRITERI INDICATORI

Informatica. Rappresentazione binaria Per esempio diventa /10/2007. Introduzione ai sistemi informatici 1

UTILIZZATORI A VALLE: COME RENDERE NOTI GLI USI AI FORNITORI

RELAZIONE TRA VARIABILI QUANTITATIVE. Lezione 7 a. Accade spesso nella ricerca in campo biomedico, così come in altri campi della

Università del Piemonte Orientale. Corsi di Laurea Triennale di area tecnica. Corso di Statistica Medica

Question Answering e semantica Tecnologie emergenti per le imprese. IKL 08 - Intercultural Knowledge Landscapes

I motori di ricerca. Che cosa sono. Stefania Marrara Corso di Sistemi Informativi

La produzione del testo scritto: generare e pianificare le idee

Elementi di Psicometria con Laboratorio di SPSS 1

Allegato A Tenuta e redazione delle carte di lavoro

Incident Management. Obiettivi. Definizioni. Responsabilità. Attività. Input

LA REVISIONE LEGALE DEI CONTI La comprensione

Motori di ricerca. Andrea Marin

Ai fini economici i costi di un impresa sono distinti principalmente in due gruppi: costi fissi e costi variabili. Vale ovviamente la relazione:

IL TEST DI ACCESSO AI CORSI DI STUDIO TRIENNALI DI PSICOLOGIA

Gli input sono detti anche fattori di produzione: terra, capitale, lavoro, materie prime.

Matrice Excel Calcolo rata con IMPORTO DEL FINANZIAMENTO determinato dall'utente

GESTIONE INDUSTRIALE DELLA QUALITÀ A

Determinazione del pka per un acido moderatamente debole per via potenziometrica C.Tavagnacco - versione

Organizzazione degli archivi

PROTOCOLLO DI CATALOGAZIONE IN BIBLIOWIN PER NBM E ER

Basi di dati. Concetti introduttivi ESEMPIO. INSEGNAMENTI Fisica, Analisi, Aule. Docenti. Entità Relazioni Interrogazioni. Ultima modifica: 26/02/2007

Disegni di Ricerca e Analisi dei Dati in Psicologia Clinica. Indici di Affidabilità

ELABORAZIONE QUESTIONARIO DI GRADIMENTO FORMAZIONE DIRIGENTI E DOCENTI

5. IL PC E INTERNET NELLE DIVERSE TIPOLOGIE FAMILIARI

Informatica 3. Informatica 3. LEZIONE 10: Introduzione agli algoritmi e alle strutture dati. Lezione 10 - Modulo 1. Importanza delle strutture dati

Technical Document Release Version 1.0. Product Sheet. MediaSpot. Creazione e gestione palinsesto pubblicitario

Matrice Excel Calcolo rata con TASSO DI INTERESSE determinato dall'utente

Indici di dispersione

VADEMECUM PER UNA STRATEGIA SEO VINCENTE

Il Problem-Based Learning dalla pratica alla teoria

La distribuzione Normale. La distribuzione Normale

Capitolo 12 La regressione lineare semplice

In Italia e RSM l IBAN e il BBAN hanno la seguente struttura: IBAN

Domande a scelta multipla 1

PROGETTO INDAGINE DI OPINIONE SUL PROCESSO DI FUSIONE DEI COMUNI NEL PRIMIERO

Capitolo II. La forma del valore. 7. La duplice forma in cui si presenta la merce: naturale e di valore.

ANALISI DEI QUESTIONARI PER LA RILEVAZIONE DELLE OPINIONI DEGLI STUDENTI SUI SINGOLI INSEGNAMENTI

Stefania Marrara - Esercitazioni di Tecnologie dei Sistemi Informativi. Integrazione di dati di sorgenti diverse

ANALISI DEI QUESTIONARI PER LA RILEVAZIONE DELLE OPINIONI DEGLI STUDENTI SUI SINGOLI INSEGNAMENTI

Alternanza scuola lavoro: a che punto siamo?

ISA 610 e ISA 620 L'utilizzo durante la revisione dei revisori interni e degli esperti. Corso di revisione legale dei conti progredito

4. Operazioni elementari per righe e colonne

OCCUPATI SETTORE DI ATTIVITA' ECONOMICA

Modulo: Scarsità e scelta

Dispensa di database Access

Pro e contro delle RNA

Sicurezza Aziendale: gestione del rischio IT (Penetration Test )

Capitolo 7. Efficienza e scambio. Principi di economia (seconda edizione) Robert H. Frank, Ben S. Bernanke

Metodologia per l analisi dei dati sperimentali L analisi di studi con variabili di risposta multiple: Regressione multipla

Statistica. Lezione 6

VALORE DELLE MERCI SEQUESTRATE

Effetti sull opinione di pazienti riguardo all utilizzo di un computer in uno studio medico nell assistenza ordinaria

IL RISCHIO D IMPRESA ED IL RISCHIO FINANZIARIO. LA RELAZIONE RISCHIO-RENDIMENTO ED IL COSTO DEL CAPITALE.

PROFILO RIASSUNTIVO DELLE AREE

Finanza Aziendale. Lezione 13. Introduzione al costo del capitale

GRIGLIA DI PROGETTAZIONE

Piano di gestione della qualità

E naturale chiedersi alcune cose sulla media campionaria x n

La Metodologia adottata nel Corso

MService La soluzione per ottimizzare le prestazioni dell impianto

Esempi di algoritmi. Lezione III

Quali sono le ragioni per passare alle competenze? Stimoli esterni: Consiglio europeo di Lisbona (22-23/03/2000);

SCENARIO. Personas ALICE Lucchin / BENITO Condemi de Felice. All rights reserved.

Progetto ASTREA WP2: Sistema informativo per il monitoraggio del sistema giudiziario

Presupposti per la determinazione per l anno 2003 del prezzo all ingrosso dell energia elettrica destinata ai clienti del mercato vincolato

MODULO 5 Appunti ACCESS - Basi di dati

General Linear Model. Esercizio

Corso di. Dott.ssa Donatella Cocca

Opportunità e rischi derivanti dall'impiego massivo dell'informatica in statistica. Francesco Maria Sanna Roma, 3 maggio 2012

Stage 6. "Esplorare nuovi Spazi"

L EFFICACIA DELLE MISURE DI POLITICA ATTIVA DEL LAVORO REALIZZATE IN PROVINCIA DI TORINO NEL

GUIDA ALLA RILEVANZA

Nota interpretativa. La definizione delle imprese di dimensione minori ai fini dell applicazione dei principi di revisione internazionali

Comparazione dei Risultati dell Indagine

Stimare il WCET Metodo classico e applicazione di un algoritmo genetico

Documento di accompagnamento: mediane dei settori bibliometrici

Librerie digitali. Video. Gestione di video. Caratteristiche dei video. Video. Metadati associati ai video. Metadati associati ai video

Prestazioni CPU Corso di Calcolatori Elettronici A 2007/2008 Sito Web: Prof. G. Quarella prof@quarella.

Caratteristiche del contesto. Rubrica valutativa della competenza

Informatica 3. LEZIONE 21: Ricerca su liste e tecniche di hashing. Modulo 1: Algoritmi sequenziali e basati su liste Modulo 2: Hashing

LE COMPETENZE CHE VALGONO UN LAVORO LE INDICAZIONI FORNITE DALLE IMPRESE ATTRAVERSO IL SISTEMA INFORMATIVO EXCELSIOR

Transcript:

Valutazione dei Sistemi di Information Retrieval Gabriella Pasi

Valutazione di un Sistema di Information Retrieval Perchè si valuta un sistema di IR? I compiti di un IRS non sono ben definiti È difficile stabilire se il sistema ha fallito o meno Per questa ragione è stata sviluppata una metodologia di valutazione

Valutazione di un Sistema di Information Retrieval Componenti di un esperimento di valutazione di un sistema di IR Un sistema di IR (visto come una black box) Una collezione di documenti Una collezione di query Un insieme di utenti Un criteri di base di valutazione Misure di performance Il progetto dell esperimento

Criteridivalutazione Che cosa si valuta? Come si valuta? Funzionalità analisi funzionale Correttezza analisi degli errori performance tempo tempi di risposta spazio occupazione degli indici efficacia del retrieval precisione e completezza dei documenti reperiti

What to Criteridivalutazione Evaluate? Quanto i risultati soddisfano le necessità informative dell utente? Quanto si è imparato su un dato argomento ricercato? Apprendimento accidentale: Quanto si è compreso di cosa trattano i documenti della collezione? Quanto si è compreso degli argomenti trattati? Quanto si è compreso di altri argomenti trattati? Com è l interazione con il sistema?

Relevance Criteridivalutazione In che modo un documento può essere rilevante a una query? Risponde precisamente alle domande dell utente Risponde parzialmente alle domande dell utente Suggerisce una sorgente di informazioni Fornisce informazioni contestuali sull argomento di interesse Richiama alla memoria dell utente conoscenze dimenticate

Relevance Criteridivalutazione Quanto rilevante è il documento? Per un dato utente e per le sue necessità informative (Soggettivo ma misurabile) Quanto spesso gli utenti sono d accordo nel considerare un documento rilevante rispetto alla stessa query? Quanto bene risponde alla domanda? La risposta è completa? Parziale? C è informazione contestuale? Fornisce indizi per esplorazioni future?

What to Evaluate? Criteridivalutazione Stima dell abilità dell utente nell utilizzare il sistema: Quantità di Informazioni di base sul sistema Forma di presentazione Impegno necessario per l utilizzo Efficienza in termini di tempo e spazio Efficacia Richiamo Proporzione di materiale rilevante che viene reperito Precisione Proporzione di materiale reperito che è rilevante

What to Evaluate? Criteri di base di valutazione Assunzioni: dell efficacia La rilevanza di un documento per l utente viene considerata binaria (rilevante/non rilevante) La rilevanza di un documento è indipendente dagli altri documenti. L utente è messo nella condizione di scoprire documenti rilevanti nella collezione senza l ausilio del sistema

Relevant vs. Retrieved Tutti i documenti Reperiti Rilevanti

Definizioni Precision di vs. Precisione Recall e Richiamo Rilevanti e Reperiti Precisione = Reperiti Rilevanti e Reperiti Recall = Rilevanti nell'intera Collezione Tutti i doc. Reperiti Rilevanti

Why Precision and Recall? Obbiettivo per una buona efficacia: Reperire quanti più documenti rilevanti possibile, minimizzando il numero di documenti non rilevanti reperiti

Retrieved vs. Relevant Documents Precisione altissima (1), richiamo molto basso reperiti Rilevanti

Retrieved vs. Relevant Documents Precisione e Richiamo molto bassi (0) reperiti Rilevanti

Retrieved vs. Relevant Documents Richiamo alto, Precisione bassa Rilevanti Reperiti

Retrieved vs. Relevant Documents Precisone e Richiamo alti reperiti Rilevanti

Precision/Recall Curves Misura di Recall e Precisione Per ogni query si misurano R e P I sistemi producono generalmente un ordinamento dei documenti si effettuano misure di Precisione con diversi livelli di richiamo: si individuano nella lista ordinata punti (cut-off) in cui la recall è 10%, 20%, 100% e si valuta la precisione in tale punti Si effettua una media di R e P per l insieme di query Si effettua una media per l insieme di utenti

Precision/Recall Curves Misura di Recall e Precisione Si osserva un bilanciamento tra i valori di Precisione e di Richiamo precisione x x x recall x

Precision/Recall Curves PRECISIONE vs RECALL E difficile ipotizzare quale dei due comportamenti sia migliore: generalmente dipende dall utente precisione x x x x recall

Document Cutoff Levels Misure di Precisione per livelli di Recall Si considerana il numero di documenti RILEVANTI REPERITI a diversi livelli di rilevanza dal sistema: I PRIMI 5 NELLA LISTA ORDINATA DEI DOCUMENTI REPERITI I PRIMI 10 I PRIMI 20 I PRIMI 50 I PRIMI 100 I PRIMI 500 Si misura la precisione per ogni livello di richiamo Si prende la media (pesata) dei risultati E un metodo per stimare quanto è la bontà della stima della rilevanza da parte del sistema

Misure di Precisione per livelli di Richiamo Documenti rilevanti per l utente per una data query q Rq={d3, d5, d9, d25, d39, d44, d56, d71, d89, d123} Rq =10 Documenti reperiti dal sistema in ordine decrescente di rilevanza 1 d123 2 d84 3 d56 4 d6 5 d8 6 d9 7 d511 8 d129 9 d187 10 d25 11 d38 12 d48 13 d250 14 d113 15 d3 Calcolo della precisione per 11 livelli di richiamo fissati Primo 1: Recall = 1/10= 10% Precisione 1/1=100% primi 3: Recall = 2/10= 20% Precisione 2/3=66% primi 6: Recall = 3/10= 33% Precisione 3/6=50% primi 10: Recall = 4/10= 40% Precisione 4/10=40% primi 15: Recall = 5/10= 50% Precisione 5/15=33%

Misure di Precisione per livelli di Richiamo Interpolazione dei risultati ottenuti dalla valutazione di Recall e Precisione su molte query P(R)= i=1,,nq Pi(R)/Nq P(R) = valor medio di Precisione al livello R di richiamo date Nq query Pi(R) = Precisione al livello R di richiamo data la i-esima query. Spesso Pi(R) non è disponibile, perciò lo si interpola Pi(R k )= max R k<=r<=r k+1 Pi(r)

Misure di Precisione per livelli di Richiamo Documenti rilevanti per l utente per una data query q Rq={d3, d56, d129} Rq =3 Documenti reperiti dal sistema in ordine decrescente di rilevanza 1 d123 2 d84 Primi 3: Recall = 1/3= 33.3% Precisione 1/3=33.3% 3 d56 primi 8: Recall = 2/3= 66.6% Precisione 2/8=25% 4 d6 5 d8 primi 15: Recall = 3/3= 100% Precisione 3/15=20% 6 d9 NON si dispone dei valori di P per gli 11 livelli standard 7 d511 di recall (0% 10%, 20%, 30%, 100%) 8 d129 9 d187 Si interpolano 10 d25 P(R 0% )=> P(R 30% ) = 33.3% 11 d38 12 d48 P(R 40% )=>P(R 60% )=max 50% <=r<= 70% (P(66.6%))=25% 13 d250 P(R 70% )=>P(R 100% )=max 90% <=r<= 100% (P(100%))=20% 14 d113 15 d3

TREC (Manual Queries) Confronto di curve di R/P Permettono il confronto di algoritmi diversi per modellare attività specifiche dello stesso sistema (es tecniche di indicizzazione) Sistemi diversi Lo stesso sistema per utenti/query/collezioni diverse

Misure singole di efficacia del retrieval E utile produrre un valore singolo di precisione per valutare le prestazioni di un algoritmo in funzione di query particolari Calcolo della media della Precisione P corrispondente a un incremento unitario del numero di documenti rilevanti reperiti precisione 40,00% 30,00% 20,00% 10,00% curca R/P 33,30% 66,67% 100,00% 0,00% 0,00% 50,00% 100,00% 150,00% curca R/P recall all'incremento di 1 doc reperito rilevante P=(33,3+25+100)/3=26,1% favorisce i sistemi che reperiscono i documenti rilevanti nelle prime posizioni

Misure singole di efficacia del retrieval R-P: Calcolo della Precisione corrispondente ai primi R documenti reperiti, ove R = numero totale di documenti rilevanti per l utente per la query R= Rq utile per stimare il comportamento di un algoritmo in funzione di un set di query diverse Si puo calcolare R-P per il set di query Tra i primi 10 documenti ce ne sono 4 rilevanti primi 10: Recall = 4/10= 40% Precisione 4/10=40% =>10-P=40% Tra i primi 3 documenti reperiti c è solo il primo rilevante: Primo 1: Recall = 1/3= 33.3% Precisione 1/3=33.3% =>3-P= 33,3%

Misure singole di efficacia del retrieval Istogramma di Precisione Utile per confrontare il retrieval di due algoritmi Siano R-P(A)(q i ) e R-P(B)(q i ) le misure di R- precisione per due algoritmi A e B per la query q i R-P(A/B)(q i ) = R-P(A)(q i ) - R-P(B)(q i ) R-P(A/B)(q i )=0 i due algoritmi hanno lo stessa precisione per la query q i R-P(A/B)(q i )>0 A è più preciso di B R-P(A/B)(q i )<0 A è meno preciso di B Si possono calcolare valori medi R-P(A/B)(q i ) su un set di query

Istogramma di Precisione

Tabelle riassuntive delle misure di Precisione e Recall Numero totale di query N totale di documenti reperiti da tutte le query N totale di documenti rilevanti reperiti da tutte le query N totale di documenti rilevanti nella collezione

Problemi inerenti il calcolo di Problems with Precision/Recall Precisione e Richiamo Non si conoscono i veri valori di richiamo eccetto nel caso di collezioni con pochi documenti Precisione/Recall sono tra loro in relazione misure combinate sono in alcuni casi più appropriate Si è assunta una modalità batch di retrieval, mentre l interazione con l utente può alterare l efficacia del retrieval. Quindi sarebbe necessario quantificare l informazione derivante dall interazione con l utente Si assume che l ordinamento stretto sia importante.

Matrice di Confronto Sistema Doc è reperito Utente -> Doc NON è reperito Totale Doc è rilevante a+c a c Doc NON è rilevante b+d Accuratezza: (a+d) / (a+b+c+d) Precisione: a/(a+b) Recall: a/(a+c)? (spesso c non è noto) Problemi nell interpretazione dell accuratezza: nelle collezioni grandi La maggior parte dei documenti non sono rilevanti La maggior parte dei documenti non sono reperiti si ha un amplificazione del valore di accuratezza a causa del valore d>>a b d totale documenti a+b c+d a+b+c+d

Matrice di Confronto dell ordinamento Utente -> Sistema Doc reperito e molto rilevante Doc. molto rilevanti a11 Doc. rilevanti a12 Doc. poco rilevanti a13 Doc. non rilevanti a14 Doc reperito e rilevante a21 a22 a23 a24 Doc reperito e poco rilevante a31 a32 a33 a34 Doc non reperito a41 a42 a43 a44 Si valuta la Recall, Precisione e Accuratezza dell ordinamento in classi di rilevanza R (Molto rilevanti)=a11/(a11+a21+a31+a41) P(Molto rilevanti)=a11/(a11+a12+a13+a14) A(Molto rilevanti)=a11/(totale nelle varie classi)

F(j) R(j) al j - reperiti Combinazione di Precisione e Recall in un singolo parametro = è il 1 R(j) dal 2 + sistema media armonica) 1 P(j) richiamo e P(j) è la esimo documento nella lista F(j) [0,1] precisione corrispondenti ordinata F(j)=0 nessun documento rilevante è reperito dei F(j)=1 tutti i documenti reperiti sono quelli rilevanti documenti

Combinazione The E-Measuredi Precisione e Recall in un singolo parametro: E_measure (K. van Rijsbergen, 79) E(j) = 1 α 1 P(j) 1 + (1 α) 1 R(j) α = 1/( β 2 + 1) Permette all utente di stabilire se intende valutare il sistema rispetto al richiamo o alla precisione P(j) = precisione R(j) = recall al jesimo documento nel ranking α = misura dell importanza relativa della precisione P rispetto al richiamo R α = 0.5 l utente accorda pari importanza a P ed R α = 1 E = 1-P α = 0 E = 1-R

Misure di efficacia dipendenti dall utente Problemi: Utenti diversi possono identificare documenti rilevanti differenti rispetto alla stessa query Rilevanza è soggettiva Dipende dalla storia, esperienza dell utente Dall ordine di analisi dei documenti Necessità di misure che tengano conto della dipendenza dall utente Copertura, Novità, Recall relativo, Sforzo di recall

Misure di efficacia dipendenti dall utente Siano: R = insieme di tutti i documenti rilevanti A= insieme reperito dal sistema U = insieme di documenti rilevanti per l utente U R Rk = A U documenti reperiti e rilevanti per l utente Ru documenti rilevanti reperiti e sconosciuti precedentemente al retrieval all utente Copertura = Rk / U È la frazione di documenti rilevanti noti all utente e reperiti Novità = Ru / ( Ru + Rk ) frazione di documenti rilevanti reperiti e non noti all utente

Misure di efficacia dipendenti dall utente Copertura = Rk / U Copertura alta indica che il sistema trova molti dei documenti noti come rilevanti all utente Novità = Ru / ( Ru + Rk ) Novità alta indica che il sistema rivela all utente molti documenti rilevanti R Ru A U Rk

Misure di efficacia dipendenti dall utente Recall relativo: rapporto tra # di documenti reperiti rilevanti e # totale di documenti rilevanti che l utente si aspetta in risposta a una query Sforzo di Recall : rapporto tra # di documenti rilevanti che l utente si aspetta in risposta a una query e il # di documenti esaminati tra quelli reperiti per trovare quelli rilevanti

TREC Collezioni di riferimento per le valutazioni Cranfield 2 > 1400 Documents, 221 Queries 200 Documents, 42 Queries INSPEC > 542 Documents, 97 Queries UKCIS -- > 10000 Documents, multiple sets, 193 Queries ADI > 82 Document, 35 Queries CACM > 3204 Documents, 50 Queries CISI > 1460 Documents, 35 Queries MEDLARS (Salton) ->273 Documents, 18 Queries CLEFF per valutazione di IR multilingua

TREC Collezioni di riferimento per le valutazioni Text REtrieval Conference/Competition prima conferenza TREC 1992 NIST (National Institute of Standards & Technology) Office of Defense Advanded Research Projects Agency (DARPA) Collezioni >6 Gigabytes (6 CRDOMs), >1.5 Milione Documenti Newswire & full text news (AP, WSJ, Ziff, FT) documenti governativi (federal register, Congressional Record) trascrizioni Radio (FBIS) sottoinsiemi Web ( Large Web separate with 18.5 Million pages of Web data 100 Gbytes) Brevetti/licenze

TREC Conferenze TREC Per ogni conferenza viene progettato un insieme di esperimenti I gruppi che partecipano utilizzano: gli stessi dati (collezioni di circa 2 Gb Stessi topics o necessità informative Stessi giudizi di rilevanza I risultati prodotti vengono inseriti in un software standard di valutazione che permette un confronto diretto tra I diversi sistemi

Test Conferenze CollectionsTREC: collezioni La collezione TREC è distribuita a pagamento su 6 CD-ROM WSJ Wall Street Journal - circa 100Mila docs - AP Associated Press circa 85.000 docs ZIFF Computer articles 75.000 docs FR Federal Register circa 25000 docs DOE Publications abstract 225000 docs PAT US Patents 6700 docs FT Financial Times 210.000 docs FBIS Foreign Broadcast Inf. Serv. 130.000 docs I documenti di tutte le collezioni sono in SGML Tag: <DOCNO> # doc. <TEXT> testo

Sample TREC Query (Topic) Esempio di documento delle collezioni TREC <doc> Number: 168 <docno> WSJ880406-0090 </docno> <hl> AT&T Unveils Services to upgrade phone networks under global plan </hl> <authot> J. Guyon </author> <ateline> New York </dateline> <text> American telephone &telegraph Co. Introduced. </text> </doc>

TREC TREC: (cont.) topics e giudizi Query + Giudizi di Rilevanza Topics, vale a dire Query progettate da specialisti espresse in linguaggio naturale numero di topics: sono stati preparati gruppi di topics per ogni conferenza: con 3 campi: <title> <number> <descrip> <narrative> Giudizi di Rilevanza sono foniti per ogni topics (metodo di pooling) solo per I primi 100 documenti nelle liste reperite da tutti I sistemi di IR partecipanti alla conferenza, non per l intera collezione Competizione tra Vari gruppi di ricerca e produttori commerciali di sistemi di IR (TREC 6 -> 51 gruppi, TREC 7 -> 56, TREC -> 8 66) Risultati giudicati in base a precisione e recall, fino a un livello di recall di 1000 documenti

Sample TREC Query (Topic) Esempio di Topics TREC <num> Number: 168 <title> Topic: Financing AMTRAK <desc> Description: A document will address the role of the Federal Government in financing the operation of the National Railroad Transportation Corporation (AMTRAK) <narr> Narrative: A relevant document must provide information on the government s responsibility to make AMTRAK an economically viable entity. It could also discuss the privatization of AMTRAK as an alternative to continuing government subsidies. Documents comparing government subsidies given to air and bus transportation with those provided to AMTRAK would also be relevant.

slide di Ellen Voorhees del NIST

slide di Ellen Voorhees del NIST

slide di Ellen Voorhees del NIST

slide di Ellen Voorhees del NIST

slide di Ellen Voorhees del NIST

slide di Ellen Voorhees del NIST

slide di Ellen Voorhees del NIST

slide di Ellen Voorhees del NIST

slide di Ellen Voorhees del NIST