Valutazione dei Sistemi di Information Retrieval Gabriella Pasi
Valutazione di un Sistema di Information Retrieval Perchè si valuta un sistema di IR? I compiti di un IRS non sono ben definiti È difficile stabilire se il sistema ha fallito o meno Per questa ragione è stata sviluppata una metodologia di valutazione
Valutazione di un Sistema di Information Retrieval Componenti di un esperimento di valutazione di un sistema di IR Un sistema di IR (visto come una black box) Una collezione di documenti Una collezione di query Un insieme di utenti Un criteri di base di valutazione Misure di performance Il progetto dell esperimento
Criteridivalutazione Che cosa si valuta? Come si valuta? Funzionalità analisi funzionale Correttezza analisi degli errori performance tempo tempi di risposta spazio occupazione degli indici efficacia del retrieval precisione e completezza dei documenti reperiti
What to Criteridivalutazione Evaluate? Quanto i risultati soddisfano le necessità informative dell utente? Quanto si è imparato su un dato argomento ricercato? Apprendimento accidentale: Quanto si è compreso di cosa trattano i documenti della collezione? Quanto si è compreso degli argomenti trattati? Quanto si è compreso di altri argomenti trattati? Com è l interazione con il sistema?
Relevance Criteridivalutazione In che modo un documento può essere rilevante a una query? Risponde precisamente alle domande dell utente Risponde parzialmente alle domande dell utente Suggerisce una sorgente di informazioni Fornisce informazioni contestuali sull argomento di interesse Richiama alla memoria dell utente conoscenze dimenticate
Relevance Criteridivalutazione Quanto rilevante è il documento? Per un dato utente e per le sue necessità informative (Soggettivo ma misurabile) Quanto spesso gli utenti sono d accordo nel considerare un documento rilevante rispetto alla stessa query? Quanto bene risponde alla domanda? La risposta è completa? Parziale? C è informazione contestuale? Fornisce indizi per esplorazioni future?
What to Evaluate? Criteridivalutazione Stima dell abilità dell utente nell utilizzare il sistema: Quantità di Informazioni di base sul sistema Forma di presentazione Impegno necessario per l utilizzo Efficienza in termini di tempo e spazio Efficacia Richiamo Proporzione di materiale rilevante che viene reperito Precisione Proporzione di materiale reperito che è rilevante
What to Evaluate? Criteri di base di valutazione Assunzioni: dell efficacia La rilevanza di un documento per l utente viene considerata binaria (rilevante/non rilevante) La rilevanza di un documento è indipendente dagli altri documenti. L utente è messo nella condizione di scoprire documenti rilevanti nella collezione senza l ausilio del sistema
Relevant vs. Retrieved Tutti i documenti Reperiti Rilevanti
Definizioni Precision di vs. Precisione Recall e Richiamo Rilevanti e Reperiti Precisione = Reperiti Rilevanti e Reperiti Recall = Rilevanti nell'intera Collezione Tutti i doc. Reperiti Rilevanti
Why Precision and Recall? Obbiettivo per una buona efficacia: Reperire quanti più documenti rilevanti possibile, minimizzando il numero di documenti non rilevanti reperiti
Retrieved vs. Relevant Documents Precisione altissima (1), richiamo molto basso reperiti Rilevanti
Retrieved vs. Relevant Documents Precisione e Richiamo molto bassi (0) reperiti Rilevanti
Retrieved vs. Relevant Documents Richiamo alto, Precisione bassa Rilevanti Reperiti
Retrieved vs. Relevant Documents Precisone e Richiamo alti reperiti Rilevanti
Precision/Recall Curves Misura di Recall e Precisione Per ogni query si misurano R e P I sistemi producono generalmente un ordinamento dei documenti si effettuano misure di Precisione con diversi livelli di richiamo: si individuano nella lista ordinata punti (cut-off) in cui la recall è 10%, 20%, 100% e si valuta la precisione in tale punti Si effettua una media di R e P per l insieme di query Si effettua una media per l insieme di utenti
Precision/Recall Curves Misura di Recall e Precisione Si osserva un bilanciamento tra i valori di Precisione e di Richiamo precisione x x x recall x
Precision/Recall Curves PRECISIONE vs RECALL E difficile ipotizzare quale dei due comportamenti sia migliore: generalmente dipende dall utente precisione x x x x recall
Document Cutoff Levels Misure di Precisione per livelli di Recall Si considerana il numero di documenti RILEVANTI REPERITI a diversi livelli di rilevanza dal sistema: I PRIMI 5 NELLA LISTA ORDINATA DEI DOCUMENTI REPERITI I PRIMI 10 I PRIMI 20 I PRIMI 50 I PRIMI 100 I PRIMI 500 Si misura la precisione per ogni livello di richiamo Si prende la media (pesata) dei risultati E un metodo per stimare quanto è la bontà della stima della rilevanza da parte del sistema
Misure di Precisione per livelli di Richiamo Documenti rilevanti per l utente per una data query q Rq={d3, d5, d9, d25, d39, d44, d56, d71, d89, d123} Rq =10 Documenti reperiti dal sistema in ordine decrescente di rilevanza 1 d123 2 d84 3 d56 4 d6 5 d8 6 d9 7 d511 8 d129 9 d187 10 d25 11 d38 12 d48 13 d250 14 d113 15 d3 Calcolo della precisione per 11 livelli di richiamo fissati Primo 1: Recall = 1/10= 10% Precisione 1/1=100% primi 3: Recall = 2/10= 20% Precisione 2/3=66% primi 6: Recall = 3/10= 33% Precisione 3/6=50% primi 10: Recall = 4/10= 40% Precisione 4/10=40% primi 15: Recall = 5/10= 50% Precisione 5/15=33%
Misure di Precisione per livelli di Richiamo Interpolazione dei risultati ottenuti dalla valutazione di Recall e Precisione su molte query P(R)= i=1,,nq Pi(R)/Nq P(R) = valor medio di Precisione al livello R di richiamo date Nq query Pi(R) = Precisione al livello R di richiamo data la i-esima query. Spesso Pi(R) non è disponibile, perciò lo si interpola Pi(R k )= max R k<=r<=r k+1 Pi(r)
Misure di Precisione per livelli di Richiamo Documenti rilevanti per l utente per una data query q Rq={d3, d56, d129} Rq =3 Documenti reperiti dal sistema in ordine decrescente di rilevanza 1 d123 2 d84 Primi 3: Recall = 1/3= 33.3% Precisione 1/3=33.3% 3 d56 primi 8: Recall = 2/3= 66.6% Precisione 2/8=25% 4 d6 5 d8 primi 15: Recall = 3/3= 100% Precisione 3/15=20% 6 d9 NON si dispone dei valori di P per gli 11 livelli standard 7 d511 di recall (0% 10%, 20%, 30%, 100%) 8 d129 9 d187 Si interpolano 10 d25 P(R 0% )=> P(R 30% ) = 33.3% 11 d38 12 d48 P(R 40% )=>P(R 60% )=max 50% <=r<= 70% (P(66.6%))=25% 13 d250 P(R 70% )=>P(R 100% )=max 90% <=r<= 100% (P(100%))=20% 14 d113 15 d3
TREC (Manual Queries) Confronto di curve di R/P Permettono il confronto di algoritmi diversi per modellare attività specifiche dello stesso sistema (es tecniche di indicizzazione) Sistemi diversi Lo stesso sistema per utenti/query/collezioni diverse
Misure singole di efficacia del retrieval E utile produrre un valore singolo di precisione per valutare le prestazioni di un algoritmo in funzione di query particolari Calcolo della media della Precisione P corrispondente a un incremento unitario del numero di documenti rilevanti reperiti precisione 40,00% 30,00% 20,00% 10,00% curca R/P 33,30% 66,67% 100,00% 0,00% 0,00% 50,00% 100,00% 150,00% curca R/P recall all'incremento di 1 doc reperito rilevante P=(33,3+25+100)/3=26,1% favorisce i sistemi che reperiscono i documenti rilevanti nelle prime posizioni
Misure singole di efficacia del retrieval R-P: Calcolo della Precisione corrispondente ai primi R documenti reperiti, ove R = numero totale di documenti rilevanti per l utente per la query R= Rq utile per stimare il comportamento di un algoritmo in funzione di un set di query diverse Si puo calcolare R-P per il set di query Tra i primi 10 documenti ce ne sono 4 rilevanti primi 10: Recall = 4/10= 40% Precisione 4/10=40% =>10-P=40% Tra i primi 3 documenti reperiti c è solo il primo rilevante: Primo 1: Recall = 1/3= 33.3% Precisione 1/3=33.3% =>3-P= 33,3%
Misure singole di efficacia del retrieval Istogramma di Precisione Utile per confrontare il retrieval di due algoritmi Siano R-P(A)(q i ) e R-P(B)(q i ) le misure di R- precisione per due algoritmi A e B per la query q i R-P(A/B)(q i ) = R-P(A)(q i ) - R-P(B)(q i ) R-P(A/B)(q i )=0 i due algoritmi hanno lo stessa precisione per la query q i R-P(A/B)(q i )>0 A è più preciso di B R-P(A/B)(q i )<0 A è meno preciso di B Si possono calcolare valori medi R-P(A/B)(q i ) su un set di query
Istogramma di Precisione
Tabelle riassuntive delle misure di Precisione e Recall Numero totale di query N totale di documenti reperiti da tutte le query N totale di documenti rilevanti reperiti da tutte le query N totale di documenti rilevanti nella collezione
Problemi inerenti il calcolo di Problems with Precision/Recall Precisione e Richiamo Non si conoscono i veri valori di richiamo eccetto nel caso di collezioni con pochi documenti Precisione/Recall sono tra loro in relazione misure combinate sono in alcuni casi più appropriate Si è assunta una modalità batch di retrieval, mentre l interazione con l utente può alterare l efficacia del retrieval. Quindi sarebbe necessario quantificare l informazione derivante dall interazione con l utente Si assume che l ordinamento stretto sia importante.
Matrice di Confronto Sistema Doc è reperito Utente -> Doc NON è reperito Totale Doc è rilevante a+c a c Doc NON è rilevante b+d Accuratezza: (a+d) / (a+b+c+d) Precisione: a/(a+b) Recall: a/(a+c)? (spesso c non è noto) Problemi nell interpretazione dell accuratezza: nelle collezioni grandi La maggior parte dei documenti non sono rilevanti La maggior parte dei documenti non sono reperiti si ha un amplificazione del valore di accuratezza a causa del valore d>>a b d totale documenti a+b c+d a+b+c+d
Matrice di Confronto dell ordinamento Utente -> Sistema Doc reperito e molto rilevante Doc. molto rilevanti a11 Doc. rilevanti a12 Doc. poco rilevanti a13 Doc. non rilevanti a14 Doc reperito e rilevante a21 a22 a23 a24 Doc reperito e poco rilevante a31 a32 a33 a34 Doc non reperito a41 a42 a43 a44 Si valuta la Recall, Precisione e Accuratezza dell ordinamento in classi di rilevanza R (Molto rilevanti)=a11/(a11+a21+a31+a41) P(Molto rilevanti)=a11/(a11+a12+a13+a14) A(Molto rilevanti)=a11/(totale nelle varie classi)
F(j) R(j) al j - reperiti Combinazione di Precisione e Recall in un singolo parametro = è il 1 R(j) dal 2 + sistema media armonica) 1 P(j) richiamo e P(j) è la esimo documento nella lista F(j) [0,1] precisione corrispondenti ordinata F(j)=0 nessun documento rilevante è reperito dei F(j)=1 tutti i documenti reperiti sono quelli rilevanti documenti
Combinazione The E-Measuredi Precisione e Recall in un singolo parametro: E_measure (K. van Rijsbergen, 79) E(j) = 1 α 1 P(j) 1 + (1 α) 1 R(j) α = 1/( β 2 + 1) Permette all utente di stabilire se intende valutare il sistema rispetto al richiamo o alla precisione P(j) = precisione R(j) = recall al jesimo documento nel ranking α = misura dell importanza relativa della precisione P rispetto al richiamo R α = 0.5 l utente accorda pari importanza a P ed R α = 1 E = 1-P α = 0 E = 1-R
Misure di efficacia dipendenti dall utente Problemi: Utenti diversi possono identificare documenti rilevanti differenti rispetto alla stessa query Rilevanza è soggettiva Dipende dalla storia, esperienza dell utente Dall ordine di analisi dei documenti Necessità di misure che tengano conto della dipendenza dall utente Copertura, Novità, Recall relativo, Sforzo di recall
Misure di efficacia dipendenti dall utente Siano: R = insieme di tutti i documenti rilevanti A= insieme reperito dal sistema U = insieme di documenti rilevanti per l utente U R Rk = A U documenti reperiti e rilevanti per l utente Ru documenti rilevanti reperiti e sconosciuti precedentemente al retrieval all utente Copertura = Rk / U È la frazione di documenti rilevanti noti all utente e reperiti Novità = Ru / ( Ru + Rk ) frazione di documenti rilevanti reperiti e non noti all utente
Misure di efficacia dipendenti dall utente Copertura = Rk / U Copertura alta indica che il sistema trova molti dei documenti noti come rilevanti all utente Novità = Ru / ( Ru + Rk ) Novità alta indica che il sistema rivela all utente molti documenti rilevanti R Ru A U Rk
Misure di efficacia dipendenti dall utente Recall relativo: rapporto tra # di documenti reperiti rilevanti e # totale di documenti rilevanti che l utente si aspetta in risposta a una query Sforzo di Recall : rapporto tra # di documenti rilevanti che l utente si aspetta in risposta a una query e il # di documenti esaminati tra quelli reperiti per trovare quelli rilevanti
TREC Collezioni di riferimento per le valutazioni Cranfield 2 > 1400 Documents, 221 Queries 200 Documents, 42 Queries INSPEC > 542 Documents, 97 Queries UKCIS -- > 10000 Documents, multiple sets, 193 Queries ADI > 82 Document, 35 Queries CACM > 3204 Documents, 50 Queries CISI > 1460 Documents, 35 Queries MEDLARS (Salton) ->273 Documents, 18 Queries CLEFF per valutazione di IR multilingua
TREC Collezioni di riferimento per le valutazioni Text REtrieval Conference/Competition prima conferenza TREC 1992 NIST (National Institute of Standards & Technology) Office of Defense Advanded Research Projects Agency (DARPA) Collezioni >6 Gigabytes (6 CRDOMs), >1.5 Milione Documenti Newswire & full text news (AP, WSJ, Ziff, FT) documenti governativi (federal register, Congressional Record) trascrizioni Radio (FBIS) sottoinsiemi Web ( Large Web separate with 18.5 Million pages of Web data 100 Gbytes) Brevetti/licenze
TREC Conferenze TREC Per ogni conferenza viene progettato un insieme di esperimenti I gruppi che partecipano utilizzano: gli stessi dati (collezioni di circa 2 Gb Stessi topics o necessità informative Stessi giudizi di rilevanza I risultati prodotti vengono inseriti in un software standard di valutazione che permette un confronto diretto tra I diversi sistemi
Test Conferenze CollectionsTREC: collezioni La collezione TREC è distribuita a pagamento su 6 CD-ROM WSJ Wall Street Journal - circa 100Mila docs - AP Associated Press circa 85.000 docs ZIFF Computer articles 75.000 docs FR Federal Register circa 25000 docs DOE Publications abstract 225000 docs PAT US Patents 6700 docs FT Financial Times 210.000 docs FBIS Foreign Broadcast Inf. Serv. 130.000 docs I documenti di tutte le collezioni sono in SGML Tag: <DOCNO> # doc. <TEXT> testo
Sample TREC Query (Topic) Esempio di documento delle collezioni TREC <doc> Number: 168 <docno> WSJ880406-0090 </docno> <hl> AT&T Unveils Services to upgrade phone networks under global plan </hl> <authot> J. Guyon </author> <ateline> New York </dateline> <text> American telephone &telegraph Co. Introduced. </text> </doc>
TREC TREC: (cont.) topics e giudizi Query + Giudizi di Rilevanza Topics, vale a dire Query progettate da specialisti espresse in linguaggio naturale numero di topics: sono stati preparati gruppi di topics per ogni conferenza: con 3 campi: <title> <number> <descrip> <narrative> Giudizi di Rilevanza sono foniti per ogni topics (metodo di pooling) solo per I primi 100 documenti nelle liste reperite da tutti I sistemi di IR partecipanti alla conferenza, non per l intera collezione Competizione tra Vari gruppi di ricerca e produttori commerciali di sistemi di IR (TREC 6 -> 51 gruppi, TREC 7 -> 56, TREC -> 8 66) Risultati giudicati in base a precisione e recall, fino a un livello di recall di 1000 documenti
Sample TREC Query (Topic) Esempio di Topics TREC <num> Number: 168 <title> Topic: Financing AMTRAK <desc> Description: A document will address the role of the Federal Government in financing the operation of the National Railroad Transportation Corporation (AMTRAK) <narr> Narrative: A relevant document must provide information on the government s responsibility to make AMTRAK an economically viable entity. It could also discuss the privatization of AMTRAK as an alternative to continuing government subsidies. Documents comparing government subsidies given to air and bus transportation with those provided to AMTRAK would also be relevant.
slide di Ellen Voorhees del NIST
slide di Ellen Voorhees del NIST
slide di Ellen Voorhees del NIST
slide di Ellen Voorhees del NIST
slide di Ellen Voorhees del NIST
slide di Ellen Voorhees del NIST
slide di Ellen Voorhees del NIST
slide di Ellen Voorhees del NIST
slide di Ellen Voorhees del NIST