Informa(on Retrival L Informa(on Retrieval (IR) si occupa della rappresentazione, memorizzazione e organizzazione dell informazione, al fine di rendere agevole all utente il soddisfacimento dei propri bisogni informa(vi. Data una collezione di documen( e un bisogno informa(vo dell utente, lo scopo di un sistema di IR è di trovare informazioni che potrebbero essere u$li, o rilevan$, per l utente. RispeBo alla teoria classica delle basi di da(, l enfasi non è sulla ricerca di da( ma sulla ricerca di informazioni.
Perché è interessante parlare di IR? Il sebore dell Informa(on Retrieval è stato studiato fin dagli anni `70. Negli anni `90, l esplosione del Web ha mol(plicato l interesse per IR. Il Web infak non è altro che un enorme collezione di documen(, sui quali gli uten( vogliono fare ricerche informazionali. Il problema principale è che non è semplice caraberizzare esabamente i bisogni informa(vi dell utente.
Differenze tra Informa(on Retrival e Data Retrival Un sistema di Data Retrieval (ad esempio un DBMS) ges(sce da( che hanno una strubura ed una seman(ca ben definita. Un sistema di Informa(on Retrieval ges(sce tes( scrik in linguaggio naturale, spesso non ben strubura( e seman(camente ambigui. Di conseguenza: Un linguaggio per Data Retrieval permebe di trovare tuk gli oggek che soddisfano esabamente le condizioni definite. Tali linguaggi (algebra relazionale, SQL) garan(scono una risposta correba e completa. Un sistema di Informa(on Retrieval, invece, potrebbe res(tuire, tra gli altri, oggek non esak; piccoli errori sono accebabili e probabilmente non verranno nota( dall utente.
ArchiteBura di un (pico Sistema di IR
Indicizzazione della collezione I sistemi di IR non operano sui documen( originali, ma su una vista logica degli stessi. Tradizionalmente i documen( di una collezione vengono rappresenta( tramite un insieme di keyword. La capacità di memorizzazione dei moderni elaboratori permebe talvolta di rappresentare un documento tramite l intero insieme delle parole in esso contenute; si parla allora di vista logica full text. Per collezioni molto grandi tale tecnica può essere inu(lizzabile; si u(lizzano allora tecniche di modifica del testo per ridurre la dimensione della vista logica, che diventa un insieme di index term. Il modulo di ges(one della collezione si occupa di creare gli opportuni indici, contenen( tali termini.
Processo di ricerca delle Informazioni
Web Search
In che modo si puo voler sapere qualcosa? In modo: molto vago modestamente preciso molto preciso enciclopedico. Internet: 3,307,998,701 pagine sull'indice di Google, Stimate piu' di 2 billioni di pagine in totale. documenti testuali (html, doc, pdf, pps, xls,..) con eventuali contenuti multimediali (immagini, suoni, animazioni) e dinamici (maggior interazione all'interno di un documento) siti (domains, subdomains) e sottositi indirizzamenti nei documenti verso altri documenti; si creano cosi' una multitudine di collegamenti e possibili percorsi
Motori di ricerca Problema: come trovare accesso a questa massa di informazioni senza perdersi? Soluzione: un sistema efficace di recupero dell'informazione! Umberto Eco Più si restringe il campo meglio si lavora e più si va sul sicuro Un motore di ricerca è un sistema automa(co che analizza un insieme di da(, generalmente raccol( dal programma stesso, e res(tuisce un insieme di risulta( disponibili, classificandoli in base alla cosiddeba rilevanza rela(va alle chiavi di ricerca inserite.
Principali Motori di Ricerca su Internet
Metodologie di ricerca I motori di ricerca esplorano il web tramite piccoli programmi chiamati ragni (spiders) o robots, i quali seguono i vari collegamenti presenti nei siti e mettono nell'indice le pagine trovate. Di solito i motori di ricerca si basano in gran parte sulla frequenza con cui una parola viene visualizzata in una pagina web.
Il Motori di Ricerca: GOOGLE
Storia di Google
Approccio Anali(co di Google Google usa fondamentalmente due tecnologie per organizzare i propri indici. PageRank Per poter fornire dei risultati di ricerca rilevanti Google utilizza la propria applicazione PageRank. Questo programma prova a misurare l'importanza delle singole pagine interpretando i collegamenti verso essa come voti in favore ad essa. Analisi testuale Quindi Google analizza l'intero contenuto delle pagine tenendo conto della formattazione del testo e della posizione precisa di ogni parola; considera inoltre anche le pagine web vicine (nel sito). Una semplice richiesta 1. L'utente inserisce nell'interfaccia delle parole chiavi. 2. Il sistema invia la ricerca al computer che gestisce l'indice. 3. All'elenco di indirizzi web rilevanti vengono aggiunti altre informazioni per rendere piu' facile l'interpretazione dei risultati. 4. I risultati della ricerca vengono restituiti all'utente.
Ricerca di Base
Operatori di Ricerca
Operatori di Ricerca (segue)
Operatori di Ricerca (segue)
Domini delle ricerche
Ricerca Avanzata
Operatori Avanza(
[ allinurl: google faq ] ritornerà solo documen( che contengono le parole google e faq nell URL, come www.google.com/help/faq.html [ flu shot in(tle:help ] ritornerà I docume( che contengono la parola help nel (tolo, e contengono le parole flu e shot dovunque nel documento, anche nel (tolo)
Operatore filetype: verrà res(tuito il risultato presente nei documen( con il suffisso specificato [ web page evalua(on checklist filetype:pdf ] ritornerà documen( pdf in cui sono contenute le parole web, page, evalua(on, and checklist. Operatore source: res(tuirà gli ar(coli contenen( le parole specificate nel giornale specificato. [ elec(on source:new_york_(mes ]ritornerà gli ar(coli con laparola elec(on che appare nel New York Times.
Funzioni Speciali
Meteo Lecce AC Inter, film Lecce, pizzerie a Lecce,
Opzioni: Impostazioni di ricerca di Google