Pagine web (struttura html) Cercare documenti Web Motori di Ricerca
I MOTORI DI RICERCA Sulla rete Web vi sono strumenti specifici chiamati motori di ricerca (research engines) per la ricerca di siti e documenti su argomenti specifici o con particolare parole chiave. Essi permettono ricerche di indirizzi elettronici di persone, server WWW, informazioni bibliografiche e su articoli di riviste, archivi di software e altro. La ricerca viene effettuata fornendo una o più parole chiave relative all oggetto cercato, digitando un certo numero di parole in un apposito campo (form) e dando poi il comando che avvia la ricerca.
Motori di ricerca Un motore di ricerca, o spider, è un sito con grandi capacità di connessione, immagazzinamento e calcolo Il motore di ricerca si basa su diversi componenti: un programma che interroga periodicamente un campo d azione (ovvero, un insieme di documenti radice documenti da questi collegati) per scaricarne le pagine e catalogarle Un database delle pagine catalogate Una interfaccia di interrogazione
Quando qualcuno si collega al motore lo interroga per trovare tutti i documenti che contengono certe parole Campo d azione dei motori di ricerca: Sul proprio sistema operativo o per un singolo disco o per l intero file system Su tutti i dischi di una rete privata (intranet) Su Internet
Come si scrivono le frasi di interrogazione? 1. Occorre identificare i concetti più importanti in grado di riassumere i contenuti della ricerca. 2. Occorre identificare i termini di ricerca (parole chiave) che meglio riassumono tali concetti. 3. Occorre eventualmente trovare una serie di sinonimi, ovvero di parole in qualche modo correlate con i termini precedentemente individuati
Il modello booleano (ricerca avanzata) Rappresentazione dei documenti richiesti è un insieme di termini che ne rappresentano il contenuto. Interrogazioni Combinazioni booleane di termini combinati tra loro mediante gli operatori booleani AND, OR, NOT, XOR e NEAR Criterio di corrispondenza AND i termini sono entrambi presenti OR almeno uno dei due termini è presente NOT il termine non è presente XOR reperisce i documenti che contengono un termine o l'altro, ma non entrambi. NEAR reperisce i documenti che contengono un termine e l'altro, che devono apparire a una distanza minore di 10 parole.
Tabelle di verità AND V F OR V F NOT V V F V V V V F F F F F V F F V
ESEMPIO (sociologia AND comunicazione) Documenti che contengono sociologia e comunicazione (filosofia OR storia) Documenti che contengono filosofia o storia NOT (sociologia AND comunicazione) Documenti che non contengono sociologia e comunicazione insieme ((filosofia OR storia) NOT (sociologia AND comunicazione)) Documenti che contengono filosofia o storia, ma non sociologia e comunicazione (filosofia XOR storia) Documenti che contengono filosofia o storia, ma non entrambi.
I principali motori di ricerca internazionali sono: Altavista http://www.altavista.digital.com Google http://www.google.com Infoseec http://www.infoseec.com Lycos http://www.lycos.com I motori di ricerca italiani più usati sono: Arianna http://www.arianna.it che dà anche la possibilità di collegarsi ai principali motori internazionali Virgilio http://www.virgilio.it Google http://www.google.it
Altavista Come in quasi tutti i motori di ricerca, se si digita una serie di parole, si ricercano i documenti che contengono almeno una di esse. Una successione di parole messe tra virgolette indica che si cercano i documenti che contengono queste parole in successione. Si usa il simbolo + prima di una parola o di una successione di parole tra virgolette per indicare che quella parola o successione di parole deve apparire comunque nei documenti. Analogamente si usa il simbolo per escludere la parola o la successione di parole che non devono apparire nei documenti.
Altavista Se si vuole eseguire una ricerca più raffinata si seleziona advanced research (ricerca avanzata) che permette di utilizzare gli operatori booleani (AND, OR, NOT) e inoltre di scegliere i criteri di ordinamento dei risultati. L ordinamento (page rank) dei documenti viene fatto in base alla frequenza con cui le parole appaiono nei documenti e tenendo anche conto se esse appaiono anche nei titoli dei documenti (tag title).
Google Oltre alle varie modalità logiche viste in precedenza, con Google si possono fare selezioni sulla lingua, sulla data e le parole che appaiono nel titolo. Una caratteristica importante di Google è che ordina le pagine trovate non solo in base alla frequenza, in cui i termini appaiono, ma anche in base all autorevolezza che viene misurata dal numero e dall autorevolezza dei link che puntano al documento. In questo caso si fa uso per la valutazione della rilevanza dei documenti trovati di una caratteristica degli ipertesti cioè della possibilità di richiamare all interno di un documento altri documenti appunto con l utilizzazione dei link.
Google La rete per questa caratteristica assume la forma di un grafo diretto cioè un insieme di vertici che corrispondono alle pagine Web collegati da frecce che corrispondono ai link che da un documento rimandano a un altro. E ragionevole che una pagina che viene puntata con link da molte altre pagine sia autorevole e ancora di più se le pagine che la puntano sono a loro volta pagine autorevoli. Si definisce l algoritmo del page rank per valutare numericamente l autorevolezza di una pagina Web. L autorevolezza di una pagina Web viene trasmessa alle pagine Web a cui puntano i suoi link dividendola in parti uguali per il numero dei link che da essa partono.
Google Es: autorevolezza = 40, da questa partono 4 link che attribuiscono autorevolezza 10 alle quattro pagine a cui è linkata. 10 10 40 10 10 Google http://www.google.it
Google Altra caratteristica di questo motore di ricerca è la possibilità di accedere a pagine non più presenti sulla rete grazie al comando copia cache presente sul lato destro dei risultati ottenuti dopo una ricerca. E così possibile accedere a pagine non più consultabili. http://www.google.it/
MOTORI di ricerca ALLA SAPIENZA
Il metamotore di Ricerca MetaBIDS Con un solo clic l utente remoto può inoltrare la sua richiesta a banche dati, archivi di periodici elettronici, cataloghi delle Biblioteche di tutto il mondo. MetaBIDS
Altre risorse dell Università La Sapienza La Biblioteca Italiana I testi sono codificati in XML, sono in edizione integrale e si fondano sulle più autorevoli edizioni di riferimento, sono scaricabili gratuitamente in diversi formati e interrogabili attraverso le funzioni di lettura del testo e di ricerca avanzata. Il sistema produce dinamicamente una versione HTML del documento XML e un indice dei contenuti per ciascun testo, consente di effettuare ricerche full-text e ricerche contestuali e di creare concordanze dinamiche con collegamenti ipertestuali al testo.
Altre risorse dell Università La Sapienza Una risorsa per le scienze giuridiche Partecipano a questo portale 11 Università italiane, la Biblioteca della Camera dei deputati, della Presidenza del Consiglio dei Ministri e l Istituto di Teoria e Tecnica dell Informazione Giuridica (ITTIG di Firenze) e il CIDE, Centro Nazionale di Informazione e Documentazione Europea. E il più grande archivio italiano on-line di normativa ad accesso pubblico, ad accesso completamente gratuito sino a 5 documenti al giorno.
BigBang Altre risorse dell Università La Sapienza Si tratta di un portale per la cultura anglosassone. Offre corsi di lingua e un approccio a Internet, con centinaia di siti, biblioteche umanistiche e scientifiche e collegamenti radio e televisivi tutti in inglese, tutti gratuiti e usufruibili anche da casa con una normale connessione telefonica. I testi della letteratura
Web semantico (struttura xml) Schema di classificazione Ontologie Questa tipo di classificazione si basa sul contenuto (ontologie). Un esempio è la classificazione decimale di Dewey, usata in ambito bibliotecario. 1 Idrologia e Idrografia 10 1001 Idrografia 100102 Correnti di acque 10010202 Cascate 1001 1002 10010204 Rapide 100105 Laghi 10010504 Lagune 100102 100105 100203 1002 Idrologia 100203 Crescita dei fiumi 10010202 10010204 10010504 1001020301 10020301 Metodi di stima delle piene