I motori di ricerca Stefania Marrara Corso di Sistemi Informativi a.a 2002/2003 Che cosa sono Un motore di ricerca è uno strumento per mezzo del quale è possibile ricercare alcuni termini (parole) all interno di una grande quantità di siti web. In seguito ad richiesta un motore riporta una lista di siti che contengono i termini cercati
Directory vs Motore (1) Un primo importante passo da compiere è imparare a distinguere un motore di ricerca da una directory o "catalogo". Una directory contiene una raccolta di indirizzi di siti web che sono stati espressamente selezionati da personale umano. Virgilio e Yahoo! sono delle directory. Directory vs Motore (2) I motori di ricerca, invece, scandagliano continuamente l'intero WWW (World Wide Web) e includono nel proprio archivio di indirizzi tutti i siti web trovati, a prescindere dalla qualità dei loro contenuti e indipendentemente dal fatto che i siti siano stati trovati per caso o siano stati proposti al motore di ricerca da un utente. Google e Altavista sono dei motori di ricerca.
Svantaggi e vantaggi Da quanto appena esposto si evince che: il numero di siti web potenzialmente archiviabili da un motore di ricerca è di gran lunga superiore al numero di siti web potenzialmente archiviabili da una directory negli archivi dei motori di ricerca confluiscono anche siti di bassa qualità o con pochi contenuti L indice di qualità Per ovviare all'inconveniente i migliori motori di ricerca hanno adottato delle tecniche per mezzo delle quali ad ogni sito archiviato viene attribuito un valore che rappresenta una sorta di "indice di qualità" del sito web. In questo modo è possibile, in seguito ad una ricerca, offrire all'utente una lista di siti ordinata in base all'indice di qualità dei siti elencati, partendo dal sito che presenta il valore più alto.
Come i siti vengono analizzati Ogni motore di ricerca utilizza alcuni programmi chiamati "spiders" (ragni) il cui unico compito è quello di visitare continuamente una grande quantità di siti web, leggere il testo contenuto nelle pagine ed estrarre quelle parole/termini che rappresentano al meglio i contenuti del sito. Lo spider Per ogni pagina letta, lo spider cerca al suo interno e memorizza ogni link (collegamento) ad altri siti, aggiungendoli ad una lista di siti da visitare. In questo modo, attraverso un processo a catena, lo spider è in grado di ottenere una quantità enorme di indirizzi di siti e pagine web, riuscendo ad incrementare il numero di siti conosciuti molto più di quanto possa essere fatto dalle directory, che si basano su un lento meccanismo di iscrizione e valutazione dei siti, operato da esseri umani.
Un trucco Per consentire ad uno spider di trovare agevolmente tutte le pagine che compongono un sito web bisogna fare in modo che da qualunque pagina del sito sia possibile risalire, direttamente o indirettamente, a tutte le altre pagine. Un buon sistema per ottenere questo risultato è inserire in ogni pagina del sito un link alla homepage; Nota sui siti trovati Gli spider non fanno caso alla grafica delle pagine ma focalizzano il loro lavoro di analisi esclusivamente sul testo. Prima importante considerazione: i siti web acquistano "corposità" agli occhi dei motori di ricerca solo se contengono buone quantità di testo
Obiettivo dei motori L'obiettivo dei motori di ricerca è presentare una lista che veda in cima i siti che meglio di altri trattano i temi d'interesse dell'utente. Per raggiungere questo risultato, ogni motore di ricerca ha sviluppato algoritmi particolari in grado di stabilire in che misura ogni sito presente in archivio combacia con le parole chiave cercate dall'utente. I siti che combaciano meglio vengono riportati ai primi posti delle liste, inoltre alcuni motori di ricerca tendono a consigliare sopratutto i siti che vengono considerati più "autorevoli". Tecniche di searching (1) Contenuti Più l'argomento ricercato dall'utente viene trattato sul sito, e più il motore di ricerca spingerà il sito verso i primi posti della lista. Keyword (parole chiavi) Ogni volta che un utente effettua una ricerca su un motore di ricerca, inserisce alcuni termini che, a suo giudizio, ritiene attinenti all'argomento di suo interesse.. Se le keyword rappresentano una buona percentuale del testo complessivo di una pagina, il motore di ricerca tenderà a far salire il sito nelle liste.
Tecniche di searching (2) Popolarità (numero di link) I siti web ritenuti più "popolari" o "autorevoli" da parte del motore di ricerca occupano nelle liste posizioni più alte rispetto a siti meno conosciuti o stimati. La tecnica si basa sul numero di link sparsi per il web che puntano ad esso. Più sono i link che puntano al sito (in un certo senso "consigliandolo") e più il sito è considerato popolare. Va inoltre notato che i link non possiedono tutti ugual peso; un link presente sul sito di una importante e conosciuta società ha peso maggiore rispetto a un link presente su una semplice home-page personale. Tecniche di searching (3) Ogni motore di ricerca prende in considerazione i tre suddetti fattori in modo diverso, attribuendo a ciascuno di essi importanza e peso diversi. Alcuni motori non tengono affatto conto della popolarità di un sito mentre altri, come Google, hanno fatto della popolarità uno degli elementi chiave per poter garantire agli utenti ricerche di buona qualità.