Pagina intenzionalmente lasciata bianca.
Come funziona un motore di ricerca Ing. Luigi Luongo v. 0.1
Introduzione Con questo modulo approfondiamo i concetti di base che sono dietro ad un motore di ricerca qualsiasi al giorno d oggi. Questo ti permetterà di comprendere meglio il perché di determinate attività e la loro utilità. Immagina un motore di ricerca come una grande banca dati dove i dati sono le moltitudini di siti web che esistono e che ogni giorno vengono creati. Pensa che nel mondo ci sono circa 1.061.569.759 siti e sono in constante crescita. Ogni secondo ne viene generato uno nuovo. Sempre nel mondo ci sono circa 3.426.487.461 persone che hanno un accesso ad internet e navigano costantemente. Nel preciso instante in cui sto scrivendo questo documento Google sta ricevendo la sua 3.570.160.100 esima query di ricerca. Te lo aspettavi? Pensi come me che ci sia un potenziale enorme che vale la sfruttare? Quindi se vuoi che il tuo sito riesca ad intercettare e soddisfare quante più persone possibili devi conoscere come funziona il motore di ricerca. Seguimi in questo affascinante mondo e se ci sono passaggi che non ti sono chiari mi raccomando non te li tenere per te ma mandami un messaggio, seguendo le linee guida che avrai sicuramente letto prima di iniziare questo modulo. Se non l hai ancora fatto corri a farlo perché sono informazioni che ti saranno molto utili per il prosieguo del laboratorio.
I componenti principali di un motore di ricerca SPIDER INDEX SCHEDULER PARSER UNIVERSAL SEARCH LINK GRAPH URL Moduli che compongono lo spider Iniziamo ad entrare nel dettaglio di questa guida elencando, come puoi vedere nell immagine qui sopra, i vari componenti e macro-blocchi che compongono un qualsiasi motore di ricerca. Search Engine Lo Spider è il blocco che si occupa di effettuare il discovery delle risorse (pagine HTML, PDF, immagini, presentazioni ecc.). Una volta che ha scoperto una nuova URL la risorsa viene scaricata e le altre URL all interno della pagina vengono salvate all interno della tabella delle URL da analizzare in seguito. Sarà poi compito dello Scheduler dettare le tempistiche di download allo spider per scaricare le risorse rimanenti. Il Parser è il modulo che si occupa di estrarre gli elementi che sono presenti all interno della pagina HTML analizzata. Gli elementi estratti (testo, immagini ecc.) verranno analizzati dal modulo di indicizzazione che cercherà di estrarre i concetti fondamentali e quindi il valore informativo presente all interno della risorsa. Questo processo gli permetterà di arricchire il suo indice di
informazioni rilevanti per poter soddisfare al meglio le esigenze informative espresse dalle persone tramite le query di ricerca. Oltre che passare gli elementi estratti al modulo Index passerà le ancore 1 e le URL al modulo Link Graph. Il Link Graph è quel modulo che si occupa di relazionare le risorse interne ed esterne. Questo gli permetterà di avere una visione chiara di come le risorse all interno e all esterno di un dominio sono relazionate tra loro. Questo processo di relazione permette al motore di ricerca di creare un grafo dove i nodi 2 sono le risorse e gli archi orientano le relazioni di una risorsa verso l altra. Esistono due sezioni differenti del modulo una sezione per i link interni ed una sezione per i link esterni. La sezione per i link esterni si occupa di valutare i link al tuo sito 3 provenienti da altri siti. Gli elementi che potrebbe valutare, dico potrebbe perché nessuno ha la conoscenza esatta di cosa prenda in considerazione il motore di ricerca, sono: Le ancore testuali del link (varietà nella citazione del link) La sezione in cui è presente il link La posizione all interno della sezione o risorsa in cui è presente il link La pertinenza del link con la risorsa in oggetto La rilevanza del link con la risorsa in oggetto La sezione per i link interni potrebbe prendere in considerazione i seguenti elementi: Le ancore testuali del link La sezione in cui è presente il link La frequenza con cui viene citata 4 la risorsa La pertinenza della risorsa con l argomento di quella citata La rilevanza della risorsa con l argomento di quella citata Questi concetti ti porteranno a capire il perché di determinate azioni nel corso del prosieguo del tuo laboratorio. 1 2 3 4 Le ancore sono il testo dei link visibili agli utenti durante la loro navigazione Le risorse appartenenti ad N domini sono i nodi della grafo dei link. Detti anche backlink. Per citazione si intende il link in uscita da una risorsa verso un altra.
Tieni conto che i link da un sito ad un altro per quanto se ne dica è ancora uno degli elementi cardine del posizionamento in quanto avvicina siti autorevoli e allontana quelli meno autorevoli o SPAM. Questo perché il motore di ricerca parte da un assunto. Siti autorevoli tendono a citarsi a vicenda difficilmente un sito autorevole cita un sito che è palesemente SPAM. Questo gli permette anche di relazionare la tematica di un sito rispetto ad un altro. I siti a temi simili tendono a citarsi al contrario dei siti a temi differenti.
Infine vi è il modulo che si occupa di visualizzare l Universal Search da proporre all utente finale. Nell immagine riportata sopra si può notare come ad una ricerca generica utilizzando il termine sedia siano state proposte dal motore di ricerca differenti possibilità di scelta. Dagli annunci sponsorizzati, quasi sempre presenti, al box delle attività locali rispetto alla posizione geografica da cui è stata effettuata la ricerca, fino ad arrivare alle immagini e alle ultime notizie riprese da Google News. A seconda della tipologia di ricerca e dell intento di ricerca intrinseco nella query digitata si possono avere tipologie di SERP 5 molto differenti. Ecco perché diventerà sempre più importante cercare di capire quale sia il vero intento di ricerca degli utenti dietro ad una specifica query. Data una qualsiasi query il motore possiede una serie di informazioni riguardo l intento di ricerca di un campione statistico di utenti. Quindi cercherà di proporre risorse che soddisfano questo campione di persone. Siccome di ricerche giornaliere su Google ce ne sono veramente molte è relativamente semplice capire cosa cercano gli utenti a seguito di una query digitata. Basta analizzare il loro comportamento sui risultati proposti a seguito di quella specifica ricerca. 5 Search Engine Results Pages. Sono i risultati organici e a pagamento presentati dal motore di ricerca.
Esempi pratici Di seguito ti riporto alcuni esempi pratici che ti aiuteranno nello svolgere gli stessi esercizi per il tuo sito. Questa attività sarà propedeutica nel capire quale siano le carenze nel tuo progetto on-line. Alla base di qualsiasi progetto vi dovrebbe essere una corretta indicizzazione sul motore di ricerca altrimenti difficilmente la tua visibilità riuscirà a decollare. La homepage del sito è presente all interno del motore di ricerca come primo risultato? Come puoi notare nello screenshot riportato qui sotto ho circa 48 risultati indicizzati con la homepage che riporta il mio business ed è in prima posizione per i risultati organici. Se non hai la homepage e hai meno risultati di quelli pensi ci dovrebbero essere allora è un primo segnale di un problema nello stato di indicizzazione del tuo sito.
Quante risorse del tuo sito sono presenti nell indice del motore di ricerca? I risultati presenti sono circa 48 così come evidenziato nella precedente immagine. Sono presenti tutte le risorse che vuoi rendere visibili sul motore di ricerca? Le mie business page che sono: Corso SEO Consulenza SEO SEO Specialist Sono presenti nell indice del motore di ricerca. Il tuo sito è simile a? Valutare i siti simili al nostro ci permette di avere un idea iniziale e capire se il motore di ricerca a capito correttamente l argomento del nostro sito internet. Anche se potrebbe
sembrare scontrato mi scontro molte volte con siti confusionari con un architettura informativa errata che non permettono al motore di ricerca di capire correttamente quello di cui tratta ed è specializzato il sito stesso. Nota Se il tuo sito è giovane di qualche mese potrebbe non avere ancora i risultati simili, quindi non ti spaventare se non li trovi.