Il PageRank è obsoleto? Via libera al TrustRank



Documenti analoghi
Tassonomia Web Spam GIUGNO 2005

CIOÈ COME RAMIFICARE IL PROPRIO SITO AFFINCHÈ GOOGLE LO CONSIDERI DI

I motori di ricerca. Che cosa sono. Stefania Marrara Corso di Sistemi Informativi

WEB MARKETING. Indicizzazione nei motori di ricerca. SCHEDA PRODOTTO Versione 1.1

MOCA. Modulo Candidatura. [Manuale versione 1.0 marzo 2013]

Progettaz. e sviluppo Data Base

SCENARIO. Personas ALICE Lucchin / BENITO Condemi de Felice. All rights reserved.

Google AdWords. Corrispondenze Parole Chiave

Sistema operativo. Sommario. Sistema operativo...1 Browser...1. Convenzioni adottate

VADEMECUM PER UNA STRATEGIA SEO VINCENTE

Nuova funzione di ricerca del sito WIKA.

Cookie. Krishna Tateneni Jost Schenck Traduzione: Luciano Montanaro

Blog. Per un blog di successo: Sfrutta i Motori di Ricerca (MdR) e le Directory per ottenere visibilità e monitorare la blogosfera.

Titolare del trattamento dei dati innanzi descritto è tsnpalombara.it

Regione Toscana. ARPA Fonte Dati. Manuale Amministratore. L. Folchi (TAI) Redatto da

Light CRM. Documento Tecnico. Descrizione delle funzionalità del servizio

COOKIES COSA SONO I COOKIES? COME UTILIZZIAMO I COOKIES?

Modulo 1: Motori di ricerca

GUIDA ALLA RILEVANZA

MODULO 5 ACCESS Basi di dati. Lezione 4

Alfa Layer S.r.l. Via Caboto, Torino ALFA PORTAL

Gestione Risorse Umane Web Work-flow Selezione

Analisi sensitività. Strumenti per il supporto alle decisioni nel processo di Valutazione d azienda

Per siti più strutturati le informazioni sono mantenute mediante particolari organizzazioni di dati: human-powered directories

GESTIONE SOGGETTI INCARICATI MANUALE UTENTE VERSIONE 1.0

ALF0021M MANUALE UTENTE MODULO "SETUP"

Cookie Policy per

Guida Compilazione Piani di Studio on-line

Manuale Utente Albo Pretorio GA

Protocollo di tracciamento e valutazione degli studenti dei corsi di italiano ICoNLingua A.A

IL MARKETING E QUELLA FUNZIONE D IMPRESA CHE:

OSSERVAZIONI TEORICHE Lezione n. 4

WoWords. Guida all uso: creare ed utilizzare le frasi. In questa guida è descritto come creare ed utilizzare le frasi nel software WoWords.

Ecco come ho posizionato in 1 pagina di Google la keyword Strategie di marketing, da 1500 ricerche al mese

Progetto: ARPA Fonte Dati. ARPA Fonte Dati. Regione Toscana. Manuale Amministratore

IL MIO PRIMO SITO: NEWS

VALUTATE!VALUTATE!VALUTATE!

Come leggere ed interpretare la letteratura scientifica e fornire al pubblico informazioni appropriate sui farmaci

UNA CONCRETA OPPORTUNITA DI BUSINESS O L APERTURA AL CAOS?

Soluzione dell esercizio del 12 Febbraio 2004

Report di valutazione studiolegalebraggio.it

Manuale di Aggiornamento BOLLETTINO. Rel D1. DATALOG Soluzioni Integrate a 32 Bit

ANNO SCOLASTICO

Questionario di gradimento del Museo di Palazzo Grimani Estratto dalla relazione sui dati raccolti giugno 2011 luglio 2012

Corso di formazione CerTICTablet

STATUTO PER IL SITO INTERNET DELL ENCJ

Gestione Risorse Umane Web

Il glossario della Posta Elettronica Certificata (PEC) Diamo una definizione ai termini tecnici relativi al mondo della PEC.

GIOCHI MATEMATICI PER LA SCUOLA SECONDARIA DI I GRADO ANNO SCOLASTICO

Cosa accade se veniamo linkati da un sito bannato da Google?

STAMPA DI UNA PAGINA SEMPLICE

Che Cosa È GlobalAdShare (GAS)

Hub-PA Versione Manuale utente

Più processori uguale più velocità?

RISOLUTORE AUTOMATICO PER SUDOKU

Guida all'utente. Sommario. Sistema Help Desk di Ateneo. Guida all'utente.

MANUALE MOODLE STUDENTI. Accesso al Materiale Didattico

MANUALE DELLA QUALITA Revisione: Sezione 4 SISTEMA DI GESTIONE PER LA QUALITA

Banca dati Professioniste in rete per le P.A. Guida all uso per le Professioniste

Università degli Studi di Ferrara - A.A. 2014/15 Dott. Valerio Muzzioli ORDINAMENTO DEI DATI

MANUALE D USO DELLA PIATTAFORMA ITCMS

La progettazione centrata sull utente nei bandi di gara

elicaweb manuali - Vendite: come iniziare - pagina 1 di 9

Funzioni in C. Violetta Lonati

CP Customer Portal. Sistema di gestione ticket unificato

Introduzione all Information Retrieval

Il sistema monetario

NOVITÀ SITI COMMERCIALISTA

Corso di Amministrazione di Reti A.A. 2002/2003

UTILIZZATORI A VALLE: COME RENDERE NOTI GLI USI AI FORNITORI

La dispersione dei prezzi al consumo. I risultati di un indagine empirica sui prodotti alimentari.

REPORT BRAIN FARM. MODALITA DI ADDESTRAMENTO in questa fase, si sono impostati diversi parametri: GENITORI:3 FIGLI:3 GENERAZIONI:100

Procedura SMS. Manuale Utente

Librerie digitali. Video. Gestione di video. Caratteristiche dei video. Video. Metadati associati ai video. Metadati associati ai video

POLITICA DI COESIONE

Comune di San Martino Buon Albergo

CORSO ACCESS PARTE II. Esistono diversi tipi di aiuto forniti con Access, generalmente accessibili tramite la barra dei menu (?)

Uso di base delle funzioni in Microsoft Excel

Database. Si ringrazia Marco Bertini per le slides

Esame dell 8 settembre 2012

Gestire l'accesso all'imi

Excel. A cura di Luigi Labonia. luigi.lab@libero.it

Wiki di Netapprendere

PIANO DI CONSERVAZIONE DEI DOCUMENTI

Project Cycle Management La programmazione della fase di progettazione esecutiva. La condivisione dell idea progettuale.

Il settore moto e il credito al consumo

Configuration Management

da 2 a 5 giocatori, dai 10 anni in su, durata 30 minuti

Automazione Industriale (scheduling+mms) scheduling+mms.

Pensione di vecchiaia: ecco i nuovi requisiti di età per ottenerla

La prima piattaforma per chi insegna e per chi impara l italiano

Release Note Aconex Release Pubblicato il 6 febbraio 2015 e aggiornato il 26 febbraio 2015 per coprire il periodo di release dal 15 febbraio

Impostare il browser per navigare in sicurezza Opzioni di protezione

Capitolo 5. Cercare informazioni sul Web

ATOLLO BACKUP GUIDA INSTALLAZIONE E CONFIGURAZIONE

Olga Scotti. Basi di Informatica. Excel

Spazio Commerciale. Le tue vendite, il nostro successo. Manuale Operativo. Guida inserimento articoli tramite Area di amministrazione.

Come si seleziona un fondo di investimento

La Metodologia adottata nel Corso

Capitolo II. La forma del valore. 7. La duplice forma in cui si presenta la merce: naturale e di valore.

Transcript:

Il PageRank è obsoleto? Via libera al TrustRank Prefazione: Questo documento si basa sull originale Combating web spam with TrustRank firmato da alcuni ricercatori del dipartimento di Computer Science della Stanford University e pubblicato nel 2004 dallo Stanford Daily Newspaper. Il documento è stato aggiornato il 27 febbraio 2005. Il 16 marzo 2005 la tecnologia TrustRank è stata brevettata da Google Inc. Introduzione Il termine web-spam identifica tutta una serie di tecniche per consentire a siti web di varia natura, inclusi siti dal contenuto promiscuo, di essere visualizzati tra i primi risultati nei motori di ricerca utilizzando determinate parole chiave pur non avendo contenuti esattamente inerenti i termini di ricerca utilizzati. (per una definizione più completa si rimanda a documentazione specifica). Mentre per l occhio umano non è molto difficile individuare questo tipo di siti o di pagine web, per un sistema automatico risulta più complesso definire il web-spam. Il solo intervento umano sarebbe troppo oneroso, il sistema ideale si basa su un tipo di classificazione semi-automatica, che è una delle basi della recente tecnica dal TrustRank. La tecnica dello web-spam può rientrare in due grandi famiglie: Link e parole chiave nascoste con lo scopo di ingannare i motori di ricerca. Questo perché i motori di ricerca indicizzano comunque le parole chiave extra e assegnano un valore al sito che le contiene. Creazione di un elevato numero di pagine che puntano ad una singola pagina designata in precedenza. In questa maniera i motori di ricerca ritengono rilevante la pagina linkata. Queste tecniche potrebbero sfuggire ad un sistema automatico, mentre difficilmente potrebbero sfuggire all occhio umano. Ma l interevento umano su ogni pagina indicizzata da un motore di ricerca è praticamente impossibile, oltre che costosa. Resta comunque il fatto che senza una gestione certa della qualità dei siti indicizzati un motore di ricerca difficilmente può offrire risultati utili. Lo scopo del TrustRank è quello di aiutare nella classificazione di una pagina o di un sito web. Il processo per definire se una pagina è considerabile come web-spam, o comunque per la sua corretta classificazione qualitativa, può essere sintetizzato in tre passi:

L algoritmo prima seleziona un gruppo di pagine delle quali non è chiaro lo spam status (definite seed). Un esperto umano esamina le pagine e comunica all algoritmo quali posso essere definite spam (bad pages) e quali no (good pages). L algoritmo identifica le altre pagine sulla base della classificazione umana iniziale. Assegnazione della fiducia - TrustRank Definizione preliminare dell algoritmo PageRank Il PageRank è un diffuso algoritmo, sul quale si è basata per anni (e si basa tuttora) l indicizzazione di Google, che assegna un punteggio ad ogni pagina, basandosi sul numero di link che puntano ad essa. Il fondamento del PageRank è che una pagina deve essere ovviamente importante se molte altre pagine puntano con un link ad essa. Il PageRank può essere considerato una versione più raffinata e complessa della "Link Popularity" (LP). Il PageRank di un sito aumenta in relazione alla qualità delle pagine web che linkano il sito (per pagine web di qualità si intendono quelle che a loro volta hanno un alto PageRank). (per una definizione più completa si rimanda a documentazione specifica) Basi del trustrank La determinazione certa di una pagina può provenire esclusivamente dalla soggettiva valutazione umana, l esperto in questione viene definito Oracolo. Da questo è possibile comunque generare un semplice algoritmo che assegna una valore binario pari a 0 se la pagina contiene spam (bad page), oppure pari a 1 se la pagina è da considerarsi di buona qualità o senza spam (good page). L intervento dell Oracolo come detto porta via molto tempo ed è anche costoso in altri termini, non è possibile un suo intervento costante. Per diminuire gli interventi dell Oracolo è possibile adottare una tecnica basata sull esperienza che ogni singolo navigatore del web può avere: una pagina buona difficilmente punta a una pagina cattiva. Questo perché l autore di una pagina con una qualità elevata difficilmente ha interesse che venga collegata con pagine con una qualità minore o nulla. Per questo motivo le tecniche di spam hanno cominciato ad adottare dei sistemi per collegare pagine che a prima vista sembrano buone, a pagine contenenti web-spam, con varie tecniche: Introduzione nei siti che offrono la possibilità ai visitatori di inserire commenti, di un numero elevato di link verso le pagine cattive (questo problema viene risolto con la moderazione dei commenti o con la futura introduzione del tag link rel= nofollow NDR). Tecnica valida anche per forum o web chat. Creazione di pagine che offrono contenuti validi, ma che hanno un elevato numero di link nascosti verso siti equivoci. Questa tecnica

viene definita Honey Pot. Per avvalorare questa tecnica chi crea queste pagine inserisce anche numerosi link verso pagine buone. Creazione di directory basate sui risultati dei principali motori di ricerca, che utilizzano dei motori chiamati spam-engine, per piazzarsi nei primi posti delle ricerche. In questi casi di esempio, adottando un algoritmo che funzioni da Oracolo, potrebbero crearsi situazioni equivoche. Se abbiamo un sito di 100 pagine, con 70 pagine buone (quindi con valore binario pari a 1) e 30 pagine cattive (con valore binario pari a 0), si avrà un indice di fiducia intermedio. In questo caso solo l occhio umano riesce a stabilire una verità certa. Inverse PageRank Una tecnica valida per stabilire la qualità di un sito potrebbe venire dall inversione della tecnica del PageRank. Ovvero dare una preferenza positiva a quella pagine dalla quale è possibile raggiungere molte altre pagine, basandosi quindi sul numero dei link uscenti (outbound links). High PageRank Per realizzare questa tecnica è stata effettuata una query su un motore di ricerca che utilizza PageRank come tecnica. Ogni risultato avrà vicino risultati con PageRank simile. Questo perché il PageRank si propaga tra i link. Pagine con un elevato PageRank saranno collegate a pagine con un PageRank simile. Sperimentazione del TrustRank Per valutare l algoritmo TrustRank, il team ha usato l indicizzazione del motore di ricerca Altavista. Per ridurre la complessità del sistema i test si sono svolti prendendo in considerazione la totalità di ogni sito web, e non ogni singola pagina che lo compone. Quindi diversi miliardi di pagine sono stati raggruppati in 31.003.946 siti, usando uno degli algoritmi proprietari di Altavista.

Osservazione: un terzo dei siti selezionati non avevano alcun tipo di classificazione, questo perché l algoritmo PageRank che propaga la fiducia si basa sulla presenza di link tra i siti. Ma questi siti comunque avevano un indicizzazione bassa, non è stato difficile quindi separare manualmente siti buoni e siti cattivi. Questo tipo di controllo ha portato via delle settimane, ulteriore conferma dell impossibilità dell intervento completamente manuale. Comparazione Inverse Page Rank / High Page Rank Come prima azione è stata adottata la tecnica definita Inverse Page Rank per selezionare dei siti, dei quali sono stati esaminati i primi 25.000 risultati. Da questi è stato necessario eliminare una serie di siti per due motivi principali: alta presenza di siti-cloni della directory DMOZ, a scopo di webspam. Alto numero di siti non indicizzati in nessuna directory principale e quindi reputati poco attendibili. Dopo questo passaggio i siti attendibili si sono ridotti a 7.900. Di questi sono stati esaminati manualmente i primi 1.250 per selezionarne 178 da usare come gruppo (seed) di siti buoni. Il numero relativamente ridotto della sezione ha consentito di adottare dei criteri molto rigidi di determinazione tra web-spam e pagine buone. Nonostante questo è stato adottato un secondo filtro per selezionare i siti con una sicura e certa autorità (come siti istituzionali o di grandi compagnie). Questo secondo filtro si è reso necessario per garantire una buona longevità del gruppo della selezione (seed). Valutazione dell operatore del trustrank Al fine di valutare la funzionalità del sistema TrustRank bisogna sottolineare nuovamente come il sistema Page Rank non garantisca in alcun modo la qualità dei siti indicizzati. Invece il sistema TrustRank effettua una netta separazione tra siti buoni e siti definiti come web-spam. Questi ultimi difficilmente possono avere un indice TrustRank molto elevato. Dagli esempi è possibile capire l efficacia dell algoritmo TrustRank:

TrustRank quindi rimuove gran parte del web-spam dai risultati preminenti per una certa ricerca. Quindi garantisce come i siti più rilevanti siano buoni, ovvero di qualità elevata e senza web-spam. E importante specificare come guardando in basso, si evince che i siti meno rilevanti difficilmente siano distinguibili da quelli contenenti spam. Conclusione Con la crescita smisurata delle fonti e dei siti sul web i motori di ricerca giocano un ruolo fondamentale per la ricerca e soprattutto l effettivo successo nella ricerca di informazioni. Il web-spam demolisce questa capacità di successo nella ricerca di informazioni utili. I motori di ricerca quindi devono necessariamente evolvere. Il sistema TrustRank, anche in combinazione al PageRank o altri algoritmi potrebbe contribuire a questa evoluzione. Chiarimenti Questo documento non garantisce nessuna attinenza con la ricerca Combating web spam with TrustRank. L autore non è responsabile per eventuali omissioni, rimaneggiamenti o errori. L autore ha omesso una lunga serie di formule e matrici matematiche presenti nel documento originario.