Reti complesse Ranking

Documenti analoghi
Metodi Computazionali

Le catene di Markov come metodologia utilizzata dai motori di ricerca per classificare le pagine web su internet.

I motori di ricerca. Che cosa sono. Stefania Marrara Corso di Sistemi Informativi

Siamo così arrivati all aritmetica modulare, ma anche a individuare alcuni aspetti di come funziona l aritmetica del calcolatore come vedremo.

Introduzione all Information Retrieval

Dimensione di uno Spazio vettoriale

Metodi statistici per l economia (Prof. Capitanio) Slide n. 9. Materiale di supporto per le lezioni. Non sostituisce il libro di testo

Barriere assorbenti nelle catene di Markov e una loro applicazione al web

Report di valutazione studiolegalebraggio.it

S earche ngineo ptimization

GRUPPO MY- social media solutions / Via G.Dottori 94, Perugia / PI

Nuova funzione di ricerca del sito WIKA.

Cluster. Vicino alla temperatura critica gli spin formano grandi gruppi (cluster)

Cercare documenti Web

Metodi e Modelli Matematici di Probabilità per la Gestione

LEZIONE 23. Esempio Si consideri la matrice (si veda l Esempio ) A =

Documentazione esterna al software matematico sviluppato con MatLab

Matematica generale CTF

Capitolo 2. Operazione di limite

Metodi statistici per le ricerche di mercato

Plate Locator Riconoscimento Automatico di Targhe

STAMPA DI UNA PAGINA SEMPLICE

PROGETTO DI SISTEMI AD AGENTI

Elementi di Psicometria con Laboratorio di SPSS 1

risulta (x) = 1 se x < 0.

Funzioni con dominio in R n

1 Serie di Taylor di una funzione

Indice. 1 Il monitoraggio del progetto formativo di 6

Definire all'interno del codice un vettore di interi di dimensione DIM, es. int array[] = {1, 5, 2, 4, 8, 1, 1, 9, 11, 4, 12};

BREVE MANUALE DI SOPRAVVIVENZA A WINDOWS 8

IL MODELLO CICLICO BATTLEPLAN

ANALISI DELLE FREQUENZE: IL TEST CHI 2

VADEMECUM PER UNA STRATEGIA SEO VINCENTE

4 3 4 = 4 x x x 10 0 aaa

A intervalli regolari ogni router manda la sua tabella a tutti i vicini, e riceve quelle dei vicini.

Verifica di ipotesi e intervalli di confidenza nella regressione multipla

Algoritmi di clustering

Prestazioni CPU Corso di Calcolatori Elettronici A 2007/2008 Sito Web: Prof. G. Quarella prof@quarella.

Esercizi su. Funzioni

Sistema operativo. Sommario. Sistema operativo...1 Browser...1. Convenzioni adottate

Dispense di Informatica per l ITG Valadier

Analisi di scenario File Nr. 10

Regressione Mario Guarracino Data Mining a.a. 2010/2011

Le fattispecie di riuso

1 Estensione in strategia mista di un gioco

VALUTATE!VALUTATE!VALUTATE!

Convertitori numerici in Excel

La distribuzione Normale. La distribuzione Normale

Basi di matematica per il corso di micro

VALORE DELLE MERCI SEQUESTRATE

1 Applicazioni Lineari tra Spazi Vettoriali

13. Campi vettoriali


Esempi di algoritmi. Lezione III

Che cos è l intelligenza e come funzionano i test del Q.I.

Esercitazione #5 di Statistica. Test ed Intervalli di Confidenza (per una popolazione)

Elementi di Psicometria con Laboratorio di SPSS 1

Ecco come ho posizionato in 1 pagina di Google la keyword Strategie di marketing, da 1500 ricerche al mese

Piano Marketing PM-International

E naturale chiedersi alcune cose sulla media campionaria x n

LA VISIBILITÀ DI UN SITO INTERNET È LA CHIAVE FONDAMENTALE DEL SUCCESSO ON LINE WETHINKSOLUTIONS FORYOURBUSINESS

Introduzione agli Algoritmi Genetici Prof. Beatrice Lazzerini

Richiami: funzione di trasferimento e risposta al gradino

Test statistici di verifica di ipotesi

Amplificatori Audio di Potenza

Rapporto dal Questionari Insegnanti

Introduzione all analisi dei segnali digitali.

Che Cosa È GlobalAdShare (GAS)

Reti complesse modelli e proprietà

GIANLUIGI BALLARANI. I 10 Errori di Chi Non Riesce a Rendere Negli Esami Come Vorrebbe

STATISTICA IX lezione

Elementi di Psicometria con Laboratorio di SPSS 1

Psicometria (8 CFU) Corso di Laurea triennale STANDARDIZZAZIONE

La variabile casuale Binomiale

Variazioni di Pressione: 'Sonic Boom'

Calcolo delle probabilità

ESEMPIO 1: eseguire il complemento a 10 di 765

Equazioni non lineari

Statistica e biometria. D. Bertacchi. Variabili aleatorie. V.a. discrete e continue. La densità di una v.a. discreta. Esempi.

COME AVERE SUCCESSO SUL WEB?

~ Copyright Ripetizionando - All rights reserved ~ STUDIO DI FUNZIONE

Laboratorio di Pedagogia Sperimentale. Indice

YOU ARE WHAT YOU CURATE COS E LA CONTENT CURATION E COME APPLICARLA

LE SUCCESSIONI 1. COS E UNA SUCCESSIONE

Sistemi Operativi mod. B. Sistemi Operativi mod. B A B C A B C P P P P P P < P 1, >

91 risposte. Riepilogo. classi di riferimento. PC a disposizione. altri PC in casa. Modifica questo modulo. Vedi tutte le risposte

Capitolo 13: L offerta dell impresa e il surplus del produttore

L'impulso di una forza che varia nel tempo

La formula matematicha segreta utilizzata dai motori di ricerca per calcolare il ranking di un sito web per un dato termine di ricerca.

Transcript:

Reti complesse Ranking dellamico@disi.unige.it Applicazioni di rete 2 A.A. 2006-07

Outline 1 Ricerca sul web Ranking 2

L'ago nel pagliaio Ricerca sul web Ranking Immaginiamo di avere una biblioteca con 25 miliardi di documenti e nessun bibliotecario. Chiunque può aggiungere un libro quando vuole, senza dirlo a nessuno. Siamo convinti che l'informazione che ci serve ci sia, e vogliamo trovarla. Messo così, il problema sembra insolubile. Eppure, i motori di ricerca fanno proprio questo!

Ricerca sul web Ranking Motori di ricerca Che lavoro fa un motore di ricerca? 1 Esplora il web (crawling) 2 Memorizza le informazioni trovate in un database 3 Usa queste ultime per rispondere alle richieste degli utenti. Oggi ci concentreremo sull'ultimo punto.

Utenti e query Ricerca sul web Ranking Gli utenti forniscono poco ai motori di ricerca... Query spesso vaghe (2001: 2.5 termini in media, 80% < 3 termini) Nell'85% dei casi, si fermano ai primi 10 risultati Il motore di ricerca ha l'improbo compito di scopire quale pagina web, su 25 miliardi, risponda meglio alla richiesta hotel sicilia.

Query Ricerca sul web Ranking Cosa signica aermare che una pagina web soddisfa una query? 1 Le parole della query sono rilevanti rispetto al contenuto della pagina. 2 La pagina è autorevole. Concetto quantitativo: esiste un grado di anità tra le query e le pagine web. Restituiamo come primi risultati quelli più ani alla query.

Ranking: prima generazione Ricerca sul web Ranking 1995-1997: AltaVista, Lycos, Excite Tecniche tradizionali di Information Retrieval: indicizzazione di testi piani. Viene ignorata la struttura ipertestuale del web. Basata sulla tradizione dell'information Retrieval. Information Retrieval Disciplina con più di 40 anni di storia. Strumenti per trovare articoli rilevanti in collezioni scientiche. Assunzione implicita: tutti i documenti sono autorevoli. Questo non è vero per il web!

Rilevanza delle pagine Ricerca sul web Ranking Idea Le parole più rare della query sono più rilevanti. Le parole che appaiono più di frequente nel documento sono più rilevanti. Tecnica usata frequentemente: TF*IDF. TF (Term Frequency): frequenza del termine all'interno del documento. IDF (Inverted Document Frequency): (logaritmo dell')inverso della frequenza del termine in tutti i documenti. Il punteggio per ogni documento si ottiene sommando il valore TF*IDF per ogni elemento della query.

Seconda generazione Ricerca sul web Ranking Possiamo sfruttare il fatto che il web non è plain-text per riconoscere le pagine web autorevoli? Analisi dei link Analisi dei click sui risultati della ricerca Analisi degli anchor text <a href='http://www.unige.it/'>università di Genova</a>

... a proposito degli anchor text Ricerca sul web Ranking Google Bombing <a href='...'>miserable failure</a>

Terza generazione Ricerca sul web Ranking Ancora in eri Analisi semantica: di che stiamo parlando? Dipendenza dal contesto: personalizzazione, contesto geograco...

Terza generazione: esempi (1) Ricerca sul web Ranking

Terza generazione: esempi (2) Ricerca sul web Ranking

Terza generazione: esempi (3) Ricerca sul web Ranking

Autorevolezza e link Link Analysis: si può valutare l'autorevolezza di una pagina web studiando la struttura dei link del WWW. I link possono essere visti come raccomandazioni alla lettura: una pagina vota usando i suoi link. Le pagine che ricevono più link sono più importanti.

Autorevolezza e link (2) Domanda È ragionevole contare i link entranti per valutare l'autorevolezza di una pagina? Risposta Non del tutto. I link da pagine diverse potrebbero valere: molto (per esempio, da www.slashdot.org) poco (da www.disi.unige.it/person/dellamicom) nulla (da un sito spam) Se un link proviene da una pagina importante, è importante esso stesso.

che Google usa per valutare l'autorevolezza delle pagine. Denisce l'importanza di ogni pagina in funzione dell'importanza delle pagine che la linkano. Se ogni pagina P j ha l j link, e viene linkata dall'insieme di pagine B j, deniamo l'importanza di P i come I (P i ) = P j B i I (P j ) l j

(2) La denizione che vista ricorda l'uovo e la gallina. Ha senso denire l'importanza dei nodi in funzione dell'importanza dei nodi? Dobbiamo assicurarci che esista un'unica attribuzione di valori I (P i ) che soddis la denizione. Vogliamo avere un algoritmo per trovarla.

Random Walk Pensiamo ad un navigatore senza meta che gira sul WWW seguendo link a caso. Possiamo rappresentare il suo cammino come una catena di Markov. Stato: pagina visualizzata dal navigatore. Matrice di transizione: la probabilità che durante la passeggiata si segua un dato arco. Dalla stessa pagina, assegnamo la stessa probabilità ad ogni arco uscente. Se la catena così denita possiede una distribuzione stazionaria, allora questa verica la denizione data in precedenza.

Matrice di transizione Matrice di transizione: nient'altro che la matrice di adiacenza resa stocastica (somma 1 sulle righe).

Vicoli ciechi (1) Problema Che fare per i vicoli ciechi?

Vicoli ciechi (2) Soluzione Decidiamo che si ritorna ad una pagina a caso.

Esiste una distribuzione stazionaria? Abbiamo visto che la probabilità limite converge alla distribuzione stazionaria se gli stati sono ricorrenti-positivi: la matrice sottostante è connessa. aperiodici: la matrice sottostante non è n-partita. Adattamento Con una certa probabilità α, eettuiamo un salto verso un nodo a caso. La matrice sottostante diventa completamente connessa, quindi verica le proprietà richieste.

La matrice di Google 2 P = α 6 4 0 1/2 1/2 0 0 1/5 1/5 1/5 1/5 1/5 0 1 0 0 0 1/3 1/3 1/3 0 0 1/2 0 0 0 1/2 3 2 7 5 +(1 α) 6 4 1/5 1/5 1/5 1/5 1/5 1/5 1/5 1/5 1/5 1/5 1/5 1/5 1/5 1/5 1/5 1/5 1/5 1/5 1/5 1/5 1/5 1/5 1/5 1/5 1/5 3 7 5 La matrice P ci garantisce la convergenza alla distribuzione stazionaria. Il valore α, nella pratica, assume valori vicini a 0.85.

Metodo delle potenze Adottiamo il metodo delle potenze per trovare la soluzione a π = πp : 1 Partiamo con un vettore I 0 2 Impostiamo i := 0 3 Finché il calcolo non converge: 1 Calcoliamo I i+1 := I i P 2 Incrementiamo i := i + 1 D'ora in poi assumeremo che la somma delle componenti di I 0 sia 1. Questo ci garantisce che la somma valga 1 per qualsiasi I k (a meno di errori di approssimazione).

Convergenza (1) Richiamo dalla lezione sull'algebra lineare: abbiamo un vettore iniziale I 0 ed una matrice P. Chiamiamo λ 1... λ n gli autovalori di P e v 1... v n i rispettivi autovettori. Grazie alle proprietà delle matrici stocastiche ergodiche, sappiamo che 1 = λ 1 > λ 2... λ n.

Convergenza (2) Supponiamo per semplicità che I 0 possa essere espresso come combinazione lineare degli autovettori: I 0 = c 1 v 1 +... + c n v n Per denizione di autovalori ed autovettori, I 1 = I 0 P = c 1 v 1 + c 2 λ 2 v 2 +... + c n λ n v n I k = I k 1 P = c 1 v 1 + c 2 λ k 2 v 2 +... + c n λ k n v n Dato che i λ k i tendono a 0 se i 2, I k tende a I = c 1 v 1, cioè uno scalare moltiplicato per v 1. La velocità di convergenza dipende da λ 2 /λ 1 = λ 2.

Convergenza (3) Applichiamo il metodo delle potenze alla matrice [ 0.65 ] 0.35 0.35 0.65 Gli autovalori sono λ 1 = 1 e λ 2 = 0.3. I vettori I k convergono piuttosto rapidamente al vettore stazionario in verde.

Convergenza (4) Prendiamo una seconda matrice: [ 0.85 0.15 0.15 0.85 Gli autovalori sono λ 1 = 1 e λ 2 = 0.7. Dato che λ 2 è più grande, i vettori I k convergono più lentamente al vettore stazionario. ]

Convergenza (5) È possibile dimostrare che λ 2 α. Asintoticamente, la precisione dopo k iterazioni è λ k 2. Sappiamo quindi che la velocità di convergenza dell'algoritmo è garantita indipendentemente dalla topologia del grafo. Google riesce ad ottenere valori accurati dopo 50-100 iterazioni dell'algoritmo. Tempo di calcolo: circa un giorno. Precisione garantita: α 50 0.85 50 0.0003.

Implementazione (1) La matrice P è enorme: nessun computer riuscirebbe ad immagazzinarla. Fortunatamente, possiamo semplicare il calcolo. Ci basta propagare solo sui link. Teniamo traccia della probabilità di eettuare un salto casuale ad ogni passo, aumentandola ogni volta che incontriamo vicoli ciechi.

Implementazione (2) Passo iterativo Inizializziamo il nuovo vettore: I i+1 := 0 Impostiamo la probabilità p s di salto casuale: p s := 1 α Per ogni nodo j: Se j è un vicolo cieco, p s := p s + αi i [j] Altrimenti, per ognuno degli m link uscenti da j: Sia k il nodo che riceve il link. Eettuiamo i salti. Per ogni nodo j: I i+1 [k] := I i+1 [k] + α I i [j] m I i+1 [j] := I i+1 [j] + p s n

Campionamento quasi uniforme (1) Approccio Eettuare un cammino casuale sul WWW, seguendo link a caso. Problema Tutte le pagine hanno la stessa probabilità di essere raggiunte?

Campionamento quasi uniforme Problema Tutte le pagine hanno la stessa probabilità di essere raggiunte? Risposta Ora lo sappiamo! calcola proprio la probabilità che un cammino raggiunga la pagina data. Con la parte di Web che abbiamo esplorato, stimiamo. Prendiamo un nodo con una probabilità inversamente proporzionale al suo stimato.

Appendice Riferimenti Riferimenti David Austin. How Google Finds Your Needle in the Web's Haystack. http://www.ams.org/featurecolumn/archive/pagerank.html S. Brin e L. Page. The Anatomy of a Large Scale Search Engine. Proc. 7th International WWW Conference, 1998. Taher Haveliwala, Sepandar Kamvar. The Second Eigenvalue of the Google Matrix. Stanford University Tech. Rep., 2003. M. Henzinger, A. Heydon, M. Mitzenmacher e M. Najork. On Near-Uniform URL Sampling. Proc. 9th International WWW Conference, 2000.