Motori di ricerca per il Web

Documenti analoghi
Introduzione E. TINELLI LTW A. A

AVERE 30 ANNI E VIVERE CON LA MAMMA BIBLIOTECA BIETTI ITALIAN EDITION

UNIVERSITÀ DEGLI STUDI DI TORINO

Modelli di recupero. Modello di recupero booleano

LA SACRA BIBBIA: OSSIA L'ANTICO E IL NUOVO TESTAMENTO VERSIONE RIVEDUTA BY GIOVANNI LUZZI

Risorse Web. un po di teoria...

Terminologia per gli ipertesti sul web

LA SACRA BIBBIA: OSSIA L'ANTICO E IL NUOVO TESTAMENTO VERSIONE RIVEDUTA BY GIOVANNI LUZZI

WEB Information Retrieval

Resources and Tools for Bibliographic Research. Search & Find Using Library Catalogues

Parte 7. Ricerca di informazione sul Web e. ! Strumenti per la gestione e ricerca di informazione. " Paradigmi basati su ontologie

Posizionamento nei motori di ricerca

56% 56% 30 Buoni Segnali. 28 Problemi trovati. Parola chiave sit i web milano. Analisi SEO. ffe ttispe ciali.co m

Fiori di campo. Conoscere, riconoscere e osservare tutte le specie di fiori selvatici più note

Reti e Protocolli rassegna (II)

Quando mi collego ad alcuni servizi hosting ricevo un messaggio relativo al certificato di protezione del sito SSL, come mai?

Downloading and Installing Software Socio TIS

CABIN CREW TRAINING COMMUNICATION

Lo sniffer. questo sconosciuto! Corso di Reti di Calcolatori Architetture e Servizi A.A. 2010/11. Introduzione allo sniffing TCP

Introduzione Kerberos. Orazio Battaglia

Reperimento dell'informazione

I CAMBIAMENTI PROTOTESTO-METATESTO, UN MODELLO CON ESEMPI BASATI SULLA TRADUZIONE DELLA BIBBIA (ITALIAN EDITION) BY BRUNO OSIMO

Search Engine Optimization (SEO)

Le piccole cose che fanno dimagrire: Tutte le mosse vincenti per perdere peso senza dieta (Italian Edition)

Organizzazione Fisica dei Dati (Parte II)

è l attività attraverso la quale si cerca di aumentare il traffico e la popolarità di un sito web

UNIVERSITÀ DEGLI STUDI DI TORINO

Introduction. The Structure of a Compiler

How to register online for exams (Appelli) Version updated on 23/10/2017

WELCOME. Go to the link of the official University of Palermo web site Click on the box on the right side Login unico

Inserttags. Inserimento di contenuti dinamici nello sviluppo di siti web

WEB Information Retrieval

LA SACRA BIBBIA: OSSIA L'ANTICO E IL NUOVO TESTAMENTO VERSIONE RIVEDUTA BY GIOVANNI LUZZI

Algoritmi e Strutture Dati

100 consigli per vivere bene (Italian Edition)

Schemi di paginazione nell architettura 86 (32 e 64 bit)

SQL e linguaggi di programmazione. Cursori. Cursori. L interazione con l ambiente SQL può avvenire in 3 modi:

Gli strumenti Google per il no profit

Information Retrieval Cos è l Information Retrieval

LA SACRA BIBBIA: OSSIA L'ANTICO E IL NUOVO TESTAMENTO VERSIONE RIVEDUTA BY GIOVANNI LUZZI

MOTORI DI RICERCA. Seconda Parte

REGISTRATION GUIDE TO RESHELL SOFTWARE

Modelli di Information Retrieval

GstarCAD 2010 Features

Alberi ( GT. 7 ) In informatica, un albero è un modello astratto con cui viene rappresentata una struttura gerarchica

I SISTEMI DI RECUPERO DELL INFORMAZIONE

PATENTS. December 12, 2011

DATABASE PER IL WEB. Programmazione Web 1

Per siti più strutturati le informazioni sono mantenute mediante particolari organizzazioni di dati: human-powered directories

Guida ai Promessi Sposi - Riassunto e analisi dei personaggi: Analisi e interpretazione del romanzo di A. Manzoni (Italian Edition)

A.A. 2006/2007 Laurea di Ingegneria Informatica. Fondamenti di C++ Horstmann Capitolo 3: Oggetti Revisione Prof. M. Angelaccio

Canti Popolari delle Isole Eolie e di Altri Luoghi di Sicilia (Italian Edition)

Siti & Portali - Servizi di ricerca (giuridica) in Internet

Si faccia riferimento all Allegato A - OPS 2016, problema ricorrente REGOLE E DEDUZIONI, pagina 2.

TNCguide OEM Informativa sull introduzione di documentazione aggiuntiva nella TNCguide

Tipici tempi di esecuzione. Martedì 7 ottobre 2014

Data Alignment and (Geo)Referencing (sometimes Registration process)

IL GIOVANE HOLDEN FRANNY E ZOOEY NOVE RACCONTI ALZATE LARCHITRAVE CARPENTIERI E SEYMOUR INTRODUZIONE BY JD SALINGER

GUIDE FOR ADMISSION APPLICATION ON LINE TO PH.D. PROGRAMMES

LA SACRA BIBBIA: OSSIA L'ANTICO E IL NUOVO TESTAMENTO VERSIONE RIVEDUTA BY GIOVANNI LUZZI

Stima della qualità dei classificatori per l analisi dei dati biomolecolari

Pagina intenzionalmente lasciata bianca.

Analisi sito web pre-r.com

Marketing non Convenzionale: Viral, Guerrilla e prospettive future (Italian Edition)

NATIONAL SPORT SCHOOL

UNIVERSITÀ DEGLI STUDI DI TORINO. Instructions to apply for exams ONLINE Version 01 updated on 17/11/2014

GUIDA AL LOGO LOGO GUIDELINES

Parte 2. - Il Documento Elettronico - Introduzione alla gestione delle basi Documentali. M. Diligenti Sistemi Gestione Documentale 1

SANTE PELLEGRINO

Introduzione. Java HTTP. G. Prencipe

Creare una mail di progetto

FISE Federazione Italiana Sport Equestri

Question 1: introduction to computer programming

Secure Socket Layer (SSL) Transport Layer Security (TLS)

Corsi di Laurea Magistrale/ Master Degree Programs

LA SACRA BIBBIA: OSSIA L'ANTICO E IL NUOVO TESTAMENTO VERSIONE RIVEDUTA BY GIOVANNI LUZZI

Link Building: Guest Post. con Ryuichi facebook.com/posizionamentomotori

Librerie digitali. Cos è una libreria digitale? Introduzione. Cos è una libreria digitale? Cos è una libreria digitale? Cos è una libreria digitale?

Introduzione ai Motori di Ricerca

REGISTRATION. Area Ricerca

JSON for Linked Data JSON-LD

CORSO DI WEB MINING E RETRIEVAL - INTRODUZIONE AL CORSO -

LE MACRO DI EXCEL PER TUTTE PDF

Trusted Intermediaries

Il mio bambino non vede bene: Come orientarsi tra occhiali, lenti a contatto, ginnastica oculare, alimentaizone (Italian Edition)

Oggetto : Guida ai Parametri di negoziazione - Guide to the Parameters for trading - 7 maggio 2013

LEZIONI DI COSMOLOGIA TEORICA (UNITEXT) (ITALIAN EDITION) BY MAURIZIO GASPERINI

SQL Server BI Development Studio. SQL Server Business Intelligence Development Studio. Analysis Services

Opera Aperta: Forma E Indeterminazione Nelle Poetiche Contemporanee (Tascabili Saggi) (Italian Edition) By Umberto Eco

Lezione 10 Introduzione al sistema Greenstone

PDF Icon. PDF Icon. PDF Icon. PDF Icon. PDF Icon. PDF Icon FOOTER

Italian 102 Daily Syllabus

La Certosa di Parma (Emozioni senza tempo) (Italian Edition)

Argomenti XML JSON. Linguaggi per la definizione e lo scambio di dati strutturati, semi-strutturati, non strutturati. XML Data Model JSON

Compatibilità del Portale Piaggio con Internet Explorer 10 e 11. Internet Explorer 10

Lezione 6 Analisi del codice

Clicca sulle immagini di preview qui sotto per aprire e visualizzare alcuni esempi di presentazioni dinamiche create con Focusky:

Copyright 2012 Binary System srl Piacenza ITALIA Via Coppalati, 6 P.IVA info@binarysystem.eu

Linguaggi Corso M-Z - Laurea in Ingegneria Informatica A.A I/O, thread, socket in Java

La soluzione IBM per la Busines Analytics Luca Dalla Villa

Transcript:

Caratteristiche dei motori di ricerca linguaggio di interrogazione Motori di ricerca per il Web Default: Default AND: HotBot, Google, MSN Search, Teoma, WiseNut Default OR: Gigablast Default Phrase Search: AltaVista Basic, for common phrases only Boolean Capabilities and Constraints: and, or, nesting: AltaVista, Gigablast, HotBot, MSN Search not: HotBot, MSN Search and not: AltaVista, Gigablast OR only: Google, Teoma [both must be OR in uppercase] implied Boolean (+, -): AltaVista Simple, Gigablast dash - for NOT: AltaVista Simple, HotBot, Gigablast, Google, MSN Search, Lycos, Teoma, WiseNut Caratteristiche dei motori di ricerca (2) Caratteristiche dei motori di ricerca (3) Proximity Phrase Search: Gigablast, HotBot, Lycos, MSN Search, Teoma, WiseNut NEAR: AltaVista within: AltaVista Advanced before: AltaVista Advanced before near: AltaVista Advanced after: AltaVista Advanced after near: AltaVista Advanced Field searching: title: AltaVista, Gigablast, HotBot, Lycos, MSN Search intitle: Google, Teoma url: AltaVista, Gigablast, Lycos Advanced inurl: Google, Teoma link: AltaVista, Google, Gigablast, Lycos Advanced, MSN Search host: AltaVista (same as site: at others) ip: Gigablast domain: HotBot, MSN Search site: Gigablast, Google, Teoma, (use host: at AltaVista) anchor: AltaVista image: AltaVista related: Google others: AltaVista, Gigablast, Google, HotBot, MSN Search 1

Caratteristiche dei motori di ricerca (4) Limits: Date (User Specified): AltaVista Advanced, HotBot, Teoma Date (Specific Choices): Google, HotBot, MSN Search, Teoma Language: AltaVista, Google, HotBot, Lycos, MSN Search, Teoma Domain: Gigablast, Google, HotBot, MSN Search, Lycos, Teoma Containing a media type: HotBot, MSN Search Document Directory Depth: MSN Search Page Depth: Gone. Formerly at HotBot File Type: PDFs: AltaVista, Gigablast, Google, MSN Search MS Word (.doc): Gigablast, Google, MSN Search PowerPoint (.ppt): Gigablast, Google, MSN Search Excel (.xls): Gigablast, Google, MSN Search PostScript (.ps): Gigablast, Google WordPerfect (.wpd): Google Caratteristiche dei motori di ricerca (5) Case Sensitivity: Yes: AltaVista Advanced, AltaVista Simple (se il termine è fra apici) Unusual mixed case only: HotBot, MSN Search No: Gigablast, Google, Lycos, Teoma, WiseNut Stop Words: No Stop Words (all words searched): AltaVista Advanced, Google (se si usa + o se è in una frase), Gigablast, Lycos, Teoma (con +) Stop words only if searched alone: HotBot, MSN Search Stop words searchable with +: Google, Teoma, WiseNut Organizzazione dei risultati: Sort by relevance: All Sort by size: Openfind Cluster by site: Google, Gigablast, HotBot, AltaVista, Teoma, WiseNut Caratteristiche dei motori di ricerca (6) Web IRS (Web Search Engines) Fasi di funzionamento Spidering/Crawling: esplorazione di una porzione del web Indicizzazione: generazione di indici che associano i documenti a dei puntatori, su tre basi: struttura del documento contenuto posizione del documento nel grafo del web Search/Ranking: sulla base della query e degli indici, presentare gli indirizzi delle pagine ordinate per rilevanza 2

Architettura di un Web IRS Spiders (Robots/Bots/Crawlers) Web Spider Documenti Programmi che attraversano la rete spedendo pagine nuove o aggiornate ad un server principale (che si occupa di indicizzarle) Uno Spider spedisce richieste a server web remoti parte da un insieme pre-identificato di URL radice Query Sistema di IR segue tutti i link a partire dalle radici, alla ricerca di pagine addizionali Alcuni sistemi consentono all utente di sottomettere pagine per l indicizzazione (o stabilire i nodi radice). 1. Pag.1 2. Pag.2 3. Pag.3.. ranking dei docs INDICI Spider Control Strategie di spidering Decide quali link i moduli spider/crawler debbano esplorare e quali ignorare Può usare dei feedback provenienti da usage patterns (analisi di comportamenti di utente) per guidare il processo di esplorazione Breadth-first Search 3

Strategie di spidering (2) Algoritmo di Spidering Depth-first Search Inizializza la lista Q con un set iniziale di URL noti Until Q vuota o si esauriscono i limiti di tempo o pagine memorizzabili: Estrai un URL, L, da Q Se L non è una pagina HTML (.gif,.jpeg,.ps,.pdf,.ppt ) continua il ciclo Se L già visitata, continua il ciclo Scarica la pagina P identificata da L Se non è possibile scaricare P (e.g. 404 error, robot exclusion) continua ciclo PROCESSA P (cioè aggiungi P all indice, o memorizzane una copia cache) Analizza P per ottenere una nuova lista di links L P Appendi L P in coda a Q Strategie di Spidering: due tipi di restrizioni 2. Indicizzazione Spidering specializzato Location-driven: considera solo siti/directory specifici Rimuove i links non contenuti nei siti/directory indicati Metriche di importanza: Interest, Popularity Alcuni siti Web o pagine possono specificare che gli spiders/robot non accedano né indicizzino certe aree Robots Exclusion Protocol: E un protocollo che vieta l accesso da directory specificate all intero sito Robots META Tag: Etichetta documenti specifici per evitarne l indicizzazione o l esplorazione. 4

Modalità per indicizzare le pagine sul Web Per ogni pagina identificata dallo Spider va creato un riferimento Tre metodi (non esclusivi): Si usano directory, che classificano le pagine Web per argomento Si indicizza ogni documento esplorato dallo Spider come full text (flat o strutturato) Si tiene conto della struttura ipertestuale del Web, cioè degli hyperlinks Classificazione automatica Perché: La classificazione manuale dei documenti sul web ad opera dei gestori di portali o motori di ricerca richiede molto tempo e molta forza-lavoro, è soggettiva, e soggetta a errori. I metodi automatici di classificazione dei testi possono essere usati per alleviare questo lavoro. Questi metodi si basano su tecniche di machine learning. Classificazione tramite tassonomie Lo sviluppo di tassonomie è un processo complesso, richiede tempo, è soggettivo, produce errori. Esistono metodi automatici (Hierarchical Agglomerative Clustering (HAC) ) per ottenere automaticamente una strutturazione gerarchica. Metodi di classificazione automatica Classificazione Automatica Wonderfu Berlusconi l Totti acquires Yesterday Inzaghi Bush matchbefore declare elections s war Dato: Un insieme di categorie: Un insieme T di documenti d, scopri una funzione f : T 2 C C = { C 1,.., C n } VSM (Vector Space Model) Politica C 1 Economia C 2........... Sport C n I documenti sono rappresentati come vettori (modello vettoriale). Sia i documenti che le categorie r sono vettori. i d è assegnato a C se d C r i > th 5

Esempio Creazione automatica di indicii Berlusconi d 1 : Politica Bush declares war. Berlusconi gives support d 1 d 2 C 1 d 3 C 2 d 2 : Sport Wonderful Totti in the yesterday match against Berlusconi s Milan Totti d 3 :Economia Berlusconi acquires Inzaghi before elections C 1 : Politica C 2 : Sport Molti sistemi usano varianti dell inverted file Ad ogni parola o keyword viene associato l insieme dei puntatori alle pagine che contengono la parola Eliminazione di stopwords, punteggiatura.. Usualmente si associa anche una breve descrizione del contenuto della pagina (per mostrarlo all utente) Grandi volumi Poiché occorrono circa 500 bytes per ogni pagina, occorrono 50 Gb per 100 milioni di pagine!! Tecniche di compressione per ridurre un inverted file di circa il 30% (dunque bastano 15 Gb per 100 milioni di pagine) Bush Creazione automatica di Indici Alcuni inverted files puntano all occorrenza di una parola nel testo, è possibile fare proximity search cioè cercare frasi ma la tecnica è troppo costosa in termini di memoria. Qualche motore di ricerca consente proximity search, ma le tecniche non sono note interamente. Una soluzione intermedia consiste nel puntare a blocchi anziché a singole occorrenze nel documento. Questo riduce la taglia dei puntatori e velocizza la ricerca. Metodi avanzati: Indicizzazione usando il testo nelle ancore Lo Spider analizza il testo nelle ancore (between <a> and </a>) di ogni link seguito. Il testo nelle ancore di solito è molto informativo sul contenuto del documento cui punta. Si aggiunge il testo contenuto nell ancora alla vista della pagina destinazione (keywords) Questo metodo è usato da Google: <a href= http://www.microsoft.com >Evil Empire</a> <a href= http://www.ibm.com >IBM</a> 6

Indicizzazione usando il testo nelle ancore (cont) E particolarmente utile quando il contenuto descrittivo nelle pagine destinazione è nascosto nei logo delle immagini piuttosto che in testi accessibili. Spesso non è affatto utile: click here Migliora la descrizione del contenuto di pagine poplari con molti link entranti, ed aumenta la recall di queste pagine. Si può anche assegnare un peso maggiore al testo contenuto nelle ancore. Searching e Ranking I metodi di ranking usati dai motori di ricerca sono topsecret I metodi più usati sono il modello vettoriale e booleano Alcuni nuovi motori utilizzano per il ranking anche gli hyperlinks. Le pagine risposta p vengono valutate (ed il loro numero viene esteso) sulla base del numero di connessioni da e verso p. Link Analysis Primi metodi di link analysis Gli Hyperlinks contengono informazioni che sussumono un giudizio sulla pagina Più links entrano in un sito, più importante è il giudizio La visibilità di un sito si misura mediante il numero di siti che puntano ad esso La luminosità di un sito è il numero di altri siti che esso punta 7

HITS Algoritmo HITS Hubs e authorities Un sito è autorevole se riceve molte citazioni. Le citazioni da parte di siti importanti pesano di più di quelle da parte di siti meno importanti. Un buon hub è un sito che è collegato con molti siti autorevoli Grafo bipartito: Gli Hub puntano a molte authorities. Le Authorities sono puntate da molti hubs. Hubs Authorities Calcola gli hubs e le authorities per un particolare argomento (dominio informativo) 2 Fasi: 1. Prima determina un sottografo (base), corrispondente ad un insieme di pagine rilevanti 2. Analizza la struttura dei link del sottografo corrispondente a S per identificare quali pagine di S sono authorities e quali sono hubs. Costruzione del sottografo base S Dato un particolare argomento, sia R un insieme di pagine rilevanti (detto insieme radice). Inizializza i nodi di S con tutte le pagine R. Aggiungi ai nodi di S tutte le pagine puntate da qualche pagina di R. Aggiungi a S tutte le pagine che puntano a qualche pagina di R. S Authorities and In-Degree Even within the base set S for a given query, the nodes with highest in-degree are not necessarily authorities (may just be generally popular pages like Yahoo or Amazon). True authority pages are pointed to by a number of hubs (i.e. pages that point to lots of authorities). R 8

Iterative Algorithm Use an iterative algorithm to slowly converge on a mutually reinforcing set of hubs and authorities. Maintain for each page p S: Authority score: a p (vector a) Hub score: h p Initialize all a p = h p = 1 (vector h) Maintain normalized scores: ( a ) 2 p = 1 p S ( h ) 2 p = 1 p S HITS Update Rules Authorities are pointed to by lots of good hubs: a p = h q q: q p Hubs point to lots of good authorities: h p = a q q: p q Illustrated Update Rules HITS Iterative Algorithm 1 2 4 a 4 = h 1 + h 2 + h 3 Initialize for all p S: a p = h p = 1 For i = 1 to k: For all p S: a p = h q q: q p (update auth. scores) 3 For all p S: h p = a q q: p q (update hub scores) h 4 = a 5 + a 6 + a 7 4 5 6 For all p S: a p = a p /c c: For all p S: h p = h p /c c: ( a / ) 2 p c = 1 p S ( h / ) 2 p c = 1 p S (normalize a) (normalize h) 7 Algorithm converges to a fix-point if iterated indefinitely. In practice, 20 iterations produces fairly stable results. 9

Esempio di HITS Trova un sottografo di partenza: Inizia con il set di radici R {1, 2, 3, 4} Risultati di HITS Authority Hubness {1, 2, 3, 4} - nodi rilevanti per l argomento (query) Espandi il set di radici R includendo tutti i figli e un numero fisso di nodi genitori Un nuovo set S (sottografo base) 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 Pesi di authority e hubness Results Authorities for query: Java java.sun.com comp.lang.java FAQ Authorities for query search engine Yahoo.com Excite.com Lycos.com Altavista.com Authorities for query Gates Microsoft.com roadahead.com Finding Similar Pages Using Link Structure Given a page, P, let R (the root set) be t (e.g. 200) pages that point to P. Grow a base set S from R. Run HITS on S. Return the best authorities in S as the best similarpages for P. Finds authorities in the link neighbor-hood of P. 10

Similar Page Results Given honda.com toyota.com ford.com bmwusa.com saturncars.com nissanmotors.com audi.com volvocars.com PageRank Alternative link-analysis method used by Google (Brin & Page, 1998). Does not attempt to capture the distinction between hubs and authorities. Ranks pages just by authority. Applied to the entire web rather than a local neighborhood of pages Initial PageRank Idea Just measuring in-degree (citation count) doesn t account for the authority of the source of a link. Initial page rank equation for page p: R( p) = c q: q p R( q) Nq N q is the total number of out-links from page q. A page, q, gives an equal fraction of its authority to all the pages it points to (e.g. p). c is a normalizing constant set so that the rank of all pages always sums to 1. Initial PageRank Idea (cont.) Can view it as a process of PageRank flowing from pages to the pages they cite..1.09.03.05.05.03.03.08.08.03 11

Initial Algorithm Sample Stable Fixpoint Iterate rank-flowing process until convergence: Let S be the total set of pages. Initialize p S: R(p) = 1/ S 0.4 0.2 0.2 Until ranks do not change (much) (convergence) For each p S: p S R ( p) = c = 1/ R ( p) q: q p R( q) Nq 0.4 0.2 0.4 0.2 For each p S: R(p) = cr (p) (normalize) Problem with Initial Idea Rank Source A group of pages that only point to themselves but are pointed to by other pages act as a rank sink and absorb all the rank in the system. Introduce a rank source E that continually replenishes the rank of each page, p, by a fixed amount E(p). Rank flows into cycle and can t get out R( p) = c q: q p R( q) + E( p) N q 12

PageRank Algorithm Let S be the total set of pages. Let p S: E(p) = α/ S (for some 0<α<1, e.g. 0.15) Initialize p S: R(p) = 1/ S Until ranks do not change (much) (convergence) For each p S: R( q) R ( p) = + E( p) N p S q: q p c = 1/ R ( p) q For each p S: R(p) = cr (p) (normalize) Random Surfer Model PageRank can be seen as modeling a random surfer that starts on a random page and then at each point: With probability E(p) randomly jumps to page p. Otherwise, randomly follows a link on the current page. R(p) models the probability that this random surfer will be on page p at any given time. E jumps are needed to prevent the random surfer from getting trapped in web sinks with no outgoing links. Speed of Convergence Simple Title Search with PageRank Early experiments on Google used 322 million links. PageRank algorithm converged (within small tolerance) in about 52 iterations. Number of iterations required for convergence is empirically O(log n) (where n is the number of links). Therefore calculation is quite efficient. Use simple Boolean search to search web-page titles and rank the retrieved pages by their PageRank. Sample search for university : Altavista returned a random set of pages with university in the title (seemed to prefer short URLs). Primitive Google returned the home pages of top universities. 13

Google Ranking Complete Google ranking includes (based on university publications prior to commercialization). Vector-space similarity component. Keyword proximity component. HTML-tag weight component (e.g. title preference). PageRank component. Details of current commercial ranking functions are trade secrets. 14