Recupero di Documenti



Documenti analoghi
Capitolo 5. Cercare informazioni sul Web

STAMPA DI UNA PAGINA SEMPLICE

Nuova funzione di ricerca del sito WIKA.

Cercare informazioni sul Web

Cercare documenti Web

Introduzione all Information Retrieval

Motori di ricerca. Andrea Marin

Sommario. Introduzione L ambiente di lavoro Configurazioni generali e la struttura di Joomla La struttura di Joomla...

Per siti più strutturati le informazioni sono mantenute mediante particolari organizzazioni di dati: human-powered directories

DMEDIAGROUP.it. Il Primo Circuito di Media Locali SUPPORTO TECNICO

REAL ESTATE. Il software per la gestione della presenza online per le agenzie immobiliari

PORTALE CLIENTI Manuale utente

Breve guida alla ricerca bibliografica on-line. A cura di Tilde Tocci

Sintesi corso. Dott. Riccardo Garelli

Avvio di Internet ed esplorazione di pagine Web.

Internet. Internet. Internet Servizi e Protocolli applicativi. Internet. Organizzazione distribuita

La ricerca delle informazioni nei siti web di Ateneo con Google Search Appliance Progetto, implementazione e sviluppi

Internet e social media per far crescere la tua impresa

Tipologie e strategie di traffico.

G&F NOTIZIE NUOVO SITO G&F RICHIESTE DI ASSI- STENZA VIA WEB. G&F s.r.l. G&F s.r.l. Via Santuario, Mondovì (CN) Notizie di rilievo: Buon Anno

Lezione 8. Motori di Ricerca

Il sistema C.R.M. / E.R.M.

TUTTI I DIRITTI RISERVATI. Nessuna parte di questo documento può essere usata o riprodotta in alcun modo anche parzialmente senza il permesso della

AtoZ IL CATALOGO DI BIBLIOTECA VIRTUALE

GLI ACQUISTI ON-LINE: GESTIONE E SVILUPPO DELLE COLLEZIONI

marketing highlights Google Analytics A cura di: dott. Fabio Pinello

WEB MARKETING. Indicizzazione nei motori di ricerca. SCHEDA PRODOTTO Versione 1.1

Come leggere ed interpretare la letteratura scientifica e fornire al pubblico informazioni appropriate sui farmaci

Lezione 1. Introduzione e Modellazione Concettuale

PageRank Formula semplificata

RICERCA DELL INFORMAZIONE

Dropbox di classe. É un servizio internet fornito gratuitamente (funzioni base).

GHPPEditor è un software realizzato per produrre in modo rapido e guidato un part program per controlli numerici Heidenhain.

FRANKY I.A. Ecco i 5 motori di ricerca che lavorano con Franky I.A.

PaperPort 11 comprende molte nuove e utili funzioni che consentono di gestire i documenti.

EXPLOit Content Management Data Base per documenti SGML/XML

EW1051 Lettore di schede USB

Premessa 2: etica della pubblicità

utenti inserzionisti aziende L utente L inserzionista Servizi business per le aziende

I E-recruitment Solutions I

Analisi dei requisiti e casi d uso

Dispensa di database Access

Dalla connessione ai social network. Federico Cappellini

Cosa è un foglio elettronico

Andare oltre a Google. Le informazioni sulle imprese

Motori di ricerca. Reti e Web. Motori di ricerca. Motori di ricerca - Interfaccia. Motori di ricerca

Uso delle basi di dati DBMS. Cos è un database. DataBase. Esempi di database

Un motore di ricerca per i siti web della PA italiana. GooglePA, un motore di ricerca per i siti web della PA italiana

Web. Hosting. Application

GOOGLE VALUTAZIONE DI UN SITO INTERNET GOOGLE SCHOLAR

Titolare del trattamento dei dati innanzi descritto è tsnpalombara.it

Internet e le reti. Navigare in rete. Un po di confusione sui termini. Internet WWW Web Servizi i Internet Sito Internet. Sinonimi?!?

(Tasto Svuota file) Il tasto Svuota file elimina tutti i record presenti nel database.

Caratteristiche generali

COME AVERE SUCCESSO SUL WEB?

ammesso solo con il tuo consenso. Le modifiche apportate hanno lo scopo di semplificare il controllo di quali

E completamente personalizzabile potrete variare colori, i Vs. dati i riferimenti per i contatti, i prodotti in tempo reale.

WEB MARKETING HOSTING GRAFICA

INFORMATIVA SUI COOKIE

2012 Elle Gemini

APRIRE UN PROGRAMMA DI FOGLIO ELETTRONICO

Il Gruppo. Reed Elsevier è fornitore leader di informazione e comunicazione.

Vai on-line con la tua azienda!

IL PROBLEMA DELLA RICERCA DI INFORMAZIONI su Internet e sul web

Catalogo servizi 2010

Corso di LABORATORIO DIGITALE 1

B14 DMS IT Governance Business Competence

Architetture Informatiche. Dal Mainframe al Personal Computer

Mail Cube Guida utente

Architetture Informatiche. Dal Mainframe al Personal Computer

La gestione del documento

Come utilizzare il nuovo LEGGI D ITALIA Pubblica Amministrazione

Applicazione JobScheduler su DB SQL Milano, lì 14/09/2009

Corso di Alfabetizzazione Informatica

Reti di Calcolatori. Vantaggi dell uso delle reti. Cosa è una rete? Punto di vista logico: sistema di dati ed utenti distribuito

Installazione di GFI Network Server Monitor

Le novità di QuarkXPress 10.1

STUDIO MESSANO UFFICIO SVILUPPO NUOVE TECNOLOGIE

Le Reti di professionisti :

DATANET Innovation & Integration

Presentazione della release 3.0

SOLUZIONI INFORMATICHE PER LO STUDIO LEGALE

Guida rapida all uso di Moodle per gli studenti

Tassonomia Web Spam GIUGNO 2005

Il portale di annunci immobiliari di

Internet e posta elettronica. A cura di Massimiliano Buschi

Strategie su misura per la tua azienda

Google News e pubblicazioni online Uno studio approfondito sulla visibilità

Gestione del file system

Identificare le diverse parti di una finestra: barra del titolo, barra dei menu, barra degli strumenti, barra di stato, barra di scorrimento.

Express Import system

Configurazione della ricerca desktop di Nepomuk. Sebastian Trüg Anne-Marie Mahfouf Traduzione della documentazione in italiano: Federico Zenith

Calcolatori Elettronici A a.a. 2008/2009

La Progettazione Concettuale

Benvenuti! Novità di PaperPort 10

MANUALE D USO DELLA PIATTAFORMA ITCMS

Gestione dell account AdWords di Google Guida pratica

Transcript:

Libri di consultazione Recupero di Documenti (Motori di Ricerca: presente e futuro prossimo) Google, The pocket guide T. Calishain et al., O Reilly 2003. Una guida semplice all uso di Google Grazie a Paolo Ferragina Modern Information Retrieval R. Baeza-Yates e B. Ribeiro-Neto, Addison-Wesley, 1999. Libro di livello universitario sul progetto di un motore di ricerca Consultare la pagina web del corso per avere una indicazione precisa sulle parti da studiare!! Tre riferimenti interessanti http://www.pandia.com http://websearch.about.com/ http://searchenginewatch.com/ Motori di Ricerca presente e futuro prossimo Prologo 1

Il Web Una immagine pittorica del Web Surface Web : 25 75 Terabytes (1Tb = 1000 Gb) 11.5 miliardi di pagine (cambiano circa 10 milioni al giorno) Pagina in media 5 40Kb, #links ~ 10 Circa il 23% delle pagine è duplicato, altro 20% è spam Hidden Web : circa 500 volte più grande Siti intranet, database, pagine dinamiche, Circa 4,200 Tb di dati testuali interessanti Velocità di cambiamento [snapshot settimanale nel 2004: 154 web sites, 3 5 mil pg, 65Gb] Ma non solo il Web Normaliz z ata rispetto prima settimana Email: 610Mld di messaggi al giorno 150,000 Mailing List (circa 675Tb all anno) Ogni anno: Libri (8 Tb), Quotidiani (25 Tb), Periodici (12 Tb), documenti di ufficio (210 Tb). e non solo testo ma anche audio, video, immagini,. 2

Motore di ricerca vs. Utente Obiettivo: Recuperare i documenti che sono rilevanti per l interrogazione formulata dall utente. Documento: file word o pdf, pagina web, email,... Interrogazione: lista parole chiave Rilevante? Concetto soggettivo e mutevole Dimensione archivi elettronici in continua espansione Interrogazioni selettive sono difficili da formulare Pagine eterogenee La ricerca è un processo difficile... e quindi necessariamente ciclico Query Risultati Analisi Dimensione vs. precisione 6 navigatori italiani su 10 non sanno cercare nel Web: Su un campione di 856 navigatori italiani, fra i 25 e i 55 anni, che utilizzano Internet regolarmente, Il 75% degli utenti ritiene che i motori il 28% trova difficoltà solo «alcune volte», di ricerca siano il servizio più il 33% incontra sempre serie difficoltà, importante del Web [ ] Tutto ciò genera stress, frustrazione e senso di smarrimento nel mare del Web. [ ] Quasi un italiano su tre sogna un motore di ricerca automatico e intelligente che non agisca solo per parole chiave 2001 Corriere della Sera, 12 Aprile Interrogazioni sul Web: vari tipi Lo user need Informational vogliamo apprendere qualcosa(~40%) Influenza cinese Navigational vogliamo andare su una pagina (~25%) United Airlines Transactional vogliamo fare qualcosa con il web (~35%) Accesso a un servizio Download Shop Tempo a Roma Immagini di Marte Nikon CoolPix Altre possibilità Trovare un buon hub Affitto macchina a Roma Esplorare il web see what s there Interrogazioni sul Web: gli utenti Query mal definite Brevi AV 2001: 2.54 termini 80% < 3 parole Termini imprecisi Grande diversità Bisogni Conoscenza Pazienza Comportamento 85% guardano soltanto alla prima pagina 78% delle query non sono modificate 3

La storia: Prima generazione La storia: Seconda generazione Sfruttare la struttura del web Link (or connectivity) analysis Anchor-text 1998-0? Usava solo il testo sulla pagina Frequenza delle parole, linguaggio 1996-98 La storia: Terza generazione Quarta generazione??? Quarta generazione Information Supply [Andrei Broder, VP emerging search tech, Yahoo! Research] focus sull utente Analisi semantica, Contesto Aiuti, click-through Integrazione ricerca e browsing oggi 4

Ieri... Ieri... Oggi......oggi Tutti questi Tool usano un Search Engine Perché tanto interesse sui motori? Dimensione reale [2005] Più dell 85% utenti arrivati a un sito attraverso una ricerca Il 33% degli utenti crede che i primi risultati di una ricerca sono il posto migliore dove spendere i soldi Distribuzione delle ricerche negli USA Google vs Yahoo: 20-30% risultati identici 5

La visione globale Ranking: Google vs Yahoo! G = Google M = Msn T = ASK/Teoma Y = Yahoo! Ranking: Google vs Google.cn Più confronti 6

Formulare una interrogazione (quante difficoltà) Formulare una interrogazione (quante difficoltà) Varie difficoltà: problemi di astrazione, sinonimia, polisemia, 10 risultati Varie difficoltà: problemi di astrazione, sinonimia, polisemia, 10 risultati Formulare una interrogazione (quante difficoltà) Tipi di ricerche: Meta-Motori Mamma, Ez2find, windows 7

Tipi di ricerche: Directory Interesting Tools DMOZ, Yahoo, Pandia, Looksmart, MSN Vivisimo Clustering engine AskJeeves Question answering Suggerimento termini Deep web: Invisible-web.net, Completeplanet, ResoruceDiscovery Network Froogle Cerca prodotti Google Catalogs More than 6,000 catalogs GoogleNews News service on-the-fly More than 4,200 sources Ricerche verticali : http://vlib.org/ Citeseer, medico, legale,... Motori di Ricerca presente e futuro prossimo Cosa è un motore di ricerca? 8

Motore di Ricerca: struttura Archivio Pagine? Un lavoro storico: Brin & Page [1998] Crawler Query Web Analizzatore pagine Indicizzatore Risolutore Analizzatore Rilevanza Controllo Testo Utilità Struttura Una interfaccia essenziale Motori di Ricerca presente e futuro prossimo Formulare query su Google 9

Le preferenze dell utente Una ricerca: Presentazioni inglesi su Cesare! Correzione ortografica caeser caesar I nuovi risultati per caesar 10

Raffinare le risposte: domini.edu Raffinare ancor più le risposte: file.ppt La struttura delle risposte Comporre una query: Gli operatori booleani AND logico paolo AND ferragina paolo ferragina OR logico Paolo OR ferragina paolo ferragina Negazione ferragina paolo Inclusione esplicita +to +be +or +not +to +be 11

Comporre una query: Frasi e 10-word limit Phrase search to be or not to be 10-word limit # totale di parole e token speciali inferiore a 10 Simbolo * di wildcard sostituisce parole intere to be * * to be Aiuta a saltare parole non filtranti Aiuta a cercare frasi famose, discorsi, canzoni,... Aiuta a rientrare nel limite di 10 Comporre una query: i token speciali intitle:parola [anche allintitle:] Cerca la parola nel titolo di una pagina inanchor:parola [anche allinanchor:] Cerca la parola nel testo di un hyperlink site:hostname site:rutgers.edu cerca nei siti dell Università di Rutgers inurl:stringa [anche allinurl:] inurl:help trova per esempio http://.../help/.../... Comporre una query: i token speciali (contd) L interfaccia per le ricerche avanzate link:url Lista di pagine che puntano a quella indicata filetype:tipo Ad esempio: ppt, pdf, ps, doc, rtf,... daterange:numero1-numero2 [Calendario di Cesare, 4714 AC] Limita la ricerca alle pagine indicizzate tra la data indicata da numero1 e la data indicata da numero2 Geri Halliwell Spice Girls daterange:2450958-2450968 Cerca le pagine che trattano del divorzio tra la Halliwell e il suo gruppo in una finestra temporale che va dal 25 Maggio 1998 al 4 Giugno 1998. 12

Una reference interessante http://www.pandia.com/goalgetter/index.html Motori di Ricerca presente e futuro prossimo Il quadro presente Fino a pochi anni fa... Il motore più famoso... Yahoo (migliore del 1995) Inktomi (migliore del 1997) Altavista (migliore del 1999) Lycos, Excite, Northern Light,... Oggi Google (60%), Yahoo (28%), Msn (12%), Ask (6%). Ogni utente visita più motori di ricerca per le sue query. 13

Cosa non è Google Indice su tutti i documenti disponibili sul Web Nessun motore lo è Credibile in ogni cosa che ci segnala Non esiste controllo sulla pubblicazione delle pagine Perfettamente aggiornato Non riesce a seguire le modifiche giornaliere (milioni di pagine) Protetto da contenuto offensivo Dispone di un meccanismo di filtering, ma non sicuro al 100% Cosa è oggi Google Alcuni dati interessanti (NY Times, Aprile 2003): Più di 1000 persone 54,000 server - 100,000 processor - 261,000 dischi xmld pagine, 200 milioni query/giorno (60% del totale) 300 milioni di dollari di fatturato 2002 (750 nel 2003?) google è la parola più utile del 2002 [American Dialect Society] Un nuovo scenario di: Business: tra i pochissimi a fare molti profitti! Gestione ed estrazione della conoscenza: non solo Web Problemi matematici interessanti: Qualità risposte, Efficienza, Copertura del web Nuove applicazioni (news,prodotti), Nuovi domini (audio,video) Google: Il modello di business in 2 iniziative Search services via la Google search appliance Soluzione hardware+software per un motore di ricerca in ambito intranet o singolo website Hardware fissato e quindi limitati problemi di sviluppo e mantenimento del software Per ora disponibile soltanto in USA e Canada (??) Advertising programs (100.000 sottoscrittori) AdSense: Un sito può fornire spazio sulla sua pagina; le pubblicità da visualizzare vengono scelte da AdSense in funzione dei contenuti della pagina così da rivolgersi a probabili clienti. Il sito riceve un pagamento in funzione del numero di click sul banner. AdWords: Una società può scegliere quanto pagare al giorno/mese e indicare le parole chiave che descrivono il suo business. Un banner viene visualizzato da Google all atto di ricerche per quelle parole chiave, e la società paga in funzione del numero di click ricevuti. Google: altre notizie... Il nome deriva dalla parola GOOGOL, coniata da un bambino americano di 9 anni per riferirsi al numero 10 100 Un po di storia: [1996-97] Esce il primo prototipo (BackRub). [1998-99] Nasce Google, risponde a 10,000 Qpg 3Ml Qpg [2000] 1Mld pagine e 60Ml Qpg [2001] 2Mld pagine e 100Ml Qpg, ricerche limitabili a 26 linguaggi. Introduce Image e File type search, Usenet dal 1981, Google Catalog. [2002] 2,5Mld pagine, ricerche limitabili a 40 linguaggi. Intoduce AdWords, Google news, Web API, Froogle, Google Labs. [2003] 3Mld di pagine, più linguaggi supportati. Il programma di business raggiunge i 100,000 sottoscrittori e viene promosso in Italia. Introduce Google AdSense, Local Search. 14

L archivio dmoz: open directory project Motori di Ricerca presente e futuro prossimo Altre funzionalità di Google La directory di Google : dmoz Un esempio di interrogazione Raccolto e mantenuto da un gruppo di volontari Siti, non pagine, attentamente selezionati e classificati Trade-off Ridotta estensione rispetto all archivio delle pagine di Google Maggiore qualità delle risposte Tipo di ricerche: Per parole chiave, ammette anche inurl e intitle Per navigazione basata sul soggetto Ordine delle risposte: Per Pagerank oppure per ordine alfabetico 15

L archivio dei newsgroup (Usenet) I gruppi di Usenet Raccolta di messaggi dal 1981, circa 845 milioni Tipo di ricerche: Per parole chiave Per navigazione basata sul soggetto comp.sys computer system humanities letteratura Esiste una Con sintassi speciale: interfaccia per intitle: o author: ricerche avanzate group:comp* La ricerca per data qui è molto precisa e utile!! Centinaia di migliaia di topics, secondo una gerarchia Oltre 800 milioni di messaggi, raccolti dal 1981 E una sorgente di informazioni validissime su i più disparati soggetti, ottenibili dalle discussioni tra utenti L archivio delle immagini Un esempio di interrogazione Circa 800 milioni di immagini dal Web 16

L archivio delle immagini (contd) I cataloghi 800 milioni di immagini prese dal Web e indicizzate per parole chiave, solitamente molto specifiche I risultati includono un preview dell immagine, dimensione, URL Problemi: 1 parola molti risultati, alcune parole nessuno!!! Ricerche: esiste una sintassi speciale intitle: o inurl: o site: filetype:jpg Esiste una interfaccia per ricerche avanzate Può essere utile per le vostre presentazioni o articoli Oltre 6000 cataloghi digitalizzati Ricerca per parole chiave o navigazione Catalogo (anche vecchio) visualizzabile, o sito del venditore Cercando baby bed Cliccando su una immagine...... basta scorrere l immagine!! 17

Acquisti on-line... Un esempio di interrogazione Froogle = Google + frugal Altri approcci noti: shopping robots (Jango) Notizie USA e internazionali Google news Oltre 4500 sorgenti di informazione I risultati includono: Notizie vecchie o recenti (fino a 1 minuto fa...) Indicazione della provenienza Raggruppate per soggetto o storia Presentazione stile Rivista o Quotidiano Esistono versioni per vari paesi Tutto eseguito in maniera automatica Loro dichiarano senza influenze politiche o personali... noi osserviamo che operano senza un oggetivo filtro!!! E sorprendente nella sua efficienza, efficacia e ampiezza!! Esistono altre proposte, come quella di Yahoo (offre un free alert!!) 18

La versione italiana Google è tanto altro ancora Dizionari, anche per dialetti: ~parola define:parola Elenchi telefonici, pagine gialle,... [anche reverse search] Stocks:identificatore_società [Yahoo finance] Weblogs: an online site that keeps running commentary and associated links, updated daily. radio.weblogs.com, www.blogspot.com, www.blogger.com Track user behavior!! Occhio alla pagina di Google!! 19

Funzionalità: Il quadro corrente Motori di Ricerca presente e futuro prossimo Migliorare il ranking delle pagine: Teoma e molti altri... Migliorare la copertura del Web: Meta motori di ricerca Supporto all utente nella ricerca dei risultati che meglio soddisfano le sue interrogazioni! Suggerimenti sulle parole da cercare (AskJeeves) Altre interessanti proposte Suggerimenti su oggetti visti da utenti simili (Amazon,Epinions) Categorizzazione delle risposte (il fu NorthernLight) Testuale (Vivisimo, Copernic) o grafico (Kartoo) Knowledge Management Systems Un tipo di Meta-motore Qualcosa di più sofisticato 20

La struttura delle risposte Suggerimenti sui termini: AskJeeves Si appoggia a Teoma, e risponde a domande!! Suggerimenti su oggetti visti: Amazon Vivísimo: Raggruppare le risposte Ora anche ricerche sul testo dei libri! (anche Google) Offre categorizzazione risultati di FirstGov.com Copernic funziona sul nostro desktop 21

Kartoo: Non solo testo Un mix interessante: Ez2find Open Directory Metasearch + Directory + Cluster dei risultati!! Un tool interessante 22