Tecnologie informatiche multimediali

Похожие документы
Progettazione di Algoritmi

Progettazione di Algoritmi

«Sciente e Tecnologie dei Beni Culturali»

Grafi diretti. Un grafo diretto (o grafo orientato) G è una coppia (V,E) dove. V è u n i n s i e m e d i nodi (o vertici);

ALMA MATER STUDIORUM UNIVERSITA' DI BOLOGNA DIPARTIMENTO DI MATEMATICA PROGETTO LAUREE SCIENTIFICHE A.A GRAFI ED APPLICAZIONI

Grafi, Social Network e Ricerca su Web Prof. Maurizio Naldi

Esercizi Capitolo 11 - Strutture di dati e progettazione di algoritmi

Progettazione di Algoritmi

INSTRADAMENTO: ALGORITMO DI BELLMAN-FORD

Grafi e reti di flusso

Corso di elettrotecnica Materiale didattico: i grafi

Corso di Sistemi di Elaborazione delle informazioni

TECNOLOGIE INFORMATICHE E MULTIMEDIALI

Routing IP. IP routing

Modello dei grafi casuali

SISTEMI INFORMATIVI E DATABASE

UNIVERSITÀ DEGLI STUDI ROMA TRE Corso di Studi in Ingegneria Informatica Ricerca Operativa 1 Seconda prova intermedia 17 giugno 2013

Esercizi Union-Find e su Grafi. Ugo Vaccaro

Flusso a Costo Minimo

Algoritmi e Strutture di Dati (3 a Ed.) Algoritmo dei tre indiani. Alan Bertossi, Alberto Montresor

Routing. Forwarding e routing

Alberi di copertura. Mauro Passacantando. Dipartimento di Informatica Largo B. Pontecorvo 3, Pisa

Algoritmi e Strutture Dati

Linguaggi, Traduttori e le Basi della Programmazione

ITI M. FARADAY. Programmazione a. s

RETI DI CALCOLATORI II

Progettazione di Algoritmi

Macchine sequenziali. Automa a Stati Finiti (ASF)

Processi di Markov. Processi di Markov

λ è detto intensità e rappresenta il numero di eventi che si

BASI DI DATI E UTENTI DI BASI DI DATI

Транскрипт:

Università degli Studi di Ferrara Facoltà di Lettere e Filosofia Corso di Laurea in «Scienze e Tecnologie della Comunicazione» aa 2011-2012 Tecnologie informatiche multimediali Prof. Giorgio Poletti giorgio.poletti@unife.it

TEORIA E FONDAMENTI ELEMENTI DI PROGETTAZIONE, CONSERVAZIONE E GESTIONE DELLE INFORMAZIONI

Rete WEB struttura Grafo DIANMICO componenti Pagine e link NODI: PAGINE ARCHI: LINK IPERTESTUALI componenti DOCUMENTI : circa 4*10 9 (4 miliardi, senza contare i nodi isolati, pagine senza link) LINK : circa 6*10 9 (6 miliardi) SERVER DI RETE: circa 2*10 6 (200 milioni) oltre 8*10 6 (800 milioni di utenti) interagiscono

Grafo semplificato per il WEB definito Grafo G(P,L), insieme di pagine e link Se orientato Relazione p 1 p 2 se ESISTE UN CAMMINO DA p 1 A p 2 e ESISTE UN CAMMINO DA p 2 A p 1 è RELAZIONE DI EQUIVALENZA DEFINIRE UN GRAFO RIDOTTO G*, i nodi sono le classi e due classi C 1 e C 2 sono connesse se esiste un nodo in C1 collegato a un nodo in C2, esiste un arco da C 1 a C 2 Classi composto da dette COMPONENTI (FORTEMENTE) CONNESSE DEL GRAFO Permette di

GRAFO RIDOTTO G* esempio Grafo ridotto G*

STRUTTURA A CARAMELLA DEL WEB COMPONENTE GIGANTE (30% DEI NODI) DIAMETRO 25/30 ORIENTATO Teoria dei piccoli mondi (SMALL WORLD THEORY) 15/17 NON ORIENTATO

STRUTTURA A CARAMELLA DEL WEB COMPONENTE GIGANTE COMPONENTI SORGENTE (CIRCA 24%) Non sono raggiungibili dalla componente gigante Puntano in maniera diretta o indiretta la componente gigante PAGINE «REIETTE»

STRUTTURA A CARAMELLA DEL WEB COMPONENTE GIGANTE COMPONENTI POZZO (CIRCA 24%) Sono raggiungibili dalla componente gigante Da queste componenti non si torna indietro DOCUMENTAZIONE SENZA LINK

STRUTTURA A CARAMELLA DEL WEB COMPONENTE GIGANTE TENTACOLI link tar sorgenti e pozzi che non passano per la componente gigante COMPONENTI ISOLATE E TENTACOLI (CIRCA 20%) NON sono raggiungibili dalla componente gigante Da queste componenti non si raggiunge la componente gigante

DIFFICOLTÀ DI RICERCA 80% DEGLI UTENTI USA MOTORI DI RICERCA Quantità di informazioni troppo elevata Eterogeneità della qualità e formato delle informazioni Rapida modifica delle informazioni Assenza di SEMANTICA e STRUTTURA

MOTORI DI RICERCA AZIONI DEI MOTORI DI RICERCA Raccolta dati Elaborazione e catalogazione dei dati raccolti Elaborazione e risposta alle interrogazioni (Query) degli utenti

MOTORI DI RICERCA RACCOLTA DATI Raccolta del contenuto delle pagine Web (informazioni di tipo testuale ma anche immagini (google immagini e documentazione) Si usa uno SPIDER O CRAWLER O ROBOT SPIDER googlebot fast scooter mercator Ask Jeeves teoma_agent ia_archiver Yahoo! Slurp Romilda MOTORE DI RICERCA Google Fast - Alltheweb Altavista Altavista Ask Jeeves Teoma Alexa - Internet Archive Yahoo Facebook Spider traps PROBLEMI Quantità di dati e larghezza di banda Aggiornamento frequente delle pagine Mancanza di standard condivisi e rispettati Pagine nascoste (pagine isolate della struttura a caramella)

MOTORI DI RICERCA ELABORAZIONE E CATALOGAZIONE DEI DATI RACCOLTI PARSING, analisi: estrazione di informazioni) Rilevazione delle ridondanze (presenza di MIRRORING) Rilevazione di presenza di SPAMMING INDICIZZAZIONE dei dati In sketch comico del Monty Python's Flying Circus che ha come luogo un locale nel quale ogni pietanza proposta dalla cameriera era a base di Spam (un tipo di carne in scatola). Reperimento e analisi delle informazioni per il calcolo del RANKING

MOTORI DI RICERCA ELABORAZIONE E RISPOSTA ALLE INTERROGAZIONI (QUERY) DEGLI UTENTI Ricerche testuali raffinate AND (Pozzo NEAR Pizza),il forse cercavi Suggerimenti ontologici Ontologia fondamentale o primitiva per ha come obiettivo quello di descrivere "ciò che esiste" secondo un insieme di entità ritenuto non ulteriormente definibile (vocabolari) Analisi linguistiche (frequenze, relazioni ) Analisi dei profili utente (ad esempio i bookmarks) Sistemi di catalogazione automatica

MOTORI DI RICERCA ELABORAZIONE E RISPOSTA ALLE INTERROGAZIONI (QUERY) DEGLI UTENTI Ricerche testuali raffinate AND (Pozzo NEAR Pizza),il forse cercavi Suggerimenti ontologici Ontologia fondamentale o primitiva per ha come obiettivo quello di descrivere "ciò che esiste" secondo un insieme di entità ritenuto non ulteriormente definibile (vocabolari) Analisi linguistiche (frequenze, relazioni ) Analisi dei profili utente (ad esempio i bookmarks) Sistemi di catalogazione automatica

MOTORI DI RICERCA ELABORAZIONE DEI DATI obiettivo INDICIZZAZIONE DEI DOCUMENTI RACCOLTI esigenze INDICIZZAZIONE RENDE EFFICIENTE E VELOCE LA RISPOSTA ALLE QUERY INDICIZZAZIONE RENDE POSSIBILE IL RANKING DEI DOCUMENTI

tecniche Algoritmo PageRank IL RANKING RANKING definizione DATO UN INSIEME DI PAGINE P E UNA QUERY Q IL RANKING È DEFINITO DA UNA FUNZIONE: R Q :P R (INSIEME DEI NUMERI REALI) CHE ASSOCIA AD OGNI PAGINA UN NUMERO REALE CHE INDICA LA «RILEVANZA» DI QUELLA PAGINA NEL CONTESTO DI QUELLA QUERY. Analisi del contenuto testuale (ALTAVISTA) Analisi della struttura dei link (GOOGLE)

IL RANKING RANKING Tecniche LATENT SEMANTIC INDEX Analisi del contenuto testuale (ALTAVISTA) procedimento Roma t=2 Pioggia t numero di termini presi in considerazione, appartenenti ad un vocabolario o individuati durante la raccolta delle pagine Ad ogni pagina P è associato un vettore con d P (d P ) j = numero di occorrenze del termine j in P Oggi la pioggia è stata abbondante in tutta Italia. Roma con la pioggia è piacevole da visitare Pagina P (d P ) 1 = 1 numero di occorrenze di Roma in P (d P ) 2 = 2 numero di occorrenze di Pioggia in P

IL RANKING RANKING Tecniche LATENT SEMANTIC INDEX Analisi del contenuto testuale (ALTAVISTA) Ad ogni query Q è associato un vettore con d Q procedimento (d P ) j = 1 se il termine j compare in P (d P ) j = 0 se il termine j non compare in P Roma Pioggia Oggi la pioggia è stata abbondante in tutta Italia. Roma con la pioggia è piacevole da visitare Pagine su Roma Pagina P Query Q (d P ) 1 = 1 Roma è nella query Q (d P ) 2 = 0 Pioggia non è nella query Q

IL RANKING RANKING Tecniche LATENT SEMANTIC INDEX (LSI) Analisi del contenuto testuale (ALTAVISTA) Migliori prestazioni Assunto INGENUO Pagina autorevole se contiene frequenti termini concernenti l argomento Estensione del testo con i testi delle pagine collegate e i termini del contesto CONSIDERAZIONE: LSI funziona bene su query multiple, le normali query sono semplici, 2 o 3 elementi al massimo.

IL RANKING RANKING Tecniche PAGERANK Analisi dei link(google) procedimento Ad ogni pagina j viene assegnato un valore reale, un rank R j statico, indipendente cioè dalla query. Data la query Q si ordinano i risultati in base al rank delle pagine individuate L importanza delle pagine è determinata ESCLUSIVAMENTE in relazione ai link che presenta o di cui è target. L assunto è che il contenuto NON è AUTODESCRITTIVO e l importanza di una pagina è il risultato di un processo ESOGENO (esterno all ambito di riferimento)

IL RANKING RANKING Tecniche PAGERANK Analisi dei link (GOOGLE) principio L importanza di una pagina è direttamente proporzionale al numero di pagine che la puntano Se R j è il rank (RANGO) di una pagina, la sua IMPORTANZA, la pagina trasmette l importanza alle pagine che punta, distribuisce il suo rango in maniera uniforme R i = R j N j j i i j esiste un link dalla pagina j alla pagina i N j numero di link presenti nella pagina j 2 3 N 2 = 4 R 2 = 12 1 N 1 = 16 R 1 = 4 R 3 = R 1 + R 2 = 4 + 12 = 0,25 + 3 = 3, 25 N 1 R 2 16 4

IL RANKING Principio ispiratore RANKING Tecniche PAGERANK Analisi dei link (GOOGLE) problema Processo STOCASTICO MARKOVIANO o (processo di Markov): processo stocastico nel quale la probabilità di transizione che determina il passaggio ad uno stato di sistema dipende unicamente dallo stato del sistema immediatamente precedente (PROPRIETÀ DI MARKOV) e non dal come si è giunti a tale stato. La funzione ha un risultato unico solo se il grafo è connesso soluzione DEFINIZIONE INTUITIVA: un processo stocastico é un insieme ordinato di variabili casuali, indicizzate dal parametro t, spesso detto tempo. (Quantità di pioggia) Si introduce un fattore che equivale a inserire link random (casuali) al grafo R i = 1 d R j N j j i + d 1 N i j esiste un link dalla pagina j alla pagina i N j numero di link presenti nella pagina j N è il numero di pagine d fattore di dumping (deciso da Google), fattore di spargimento, passa da una pagina all'altra ed é valore di PageRank minimo attribuito ad ogni pagina in archivio. Nella documentazione originale d=0,85 R i = 1 d + d Forma semplificata R j N j j i

IL RANKING RANKING Tecniche PAGERANK Analisi dei link (GOOGLE) problema Il PageRank è calcolabile in modo iterativo a partire dalla considerazione : «tutte le pagine hanno la stessa importanza», R j = 1 j con N numero totale di pagine (somma 1) N e poi si redistribuisce il valore. I POZZI definizione Ad ogni iterazione la somma resta 1? Per ogni nodo j con almeno un arco uscente, il fattore R jt /N j viene sommato per ciascun arco uscente (ce ne sono N j in tutto): La somma è 1 solo se non ci sono pozzi (nodi/pagine senza archi uscenti); in tutti gli alti casi la somma sarà < 1: I POZZI ASSORBONO IMPORTANZA DALLE PAGINE E NON LA RESTITUISCONO AL SISTEMA

IL RANKING RANKING Tecniche PAGERANK Analisi dei link (GOOGLE) problema Il PageRank è calcolabile in modo iterativo a partire dalla considerazione : «tutte le pagine hanno la stessa importanza», R j = 1 j con N numero totale di pagine (somma 1) N e poi si redistribuisce il valore. I POZZI definizione POSSIBILI SOLUZIONI per ogni pozzo j, si aggiungono archi «di comodo» da j ad ogni altra pagina in questo modo i pozzi «cedono» in maniera uniforma loro importanza a tutte le pagine ad ogni passo del calcolo di PageRank, si aggiunge a tutti i rank R j una stessa quantità in modo che la somma rimanga 1 i pozzi vengono eliminati ad ogni passo di calcolo e si reinseriscono alla fine del procedimento

IL RANKING RANKING Tecniche PAGERANK Analisi dei link (GOOGLE) prospettiva procedimento INTERPRETAZIONE STOCASTICA NAVIGATORE PROBABILISTICO parte da una pagina j a caso con probabilità (1- d) segue uno dei link della pagina j significato Il rank R j è la frazione di tempo trascorsa dal navigatore probabilistico nella pagina j

PUNTI DI FORZA E PUNTI DI DEBOLEZZA VANTAGGI valore del RANK calcolato n maniera accurata processo iterativo converge molto rapidamente (tempi rapidi di esecuzione) RANK calcolato indipendentemente dalle query SVANTAGGI si possono pubblicare insiemi di pagine «TRAPPOLA» «ARTEFATTE» che influiscono sul ranking delle pagine è un limite l indipendenza dalla query L algoritmo di PageRank può essere corretto usando aggiustato usando un secondo ranking basato sul contenuto, come ad esempio LSI (LATENT SEMANTIC INDEX).