Algoritmi e Strutture Dati

Documenti analoghi
Algoritmi e Strutture Dati

Algoritmi e strutture dati

Algoritmi e Strutture Dati

Tavole hash. Alcune possibili implementazioni dell ADT Dizionario. Tavole ad accesso diretto. Tempo richiesto dall operazione più costosa:

Tavole (o tabelle) hash

Tabelle Hash. Implementazioni Dizionario. Implementazione. Tabelle ad accesso diretto. Tempo richiesto dall operazione più costosa:

Tabelle Hash! Presentare le tabelle hash e la nozione di funzione di hashing Discutere la complessità di questa realizzazione per le Tavole

Tipo di dato Dizionario

Implementazione di dizionari

Gianpiero Cabodi e Paolo Camurati Dip. Automatica e Informatica Politecnico di Torino

TABELLE AD INDIRIZZAMENTO DIRETTO

Heap scenario. Ho un insieme dinamico di oggetti, ciascuno identificato con una priorità. (la priorità è semplicemente un numero);

Algoritmi e Strutture Dati

Sommario. Tabelle ad indirizzamento diretto e hash Funzioni Hash

Dizionario. Marina Zanella Algoritmi e strutture dati Tabelle hash 1

Algoritmi e Strutture Dati

Hash Tables. Ilaria Castelli A.A. 2009/2010. Università degli Studi di Siena Dipartimento di Ingegneria dell Informazione

argomenti Hashing Funzioni hash per file Tabelle hash Funzioni hash e metodi per generarle Inserimento e risoluzione delle collisioni Eliminazione

Algoritmi e Strutture Dati

Analisi dell Hashing

ORDINE DI INSERIMENTO DELLE CHIAVI <35 >35

Risoluzione delle collisioni con indirizzamento aperto

Informatica 3. Informatica 3. LEZIONE 21: Ricerca su liste e tecniche di hashing. Lezione 21 - Modulo 1. Introduzione (1) Introduzione (2) Ricerca:

Massimo Benerecetti Tabelle Hash

Algoritmi e Strutture di Dati I 1. Algoritmi e Strutture di Dati I Massimo Franceschet francesc

INTRODUZIONE INTRODUZIONE TABELLE HASH FUNZIONE HASH

ADT Mappa. Le chiavi (il mezzo per accedere agli elementi) hanno lo scopo di rendere efficiente la ricerca. Strutture Dati

Informatica 3. Informatica 3. LEZIONE 22: Politiche di risoluzione delle collisioni. Lezione 23 - Modulo 1. Politiche di risoluzione delle collisioni

Tabelle Hash. Massimo Benerecetti. Informatica. Lezione n. Parole chiave: Inserire testo. Corso di Laurea:

Corso di Informatica

Massimo Benerecetti Tabelle Hash: gestione delle collisioni

Strutture di accesso ai dati: B + -tree

Strutture di accesso ai dati: B + -tree

Il TDA Map. Tabelle hash

Definizione informale. Il TDA Map memorizza coppie formate da una chiave k e da un valore v. La coppia è chiamata entry. Ogni chiave deve essere unica

Il TDA Map. Definizione informale. I metodi del TDA Map 2. I metodi del TDA Map 1. Interfaccia Map 1 NO_SUCH_KEY. Tabelle hash

Algoritmi 2 - Dr. Simone Faro - Esercizi sulle Tabelle Hash 1

Hash file. idea di base : il file è organizzato in B bucket, i record sono assegnati ai bucket in ragione del valore di chiave.

Esercizi Capitolo 7 - Hash

Organizzazioni hash. Corso di Basi di Dati e Sistemi Informativi

Algoritmi e Strutture Dati

Algoritmi e Strutture Dati

Liste concatenate. Violetta Lonati

Università degli Studi G.d Annunzio Chieti Pescara Corso di Laurea in Economia Informatica

Tabelle hash. Vittorio Maniezzo - Università di Bologna

Look up table, caso generale

Algoritmi e Strutture Dati

TIPO DI DATO ASTRATTO

FILE E INDICI Architettura DBMS

Altro di ADT. Dominio. Funzioni. Dominio. Funzioni. Costanti - Collezioni

Algoritmi e Strutture Dati. Capitolo 3 Strutture dati elementari

Algoritmi e Strutture Dati. Capitolo 3 Strutture dati elementari

INDICI PER FILE. Accesso secondario. Strutture ausiliarie di accesso

Analisi ammortizzata (Tarjan in 1985)

Tecnica HASH. Corso di Linguaggi di Programmazione. Stefano Ferilli. Pasquale Lops.

Algoritmi e Strutture Dati. Capitolo 1 Un introduzione informale agli algoritmi

Esercitazione 5 Algorithmi e Strutture Dati (Informatica) A.A 2015/2016

ARRAY E LISTE. Ivan Lanese

Algoritmi e Strutture Dati 2/ed Quiz a risposta multipla

Algoritmi e strutture dati

Esercizio. Scrivere una classe ListMap<K, V> che implementa la mappa con una lista. Strutture Dati

TRIE (albero digitale di ricerca)

Alberi di ricerca. Dizionari. Definizione. Alberi binari di ricerca (BST = binary search tree) Algoritmi e Strutture Dati

Algoritmi e Strutture Dati

Algoritmi e Strutture di Dati

ADT Dizionario. Come nella Mappa: Diversamente dalla Mappa:

Strutture fisiche e strutture di accesso ai dati

T 1 =1. n 4 n log n. T n =3 T. Esercizio 1 (6 punti) A.A Esame di Algoritmi e strutture dati 18 luglio 2008

Array e Oggetti. Corso di Laurea Ingegneria Informatica Fondamenti di Informatica 1. Dispensa 12. A. Miola Dicembre 2006

Corso di Algoritmi e Strutture Dati Informatica per il Management Prova Scritta, 9/9/2015

Dipartimento di Elettronica, Informazione e Bioingegneria API 2013/4

ADT Dizionario. Ordered search table. Supponiamo che sia definita una relazione d'ordine totale sulle chiavi del dizionario D:

Algoritmi e Strutture Dati

Lunghezza media. Teorema Codice D-ario prefisso per v.c. X soddisfa. L H D (X). Uguaglianza vale sse D l i. = p i. . p.1/27

come segue: data una collezione C di elementi e una un elemento che verifica la proprietà P

COGNOME E NOME (IN STAMPATELLO) MATRICOLA

Hashing. Dott. Ezio Bartocci, Dott. Francesco De Angelis. Laboratorio di Algoritmi e strutture Dati - AA 2006/2007

Dizionari. Hashtables.

Dizionari Liste invertite e Trie

algoritmi e strutture di dati

Basi di Dati e Sistemi Informativi. Organizzazione fisica dei dati. Corso di Laurea in Ing. Informatica Ing. Gestionale Magistrale

Algoritmi e strutture dati

Scritto di Algoritmi e s.d. (1o anno) 14 Luglio 2004 TESTO e RISPOSTE (in fondo)

Strutture Dati per Inserimento Ordinato

Databases. Architettura di un DBMS: Struttura ad indice per i files, B + -Trees

Introduzione agli Algoritmi ed alle Strutture Dati Anno Accademico 2015/2016 Appello 23/6/2016

Tabelle hash. Funzione hash

INFORMATICA 3 Prof.ssa Sara Comai

Informatica 3. Informatica 3. LEZIONE 23: Indicizzazione. Lezione 23 - Modulo 1. Indicizzazione. Introduzione. Indicizzazione:

POLITECNICO DI MILANO ESAME DI INFORMATICA 3 Prof.ssa Sara Comai Laurea On Line Anno Accademico 2003/2004 II Prova in itinere

Scritto di Algoritmi e s.d. (1o anno) 5 Luglio 2005

Sistemi Operativi FILE SYSTEM : INTERFACCIA. D. Talia - UNICAL. Sistemi Operativi 8.1

Abbiamo già visto nel capitolo precedente come queste tre operazioni si possano implementare sulle strutture dati analizzate.

ALGORITMI CORSO DI STUDIO IN INFORMATICA (laurea triennale) UNIVERSITÀ DEGLI STUDI DI CATANIA ANNO ACCADEMICO 2014/15

Alberi ed Alberi Binari di Ricerca

Algoritmi e Strutture Dati. Capitolo 6 Il problema del dizionario

Strutture dati per insiemi disgiunti

Algoritmi e Strutture Dati

Si usano quando serve accesso rapido sia in lettura che in scrittura su un insieme non ordinato

Transcript:

Algoritmi e Strutture Dati Tabelle di hash Fabio Patrizi 1

Implementazioni Dizionario Tempo richiesto dall operazione più costosa: - Liste - Alberi di ricerca non bilanciati - Alberi di ricerca bilanciati - Tabelle hash O(n) O(n) O(log n) O(1) 2

Tabelle ad accesso diretto Sono dizionari basati sulla proprietà di accesso diretto alle celle di un array Idea: dizionario memorizzato in array v di m celle a ciascun elemento è associata una chiave intera nell intervallo [0,m-1] elemento con chiave k contenuto in v[k] al più n m elementi nel dizionario 3

Implementazione 4

Fattore di carico Misuriamo il grado di riempimento di una tabella usando il fattore di carico α = Dove n è il numero di elementi in essa memorizzati e m è la sua dimensione. Esempio: tabella con nomi di studenti indicizzati da numeri di matricola a 6 cifre n=100 e m=10 6! α = 0,0001 = 0,01% Grande spreco di memoria! n m 5

Pregi: Pregi e difetti Tutte le operazioni richiedono tempo O(1) Difetti: Le chiavi devono essere necessariamente interi in [0, m-1] Lo spazio utilizzato è proporzionale ad m, non al numero n di elementi: può esserci grande spreco di memoria! 6

Tabelle hash Per ovviare agli inconvenienti delle tabelle ad accesso diretto ne consideriamo un estensione: le tabelle hash Idea: Chiavi prese da un universo totalmente ordinato U (possono non essere numeri) Funzione hash: h: U [0, m-1] (funzione che trasforma chiavi in indici) Elemento con chiave k in posizione v[h(k)] 7

Le tabelle hash possono soffrire del fenomeno delle collisioni: Collisioni Si ha una collisione quando si deve inserire nella tabella hash un elemento con chiave u, e nella tabella esiste già un elemento con chiave v tale che h(u)=h(v)! il nuovo elemento andrebbe a sovrascrivere il vecchio! 8

Funzioni hash perfette Un modo per evitare il fenomeno delle collisioni è usare funzioni hash perfette. Una funzione hash si dice perfetta se è iniettiva, cioè per ogni u,v U: u v h(u) h(v) Deve essere U m 9

Implementazione 10

Esempio Tabella hash con nomi di studenti aventi come chiavi numeri di matricola nell insieme U=[234717, 235717] Funzione hash perfetta: h(k) = k - 234717 n=100 m=1000 α = 0,1 = 10% L assunzione U m necessaria per avere una funzione hash perfetta è raramente conveniente (o possibile) 11

Esempio Tabella hash con elementi aventi come chiavi lettere dell alfabeto U={A,B,C, } Funzione hash non perfetta (ma buona in pratica con m numero primo): h(k) = ascii(k) mod m Ad esempio, per m=11: h( C ) = h( N ) se volessimo inserire sia C che N nel dizionario avremmo una collisione! 12

Uniformità delle funzioni hash Per ridurre la probabilità di collisioni, una buona funzione hash dovrebbe essere in grado di distribuire in modo uniforme le chiavi nello spazio degli indici della tabella Questo si ha ad esempio se la funzione hash gode della proprietà di uniformità semplice 13

Uniformità semplice Sia P(k) la probabilità che la chiave k sia presente nel dizionario e sia: la probabilità che la cella i sia occupata. Una funzione hash h gode dell uniformità semplice se per ogni i si ha: 14

Risoluzione delle collisioni Nel caso in cui non si possano evitare le collisioni, dobbiamo trovare un modo per risolverle. Due metodi classici sono i seguenti: 1. Liste di collisione. Gli elementi sono contenuti in liste esterne alla tabella: v[i] punta alla lista degli elementi tali che h(k)=i 2. Indirizzamento aperto. Tutti gli elementi sono contenuti nella tabella: se una cella è occupata, se ne cerca un altra libera 15

Liste di collisione Esempio di tabella hash basata su liste di collisione contenente le lettere della parola: PRECIPITEVOLISS IMEVOLMENTE 16

Liste di collisione - costo La lunghezza media di una lista di collisione sarà pari al fattore di carico α = n/m. Quindi, assumento di usare una funzione di hash che gode della uniformità semplice, il tempo medio per la ricerca di un elemento sarà: T avg (n, m) = O(1 + n/m) A differenza delle tabelle ad accesso diretto e delle tabelle di hash con funzione hash perfetta, usando liste di collisione possiamo avere fattori di carico α > 1 17

Implementazione 18

trade-off spazio/tempo Le tabelle di hash con liste di collisione forniscono un ottimo esempio di bilanciamento spazio-tempo: Per m = 1 (minimo spazio) tutte le n chiavi sono in una sola lista e la tabella diventa una struttura a ricerca sequenziale (T(n,m) = O(1 + n/m) = O(n)) con spazio S(n) = O(n) Se invece siamo disposti ad utilizzare molto spazio, allora possiamo usare una funzione di hash perfetta ottenendo tempo per la ricerca T(n) = O(1) con spazio O( U ) dove U è l'universo delle chiavi associabili agli elementi del dizionario. 19

Esercizio: liste di collisione 20

Soluzione: liste di collisione / 1 21

Soluzione: liste di collisione / 2 0 1 2 3 4 5 6 7 8 9 10 46 15 83 63 97 57 26 35 22

Indirizzamento aperto Supponiamo di voler inserire un elemento con chiave k e che la sua posizione naturale h(k) sia già occupata L indirizzamento aperto consiste nell occupare un altra cella, anche se naturalmente associata ad un altra chiave Cerchiamo la cella vuota (se c è) scandendo le celle secondo una sequenza di indici: c(k,0), c(k,1), c(k,2), c(k,m-1) 23

Implementazione 24

Metodi di scansione: scansione lineare Scansione lineare: c(k,i) = ( h(k) + i ) mod m per 0 i < m 25

Esempio Inserimenti in tabella hash basata su indirizzamento aperto con scansione lineare delle lettere della parola: PRECIPITEVOLISS IMEVOLMENTE 4,8 celle scandite in media per inserimento 26

Metodi di scansione: hashing doppio La scansione lineare provoca effetti di agglomerazione, cioè lunghi gruppi di celle consecutive occupate che rallentano la scansione L hashing doppio riduce il problema: c(k,i) = h (k) + i h (k) mod m 1 2 per 0 i < m, h e h funzioni hash 1 2 27

Esempio Inserimenti in tabella hash basata su indirizzamento aperto con hashing doppio delle lettere della parola: PRECIPITEVOLISS IMEVOLMENTE 3,1 celle scandite in media per inserimento 28

Analisi del costo di scansione 2 29

Esercizio: indirizzamento aperto 30

Soluzione: indirizzamento aperto 0 1 2 3 4 5 6 7 8 9 10 35 57 26 15 83 46 63 97 31

Cancellazione elementi con indir. aperto Se per cancellare un elemento sostituisco il valore della cella che lo contiene con null l'implementazione del metodo di ricerca non funzionerebbe più! Idea: utilizzo un valore speciale canc invece di null. 32

Cancellazione elementi con indir. aperto 33

Riepilogo La proprietà di accesso diretto alle celle di un array consente di realizzare dizionari con operazioni in tempo O(1) indicizzando gli elementi usando le loro stesse chiavi (purché siano intere) L array può essere molto grande se lo spazio delle chiavi è grande Per ridurre questo problema si possono usare funzioni hash che trasformano chiavi (anche non numeriche) in indici Usando funzioni hash possono aversi collisioni Tecniche classiche per risolvere le collisioni sono liste di collisione e indirizzamento aperto 34