Algoritmi e Strutture Dati. Hashing
|
|
|
- Riccardo Patti
- 9 anni fa
- Просмотров:
Транскрипт
1 Algoritmi e Strutture Dati Hashing Alberto Montresor Università di Trento 2016/10/19 This work is licensed under a Creative Commons Attribution-ShareAlike 4.0 International License.
2 Sommario 1 Introduzione Motivazioni Definizioni base Tabelle ad accesso diretto 2 Funzioni hash Introduzione Funzioni hash semplici Reality check 3 Gestione collisioni Liste di trabocco Reality check 4 Conclusioni
3 Introduzione Motivazioni Array associativi, mappe e dizionari Python > > > v = {} > > > v[10] = 5 > > > v["alberto"] = 42 > > > v[10]+v["alberto"] 47 Go ages := make(map[string]int) ages["alice"]=44 ages["alberto"]=44 ages["alberto"]++ delete(ages, "alice") Java Map<String, String> capoluoghi = new HashMap<>(); capoluoghi.put("toscana", "Firenze"); capoluoghi.put("lombardia", "Milano"); capoluoghi.put("sardegna", "Cagliari"); Alberto Montresor (UniTN) ASD - Hashing 2016/10/19 1 / 47
4 Introduzione Motivazioni Introduzione Ripasso Un dizionario è una struttura dati utilizzata per memorizzare insiemi dinamici di coppie chiave, valore Le coppie sono indicizzate in base alla chiave Il valore è un "dato satellite" Operazioni: lookup(key) value insert(key, value) remove(key) Applicazioni: Le tabelle dei simboli di un compilatore I dizionari di Python... Alberto Montresor (UniTN) ASD - Hashing 2016/10/19 2 / 47
5 Introduzione Motivazioni Possibili implementazioni Array non ordinato Array ordinato Lista Alberi RB Implemen. ideale insert() O(1), O(n) O(n) O(1), O(n) O(log n) O(1) lookup() O(n) O(log n) O(n) O(log n) O(1) remove() O(n) O(n) O(n) O(log n) O(1) Implementazione ideale: tabelle hash Si sceglie una funzione hash h che mappa ogni chiave k U in un intero h(k) La coppia chiave valore k, v viene memorizzata in un vettore nella posizione h(k) Questo vettore viene detto tabella hash Alberto Montresor (UniTN) ASD - Hashing 2016/10/19 3 / 47
6 Introduzione Definizioni base Tabelle hash Definizioni L insieme delle possibili chiavi è rappresentato dall insieme universo U di dimensione u Il vettore T [0... m 1] ha dimensione m Una funzione hash è definita come h : U {0, 1,..., m 1} Chiavi Alberto Montresor Cristian Consonni Alessio Guerrieri Edsger Dijkstra Funzione hash Tabella hash m-3 m-2 m-1 Alberto Montresor (UniTN) ASD - Hashing 2016/10/19 4 / 47
7 Introduzione Definizioni base Collisioni Quando due o più chiavi nel dizionario hanno lo stesso valore hash, diciamo che è avvenuta una collisione Idealmente, vogliamo funzioni hash senza collisioni Chiavi Funzione hash Tabella hash Alberto Montresor Cristian Consonni Alessio Guerrieri Edsger Dijkstra Collisione m-3 m-2 m-1 Alberto Montresor (UniTN) ASD - Hashing 2016/10/19 5 / 47
8 Introduzione Tabelle ad accesso diretto Tabelle ad accesso diretto Caso particolare: l insieme U è già un sottoinsieme (piccolo) di Z + L insieme dei giorni dell anno, numerati da 1 a 366 L insieme dei Pokemon di Kanto, numerati da 1 a 151 Tabella a accesso diretto Si utilizza la funzione hash identità h(k) = k Si sceglie un valore m pari a u Problemi Se u è molto grande, l approccio potrebbe non essere praticabile Se u non è grande ma il numero di chiavi effettivamentre registrate è molto minore di u = m, si spreca memoria Alberto Montresor (UniTN) ASD - Hashing 2016/10/19 6 / 47
9 Sommario 1 Introduzione Motivazioni Definizioni base Tabelle ad accesso diretto 2 Funzioni hash Introduzione Funzioni hash semplici Reality check 3 Gestione collisioni Liste di trabocco Reality check 4 Conclusioni
10 Funzioni hash Introduzione Funzioni hash perfette Definizione Una funzione hash h si dice perfetta se è iniettiva, ovvero k 1, k 2 U : k 1 k 2 h(k 1 ) h(k 2 ) Esempi Studenti ASD N. matricola in [ , ] h(k) = k , m = Studenti immatricolati 2014 N. matricola in [ , ] h(k) = k , m = Problemi Spazio delle chiavi spesso grande, sparso, non conosciuto È spesso impraticabile ottenere una funzione hash perfetta Alberto Montresor (UniTN) ASD - Hashing 2016/10/19 7 / 47
11 Funzioni hash Introduzione Funzioni hash Se le collisioni non sono evitabili... almeno cerchiamo di minimizzare il loro numero vogliamo funzioni che distribuiscano uniformemente le chiavi negli indici [0... m 1] della tabella hash Uniformità semplice Sia P (k) la probabilità che una chiave k sia inserita nella tabella Sia Q(i) la probabilità che una chiave finisca nella cella i Q(i) = P (k) k U:h(k)=i Una funzione hash h gode della proprietà di uniformità semplice se: i [0,..., m 1] : Q(i) = 1/m Alberto Montresor (UniTN) ASD - Hashing 2016/10/19 8 / 47
12 Funzioni hash Introduzione Funzioni hash Per poter ottenere una funzione hash con uniformità semplice, la distribuzione delle probabilità P deve essere nota Esempio Se U è dato dai numeri reali in [0, 1[ e ogni chiave ha la stessa probabilità di essere scelta, allora H(k) = km soddisfa la proprietà di uniformità semplice Nella realtà La distribuzione esatta può non essere (completamente) nota Si utilizzano allora tecniche "euristiche" Alberto Montresor (UniTN) ASD - Hashing 2016/10/19 9 / 47
13 Funzioni hash Funzioni hash semplici Come realizzare una funzione hash Assunzione Le chiavi possono essere tradotte in valori numerici non negativi, anche interpretando la loro rappresentazione in memoria come un numero. Esempio: trasformazione stringhe ord(c): valore ordinale binario del carattere c in qualche codifica bin(k): rappresentazione binaria della chiave k, concatenando i valori binari dei caratteri che lo compongono int(b): valore numerico associato al numero binario b int(k) = int(bin(k)) Alberto Montresor (UniTN) ASD - Hashing 2016/10/19 10 / 47
14 Funzioni hash Funzioni hash semplici Come realizzare una funzion hash Nei prossimi esempi Utilizziamo codice ASCII a 8 bit bin( DOG ) = ord( D ) ord( O ) ord( G ) = int( DOG ) = = 4, 476, 743 Alberto Montresor (UniTN) ASD - Hashing 2016/10/19 11 / 47
15 Funzioni hash Funzioni hash semplici Funzione hash - Estrazione Estrazione m = 2 p H(k) = int(b), dove b è un sottoinsieme di p bit presi da bin(k) Esempio 1 m = 2 p = 2 16 = 65536; restituisce i 16 bit meno significativi di bin(k) bin( Alberto ) = bin( Roberto ) = H( Alberto ) = int( ) = H( Roberto ) = int( ) = Alberto Montresor (UniTN) ASD - Hashing 2016/10/19 12 / 47
16 Funzioni hash Funzioni hash semplici Funzione hash - Estrazione Estrazione m = 2 p H(k) = int(b), dove b è un sottoinsieme di p bit presi da bin(k) Esempio 2 m = 2 p = 2 16 = 65536; 16 bit presi all interno di bin(k) bin( Alberto ) = bin( Alessio ) = H( Alberto ) = int( ) = H( Alessio ) = int( ) = Alberto Montresor (UniTN) ASD - Hashing 2016/10/19 12 / 47
17 Funzioni hash Funzioni hash semplici Funzione hash - XOR XOR m = 2 p H(k) = int(b), dove b è dato dalla somma modulo 2, effettuata bit a bit, di sottoinsiemi di p bit di bin(k) Esempio m = 2 16 = 65536; 5 gruppi di 16 bit ottenuti con 8 zeri di "padding" bin( montresor ) = H( montresor ) = int( ) = Alberto Montresor (UniTN) ASD - Hashing 2016/10/19 13 / 47
18 Funzioni hash Funzioni hash semplici Funzione hash - XOR XOR m = 2 p H(k) = int(b), dove b è dato dalla somma modulo 2, effettuata bit a bit, di sottoinsiemi di p bit di bin(k) Esempio m = 2 16 = 65536; 5 gruppi di 16 bit ottenuti con 8 zeri di "padding" bin( sontremor ) = H( sontremor ) = int( ) = Alberto Montresor (UniTN) ASD - Hashing 2016/10/19 13 / 47
19 Funzioni hash Funzioni hash semplici Funzione hash - Metodo della divisione Metodo della divisione m dispari, meglio se numero primo H(k) = int(k) mod m Esempio m = 383 H( Alberto ) = mod 383 = 221 H( Alessio ) = mod 383 = 77 H( Cristian ) = mod 383 = 130 Alberto Montresor (UniTN) ASD - Hashing 2016/10/19 14 / 47
20 Funzioni hash Funzioni hash semplici Funzione hash - Metodo della divisione Non vanno bene: m = 2 p : solo i p bit meno significativi vengono considerati m = 2 p 1: permutazione di stringhe con set di caratteri di dimensione 2 p hanno lo stesso valore hash (Esercizio: dimostrare) Vanno bene: Numeri primi, distanti da potenze di 2 (e di 10) Alberto Montresor (UniTN) ASD - Hashing 2016/10/19 15 / 47
21 Funzioni hash Funzioni hash semplici Funzione hash - Metodo della moltiplicazione (Knuth) Metodo della moltiplicazione m qualsiasi, meglio se potenza di 2 C costante reale, 0 < C < 1 Sia i = int(k) H(k) = m(c i C i ) Esempio m = 2 16 C = H( Alberto ) = = H( Alessio ) = = H( Cristian ) = = Alberto Montresor (UniTN) ASD - Hashing 2016/10/19 16 / 47
22 Funzioni hash Funzioni hash semplici Metodo della moltiplicazione - Implementazione Funzioni hash Si scelga un valore m = 2 p Sia w la dimensione in bit della parola di memoria: i, m 2 w Sia s = C 2 w i s può essere scritto come r 1 2 w + r 0 r 1 contiene la parte intera di ic r 0 contiene la parte frazionaria di ic Si restituiscano i p-bit più significativi di r 0 w bit i s = C 2 w r 1 H(k) r 0 estrai p bits Alberto Montresor (UniTN) ASD - Hashing 2016/10/19 17 / 47 Alberto Montresor 18
23 Funzioni hash Reality check Reality check Non è poi così semplice... Il metodo della moltiplicazione suggerito da Knuth non fornisce hashing uniforme Test moderni per valutare la bontà delle funzioni hash Avalanche effect: Se si cambia un bit nella chiave, deve cambiare almeno la metà dei bit del valore hash Test statistici (Chi-square) Funzioni crittografiche (SHA-1) Alberto Montresor (UniTN) ASD - Hashing 2016/10/19 18 / 47
24 Funzioni hash Reality check Funzioni hash moderne Nome Note Link FNV Hash Murmur Hash City Hash Farm Hash Funzione hash non crittografica, creata nel Funzione hash non crittografica, creata nel 2008, il cui uso è ormai sconsigliato perchè debole. Una famiglia di funzioni hash non-crittografiche, progettate da Google per essere molto veloce. Ha varianti a 32, 64, 128, 256 bit. Il successore di City Hash, sempre sviluppato da Google. [Wikipedia] [Codice] [Wikipedia] [Codice] [Wikipedia] [Codice] [Codice] Alberto Montresor (UniTN) ASD - Hashing 2016/10/19 19 / 47
25 Sommario 1 Introduzione Motivazioni Definizioni base Tabelle ad accesso diretto 2 Funzioni hash Introduzione Funzioni hash semplici Reality check 3 Gestione collisioni Liste di trabocco Reality check 4 Conclusioni
26 Problema delle collisioni Come gestire le collisioni? Dobbiamo trovare posizioni alternative per le chiavi Se una chiave non si trova nella posizione attesa, bisogna cercarla nelle posizioni alternative Questa ricerca: dovrebbe costare O(1) nel caso medio può costare O(n) nel caso pessimo Due possibili tecniche Liste di trabocco o memorizzazione esterna o memorizzazione interna Alberto Montresor (UniTN) ASD - Hashing 2016/10/19 20 / 47
27 Tecniche di risoluzione delle collisioni Liste di trabocco Liste di trabocco (Concatenamento o Chaining) Liste di trabocco (chaining) Idea Gli elementi con lo stesso 0 Le chiavi valore hash conh lo vengono stesso valore memorizzati in una lista hash h vengono memorizzate in una Si memorizza lista monodirezionale un puntatore alla testa della lista nello Si memorizza un puntatore slot A[h] della tabella hash alla testa della lista nello slot k 1 k 5 k 4 k 2 k 6 H(k)-esimo Operazioni: della tabella hash k 7 Insert: Operazioni inserimento in testa k 8 k 3 m 1 insert(): Lookup, Delete: inserimento richiedono di in scandire testa la lista alla ricerca della chiave lookup(), remove(): scansione della lista alla Alberto Montresor ricerca della chiave 20 Alberto Montresor (UniTN) ASD - Hashing 2016/10/19 21 / 47
28 Liste di trabocco Liste di trabocco: analisi complessità n m α = n/m I(α) S(α) Numero di chiavi memorizzati in tabella hash Capacità della tabella hash Fattore di carico Numero medio di accessi alla tabella per la ricerca di una chiave non presente nella tabella (ricerca con insuccesso) Numero medio di accessi alla tabella per la ricerca di una chiave presente nella tabella (ricerca con successo) Analisi del caso pessimo Tutte le chiavi sono collocate in unica lista insert(): Θ(1) lookup(), remove(): Θ(n) Alberto Montresor (UniTN) ASD - Hashing 2016/10/19 22 / 47
29 te di trabocco: complessità Gestione collisioni Liste di trabocco Liste di trabocco: analisi complessità eorema: Analisi In tavola del hash caso con medio: concatenamento, assunzioni una ricerca senza successo richiede un tempo atteso Ө(1 + α) Dipende da come le chiavi vengono distribuite imostrazione: Assumiamo hashing uniforme semplice Una chiave non presente nella tabella può essere collocata in uno qualsiasi degli m slot Costo calcolo funzione di hashing: Θ(1) Quanto Una ricerca sono senza lunghe successo le liste? tocca tutte le chiavi nella lista corrispondente Tempo di hashing: 1 + lunghezza Il valore attesa atteso lista: della α Θ(1+α) lunghezza di una lista è pari 1 a α = n/m k 1 k 4 α Alberto Montresor (UniTN) ASD - Hashing 2016/10/19 23 / 47
30 Liste di trabocco Liste di trabocco: analisi complessità Costo hashing Una chiave presente o non presente in tabella può essere collocata in uno qualsiasi degli m slot Costo di hashing: Θ(1) Ricerca senza successo Ricerca con successo Una ricerca senza successo tocca tutte le chiavi nella lista corrispondente Una ricerca con successo tocca in media metà delle chiavi nella lista corrispondente Costo atteso: Θ(1) + α Costo atteso: Θ(1) + α/2 Alberto Montresor (UniTN) ASD - Hashing 2016/10/19 24 / 47
31 Liste di trabocco Liste di trabocco: analisi complessità Qual è il significato del fattore di carico? Influenza il costo computazionale delle operazioni sulle tabelle hash Se m = O(n), α = O(1) Quindi tutte le operazioni sono O(1) Alberto Montresor (UniTN) ASD - Hashing 2016/10/19 25 / 47
32 Problemi delle liste di trabocco Struttura dati complessa, con liste, puntatori, etc. Gestione alternativa: indirizzamento aperto Idea: memorizzare tutte le chiavi nella tabella stessa Ogni slot contiene una chiave oppure nil Inserimento Se lo slot prescelto è utilizzato, si cerca uno slot "alternativo" Ricerca Si cerca nello slot prescelto, e poi negli slot "alternativi" fino a quando non si trova la chiave oppure nil Alberto Montresor (UniTN) ASD - Hashing 2016/10/19 26 / 47
33 Definizioni Ispezione Un ispezione è l esame di uno slot durante la ricerca. Funzione hash Estesa nel modo seguente: H : U Numero ispezione Indice vettore {}}{{}}{ [0... m 1] [0... m 1] Sequenza di ispezione Una sequenza di ispezione [H(k, 0), H(k, 1),..., H(k, m 1)] è una permutazione degli indici [0,..., m 1] corrispondente all ordine in cui vengono esaminati gli slot. Non vogliamo esaminare ogni slot più di una volta Potrebbe essere necessario esaminare tutti gli slot nella tabella Alberto Montresor (UniTN) ASD - Hashing 2016/10/19 27 / 47
34 Esempio k 1 k 2 k 3 k 4 k 5 H(k,0) erto Montresor Alberto Montresor (UniTN) ASD - Hashing 2016/10/19 28 / 47
35 Esempio k 1 k 2 k 3 k 4 k 5 H(k,0) H(k,1) erto Montresor Alberto Montresor (UniTN) ASD - Hashing 2016/10/19 28 / 47
36 Esempio k 1 k 2 k 3 k 4 k 5 H(k,0) H(k,2) H(k,1) erto Montresor Alberto Montresor (UniTN) ASD - Hashing 2016/10/19 28 / 47
37 Esempio k 1 k 2 k 3 k 4 k 5 H(k,0) H(k,2) H(k,1) H(k,3) erto Montresor Alberto Montresor (UniTN) ASD - Hashing 2016/10/19 28 / 47
38 Esempio k 1 k 2 k 3 k 4 k 5 H(k,0) H(k,2) H(k,1) H(k,3) H(k,4) erto Montresor Alberto Montresor (UniTN) ASD - Hashing 2016/10/19 28 / 47
39 Esempio k 1 k 2 k 3 k 4 k 5 H(k,0) H(k,2) H(k,1) H(k,3) H(k,4) H(k,5) erto Montresor Alberto Montresor (UniTN) ASD - Hashing 2016/10/19 28 / 47
40 Fattore di carico Cosa succede al fattore di carico α? Compreso fra 0 e 1 La tabella può andare in overflow Inserimento in tabella piena Esistono tecniche di crescita/contrazione della tabella Raddoppio/dimezzamento con re-inserimento Linear hashing Alberto Montresor (UniTN) ASD - Hashing 2016/10/19 29 / 47
41 Tecniche di ispezione Hashing uniforme La situazione ideale prende il nome di hashing uniforme, in cui ogni chiave ha la stessa probabilità di avere come sequenza di ispezione una qualsiasi delle m! permutazioni di [0,..., m 1]. Generalizzazione dell hashing uniforme semplice Nella realtà: E difficile implementare il vero hashing uniforme Ci si accontenta di ottenere almeno una permutazione Tecniche diffuse: Ispezione lineare Ispezione quadratica Doppio hashing Alberto Montresor (UniTN) ASD - Hashing 2016/10/19 30 / 47
42 Ispezione lineare Funzione: H(k, i) = (H 1 (k) + h i) mod m La sequenza H 1 (k), H 1 (k) + h, H 1 (k) + 2 h,..., H 1 (k) + (m 1) h (modulo m) è determinata dal primo elemento Al massimo m sequenze di ispezione distinte sono possibili Agglomerazione primaria (primary clustering) Lunghe sotto-sequenze occupate che tendono a diventare più lunghe: uno slot vuoto preceduto da i slot pieni viene riempito con probabilità (i + 1)/m I tempi medi di inserimento e cancellazione crescono Alberto Montresor (UniTN) ASD - Hashing 2016/10/19 31 / 47
43 Agglomerazione primaria Agglomerazione primaria (primary clustering) Lunghe sotto-sequenze occupate che tendono a diventare più lunghe: uno slot vuoto preceduto da i slot pieni viene riempito con probabilità (i + 1)/m I tempi medi di inserimento e cancellazione crescono k 1 k 1 Alberto Montresor (UniTN) ASD - Hashing 2016/10/19 32 / 47
44 Agglomerazione primaria Agglomerazione primaria (primary clustering) Lunghe sotto-sequenze occupate che tendono a diventare più lunghe: uno slot vuoto preceduto da i slot pieni viene riempito con probabilità (i + 1)/m I tempi medi di inserimento e cancellazione crescono k 2 k 1 k 2 Alberto Montresor (UniTN) ASD - Hashing 2016/10/19 32 / 47
45 Agglomerazione primaria Agglomerazione primaria (primary clustering) Lunghe sotto-sequenze occupate che tendono a diventare più lunghe: uno slot vuoto preceduto da i slot pieni viene riempito con probabilità (i + 1)/m I tempi medi di inserimento e cancellazione crescono k 3 k 1 k 2 k 3 Alberto Montresor (UniTN) ASD - Hashing 2016/10/19 32 / 47
46 Agglomerazione primaria Agglomerazione primaria (primary clustering) Lunghe sotto-sequenze occupate che tendono a diventare più lunghe: uno slot vuoto preceduto da i slot pieni viene riempito con probabilità (i + 1)/m I tempi medi di inserimento e cancellazione crescono k 4 k 1 k 2 k 3 k 4 Alberto Montresor (UniTN) ASD - Hashing 2016/10/19 32 / 47
47 Agglomerazione primaria Agglomerazione primaria (primary clustering) Lunghe sotto-sequenze occupate che tendono a diventare più lunghe: uno slot vuoto preceduto da i slot pieni viene riempito con probabilità (i + 1)/m I tempi medi di inserimento e cancellazione crescono k 5 k 1 k 2 k 3 k 4 k 5 Alberto Montresor (UniTN) ASD - Hashing 2016/10/19 32 / 47
48 Ispezione quadratica Funzione: H(k, i) = (H 1 (k) + h i 2 ) mod m Dopo il primo elemento H 1 (k, 0), le ispezioni successive hanno un offset che dipende da una funzione quadratica nel numero di ispezione i La sequenza risultante non è una permutazione! Al massimo m sequenze di ispezione distinte sono possibili Agglomerazione secondaria (secondary clustering) Se due chiavi hanno la stessa ispezione iniziale, le loro sequenze sono identiche Alberto Montresor (UniTN) ASD - Hashing 2016/10/19 33 / 47
49 Doppio hashing Funzione: H(k, i) = (H 1 (k) + i H 2 (k)) mod m Due funzioni ausiliarie: H 1 fornisce la prima ispezione H 2 fornisce l offset delle successive ispezioni Al massimo m 2 sequenze di ispezione distinte sono possibili Per garantire una permutazione completa, H 2 (k) deve essere relativamente primo con m Scegliere m = 2 p e H 2 (k) deve restituire numeri dispari Scegliere m primo, e H 2 (k) deve restituire numeri minori di m Alberto Montresor (UniTN) ASD - Hashing 2016/10/19 34 / 47
50 Cancellazione Non possiamo semplicemente sostituire la chiave che vogliamo cancellare con un nil. Perché? Alberto Montresor (UniTN) ASD - Hashing 2016/10/19 35 / 47
51 Cancellazione Non possiamo semplicemente sostituire la chiave che vogliamo cancellare con un nil. Perché? k 1 k 2 k 3 nil k 5 H(k5,0) H(k5,2) H(k5,1) H(k5,3) Alberto Montresor (UniTN) ASD - Hashing 2016/10/19 35 / 47
52 Cancellazione Approccio Utilizziamo un speciale valore deleted al posto di nil per marcare uno slot come vuoto dopo la cancellazione Ricerca: deleted trattati come slot pieni Inserimento: deleted trattati come slot vuoti Svantaggio: il tempo di ricerca non dipende più da α Concatenamento più comune se si ammettono cancellazioni k 1 k 2 k 3 del k 5 H(k5,0) H(k5,2) H(k5,1) H(k5,3) H(k5,4) Alberto Montresor (UniTN) ASD - Hashing 2016/10/19 35 / 47
53 Implementazione - Hashing doppio Hash Item[ ] K Item[ ] V integer m Hash Hash(integer dim) Hash t new Hash t.m dim t.k new Item[0... dim 1] t.v new Item[0... dim 1] for i 0 to dim 1 do t.k[i] nil return t % Tabella delle chiavi % Tabella dei valori % Dimensione della tabella Alberto Montresor (UniTN) ASD - Hashing 2016/10/19 36 / 47
54 Implementazione - Hashing doppio integer scan(item k, boolean insert) integer c m % Prima posizione deleted integer i 0 % Numero di ispezione integer j H(k) % Posizione attuale while K[j] k and K[j] nil and i < m do if K[j] = deleted and c = m then c j j (j + H (k)) mod m i i + 1 if insert and K[j] k and c < m then j c return j Alberto Montresor (UniTN) ASD - Hashing 2016/10/19 37 / 47
55 Implementazione - Hashing doppio Item lookup(item k) integer i scan(k, false) if K[i] = k then return V [i] else return nil insert(item k, Item v) integer i scan(k, true) if K[i] = nil or K[i] = deleted or K[i] = k then K[i] k V [i] v else % Errore: tabella hash piena Alberto Montresor (UniTN) ASD - Hashing 2016/10/19 38 / 47
56 Implementazione - Hashing doppio remove(item k) integer i scan(k, false) if K[i] = k then K[i] deleted Alberto Montresor (UniTN) ASD - Hashing 2016/10/19 39 / 47
57 Complessità Metodo α I(α) S(α) (1 α) α/2 Lineare 0 α < 1 2(1 α) 2 1 α Hashing doppio 0 α < α 1 ln(1 α) α Liste di trabocco α α 1 + α/2 Alberto Montresor (UniTN) ASD - Hashing 2016/10/19 40 / 47
58 Complessità Alberto Montresor (UniTN) ASD - Hashing 2016/10/19 41 / 47
59 Ristrutturazione Non è conveniente che α cresca troppo In particolare con la scansione interna Ma vale anche per le liste di trabocco Sopra un soglia t α prefissata (tipicamente ) Si alloca una nuova tabella di dimensione 2m Si reinseriscono tutte le chiavi presenti nella nuova tabella Risultato Fattore di carico dimezzato (tipicamente 0.25) Nessun elemento deleted Costi Costo O(m) per la ristrutturazione nel caso pessimo Costo ammortizzato costante (vedi dimostrazione per vettori) Alberto Montresor (UniTN) ASD - Hashing 2016/10/19 42 / 47
60 Reality check Reality check Linguaggio Tecnica t α Note Java 7 HashMap Java 8 HashMap C++ sparse_hash C++ dense_hash C++ STL unordered_map Python Liste di trabocco basate su LinkedList Liste di trabocco basate su RB Tree Ind. aperto, scansione quadratica Ind. aperto, scansione quadratica Liste di trabocco basate su liste Indirizzam. aperto, scansione quadratica 0.75 O(n) nel caso pessimo Overhead: 16n + 4m byte 0.75 O(log n) nel caso pessimo Overhead: 48n + 4m byte? Overhead: 2n bit 0.5 X byte per chiave-valore 2-3X overhead 1.00 MurmurHash 0.66 Alberto Montresor (UniTN) ASD - Hashing 2016/10/19 43 / 47
61 Reality check Java hashcode() Dalla documentazione di java.lang.object The general contract of hashcode() is: 1 Whenever it is invoked on the same object more than once during an execution of a Java application, the hashcode() method must consistently return the same integer, provided no information used in equals comparisons on the object is modified. This integer need not remain consistent from one execution of an application to another execution of the same application. 2 If two objects are equal according to the equals(object) method, then calling the hashcode() method on each of the two objects must produce the same integer result. 3 It is not required that if two objects are unequal according to the equals(object) method, then calling the hashcode() method on each of the two objects must produce distinct integer results. However, the programmer should be aware that producing distinct integer results for unequal objects may improve the performance of hash tables. Alberto Montresor (UniTN) ASD - Hashing 2016/10/19 44 / 47
62 Reality check Java hashcode() Se una classe non fa override di equals(): Eredita i metodi equals() e hashcode() così come definiti da java.lang.object: x.equals(y) ritorna true se e solo se x == y x.hashcode() converte l indirizzo di memoria di x in un intero Se una classe fa ovveride di equals(): Deve fare ovverride anche di hashcode() "Always override hashcode when you override equals", in Bloch, Joshua (2008), Effective Java (2nd ed.) Alberto Montresor (UniTN) ASD - Hashing 2016/10/19 45 / 47
63 Reality check Java hashcode() Esempio: java.lang.string Override di equals() per controllare l uguaglianza di stringhe hashcode() in Java 1.0, Java 1.1 Utilizzati 16 caratteri della stringa per calcolare l hashcode() Problemi con la regola (3) - cattiva performance nelle tabelle hashcode() in Java 1.2 e seguenti: n 1 h(s) = s[i] 31 n 1 i (utilizzando aritmetica int) i=0 Alberto Montresor (UniTN) ASD - Hashing 2016/10/19 46 / 47
64 Sommario 1 Introduzione Motivazioni Definizioni base Tabelle ad accesso diretto 2 Funzioni hash Introduzione Funzioni hash semplici Reality check 3 Gestione collisioni Liste di trabocco Reality check 4 Conclusioni
65 Conclusioni Considerazioni finali Problemi con hashing Scarsa "locality of reference" (cache miss) Non è possibile ottenere le chiavi in ordine Hashing utilizzato in altre strutture dati Distributed Hash Table (DHT) Bloom filters Oltre le tabelle hash Data deduplication Protezioni dati con hash crittografici (MD5) Alberto Montresor (UniTN) ASD - Hashing 2016/10/19 47 / 47
Algoritmi e Strutture Dati. Hashing
Algoritmi e Strutture Dati Hashing Alberto Montresor Università di Trento 2016/10/19 This work is licensed under a Creative Commons Attribution-ShareAlike 4.0 International License. Sommario 1 Introduzione
Algoritmi e Strutture Dati
Algoritmi e Strutture Dati Capitolo 7 - Tabelle hash Alberto Montresor Università di Trento This work is licensed under the Creative Commons Attribution-NonCommercial-ShareAlike License. To view a copy
Dizionario. Marina Zanella Algoritmi e strutture dati Tabelle hash 1
Dizionario Insieme dinamico che offre solo le seguenti operazioni: inserimento di un elemento dato cancellazione di un elemento dato ricerca di un elemento dato (verifica dell appartenenza di un elemento
Esercizi Capitolo 7 - Hash
Esercizi Capitolo 7 - Hash Alberto Montresor 19 Agosto, 2014 Alcuni degli esercizi che seguono sono associati alle rispettive soluzioni. Se il vostro lettore PDF lo consente, è possibile saltare alle rispettive
TABELLE AD INDIRIZZAMENTO DIRETTO
Tabelle Servono per implementare dizioniari in modo efficiente. dizionari insiemi di coppie (chiave, valore). Esempio: in un compilatore di un linguaggio di programmazione viene creata una tabella dei
Tabelle hash. Damiano Macedonio Università Ca' Foscari di Venezia. [email protected]
Tabelle hash Damiano Macedonio Università Ca' Foscari di Venezia [email protected] Original work Copyright Alberto Montresor, University of Trento (http://www.dit.unitn.it/~montreso/asd/index.shtml) Modifications
Sommario. Tabelle ad indirizzamento diretto e hash Funzioni Hash
Funzioni Hash Sommario Tabelle ad indirizzamento diretto e hash Funzioni Hash Requisiti Metodo della divisione Metodo della moltiplicazione Funzione Hash Universale La ricerca Talvolta si richiede che
Hash Tables. Ilaria Castelli A.A. 2009/2010. Università degli Studi di Siena Dipartimento di Ingegneria dell Informazione
Hash Tables Ilaria Castelli [email protected] Università degli Studi di Siena Dipartimento di Ingegneria dell Informazione A.A. 2009/2010 I. Castelli Hash Tables, A.A. 2009/2010 1/42 Hash Tables Indirizzamento
Esercitazione 5 Algorithmi e Strutture Dati (Informatica) A.A 2015/2016
Esercitazione 5 Algorithmi e Strutture Dati (Informatica) A.A 2015/2016 Tong Liu April 7, 2016 Liste trabocco (Separate Chaining) Esercizio 1 [Libro 7.5] Un dizionario è realizzato con liste di trabocco.
Massimo Benerecetti Tabelle Hash
Massimo Benerecetti Tabelle Hash # Lezione n. Parole chiave: Corso di Laurea: Informatica Insegnamento: Algoritmi e Strutture Dati I Email Docente: [email protected] A.A. 2009-2010 Rappresentazione di insiemi
Massimo Benerecetti Tabelle Hash: gestione delle collisioni
Massimo Benerecetti Tabelle Hash: gestione delle collisioni # Lezione n. Parole chiave: Corso di Laurea: Informatica Insegnamento: Algoritmi e Strutture Dati I Email Docente: [email protected] A.A. 2009-2010
Algoritmi e Strutture Dati
[email protected] Laurea di Informatica - Università di Ferrara 2011-2012 [1] I Dizionari I dizionari sono un caso particolare di insieme in cui sono possibili le seguenti operazioni: verificare l appartenenza
Algoritmi e Strutture Dati. Insiemi e dizionari Riassunto finale
Algoritmi e Strutture Dati Insiemi e dizionari Riassunto finale Alberto Montresor Università di Trento 2016/10/19 This work is licensed under a Creative Commons Attribution-ShareAlike 4.0 International
Indirizzamento Aperto
Indirizzamento Aperto Sommario Metodo di indirizzamento aperto Scansione lineare Scansione quadratica Hashing doppio Metodo di indirizzamento aperto L idea è di memorizzare tutti gli elementi nella tabella
Dizionari. Hashtables.
Dizionari Hashtables http://www.dia.uniroma3.it/~roselli/ [email protected] Credits Materiale a cura del Prof. Franco Milicchio Introduzione I tipi di dato che abbiamo introdotto fino ad ora sono
Esercizi Capitolo 10 - Code con priorità e insiemi disgiunti
Esercizi Capitolo 10 - Code con priorità e insiemi disgiunti Alberto Montresor 19 Agosto, 2014 Alcuni degli esercizi che seguono sono associati alle rispettive soluzioni. Se il vostro lettore PDF lo consente,
Il problema dello zaino
Il problema dello zaino (knapsack problem) Damiano Macedonio [email protected] Copyright 2010 2012 Moreno Marzolla, Università di Bologna (http://www.moreno.marzolla.name/teaching/asd2011b/) This work is licensed
Esercizi vari. Alberto Montresor. 19 Agosto, 2014
Esercizi vari Alberto Montresor 19 Agosto, 2014 Alcuni degli esercizi che seguono sono associati alle rispettive soluzioni. Se il vostro lettore PDF lo consente, è possibile saltare alle rispettive soluzioni
Esercizi Capitolo 10 - Code con priorità e insiemi disgiunti
Esercizi Capitolo 10 - Code con priorità e insiemi disgiunti Alberto Montresor 27 marzo 2012 Alcuni degli esercizi che seguono sono associati alle rispettive soluzioni. Se il vostro lettore PDF lo consente,
Algoritmi e strutture dati. Analisi di algoritmi Funzioni di costo, notazione asintotica
Algoritmi e strutture dati Analisi di algoritmi Funzioni di costo, notazione asintotica Alberto Montresor Università di Trento 2016/09/11 This work is licensed under a Creative Commons Attribution-ShareAlike
Organizzazione Fisica dei Dati (Parte II)
Modello Fisico dei Dati Basi di Dati / Complementi di Basi di Dati 1 Organizzazione Fisica dei Dati (Parte II) Angelo Montanari Dipartimento di Matematica e Informatica Università di Udine Modello Fisico
Algoritmi e Strutture Dati. Introduzione
Algoritmi e Strutture Dati Introduzione Alberto Montresor Università di Trento 2016/09/14 This work is licensed under a Creative Commons Attribution-ShareAlike 4.0 International License. Sommario 1 Introduzione
Studio degli algoritmi
COMPLESSITÀ COMPUTAZIONALE DEGLI ALGORITMI Fondamenti di Informatica a.a.2006/07 Prof. V.L. Plantamura Dott.ssa A. Angelini Studio degli algoritmi Dato un problema P, le problematiche riguardano: Sintesi
La Rappresentazione dell Informazione
La Rappresentazione dell Informazione Parte III I codici Codici a.a. 27-28 Un codice è una funzione che associa ad una sequenza di simboli un significato Codice : {entità} {sequenze di simboli} Un codice
INDICI PER FILE. Accesso secondario. Strutture ausiliarie di accesso
INDICI PER FILE Strutture ausiliarie di accesso 2 Accesso secondario Diamo per scontato che esista già un file con una certa organizzazione primaria con dati non ordinati, ordinati o organizzati secondo
Esercizi di Algoritmi e Strutture Dati
Esercizi di Algoritmi e Strutture Dati Moreno Marzolla http://www.moreno.marzolla.name/ Ultima Modifica: 7 ottobre 202 Copyright Portions of this work are Copyright 202, Moreno Marzolla. This work is licensed
Algoritmi e Strutture Dati. Alberi
Algoritmi e Strutture Dati Alberi Alberto Montresor Università di Trento 2017/10/19 This work is licensed under a Creative Commons Attribution-ShareAlike 4.0 International License. Sommario 1 Introduzione
Alberto Montresor Università di Trento
!! Algoritmi e Strutture Dati! Capitolo 5 - Alberi!!! Alberto Montresor Università di Trento!! This work is licensed under the Creative Commons Attribution-NonCommercial-ShareAlike License. To view a copy
Hash Table. Hash Table
Hash Table La ricerca di un elemento su una lista (semplice o doppia) presenta una complessità di tipo O(n), dato che occorre scandire (al più) l intera lista per poter trovare l elemento desiderato. Le
Strutture dati per insiemi disgiunti
Strutture dati per insiemi disgiunti Servono a mantenere una collezione S = {S 1, S 2,..., S k } di insiemi disgiunti. Ogni insieme S i è individuato da un rappresentante che è un particolare elemento
INFORMATICA 3 Prof.ssa Sara Comai
INFORMATICA 3 Prof.ssa Sara Comai ESERCIZI SESSIONE LIVE Ricerca e indicizzazione Ing. Paola Spoletini 1. Hashing Data una tabella hash di lunghezza m=11, si supponga di dover inserire (in ordine) le chiavi:
Esercizi di Algoritmi e Strutture Dati
Esercizi di Algoritmi e Strutture Dati Moreno Marzolla [email protected] Ultimo aggiornamento: 3 novembre 2010 1 Trova la somma/1 Scrivere un algoritmo che dati in input un array A[1... n] di n interi
ALGORITMI CORSO DI STUDIO IN INFORMATICA (laurea triennale) UNIVERSITÀ DEGLI STUDI DI CATANIA ANNO ACCADEMICO 2014/15
ANNO ACCADEMICO 2014/15 1 a prova in itinere 13 gennaio 2015 ESERCIZIO 1 Si risolva l equazione di ricorrenza al variare del parametro reale a>1. T (n) = 27 n a T + n 2 log n a ESERCIZIO 2 Si ordinino
Heap e code di priorità
Heap e code di priorità Violetta Lonati Università degli studi di Milano Dipartimento di Scienze dell Informazione Laboratorio di algoritmi e strutture dati Corso di laurea in Informatica AA 2009/2010
Alberi Binari di Ricerca
Alberi Binari di Ricerca Algoritmi su gli alberi binari: visite Dato un puntatore alla radice di un albero vogliamo scandire in modo sistematico tutti i nodi di tale albero In una lista abbiamo una unica
Informatica 3. LEZIONE 12: Liste. Modulo 1: ADT lista e implementazione basata su array Modulo 2: Lista concatenata
Informatica 3 LEZIONE 12: Liste Modulo 1: ADT lista e implementazione basata su array Modulo 2: Lista concatenata Informatica 3 Lezione 12 - Modulo 1 ADT lista e implementazione basata su array Introduzione
Le liste. ADT e strutture dati per la rappresentazione di sequenze. Ugo de' Liguoro - Algoritmi e Sperimentazioni 03/04 - Lez. 5
Le liste ADT e strutture dati per la rappresentazione di sequenze L ADT delle liste Una lista di valori di tipo A è una sequenza finita: a1, a2, L, an dove ai A, per ogni i valore lunghezza posizione L
Lezione 6 Introduzione al C++ Mauro Piccolo
Lezione 6 Introduzione al C++ Mauro Piccolo [email protected] Linguaggi di programmazione Un linguaggio formale disegnato per descrivere la computazione Linguaggi ad alto livello C, C++, Pascal, Java,
Strutture di accesso ai dati: B + -tree
Strutture di accesso ai dati: B + -tree A L B E R T O B E L U S S I S E C O N D A P A R T E A N N O A C C A D E M I C O 2 0 0 9-2 0 0 Osservazione Quando l indice aumenta di dimensioni, non può risiedere
Espressioni aritmetiche
Espressioni aritmetiche Consideriamo espressioni costruite a partire da variabili e costanti intere mediante applicazione delle operazioni di somma, sottrazione, prodotto e divisione (intera). Ad esempio:
Prova di Laboratorio del [ Corso A-B di Programmazione (A.A. 2004/05) Esempio: Media Modalità di consegna:
Prova di Laboratorio del 12.1.2005 [durata 90 min.] Corso A-B di Programmazione (A.A. 2004/05) 1. Leggere da tastiera un insieme di numeri interi ed inserirli in un vettore A 2. Calcolare tramite una funzione
Note per la Lezione 4 Ugo Vaccaro
Progettazione di Algoritmi Anno Accademico 2016 2017 Note per la Lezione 4 Ugo Vaccaro Ripasso di nozioni su Alberi Ricordiamo che gli alberi rappresentano una generalizzazione delle liste, nel senso che
Insiemi Specifiche, rappresentazione e confronto tra realizzazioni alternative.
Insiemi Specifiche, rappresentazione e confronto tra realizzazioni alternative. Algoritmi e Strutture Dati + Lab A.A. 14/15 Informatica Università degli Studi di Bari Aldo Moro Nicola Di Mauro Definizione
Introduzione alla programmazione
Introduzione alla programmazione Risolvere un problema Per risolvere un problema si procede innanzitutto all individuazione Delle informazioni, dei dati noti Dei risultati desiderati Il secondo passo consiste
Esercizi Capitolo 11 - Strutture di dati e progettazione di algoritmi
Esercizi Capitolo 11 - Strutture di dati e progettazione di algoritmi Alberto Montresor 19 Agosto, 2014 Alcuni degli esercizi che seguono sono associati alle rispettive soluzioni. Se il vostro lettore
Fondamenti di Informatica T-1 Modulo 2
Fondamenti di Informatica T-1 Modulo 2 1 Obiettivi di questa esercitazione 1. Array e funzioni 2. Array e funzioni ricorsive 3. Array e confronto di array 2 Esercizio 1 Creare un programma che legga da
Rappresentazione dell Informazione
Rappresentazione dell Informazione Rappresentazione delle informazioni in codice binario Caratteri Naturali e Reali positivi Interi Razionali Rappresentazione del testo Una stringa di bit per ogni simbolo
Cache associativa. Possibili alternative per il trasferimento di un blocco dalla memoria inferiore alla memoria superiore:
Cache associativa Possibili alternative per il trasferimento di un blocco dalla memoria inferiore alla memoria superiore: 1. Indirizzamento diretto (già visto). Ogni blocco della memoria inferiore può
Tecniche di compressione senza perdita
FONDAMENTI DI INFORMATICA Prof. PIER LUCA MONTESSORO Facoltà di Ingegneria Università degli Studi di Udine Tecniche di compressione senza perdita 2000 Pier Luca Montessoro (si veda la nota di copyright
Problemi di ordinamento
Problemi di ordinamento Input: una sequenza di n numeri a 1, a 2,..., a n ; Output: una permutazione a 1, a 2,..., a n di a 1, a 2,..., a n tale che a 1 a 2... a n. Generalmente, la sequenza è rappresentata
Note sull implementazione in virgola fissa di filtri numerici
Note sull implementazione in virgola fissa di filtri numerici 4 settembre 2006 1 Introduction Nonostante al giorno d oggi i processori con aritmetica in virgola mobili siano molto comuni, esistono contesti
Dati e Algoritmi 1: A. Pietracaprina. Mappa/Dizionario (I parte)
Dati e Algoritmi 1: A. Pietracaprina Mappa/Dizionario (I parte) 1 Mappa/Dizionario Definizione generale Collezione di entry che supporta, come metodi principali: ricerca, inserimento, rimozione Vari ADT:
Problemi, istanze, soluzioni
lgoritmi e Strutture di Dati II 2 Problemi, istanze, soluzioni Un problema specifica una relazione matematica tra dati di ingresso e dati di uscita. Una istanza di un problema è formata dai dati di un
Algoritmi e Strutture Dati
Algoritmi e Strutture Dati Capitolo 5 - Alberi Alberto Montresor Università di Trento This work is licensed under the Creative Commons Attribution-NonCommercial-ShareAlike License. To view a copy of this
Applicazioni: Correttore ortografico: Hashtable. Funzioni hash: MD5 e SHA.
SOMMARIO Funzioni hash e tabelle hash: Strutture dati e operazioni di ricerca. Funzioni hash: Chiavi numeriche. Chiavi non numeriche: approccio polinomiale. Collisioni: Distribuzione uniforme: numeri primi.
Algoritmi e Strutture di Dati (3 a Ed.) String matching. Alan Bertossi, Alberto Montresor
Algoritmi e Strutture di Dati (3 a Ed.) String matching Alan Bertossi, Alberto Montresor STRING MATCHING. Date una stringa P di m caratteri (pattern) e una stringa T di n caratteri, con m n, trovare un
COMPLESSITÀ COMPUTAZIONALE DEGLI ALGORITMI
COMPLESSITÀ COMPUTAZIONALE DEGLI ALGORITMI Fondamenti di Informatica a.a.200.2005/06 Prof. V.L. Plantamura Dott.ssa A. Angelini Confronto di algoritmi Uno stesso problema può essere risolto in modi diversi,
Esercizi Capitolo 6 - Alberi binari di ricerca
Esercizi Capitolo 6 - Alberi binari di ricerca Alberto Montresor 9 Agosto, 204 Alcuni degli esercizi che seguono sono associati alle rispettive soluzioni. Se il vostro lettore PDF lo consente, è possibile
Strutture fisiche di accesso
Strutture fisiche di accesso Esercitazioni - Basi di dati (complementi) Autore: Dr. Simone Grega Esercizio 1 Siano date le seguenti informazioni: B=4096 bytes la dimensione di un blocco H=12 bytes la dimensione
