Dipartimento di Elettronica, Informazione e Bioingegneria API 2013/4

Transcript

1 Dipartimento di Elettronica, Informazione e Bioingegneria API 2013/4 Dizionari e tabelle G. Gini 2013

2 dizionari Molte applicazioni richiedono solo di accedere a informazioni dinamiche per le operazioni di: search(item k) insert(item k) delete(item k) Servono per compilatori (tabella dei simboli ), memoria cache dei browser, tabu-search, combinatorial chemistry, etc

3 dizionari k Dizionario r 1 Record k data 1... data n r n Quale struttura dati per il dizionario? Array di record, da ordinare sul campo chiave?

4 Come implementare dizionari Array ordinato ricerca O(log n), inserimento/cancellazione O(n) Lista non ordinata ricerca/cancellazione O(n), inserimento- in testa O(1) Albero binario bilanciato ricerca/cancellazione O(log n), inserimento O(log n) 4

5 Nuova struttura dati: tabella Hash Vantaggio di usare array: l accesso ad un elemento èo(1) Svantaggio di usare array per dizionari: dimensione dell array per memorizzare molte chiavi Tabella Hash = struttura dati efficiente per implementare dizionari Nel caso peggiore la ricerca di un elemento è Θ(n) Facendo assunzioni ragionevoli il numero di chiavi effettivamente memorizzate è piccolo rispetto al numero delle chiavi possibili - la ricerca nel caso medio è Θ(1)

6 Tabella ad Accesso Diretto L universo delle chiavi possibili sia U {0, 1,, m 1} Utilizziamo un array T[0.. m 1] per memorizzarle serve una funzione iniettiva H: U -> {0, 1,, m 1} che permetta di ricavare la posizione della chiave H(k) nel vettore T in modo che per ogni k1 U e k2 U, k1 k2, H(k1) H(k2) m non potrebbe essere più piccolo di U in tal caso si accede direttamente ad ogni posizione in tempo O(1).

7 Tabella ad Accesso Diretto Problema: l universo U può essere molto grande e l array T così definito non può essere utilizzato Esempio: una chiave a 64 bit rappresenta valori Per evitare sprechi di memoria la dimensione m va scelta sulla base del numero di chiavi che si pensa davvero di usare, rinuciando alla iniettività della funzione H. Perciò chiavi diverse potranno avere lo stesso indirizzo nel vettore, H(k1)=H(k2) anche se k1 k2 Perchè allora non avere un unico indirizzo per ogni possibile chiave e memorizzare tutte le chiavi in una lista? No, il tempo per le operazioni cresce come O(n).

8 Tabella ad Accesso Diretto Occore una soluzione di compromesso con m>1 ma molto minore di U Occorre definire una funzione di hash (spezzettamento) che permetta di generare l indirizzo nell array per ogni elemento da inserire. Con l indirizzamento diretto nell array un elemento con chiave k è memorizzato nello slot k. Con l hashing è memorizzato nello slot h(k). La funzione h associa l universo U delle chiavi agli slot di una tabella hash T[0, 1,, m-1]

9 Funzioni hash perfette Vorremmo funzioni hash perfette, cioè iniettive, ovvero: u v h(u) h(v) Questo richiede che m U Esempio: Le matricole degli studenti degli ultimi tre anni Distribuiti fra e h(k) = k , m = 1000 Problema: è spesso impraticabile ottenere una funzione hash perfetta

10 Funzioni di hash definire una funzione di hash h che mappa l universo U di tutte le chiavi in {0, 1,, m 1} T 0 k 1 k 5 k 4 k 2 k 3 U h(k 1 ) h(k 4 ) h(k 2 ) = h(k 5 ) h(k 3 ) m 1 PROBLEMA: Quando inseriamo Quando una una chiave chiave k i, kla i èfunzione mappatadi in hash uno hslot già occupato si genera una collisione mappa la chiave in uno slot di T

11 Riassumendo: Tabelle hash Un array T[0...m-1] Una funzione hash h: U {0,...,m-1} Indirizzamento hash Diciamo che h(k) è il valore hash della chiave k La chiave k viene mappata nello slot T[h(k)] PROBLEMA: Quando due o più chiavi nel dizionario hanno lo stesso valore hash, diciamo che è avvenuta una collisione Idealmente vogliamo funzioni hash senza collisioni

12 Risolvere le collisioni - concatenamento I record mappati nello stesso slot sono inseriti in una lista T h(49) = h(86) = h(52) = i i Caso peggiore: tutte le chiavi sono mappate nello stesso slot, il tempo di accesso è Θ(n)

13 Fattore di carico Data una tabella hash T con m slot dove sono memorizzati n elementi, fattore di carico α è il rapporto n/m Caso pessimo: le n chiavi sono associate tutte allo stesso slot creando una lista di lunghezza n. La ricerca è quindi Θ(n), nessun vantaggio Se qualsiasi elemento ha la stessa probabilità di essere associato a uno qualsiasi degli m slot, il valore medio della lunghezza della lista associata allo slot j sarà n/m, cioè α. Se il valore hash h(k) può essere calcolato in O(1), il tempo per cercare un elemento con chiave k dipende dalla lunghezza della lista associata. Il tempo è Θ(1+α),

14 Progettare buone funzioni di hash Le collisioni sono inevitabili, si cerca quindi di minimizzare il loro numero Funzioni di hash che distribuiscano uniformemente le chiavi negli indici [0..m-1] della tabella hash Usando una dimensione m che sia una sovrastima delle chiavi davvero usate

15 Hash con uniformità semplice Proprietà: uniformità semplice sia P(k) la probabilità che una chiave k sia inserita in tabella sia Q(i) = Σ k:h(k)=i P(k) la probabilità che una chiave qualsiasi, finisca nella cella i. Una funzione h gode della proprietà di uniformità semplice se i [0...m 1]: Q(i)=1/m Esempio: U numeri reali in [0,1], ogni chiave k ha la stessa probabilità di essere scelta, m slot, allora h(k)= km soddisfa la proprietà di uniformità semplice Per ottenere una funzione hash con uniformità semplice, la distribuzione delle probabilità P deve essere nota Nella realtà la distribuzione esatta può non essere nota e quindi si utilizzano euristiche (ad esempio chiavi vicine vengano assegnate a slot distanti, etc)

16 chiavi come numeri naturali Assunzioni Tutte le chiavi sono equiprobabili: P(k) = 1 / U Le chiavi sono valori numerici non negativi Tutte le chiavi devono essere trasformate in numeri Con questa ipotesi vedremo diversi metodi per costruire buone funzioni di hash È possibile trasformare una chiave stringa in un numero, ad ed esempio considerando il carattere ASCII e la posizione DOG -> 'D'*256*256+'O'*256+'G'

17 Creare funzioni hash Ci sono 4 metodi 1. Divisione 2. Moltiplicazione 3. Estrazione: si prende un sottoinsieme di p bit della rappresentazione binaria di k 4. Xor: si sommano bit a bit diversi sottoinsiemi della rappresentazione binaria di k

18 1. Divisione Una chiave k viene associata ad uno degli m slots usando il resto della divisione per m: h(k) = k mod m Esempio: m=12, k=100 h(k) = 4 Vantaggio: molto veloce (richiede solo una divisione) Svantaggio: il valore m deve essere scelto opportunamente Non vanno bene alcune scelte di m m=2 p : h(k) rappresenta i p bit meno significativi di k m=2 p -1: permutazione di stringhe in base 2 p hanno lo stesso valore hash Vanno bene: Numeri primi, distanti da potenze di 2 (e di 10)

19 2. Moltiplicazione Il metodo di moltiplicazione si svolge in due passate: prima moltiplichiamo la chiave k per una costante A, 0<A<1, poi estraiamo la parte frazionaria di h(k), la moltiplichiamo per m e prendiamo la parte intera inferiore h(k)= m(ka - ka ) = m(ka mod1) Esempio: m = 8, k = 21, A =13/32 h(k)=h(21) = 8(21.13/32) mod 1 = 8(8.53 mod 1) = 8 (0.53) = 4 Svantaggi: più lento del metodo di divisione Vantaggi: il valore di m non è critico Si può scegliere una potenza di 2 (m=2 p ), che semplifica l'implementazione Come scegliere A? Knuth suggerisce A ( 5 1)/2

20 Implementazione del Metodo della Moltiplicazione con operazioni sui bit Si sceglie m=2 p con p intero Sia w la dimensione in bit della parola di memoria: k, m 2 w Sia s = A2 w ks può essere scritto come r 1 2 w + r 0 r 1 contiene la parte intera di ka r 0 contiene la parte frazionaria di ka Ritorniamo i p bit più significativi di r 0

21 Risolvere le collisioni Una buona funzione di hash può ridurre, ma non elimina le collisioni Come gestire le collisioni residue? Dobbiamo trovare collocazioni alternative per le chiavi Se una chiave non si trova nella posizione attesa, bisogna andare a cercare nelle posizioni alternative Le operazioni possono costare Ө(n) nel caso peggiore......ma hanno costo Ө(1) nel caso medio Due tecniche: Concatenamento Indirizzamento aperto

22 Soluzione collisioni - Concatenamento Gli elementi con lo stesso valore hash h vengono memorizzati in una lista Si memorizza un puntatore alla testa della lista nello slot A[h] della tabella hash Operazioni Insert: inserimento in testa Search, Delete: richiedono di scandire la lista alla ricerca della chiave

23 Operazioni per concatenamento Tutti gli elementi associati allo stesso slot sono posti in una lista. La tabella contiene puntatori alle liste associate. Le liste possono essere doppiamente concatenate. Le operazioni del dizionario sono così modificate: chained-hash-insert (T, x) inserisce x in testa alla lista T[h(key[x])] chained-hash-search (T, x) ricerca un elemento con chiave k nella lista T[h[(k)] chained-hash-delete (T, x) cancella x dalla lista T[h(key[x])]

24 Concatenamento: complessità n: # elementi nella tabella m: # slot nella tabella Fattore di carico α: # medio di elementi nelle liste (α=n/m) Caso pessimo Tutte le chiavi sono collocate in unica lista Insert: Ө(1) Search, Delete: Ө(n) Caso medio Dipende da come le chiavi vengono distribuite Assumiamo hashing uniforme semplice Costo funzione di hashing è Ө(1) Costo per insert, search, delete?

25 Concatenamento: complessità Teorema: In una tabella hash con concatenamento, una ricerca senza successo richiede un tempo atteso Ө(1 + α) Teorema: In una tabella hash con concatenamento, una ricerca con successo richiede un tempo atteso Ө(1 + α). Più precisamente Ө(2 + α/2 + α/2n), dove n è il numero di elementi Qual è il significato? quindi tutte le operazioni sono Ө(1) nell ipotesi di hashing uniforme semplice

26 Soluzione collisioni - Indirizzamento Aperto La gestione delle collisioni tramite concatenamento richiede una struttura dati complessa, con liste e puntatori Idea: memorizzare tutte le chiavi nella tabella stessa - non necessita di memoria oltre la tabella stessa, non servono puntatori Ogni slot contiene una chiave oppure nil Inserimento: Se lo slot prescelto è utilizzato, si cerca uno slot alternativo generando una sequenza di sondaggio (probing) Ricerca: Si cerca nello slot prescelto, e poi negli slot alternativi fino a quando non si trova la chiave oppure nil

27 Indirizzamento Aperto L inserimento aperto sistematicamente esamina la tabella fino a quando uno slot vuoto viene trovato La funzione di hash dipende sia dalla chiave h(k,0) che dall indice di probing h(k,i): h: U {0, 1,, m 1} {0, 1,, m 1} La sequenza di probing <h(k,0), h(k,1),, h(k,m 1)> deve essere una permutazione di {0, 1,, m 1} Nota Può essere necessario esaminare ogni slot Non vogliamo esaminare ogni slot più di una volta La tabella tende a riempirsi e la cancellazione può essere complicata

28 Esempio Inserisce la chiave k = 496: 0. Probe h(496,0) T collisione m 1

29 Esempio Inserisce k = 496: 0. Probe h(496,0) 1. Probe h(496,1) T collisione m 1

30 Esempio Inserisce k = 496: 0. Probe h(496,0) 1. Probe h(496,1) 2. Probe h(496,2) T inserimento m 1

31 Esempio Sequenza di probing per k = 496: 0. Probe h(496,0) 1. Probe h(496,1) 2. Probe h(496,2) La ricerca utilizza la stessa m 1 sequenza di probing La ricerca ha successo se trova la chiave e fallisce se incontra uno slot vuoto T

32 Algoritmo di Inserimento Hash-Insert(A, k) 1. i := 0 2. repeat j := h(k, i) 3. if A[j] = nil then 4. A[j] := k 5. return j 6. else 7. i := i until i = m 9. error hash table overflow

33 Algoritmo di Ricerca Hash-Search (A, k) 1. i := 0 2. repeat j := h(k, i) 3. if A[j] = k then 4. return j 5. i := i until A[j] = nil or i = m 7. return nil

34 Cancellazione Non è possibile sostituire la chiave che vogliamo cancellare con nil (perché non riusciremmo più a trovare le chiavi inserite dopo quella cancellata) Soluzione Utilizziamo uno speciale valore DELETED al posto di nil per marcare uno slot come vuoto dopo la cancellazione Ricerca: DELETED trattati come slot pieni Inserimento: DELETED trattati come slot vuoti Svantaggio: il tempo di ricerca non dipende più da α.

35 Probing (Ispezione) Hashing Uniforme (ideale) Generalizzazione dell'hashing uniforme semplice Ogni chiave ha la stessa probabilità di avere come sequenza di ispezione una qualsiasi delle m! permutazioni di [0..m-1] Difficile da implementare, si usano approssimazioni che non soddisfano appieno l hashing uniforme Tecniche per calcolare le sequenze di scansione: 1. Ispezione lineare 2. Ispezione quadratica 3. Doppio hashing

36 1. Probing Lineare Funzione di hash: h(k,i) = (h (k)+i) mod m per i fra 0 e m-1 Funzione hash ausiliaria Si usa una funzione hash ausiliaria. Il primo slot esaminato è h'(k), poi in sequenza h'(k), h'(k)+1,, m 1, 0, 1,, h'(k) 1 Solo m sequenze di ispezione distinte CProblema: clustering Primario Lunghe sotto-sequenze occupate che tendono a diventare via via sempre più lunghe Uno slot vuoto preceduto da i slot pieni viene riempito con probabilità (i+1)/m I tempi medi di inserimento e cancellazione crescono

37 2. Probing Quadratico Funzione: h(k,i) = (h'(k) + c 1 i + c 2 i 2 ) mod m con c 1 c 2 Con hash secondario e costanti non nulle Sequenza di ispezioni L'ispezione iniziale è T[h'(k) ] Le ispezione successive hanno un offset che dipende da una funzione quadratica nel numero di ispezione i Solo m sequenze di ispezione distinte sono possibili c 1, c 2, m devono essere scelti in modo da garantire la permutazione di [0..m-1] Problema di clustering secondario Se due chiavi hanno la stessa ispezione iniziale, poi le loro sequenze sono identiche

38 3. Probing con Doppio Hashing Funzione: h(k,i) = (h 1 (k) + i h 2 (k)) mod m Usa due funzioni hashing ausiliarie: h 1 determina la prima ispezione T[h'(k) ] h 2 fornisce l'offset delle successive ispezioni m 2 sequenze di ispezione distinte sono possibili Nota: Per garantire una permutazione completa, h 2 (k) deve essere relativamente primo con m (cioè non avere divisori comuni tranne 1) Scegliere m = 2 p e h 2 (k) che restituisca numeri dispari Scegliere m primo, e h 2 (k) deve restituire numeri < di m esempio: h1(k) = k mod m h2(k) = 1 + (k mod m') con m' < m (per esempio m' = m-1)

39 Esempio doppio hashing Tabella hash di 13 posizioni h(k,i) = (h 1 (k) + i h 2 (k)) mod m h1(k) = k mod 13 h2(k) = 1 + (k mod 11) la chiave 14 diventa 1 per h1e 3+1 per h2, cioè offset pari a 4 La chiave 14 viene inserita nello slot vuoto 9 poiché sia 1 che 5 sono trovati già occupati

40 Indirizzamento aperto: Complessità Assunzioni Hashing uniforme Nessuna cancellazione Nella ricerca con successo, tutte le chiavi hanno la stessa probabilità di essere cercate Analisi n chiavi inserite in una tabella di m slot n < m, ovvero il fattore di carico α < 1 Analisi basata sul valore di α

41 Indirizzamento aperto: Complessità Teorema 1: Il numero atteso di ispezioni per una ricerca senza successo è al massimo 1/(1- α) Teorema 2: Il numero atteso di ispezioni per una ricerca con successo è al massimo 1/ α ln 1/(1- α) Teorema 3: Il numero atteso di ispezioni per un inserimento è al massimo 1/(1- α) Implicazioni Se α è costante, allora l accesso a una tabella hash con indirizzamento aperto richiede un tempo costante Se la tabella è mezza piena, allora il numero atteso di ispezioni è 1/(1 0.5) = 2. Se la tabella è piena al 90%, allora il numero atteso di ispezioni è 1/(1 0.9) = 10.

42 Intrinseca Debolezza dell Hashing Problema: Per una qualsiasi funzione di hash h, può essere generato un insieme di chiavi che causa un alto tempo medio di accesso. Ad esempio, un utente potrebbe scegliere un insieme di n chiavi che si mappano tutte sullo stesso slot portanto il tempo di accesso a Θ(n) Soluzione: la funzione di hash viene scelta in maniera casuale in maniera indipendente dalle chiavi che poi verranno memorizzate Universal Hashing

43 Hashing universale Definizione. Dato l universo di chiavi U e una collezione finita H di funzioni di hash, ciascuna delle quali mappa U in {0, 1,, m 1}, diciamo che H è universale se per ogni coppia di chiavi x, y U, x y, il numero delle funzioni hash h H per cui h(x) = h(y) è al massimo H / m. Ovvero, H è universale se la probabilità di collisione fra x e y è 1/m se scegliamo la funzione di hash fra quelle di H {h : h(x) = h(y)} H m H

44 Hashing universale Teorema. Sia data una funzione di hash h scelta in maniera casuale (con probabilità uniforme) da un insieme universale di funzioni di hash H. Se h è utilizzata per mappare n chiavi negli m slot (con n m) della tabella T, allora, per una chiave x abbiamo, p[# collisioni per x] < n/m (ovvero <1) Come progettare H?

45 Design di Universal Hashing Scegliamo m dall insieme dei numeri primi e scomponiamo la chiave k in r + 1 digit (o byte o sottosequenze binarie) con valore in {0, 1,, m 1}. La chiave k può essere rappresentata come <k 0, k 1,, k r >, dove 0 k i <m Randomized strategy Scegliamo a = <a 0, a 1,, a r > dove a i èsceltoin maniera casuale da {0, 1,, m 1} Definiamo h a (k) = Σ i20..r a i k i mod m Definiamo H = {h a (k)} e quindi H =m r+1 Teorema: H={h a (k)} è universale

46 Hashing perfetto L hashing può essere utilizzato per ottenere prestazioni eccellenti anche nel caso peggiore se l insieme delle chiavi è statico, cioè una volta che le chiavi sono memorizzate in tabella queste non cambiano più. Il caso si presenta ad esempio per le parole riservate di un linguaggio di programmazione, i nomi dei files su un CD-Rom, etc. Chiamiamo hashing perfetto un metodo di hashing per cui anche nel caso peggiore il tempo di ricerca è O(1).

47 Costruzione di hashing perfetto Utilizziamo uno schema a due livelli, con un hashing universale a ciascun livello. Il primo livello è sostanzialmente hashing con concatenamento con una funzione hash universale; Invece di creare la lista concatenata di chiavi associate allo slot j, usiamo una piccola tabella hash secondaria Sj con una sua funzione di hash che garantisca che non ci siano collisioni. La dimensione della tabella secondaria dovrà essere il quadrato del numero delle chiavi che si associano allo slot j.

48 Teoremi per hashing perfetto Teorema 1: se memorizziamo n chiavi in una tabella di dimensione m=n 2, la probabilità che si verifichi una collisione è minore di ½ Teorema 2: se memorizziamo n chiavi in una tabella hash lunga m usando una funzione hash universale ed impostiamo la dimensione delle tabelle secondarie pari al quadrato delle collisioni, abbiamo che la memoria totale occupata per tutte le tabelle è minore di 2n. Perciò la memoria usata per l hashing perfetto è Θ(n)

49 conclusioni hash table Tables which can be searched for an item in O(1) time using a hash function to form an address from the key. hash function Function which, when applied to the key, produces a integer which can be used as an address in a hash table. collision When a hash function maps two different keys to the same table address, a collision is said to occur. linear probing A simple re-hashing scheme in which the next slot in the table is checked on a collision. quadratic probing A re-hashing scheme in which a higher (usually 2nd) order function of the hash index is used to calculate the address. perfect hash function Function which, when applied to all the members of the set of items to be stored in a hash table, produces a unique set of integers within some suitable range. Good implementations available in java, C++ distributed hash tables (DHT) in peer-to-peer systems

50 Esercizio Data una tabella hash di lunghezza m=11, si supponga di dover inserire nell ordine le chiavi: 35, 83, 57, 26, 15, 63, 97,46, con la funzione di hash h(k) = k mod m. Si illustrino i risultati dell inserimento usando: separate chaining linear probing quadratic probing (hi(k)=(h(k)+i 2 ) mod m) double hashing con h2(k)=1+(k mod (m-1))

51 Calcolo di h(k) h(35)=35mod11=2 h(83)=83mod11=6 h(57)=57mod11=2 h(26)=26mod11=4 h(15)=15mod11=4 h(63)=63mod11=8 h(97)=97mod11=9 h(46)=46mod11=2

52 Separate chaining h(35)=2 h(83)=6 h(57)=2 h(26)=4 h(15)=4 h(63)=8 h(97)=9 h(46)=2

53 Linear Probing h(57)=2 -> lo slot 2 è occupato h 1 (57)=3 h(15)=4 -> lo slot 4 è occupato h 1 (15)=5 h(46)=2 -> lo slot 2 è occupato h 1 (46)=3 -> lo slot 3 è occupato h 2 (46)=4 -> lo slot 4 è occupato h 3 (46)=5 -> lo slot 5 è occupato h 4 (46)=6 -> lo slot 6 è occupato h 5 (46)=7 h(35)=2 h(83)=6 h(57)=2 h(26)=4 h(15)=4 h(63)=8 h(97)=9 h(46)=2

54 Quadratic Probing h i (k)=(h(k)+i 2 )mod m h(57)=2 -> lo slot 2 è occupato h 1 (57)=3 h(15)=4 -> lo slot 4 è occupato h 1 (15)=5 h(46)=2 -> lo slot 2 è occupato h 1 (46)=3 -> lo slot 3 è occupato h 2 (46)=6 -> lo slot 6 è occupato h 3 (46)=0 h(35)=2 h(83)=6 h(57)=2 h(26)=4 h(15)=4 h(63)=8 h(97)=9 h(46)=2

55 Double hashing h 2 (K)=1+(k mod(m-1)) -> h i (k)=(h 1 (k)+i*h 2 (k))mod m h(57)=2 -> lo slot 2 è occupato h 1 (57)=2+1*8=10 h(15)=4 -> lo slot 4 è occupato h 1 (15)=4+1*6=10 -> lo slot 10 è occupato h 2 (15)=4+2*6=5 h(46)=2 -> lo slot 2 è occupato h 1 (46)=2+1*7=9 -> lo slot 9 è occupato h 2 (46)=2+2*7=5 -> lo slot 5 è occupato h 3 (46)=2+3*7=1 h(35)=2 h(83)=6 h(57)=2 h(26)=4 h(15)=4 h(63)=8 h(97)=9 h(46)=2

56 Una applicazione: i fingeprints Paragonare strutture a grafo è complesso Paragonare stringhe è più semplice Da qui l idea di trasformare una struttura in una stringa di bits attraverso uso di hash. esempio estrarre i pattern Estrarre tutti i cammini lineari fino ad una certa lunghezza, individuare i punti di diramazione e di fine, individuare i cicli, Usando hashing trovare la posizione in cui mappare un certo pattern bit For example, the molecule OC=CN would generate the following patterns: 0-bond paths: C O N 1-bond paths: OC C=C CN 2-bond paths: OC=C C=CN 3-bond paths: OC=CN

57

58 I parametri da definire la lunghezza del fingerprint definisce la capacità di conservare informazioni ma anche la memoria e il tempo di screening. Una lunghezza elevata diminuisce la probabilità di collisioni. 512 bits funziona bene, 1024 è meglio per la similarity. la lunghezza del pattern massimo Lunghi pattern conservano più informazione ma spesso sono unici. Pattern lunghi 5 o 6 vanno bene per la ricerca di sottostrutture, 7 o 8 vanno bene per similarity.

59 Ricerca di sottostrutture Substructure searching è noto essere un problema nonpolynomial-complete (NP-complete). Il tempo nel caso pessimo per risolvere questi problemi non può essere espresso come un polinomio nel numero di atomi o di legami O(N K )). In caso pessimo è esponenziale O(K kn ). Però le molecole sono grafi sparsi, quindi in pratica abbiamo spesso complessità O(N 2 ) o O(N 3 ). L idea è quella di usare un algoritmo imperfetto che non garantisca la risposta P «not in» M con confidenza al 100%, ma che sappia dire P «in»mcon confidenza inferiore. Questo si ottiene appunto usando i fingerprints.

60 Da tema d esame 2013 Si vuole progettare una tabella di hashing in cui memorizzare numeri primi, usando gli stessi come chiave. La tabella è lunga 2n elementi, si sceglie di utilizzare la funzione h(x) = x mod 2n come funzione di hash. E' una buona scelta? Motivare brevemente la risposta. SOLUZIONE La funzione di hash proposta non è una buona funzione: i numeri primi, fatto salvo 2, sono tutti dispari; quindi i posti di posizione pari verranno utilizzati solo in caso di conflitti e la tabella risulterà fortemente sbilanciata e/o sottooccupata.