Hash file. idea di base : il file è organizzato in B bucket, i record sono assegnati ai bucket in ragione del valore di chiave.

Dimensione: px

Iniziare la visualizzazioe della pagina:

Download "Hash file. idea di base : il file è organizzato in B bucket, i record sono assegnati ai bucket in ragione del valore di chiave."

Nicoletta Carnevale
5 anni fa
Visualizzazioni

1 Hash file idea di base : il file è organizzato in B bucket, i record sono assegnati ai bucket in ragione del valore di chiave. hash(chiave) [0,B-1] è desiderabile una distribuzione uniforme sui bucket. gestione dell'overflow causato da collisioni Applicazioni dell'hashing interrogazioni su singolo valore di chiave algoritmi di join stima della cardinalità Svantaggi la struttura non si presta ad interrogazioni su range di valori di chiave richiede una accurata gestione dell'overflow comporta un'occupazione di memoria aggiuntiva non trascurabile (10%-50%) Fattore di caricamento Un'organizzazione hash statica implica che l'area di memoria primaria e l'area per i trabocchi sono predimensionate a priori. Sia: B: numero di bucket dell'area primaria, C : la capacità del bucket, N: numero di record da registrare Si definisce fattore di caricamento (densità di memorizzazione) il rapporto fra il numero di chiavi attive e la capacità massima di registrazione : d = N/(BxC) Il fattore di caricamento incide sul fenomeno dell'overflow. Al diminuire di d si riduce la percentuale di overflow. pag.1

2 Analisi di tipo probabilistico Ipotesi : a) ogni bucket ha probabilità 1/B di essere colpito da un record, b) archivio statico, c) area separata per overflow La probabilità che lo stesso indirizzo venga generato per X record è data dalla distribuzione binomiale : P(X) = N 1 X 1 1 N X X B B Il numero medio di overflow per bucket e il numero totale di overflow sono rispettivamente : n b = (X C)P(X) X > C n t = B n b C d 100(n t /N) pag.2

3 Esempi di funzioni hash Previo trasformazione di chiavi alfanumeriche in numeri, alcuni metodi usati per la funzione hash sono: 1. DIVISIONE:La chiave numerica viene divisa per un numero P e l'indirizzo e' ottenuto considerando il resto H(k) = k mod P. Per la scelta di P si hanno in genere le seguenti indicazioni pratiche: 1. P e' il piu' grande numero primo minore o uguale a B; 2. P è non primo, minore o uguale a B, con nessun fattore primo minore di 20. Se P < B si pone B:=P per non perdere la suriettività della funzione hash. 2. MID_SQUARE: La chiave è moltiplicata per se stessa, viene estratto un numero di cifre centrali pari a quelle di B - 1, e il numero ottenuto è normalizzato a B. 3. SHIFTING (FOLDING): La chiave è suddivisa in parti, ognuna costituita da un numero di cifre pari a quelle di B - 1. Si sommano le parti e si normalizza Test eseguiti su 8 files con caratteristiche molto diversificate. I risultati mostrano che, in generale, il metodo della divisione e' il piu' affidabile. 30 % di overflow Folding fattore di caricamento = Shifting MidSquare 5 Division C apacita' del bucket pag.3

4 Gestione dell'overflow Al crescere del fattore di caricamento d aumenta la percentuale di record in overflow. I metodi studiati per la gestione dell'overflow mirano a ridurre al minimo il numero di accessi a bucket necessari per reperire il record cercato. Per la gestione dell' overflow si distinguono: 1. metodi di concatenamento (chaining): usano puntatori per collegare i bucket oppure i record in overflow ; i record in overflow possono essere memorizzati in un'area di overflow separata oppure nella stessa area primaria. 2. metodi ad indirizzamento aperto (open addressing): non fanno uso di puntatori, ma una legge di scansione per determinare altri bucket in area primaria dove memorizzare i record in overflow Nei metodi che non fanno uso di un area di overflow separata, quando si deve gestire un numero di record N > B C, occorre necessariamente provvedere a una riorganizzazione completa. pag.4

5 Metodi di Concatenamento in area primaria Liste confluenti (coalesced chaining) Se il bucket i va in overflow, il record viene inserito nel primo bucket non pieno, i + h. Si attiva un collegamento da i a i + h. Se anche i + h va in overflow, allora i nuovi record si inseriscono nel bucket i + j A causa degli overflow le liste possono fondersi i k1 k2 k1 k2 t1) H(k1) = H(k2) = H(k3) = i i+h k3 k3 k4 i+j k5 k6 t2) H(k4) = i + h t1 t2 H(k5) = i H(k6) = i + h Liste separate (separate chaining) Tutti i record che collidono vengono collegati a lista (inclusi quelli non in overflow). Ogni record deve quindi includere un campo puntatore al record successivo della catena Si complica la gestione dei puntatori, ma si migliorano complessivamente le prestazioni in area separata Gli overflow sono memorizzati in un'area di memoria distinta da quella primaria, non indirizzata dalla funzione hash. Lo schema generale è: per ogni n home bucket dell area primaria si prevede un bucket di overflow. Se n=b si ha un area di overflow comune a tutti gli home bucket. È possibile sia una gestione a liste di bucket sia a liste di record. pag.5

6 Open Addressing Schema generale per l'inserimento di un record R con chiave k Set H0(k) = H(k); { bucket iniziale } Set i = 0; While FULL(Hi(k)) { bucket pieno } do Set i = i + 1; Set Hi(k) = STEP(Hi-1(k)); { bucket successivo } INSERT(Hi(k),R); La funzione STEP(.) determina il criterio di scansione dei bucket Ricerca di record: Se si cerca un record, la ricerca ha termine: - con successo, se lo si trova - con insuccesso, se si trova una posizione libera (FULL=false) Cancellazione di record: Nel metodo open addressing occorre prestare particolare attenzione al caso in cui si operano delle cancellazioni. Se si cancella un record, non si può rendere vuota la sua posizione: la posizione viene marcata come non occupata, e la sua posizione può essere recuperata ( occupata ) in seguito a nuovi inserimenti. Scansione lineare (linear probing): STEP(Hi-1(k)) = (Hi-1(k) + s) mod B (i>0) Se s (s 1) non ha divisori in comune con B, i primi B indirizzi generati sono tutti i possibili indirizzi dell'area primaria. pag.6

7 Fenomeno di clustering primario: i record tendono ad addensarsi in alcuni bucket, a causa della linearità ddella funzione STEP(.) Esempio: Sia H(ki) = ki mod 31; s = 3. Le chiavi 1234 e 245 generano, rispettivamente, le sequenze: (25, 28, 0, 3, 6, 9, 12,...) (28, 0, 3, 6, 9, 12, 15,...) Se il bucket 25 va in overflow, aumenta la probabilità che vada in overflow il 28, poi il bucket 0, ecc. Fenomeno di clustering secondario: le chiavi che hanno lo stesso indirizzo iniziale producono sempre la stessa sequenza. Double hashing: mira a eliminare i problemi dovuti al clustering primario e secondario facendo uso di due funzioni hash, H e H. H0(k) = H (k) STEP(Hi-1(k)) = (Hi-1(k) + H (k)) mod B ( i > 0 ) Due chiavi generano ora la stessa sequenza di indirizzi se e solo se collidono sia con H sia con H. Scansione random (random probing): la tecnica di double hashing approssima abbastanza bene il caso ideale di scansione random, in cui ogni indirizzo ha la stessa probabilità di essere generato al passo i-esimo. H0(k) = H (k) STEP(Hi-1(k)) = (Hi-1(k) + si) mod B ( i > 0 ) dove si è un elemento di una sequenza di numeri casuali diversi nell intervallo [0,B-1] generati prendendo come seme la chiave k. pag.7

8 Confronto tra i vari metodi Per i costi medi di ricerca con successo, analiticamente si ricava: 4 Access costs Linear probing 3 C=1 Random probing 2 Coalesced chaining 1 Separate chaining d 1 Per i costi medi di ricerca con insuccesso le prestazioni peggiorano notevolmente per i metodi open addressing: 4 Access costs Linear probing Random probing C = 1 Coalesced chaining Separate chaining d pag.8

Documenti analoghi

Organizzazioni hash. Corso di Basi di Dati e Sistemi Informativi

Organizzazioni hash. Corso di Basi di Dati e Sistemi Informativi Organizzazioni hash Corso di Basi di Dati e Sistemi Informativi 1 Hashing index-based data organizations: relazione tra chiave e indirizzo esplicita tramite puntatori. hash-based organizations: relazione