che si ripete n volte, con n molto grande. Determinare il rate ottenuto dalla codifica LZ77, usando i parametri:

Transcript

1 Corso: Gestione ed elaborazione grandi moli di dati Lezione del: 8 giugno 2006 Argomento: Esercizi sulle tecniche di compressione Scribes: Massimo Bellio, Massimo Padovan, Adalberto Zurlo 1 Esercizio su LZ77 Si supponga di avere un alfabeto A = { a i : 0 i < 2 d} e una stringa periodica X = a 0 a 1 a 2 a 2 d 1a 0 a 1 a 2 a 2 d 1/ /a 0 a 1 a 2 a 2 d 1a 0 a 1 a 2 a 2 d 1 che si ripete n volte, con n molto grande. Determinare il rate ottenuto dalla codifica LZ77, usando i parametri: t bit per rappresentare l offset ( t > d ) r bit per rappresentare la lunghezza dei match d bit per rappresentare i simboli di A codifica delle triple (o, l, a) Supponiamo di trovarci a regime con search buffer pieno (si veda Figure 1): Figure 1: Situazione a regime In questa situazione il search buffer contiene 2 t 1 simboli e il lookahead buffer contiene al massimo 2 r simboli (2 r 1 dovuti alla lunghezza del match più uno, terzo componente della tripla). Poiché t > d deriva che 2 t 1 2 d il che comporta che il primo simbolo nel loockahead buffer, sia esso a i, è sicuramente presente nel search buffer. Posso quindi affermae che il prefisso di lunghezza massima è tutto quello contenuto nel lookahead buffer e il match inizia con la prima occorrenza (guardando da destra a sinistra) di a i nel search buffer e sconfina nel loockahead buffer se 2 r 1 > 2 t 1. Le triple codificate a regime sono (2 d, 2 r 1, a j ). Per rappresentare un segmento lungo 2 r uso una tripla lunga t + r + d. Il rate è R = t+r+d 2 r, per 1

2 r che tende ad infinito il rate tende a 0. Nota: In informatica, l algoritmo Run-length encoding (RLE) è storicamente il primo algoritmo di compressione per le immagini inventato, utilizzato nei fax ben prima che le elaborazioni grafiche al computer fossero un attività comune. L RLE è lossless (senza perdita), ovvero permette di comprimere e decomprimere senza alcuna perdita di informazione. Solitamente si applica alle immagini e si fonda su l assunto che l immagine abbia pochi colori, ma può essere utilizzato su qualunque file dove si trovino lunghe sequenze dove lo stesso byte viene ripetuto. La compressione RLE viene spesso impiegata anche nei protocolli di rete (ad esempio, IBM SNA) o nei formati di dati di applicazioni in cui il tempo di elaborazione è critico (ad esempio, alcuni filmati AVI), perché è il formato che permette la maggior velocità di decompressione. L algoritmo di RLE cerca nei dati da comprimere una serie di elementi uguali (in un immagine bitmap, essa corrisponde ad una campitura piatta), e la sostituisce con un solo elemento, quindi un carattere speciale e infine il numero di volte che esso va ripetuto. Per esempio supponiamo di avere un immagine dove la prima riga è formata da cento pixel neri, il RLE memorizzerà il primo pixel nero poi metterà il carattere speciale e in seguito memorizzerà il numero 100. Così invece di occupare cento locazioni la prima riga ne occuperà solo 3. Il carattere speciale è definito diversamente da ogni implementazione dell algoritmo, e serve a distinguere un elemento normale da uno compresso. 2

3 2 Esercizio su LZ77 Si mantengano tutte le ipotesi dell esercizio precedente ma con la variante: t d In questo caso t d e quindi 2 t 1 < 2 d, che esclude la presenza di a i nel search buffer(si ricorda che la sequenza è periodica e i simboli sono presenti tutti una sola volta nel periodo). Figure 2: Situazione a regime La tripla di codifica a regime sarà (0, 0, a i ). Il rate ottenuto è t+r+d 1 = t + r + d 3 Esercizio 3 su LZW Si supponga di avere un alfabeto A ={a i : 0 i < p, p numero primo } e una stringa periodica X = a 0 a 1 a 2 a p 1 a 0 a 1 a 2 a p 1 / /a 0 a 1 a 2 a p 1 a 0 a 1 a 2 a p 1 che si ripete n volte, con n molto grande. Si utilizzi la codfica LZW con dizionario D di taglia p 2 che si congela al riempimento completo, D = D [0], D [1],, D [ p 2 1 ]. 1. Dimostrare che a regime D [(j 1) p],, D [jp 1], con j = 1 p, contiene tutti e soli i pattern di lunghezza j del tipo a i a i+1...a (i+j) 1, dove la somma si intende modulo p. 2. Determinare il rate della codifica supponendo rappresentare ogni puntatore al dizionario con t = 2 log 2 p bit. 3

4 1. Forniamo innanzitutto un esempio: p = 3, A = {a, b, c} X = abcabcabcabcabc X c = i D [i] 0 a 1 b 2 c 3 ab Il dizionario D: 4 bc 5 ca 6 abc 7 cab 8 bca Si vede che nell esempio la proprietà è dimostrata. Dimostriamo ora in generale per induzione su j. Dim: Caso base: j = 1, la proprietà è vera per come è costruito il dizionario, che nelle prime p posizioni contiene i simboli dell alfabeto. P asso induttivo: Consideriamo la proposizione vera per un qualche j (1 j < p). Dall ipotesi induttiva sappiamo che D = D [0], D [1],, D [jp 1] sono tutti i pattern di lunghezza j costituiti da caratteri consecutivi dell alfabeto. Consideriamo il momento in cui è stata inserita in D la entry D [jp 1]. Nel passo successivo l algoritmo di codifica cerca il prefisso più lungo presente nel dizionario. Chiaramente troverà nel dizionario un prefisso di lunghezza j (in quanto per ipotesi induttiva ci sono tutti i pattern di lunghezza j formati da simboli consecutivi) e inserirà nel dizionario un pattern di lunghezza j + 1. Da questo momento in poi l algoritmo continuerà a trovare nel dizionario prefissi di lunghezza j e inserire pattern di lunghezza j + 1, sino a quando nel dizionario non trova un prefisso di lunghezza j + 1. Sia t il primo passo in cui l algoritmo trova nel dizionario un pattern w di lunghezza j + 1 che è prefisso della sottosequenza ancora da codificare, e supponiamo che w sia stato inserito nel dizionario al passo t h. Tra il passo t h e il passo t 1 sono stati inseriti nel dizionario h pattern di lunghezza j + 1 e la codifica della sequenza è andata avanti di h j simboli. Poiché il simbolo in testa al prefisso al passo t è lo stesso che era in testa al prefisso al passo t h si ha che h j è un multiplo di p, e poiché p è primo e j < p deve essere h multiplo di p, 4

5 e quindi h = p. Se ne deduce quindi che tra il passo t h e il passo t sono stati inseriti nel dizionario p pattern di lunghezza j +1 costituiti da caratteri consecutivi dell alfabeto, ovvero tutti i pattern di questo tipo. Figure 3: Passi successivi all inserimento di D[jp 1] in D 2. D, essendo pieno, contiene tutti i pattern di simboli consecutivi di lunghezza p. La codifica continua rappresentando pattern di lunghezza p con un indice del dizionario. Otteniamo quindi un rate R = 2 log 2 p p 4 Esercizio sull entropia Si supponga di avere una sorgente S che emette blocchi di k simboli uguali su un alfabeto A = {a, b}, con la seguente distribuzione di probabilità: P (a a) = P (b b) = 1 2 con a a = b b = k. 1. Determinare l entropia della sorgente S. 2. Trovare una codifica efficiente per le sequenze prodotte da S e determinarne il rate. 1. Si definisca una nuova sorgente memoryless S su un alfabeto A, con A = {α, β} e P (α) = P (β) = 1 2. H (S ) = P (α) log 1 1 P (α) + P (β) log P (β) = 1 2 log log 2 = 1 Se vediamo α e β come corrispondenti a blocchi di a e b, rispettivamente, di taglia k, si può facilmente dedurre che 5

6 H (S) = 1 k H (S ) = 1 k 2. Una codifica efficiente per lo stream di S è la seguente: α 0 β 1 Questa codifica diventa, per S: (a a) 0 (b b) 1 Il rate ottenuto è R = 1 k = H (S) e la codifica è quindi ottima. 5 Esercizio del libro [Sayood06] Si supponga di avere una sorgente con modello di probabilità P = {p 0, p 1,, p m } ed entropia H p. Si supponga inoltre di avere un altra sorgente con modello di probabilità Q = {q 0, q 1,, q m } ed entropia H q, dove e q i = p 1, se i = 0, 1,, j 2, j + 1,, m q j = q j 1 = p j+ 2 Dire in quale relazione si trovano H q eh p (minore, maggiore o uguale) e provare la risposta. Notiamo che q j e q j 1 sono la media di p j e e se p j = avremo q j = q j 1 = p j = e le due entropie saranno uguali. Se invece p j l entrpia di H q sarà maggiore perché ha una distribuzione maggiormente uniforme. Dimostriamo rigorosamente che H q H p : H p = H q q j log 1 q j q j 1 log 1 q j 1 + p j log 1 p j + log 1 = H p H q = 2 p j+ 2 2 log p j + + p j log 1 p j + log 1 = ] = p j [log 1 2 p j log + [log 1 2 log p j + = [ ] [ ] = p j log p j+ p j 1 + log p j+ 1 = { [ ] ( ) [ ]} pj = (p j + ) p j + log p j+ pj 1 p j 1 + p j + log p j+ 1 = = (p j + ) [H 1] p j + ] Dove H è l entropia di una sorgente binaria con una distribuzione di probabilità: r 1 = p j p j +, r 2 = p j +. Poiché H 1 per una qualunque sorgente binaria, concludiamo che H p H q 0 e quindi H q H p come intuitivamente previsto. 6

7 6 Esercizio del libro [Sayood06] Usando un file di testo calcolare la probabilità p i di ogni simbolo. 1. Assumendo che sia necessaria una codeword di lunghezza log 1 p i per codificare il simbolo i, determinare il numero di bit necessari per codificare il file. 2. Calcolare la probabilità condizionata P(i j) di ogni simbolo i dato il precedente simbolo j. Assumendo che servano log 1 p (i j) per rappresentare il simbolo i che segue j, determinare il numero di bit necessari a codificare il file. Il testo che prenderemo in esame è il seguente: trentatre trentini entrarono a trento Assumiamo che per codificare un carattere (alfabeto italiano) si usino log 22 = 5 bit (21 caratteri e lo spazio). 1. Con il primo modello: p ( ) = 4 log 4 = 4 p (a) = 3 log 3 = 4 p (e) = 5 log 3 = 3 p (i) = 2 log 2 = 5 p (n) = 6 log 6 = 3 p (o) = 3 log 3 = 4 p (r) = 6 log 6 = 3 p (t) = 8 log 8 = 3 Codificando con il modello di ordine 0 si ottiene una codifica lunga 125 bit e un rate R = Con il secondo modello: p (r a) = 1 3 log 3 1 = 2 p (t a) = 1 3 log 3 1 = 2 p ( a) = 1 3 log 3 1 = 2 p (n e) = 4 5 log 5 4 = 1 p ( e) = 1 5 log 5 1 = 3 p (n i) = 1 2 log 2 1 = 1 p ( i) = 1 2 log 2 1 = 1 p (i n) = 1 6 log 6 1 = 3 p (o n) = 1 6 log 6 1 = 3 p (t n) = 4 6 log 6 4 = 1 p (n o) = 1 2 log 2 1 = 1 p ( o) = 1 2 log 2 1 = 1 p (a r) = 1 6 log 6 1 = 3 p (e r) = 4 6 log 6 4 = 1 p (o r) = 1 6 log 6 1 = 3 p (a t) = 1 8 log 8 1 = 3 p (i t) = 1 8 log 8 1 = 3 p (o t) = 1 8 log 8 1 = 3 p (r t) = 5 8 log 8 5 = 1 p (a ) = 1 4 log 4 1 = 2 p (e ) = 1 4 log 4 1 = 2 p (t ) = 2 4 log 4 2 = 1 7

8 Codificando con il modello di ordine 1 si ottiene una codifica lunga 62 bit e un rate R = Al primo simbolo, mancando il predecessore è stata assegnata una codeword lunga 5. Già con un piccolo testo possiamo notare come effettivamente una maggiore conoscenza della sorgente permetta di effettuare una migliore compressione. Bibliografia [Sayood06] K. Sayood. Introduction to Data Compression, 3rd Edition. Morgan Kaufmann,