Corso di Laurea a Distanza in Ingegneria Elettrica Corso di Comunicazioni Elettriche Teoria dell informazione A.A. 2006-07 Alberto Perotti DELEN-DAUIN Modello di sistema di comunicazione Il modello di sistema di comunicazione proposto da C. E. Shannon è il seguente: Sorgente Codificatore di sorgente Codificatore di canale Modulatore Voce, video, musica, dati, Zip, JPEG, MPEG, MP3, vocoder GSM e UMTS, Canale Destinatario Decodificatore di sorgente Decodificatore di canale Demodulatore 2 1
Sorgente stazionaria discreta La sorgente d informazione è caratterizzata da un alfabeto X costituito da M simboli: La sorgente emette messaggi costituiti da una sequenza di simboli: Sorgente x 0, x 1, 3 Sorgente stazionaria discreta (cont.) L emissione di un simbolo è un esperimento casuale il cui spazio campione coincide con l alfabeto X. Ogni simbolo è emesso dalla sorgente estraendolo dall alfabeto con probabilità Il messaggio è quindi rappresentabile come un processo casuale stazionario. Sorgente x 0, x 1, 4 2
Informazione Ad ogni simbolo dell alfabeto è associata una grandezza chiamata informazione: Interpretazione: Un simbolo molto probabile contiene poca informazione Un simbolo poco probabile contiene molta informazione Unità di misura: bit (logaritmo in base 2) 5 Informazione (cont.) Una generale proprietà dell informazione così definita: Simboli poco probabili, la cui emissione è un evento raro, forniscono una quantità elevata di informazione. Simboli molto probabili, la cui emissione è un evento frequente, forniscono una quantità ridotta di informazione. 6 3
Informazione (cont.) Altra proprietà interessante: Cioè l emissione di una coppia di simboli indipendenti fornisce una quantità informazione che è la somma delle informazioni fornite dai singoli simboli 7 Entropia Il contenuto informativo medio dell intera sorgente, intesa come l insieme dell alfabeto e della sua associata distribuzione di probabilità, è misurato dall entropia di sorgente: Si tratta di una media pesata dell informazione associata ad ogni simbolo L informazione è pesata con la corrispondente probabilità di simbolo. Unità di misura: bit/simbolo (logaritmo in base 2) 8 4
Entropia (cont.) Esempio: sorgente binaria X = {0, 1} con p 0 = p, p 1 = 1 p. Valore massimo p = ½ H = 1 1 H(X) Valori minimi p = 0, p =1 H = 0 0 ½ 1 p 9 Entropia (cont.) Teorema: l entropia di una sorgente con alfabeto X costituito da M simboli soddisfa la disuguaglianza L uguaglianza è raggiunta solo quando tutti i simboli sono equiprobabili. 10 5
Entropia (cont.) Esercizio: calcolare l entropia di una sorgente con alfabeto X costituito da 4 simboli con probbailità p 1 = ½ p 2 = ¼ p 3 = p 4 = 1/8 Soluzione: 11 Codifica di sorgente Supponiamo di voler trasmettere i simboli dell alfabeto X usando un canale binario. Ogni simbolo x i deve essere rappresentata mediante una sequenza finita di bit, che chiameremo parola di codice, di lunghezza n i bit. Si è interessati alla minimizzazione della lunghezza media della parola di codice: 12 6
Codifica di sorgente (cont.) L idea di fondo è quella di associare parole di codice corte ai simboli più frequenti parole di codice lunghe ai simboli meno frequenti In questo modo, si trasmettono più frequentemente parole di codice corte, mentre è più raro l utilizzo delle parole lunghe. In conclusione, si usa il canale per un numero di volte minore, ossia si opera una compressione. 13 Codifica di sorgente (cont.) La minimizzazione di E[n] deve essere effettuata tenendo conto del seguente vincolo (vincolo del prefisso): un codice viola il vincolo del prefisso se esiste una parola di codice che contiene, come sua parte iniziale, un altra parola di codice Un codice che viola tale vincolo è non univocamente decodificabile. Un codice che non viola tale vincolo è anche chiamato prefix code. 14 7
Codifica di sorgente (cont.) Esempio: w 1 = 0, w 2 = 01, w 3 = 10, w 4 = 100 viola il vincolo del prefisso perché w 2 contiene w 1 come sua parte iniziale e w 4 contiene w 3 come sua parte iniziale. Il messaggio 010010 è decodificabile come w 1 w 4 w 3 w 2 w 1 w 1 w 3 w 1 w 3 w 2 w 1 w 1 w 3 w 1 w 3 Quindi tale codice è non univocamente decodificabile 15 Algoritmo di Huffman Consente di ottenere il prefix code ottimo (dal punto di vista della lunghezza media) dato un alfabeto e la sua distribuzione di probabilità. Consiste nell esecuzione della seguente procedura: Ordinare i simboli in base alla loro probabilità Raggruppare i due simboli x i e x j meno probabili in un nuovo simbolo equivalente avente probabilità pari alla somma delle loro probabilità: p i + p j Ripetere i passi precedenti finché si ottiene un solo simbolo equivalente con probabilità 1. 16 8
distribuzione di probabilità { 1 / 3, 1 / 4, 1 / 6, 1 / 6, 1 / 12 } 17 distribuzione di probabilità {1/3, 1/4, 1/6, 1/6, 1/12} 18 9
distribuzione di probabilità {1/3, 1/4, 1/6, 1/6, 1/12} 19 distribuzione di probabilità {1/3, 1/4, 1/6, 1/6, 1/12} 20 10
distribuzione di probabilità {1/3, 1/4, 1/6, 1/6, 1/12} 21 distribuzione di probabilità {1/3, 1/4, 1/6, 1/6, 1/12} 22 11
distribuzione di probabilità {1/3, 1/4, 1/6, 1/6, 1/12} 23 distribuzione di probabilità {1/3, 1/4, 1/6, 1/6, 1/12} 24 12
distribuzione di probabilità {1/3, 1/4, 1/6, 1/6, 1/12} 25 distribuzione di probabilità {1/3, 1/4, 1/6, 1/6, 1/12} 26 13
Tutte le parole di codice corrispondono alle foglie dell albero che si è costruito. Il codice ottenuto soddisfa quindi il vincolo del prefisso per costruzione. Inoltre, si ha 27 Lunghezza media Teorema: è sempre possibile trovare un codice che soddisfa il vincolo del prefisso con lunghezza media 28 14
Il canale discreto Si tratta di un sistema avente X ingressi e Y uscite, caratterizzato dalle probabilità condizionali di transizione. Esempio: il canale binario simmetrico X 1-p 1 1 p p 0 1-p 0 Y 29 Esercizio 1 La sorgente S emette simboli dall alfabeto X = {x i }, i = 1,, 3 con probabilità p 1 = 0.6 p 2 = 0.3 p 3 = 0.1 Determinare il codice di sorgente ottimo che rispetti il vincolo del prefisso. Calcolare la lunghezza media delle parole di codice. 30 15
Esercizio 1 - soluzione Le parole di codice associate all alfabeto X = {x i }, i = 1,, 3 sono C (x 1 ) = 0 C (x 2 ) = 10 C (x 3 ) = 11 La lunghezza media delle parole di codice è 1.4 bit. 31 Esercizio 2 Con la sorgente definita nell esercizio precedente, considerando coppie di simboli di sorgente, determinare il codice di sorgente ottimo che rispetti il vincolo del prefisso. Calcolare la lunghezza media delle parole di codice e confrontarla con il risultato ottenuto all esercizio precedente. 32 16
Esercizio 2 soluzione Le parole di codice associate all alfabeto X 2 = {x i x j }, i, j = 1, 2, 3 sono C (x 1 x 1 ) = 0 C (x 1 x 2 ) = 100 C (x 2 x 1 ) = 101 C (x 2 x 2 ) = 1110 C (x 1 x 3 ) = 1100 C (x 3 x 1 ) = 1101 C (x 2 x 3 ) = 11110 C (x 3 x 2 ) = 111110 C (x 3 x 3 ) = 111111 33 Esercizio 2 soluzione (cont.) La lunghezza media delle parole di codice è 2.67 Il valore ottenuto è maggiore rispetto al valore di 1.4 ottenuto all esercizio 1. Tuttavia, ogni parola di codice corrisponde a 2 simboli di sorgente, quindi la lunghezza media per simbolo di sorgente vale 1.335 bit, valore minore del precedente. 34 17
Esercizio 3 È data una sorgente binaria X = {x 1, x 2 } con probabilità P{X = 0} = 1 P{X = 1} = 0.3. I simboli vengono trasmessi su un canale binario simmetrico con probabilità di errore p = 0.1. Determinare il codice di sorgente ottimo per X 2 e per X 3 che rispetti il vincolo del prefisso. 35 Riferimenti bibliografici [1] G. Prati, Videocorso Teoria dei Segnali [2] S. Benedetto, E. Biglieri, Principles of Digital Transmission with Wireless Applications, Kluwer, New York, 1999 36 18