STII/Teoria dell Informazione

STII/Teoria dell Informazione Docente: Prof. Luisa Gargano Classe: Matricole Pari Testo principale: T. Cover, J. Thomas, Elements of Information Theory, Wiley. p./28

Un pò di storia La Teoria dell informazione (T.I. nasce negli anni 40, nell ambito della Teoria delle Comunicazioni. Un semplice modello di un sistema di comunicazione:. p.2/28

Sorgente: qualsiasi dispositivo che emette simboli (per una destinazione. Codificatore: codifica i simboli emessi dalla sorgente in modo che possano essere trasmessi sul canale. Canale: veicolo di trasmissione dell informazione. Rumore può interferire con la trasmissione attraverso il canale Decodificatore: decodifica i simboli provenienti dal canale in simboli destinazione. Destinatario: dispositivo che riceve i simboli della sorgente.. p.3/28

Teoria dell Informazione Domanda (Anni 40: Aumentando il tasso di trasmissione dell informazione sul canale si aumenta la probabilitá di errore? Es. inviando file compresso invece del file originario? Shannon: NO, se tasso di trasmissione < capacitá del canale. p.4/28

Applicazioni Comunicazione: Compressione dati, trasmissione su canali rumorosi Informatica: Complessitá Fisica: Termodinamica Matematica: Calcolo delle probabilitá e Statistica Economia: Investimanti in Borsa. p.5/28

Entropia X=v.c. discreta con alfabeto X e funzione massa di probabilitá p(x = P r{x = x}, x X. [X emissione simbolo sorgente] Entropia: misura l incertezza sull esito di una variabile casuale X H(X = x X p(x log p(x bits. p.6/28

Entropia Es. Lancio ( moneta (M, ( moneta truccata ( (MT, dado (D t c t c... 6 M =, MT = 3, D = 2 2 4 4 6... 6 H(X = x X p(x log p(x = x X H(M = 2 2 log 2 = 2 2 = H(MT = 4 log 4 + 3 4 log 4 3 = log 4 + 3 4 log 3 < H(D = 6 6 log 6 = + log 3 H(MT < H(M < H(D p(x log p(x bits. p.7/28

Entropia Nota: Si assume 0 log 0 = 0 (poiché lim x 0 x log x = 0 Aggiungere eventi con prob. nulla non cambia l incertezza Nota: H(X dipende solo dalla d.p. p di X, NON da alfabeto X (H(X = H(p Nota: H(X = E [ ] log p(x. p.8/28

Proprietà dell entropia Lemma. H(X 0; uguaglianza sse x X t.c. p(x =. Dim. 0 p(x log p(x 0 x Esiste x X con 0 < p(x < sse H(x > 0 p(x log p(x 0. p.9/28

Proprietà dell entropia Se si cambia la base del logaritmo, il valore dell entropia cambia solo di un fattore costante Lemma H b (X = H(X lg b Dim. H b (X = x X = lg b p(x lg b p(x = x X x X p(x lg p(x = H (X lg b p(x lg p(x lg b. p.0/28

Entropia Binaria X = ( a p b p H(X = p lg p + ( p lg ( p def = h(p h (p = lg p p. p./28

Entropia: altra interpretazione Supponiamo di voler indovinare il valore della v.c. ( a b c d X =. /2 /4 /8 /8 con domande del tipo È X uguale a x?. Quante domande dobbiamo porre in media?. p.2/28

Costruiamo ( un albero di decisione per a b c d X =. /2 /4 /8 /8. p.3/28

Minimo numero atteso di domande n(x = numero di domande nel caso in cui X = x. In media il numero di domande è : x X n(xp(x = 2 + 2 4 + 3 8 + 3 8 = 7 4 = H (X In generale il minimo numero atteso di domande è tra H(X e H(X +. p.4/28

Codifica di una v.c. Esempio Una persona assiste ad una corsa di cavalli a cui partecipano 8 cavalli tutti ugualmente favoriti. Quanti bit servono per indicare il vincitore?. p.5/28

Codifica di una v.c. equiprobabile Esempio Una persona assiste ad una corsa di cavalli a cui partecipano 8 cavalli tutti ugualmente favoriti. Quanti bit servono per indicare il vincitore? 3 Calcoliamo l entropia di X : ( 2... 8 X = 8 8... 8 H (X = 8 8 lg 8 = lg 8 = 3. p.6/28

Codifica di una v.c. Esempio Corsa di cavalli con diverse prob. vittoria. ( X 2 3 4 5 6 7 8 = 2 4 8 6 Codifica deve tener conto delle diverse probabilità. 64 Ad ogni passo dividiamo i cavalli (per cui non è stata ancora completata la codifica in due insiemi equiprobabili aggiungiamo 0 alla codifica dei cavalli in un insieme e alla codifica dei rimanenti cavalli. 64 64 64. p.7/28

X = ( 2 3 4 5 6 7 8 2 4 8 6 64 64 64 64. p.8/28

Numero atteso di bit della codifica Qualè il numero atteso di bit utilizzati per codificare il nome del vincitore? (# bits parola codice (probabilità di vittoria = 2 + 2 4 + 3 8 + 4 6 + 4 6 64 = 2 + 2 + 3 8 + 4 + 3 8 = 6 8 = 2 H(X = 2 lg 2 + 4 lg 4 + 8 lg 8 + 6 lg 6 + 4 ( 64 lg 64 = 2. p.9/28

Funzioni concave/convesse Def. Una funzione f(x si dice concava su un intervallo (a, b se x, x 2 (a, b e 0 γ f (λ x + ( λ x 2 λ f (x + ( λ f (x 2 f è strettamente concava se la disuguaglianza é stretta per 0 < λ <. Esempio lg x è una funzione strettamente concava di x. Def. Una funzione f(x si dice convessa su un intervallo (a, b se f(x è concava sull intervallo (a, b.. p.20/28

. p.2/28

Diseguaglianza di Jensen ( x x 2... x n X = p (x p (x 2... p (x n f: funzione concava f (X = ( f(x f(x 2... f(x n p (x p (x 2... p (x n. Risulta E[f(X] f(e[x], f strettamente concava: uguaglianza sse X è concentrata in un unico punto. p.22/28

Dim. La dimostrazione procede per induzione su X. Base induzione: X = 2. Si consideri la v.c. ( x x 2 X = p p 2 Per la definizione di funzione concava, si ha che E [f (X] = p f(x + p 2 f(x 2 f(p x + p 2 x 2 = f (E [X]. L uguaglianza vale sse p = oppure p 2 =.. p.23/28

Passo induttivo: Supponiamo che la disuguaglianza di Jensen sia verificata per X = k. Dimostriamo che la disuguaglianza è verificata per X = k. E [f (X] = k p i f (x i = p k f (x k + i= = p k f(x k + ( p k ( k i= k i= p i f(x i p i ( p k f(x i. p.24/28

Osserviamo che k i= X = p i ( p k f(x i = E[f(X ] dove X è la v.c. ( x... x k p p k... p k p k L ipotesi induttiva implica E[f(X ] f(e[x ] per cui risulta: E[f(X] p k f(x k + ( p k f ( k i= p i p k x i Applichiamo la definizione di funzione concava al termine destro.. p.25/28

Otteniamo E[f(X] f = f ( p k x k + ( p k k i= ( k p i x i = f (E [X]. i= p i ( p k x i f strettamente concava, uguaglianza sse tutti sono = (def. f concava: p k = oppure k i= p i/( p k = (i.i.: p k = oppure X concentrata in un unico punto X concentrata in un unico punto.. p.26/28

Conseguenza della D. J. Teorema Sia X v.c. con alfabeto X e d.d.p. P (x. Risulta H(X lg X. L uguaglianza vale sse X è uniformemente distribuita. Dim. ( H(X = E lg P (x ( lg E per la disug. di Jensen P (x = lg P (x P (x = = lg X. x X x X. p.27/28

La disuguglianza di Jensen vale con il segno di = sse = c costante, x X. P (x P (x = c P (x = c x X P (x = x X c = X c. Poichè x X P (x = allora P (x = c = X.. p.28/28