Sorgent umerche - Soluzon *) L anals delle frequenze con cu compaono le vare lettere n un documento n talano, comprendente 5975 caratter, ha fornto seguent dat: Lettera umero Frequenza relatva A 666. B 49 3 8. C 48 3.4 D 449 4.9 E 796.8 F 6.4 G 95.59 H 63.5 I 66. J 4 5 6.69 K 8 4 4.68 L 3743 6.6 M 98 3. Lettera umero Frequenza relatva 455 7.53 O 49 8. P 67.7 Q 66 3 4.45 R 47 6.7 S 859 4.78 T 464 7.76 U 775.97 V 854.4 W 4 3.5 X 4 3 6.87 Y 5 4.5 Z 66. a) Assumendo smbol ndpendent, determnare lentropa d tale sorgente b) Come s modfca lentropa se s tene conto che la lettera Q sempre seguta dalla lettera U? Soluzone: a) Rcordamo brevemente la defnzone d frequenza relatva d presentazone: n P ( A ) lm A M M Questa defnzone, detta anche frequentsta, assoca all evento A generco un numero reale P(A) chamato probabltà dell evento A tale che: P( A) ; la probabltà dell evento è dunque ottenuta come rapporto tra l numero n A d volte n cu l evento stesso s verfca nel numero M d prove dell espermento casuale,quando M è molto grande. Rcordamo noltre che due event A e B s dcono statstcamente ndpendent o ndpendent se: n cu, P( A B) P( A B) P ( A, B) P( A) P( B), è la probabltà congunta de due event.
Con queste consderazon comprendamo che la frequenza relatva d presentazone è da ntenders come la probabltà che ha un generco smbolo d essere emesso. Dalla tabella che c vene fornta,ne rcavamo un altra nella quale è ndcata, per ogn smbolo,la quanttà d nformazone assocata al smbolo stesso ;tale quanttà s rcava con la formula usuale : p [bt],,..,6 q log log p Lettera (Evento A) umero n ) ( A Frequenza relatva Quantt d Informazone Assocata Lettera (Evento A) umero n ) ( A Frequenza relatva Quantt d Informazone assocata A 666. 3. 8 455 7.53 3. 73 B 49 3 8. 6. 93 O 49 8. 3. 6 C 48 3.4 4. 87 P 67.7 5. D 449 4.9 4. 6 Q 66 3 4.45 7. 8 E 796.8 3. 8 R 47 6.7 4. 5 F 6.4 6. 59 S 859 4.78 4. 39 G 95.59 5. 97 T 464 7.76 3. 69 H 63.5 6. 57 U 775.97 5. 7 I 66. 3. 8 V 854.4 6. 4 J 4 5 6.69 3. 87 W 4 3.5. 48 K 8 4 4.68. 6 X 4 3 6.87 7. 8 L 3743 6.6 4. Y 5 4.5. 96 M 98 3. 4. 96 Z 66. 6. 5 (Con : M 5975 ndchamo n numero d prove total) Utlzzamo ora la defnzone d entropa d sorgente (valore sperato d una varable casuale dscreta): H p [] q p q p log p log ( p ) [bt/smbolo] Poché l calcolo rsulta oneroso se ne fornsce solo l rsultato : H[] q 3.99 4 bt smbolo b)ello spazo de smbol sappamo che esste una correlazone tra l carattere Q e l
carattere U n quanto, nella lngua talana, la lettera U segue sempre la Q senza alcuna eccezone(eccetto la parole soqquadro e soqquadrone!). Defnamo dunque un nuovo smbolo QU d cu occorre conoscere la probabltà che esso ha d essere emesso. La lettera U può apparre o da sola oppure n concomtanza con la lettera Q. Poché la lettera Q deve essere trasmessa 66 volte allora sgnfca che 66 U non verranno pù trasmesse scchè l numero totale d caratter da trasmettere passerà da M 5975 a : M 5975-66 59485 caratter. Subto notamo la forza della tecnca della codfca che s manfesta con una rduzone della rdondanza da cu scatursce un numero mnore d caratter da trasmettere. Rsulta charo che tutte le frequenze relatve d presentazone non sono pù valde n quanto l numero d caratter complessvo è cambato ( M ). QU compare 66 volte ne 59485 caratter, allora : P 66 59485 3 ( QU) 4.47 P 775-66 59485 ( U).54 In sntes, se s rcalcolano tutte le frequenze relatve d presentazone s pervene ad un nuovo valore dell entropa che rsulta maggore n quanto la codfca ntroduce smbol che tendono ad essere statstcamente ndpendent ed equprobabl. Il bt rate è rdotto n quanto l numero d caratter da trasmettere è sgnfcatvamente mnore. *) Una pagna d testo scrtto contene medamente 4 rghe con 6 caratter per cascuna rga. Supponendo che caratter del testo sano rappresentat medante l codce ASCII esteso (8 bt), determnare l tempo necessaro per la trasmssone d una pagna supponendo d dsporre d un sstema d trasmssone che opera alla veloct d 4 bt/s. Soluzone: La prma operazone da compere consste nel calcolare l numero d caratter che compongono una sngola pagna d testo. Se ndchamo con l numero d caratter per pagna, con λ l numero d caratter e con r l numero d rghe, ottenamo: λ r 6 4 4 caratter/pagna Il codce ASCII esteso utlzza n 8 bt per codfcare ogn sngolo carattere. Se chamamo M l numero totale d bt per pagna ottenamo : M n 4 8 9 bt 3
Il sstema d trasmssone opera ad una veloctà R 4 bt/s ; l tempo T necessaro per la completa trasmssone dell ntero testo rsulta : T M 9 8s R 4 n cu T 8 s rappresenta la rsposta al questo. 3*) Una sorgente produce messagg costtut da sole cfre decmal (da a 9); le probablt assocate a var smbol sono le seguent: 7 P() P() P() P(9) 6 6 Calcolare lentropa della sorgente (approssmare log 7 3). Soluzone : Indchamo lo spazo (nseme) de smbol della sorgente come : {,..., m,..., m } {,,,..., 9 } M m con,,..9. I smbol della sorgente formano una partzone dello spazo de smbol, ovvero : M (m ) (m m m j Poché P(M) deve essere: )...(m ) j P( m ) P Se smbol fossero equprobabl rsulterebbe : P(m ). Rcordamo la defnzone d quanttà d nformazone assocata al generco smbolo della sorgente : p [bt] q log log p Essa c rcorda che smbol meno probabl portano assocata una quanttà d nformazone maggore (base per l logartmo : msuramo l nformazone n bt). Eseguamo calcol : 4
7 log ( p ) log ( log ( 7) log ( 6) ) ( 3 4) bt 6 q Gl altr smbol hanno tutt la stessa probabltà d essere emess e portano dunque assocata la stessa quanttà d nformazone.calcolamo solo q : q log log ( 6) 4 p bt La quanttà meda d nformazone emessa dalla sorgente vene fornta propro dall entropa H[q]; rcordamone la defnzone e po applchamola: H p [] q p q p log p log ( p ) [bt/smbolo] H[q] p q p q + p q 7 6 + 9 6 4.68 bt/smbolo B: Se smbol fossero stat equprobabl e ndpendent avremmo ottenuto la massma entropa H[q] n: log log ( ) 3.3 4 n bt 4*) Una sorgente produce messagg che utlzzano un alfabeto d 6 smbol, comprendente le cfre decmal (da a 9) e 6 smbol specal (spazo,., +, -, *, /). Le probablt assocate alle cfre decmal sono per tutte ugual a 5 56, mentre quelle assocate a smbol specal sono per tutte ugual a 56. Determnare lentropa della sorgente (approssmare log 5 4 7) Soluzone: Indchamo lo spazo de smbol come : M { m },..., m..., m {,,,...,9,spazo,..., /},,,5. Per lo spazo de smbol,valgono tutte le consderazon gà fatte nell eserczo 3. Come emerge dalla defnzone d entropa, non occorre calcolare prelmnarmente la quanttà d nformazone assocata a cascun smbolo poché cò è effettuato mplctamente nella defnzone stessa. Calcolamo dunque drettamente l entropa : 5
H 9 5 [] q p log ( p ) p log ( p ) p log ( p ) 5 56 log 5 56 + 6 3.6 +.875 3.4 56 log bt 3.4 smbolo 5 5.6 ( 56) ( log ( 5) log ( 56) ) + 6 56 8 5*) Una sorgente, che rappresenta rsultat del concorso Totocalco, produce messagg che utlzzano un alfabeto d 3 smbol (, X, ). La probablt assocata al smbolo e par a, quella assocata al smbolo X e par a 3 8 e quella assocata al smbolo e par a 8. Determnare lentropa della sorgente (approssmare log 3 6) Soluzone : Indchamo ancora lo spazo de smbol come : {,..., m..., m } {X,, } M m,, Indchamo con p P(X). Samo n grado d calcolare mmedatamente l entropa : H [] q p log ( p ) p log ( p ) 3 3 log + 8 8 log +.55 +.5 +.375.4 8 ( ) + log () 8 bt smbolo 6*) Un fle d testo della dmensone d Mbyte vene trattato con un programma d compressone (come ad esempo Wnzp) ottenendo come rsultato un fle compresso della dmensone d 6 Kbyte Rcavare un lmte superore per lentropa del fle d testo orgnaro. Soluzone : Chamamo M l numero d byte del fle orgnaro ed M l numero d byte del fle compresso. 6
el caso d codfca ASCII s utlzzano n8 bt per poter rappresentare tutt gl 56 possbl smbol. Se tuttava potzzamo d lavorare con caratter che non sano equpropabl e ndpendent allora l entropa d sorgente (testo orgnaro) sarà una quanttà potetca : [ q] n H Possamo supporre che l entropa relatva al fle compresso abba un valore par a : [ q] n H Poché la tecnca d compressone tende ad elmnare la rdondanza e ad ottenere smbol statstcamente ndpendent ed equprobabl s deduce che l entropa d nformazone del testo compresso sarà maggore d quella del testo orgnaro e, nel caso mglore (entropa massma),avrà valore massmo par ad n : e per smbol ndpendent ed equprobabl : Il rapporto d compressone η è dato da : [ q] n n H [ q] n n H M 6 Kbyte η.6 (6%) M Kbyte Dato che l entropa fornsce l numero medo d bt per smbolo, nel caso del fle compresso con entropa massma possamo scrvere : bt H [ q] n 8 smbolo Il fle compresso contene un numero C d smbol par a: byte smbolo 6 Kbyte C 644 smbol byte smbolo Il prmo fle ha scuramente un numero C maggore d caratter; possamo scrvere la seguente dsequazone: 7
6Kbyte Kbyte 6kbyte Kbyte C C n n n H [ q] ottenamo : Kbyte byte bt H[] q.6 8 4. 8 6Kbyte smbolo smbolo bt smbolo ossa: bt H[ q] 4. 8. smbolo 8