15 Informazione e Predizione

Documenti analoghi
Teoria dell informazione

Lunghezza media. Teorema Codice D-ario prefisso per v.c. X soddisfa. L H D (X). Uguaglianza vale sse D l i. = p i. . p.1/27

Esercizi di Matematica per la prova di ammissione alla Scuola Galileiana /16

Lezione 4 Ugo Vaccaro

Compressione Dati. Teorema codifica sorgente: Entropia fornisce un limite sia inferiore che superiore al numero di bit per simbolo sorgente.. p.

Appunti sui Codici di Reed Muller. Giovanni Barbarino

Secondo parziale di Matematica per l Economia (esempio)

Programmazione Greedy I codici di Huffman

Complementi di Analisi Matematica Ia. Carlo Bardaro

Equazioni esponenziali e logaritmi

Algoritmi Greedy. Tecniche Algoritmiche: tecnica greedy (o golosa) Un esempio

Lezione 17 Ugo Vaccaro

Def. La lunghezza media L(C) di un codice C per una v.c. Obiettivo: Codice ottimo rispetto alla lunghezza media. Lunghezza media di un codice

Lezione 6 Richiami di Geometria Analitica

Massimo limite e minimo limite di una funzione

Esercizi. y = x 2 1 (t x). Essa interseca la parabola quando y = t 2 cioé. 1, t = x. (t + x) = 1. x 2 1 2x (t x) = t2, (t x)(t + x) = 1.

LEZIONI Dispense a cura del Docente.

misura. Adesso, ad un arbitrario punto P dello spazio associamo una terna di numeri reali x

Una funzione è continua se si può tracciarne il grafico senza mai staccare la matita dal foglio.

Cammini minimi fra tutte le coppie

Riassumiamo le proprietà dei numeri reali da noi utilizzate nel corso di Geometria.

1 IL LINGUAGGIO MATEMATICO

LEZIONE 3. a + b + 2c + e = 1 b + d + g = 0 3b + f + 3g = 2. a b c d e f g

Dimostrazione. Indichiamo con α e β (finiti o infiniti) gli estremi dell intervallo I. Poniamo

Corso di Calcolo Numerico

Correzione secondo compitino, testo B

Complementi ed Esercizi di Informatica Teorica II

DIFFERENZIAZIONE. Sia f una funzione reale di variabile reale con dominio un intervallo. Se f è derivabile in un punto x 0, allora: f(x) f(x 0 ) lim

Metodi e Modelli per l Ottimizzazione Combinatoria Cover inequalities

Concentriamo la nostra attenzione sull insieme dei numeri razionali Q. In Q sono definite

Soluzioni dei quesiti della maturità scientifica A.S. 2009/2010

A.A CORSO DI ALGEBRA 1. PROFF. P. PIAZZA, E. SPINELLI. SOLUZIONE ESERCIZI FOGLIO 5.

Problemi, istanze, soluzioni

Teoria dei Giochi. Anna Torre

SERIE NUMERICHE FAUSTO FERRARI

Calcolo integrale. Regole di integrazione

1) Probabilità di errore di trasmissione. 2) Capacità di canale. 3) Esempi di calcolo della capacità. 4) Disuguaglianza di Fano

FUNZIONI ELEMENTARI, DISEQUAZIONI, NUMERI REALI, PRINCIPIO DI INDUZIONE Esercizi risolti

LEZIONE 15. (15.1.2) p(x) = a 0 x n + a 1 x n a n 1 x + a n = a h x n h.

Corso di Analisi Numerica

Dati e Algoritmi I (Pietracaprina) Esercizi sugli Alberi

Piccolo teorema di Fermat

Linguaggi e Grammatiche Liberi da Contesto

Esercizi sui sistemi di equazioni lineari.

Precorso di Matematica

Online Gradient Descent

m = a k n k + + a 1 n + a 0 Tale scrittura si chiama rappresentazione del numero m in base n e si indica

DERIVATE E LORO APPLICAZIONE

SISTEMI LINEARI. x 2y 2z = 0. Svolgimento. Procediamo con operazioni elementari di riga sulla matrice del primo sistema: R 2 R 2 3R

LEZIONE 2. ( ) a 1 x 1 + a 2 x a n x n = b, ove a j, b R sono fissati.

I teoremi della funzione inversa e della funzione implicita

Limiti e continuità. Teoremi sui limiti. Teorema di unicità del limite Teorema di permanenza del segno Teoremi del confronto Algebra dei limiti

Esercitazione 4 Algoritmi greedy

a) Determinare il dominio, i limiti agli estremi del dominio e gli eventuali asintoti di f. Determinare inoltre gli zeri di f e studiarne il segno.

Due numeri naturali non nulli a, b tali che MCD(a,b) = 1 si dicono coprimi o relativamente primi.

Matematica per le Applicazioni Economiche I (M-P)

CLASSE LIMITE DI UNA SUCCESSIONE DI NUMERI REALI C. MADERNA, G. MOLTENI, M. VIGNATI

210 Limiti. (g) lim. (h) lim. x 3 + ln ; x 3 3. (i) lim. x 2 + ln(x + 2)(x 2) ; (j) lim. 6 (Prodotti di limiti non necessariamente finiti).

Topologia, continuità, limiti in R n

Esercizi di Algoritmi e Strutture Dati

La codifica digitale

COMPLETEZZA DELL INSIEME DEI NUMERI REALI R.

Anno 5 Regole di derivazione

PROVETTE D ESAME. Algoritmi e Strutture Dati

Circuiti in corrente continua

Derivazione numerica. Introduzione al calcolo numerico. Derivazione numerica (II) Derivazione numerica (III)

Corso di Laurea in Matematica Geometria 2. Esercizi di preparazione allo scritto a.a Topologia

Equazioni differenziali

SISTEMI LINEARI. x y + 2t = 0 2x + y + z t = 0 x z t = 0 ; S 3 : ; S 5x 2y z = 1 4x 7y = 3

Prodotto scalare e ortogonalità

1 Funzioni reali di una variabile reale

LEZIONE 11. s V : V V V (v 1, v 2 ) v 1 + v 2 = s V (v 1, v 2 ), p V : k V V. per cui valgono:

Comunicazioni Elettriche Esercizi

Principali insiemi di numeri

Funzioni reali di variabile reale

Corso di Calcolatori Elettronici I

Linguaggi di Programmazione Corso C. Parte n.3 Linguaggi Liberi da Contesto e Linguaggi Contestuali. Nicola Fanizzi

Insiemi di numeri reali

0 se y c 1 (y)) se c < y < d. 1 se y d

1) Applicando la definizione di derivata, calcolare la derivata in x = 0 delle funzioni: c) x + 1 d)x sin x.

ESERCIZI SUI PUNTI DI NON DERIVABILITÀ TRATTI DA TEMI D ESAME

7.5 Il caso vincolato: preliminari

Soluzioni Esercizi su rappresentazione binaria dell informazione

Registro Lezioni di Algebra lineare del 15 e 16 novembre 2016.

Funzioni implicite - Esercizi svolti

Precorso CLEF-CLEI, esercizi di preparazione al test finale con soluzioni

LIMITI. 1. Definizione di limite.

Corso di Matematica per la Chimica. Dott.ssa Maria Carmela De Bonis a.a

Corso di Calcolo Numerico

2. discutere il comportamento dell accelerazione e della tensione nel caso m 1 m 2 ;

carattere a b c d e f cod. var

Alberi ed Alberi Binari

L1 L2 L3 L4. Esercizio. Infatti, osserviamo che p non può essere un multiplo di 3 perché è primo. Pertanto, abbiamo solo due casi

Algoritmi e Strutture Dati II: Parte B Anno Accademico Lezione 5

TEN Radici quadrate modulo p e modulo p k. Radici quadrate modulo p, con p > 2.

FUNZIONI LINEARI (Retta, punto di pareggio e relazioni lineari generalizzate)

ALGEBRA I: SOLUZIONI QUINTA ESERCITAZIONE 9 maggio 2011

Teoria dei Giochi. Anna Torre

NOTE SULLE FUNZIONI CONVESSE DI UNA VARIABILE REALE

Appunti lezione Capitolo 14 Greedy

Transcript:

(FX) Teoria dell Informazione e della Trasmissione 5 Informazione e Predizione Docente: Nicolò Cesa-Bianchi versione 4 maggio 03 Consideriamo una sorgente X, p. Dallo studio della codifica sorgente, sappiamo che la lunghezza media delle parole del miglior codice c : X {0, } univocamente decodificabile è compresa fra H(X) e H(X) + e che questo codice ottimo è anche istantaneo. Diamo ora un significato diverso a H(X). Supponiamo di dover indovinare il valore di un simbolo sorgente x estratto dalla distribuzione p tramite una serie di domande binarie (sì/no) che possiamo scegliere liberamente. È facile vedere che posso usare l albero di un codice istantaneo ottimo c per formulare le domande. Ricordiamo che questo albero è binario e ha gli elementi di X sulle foglie. Il cammino dalla radice a una foglia x identifica la parola di codice c (x ) ed ha lunghezza l c (x). L algoritmo per formulare le domande inizialmente pone la radice come nodo corrente. La prima domanda che facciamo è se x appartiene alle foglie del sottoalbero sinistro della radice. Se la risposta e sì, il figlio sinistro della radice diventa il nodo corrente, altrimenti il figlio destro della radice diventa il nodo corrente. Quindi procediamo come prima, chiedendo se x appartiene alle foglie del sottoalbero sinistro della radice. Procedendo in questo modo, dopo l c (x) domande abbiamo identificato x. Perciò, in media facciamo un numero di domande pari a E [ l c (X) ], che per un codice ottimo è compreso fra H(X) e H(X) +. Supponiamo ora che x non sia estratta da p ma sia un elemento arbitrario di X. In questo caso posso formulare le domande usando un codice istantaneo ottimo c per la sorgente dove p è uniforme, ovvero p(x) = m per ogni x X dove m = X. Le lunghezze delle parole di questo codice avranno due soli possibili valori: m e m (che coincidono quando m è potenza di due). Quindi, applicando l algoritmo precedente per formulare le domande, posso identificare ogni x usando al più m domande. Si noti che questo valore è nuovamente compreso fra H(X) e H(X) + dove H(X) = m è l entropia della distribuzione uniforme su X. Consideriamo ora un problema diverso, ma in qualche modo collegato: quello della predizione sequenziale tramite aggregazione di esperti. Prendiamo come esempio il problema delle previsioni del tempo. Supponiamo di dover predire, ogni giorno e per un anno di fila, se il giorno successivo pioverà o meno in una data località fissata. In astratto, dobbiamo quindi predire una sequenza ignota (y, y,..., y T ), dove y t = 0 se il t-esimo giorno non piove e y t = se il t-esimo giorno piove, con T = 365. Denotiamo con ŷ t la nostra previsione di y t. Fissiamo un dato insieme di N esperti per le previsioni del tempo (per esempio pacchetti software o metereologi in carne ed ossa). Le predizioni si svolgono nel modo seguente: per ogni giorno t =,,.... al termine del giorno precedente raccolgo le previsioni x,t,..., x N,t {0, } degli esperti per il giorno corrente e formulo la previsione ŷ t {0, }. al termine del giorno corrente osservo se ha piovuto o meno e ricavo il bit corretto y t {0, }

3. se ŷ t y t, ho commesso un errore, analogamente se x i,t y t l esperto i ha commesso un errore. Alla fine dell anno ci sarà un esperto che ha sbagliato meno degli altri (il miglior esperto dell anno). Il nostro primo obiettivo è quello di sviluppare un algoritmo che, qualsiasi cosa succeda, non sbaglia molto di più di questo miglior esperto. Indichiamo con M i,t = t I{x i,s y s } s= il numero di errori dell esperto i nei primi t passi di predizione. Analogamente, indichiamo con M t = t I{ŷ s y s } il numero di errori compiuti dall algoritmo di predizione nello stesso intervallo di tempo. s= Per iniziare, assumiamo che ci sia un esperto che non fa neanche un errore di previsione durante tutto l anno, ovvero min i=,...,n M i,t = 0. Qual è una buona strategia di previsione in questo caso? Consideriamo la seguente strategia detta Halving: ogni giorno, predici come la maggioranza degli esperti fra tutti quelli che non hanno mai sbagliato in precedenza (se esattamente la metà degli esperti fra quelli che non hanno mai sbagliato predice 0, allora predici 0). Non è difficile calcolare un maggiorante sul numero di sbagli di Halving. Sia S t il sottoinsieme di esperti che hanno azzeccato le prime t predizioni, ovvero S t = { i N : M i,t = 0}. Quindi Halving predice ŷ t+ = sse Abbiamo: {i S t : x t+,i = } {j S t : x t+,j = 0}. S 0 = {,..., N}.. S T, dato che almeno un esperto non sbaglia mai. 3. S t+ S t per ogni t. 4. S t+ S t / per ogni t tale che ŷ t y t. L ultima disuguaglianza è dovuta al fatto che, se sbagliamo predicendo con la maggioranza di quelli che non avevano mai sbagliato prima, allora hanno sbagliato almeno metà di quelli che non avevano mai sbagliato prima.

Ricordiamo che M T è numero (incognito) di sbagli di Halving nei T passi di predizione. Allora Risolvendo per M T otteniamo M T N. S T S 0 M T = N M T. Dato che M T deve essere intero, otteniamo infine M T N. Per esempio, con 000 esperti faremo al più 9 sbagli. Inoltre, raddoppiando il numero di esperti, facciamo al massimo uno sbaglio in più, infatti Si osservi che: (N) = N + = N +.. Questo algoritmo può essere utilizzato per qualsiasi problema di predizione binaria.. Il maggiorante che abbiamo dimostrato dipende solo dal numero degli esperti, ma non dalle loro predizioni, né dalla sequenza binaria y,..., y T, né dalla sua lunghezza T (ovvero, con 000 esperti facciamo al più 9 errori anche su sequenze infinite). Una formulazione equivalente di Halving è la seguente: a ogni esperto i è associato al tempo t un peso positivo w i,t. All inizio w i, = /N per ogni esperto i. Se i sbaglia al tempo t, allora il suo peso viene moltiplicato per 0, cioè w i,t+ = 0. Per predire, confrontiamo la somma dei pesi degli esperti che predicono con la somma dei pesi degli esperti che predicono 0: ŷ t = se e solo e w i,t w j,t. i : x t,i = j : x t,j =0 L analisi è molto simile alla precedente con W t che svolge il ruolo di S t. Sia W t = w,t + +w N,t. Infatti, N W T + W M = T M. T Risolvendo per M T otteniamo M T N. Se invece w i, = p i > 0 per ogni i =,..., N dove p + + p N =, ripetendo l analisi di Halving otteniamo M T p k doke k è l esperto tale che M k,t = 0. Nel caso in cui l esperto ottimo k sia estratto proprio dalla distribuzione (p,..., p N ) usata per assegnare i pesi iniziali agli esperti, otteniamo che il numero medio di errori rispetto all estrazione di k è E [ M T ] N k= p k p k = H(X) ovvero il numero medio di errori è l entropia della distribuzione (p,..., p N ). Occupiamoci ora del caso (molto più verosimile) in cui non ci sia un esperto che fa sempre previsioni esatte. Vediamo se è possibile adattare Halving a questo caso. L algoritmo può essere riformulato nel modo seguente. 3

Per renderla più morbida, decidiamo che ad ogni sbaglio, il peso di un esperto debba essere moltiplicato per 0 β <, cioè w i β w i. Per β = 0, otteniamo nuovamente Halving. Per 0 < β <, otteniamo un algoritmo diverso (in realtà, otteniamo un algoritmo diverso per ogni valore di β nell intervallo considerato). Chiamiamo questa famiglia di algoritmi Weighted Majority (WM). L analisi è simile a quella di Halving. Sia W t+ il peso totale degli esperti dopo t predizioni. Abbiamo:. W t+ W t per ogni t.. W t+ (/ + β/)w t per ogni t tale che ŷ t y t. L ultima disuguaglianza è dovuta al fatto che, se sbagliamo predicendo con la maggioranza pesata, allora il peso degli esperti che sbagliano è almeno la metà del peso corrente. Quindi, almeno la metà del peso corrente viene moltiplicata per β. Denotiamo con M T il numero (incognito) di sbagli di WM dopo T predizioni. Allora, usando il fatto che W = N, ( W T + β ) MT ( ) + β MT W = N. Risolvendo per M t otteniamo M T (N/W T + ) ( ). +β La quantità W T + denota la somma dei pesi degli esperti dopo T predizioni. Ora, il peso di ciascun esperto i parte da e viene moltiplicato per β ogni volta che l esperto sbaglia. Perciò, dopo T predizioni avremo w i,t + = β M i,t, dove M i,t = T t= I{x t,i y t } è il numero totale di sbagli dell esperto i. Quindi, posto M = min M i,t il numero totale di sbagli del miglior esperto, abbiamo i=,...,n W T + = N i= Sostituendo nel maggiorante per M T otteniamo infine Per esempio, se β = / allora β M i,t max i=,...,n βm i,t = β M. M T N + M (/β) ( ). () +β M T N + M (/β) ( ) = N + M log (4/3) +β <.4( N + M ). Quindi, se il migliore fra 0 esperti sbaglia 00 volte, allora WM con β = / sbaglierà al più 48 volte. 4

Occupiamoci ora della scelta del parametero β. Definiamo la funzione f(β) = N + M (/β) ( ) +β per 0 β. Studiando la derivata di f troviamo che f(β) è minimizzata per β = M /(M M ), dove M è l unica soluzione (per M > M ) dell equazione M = N + M H(M /M) e H è la funzione di entropia binaria H(x) = x (x) ( x) ( x). Sostituendo, scopriamo anche che f(β ) = M. Ora, usando la maggiorazione H(q) q( q), possiamo scrivere M = N + M H(M /M ) N + M M M ( M ) M N + M (M M ) Sostituendo β nel membro destro di () otteniamo il nuovo maggiorante M M + N + M N () dove, come prima, M indica il numero di sbagli compiuti da WM su una sequenza arbitraria e M indica il numero di sbagli compiuti dal miglior esperto sulla stessa sequenza. Si noti che in () il fattore moltiplicativo di M (che possiamo considerare il termine dominante in quanto ci aspettiamo che cresca al crescere del numero di predizioni) è, mentre in () lo stesso fattore è.4. Però c è un problema: la scelta di β che dà () dipende dal numero N di esperti (che è noto) e dal numero M di sbagli del miglior esperto, che conosceremo solo alla fine! D altra parte, esaminando () notiamo che l unica scelta di β costante (cioè indipendente da M ) che ci dà un fattore di fronte a M è β =. Ma questa scelta non va bene in quanto il fattore moltiplicativo di N nella stessa espressione diventa infinito. Se supponiamo di conoscere il numero T di predizioni che vogliamo fare, possiamo ottenere qualcosa di simile a (). Infatti, è possibile dimostrare che la scelta ( ) β = g ln(n)/t dove g(x) = + x + x / ln() nel membro destro di () produce il maggiorante M M + N + T ln N. 5