Online Gradient Descent

F94 Metodi statistici per l apprendimento Online Gradient Descent Docente: Nicolò Cesa-Bianchi versione 9 aprile 06 L analisi del Perceptrone ha rivelato come sia possibile ottenere dei maggioranti sul numero di errori di classificazione commessi dal Perceptrone su un arbitraria sequenza di dati. Qual è il significato di questo risultato? Nel modello di apprendimento statistico, dove i dati sono generati da un modello probabilistico, il criterio di valutazione di un predittore è il suo rischio statistico. Ma come valutare un classificatore quando i dati sono una sequenza generata da una sorgente arbitraria? Il modello di apprendimento online, che è quello al cui interno abbiamo implicitamente analizzato il Perceptrone, suggerisce il seguente protocollo: dato un algoritmo di apprendimento A per classificazione binaria e data una sequenza arbitraria x, y, x, y,... di dati. L algoritmo genera un modello di partenza w Per t =,,.... Il modello corrente w t viene testato sul prossimo esempio x t, y t. L algoritmo A aggiorna il modello w t generando un nuovo modello w t+ In questo protocollo di predizione sequenziale, l algoritmo genera una sequenza w, w,... di modelli. Le prestazioni vengono valuatate misurando il rischio sequenziale, ovvero la quantità I{y t w t x t 0} che conta, al variare di, la frazione di errori di classificazione compiuta dalla sequenza di modelli sui primi esempi. Il rischio sequenziale sostituisce la nozione di rischio statistico. Come nell apprendimento statistico siamo interessati a studiare quanto velocemente decresce il rischio all aumentare della taglia del training set, così nell apprendimento online siamo interessati a studiare quanto velocemente decresce il rischio sequenziale all aumentare di. Più in generale, possiamo considerare un generico problema di predizione lineare classificazione o regressione con funzione di perdita l. Definiamo la perdita del modello w sull esempio x t, y t come l t w = l w x t, y t. Per esempio lt w = I{y t w t x t 0} in classificazione, con y t {, +}, oppure l t w t = w x t y t in regressione, con yt R. In questo caso più generale valutiamo l algoritmo di predizione tramite il rischio sequenziale, l t w t dove w, w,... è la sequenza di modelli generata all algoritmo che lavora nel protocollo di predizione sequenziale.

Introduciamo ora l algoritmo sequenziale di discesa del gradiente, o online gradient descent OGD. Questo algoritmo è in grado di lavorare con una qualunque funzione di perdita convessa l. Per introdurre OGD, ricordiamo che una semplice tecnica per minimizzare una funzione convessa e differenziabile l : R d R è la discesa del gradiente. A partire da un punto arbitrario w, la discesa del gradiente applica ripetutamente la seguente operazione: w t+ = w t η lw t, dove η > 0 è un parametro. Se il punto corrente w t non è un minimo della funzione, allora lw t > 0 e quindi w t+ si sposterà in direzione del minimo della funzione. La teoria dell ottimizzazione convessa spiega quanto velocemente la discesa del gradiente minimizza una funzione convessa rispetto al grado di convessità della funzione stessa. Per analizzare OGD, dobbiamo studiare la discesa del gradiente nel caso in cui la funzione l da minimizzare cambi ad ogni passo, con una sequenza l, l,... ignota a priori. Ecco una descrizione dell algoritmo OGD con proiezione. Qui e nel seguito, assumiamo che l, l,... sia una sequenza di funzioni di perdita convesse e due volte differenziabili. Algoritmo OGD con proiezione Parametri: costante η, raggio U > 0 Inizializzazione: w = 0 Per t =,,.... w t+ = w t η t l t w t. w t+ = argmin w w t+ w : w U Nel passo, proiettiamo w t+ in una sfera Euclidea di raggio U. Se w t+ U, allora w t+ = w t+. Sia η t = η / t, dove η è un parametro dell algoritmo. L analisi dell algoritmo utilizza il teorema seguente. Lemma Formula di aylor per funzioni multivariate Sia f : R d R una funzione due volte differenziabile. Allora, per ogni w, u R d vale fu = fw + fw u w + u w fξu w dove fξ è la matrice Hessiana di f calcolata in un punto ξ sulla retta che congiunge u a w. Scopo dell analisi è limitare la differenza fra il rischio sequenziale dell algoritmo e quello di un qualsiasi modello u tale che u U. Ovvero, vogliamo controllare la differenza l t w t l t u. Fissiamo quindi u arbitrario con norma limitata da U e notiamo che, ad ogni istante t, il teorema di aylor implica l t w t l t u = l t w t w t u u w t l t ξu w t l t w t w t u.

La disuguaglianza vale perché stiamo assumendo che l t sia due volte differenziabile e convessa, il che implica che la matrice l t ξ sia positiva semidefinita. Quindi z l t ξz 0 per ogni z R d. Possiamo quindi procedere maggiorando la quantità l t w t w t u, l t w t w t u = w t+ w t w t u η t = η t w t u w t+ u + w t+ w t η t w t u w t+ u + w t+ w t. La prima uguaglianza usa il fatto che w t+ w t = η t l t w t. La seconda è un identità algebrica che si verifica rapidamente facendo i conti. Infine la disuguaglianza vale perché u appartiene alla sfera di raggio U centrata sull origine, e quindi proiettando w t+ su questa sfera la distanza con u non può aumentare. Ora aggiungiamo e togliamo lo stesso termine η t+ w t+ u all ultimo membro della catena di disuguaglianze mostrata sopra. Poi raggruppiamo i termini come indicato qua sotto w t u w t+ u η t η } {{ t+ } w t+ u + w t+ u η t η } {{ t+ } + η t w t+ w t. Sommando su t =,..., notiamo che i primi due termini sono una somma telescopica, mentre i secondi due termini hanno un fattore comune, l t w t l t u + Ora usiamo i seguenti fatti: η w u w + u η + w t+ u + η t+ η t η t w t+ w t. w = 0 w t+ u 4U w t+ w t = η t l t w t per definizione di OGD dato che sia w t+ che u appartengono alla sfera di raggio U per definizione di OGD. Sostituendo queste relazioni nell ultima disuguaglianza e scegliendo G tale che l t w t G per ogni t, otteniamo l t w t l t u U η w + u η + + U + w + u w + u + G η t+ η t η + η η t. 3

Ora semplifichiamo la somma telescopica, cancelliamo i termini con segno opposto e maggioriamo omettendo il termine η w + u, l t w t l t u U η + U U η η U η + G η + G η t U η + G η t dove abbiamo usato la maggiorazione t. Scegliendo η = U / G e dividendo tutto per otteniamo il risultato finale l t w t min u : u U 8 l t u + UG. 3 Una maniera per interpretare il risultato appena ottenuto è la seguente. Sia u = argmin u : u U il miglior predittore per i primi passi. Allora l t w t l t u l t u = O ovvero il rischio sequenziale di OGD converge alla perdita media del predittore ottimo u. per È possibile ottenere un valore esplicito per G facendo assunzioni particolari. Per esempio, l t w = w x t y t, ovvero regressione con funzione di perdita quadratica. Assumendo xt X e y t UX per ogni t, possiamo calcolare l t w t w x t y t x t w t x t + y t x t 4UX. Sostituendo questo valore di G nel maggiorante precedente otteniamo l t w t min u : u U l t u + 8UX. Notiamo ora che possiamo esprimere l algoritmo del Perceptrone come un caso particolare di OGD. Infatti, possiamo scrivere la regola di aggiornamento del Perceptrone come discesa del gradiente su una particolare funzione di perdita chiamata hinge loss: h t w = [ y t w x t ]+, dove 4

4 3 0 0 Figura : La hinge loss hz = [ z] + in rosso è un maggiorante convesso alla funzione di perdita zero-uno lz = I{z 0} errore di classificazione binaria, in blu. [z] + = max{0, z}. Questa funzione è convessa e maggiora la funzione indicatrice di errore, ovvero I{z 0} [ z] + per ogni z R si veda la Figura. Il gradiente della hinge loss è facilmente calcolato come { yt x h t w = t se y t w x t 0 otherwise. Si noti che [ z] + non è differenziabile in z =, ma l analisi funziona scegliendo un qualsiasi valore fra e 0 come valore della derivata di [ z] + in. Per definire il Perceptrone come istanza di OGD dobbiamo aggiungere la condizione che l aggiornamento venga fatto solo quando il modello corrente w t sbaglia a classificare x t, y t, w t+ = w t η t h t w t I{y t w t x t 0} = w t + η t y t x t I{y t w t x t 0}. 4 Dato che w t cambia solo quando y t w t x t 0, possiamo applicare l analisi di OGD ai soli passi t dove w t sbaglia, cioè ai passi t dove y t w t x t 0. Inoltre, scegliamo η t = η per ogni t e omettiamo la proiezione di w t+ nella sfera di raggio U, cioè poniamo w t+ = w t+. La disuguaglianza, omettendo il termine negativo η w + u, ci dà h t w t h t u I{y t w t x t 0} η u + w t+ u η I{y t w t x t 0} + ηg η I{y t w t x t 0} per un qualunque u R d. Si noti che i termini della prima sommatoria nel membro destro della disuguaglianza sono tutti pari a zero e questo è il motivo per cui possiamo evitare le proiezioni. Quindi, dato che y t w t x t 0 implica h t w t, e ponendo X = max t x t = max t h t w t così da avere X = G, otteniamo I{y t w t x t 0} h t u + η u + ηx I{y t w t x t 0}. 5

Sia M = I{y tw t x t 0} il numero di errori compiuti dal Perceptrone nei primi passi. Scegliendo η = u / X M, risolvendo per M e maggiorando otteniamo M h t u + u X + u X h t u. Questo è il maggiorante al numero di errori del Perceptrone nel caso generale sequenze non linearmente separabili. Si noti che quando la sequenza è linearmente separabile, allora esiste u R d tale che y t u x t per ogni t, il che implica h t u = 0 per ogni t. Quindi il maggiorante si riduce a M u X che corrisponde al teorema di convergenza del Perceptrone. OGD con hinge loss ha però alcune differenze rispetto al Perceptrone. Per prima cosa, mentre nel Perceptrone η =, qui η dev essere scelto in base a u, X e M. In realtà questa differenza è fittizia. Infatti, come si nota dalla regola 4 di aggiornamento, il peso w t ha la forma t w t = η y s x s I{y s w s x s 0}. s= Dato che la predizione è sgn w t x t, il valore di η > 0 è completamente ininfluente. In altre parole, l algoritmo eseguito con η = e quello eseguito con η = u / X M hanno esattamente lo stesso comportamento. Quindi possiamo assumere senza perdita di generalità che l algoritmo venga eseguito con η =, come il Perceptrone. Il maggiorante 3 vale per qualunque sequenza l, l,... di funzioni di perdita convesse, quindi anche funzioni lineari, per esempio l t w = y t w x t per x t R d e y t R. È possibile dimostrare che se le funzioni di perdita sono effettivamente tutte lineari, non è possibile migliorare 3. Ma cosa succede se invece le funzioni di perdita sono convesse e mai piatte? Per definire questa situazione ricorriamo alla nozione di convessità forte. Una funzione differenziabile l è σ-fortemente convessa, per un dato σ > 0, se lw lu lw w u σ u w. Equivalentemente, possiamo dire che la matrice Hessiana di l ha rango pieno, oppure che ha gli autovalori tutti strettamente maggiori di zero. Un semplice esempio di funzione fortemente convessa è lw = w. Infatti, w u = w w u w u Quindi la funzione è fortemente convessa per σ =. L algoritmo OGD per funzioni fortemente convesse non ha bisogno del passo di proiezione ed è quindi completamente privo di parametri. 6

Algoritmo OGD senza proiezione per funzioni fortemente convesse Inizializzazione: w = 0 Per t =,,.... w t+ = w t η t l t w t Per l analisi, ripetiamo il passo dell analisi di OGD sfruttando l assunzione che l, l,... sono tutte funzioni σ-fortemente convesse, l t w t l t u l t w t w t u σ u w t = η t w t+ w t w t u σ u w t η t w t u w t+ u + w t+ w t σ u w t. Procedendo in modo completamente analogo al caso di OGD con proiezione, ma sfruttando la presenza dei termini aggiuntivi σ u w t otteniamo l t w t l t u + η σ w u w + u η + w t+ u σ + w + u + G η t+ η t η + η dove, analogamente a prima, G max t l t w t. Omettendo il termine negativo η w + u, semplificando il termine η + w + u che appare con segni opposti e utilizzando la scelta η t = σt, osserviamo alcune ulteriori sorprendenti semplificazioni che ci conducono a η t l t w t l t u G σ t G ln + σ dove abbiamo usato un semplice maggiorante logaritmico alla somma armonica + + 3 + +. Questo implica il risultato finale l t w t min u R d l t u + G ln + σ Possiamo confrontare il rischio sequenziale appena dimostrato per le funzioni di perdita fortemente convesse con quello ottenuto in 3 per le funzioni semplicemente convesse.. 7