Apprendimento per Rinforzo

Documenti analoghi
Tecniche Computazionali Avanzate

Esame di Sistemi ad Eventi Discreti

Cenni di apprendimento in Reti Bayesiane

CALCOLO NUMERICO Laurea di base in Ingegneria Elettronica, delle Comunicazioni

Corso di Laurea in Ingegneria Informatica Analisi Numerica

Corso di Calcolo Numerico

Università di Bergamo Facoltà di Ingegneria. Intelligenza Artificiale. Paolo Salvaneschi A3_1 V1.3. Agenti

Teoria dei Giochi. Anna Torre

Cenni di ottimizzazione dinamica

APPROSSIMAZIONE di FUNZIONI

Daniela Lera A.A

Capitolo 3: Ottimizzazione non vincolata parte III. E. Amaldi DEI, Politecnico di Milano

Laboratorio di Calcolo Numerico

Machine Learning: apprendimento, generalizzazione e stima dell errore di generalizzazione

Lezione 20: Stima dello stato di un sistema dinamico

Intelligenza Artificiale. Soft Computing: Reti Neurali Generalità

Metodi di Iterazione Funzionale

non solo otteniamo il valore cercato per la validità della (1.4), ma anche che tale valore non dipende da

2.6 Calcolo degli equilibri di Nash

INTRODUZIONE ALLA TEORIA DEI GIOCHI

Problemi di base di Elaborazione Numerica dei Segnali

Il Gioco dell'evasione Fiscale

Apprendimento Automatico

Leggi di capitalizzazione e di attualizzazione

Corso di Matematica per la Chimica. Dott.ssa Maria Carmela De Bonis a.a

A Analisi Matematica 1 (Corso di Laurea in Informatica e Bioinformatica) Simulazione compito d esame

I giochi con avversario. I giochi con avversario. Introduzione. Giochi come problemi di ricerca. Il gioco del NIM.

Algoritmi di ricerca locale

NORMA DI UN VETTORE. Una NORMA VETTORIALE su R n è una funzione. : R n R +

Note sulle Catene di Markov

Reti Neurali (Parte I)

3 LA RETTA REALE ESTESA

ANALISI MATEMATICA 3. esercizi assegnati per la prova scritta del 31 gennaio 2011

Fondamenti d Informatica: Grammatiche. Barbara Re, Phd

Intelligenza Artificiale. Lezione 6bis. Sommario. Problemi di soddisfacimento di vincoli: CSP. Vincoli CSP RN 3.8, 4.3, 4.5.

3.3 FORMULAZIONE DEL MODELLO E CONDIZIONI DI

Transcript:

Laurea Magistrale in Informatica Nicola Fanizzi Dipartimento di Informatica Università degli Studi di Bari 11 febbraio 2009

Sommario Apprendimento del Controllo Politiche di Controllo che scelgono azioni ottimali Q-learning Convergenza Estensioni

Apprendimento del Controllo I Si consideri di imparare a scegliere azioni da intraprendere, es., Robot che impara a parcheggiare sulla postazione di ricarica delle batterie Imparare a scegliere azioni in modo da ottimizzare la produzione di una fabbrica Imparare a giocare a giochi come scacchi, dama, backgammon,...

Apprendimento del Controllo II Osservazioni Si notino diverse caratteristiche del problema rispetto alle altre forme di learning trattate: Ricompensa differita Opportunità di esplorazione attiva Possibilitïà di stati solo parzialmente osservabili Possibilità di dover apprendere compiti multipli tramite gli stessi sensori/effettuatori

Esempio: TD-Gammon Obiettivo: Imparare a giocare a Backgammon Ricompensa immediata +100 se si vince 100 se si perde 0 per tutti gli altri stati Sistema addestrato giocando 1.5M partite contro se stesso Alla fine il sistema risulta avere approssimativamente prestazioni paragonabili al miglior giocatore umano [Tesauro, 1995]

Problema dell agente stato ricompensa ambiente azione Obiettivo: scegliere le azioni che massimizzino dove

Processi di decisione di Markov (MDP) Si assuma: un insieme di stati S finito un insieme di azioni A ad ogni istante discreto l agente osserva lo stato s t S e sceglie l azione a t A quindi riceve una ricompensa immediata r t e lo stato corrente diventa s t+1 Assunzione di Markov: s t+1 = δ(s t, a t ) e r t = r(s t, a t ) ossia, r t e s t+1 dipendono solo dallo stato corrente e dall azione intrapresa le funzioni δ e r potrebbe non essere deterministica le funzioni δ e r non sono necessariamente note all agente

Compito di apprendimento per l agente Si eseguono le azioni nell ambiente, si osservano i risultati e Novità si impara una politica di azioni π : S A che massimizzi E[r t + γr t+1 + γ 2 r t+2 +...] a partire da qualunque stato di partenza in S qui 0 γ < 1 è il tasso di sconto per ricompensa future Funzione obiettivo π : S A ma non ci sono esempi di training del tipo s, a bensi gli esempi di training sono invece del tipo s, a, r

Funzione di valutazione Per cominciare si considerino mondi deterministici... Per ogni possibile politica π che l agente potrebbe adottare, si può definire una funzione di valutazione sull insieme degli stati V π (s) r t + γr t+1 + γ 2 r t+2 +... γ i r t+i i=0 dove le r t, r t+1,... sono generate seguendo la politica π a partire dallo stato s In altri termini, il task consiste nell apprendere la politica ottimale π π argmax V π (s) π s

Valori di r(s,a) (ricompensa immediata) Valori di Q(s,a) Valori di V*(s) Strategia ottimale

Cosa imparare Si può provare a far imparare la funzione di valutazione V π (che si denoter anche V ) Si può operare una ricerca in avanti (lookahead) per scegliere la migliore azione a partire da ogni stato s poiché Problema: π (s) = argmax[r(s, a) + γv (δ(s, a))] a Funziona bene se l agente conosce le funzioni δ : S A S, e r : S A R ma quando questo non accade non si possono scegliere le azioni in questo modo

Funzione Q Si definisce una nuova funzione simile a V Q(s, a) r(s, a) + γv (δ(s, a)) Se l agente impara la funzione Q, si potrà scegliere l azione ottimale anche senza conoscere δ π (s) = argmax[r(s, a) + γv (δ(s, a))] a π (s) = argmax Q(s, a) a Q è la funzione di valutazione che l agente dovrà imparare

Regola di training per imparare Q Si noti che Q e V sono strettamente legate: V (s) = max a Q(s, a ) il che permette di riscrivere Q in modo ricorsivo: Q(s t, a t ) = r(s t, a t ) + γv (δ(s t, a t ))) = r(s t, a t ) + γ max a Q(s t+1, a ) Denotata con ˆQ l approssimazione corrente si Q, si consideri la regola di training: ˆQ(s, a) r + γ max a ˆQ(s, a ) dove s è lo stato risultante dall applicazione dell azione a nello stato s

Q-Learning per mondi deterministici Per ogni s, a inizializzare la cella della tabella: ˆQ(s, a) 0 Sia s lo stato corrente Ripeti: Selezionare un azione a ed eseguirla Ricevere la ricompensa immediata r Sia s il nuovo stato Aggiornare l elemento in tabella ˆQ(s, a) come segue: ˆQ(s, a) r + γ max a ˆQ(s, a ) s s

Aggiornamento di ˆQ I Stato iniziale Stato finale ˆQ(s 1, a right ) r + γ max a ˆQ(s2, a ) 0 + 0.9 max{66, 81, 100} 90

Aggiornamento di ˆQ II Si noti che se le ricompense sono non negative, allora ( s, a, n) ˆQ n+1 (s, a) ˆQ n (s, a) e ( s, a, n) 0 ˆQ n (s, a) Q(s, a)

Convergenza I Teorema ˆQ converge a Q. Si considera il caso di un mondo deterministico dove ogni s, a sia visitato infinite volte Dim.: Definire un intervallo pieno durante il quale s, a viene visitato. Durante ogni intervallo pieno l errore piu grande nella tabella ˆQ si riduce del fattore γ Sia ˆQ n la tabella ottenuta dopo n aggiornamenti e n l errore massimo in ˆQ n ; ossia: n = max ˆQ n (s, a) Q(s, a) s,a

Convergenza II Per ogni elemento della tabella ˆQ n (s, a) aggiornando all iterazione n + 1, l errore nella nuova stima ˆQ n+1 (s, a) sarà: ˆQ n+1 (s, a) Q(s, a) = (r + γ max a ˆQn (s, a )) (r + γ max a Q(s, a )) = γ max a ˆQ n+1 (s, a) Q(s, a) γ n ˆQn (s, a ) max a Q(s, a ) γ max a ˆQ n (s, a ) Q(s, a ) γ max s,a ˆQ n (s, a ) Q(s, a )

Convergenza III Si noti che si ricorre alla proprietà seguente: max a f 1 (a) max a f 2 (a) max f 1 (a) f 2 (a) a

Caso non deterministico I Che succede se la ricompensa e lo stato successivo non sono deterministici? Si ridefiniscono V e Q considerando i valori attesi V π (s) E[r t + γr t+1 + γ 2 r t+2 +...] E[ γ i r t+i ] i=0 Q(s, a) E[r(s, a) + γv (δ(s, a))]

Caso non deterministico II Il Q-learning si estende a mondi non deterministici Si modifica la regola di training ˆQ n (s, a) (1 α n ) ˆQ n 1 (s, a) + α n [r + max a ˆQn 1 (s, a )] dove α n = 1 1 + visits n (s, a) Si può comunque provare la convergenza di ˆQ a Q [Watkins & Dayan, 1992]

Temporal Difference Learning Q-learning: ridurre la discrepanza tra stime successive di Q Differenza di un passo: Due passi: Per n passi: Q (1) (s t, a t ) r t + γ max a Q (2) (s t, a t ) r t + γr t+1 + γ 2 max a ˆQ(s t+1, a) ˆQ(s t+2, a) Q (n) (s t, a t ) r t + γr t+1 + + γ (n 1) r t+n 1 + γ n max a ˆQ(s t+n, a) Mettendo tutto insieme: [ ] Q λ (s t, a t ) (1 λ) Q (1) (s t, a t ) + λq (2) (s t, a t ) + λ 2 Q (3) (s t, a t ) +

Particolarità e sviluppi possibili Cambiare la tabella ˆQ con una rete neurale o altri sistemi di generalizzazione Trattare il caso di stati solo parzialmente osservabili Progettare strategie ottime di esplorazione Estendere al caso di azioni continue (stati continui) Imparare ad usare ˆδ : S A S Relazione con la programmazione dinamica

Fonti T. M. Mitchell: Machine Learning, McGraw Hill