Apprendimento per Rinforzo
|
|
|
- Baldassare Lelli
- 9 anni fa
- Visualizzazioni
Transcript
1 Laurea Magistrale in Informatica Nicola Fanizzi Dipartimento di Informatica Università degli Studi di Bari 11 febbraio 2009
2 Sommario Apprendimento del Controllo Politiche di Controllo che scelgono azioni ottimali Q-learning Convergenza Estensioni
3 Apprendimento del Controllo I Si consideri di imparare a scegliere azioni da intraprendere, es., Robot che impara a parcheggiare sulla postazione di ricarica delle batterie Imparare a scegliere azioni in modo da ottimizzare la produzione di una fabbrica Imparare a giocare a giochi come scacchi, dama, backgammon,...
4 Apprendimento del Controllo II Osservazioni Si notino diverse caratteristiche del problema rispetto alle altre forme di learning trattate: Ricompensa differita Opportunità di esplorazione attiva Possibilitïà di stati solo parzialmente osservabili Possibilità di dover apprendere compiti multipli tramite gli stessi sensori/effettuatori
5 Esempio: TD-Gammon Obiettivo: Imparare a giocare a Backgammon Ricompensa immediata +100 se si vince 100 se si perde 0 per tutti gli altri stati Sistema addestrato giocando 1.5M partite contro se stesso Alla fine il sistema risulta avere approssimativamente prestazioni paragonabili al miglior giocatore umano [Tesauro, 1995]
6 Problema dell agente stato ricompensa ambiente azione Obiettivo: scegliere le azioni che massimizzino dove
7 Processi di decisione di Markov (MDP) Si assuma: un insieme di stati S finito un insieme di azioni A ad ogni istante discreto l agente osserva lo stato s t S e sceglie l azione a t A quindi riceve una ricompensa immediata r t e lo stato corrente diventa s t+1 Assunzione di Markov: s t+1 = δ(s t, a t ) e r t = r(s t, a t ) ossia, r t e s t+1 dipendono solo dallo stato corrente e dall azione intrapresa le funzioni δ e r potrebbe non essere deterministica le funzioni δ e r non sono necessariamente note all agente
8 Compito di apprendimento per l agente Si eseguono le azioni nell ambiente, si osservano i risultati e Novità si impara una politica di azioni π : S A che massimizzi E[r t + γr t+1 + γ 2 r t ] a partire da qualunque stato di partenza in S qui 0 γ < 1 è il tasso di sconto per ricompensa future Funzione obiettivo π : S A ma non ci sono esempi di training del tipo s, a bensi gli esempi di training sono invece del tipo s, a, r
9 Funzione di valutazione Per cominciare si considerino mondi deterministici... Per ogni possibile politica π che l agente potrebbe adottare, si può definire una funzione di valutazione sull insieme degli stati V π (s) r t + γr t+1 + γ 2 r t γ i r t+i i=0 dove le r t, r t+1,... sono generate seguendo la politica π a partire dallo stato s In altri termini, il task consiste nell apprendere la politica ottimale π π argmax V π (s) π s
10 Valori di r(s,a) (ricompensa immediata) Valori di Q(s,a) Valori di V*(s) Strategia ottimale
11 Cosa imparare Si può provare a far imparare la funzione di valutazione V π (che si denoter anche V ) Si può operare una ricerca in avanti (lookahead) per scegliere la migliore azione a partire da ogni stato s poiché Problema: π (s) = argmax[r(s, a) + γv (δ(s, a))] a Funziona bene se l agente conosce le funzioni δ : S A S, e r : S A R ma quando questo non accade non si possono scegliere le azioni in questo modo
12 Funzione Q Si definisce una nuova funzione simile a V Q(s, a) r(s, a) + γv (δ(s, a)) Se l agente impara la funzione Q, si potrà scegliere l azione ottimale anche senza conoscere δ π (s) = argmax[r(s, a) + γv (δ(s, a))] a π (s) = argmax Q(s, a) a Q è la funzione di valutazione che l agente dovrà imparare
13 Regola di training per imparare Q Si noti che Q e V sono strettamente legate: V (s) = max a Q(s, a ) il che permette di riscrivere Q in modo ricorsivo: Q(s t, a t ) = r(s t, a t ) + γv (δ(s t, a t ))) = r(s t, a t ) + γ max a Q(s t+1, a ) Denotata con ˆQ l approssimazione corrente si Q, si consideri la regola di training: ˆQ(s, a) r + γ max a ˆQ(s, a ) dove s è lo stato risultante dall applicazione dell azione a nello stato s
14 Q-Learning per mondi deterministici Per ogni s, a inizializzare la cella della tabella: ˆQ(s, a) 0 Sia s lo stato corrente Ripeti: Selezionare un azione a ed eseguirla Ricevere la ricompensa immediata r Sia s il nuovo stato Aggiornare l elemento in tabella ˆQ(s, a) come segue: ˆQ(s, a) r + γ max a ˆQ(s, a ) s s
15 Aggiornamento di ˆQ I Stato iniziale Stato finale ˆQ(s 1, a right ) r + γ max a ˆQ(s2, a ) max{66, 81, 100} 90
16 Aggiornamento di ˆQ II Si noti che se le ricompense sono non negative, allora ( s, a, n) ˆQ n+1 (s, a) ˆQ n (s, a) e ( s, a, n) 0 ˆQ n (s, a) Q(s, a)
17 Convergenza I Teorema ˆQ converge a Q. Si considera il caso di un mondo deterministico dove ogni s, a sia visitato infinite volte Dim.: Definire un intervallo pieno durante il quale s, a viene visitato. Durante ogni intervallo pieno l errore piu grande nella tabella ˆQ si riduce del fattore γ Sia ˆQ n la tabella ottenuta dopo n aggiornamenti e n l errore massimo in ˆQ n ; ossia: n = max ˆQ n (s, a) Q(s, a) s,a
18 Convergenza II Per ogni elemento della tabella ˆQ n (s, a) aggiornando all iterazione n + 1, l errore nella nuova stima ˆQ n+1 (s, a) sarà: ˆQ n+1 (s, a) Q(s, a) = (r + γ max a ˆQn (s, a )) (r + γ max a Q(s, a )) = γ max a ˆQ n+1 (s, a) Q(s, a) γ n ˆQn (s, a ) max a Q(s, a ) γ max a ˆQ n (s, a ) Q(s, a ) γ max s,a ˆQ n (s, a ) Q(s, a )
19 Convergenza III Si noti che si ricorre alla proprietà seguente: max a f 1 (a) max a f 2 (a) max f 1 (a) f 2 (a) a
20 Caso non deterministico I Che succede se la ricompensa e lo stato successivo non sono deterministici? Si ridefiniscono V e Q considerando i valori attesi V π (s) E[r t + γr t+1 + γ 2 r t ] E[ γ i r t+i ] i=0 Q(s, a) E[r(s, a) + γv (δ(s, a))]
21 Caso non deterministico II Il Q-learning si estende a mondi non deterministici Si modifica la regola di training ˆQ n (s, a) (1 α n ) ˆQ n 1 (s, a) + α n [r + max a ˆQn 1 (s, a )] dove α n = visits n (s, a) Si può comunque provare la convergenza di ˆQ a Q [Watkins & Dayan, 1992]
22 Temporal Difference Learning Q-learning: ridurre la discrepanza tra stime successive di Q Differenza di un passo: Due passi: Per n passi: Q (1) (s t, a t ) r t + γ max a Q (2) (s t, a t ) r t + γr t+1 + γ 2 max a ˆQ(s t+1, a) ˆQ(s t+2, a) Q (n) (s t, a t ) r t + γr t γ (n 1) r t+n 1 + γ n max a ˆQ(s t+n, a) Mettendo tutto insieme: [ ] Q λ (s t, a t ) (1 λ) Q (1) (s t, a t ) + λq (2) (s t, a t ) + λ 2 Q (3) (s t, a t ) +
23 Particolarità e sviluppi possibili Cambiare la tabella ˆQ con una rete neurale o altri sistemi di generalizzazione Trattare il caso di stati solo parzialmente osservabili Progettare strategie ottime di esplorazione Estendere al caso di azioni continue (stati continui) Imparare ad usare ˆδ : S A S Relazione con la programmazione dinamica
24 Fonti T. M. Mitchell: Machine Learning, McGraw Hill
Tecniche Computazionali Avanzate
Tecniche Computazionali Avanzate Modelli Probabilistici per le Decisioni A.A. 2007/08 Enza Messina Markov Decision Problem Come utilizare la conoscenza dell ambiente per prendere decisioni nel caso in
Esame di Sistemi ad Eventi Discreti
Esame di Sistemi ad Eventi Discreti - 16.12.2008 Esercizio 1 (esame completo/recupero prima parte) Un macchinario è programmato per task. Ciascun task è composto da subtask, che possono essere di tipo
Cenni di apprendimento in Reti Bayesiane
Sistemi Intelligenti 216 Cenni di apprendimento in Reti Bayesiane Esistono diverse varianti di compiti di apprendimento La struttura della rete può essere nota o sconosciuta Esempi di apprendimento possono
CALCOLO NUMERICO Laurea di base in Ingegneria Elettronica, delle Comunicazioni
CALCOLO NUMERICO Laurea di base in Ingegneria Elettronica, delle Comunicazioni Prof.ssa Laura Pezza (A.A. 2017-2018) V Lezione del 15.03.2018 http://www.dmmm.uniroma1.it/ laura.pezza 1 Metodo di Newton:
Corso di Laurea in Ingegneria Informatica Analisi Numerica
Corso di Laurea in Ingegneria Informatica Lucio Demeio Dipartimento di Scienze Matematiche 1 2 Analisi degli errori Informazioni generali Libro di testo: J. D. Faires, R. Burden, Numerical Analysis, Brooks/Cole,
Corso di Calcolo Numerico
Corso di Laurea in Ingegneria Gestionale Sede di Fermo Corso di 2 - EQUAZIONI NON LINEARI Introduzione Problema: trovare le soluzioni di un equazione del tipo f() = 0 Esempio sin a = 0 e = 3 1.0 2.0 0.5
Università di Bergamo Facoltà di Ingegneria. Intelligenza Artificiale. Paolo Salvaneschi A3_1 V1.3. Agenti
Università di Bergamo Facoltà di Ingegneria Intelligenza Artificiale Paolo Salvaneschi A3_1 V1.3 Agenti Il contenuto del documento è liberamente utilizzabile dagli studenti, per studio personale e per
Teoria dei Giochi. Anna Torre
Teoria dei Giochi Anna Torre Almo Collegio Borromeo 4 aprile 2017 email: [email protected] sito web del corso:www-dimat.unipv.it/atorre/borromeo2017.html Giochi ripetuti GIOCHI RIPETUTI: COLLUSIONE Sorgere
Cenni di ottimizzazione dinamica
Cenni di ottimizzazione dinamica Testi di riferimento: K. Dixit Optimization in Economic Theory. Second Edition, 1990, Oxford: Oxford University Press. A. C. Chiang Elements of Dynamic Optimization, 1992,
APPROSSIMAZIONE di FUNZIONI
APPROSSIMAZIONE di FUNZIONI Francesca Pelosi Dipartimento di Sc. Matematiche ed Informatiche, Università di Siena CALCOLO NUMERICO a.a. 26 27 APPROSSIMAZIONE di FUNZIONI p.1/3 APPROSSIMAZIONE di FUNZIONI:
Daniela Lera A.A
Daniela Lera Università degli Studi di Cagliari Dipartimento di Matematica e Informatica A.A. 2016-2017 Problemi non lineari Definizione f : R R F : R n R m f (x) = 0 F(x) = 0 In generale si determina
Capitolo 3: Ottimizzazione non vincolata parte III. E. Amaldi DEI, Politecnico di Milano
Capitolo 3: Ottimizzazione non vincolata parte III E. Amaldi DEI, Politecnico di Milano 3.4 Metodi di ricerca unidimensionale In genere si cerca una soluzione approssimata α k di min g(α) = f(x k +αd k
Laboratorio di Calcolo Numerico
Laboratorio di Calcolo Numerico M.R. Russo Università degli Studi di Padova Dipartimento di Matematica Pura ed Applicata A.A. 2009/2010 Equazioni non lineari Data una funzione consideriamo il problema
Machine Learning: apprendimento, generalizzazione e stima dell errore di generalizzazione
Corso di Bioinformatica Machine Learning: apprendimento, generalizzazione e stima dell errore di generalizzazione Giorgio Valentini DI Università degli Studi di Milano 1 Metodi di machine learning I metodi
Lezione 20: Stima dello stato di un sistema dinamico
ELABORAZIONE dei SEGNALI nei SISTEMI di CONTROLLO Lezione 20: Stima dello stato di un sistema dinamico Motivazioni Formulazione del problema Osservazione dello stato Osservabilità Osservatore asintotico
Intelligenza Artificiale. Soft Computing: Reti Neurali Generalità
Intelligenza Artificiale Soft Computing: Reti Neurali Generalità Neurone Artificiale Costituito da due stadi in cascata: sommatore lineare (produce il cosiddetto net input) net = S j w j i j w j è il peso
Metodi di Iterazione Funzionale
Appunti di Matematica Computazionale Lezione Metodi di Iterazione Funzionale Il problema di calcolare il valore per cui F() = si può sempre trasformare in quello di trovare il punto fisso di una funzione
non solo otteniamo il valore cercato per la validità della (1.4), ma anche che tale valore non dipende da
NOTE INTEGRATIVE PER IL CORSO DI ANALISI MATEMATICA 2 ANNO ACCADEMICO 2012/13 NOTE SULLA CONTINUITÀ UNIFORME D.BARTOLUCCI, D.GUIDO Sia f(x) = x 3, x [ 1, 1]. Si ha 1. La continuità uniforme x 3 y 3 = x
2.6 Calcolo degli equilibri di Nash
92 2 Giochi non Cooperativi Per queste estensioni di giochi non finiti si possono provare risultati analoghi a quelli visti per i giochi finiti. Rimandiamo alla bibliografia per uno studio più approfondito
INTRODUZIONE ALLA TEORIA DEI GIOCHI
Corso di Identificazione dei Modelli e Controllo Ottimo Prof. Franco Garofalo INTRODUZIONE ALLA TEORIA DEI GIOCHI A cura di Elena Napoletano [email protected] Teoria dei Giochi Disciplina che studia
Problemi di base di Elaborazione Numerica dei Segnali
Universita' di Roma TRE Corso di laurea in Ingegneria Elettronica Corso di laurea in Ingegneria Informatica Universita' di Roma "La Sapienza" Corso di laurea in Ingegneria delle Telecomunicazioni Problemi
Il Gioco dell'evasione Fiscale
Il Gioco dell'evasione Fiscale Laureando Matteo Galliani Relatore Raffaele Mosca Il ruolo della Teoria Dei Giochi Un gioco è una situazione in cui: 1)ogni individuo può scegliere un certo comportamento
Apprendimento Automatico
Apprendimento Automatico Fabio Aiolli www.math.unipd.it/~aiolli Sito web del corso www.math.unipd.it/~aiolli/corsi/1516/aa/aa.html Rappresentazione dei dati con i kernel Abbiamo una serie di oggetti S
Leggi di capitalizzazione e di attualizzazione
Sommario Alcuni appunti di supporto al corso di Matematica Finanziaria (L-Z) Facoltà di Economia & Management- Università di Ferrara Sommario Parte I: Funzioni di capitalizzazione Parte II: Capitalizzazione
Corso di Matematica per la Chimica. Dott.ssa Maria Carmela De Bonis a.a
Dott.ssa Maria Carmela De Bonis a.a. 2013-14 Risoluzione di Equazioni non lineari Sia F C 0 ([a, b]), cioé F è una funzione continua in un intervallo [a, b] R, tale che F(a)F(b) < 0 1.5 1 F(b) 0.5 0 a
A Analisi Matematica 1 (Corso di Laurea in Informatica e Bioinformatica) Simulazione compito d esame
COGNOME NOME Matr. A Analisi Matematica (Corso di Laurea in Informatica e Bioinformatica) Firma dello studente Tempo: 3 ore. Prima parte: test a risposta multipla. Una ed una sola delle 4 affermazioni
I giochi con avversario. I giochi con avversario. Introduzione. Giochi come problemi di ricerca. Il gioco del NIM.
I giochi con avversario I giochi con avversario Maria Simi a.a. 26/27 Regole semplici e formalizzabili eterministici, due giocatori, turni alterni, zero-sum, informazione perfetta (ambiente accessibile)
Algoritmi di ricerca locale
Algoritmi di ricerca locale Utilizzati in problemi di ottimizzazione Tengono traccia solo dello stato corrente e si spostano su stati adiacenti Necessario il concetto di vicinato di uno stato Non si tiene
NORMA DI UN VETTORE. Una NORMA VETTORIALE su R n è una funzione. : R n R +
NORMA DI UN VETTORE Una NORMA VETTORIALE su R n è una funzione. : R n R + {0}, che associa ad ogni vettore x R n di componenti x i, i = 1,..., n, uno scalare in modo che valgano le seguenti proprietà:
Note sulle Catene di Markov
Note sulle Catene di Markov ELAUT Prof. Giuseppe C. Calafiore Sommario Queste note contengono un estratto schematico ridotto di parte del materiale relativo alle Catene di Markov a tempo continuo e a tempo
Reti Neurali (Parte I)
Reti Neurali (Parte I) Corso di AA, anno 2017/18, Padova Fabio Aiolli 30 Ottobre 2017 Fabio Aiolli Reti Neurali (Parte I) 30 Ottobre 2017 1 / 15 Reti Neurali Artificiali: Generalità Due motivazioni diverse
3 LA RETTA REALE ESTESA
3 LA RETTA REALE ESTESA Abbiamo visto che i concetti di sup e inf sono utili per descrivere proprietà di insiemi superiormente/inferiormente limitati. Per coprire con questi concetti tutti gli insiemi
ANALISI MATEMATICA 3. esercizi assegnati per la prova scritta del 31 gennaio 2011
esercizi assegnati per la prova scritta del 31 gennaio 2011 Esercizio 1. Per x > 0 e n N si ponga f n (x) = ln ( n 5 x ) a) Provare l integrabilità delle funzioni f n in (0, + ). 3 + n 4 x 2. b) Studiare
Fondamenti d Informatica: Grammatiche. Barbara Re, Phd
Fondamenti d Informatica: Grammatiche Barbara Re, Phd Grammatiche } Con il termine grammatica s intende } Un formalismo che permette di definire un insieme di stringhe mediante l imposizione di un particolare
Intelligenza Artificiale. Lezione 6bis. Sommario. Problemi di soddisfacimento di vincoli: CSP. Vincoli CSP RN 3.8, 4.3, 4.5.
Sommario Intelligenza Artificiale CSP RN 3.8, 4.3, 4.5 Giochi RN 5 Lezione 6bis Intelligenza Artificiale Daniele Nardi, 2004 Lezione 6bis 0 Intelligenza Artificiale Daniele Nardi, 2004 Lezione 6bis 1 Problemi
3.3 FORMULAZIONE DEL MODELLO E CONDIZIONI DI
3.3 FORMULAZIONE DEL MODELLO E CONDIZIONI DI ESISTENZA DI UN PUNTO DI OTTIMO VINCOLATO Il problema di ottimizzazione vincolata introdotto nel paragrafo precedente può essere formulato nel modo seguente:
