Apprendimento per Rinforzo

Dimensione: px
Iniziare la visualizzazioe della pagina:

Download "Apprendimento per Rinforzo"

Transcript

1 Laurea Magistrale in Informatica Nicola Fanizzi Dipartimento di Informatica Università degli Studi di Bari 11 febbraio 2009

2 Sommario Apprendimento del Controllo Politiche di Controllo che scelgono azioni ottimali Q-learning Convergenza Estensioni

3 Apprendimento del Controllo I Si consideri di imparare a scegliere azioni da intraprendere, es., Robot che impara a parcheggiare sulla postazione di ricarica delle batterie Imparare a scegliere azioni in modo da ottimizzare la produzione di una fabbrica Imparare a giocare a giochi come scacchi, dama, backgammon,...

4 Apprendimento del Controllo II Osservazioni Si notino diverse caratteristiche del problema rispetto alle altre forme di learning trattate: Ricompensa differita Opportunità di esplorazione attiva Possibilitïà di stati solo parzialmente osservabili Possibilità di dover apprendere compiti multipli tramite gli stessi sensori/effettuatori

5 Esempio: TD-Gammon Obiettivo: Imparare a giocare a Backgammon Ricompensa immediata +100 se si vince 100 se si perde 0 per tutti gli altri stati Sistema addestrato giocando 1.5M partite contro se stesso Alla fine il sistema risulta avere approssimativamente prestazioni paragonabili al miglior giocatore umano [Tesauro, 1995]

6 Problema dell agente stato ricompensa ambiente azione Obiettivo: scegliere le azioni che massimizzino dove

7 Processi di decisione di Markov (MDP) Si assuma: un insieme di stati S finito un insieme di azioni A ad ogni istante discreto l agente osserva lo stato s t S e sceglie l azione a t A quindi riceve una ricompensa immediata r t e lo stato corrente diventa s t+1 Assunzione di Markov: s t+1 = δ(s t, a t ) e r t = r(s t, a t ) ossia, r t e s t+1 dipendono solo dallo stato corrente e dall azione intrapresa le funzioni δ e r potrebbe non essere deterministica le funzioni δ e r non sono necessariamente note all agente

8 Compito di apprendimento per l agente Si eseguono le azioni nell ambiente, si osservano i risultati e Novità si impara una politica di azioni π : S A che massimizzi E[r t + γr t+1 + γ 2 r t ] a partire da qualunque stato di partenza in S qui 0 γ < 1 è il tasso di sconto per ricompensa future Funzione obiettivo π : S A ma non ci sono esempi di training del tipo s, a bensi gli esempi di training sono invece del tipo s, a, r

9 Funzione di valutazione Per cominciare si considerino mondi deterministici... Per ogni possibile politica π che l agente potrebbe adottare, si può definire una funzione di valutazione sull insieme degli stati V π (s) r t + γr t+1 + γ 2 r t γ i r t+i i=0 dove le r t, r t+1,... sono generate seguendo la politica π a partire dallo stato s In altri termini, il task consiste nell apprendere la politica ottimale π π argmax V π (s) π s

10 Valori di r(s,a) (ricompensa immediata) Valori di Q(s,a) Valori di V*(s) Strategia ottimale

11 Cosa imparare Si può provare a far imparare la funzione di valutazione V π (che si denoter anche V ) Si può operare una ricerca in avanti (lookahead) per scegliere la migliore azione a partire da ogni stato s poiché Problema: π (s) = argmax[r(s, a) + γv (δ(s, a))] a Funziona bene se l agente conosce le funzioni δ : S A S, e r : S A R ma quando questo non accade non si possono scegliere le azioni in questo modo

12 Funzione Q Si definisce una nuova funzione simile a V Q(s, a) r(s, a) + γv (δ(s, a)) Se l agente impara la funzione Q, si potrà scegliere l azione ottimale anche senza conoscere δ π (s) = argmax[r(s, a) + γv (δ(s, a))] a π (s) = argmax Q(s, a) a Q è la funzione di valutazione che l agente dovrà imparare

13 Regola di training per imparare Q Si noti che Q e V sono strettamente legate: V (s) = max a Q(s, a ) il che permette di riscrivere Q in modo ricorsivo: Q(s t, a t ) = r(s t, a t ) + γv (δ(s t, a t ))) = r(s t, a t ) + γ max a Q(s t+1, a ) Denotata con ˆQ l approssimazione corrente si Q, si consideri la regola di training: ˆQ(s, a) r + γ max a ˆQ(s, a ) dove s è lo stato risultante dall applicazione dell azione a nello stato s

14 Q-Learning per mondi deterministici Per ogni s, a inizializzare la cella della tabella: ˆQ(s, a) 0 Sia s lo stato corrente Ripeti: Selezionare un azione a ed eseguirla Ricevere la ricompensa immediata r Sia s il nuovo stato Aggiornare l elemento in tabella ˆQ(s, a) come segue: ˆQ(s, a) r + γ max a ˆQ(s, a ) s s

15 Aggiornamento di ˆQ I Stato iniziale Stato finale ˆQ(s 1, a right ) r + γ max a ˆQ(s2, a ) max{66, 81, 100} 90

16 Aggiornamento di ˆQ II Si noti che se le ricompense sono non negative, allora ( s, a, n) ˆQ n+1 (s, a) ˆQ n (s, a) e ( s, a, n) 0 ˆQ n (s, a) Q(s, a)

17 Convergenza I Teorema ˆQ converge a Q. Si considera il caso di un mondo deterministico dove ogni s, a sia visitato infinite volte Dim.: Definire un intervallo pieno durante il quale s, a viene visitato. Durante ogni intervallo pieno l errore piu grande nella tabella ˆQ si riduce del fattore γ Sia ˆQ n la tabella ottenuta dopo n aggiornamenti e n l errore massimo in ˆQ n ; ossia: n = max ˆQ n (s, a) Q(s, a) s,a

18 Convergenza II Per ogni elemento della tabella ˆQ n (s, a) aggiornando all iterazione n + 1, l errore nella nuova stima ˆQ n+1 (s, a) sarà: ˆQ n+1 (s, a) Q(s, a) = (r + γ max a ˆQn (s, a )) (r + γ max a Q(s, a )) = γ max a ˆQ n+1 (s, a) Q(s, a) γ n ˆQn (s, a ) max a Q(s, a ) γ max a ˆQ n (s, a ) Q(s, a ) γ max s,a ˆQ n (s, a ) Q(s, a )

19 Convergenza III Si noti che si ricorre alla proprietà seguente: max a f 1 (a) max a f 2 (a) max f 1 (a) f 2 (a) a

20 Caso non deterministico I Che succede se la ricompensa e lo stato successivo non sono deterministici? Si ridefiniscono V e Q considerando i valori attesi V π (s) E[r t + γr t+1 + γ 2 r t ] E[ γ i r t+i ] i=0 Q(s, a) E[r(s, a) + γv (δ(s, a))]

21 Caso non deterministico II Il Q-learning si estende a mondi non deterministici Si modifica la regola di training ˆQ n (s, a) (1 α n ) ˆQ n 1 (s, a) + α n [r + max a ˆQn 1 (s, a )] dove α n = visits n (s, a) Si può comunque provare la convergenza di ˆQ a Q [Watkins & Dayan, 1992]

22 Temporal Difference Learning Q-learning: ridurre la discrepanza tra stime successive di Q Differenza di un passo: Due passi: Per n passi: Q (1) (s t, a t ) r t + γ max a Q (2) (s t, a t ) r t + γr t+1 + γ 2 max a ˆQ(s t+1, a) ˆQ(s t+2, a) Q (n) (s t, a t ) r t + γr t γ (n 1) r t+n 1 + γ n max a ˆQ(s t+n, a) Mettendo tutto insieme: [ ] Q λ (s t, a t ) (1 λ) Q (1) (s t, a t ) + λq (2) (s t, a t ) + λ 2 Q (3) (s t, a t ) +

23 Particolarità e sviluppi possibili Cambiare la tabella ˆQ con una rete neurale o altri sistemi di generalizzazione Trattare il caso di stati solo parzialmente osservabili Progettare strategie ottime di esplorazione Estendere al caso di azioni continue (stati continui) Imparare ad usare ˆδ : S A S Relazione con la programmazione dinamica

24 Fonti T. M. Mitchell: Machine Learning, McGraw Hill

Tecniche Computazionali Avanzate

Tecniche Computazionali Avanzate Tecniche Computazionali Avanzate Modelli Probabilistici per le Decisioni A.A. 2007/08 Enza Messina Markov Decision Problem Come utilizare la conoscenza dell ambiente per prendere decisioni nel caso in

Dettagli

Esame di Sistemi ad Eventi Discreti

Esame di Sistemi ad Eventi Discreti Esame di Sistemi ad Eventi Discreti - 16.12.2008 Esercizio 1 (esame completo/recupero prima parte) Un macchinario è programmato per task. Ciascun task è composto da subtask, che possono essere di tipo

Dettagli

Cenni di apprendimento in Reti Bayesiane

Cenni di apprendimento in Reti Bayesiane Sistemi Intelligenti 216 Cenni di apprendimento in Reti Bayesiane Esistono diverse varianti di compiti di apprendimento La struttura della rete può essere nota o sconosciuta Esempi di apprendimento possono

Dettagli

CALCOLO NUMERICO Laurea di base in Ingegneria Elettronica, delle Comunicazioni

CALCOLO NUMERICO Laurea di base in Ingegneria Elettronica, delle Comunicazioni CALCOLO NUMERICO Laurea di base in Ingegneria Elettronica, delle Comunicazioni Prof.ssa Laura Pezza (A.A. 2017-2018) V Lezione del 15.03.2018 http://www.dmmm.uniroma1.it/ laura.pezza 1 Metodo di Newton:

Dettagli

Corso di Laurea in Ingegneria Informatica Analisi Numerica

Corso di Laurea in Ingegneria Informatica Analisi Numerica Corso di Laurea in Ingegneria Informatica Lucio Demeio Dipartimento di Scienze Matematiche 1 2 Analisi degli errori Informazioni generali Libro di testo: J. D. Faires, R. Burden, Numerical Analysis, Brooks/Cole,

Dettagli

Corso di Calcolo Numerico

Corso di Calcolo Numerico Corso di Laurea in Ingegneria Gestionale Sede di Fermo Corso di 2 - EQUAZIONI NON LINEARI Introduzione Problema: trovare le soluzioni di un equazione del tipo f() = 0 Esempio sin a = 0 e = 3 1.0 2.0 0.5

Dettagli

Università di Bergamo Facoltà di Ingegneria. Intelligenza Artificiale. Paolo Salvaneschi A3_1 V1.3. Agenti

Università di Bergamo Facoltà di Ingegneria. Intelligenza Artificiale. Paolo Salvaneschi A3_1 V1.3. Agenti Università di Bergamo Facoltà di Ingegneria Intelligenza Artificiale Paolo Salvaneschi A3_1 V1.3 Agenti Il contenuto del documento è liberamente utilizzabile dagli studenti, per studio personale e per

Dettagli

Teoria dei Giochi. Anna Torre

Teoria dei Giochi. Anna Torre Teoria dei Giochi Anna Torre Almo Collegio Borromeo 4 aprile 2017 email: [email protected] sito web del corso:www-dimat.unipv.it/atorre/borromeo2017.html Giochi ripetuti GIOCHI RIPETUTI: COLLUSIONE Sorgere

Dettagli

Cenni di ottimizzazione dinamica

Cenni di ottimizzazione dinamica Cenni di ottimizzazione dinamica Testi di riferimento: K. Dixit Optimization in Economic Theory. Second Edition, 1990, Oxford: Oxford University Press. A. C. Chiang Elements of Dynamic Optimization, 1992,

Dettagli

APPROSSIMAZIONE di FUNZIONI

APPROSSIMAZIONE di FUNZIONI APPROSSIMAZIONE di FUNZIONI Francesca Pelosi Dipartimento di Sc. Matematiche ed Informatiche, Università di Siena CALCOLO NUMERICO a.a. 26 27 APPROSSIMAZIONE di FUNZIONI p.1/3 APPROSSIMAZIONE di FUNZIONI:

Dettagli

Daniela Lera A.A

Daniela Lera A.A Daniela Lera Università degli Studi di Cagliari Dipartimento di Matematica e Informatica A.A. 2016-2017 Problemi non lineari Definizione f : R R F : R n R m f (x) = 0 F(x) = 0 In generale si determina

Dettagli

Capitolo 3: Ottimizzazione non vincolata parte III. E. Amaldi DEI, Politecnico di Milano

Capitolo 3: Ottimizzazione non vincolata parte III. E. Amaldi DEI, Politecnico di Milano Capitolo 3: Ottimizzazione non vincolata parte III E. Amaldi DEI, Politecnico di Milano 3.4 Metodi di ricerca unidimensionale In genere si cerca una soluzione approssimata α k di min g(α) = f(x k +αd k

Dettagli

Laboratorio di Calcolo Numerico

Laboratorio di Calcolo Numerico Laboratorio di Calcolo Numerico M.R. Russo Università degli Studi di Padova Dipartimento di Matematica Pura ed Applicata A.A. 2009/2010 Equazioni non lineari Data una funzione consideriamo il problema

Dettagli

Machine Learning: apprendimento, generalizzazione e stima dell errore di generalizzazione

Machine Learning: apprendimento, generalizzazione e stima dell errore di generalizzazione Corso di Bioinformatica Machine Learning: apprendimento, generalizzazione e stima dell errore di generalizzazione Giorgio Valentini DI Università degli Studi di Milano 1 Metodi di machine learning I metodi

Dettagli

Lezione 20: Stima dello stato di un sistema dinamico

Lezione 20: Stima dello stato di un sistema dinamico ELABORAZIONE dei SEGNALI nei SISTEMI di CONTROLLO Lezione 20: Stima dello stato di un sistema dinamico Motivazioni Formulazione del problema Osservazione dello stato Osservabilità Osservatore asintotico

Dettagli

Intelligenza Artificiale. Soft Computing: Reti Neurali Generalità

Intelligenza Artificiale. Soft Computing: Reti Neurali Generalità Intelligenza Artificiale Soft Computing: Reti Neurali Generalità Neurone Artificiale Costituito da due stadi in cascata: sommatore lineare (produce il cosiddetto net input) net = S j w j i j w j è il peso

Dettagli

Metodi di Iterazione Funzionale

Metodi di Iterazione Funzionale Appunti di Matematica Computazionale Lezione Metodi di Iterazione Funzionale Il problema di calcolare il valore per cui F() = si può sempre trasformare in quello di trovare il punto fisso di una funzione

Dettagli

non solo otteniamo il valore cercato per la validità della (1.4), ma anche che tale valore non dipende da

non solo otteniamo il valore cercato per la validità della (1.4), ma anche che tale valore non dipende da NOTE INTEGRATIVE PER IL CORSO DI ANALISI MATEMATICA 2 ANNO ACCADEMICO 2012/13 NOTE SULLA CONTINUITÀ UNIFORME D.BARTOLUCCI, D.GUIDO Sia f(x) = x 3, x [ 1, 1]. Si ha 1. La continuità uniforme x 3 y 3 = x

Dettagli

2.6 Calcolo degli equilibri di Nash

2.6 Calcolo degli equilibri di Nash 92 2 Giochi non Cooperativi Per queste estensioni di giochi non finiti si possono provare risultati analoghi a quelli visti per i giochi finiti. Rimandiamo alla bibliografia per uno studio più approfondito

Dettagli

INTRODUZIONE ALLA TEORIA DEI GIOCHI

INTRODUZIONE ALLA TEORIA DEI GIOCHI Corso di Identificazione dei Modelli e Controllo Ottimo Prof. Franco Garofalo INTRODUZIONE ALLA TEORIA DEI GIOCHI A cura di Elena Napoletano [email protected] Teoria dei Giochi Disciplina che studia

Dettagli

Problemi di base di Elaborazione Numerica dei Segnali

Problemi di base di Elaborazione Numerica dei Segnali Universita' di Roma TRE Corso di laurea in Ingegneria Elettronica Corso di laurea in Ingegneria Informatica Universita' di Roma "La Sapienza" Corso di laurea in Ingegneria delle Telecomunicazioni Problemi

Dettagli

Il Gioco dell'evasione Fiscale

Il Gioco dell'evasione Fiscale Il Gioco dell'evasione Fiscale Laureando Matteo Galliani Relatore Raffaele Mosca Il ruolo della Teoria Dei Giochi Un gioco è una situazione in cui: 1)ogni individuo può scegliere un certo comportamento

Dettagli

Apprendimento Automatico

Apprendimento Automatico Apprendimento Automatico Fabio Aiolli www.math.unipd.it/~aiolli Sito web del corso www.math.unipd.it/~aiolli/corsi/1516/aa/aa.html Rappresentazione dei dati con i kernel Abbiamo una serie di oggetti S

Dettagli

Leggi di capitalizzazione e di attualizzazione

Leggi di capitalizzazione e di attualizzazione Sommario Alcuni appunti di supporto al corso di Matematica Finanziaria (L-Z) Facoltà di Economia & Management- Università di Ferrara Sommario Parte I: Funzioni di capitalizzazione Parte II: Capitalizzazione

Dettagli

Corso di Matematica per la Chimica. Dott.ssa Maria Carmela De Bonis a.a

Corso di Matematica per la Chimica. Dott.ssa Maria Carmela De Bonis a.a Dott.ssa Maria Carmela De Bonis a.a. 2013-14 Risoluzione di Equazioni non lineari Sia F C 0 ([a, b]), cioé F è una funzione continua in un intervallo [a, b] R, tale che F(a)F(b) < 0 1.5 1 F(b) 0.5 0 a

Dettagli

A Analisi Matematica 1 (Corso di Laurea in Informatica e Bioinformatica) Simulazione compito d esame

A Analisi Matematica 1 (Corso di Laurea in Informatica e Bioinformatica) Simulazione compito d esame COGNOME NOME Matr. A Analisi Matematica (Corso di Laurea in Informatica e Bioinformatica) Firma dello studente Tempo: 3 ore. Prima parte: test a risposta multipla. Una ed una sola delle 4 affermazioni

Dettagli

I giochi con avversario. I giochi con avversario. Introduzione. Giochi come problemi di ricerca. Il gioco del NIM.

I giochi con avversario. I giochi con avversario. Introduzione. Giochi come problemi di ricerca. Il gioco del NIM. I giochi con avversario I giochi con avversario Maria Simi a.a. 26/27 Regole semplici e formalizzabili eterministici, due giocatori, turni alterni, zero-sum, informazione perfetta (ambiente accessibile)

Dettagli

Algoritmi di ricerca locale

Algoritmi di ricerca locale Algoritmi di ricerca locale Utilizzati in problemi di ottimizzazione Tengono traccia solo dello stato corrente e si spostano su stati adiacenti Necessario il concetto di vicinato di uno stato Non si tiene

Dettagli

NORMA DI UN VETTORE. Una NORMA VETTORIALE su R n è una funzione. : R n R +

NORMA DI UN VETTORE. Una NORMA VETTORIALE su R n è una funzione. : R n R + NORMA DI UN VETTORE Una NORMA VETTORIALE su R n è una funzione. : R n R + {0}, che associa ad ogni vettore x R n di componenti x i, i = 1,..., n, uno scalare in modo che valgano le seguenti proprietà:

Dettagli

Note sulle Catene di Markov

Note sulle Catene di Markov Note sulle Catene di Markov ELAUT Prof. Giuseppe C. Calafiore Sommario Queste note contengono un estratto schematico ridotto di parte del materiale relativo alle Catene di Markov a tempo continuo e a tempo

Dettagli

Reti Neurali (Parte I)

Reti Neurali (Parte I) Reti Neurali (Parte I) Corso di AA, anno 2017/18, Padova Fabio Aiolli 30 Ottobre 2017 Fabio Aiolli Reti Neurali (Parte I) 30 Ottobre 2017 1 / 15 Reti Neurali Artificiali: Generalità Due motivazioni diverse

Dettagli

3 LA RETTA REALE ESTESA

3 LA RETTA REALE ESTESA 3 LA RETTA REALE ESTESA Abbiamo visto che i concetti di sup e inf sono utili per descrivere proprietà di insiemi superiormente/inferiormente limitati. Per coprire con questi concetti tutti gli insiemi

Dettagli

ANALISI MATEMATICA 3. esercizi assegnati per la prova scritta del 31 gennaio 2011

ANALISI MATEMATICA 3. esercizi assegnati per la prova scritta del 31 gennaio 2011 esercizi assegnati per la prova scritta del 31 gennaio 2011 Esercizio 1. Per x > 0 e n N si ponga f n (x) = ln ( n 5 x ) a) Provare l integrabilità delle funzioni f n in (0, + ). 3 + n 4 x 2. b) Studiare

Dettagli

Fondamenti d Informatica: Grammatiche. Barbara Re, Phd

Fondamenti d Informatica: Grammatiche. Barbara Re, Phd Fondamenti d Informatica: Grammatiche Barbara Re, Phd Grammatiche } Con il termine grammatica s intende } Un formalismo che permette di definire un insieme di stringhe mediante l imposizione di un particolare

Dettagli

Intelligenza Artificiale. Lezione 6bis. Sommario. Problemi di soddisfacimento di vincoli: CSP. Vincoli CSP RN 3.8, 4.3, 4.5.

Intelligenza Artificiale. Lezione 6bis. Sommario. Problemi di soddisfacimento di vincoli: CSP. Vincoli CSP RN 3.8, 4.3, 4.5. Sommario Intelligenza Artificiale CSP RN 3.8, 4.3, 4.5 Giochi RN 5 Lezione 6bis Intelligenza Artificiale Daniele Nardi, 2004 Lezione 6bis 0 Intelligenza Artificiale Daniele Nardi, 2004 Lezione 6bis 1 Problemi

Dettagli

3.3 FORMULAZIONE DEL MODELLO E CONDIZIONI DI

3.3 FORMULAZIONE DEL MODELLO E CONDIZIONI DI 3.3 FORMULAZIONE DEL MODELLO E CONDIZIONI DI ESISTENZA DI UN PUNTO DI OTTIMO VINCOLATO Il problema di ottimizzazione vincolata introdotto nel paragrafo precedente può essere formulato nel modo seguente:

Dettagli