APPRENDIMENTO MIMETICO Reinforcement Learning. (Apprendimento per rinforzo) (I parte)



Documenti analoghi
Investimento. 1 Scelte individuali. Micoreconomia classica

REALTÀ E MODELLI SCHEDA DI LAVORO

Un modello di ricerca operativa per le scommesse sportive

Valore finanziario del tempo

SIMULAZIONE - 22 APRILE QUESITI

V. SEPARAZIONE DELLE VARIABILI

Francesca Sanna-Randaccio Lezione 8. SCELTA INTERTEMPORALE (continua)

CAPITOLO 11 La domanda aggregata II: applicare il modello IS-LM

Energia potenziale e dinamica del punto materiale

LaborCare. Care. protection plan

Automazione Industriale (scheduling+mms) scheduling+mms.

CAPITOLO 10 La domanda aggregata I: il modello IS-LM

REALTÀ E MODELLI SCHEDA DI LAVORO

IL CONTROLLO STATISTICO DEI PROCESSI

PREMESSA (diapositive 1, 2, 3) PER UNA DISTRIBUZIONE SFERICA DI MASSA contenuta all interno della superficie S:

Capitolo 16. La teoria dell equilibrio generale. Soluzioni delle Domande di ripasso

Il criterio media varianza. Ordinamenti totali e parziali

Inflazione e Produzione. In questa lezione cercheremo di rispondere a domande come queste:

Progettaz. e sviluppo Data Base

Calcolatori Elettronici A a.a. 2008/2009

Siamo così arrivati all aritmetica modulare, ma anche a individuare alcuni aspetti di come funziona l aritmetica del calcolatore come vedremo.

risulta (x) = 1 se x < 0.

Macchine a stati finiti. Sommario. Sommario. M. Favalli. 5th June 2007

Macchine a stati finiti. Sommario. Sommario. M. Favalli. Le macchine a stati si utilizzano per modellare di sistemi fisici caratterizzabili mediante:

b. Che cosa succede alla frazione di reddito nazionale che viene risparmiata?

FAST FOURIER TRASFORM-FFT

Algoritmi e Strutture Dati II: Parte B Anno Accademico Lezione 11

Approfondimento Altri tipi di coefficienti di correlazione

TECNICHE DI SIMULAZIONE

Esempi di algoritmi. Lezione III

Il teorema di Gauss e sue applicazioni

Corso di Elettrotecnica 1 - Cod N Diploma Universitario Teledidattico in Ingegneria Informatica ed Automatica Polo Tecnologico di Alessandria

Scheduling della CPU. Sistemi multiprocessori e real time Metodi di valutazione Esempi: Solaris 2 Windows 2000 Linux

Computational Game Theory

f(x) = 1 x. Il dominio di questa funzione è il sottoinsieme proprio di R dato da

Il concetto di valore medio in generale

regola(1,[e,f],b) regola(2,[m,f],e) regola(3,[m],f) regola(4,[b,f],g) regola(5,[b,g],c) regola(6,[g,q],a)

Macchine a stati finiti G. MARSELLA UNIVERSITÀ DEL SALENTO

Un modello matematico di investimento ottimale

I principi della Dinamica. L azione di una forza è descritta dalle leggi di Newton, possono fare Lavoro e trasferire Energia

Per lo svolgimento del corso risulta particolarmente utile considerare l insieme

Statistica Matematica A - Ing. Meccanica, Aerospaziale I prova in itinere - 19 novembre 2004

Capitolo 2. Operazione di limite

Informatica 3. Informatica 3. LEZIONE 10: Introduzione agli algoritmi e alle strutture dati. Lezione 10 - Modulo 1. Importanza delle strutture dati

Cap.1 - L impresa come sistema

CORRENTI ELETTRICHE E CAMPI MAGNETICI STAZIONARI

Strutturazione logica dei dati: i file

Analisi di scenario File Nr. 10

INTRODUZIONE AGLI ALGORITMI INTRODUZIONE AGLI ALGORITMI INTRODUZIONE AGLI ALGORITMI INTRODUZIONE AGLI ALGORITMI

Gestione della memoria centrale

Scheduling. Sistemi Operativi e Distribuiti A.A Bellettini - Maggiorini. Concetti di base

I motori di ricerca. Che cosa sono. Stefania Marrara Corso di Sistemi Informativi

Misure di RAP risk-adjusted performance

Applicazioni lineari

Sistemi Operativi MECCANISMI E POLITICHE DI PROTEZIONE. D. Talia - UNICAL. Sistemi Operativi 13.1

MECCANISMI E POLITICHE DI PROTEZIONE 13.1

PROCEDURA INVENTARIO DI MAGAZZINO di FINE ESERCIZIO (dalla versione 3.2.0)

da 2 a 5 giocatori, dai 10 anni in su, durata 30 minuti

A intervalli regolari ogni router manda la sua tabella a tutti i vicini, e riceve quelle dei vicini.

Stefania Marrara - Esercitazioni di Tecnologie dei Sistemi Informativi. Integrazione di dati di sorgenti diverse

Modelli di Programmazione Lineare e Programmazione Lineare Intera

Introduzione al MATLAB c Parte 2

Mac Application Manager 1.3 (SOLO PER TIGER)

LA TRASMISSIONE DELLE INFORMAZIONI QUARTA PARTE 1

Programmazione dinamica

Pro e contro delle RNA

SISTEMI DI NUMERAZIONE E CODICI

Informatica. Rappresentazione dei numeri Numerazione binaria

12 - Introduzione alla Programmazione Orientata agli Oggetti (Object Oriented Programming OOP)

Corso di Informatica Generale (C. L. Economia e Commercio) Ing. Valerio Lacagnina Rappresentazione in virgola mobile

bensì una tendenza a ruotare quando vengono applicate in punti diversi di un corpo

Corso di Matematica per la Chimica

Appunti sulla Macchina di Turing. Macchina di Turing

Politecnico di Milano Facoltà di Ingegneria dell Informazione AGENTI AUTONOMI E SISTEMI MULTIAGENTE Appello COGNOME E NOME

Corrispondenze e funzioni

Sommario. Definizione di informatica. Definizione di un calcolatore come esecutore. Gli algoritmi.

Appendice III. Competenza e definizione della competenza

I metodi formali nel processo di sviluppo del software

3. La velocità v di un satellite in un orbita circolare di raggio r intorno alla Terra è v = e,

Lezione 10: Il problema del consumatore: Preferenze e scelta ottimale

Ai fini economici i costi di un impresa sono distinti principalmente in due gruppi: costi fissi e costi variabili. Vale ovviamente la relazione:

Dispensa di Informatica I.1

Il sistema monetario

Campo elettrostatico nei conduttori

Bus di campo. Cosa sono i bus di campo. Bus di campo. M. Parvis 1

10 - Programmare con gli Array

Tipi primitivi. Ad esempio, il codice seguente dichiara una variabile di tipo intero, le assegna il valore 5 e stampa a schermo il suo contenuto:

Lezione 8. La macchina universale

1. Definizione di budget e collocazione nel processo di programmazione e controllo

Sistemi di misurazione e valutazione delle performance

Grandezze scalari e vettoriali

Variabili e tipi di dato

E naturale chiedersi alcune cose sulla media campionaria x n

CAPACITÀ DI PROCESSO (PROCESS CAPABILITY)

IL RISCHIO D IMPRESA ED IL RISCHIO FINANZIARIO. LA RELAZIONE RISCHIO-RENDIMENTO ED IL COSTO DEL CAPITALE.

Statistica e biometria. D. Bertacchi. Variabili aleatorie. V.a. discrete e continue. La densità di una v.a. discreta. Esempi.

1. Che cos è la multiprogrammazione? Si può realizzare su un sistema monoprocessore? 2. Quali sono i servizi offerti dai sistemi operativi?

MICROECONOMIA La teoria del consumo: Alcuni Arricchimenti. Enrico Saltari Università di Roma La Sapienza

Note su quicksort per ASD (DRAFT)

Transcript:

APPRENDIMENTO MIMETICO Reinfocement Leaning (Appendimento pe infozo (I pate

ovveo

ma anche

Bibliogafia Richad S. Sutton, Andew G. Bato, Reinfocement Leaning: An Intoduction, A Badfod Boo, The MIT Pess, Cambidge, Massachusetts, 998. Tom M. Mitchell, Machine Leaning, McGaw-Hill Intenational Edition, Singapoe, 997. Stuat J. Russel, Pete Novig, Intelligenza Atificiale: un appoccio modeno, Peason Education Italia, Milano, 2005.

Cediti: Coso di Laboatoio di Sistemi Intelligenti Applicati (AIS-Lab Pof. Albeto Boghese Dipatimento di Scienze dell Infomazione Univesità degli Studi di Milano Coso di Ingegneia della Conoscenza e Sistemi Espeti Pof. Pie Luca Lanzi Dipatimento di Elettonica e Infomazione Politecnico di Milano

Why agents ae impotant? Agente (softwae: entità softwae che svolge sevizi pe conto di un alto pogamma, solitamente in modo automatico ed invisibile. Tali softwae vengono anche detti agenti intelligenti. They ae seen as a natual metapho fo conceptualising and building a wide ange of complex compute system (the wold contains many passive objects, but it also contains vey many active components as well; They cut acoss a wide ange of diffeent technology and application aeas, including telecoms, human-compute intefaces, distibuted systems, WEB and so on; They ae seen as a natual development in the seach fo eve-moe poweful abstaction with which to build compute system

Agente - Può scegliee un azione sull ambiente ta un insieme continuo o disceto. - L azione dipende dalla situazione. La situazione è iassunta nello stato del sistema. - L agente monitoa continuamente l ambiente (input e modifica continuamente lo stato. - La scelta dell azione è non banale e ichiede un ceto gado di intelligenza. - L agente ha una memoia intelligente.

Schematic diagam of an agent Agent STATE Conditionaction ule (vocabulay What the wold is lie now (intenal epesentation What action I should do now x t y t Sensos Actuatos u t Envionment u, input; x, stato; y, uscita x(t = g(x(t, u(t y(t = f(x(t

L agente Inizialmente l attenzione ea concentata sulla pogettazione dei sistemi di contollo. Valutazione, sintesi L intelligenza atificiale e la computational intelligence hanno consentito di spostae l attenzione sull appendimento delle stategie di contollo e più in geneale di compotamento. Macchine dotate di meccanismi (algoitmi, SW pe appendee.

I vai tipi di appendimento x(t = g(x(t, u(t y(t = f(x(t Ambiente Agente Supevisionato (leaning with a teache. Viene specificato, pe ogni patten di input, il patten desideato di output. Non-supevisionato (leaning without a teache. Estazione di similitudini statistiche ta patten di input. Clusteing. Mappe neuali. Appendimento pe infozo (einfocement leaning, leaning with a citic. L ambiente fonisce un infomazione puntuale, di tipo qualitativo, ad esempio success o fail.

Leaning with a teache

Reinfocement leaning Nell appendimento supevisionato esiste un teache che dice al sistema quale è l uscita coetta (leaning with a teache. Non sempe è possibile. Spesso si ha a disposizione solamente un infomazione qualitativa (a volte binaia, giusto/sbagliato, successo/fallimento puntuale. L infomazione disponibile si chiama segnale di infozo. Non dà alcuna infomazione su come aggionae il compotamento dell agente (pe es. i pesi. Non è possibile definie una funzione costo o un gadiente. Obbiettivo: ceae degli agenti intelligenti che abbiano una machiney pe appendee dalla loo espeienza.

Reinfocement leaning: caatteistiche Appendimento mediante inteazione con l ambiente. Un agente isolato non appende. L appendimento è funzione del aggiungimento di uno o più obiettivi. Non è necessaiamente pevista una icompensa ad ogni istante di tempo. Le azioni vengono valutate mediante la icompensa a lungo temine ad esse associata (delayed ewad. Il meccanismo di iceca delle azioni miglioi è impaentato con la iceca euistica: tial-and-eo. L agente sente l input, modifica lo stato e genea un azione che massimizza la icompensa a lungo temine.

Exploation vs Exploitation Esploazione (exploation dello spazio delle azioni pe scopie le azioni miglioi. Un agente che esploa solamente aamente toveà una buona soluzione. Le azioni miglioi vengono scelte ipetutamente (exploitation, sfuttamento peché gaantiscono icompensa (ewad. Se un agente non esploa nuove soluzioni potebbe venie suclassato da nuovi agenti più dinamici. Occoe non inteompee l esploazione. Occoe un appoccio statistico pe valutae le bontà delle azioni. Exploation e exploitation vanno bilanciate. Come?

Dove agisce un agente? L agente ha un compotamento goal-diected ma agisce in un ambiente inceto non noto a pioi o pazialmente noto. Esempio: planning del movimento di un obot. Un agente impaa inteagendo con l ambiente. Planning può essee sviluppato mente si impaa a conoscee l ambiente (mediante le misue opeate dall agente stesso. La stategia è vicina al tial-andeo.

L ambiente Model of envionment. È uno sviluppo elativamente ecente. Da valutazione implicita dello svolgesi delle azioni futue (tial-and-eo a valutazione esplicita mediante modello dell ambiente della sequenza di azioni e stati futui (planning = dal sub-simbolico al simbolico; emeging intelligence. Incopoazione di AI: - Planning (pianificazione delle azioni - Viene infozato il modulo di pianificazione dell agente. Incopoazione della conoscenza dell ambiente: - Modellazione dell ambiente (non noto o pazialmente noto.

Relazione con l AI Gli agenti hanno dei goal da soddisfae. Appoccio deivato dall AI. Nell appendimento con infozo vengono utilizzati stumenti che deivano da aee divese dall AI: Riceca opeativa Teoia del contollo Statistica L agente impaa facendo. Deve selezionae i compotamenti che ipetutamente isultano favoevoli a lungo temine.

Esempi Un giocatoe di scacchi. Pe ogni mossa ha infomazione sulle configuazioni di pezzi che può ceae e sulle possibili contomosse dell avvesaio. Una piccola di gazzella in 6 oe impaa ad alzasi e a coee a 40 m/h. Come fa un obot veamente autonomo ad impaae a muovesi in una stanza pe uscine? Come impostae i paameti di una affineia (pessione petolio, potata, in tempo eale, in modo da ottenee il massimo endimento o la massima qualità?

Caatteistiche degli esempi Paole chiavi: Inteazione con l ambiente. L agente impaa dalla popia espeienza. Obiettivo dell agente Incetezza o conoscenza paziale dell ambiente. Ossevazioni: Le azioni modificano lo stato (la situazione, cambiano le possibilità di scelta in futuo (delayed ewad. L effetto di un azione non si può pevedee completamente. L agente ha a disposizione una valutazione globale del suo compotamento. Deve sfuttae questa infomazione pe miglioae le sue scelte. Le scelte miglioano con l espeienza. I poblemi possono avee oizzonte tempoale finito o infinito.

I due tipi di infozo L agente deve scopie quale azione (policy fonisca la icompensa massima povando le vaie azioni (tial-and-eo sull ambiente. Leaning is an adaptive change of behavio and that is indeed the eason of its existence in animals and man (K. Loenz, 977. Rinfozo puntuale istante pe istante, azione pe azione (condizionamento classico. Rinfozo puntuale una-tantum (condizionamento opeante, viene infozata una catena di azioni, un compotamento.

Il condizionamento classico L agente deve impaae una (o più tasfomazione ta input e output. ueste tasfomazioni foniscono un compotamento che l ambiente pemia. Il segnale di infozo è sempe lo stesso pe ogni coppia inputoutput. Esempio: isposte iflesse Pavloviane. Campanello (stimolo condizionante pelude al cibo. uesto induce una isposta (salivazione. La isposta iflessa ad uno stimolo viene evocata da uno stimolo condizionante. Stimolo-Risposta. Lo stimolo condizionante (campanello = input induce la salivazione (uscita in isposta al campanello.

Condizionamento opeante Reinfoncement leaning (opeante. Inteessa un compotamento. Una sequenza di input-output che può essee modificata agendo sui paameti che definiscono il compotamento dell agente. Il condizionamento aiva in un ceto istante di tempo (spesso una-tantum e deve valutae tutta la sequenza tempoale di azioni, anche quelle pecedenti nel tempo. Output Envionment Compotamenti = Sequenza di azioni Input

Gli attoi del RL Policy. Descive l azione scelta dall agente: mapping ta stato (input dall ambiente e azioni. Funzione di contollo. Le policy possono avee una componente stocastica. Viene utilizzato un modello adeguato del compotamento dell agente (p.e. tabella, funzione continua paametica, ecc.. Rewad function. Ricompensa immediata. Associata all azione intapesa in un ceto stato. Può essee data al aggiungimento di un goal (esempio: successo/fallimento. È uno scalae. Rinfozo pimaio. Value function. Cost-to-go. Ricompensa a lungo temine Somma dei ewad: costi associati alle azioni scelte istante pe istante costo associato allo stato finale. Oizzonte tempoale ampio. Rinfozo secondaio. Ambiente. Può essee non noto o pazialmente noto. L agente deve costuisi una appesentazione dell ambiente. uale delle due è più difficile da ottenee? L agente agisce pe massimizzae la funzione Value o Rewad?

Popietà del infozo L ambiente o l inteazione può essee complessa. Il infozo può avvenie solo dopo una più o meno lunga sequenza di azioni (delayed ewad. Esempio: agente = giocatoe di scacchi. ambiente = avvesaio. Poblemi collegati: tempoal cedit assignment stuctual cedit assignment. L appendimento non è più da esempi, ma dall ossevazione del popio compotamento nell ambiente.

Tempoal e stuctual cedit assignment Multi-agent systems have the stuctual cedit assignment poblem of detemining the contibutions of a paticula agent to a common tas. Instead, time-extended single-agent systems have the tempoal cedit assignment poblem of detemining the contibution of a paticula action to the quality of the full sequence of actions. (da A.K. Agogino, K. Tume, Unifying Tempoal and Stuctual Cedit Assignment Poblems

Riassunto Reinfocement leaning. L agente viene modificato, infozando le azioni che sono isultate buone a lungo temine. È quindi una classe di algoitmi iteativi. Self-discovey of a successful stategy (it does not need to be optimal!. La stategia (di movimento, di gioco non è data a- pioi ma viene appesa attaveso tial-and-eo. Cedit assignment (tempoal and stuctual. Come possiamo pocedee in modo efficiente nello scopie una stategia di successo? Cosa vuol die modificae l agente?

Un esempio: il gioco del tis We can use classical game theoy solution lie minmax. This can wo fo the optimal opponent, not fo ou actual opponent. X O O 2 We can use dynamic pogamming optimization, but we need a model of the opponent. O X X 3 We can ty a policy and see what happens fo many games (evolutionay style, exhaustive seach. X

L appoccio classico (minimax Più X Meno O Si usa una funzione di valutazione e(p definita come :.se p non è una posizione vincente, e(p = (numeo delle ighe, colonne e diagonali complete ancoa apete a Più - (numeo delle ighe, colonne e diagonali complete ancoa apete a Meno; Intelligenza Atificiale - Poblem Solving 4 28

2. se p è una posizione vincente pe Più, e(p = ( denota un numeo positivo molto gande; 3. se p è una posizione vincente pe Meno, e(p = - Intelligenza Atificiale - Poblem Solving 4 29

Così, se p è abbiamo e(p = 6-4 = 2. Nella geneazione delle posizioni sfutteemo le simmetie; ovveo, saanno consideate identiche (nella fase iniziale, il fattoe di amificazione del filetto è contenuto dalle simmetie; nella fase finale, dal piccolo numeo di spazi libei disponibili. Intelligenza Atificiale - Poblem Solving 4 30

Pofondità di iceca: livello 2 Intelligenza Atificiale - Poblem Solving 4 3

Intelligenza Atificiale - Poblem Solving 4 32

Come impostae il poblema mediante RL? State configuation of X and O. (Assuming we always play X Value (of the state pobability of winning associated to that state. Which is the pobability of a state in which we have 3 X in a ow (o column o diagonal? Which is the pobability of a state in which we have 3 O in a ow (o column o diagonal? We set all the othe states to 0.5

Una sequenza di mosse nel tis

Come decidee la mossa? Supponiamo di essee in una configuazione non teminale. Pe ogni mossa valida, possiamo valutae il valoe della nuova configuazione che si veebbe a tovae. Come? Possiamo occasionalmente scegliee delle mosse esploatoie. uando non ha senso scegliee delle mosse esploatoie? Dobbiamo peciò capie qual è il valoe delle divese configuazioni della scacchiea.

Come stimae il valoe di ogni configuazione? V(s(t V(s(t [V(s(t V(s(t] Tendo ad avvicinae il valoe della mia configuazione al valoe della configuazione successiva. Esempio di tempoal diffeence leaning. Diminuendo con il numeo di patite, la policy convege alla policy ottima pe un avvesaio fissato (cioè che utilizzi sempe la stessa stategia, ovveosia la stessa distibuzione statistica di mosse. Diminuendo con il numeo di patite, ma tenendolo > 0, la policy convege alla policy ottima anche pe un avvesaio che cambi molto lentamente la sua stategia.

Esempio O X O X O X O X X X 2 X 3 X scelta pedente dopo la mossa dell avvesaio ho uno stato con value function = 0 X 2 scelta neutale dopo la mossa dell avvesaio ho uno stato con value function intemedia (paeggio. X 3 scelta vincente dopo la mossa dell avvesaio ho uno stato con value function = Cambio la policy e ivaluto la Value function

Cosa fa l agente? Ciclo dell agente (le te fasi sono sequenziali: X O O Implemento una policy 2 Aggiono la Value function O X X X 3 Aggiono la policy.

Riflessioni su RL ed il gioco del tis Supponete che l agente dotato di RL giochi, invece che con un avvesaio, conto se stesso. Cosa pensate che succeda? Secondo voi impaeebbe una divesa stategia di gioco? Molte posizioni del tis sembano divese ma sono in ealtà la stessa pe effetto delle simmetie. Come si può modificae l algoitmo di RL (definizione dello stato pe sfuttae le simmetie? Come si può miglioae il meccanismo di appofondimento? Supponiamo che l avvesaio non sfutti le simmetie. In questo caso noi possiamo sfuttale? È veo che configuazioni della scacchiea equivalenti pe simmetia devono avee la stessa funzione valoe. Potete pensae a modi pe miglioae il gioco dell agente? Potete pensae a metodi miglioi (più veloci, più obusti peché un agente impai a giocae a tis?

Evaluative Feedbac La più impotante caatteistica che distingue il RL da alti tipi di leaning è che usa l infomazione di addestamento pe valutae la bontà delle azioni pese piuttosto che istuilo dando le azioni coette. L evaluative feedbac puo indica quanto è buona l azione intapesa, ma non se è la peggioe o la miglioe delle azioni possibili (è il metodo di base dell ottimizzazione, compesi i metodi evolutivi. L instuctive feedbac puo, d alto canto, indica la coetta azione da pendee, indipendentemente dall azione effettivamente pesa (è la base dell appendimento supevisionato, compesi la classificazione di patten, le eti neuali, l identificazione dei sistemi. Il pimo dipende completamente dall azione pesa, il secondo è indipendente dall azione pesa. Consideiamo gli aspetti valutativi del RL in un contesto (setting semplice, quello in cui di deve appendee ad agie in una sola situazione (nonassociative setting, il poblema detto del n-amed bandit.

-Amed Bandit

n-amed Bandit Poblem

n-amed Bandit

Il poblema del n-amed Bandit Situazione iniziale costante. Scelta ta n azioni. La ichiesta di scegliee viene ipetuta più volte nel tempo. La icompensa è stocastica (e.g. slot machine. Obiettivo: viene massimizzata la icompensa a lungo temine. Soluzione possibile: selezionae l azione che fonisce la massima icompensa a lungo temine. Come?

Slot machine stocastica Il ewad della slot machine è completamente definito dalla densità di pobabilità associata alla macchina. Si suppone la densità di pobabilità costante nel tempo. Pe semplicità si suppone che la densità di pobabilità sia descivibile da una funzione analitica, ad esempio una Gaussiana. In questo caso la densità di pobabilità è definita dai paameti della gaussiana: media e deviazione standad. Che cosa appesenta la densità di pobabilità?

Come massimizzae la icompensa Consento all agente di avee memoia. Memoizzo il valoe associato alle divese azioni. Posso ad un ceto punto scegliee SEMPRE l azione che mi ha dato la RICOMPENSA MAGGIORE. L azione miglioe è detta GREEDY ACTION (Geedy = Goloso. EXPLOITING (sfuttamento KNOWLEDGE. Peché dovemmo scegliee un azione che non appae la miglioe (NON GREEDY?

Exploation Peché esploiamo soluzioni divese. La icompensa non è deteministica. Potemmo ottenee di più con alte azioni. uello che conta non è la icompensa istantanea ma la somma delle icompense ottenute. Occoe quindi mantenee una pedisposizione ad esploae azioni divese. Il bilanciamento di exploation e di exploitation è un compito complesso.

La Value Function e la scelta delle azioni Posso selezionae n-azioni: a = a.a n. Ciascuna di queste azioni ha un suo valoe: *(a = long-time ewad. Il suo valoe stimato al t-esimo tio (play sia t (a (VALUE. Si ammenti che il valoe veo di un azione è il ewad medio icevuto quando quell azione è scelta. Una via natuale pe stimae questo valoe è quella di calcolae la media dei ewad effettivamente icevuti quando l azione è stata scelta. In alti temini, se al t-esimo gioco l azione a è stata scelta a volte pima di t, ottenendo i ewad, 2,, a, alloa il suo valoe è stimato essee t ( a = 2... a a

Caatteistiche della Value Function Pe a = 0, si pone t (a ad un valoe di default, 0 (a = 0 (nessuna stima disponibile. Pe a, t (a *(a (pe la legge dei gandi numei. La Value function è calcolata come media (sample-aveage method. Pima possibilità di selezione: l azione che dà all istante t la massima VALUE FUNCTION stimata: : t (a > t (a j j a*: t (a* = max{ t ( a } Così viene EXPLOITED la conoscenza accumulata, è una politica GREEDY. Non vengono esploate soluzioni altenativa. Come si può fomalizzae un altenativa? a

Exploitation and Exploation Suppongo che con pobabilità ε venga scelta un azione divesa. uesta azione viene scelta con pobabilità unifome ta le n possibili azioni a disposizione (ε-geedy method. t (a *(a pe t Nea-geedy action selection. Come funziona? a*: t (a* = max{ t ( a } a a a* Unifome sulle alte a. P=-ε P=ε

Esempio: 0-amed testbed(* n-amed bandit poblem: n = 0; a = a, a 2,, a,, a 0. La simulazione consiste in un set di 2000 tas. Pe ogni tas, eseguo 000 volte la scelta dell azione: t = t, t 2,, t 000 a = a(t, a(t 2,, a(t 000 = (a(t, (a(t 2,, (a(t 000 (a viene selezionato in modo andom da una distibuzione Gaussiana con media µ, divesa pe le divese azioni, ma costante pe tutto il tas, e vaianza. µ = *(a. Misuo, pe ogni istante di tempo t: Il ewad dell azione (in questo caso viene dato un ewad 0 pe ogni azione Calcolo la icompensa totale (Value Function. Valuto la pefomance dopo le 000 giocate di ogni tas. uanto vale µ? Pe ogni tas vaio µ estaendolo da una distibuzione Gaussiana con media = 0 e vaianza =. (* A testbed is a platfom fo expeimentation fo lage development pojects (Wiipedia

Risultati Media su 2000 tas, ciascuno di 000 giocate (azioni, playes Si potebbe implementae una politica ε-geedy vaiabile: ε #Playes

Domande Supponiamo che la distibuzione da cui si sceglie il valoe medio del ewad abbia vaianza nulla. uale metodo funziona meglio: Geedy o ε-geedy? Supponiamo che la distibuzione da cui si sceglie il valoe medio del ewad abbia vaianza maggioe (e.g. = 0. Cosa succede? uale metodo si compoteebbe meglio? In quali alte condizioni saebbe utile avee esploazione?

Implementazione incementale Il metodo action-value appena visto di valutazione dei valoi delle azioni come media dei campioni delle icompense ossevate ichiede molta memoia e molta computazione pe il calcolo di Occoe scegliee un algoitmo che calcoli t(. con un piccolo caico computazionale e di memoia. Supponiamo di Exploit l azione a. Calcoliamo i ewad al tempo t (pimi t ewad e li chiamiamo t (a. t (a coincideà con la media delle pime a icompense: Scegliendo ancoa a, otteniamo il seguente valoe di al tempo t: a t a a =... ( 2 a t a a =... ( 2... ( 2 = a t a a a

Deteminazione icosiva di ( ( (... (... (... ( 2 2 2 = = = = = = = N N a N N N N N N N N N N N a N a N a N t t t N t t N t N t N N t N N t N t Dipende da t Non dipende da t = (a j 0

Ossevazioni su ( a = = [ N N Occupazione di memoia minima: solo e. NB: è il numeo di volte in cui è stata scelta a j, non è necessaiamente coincidente con il tempo t! uesta foma è la base del RL, La sua foma geneale è: NewEstimate = OldEstimate StepSize[Taget OldEstimate] NewEstimate = OldEstimate StepSize Eo. ] = N StepSize = = /N

Pseudo-codice pe il calcolo di ( ### Definizione delle vaiabili: N_scelte = m; eps_geedy = 0. //epsilon dipende dal gado di geedy che si vuol dae all agente ### Vaiabili dell agente A = {, 2,,m} // Azioni possibili = {, 2,,m} = 0 // Value function pe ogni azione N_azioni = {, 2,,m} // Numeo di volte in cui è scelta l azione j (e collezionato il ewad associato ## Vaiabili dell ambiente. Date nella simulazione, misuate nell ambiente nella ealtà // Inizializzo I paameti della distibuzione (stazionaia dei ewad pe ogni azione meanrewad = [mean_, mean_2,, mean_m]; stdrewad = [mean_, mean_2,, mean_m];

Pseudo-codice pe il calcolo di (2 #### 2 Ciclo di funzionamento while (TRUE { eps = andu ([0 ] // Pe politica epsilon-geedy // Exploitation [a_attuale _attuale] = SeachMax(; // Ceca l azione ottima secondo // Esploation: se eps < epsilon_min, alloa exploation if(eps < epsilon_min { // Devo tovae un azione divesa da a_attuale -> a_ef tovato = FALSE; a_ef = a_attuale; while(!tovato { a_attuale = andu(a; if(a_attuale!= a_ef { tovato = TRUE; _attuale = (a_attuale } } }

Pseudo-codice pe il calcolo di (3 // Eseguo l azione a_attuale e misuo il ewad ottenuto dalla slot machine _attuale = andg[meanrewad(a_attuale, stdrewad(a_attuale]; // Update i dati pe l azione a_attuale: il numeo di azioni e il value N_azioni(a_attuale; (a_attuale =(a_attuale (/N_azioni(a_attuale * (_attuale (a_attuale; }

Caso stazionaio = 2... N Il peso di ciascun campione è paia a /N. = N N Ogni nuovo campione viene pesato con /N. = [ ] Peso decescente ai nuovi campioni. Cosa succede se il tas è non stazionaio?

Caso non stazionaio ] [ = ma si suppone = cost = 0 = = = = = = = = = = = i i i 0 0 2 2 2 2 2 ( ( ( (... ( ( ( ( ] ( [ ( ( ] [ 0-0 Nel caso non stazionaio (il bandito cambia nel tempo, ha senso pesae di più le icompense più ecenti piuttosto che quelle passate. Si usa sempe l aggionamento:

Ossevazioni i = ( 0 ( i = ( 0 i= i= w i i I ewad non sono pesati tutti allo stesso modo: weighted aveage. Il peso di ciascun campione decesce esponenzialmente: w i = (- -i < Exponential, ecency-weighted aveage

La somma dei pesi dei ewad è unitaia Si chiama media pesata (weighted aveage peché la somma dei pesi è =. Infatti consideando solo i coefficienti in ] ( [ ( ( ( ( ( ( ( ( ( ( ( ( ( (... ( ( ( (... ( ( 0 2 0 2 2 = = = = = = = i i cvd

Condizioni iniziali i = ( 0 ( i= Tutti i metodi discussi dipendono dalla stima iniziale della action-value, 0 (a (polaizzazione. Ma: Metodi ad = /N, 0 non viene utilizzato se non al pimo passo, viene poi sostituito da. Metodi ad costante, 0 conta sempe meno, ma la polaizzazione è pemanente ( 0 = 0. 0 può essee utilizzato pe fonie della conoscenza a-pioi o pe favoie l esploazione (optimistic initial value. Come posso gestie una situazione in cui la slot machine cambia impovvisamente la sua densità di pobabilità di ewad? (Pe i poblemi non stazionai, l optimistic initial value è inefficace in quanto agisce solo all inizio. i