MDP e reti neurali rinforzate

Transcript

1 MDP e reti neurali rinforzate r.vincelli@campus.unimib.it Contenuti 1. Il paradigma d apprendimento rinforzato 2. La rete come agente in un contesto MDP 3. Strategie 4. Funzioni valore 5. Un esempio di applicazione e la sua implementazione: backgammon 6. Spunti sulla modellazione MDP del gioco carte UNO 7. Conclusioni 1 Il paradigma d apprendimento rinforzato Una rete neurale puo avere fondamentalmente due fasi distinte di operativita, la fase di apprendimento e quella generalizzata. Nella fase di apprendimento si insegna alla rete a fare qualcosa, nel senso di impostare le condizioni che permettano di calcolare una particolare funzione, e cio e ottenuto principalmente modificando i pesi e le sogliature, piu raramente le connessioni, in modo continuo, fino ad essere certi di poter avere un risultato soddisfacente in termini di capacita della rete stessa di calcolare la suddetta funzione. La fase generalizzata e invece quella in cui la rete fa quello per cui e stata progettata, nonche allenata nella fase precedente, ossia calcolare una certa funzione nella classe delle funzioni che le e possibile calcolare, ed e una fase normalmente statica, ossia non vi sono modifiche ai parametri della rete. Si hanno tre paradigmi di apprendimento: ˆ supervisionato ˆ non supervisionato 1

2 ˆ rinforzato Vogliamo appunto concentrarci sul terzo, che a differenza degli altri due che fanno riferimento esclusivamente ad un insieme di valori detto problem set per la fase di training, ha come informazione necessaria al suo affinamento principalmente un feedback dall ambiente. Se i primi due sono utilizzati anzitutto per scopi di regressione e classificazione (supervisionato), clustering e riconoscimento distribuzioni statistiche (non supervisionato), il rinforzato si adatta a scopi altrettanto eterogenei e complessi, fin nell ambito dell intelligenza artificiale. L apprendimento rinforzato in una rete neurale implica l utilizzo di questa come strumento di machine learning, quell area dell IA che si occupa dello studio di algoritmi adattivi in grado di permettere ad un calcolatore un comportamento complesso e ragionato in funzione di stimoli esterni (es. i dati di un sensore). E l idea di questo approccio all apprendimento della rete trae origine da come vanno le cose nella realta dei rapporti interpersonali ad esempio: quando intratteniamo una conversazione non facciamo altro che ricevere stimoli dal soggetto con cui discutiamo per proporne a questo a nostra volta di nuovi. La formalizzazione da un punto di vista probabilistico/numerico di uno scenario del tipo e necessaria alla realizzazione pratica del modello sul calcolatore, oltre ad essere ragionevole circa realta la stessa, mutevole, si spera non in modo totalmente imprevedibile, e quantificabile, pensando ancora al discorso, possiamo dare un punteggio di gradimento ad ogni frase che ci viene detta. Un agente qualsiasi, nel nostro caso una rete neurale, protagonista di un apprendimento rinforzato, ha un solo vero goal, ricevere il massimo premio possibile dall ambiente: compie azioni ciascuna delle quali genera un feedback da questo, che puo essere piu o meno positivo ed e risposta all interazione tra i due attori. In un setting supervisionato totalmente o parzialmente, la rete neurale ha un compito tutto sommato semplice, almeno in termini di modus agendi: ottimizzare una funzione di costo, come ad esempio il mean square error rispetto ad un set di risultati tabulati fornitigli come precisi, il training set, utilizzando algoritmi di propagazione basati, molto spesso, su forme note (es. metodo del gradiente, Newton ecc). Nel rinforzato invece, tutto quel che puo fare la rete e dare output corrispondenti a diverse azioni, provando le azioni che ritiene migliori in termine di feedback, quelle che la fanno guadagnare di piu. E critico in questo senso il contrasto tra exploitation ed exploration: l agente tende a fidarsi di azioni che, nel passato, gli hanno procurato maggior beneficio, ma non pu optare solo per queste poiche, potenzialmente, se ne perde altre in grado di portargli benefici anche maggiori (vedi Strategie). 2

3 L approccio tende quindi ad essere euristico ed adatto a risolvere problemi di decisione, ed inoltre varia rispetto a come si modella l ambiente e come si formalizza il costo da ottimizzare (che in prima battuta, e la somma dei successivi rewards). Alla luce di quanto detto si possono gia intuire tutta una serie di casi di problemi reali che sarebbe interessante aggredire in questo modo, la cui natura e sicuramente meno tecnica, ma anche meno specifica, dei problemi studiati con le reti neurali supervisionate/non supervisionate. A livello metodologico, possiamo osservare che il reinforced machine learning ha avvicinato la disciplina dell AI ad aree tradizionalmente slegate da questa, come la statistica/probabilita e la teoria dell ottimizzazione: il focus si e spostato dallo sforzarsi di far ragionare il calcolatore similmente ad un umano in termini di logica e renderlo efficace nello scegliere l azione giusta, a renderlo invece efficiente a valutare un numero piu ampio di azioni possibili delle quali tenere in considerazione le migliori, con un obiettivo ben definito, caratterizzante il problema. 2 La rete come agente in un contesto MDP Modelliamo l ambiente con il quale l attore rete interagisce come un processo di decisione markviano (MDP, Markov decision process, [1]). Un mdp e un processo di controllo stocastico a tempi discreti, informalmente un metodo probabilistico per derivare dei comportamenti, una policy, che permetta di ottenere da un certo sistema un output desiderato, ad ogni istante temporale finito. Per i nostri scopi definiamo allora la quadrupla (S,A,P(.,.),R(.,.)) nel seguente modo: ˆ S spazio degli stati con S S sottospazio degli stati terminali ˆ A = S A i, con A i spazio delle azioni possibili dallo stato s i S ˆ S a (s i, s j ) = Pr(s t+1 = s j s t = s i, a t = a), ossia la probabilita che si evolvera allo stato s j posto che si e nello stato s i e si compie l azione a ˆ R a (s i, s j ), ricompensa effettiva immediata od attesa derivante dall evolvere dallo stato s i allo stato s j (sempre secondo S a (s i, s j )) Sia S sia A sono insiemi finiti, e le ricompense sono numeri reali. Inoltre l ordine del processo di Markov associato e 1 cioe si considera solo lo stato e l azione corrente per dire qualcosa sul futuro, il processo ha memoria semplice ed e detto avere la proprieta di Markov. 3

4 Al variare di queste ed altre condizioni si ottengono molti tipi di processi mdp, ma questo modello tutto sommato semplice puo essere considerato soddisfacente in molti casi. Ora esplicitiamo il goal che la rete deve raggiungere attraverso una policy di scelta delle azioni, nella sua forma piu semplice ma anche naturale: massimizzare la sommatoria delle ricompense ricevute nell evolvere di stato in stato n volte fino ad uno stato finale: max( n i=1 r i) Le ricompense non devono necessariamente essere reali positivi: possiamo infatti generalizzare il concetto di ricompensa come feedback e considerare anche punteggi negativi (ricadute negative) o nulli (situazione indifferente), o invertire ed avere al contrario una minimizzazione. Queste considerazioni valgono in modo preciso se le ricompense sono effettive; nel caso in cui ci sia incertezza circa queste, r i non e piu un numero reale ma una distribuzione di probabilita discreta (o continua) che ci dice quanto siano possibili alcuni valori rispetto ad altri. In questi casi il valore atteso della distribuzione pu essere preso a valore quasi effettivo. Ci e chiaro l ambiente con cui ha a che fare la rete, ed entrambi sono formalizzati, cosi come l obiettivo che questa ha nei confronti del primo, cosa le chiede. Nella prossima sezione prendiamo brevemente in esame delle strategie di policy efficienti. 3 Strategie Ad ogni iterazione del processo, il sistema si trova di fronte ad una scelta, deve scegliere che azione compiere sapendo che potra portarlo in uno stato od un altro secondo le probabilita definite. Queste probabilita non sono ovviamente un insieme statico o dato a priori, altrimenti l evoluzione verso il goal sarebbe perlopiu definita ed il problema gia risolto. Sono altrettanto aleatorie le ricompense, su cui e definito l obiettivo: possono esserlo di per se come visto sopra oppure, pur essendo certe per un evoluzione (s i s j ) a lo sono perche questa stessa evoluzione non ha natura certa, sempre seguendo la definizione che abbiamo data sopra. Ad un certo istante t la rete si trova in uno stato s S ed ha a disposizione l insieme di azioni a A S cosi come il set di ricompense R a (s, s j ). Alla luce di quest ultimo, alcune azioni risultano piu opportune di altre, nell immediato futuro, mentre altre, promettendo ricompense minori per l evoluzione stato prossimo che permettono, sono meno attrattive. 4

5 Un approccio greedy alla scelta dell azione da intraprendere privilegia sempre la prima categoria, le azioni piu promettenti nell immediato, ed una scelta di quest ottica e detta di exploitation, giacche si sfrutta immediatamente una possibilita interessante. D altro canto, scegliendo sempre e solo la strada che sembra migliore, si puo ricadere in una long-run loss cioe nel mancare, sul lungo periodo, l ottimizzazione poiche sono state ignorate altre vie che avrebbero permesso, se percorse, di ottenere ricompense piu alte. Questa situazione e del tutto analoga ai rischi di crowding negli algoritmi genetici ed in genere negli approcci evoluzionistici: come abbiamo visto, scegliere sempre e solo i migliori elementi di una popolazione puo far arrivare solo ad ottimi locali, piu in generale tenere lontano da quel che sarebbe una soluzione davvero soddisfacente. L idea di dare fiducia ad opzioni meno promettenti e detta exploring, si esplorano nuove possibilita in grado magari di portare ad un miglioramento drastico. Una strategia non necessariamente ottimale ma indubbiamente valida deve quindi bilanciare le scelte di mosse di sfruttamento ed esplorative. Si hanno varie strategie per la politica di scelta delle azioni e le due famiglie principali sono ([2]): ˆ metodi azione-valore ˆ metodi a comparazione rinforzata 3.1 Action value methods Negli action value methods si ha un approccio prettamente greedy, scegliendo l azione che si ritiene correntemente massimizzante. Trovandoci in un certo stato s definiamo le quantita : ˆ Q(a) = R a (s,s i )+...+R a (s,s j ) A s ossia la ricompensa media di un azione a A s detto valore vero di a ˆ Q t (a) = r r k k ossia la ricompensa media di un azione a A s al tempo t (nel numero di iterazioni da 0 a t escluso l azione e stata scelta k volte determinando feedback complessivo r r k ) detto valore di stima di a Per la legge dei grandi numeri, al tempo t = + varra Q(a) = Q t (a). Il metodo sceglie l azione: a A Q t (a ) = max a (Q t (a)) Una certa attitudine all esplorazione pu essere inserita imponendo che, ogni m iterazioni l azione sia scelta casualmente prescindendo da questa metrica, o che ci sia possibile ad ogni iterazione ma con probabilita molto bassa. Softmax action selection: una variante del metodo che, nella fase esplorativa, 5

6 impedisce che l azione esploratrice sia scelta totalmente a caso. Infatti se e estratta un azione molto vicina all ottimo corrente a l esplorazione e poco significativa, mentre scegliere azioni molto negative pu essere un problema in talune applicazioni. 3.2 Reinforced comparison methods Scegliere l azione che nell immediato risulta migliore e talvolta perturbare come nel metodo valore dell azione non considera il seguente fatto: la ricompensa ricevuta dall azione scelta, che e stata stimata la migliore possibile, quanto ha dato in realta? Ci aspettavamo di piu o di meno ed in generale il feedback ricevuto e soddisfacente? Per potere fare di questi confronti, relativi, poniamo un valore di riferimento: R avg (t) = r r t t cioe una media degli score ottenuti, fino al tempo t corrente. In prima approssimazione, ad un certo tempo t l insieme delle azioni A sara partizionato in azioni sopra, sotto la media e sconosciute, a seconda che l ultima volta che sono state scelte al tempo t hanno determinato un valore sopra, sotto la media R avg (t ) o non sono state ancora scelte. L azione corrente e scelta estraendo casualmente una di quelle sopra la media ed aggiornando score medio e partizioni. Soluzioni molto piu sofisticate definiscono una preferenza per ogni azione, aggiornata in funzione della differenza tra il profitto generato da questa ed il valore medio, ogni volta che viene scelta es.: pref t+1 (a t ) = pref t (a t ) + α(r t R avg (t 1 )) dove a t e l azione in questione, r t il suo rendimento ed α una costante detta di fiducia, positiva. Tale preferenza e a sua volta utilizzata in una funzione che effettivamente sceglie l azione candidata a tra le possibili, e che e, similmente a quelle utilizzate nei metodi softmax, ma anche negli algoritmi genetici per la selezione degli individui da portare avanti in una popolazione, di forma roulette: f (a) = g(a) n i=1 g(a i ) dove g e una funzione di fitness funzione di pref, e l obiettivo e ovviamente massimizzare. Sono certamente possibili strategie in cui entrambi gli approcci si fondono (metodi pursuit). 6

7 4 Funzioni valore Manca ancora un concetto per formalizzare al minimo l approccio rinforzato, quello di value function ([2]). Una funzione di valore mette in relazione uno stato S o ciascuna delle azioni possibili in questo A S con un valore detto ritorno atteso, che definisce quanto sia positivo per l agente trovarsi in un certo stato e compiere le azioni da esso possibili in termini di ricompense. Una funzione di valore e naturalmente vincolata da una certa strategia di policy. Per uno stato s S considerato iniziale ed un evoluzione da questo seguendo la policy π l expected return : V π (s) = E π { + k=0 γk r t+k+1 } dove E π {} e il valore atteso della ricompensa globale, scritta per nella cosiddetta discount form al posto che come semplice sommatoria delle singole, e vale 0 γ 1 La funzione che abbiamo appena definito e uno strumento piu potente per il controllo rispetto che la sommatoria sui feedback r i, poiche il ritorno e, anche se probabilisticamente, completamente definito a partire dallo stato s e dalla policy π, e la formulazione si presta a modellare anche quando lo spazio degli stati, od anche delle azioni possibili, e sconosciuto in parte e la struttura adatta all ambiente non e piu un mdp semplice ma un mdp parzialmente osservabile 5 Implementazione Ora che si hanno a disposizione i concetti/formalismi chiave, e necessario parlare degli algoritmi adattivi che effettivamente permettono questo tipo di apprendimento in modo dinamico, con continui aggiornamenti. In particolare preme capire in ottica iterativa rispetto al tempo discreto t come formulare predizione e controllo: ˆ strutturare la policy evaluation ossia il calcolo della funzione valore sopracitata, su cui si basa il prossimo punto cioe ˆ migliorare eventualmente la politica adottata, policy improvement ovvero studiare, per esempio, come perturbazioni come quelle citate nella sezione di sopra siano effettivamente utili al raggiungimento dello scopo, e nel caso variare di risposta la politica Bisogna dire che la letteratura e abbastanza vasta ed i formalismi utilizzati sono, matematicamente, non poco complessi. 7

8 Le tre grandi categorie di metodi di soluzione sono basati su ([2]): ˆ programmazione dinamica ˆ metodi Monte Carlo ˆ apprendimento TD (temporal difference) Nella PD l assunzione principale e che il modello mdp dell ambiente ricalchi quest ultimo in modo perfetto, sia totalmente fedele, e gli algoritmi si contraddistinguono per chiarezza ma eccessiva richiesta computazionale (specie spaziale). I metodi Monte Carlo sono invece metodi a forte natura probabilistica che non richiedono un modello strettamente preciso e suppliscono alla mancanza di questo attraverso un apprendimento online ad episodi e non a passi t. L approccio TD e invece una via di mezzo e tra i suoi esempi piu celebri e fortunati si ha [3], dove un particolare algoritmo td detto lambda e applicato come sistema di aggiornamento dei pesi di una rete neurale MLP (multi-layer perceptron). Lo spirito e prendere la rete mlp nella sua natura di approssimatore universale di funzione ([4]) per approssimare la funzione di policy evaluation e modellare il policy improvement attraverso un continuo aggiornamento dei pesi della rete, che permettono di modulare l approssimazione stessa. Il funzionamento dell apprendimento e illustrato abbastanza in dettaglio in [3] ed in modo informale ma chiaro in [5]. Consideriamo una rete mlp ad m unita nascoste. Poniamo di volerla allenare con la nota backpropagation, e con un apprendimento in genere supervisionato percio. Allora, a seguito di una qualsiasi mossa data in output dalla rete in una sessione di allenamento, bisognerebbe fornire la mossa effettivamente ottimale per far partire il meccanismo di differenze/errori bp ed affinare la scelta dell agente rete. Il problema e che non e possibile fornire una mossa referenza ottima a priori, dato che, fatta la sua mossa la rete, la sua prossima mossa dovrebbe essere ragionevolmente vincolata dalla reazione dell ambiente, l avversario. Sarebbe quindi necessaria in teoria una bp per cosi dire diluita sull orizzonte temporale che, emessa la mossa t permetta di valutare/riconsiderare la bonta di tutte le precedenti, e per fare cio e proprio utilizzato l algoritmo TD(λ): ˆ una sessione singola di allenamento consiste nel dare in input una sequenza di vettori X =< x 1,..., x n > dove X e una partita intera composta da n mani ed x t = (x t1,..., x tk ) la configurazione del tavolo alla mano t-esima (es. disposizione pedine sul tavolo). 8

9 ˆ un vettore di output y = f (x) e emesso per ogni input, e questo output rappresenta la ricompensa attesa totale a partire dallo stato input, ossia fino ad uno stato terminale (es. pareggio) come distribuzione di probabilita discreta sui possibili casi. ˆ dopo ogni output y ha luogo l aggiornamento dei pesi di rete, secondo una formula che, per completezza, e : w t+1 = w t + α(y t+1 y t ) t k=1 λt k wt [y k ] ˆ all ultima iterazione la differenza y t+1 y t e definita tra il risultato effettivo della partita e l ultima predizione della rete. La formula del terzo punto aggiorna il vettore pesi w di tutta la rete parallelamente se w = ((w 11,..., w 1j ),..., (w i1,..., w ij )) di consegnuenza w contiene i pesi di tutti i neuroni (si puo formulare analogamente concentrandosi sull aggiornamento di un solo neurone). α e una costante in (0, 1 ) detta costante di apprendimento mentre wt [y k ] e il gradiente dell output di rete y k determinato dal set di pesi w t. λ (0, 1) e invece un parametro caratterizzante dell algoritmo, che controlla quanto si imputi un feedback ricevuto ad azioni lontane dalla corrente: per λ 1 il sistema ha buona memoria, mentre per λ 0 il merito/demerito e localizzato. La rete deve essere certamente modellata in modo da avere una minima conoscenza pregressa, non in termini di strategie di gioco impartite a priori, ma di mosse lecite (le azioni possibili da uno stato che portino ad uno stato valido), stati terminali (fine gioco) e simili. Gli input di allenamento possono essere generati esternamente, o si puo anche fare in modo che la rete giochi da sola avendo una parte dell architettura destinata a dare input casuali (in quest ottica potrebbe essere piu comoda una rete ricorrente piuttosto che una aciclica/feedforward). Una volta allenata si suppone che il sistema di pesi metta la rete in condizione di portarsi, ad ogni mossa, in una situazione che massimizzi il valore atteso di vittoria, semplicemente di sceglier la mossa migliore dati i vincoli di sopra. In [3] sono presentati i risultati del non banale esperimento, ed il confronto tra TD-Gammon e Neurogammon, una rete neurale allo stesso scopo ma allenata attraverso paradigma supervisionato con mosse ottimali suggerite da un pool di giocatori di backgammon esperti: tali risultati sono molto buoni, il livello raggiunto dall agente e medio-alto, ed un contesto di IA pura ha permesso, attraverso l esplorazione, di validare tattiche assodate, scartarne di altrettanto e scoprirne nuove, eventualmente anche adottate nei circoli professionistici. 9

10 6 Spunti sulla modellazione MDP del gioco di carte UNO In questa sezione espongo qualche semplice idea riguardo una possibile modellazione del gioco di carte UNO in ambiente mdp. Anche nell esempio di sopra, l ambiente puo trovare una sua modellazione mdp, che l autore non ha esposto forse perche non gli e parsa necessaria per l illustrazione dello schema di risoluzione, ma essendo comunque un importante fondamento teorico invece di studiarla a posteriori per un problema tutto sommato gia risolto come illustrato forniamo un caso nuovo. Concentriamoci su di una modalita a due giocatori ovviamente non-cooperativa: posto il nostro agente come uno dei due, l ambiente con cui deve fare i conti e incarnato dall avversario, dall ultima carta scartata e dal mazzo corrente. In UNO il mazzo e composto da quattro sotto-mazzi di colori diversi, rosso, verde, blu e giallo con carte numerate da 0 a 9, due carte numerate per sottomazzo eccetto per lo 0 che e singolo, sei carte azione speciali di tre tipi, inverti giro, salta turno, pesca 2; ai quattro sotto-mazzi cosi organizzati si aggiungono otto carte di due tipi, cambia colore e cambia colore con pesca 4. Ogni giocatore parte con sette carte estratte a caso ed un ulteriore carta e pescata e messa faccia su sul tavolo con il ruolo di primo elemento della pila. L obiettivo del giocatore per la vittoria e scartare tutte le carte che ha in mano attaccandole sulla pila pescando una carta quando non gli sia possibile, e facendo i conti con i disturbi dagli altri giocatori, portati attraverso le carte speciali. L intero mazzo e partizionabile con partizioni sovrapposte per formalizzare la relazione y x sse la testa della pila e la carta x, e la carta y puo lecitamente essere scartata su x e diventare la nuova testa della pila. I fatti sono abbastanza banali. Nell insieme mazzo X siano: ˆ c i una carta standard di colore c {r, g, b, y} con i {0,..., 9 } ˆ c j una carta speciale di colore c {r, g, b, y} con j {a, b, c} ˆ w j e w j una carta cambio colore ed una cambio colore piu 4 rispettivamente a colore dichiarato j {r, g, b, y} Allora la carta y puo essere scartata sulla pila x secondo questa casistica: 1. se y = c l e x = c m l, m {0,..., 9 } (stesso colore) 2. se y = u i e x = v i u, v {r, g, b, y} (stesso numero) 3. se y = c i con c {r, g, b, y}, i {0,..., 9 } e x = w c (generica su wild 1) 4. se y = c i con c {r, g, b, y}, i {0,..., 9 } e x = w c (generica su wild 2) 5. se y = w j e x X (wild 1 va sempre) 10

11 6. se y = w j e x X (wild 2 va sempre) Ci importa ora definire la quadrupla (S,A,P(.,.),R(.,.)): ˆ S =< T 0,..., T k > con S = {T 0 } dove T i e lo stato in cui il giocatore ha i carte in mano. In single-player k 108 poiche ragionevolmente se anche la configurazione iniziale T 7 =< y 1,..., y 7 > con y i X e altamente incompatibile con la pila e per un numero alto di volte il giocatore deve continuare a pescare da un mazzo sfortunato che non migliora minimamente la compatibilita, arrivera un momento in cui, trovando le carte le carte wild, il giocatore potra scendere. In two-player come nel nostro caso deve valere nel caso peggiore altrettanto poiche se tutte le carte fossero in mano ad un giocatore l altro non ne avrebbe a partita ancora aperta e sarebbe nello stato finale di vittoria a partita ancora in corso, il che e assurdo. ˆ Mi pare opportuno distinguere tra azioni attive e passive, cioe fatte o subite, in un certo stato verso un altro. In un qualsiasi stato tranne T 0, dove non e possibile alcuna azione se non l azione vuota, l azione attiva sempre lecita e pescare, mentre e possibile scartare solo se si ha una carta compatibile (in T 1 e possibile anche dichiarare Uno!). Sia q la carta pila corrente; l insieme delle attive: A 1 = S A 1i, dove {} se i = T 0 {u, p, s} se i = T 1 e y T 1 : y q A 1i = {u, p} se i = T 1 e y T 1 : y q {p, s} se i = T j e y T j : y q {p} se i = T j e y T j : y q Le azioni passive sono invece quelle che determinano un cambio di stato ma non dipendono da azioni dirette del giocatore: in pratica, quando subiamo delle carte speciali dall avversario. Qualsiasi numero di carte l agente abbia in mano, l avversario puo sempre dargliene di nuove (se ne ha la possibilita con le apposite carte certo), 2 o 4 in piu a seconda della carta che questo usa. Se si e in stato finale, nulla e subibile; altrimenti: A 2 = S S A 2i dove A 2i = {+ 2, + 4 } L insieme di tutte le possibili azioni e quindi A = A 1 A2 ˆ Le probabilita sono contabili come nella stragrande maggioranza dei giochi, ma essendo troppe le possibilita, come nel backgammon, un approccio con lookup table puo essere infattibile, ed inoltre il comportamento dell avversario in termini di aggressivita e un fattore determinante. Per esempio potrebbe darsi che le azioni subite aumentino di frequenza all avvicinarsi 11

12 l agente ad uno stato finale. Sia l agente in un generico stato T i con i 0, 1 in condizione di subire un azione (il turno dell opponente) e tutte le carte +4 non siano ancora uscite. Potremmo pensare che: S +4 (T i, T i+4 ) = Pr(s t+1 = T i+4 s t = T i, a t = + 4 ) 1 per i 0 E chiaro che dinamiche del genere od anche molto piu complesse non possono essere definite a priori, e da cio nuovamente segue l opportunita di strutturare l agente come una rete magari TD(lambda): l aggressivita potrebbe ripresentarsi o meno in ognuna delle molte sessioni di allenamento previste, e la policy da sviluppare dovrebbe comportarsi discretamente nella maggior parte dei casi in funzione di questa ed altre peculiarita. ˆ I reward sono semplicemente dei naturali corrispondenti all effetto dell azione in termini di scarto/acquisizione carte oppure del passaggio da uno stato all altro: se ad esempio e subita l azione + 4 si avra un feedback negativo r +4 = +4, se si passa dallo stato T 1 allo stato T 0 scartando il feedback sara positivo, r s = 1 ecc ˆ L obiettivo allorae ancora massimizzare la ricompensa, ma siccome valori positivi sono negativi (si pesca) e viceversa, si ha: min( n i=1 r i) 7 Conclusioni Una rete neurale ha bisogno di essere istruita a calcolare una certa funzione o piu in generale a svolgere un certo compito, e tra i modi possibili abbiamo isolato l apprendimento rinforzato, dove la rete impara attraverso un processo iterativo azione-feedback con un ambiente esterno. Esiste un ampia gamma di problemi nel dominio dell intelligenza artificiale ma non solo che puo essere vista come caratterizzata dalla necessita di volere ottenere il massimo possibile, in termini di feedback, da un ambiente mediante fasi successive d interazione con questo, e che sono quindi adatti ad un approccio rinforzato in genere, anche con reti neurali quindi. Il supporto formale ci viene dai processi di decisione di Markov, dove ci concentriamo sugli stati previsti del sistema, le azioni che l agente fa per cambiarli e la ricompensa/punizione loro associata. Discutiamo un caso applicativo di successo del binomio apprendimento rinforzatorete neurale, un agente giocatore di livello nel backgammon, prescindendo dal 12

13 formalismo mdp, cosi come dualmente alcune idee per la modellazione mdp del gioco di carte UNO senza addentrarci nell implementazione. Riferimenti [1] Eugene A. Feinberg, Adam Shwartz et al, Handbook of Markov decision processes: methods and applications, 2002 [2] Richard S. Sutton, Andrew G. Barto, Reinforcement Learning: An Introduction, 1998 [3] G. Tesauro, Temporal Difference Learning and TD-Gammon, 1995 [4] G. Cybenko, Approximations by superpositions of sigmoidal functions, 1989 [5] D. Subramanian, D. Peixotto, A. Youssefi, Programming assignment 4 in Comp440, Rice University,