MDP e reti neurali rinforzate

Dimensione: px
Iniziare la visualizzazioe della pagina:

Download "MDP e reti neurali rinforzate"

Transcript

1 MDP e reti neurali rinforzate r.vincelli@campus.unimib.it Contenuti 1. Il paradigma d apprendimento rinforzato 2. La rete come agente in un contesto MDP 3. Strategie 4. Funzioni valore 5. Un esempio di applicazione e la sua implementazione: backgammon 6. Spunti sulla modellazione MDP del gioco carte UNO 7. Conclusioni 1 Il paradigma d apprendimento rinforzato Una rete neurale puo avere fondamentalmente due fasi distinte di operativita, la fase di apprendimento e quella generalizzata. Nella fase di apprendimento si insegna alla rete a fare qualcosa, nel senso di impostare le condizioni che permettano di calcolare una particolare funzione, e cio e ottenuto principalmente modificando i pesi e le sogliature, piu raramente le connessioni, in modo continuo, fino ad essere certi di poter avere un risultato soddisfacente in termini di capacita della rete stessa di calcolare la suddetta funzione. La fase generalizzata e invece quella in cui la rete fa quello per cui e stata progettata, nonche allenata nella fase precedente, ossia calcolare una certa funzione nella classe delle funzioni che le e possibile calcolare, ed e una fase normalmente statica, ossia non vi sono modifiche ai parametri della rete. Si hanno tre paradigmi di apprendimento: ˆ supervisionato ˆ non supervisionato 1

2 ˆ rinforzato Vogliamo appunto concentrarci sul terzo, che a differenza degli altri due che fanno riferimento esclusivamente ad un insieme di valori detto problem set per la fase di training, ha come informazione necessaria al suo affinamento principalmente un feedback dall ambiente. Se i primi due sono utilizzati anzitutto per scopi di regressione e classificazione (supervisionato), clustering e riconoscimento distribuzioni statistiche (non supervisionato), il rinforzato si adatta a scopi altrettanto eterogenei e complessi, fin nell ambito dell intelligenza artificiale. L apprendimento rinforzato in una rete neurale implica l utilizzo di questa come strumento di machine learning, quell area dell IA che si occupa dello studio di algoritmi adattivi in grado di permettere ad un calcolatore un comportamento complesso e ragionato in funzione di stimoli esterni (es. i dati di un sensore). E l idea di questo approccio all apprendimento della rete trae origine da come vanno le cose nella realta dei rapporti interpersonali ad esempio: quando intratteniamo una conversazione non facciamo altro che ricevere stimoli dal soggetto con cui discutiamo per proporne a questo a nostra volta di nuovi. La formalizzazione da un punto di vista probabilistico/numerico di uno scenario del tipo e necessaria alla realizzazione pratica del modello sul calcolatore, oltre ad essere ragionevole circa realta la stessa, mutevole, si spera non in modo totalmente imprevedibile, e quantificabile, pensando ancora al discorso, possiamo dare un punteggio di gradimento ad ogni frase che ci viene detta. Un agente qualsiasi, nel nostro caso una rete neurale, protagonista di un apprendimento rinforzato, ha un solo vero goal, ricevere il massimo premio possibile dall ambiente: compie azioni ciascuna delle quali genera un feedback da questo, che puo essere piu o meno positivo ed e risposta all interazione tra i due attori. In un setting supervisionato totalmente o parzialmente, la rete neurale ha un compito tutto sommato semplice, almeno in termini di modus agendi: ottimizzare una funzione di costo, come ad esempio il mean square error rispetto ad un set di risultati tabulati fornitigli come precisi, il training set, utilizzando algoritmi di propagazione basati, molto spesso, su forme note (es. metodo del gradiente, Newton ecc). Nel rinforzato invece, tutto quel che puo fare la rete e dare output corrispondenti a diverse azioni, provando le azioni che ritiene migliori in termine di feedback, quelle che la fanno guadagnare di piu. E critico in questo senso il contrasto tra exploitation ed exploration: l agente tende a fidarsi di azioni che, nel passato, gli hanno procurato maggior beneficio, ma non pu optare solo per queste poiche, potenzialmente, se ne perde altre in grado di portargli benefici anche maggiori (vedi Strategie). 2

3 L approccio tende quindi ad essere euristico ed adatto a risolvere problemi di decisione, ed inoltre varia rispetto a come si modella l ambiente e come si formalizza il costo da ottimizzare (che in prima battuta, e la somma dei successivi rewards). Alla luce di quanto detto si possono gia intuire tutta una serie di casi di problemi reali che sarebbe interessante aggredire in questo modo, la cui natura e sicuramente meno tecnica, ma anche meno specifica, dei problemi studiati con le reti neurali supervisionate/non supervisionate. A livello metodologico, possiamo osservare che il reinforced machine learning ha avvicinato la disciplina dell AI ad aree tradizionalmente slegate da questa, come la statistica/probabilita e la teoria dell ottimizzazione: il focus si e spostato dallo sforzarsi di far ragionare il calcolatore similmente ad un umano in termini di logica e renderlo efficace nello scegliere l azione giusta, a renderlo invece efficiente a valutare un numero piu ampio di azioni possibili delle quali tenere in considerazione le migliori, con un obiettivo ben definito, caratterizzante il problema. 2 La rete come agente in un contesto MDP Modelliamo l ambiente con il quale l attore rete interagisce come un processo di decisione markviano (MDP, Markov decision process, [1]). Un mdp e un processo di controllo stocastico a tempi discreti, informalmente un metodo probabilistico per derivare dei comportamenti, una policy, che permetta di ottenere da un certo sistema un output desiderato, ad ogni istante temporale finito. Per i nostri scopi definiamo allora la quadrupla (S,A,P(.,.),R(.,.)) nel seguente modo: ˆ S spazio degli stati con S S sottospazio degli stati terminali ˆ A = S A i, con A i spazio delle azioni possibili dallo stato s i S ˆ S a (s i, s j ) = Pr(s t+1 = s j s t = s i, a t = a), ossia la probabilita che si evolvera allo stato s j posto che si e nello stato s i e si compie l azione a ˆ R a (s i, s j ), ricompensa effettiva immediata od attesa derivante dall evolvere dallo stato s i allo stato s j (sempre secondo S a (s i, s j )) Sia S sia A sono insiemi finiti, e le ricompense sono numeri reali. Inoltre l ordine del processo di Markov associato e 1 cioe si considera solo lo stato e l azione corrente per dire qualcosa sul futuro, il processo ha memoria semplice ed e detto avere la proprieta di Markov. 3

4 Al variare di queste ed altre condizioni si ottengono molti tipi di processi mdp, ma questo modello tutto sommato semplice puo essere considerato soddisfacente in molti casi. Ora esplicitiamo il goal che la rete deve raggiungere attraverso una policy di scelta delle azioni, nella sua forma piu semplice ma anche naturale: massimizzare la sommatoria delle ricompense ricevute nell evolvere di stato in stato n volte fino ad uno stato finale: max( n i=1 r i) Le ricompense non devono necessariamente essere reali positivi: possiamo infatti generalizzare il concetto di ricompensa come feedback e considerare anche punteggi negativi (ricadute negative) o nulli (situazione indifferente), o invertire ed avere al contrario una minimizzazione. Queste considerazioni valgono in modo preciso se le ricompense sono effettive; nel caso in cui ci sia incertezza circa queste, r i non e piu un numero reale ma una distribuzione di probabilita discreta (o continua) che ci dice quanto siano possibili alcuni valori rispetto ad altri. In questi casi il valore atteso della distribuzione pu essere preso a valore quasi effettivo. Ci e chiaro l ambiente con cui ha a che fare la rete, ed entrambi sono formalizzati, cosi come l obiettivo che questa ha nei confronti del primo, cosa le chiede. Nella prossima sezione prendiamo brevemente in esame delle strategie di policy efficienti. 3 Strategie Ad ogni iterazione del processo, il sistema si trova di fronte ad una scelta, deve scegliere che azione compiere sapendo che potra portarlo in uno stato od un altro secondo le probabilita definite. Queste probabilita non sono ovviamente un insieme statico o dato a priori, altrimenti l evoluzione verso il goal sarebbe perlopiu definita ed il problema gia risolto. Sono altrettanto aleatorie le ricompense, su cui e definito l obiettivo: possono esserlo di per se come visto sopra oppure, pur essendo certe per un evoluzione (s i s j ) a lo sono perche questa stessa evoluzione non ha natura certa, sempre seguendo la definizione che abbiamo data sopra. Ad un certo istante t la rete si trova in uno stato s S ed ha a disposizione l insieme di azioni a A S cosi come il set di ricompense R a (s, s j ). Alla luce di quest ultimo, alcune azioni risultano piu opportune di altre, nell immediato futuro, mentre altre, promettendo ricompense minori per l evoluzione stato prossimo che permettono, sono meno attrattive. 4

5 Un approccio greedy alla scelta dell azione da intraprendere privilegia sempre la prima categoria, le azioni piu promettenti nell immediato, ed una scelta di quest ottica e detta di exploitation, giacche si sfrutta immediatamente una possibilita interessante. D altro canto, scegliendo sempre e solo la strada che sembra migliore, si puo ricadere in una long-run loss cioe nel mancare, sul lungo periodo, l ottimizzazione poiche sono state ignorate altre vie che avrebbero permesso, se percorse, di ottenere ricompense piu alte. Questa situazione e del tutto analoga ai rischi di crowding negli algoritmi genetici ed in genere negli approcci evoluzionistici: come abbiamo visto, scegliere sempre e solo i migliori elementi di una popolazione puo far arrivare solo ad ottimi locali, piu in generale tenere lontano da quel che sarebbe una soluzione davvero soddisfacente. L idea di dare fiducia ad opzioni meno promettenti e detta exploring, si esplorano nuove possibilita in grado magari di portare ad un miglioramento drastico. Una strategia non necessariamente ottimale ma indubbiamente valida deve quindi bilanciare le scelte di mosse di sfruttamento ed esplorative. Si hanno varie strategie per la politica di scelta delle azioni e le due famiglie principali sono ([2]): ˆ metodi azione-valore ˆ metodi a comparazione rinforzata 3.1 Action value methods Negli action value methods si ha un approccio prettamente greedy, scegliendo l azione che si ritiene correntemente massimizzante. Trovandoci in un certo stato s definiamo le quantita : ˆ Q(a) = R a (s,s i )+...+R a (s,s j ) A s ossia la ricompensa media di un azione a A s detto valore vero di a ˆ Q t (a) = r r k k ossia la ricompensa media di un azione a A s al tempo t (nel numero di iterazioni da 0 a t escluso l azione e stata scelta k volte determinando feedback complessivo r r k ) detto valore di stima di a Per la legge dei grandi numeri, al tempo t = + varra Q(a) = Q t (a). Il metodo sceglie l azione: a A Q t (a ) = max a (Q t (a)) Una certa attitudine all esplorazione pu essere inserita imponendo che, ogni m iterazioni l azione sia scelta casualmente prescindendo da questa metrica, o che ci sia possibile ad ogni iterazione ma con probabilita molto bassa. Softmax action selection: una variante del metodo che, nella fase esplorativa, 5

6 impedisce che l azione esploratrice sia scelta totalmente a caso. Infatti se e estratta un azione molto vicina all ottimo corrente a l esplorazione e poco significativa, mentre scegliere azioni molto negative pu essere un problema in talune applicazioni. 3.2 Reinforced comparison methods Scegliere l azione che nell immediato risulta migliore e talvolta perturbare come nel metodo valore dell azione non considera il seguente fatto: la ricompensa ricevuta dall azione scelta, che e stata stimata la migliore possibile, quanto ha dato in realta? Ci aspettavamo di piu o di meno ed in generale il feedback ricevuto e soddisfacente? Per potere fare di questi confronti, relativi, poniamo un valore di riferimento: R avg (t) = r r t t cioe una media degli score ottenuti, fino al tempo t corrente. In prima approssimazione, ad un certo tempo t l insieme delle azioni A sara partizionato in azioni sopra, sotto la media e sconosciute, a seconda che l ultima volta che sono state scelte al tempo t hanno determinato un valore sopra, sotto la media R avg (t ) o non sono state ancora scelte. L azione corrente e scelta estraendo casualmente una di quelle sopra la media ed aggiornando score medio e partizioni. Soluzioni molto piu sofisticate definiscono una preferenza per ogni azione, aggiornata in funzione della differenza tra il profitto generato da questa ed il valore medio, ogni volta che viene scelta es.: pref t+1 (a t ) = pref t (a t ) + α(r t R avg (t 1 )) dove a t e l azione in questione, r t il suo rendimento ed α una costante detta di fiducia, positiva. Tale preferenza e a sua volta utilizzata in una funzione che effettivamente sceglie l azione candidata a tra le possibili, e che e, similmente a quelle utilizzate nei metodi softmax, ma anche negli algoritmi genetici per la selezione degli individui da portare avanti in una popolazione, di forma roulette: f (a) = g(a) n i=1 g(a i ) dove g e una funzione di fitness funzione di pref, e l obiettivo e ovviamente massimizzare. Sono certamente possibili strategie in cui entrambi gli approcci si fondono (metodi pursuit). 6

7 4 Funzioni valore Manca ancora un concetto per formalizzare al minimo l approccio rinforzato, quello di value function ([2]). Una funzione di valore mette in relazione uno stato S o ciascuna delle azioni possibili in questo A S con un valore detto ritorno atteso, che definisce quanto sia positivo per l agente trovarsi in un certo stato e compiere le azioni da esso possibili in termini di ricompense. Una funzione di valore e naturalmente vincolata da una certa strategia di policy. Per uno stato s S considerato iniziale ed un evoluzione da questo seguendo la policy π l expected return : V π (s) = E π { + k=0 γk r t+k+1 } dove E π {} e il valore atteso della ricompensa globale, scritta per nella cosiddetta discount form al posto che come semplice sommatoria delle singole, e vale 0 γ 1 La funzione che abbiamo appena definito e uno strumento piu potente per il controllo rispetto che la sommatoria sui feedback r i, poiche il ritorno e, anche se probabilisticamente, completamente definito a partire dallo stato s e dalla policy π, e la formulazione si presta a modellare anche quando lo spazio degli stati, od anche delle azioni possibili, e sconosciuto in parte e la struttura adatta all ambiente non e piu un mdp semplice ma un mdp parzialmente osservabile 5 Implementazione Ora che si hanno a disposizione i concetti/formalismi chiave, e necessario parlare degli algoritmi adattivi che effettivamente permettono questo tipo di apprendimento in modo dinamico, con continui aggiornamenti. In particolare preme capire in ottica iterativa rispetto al tempo discreto t come formulare predizione e controllo: ˆ strutturare la policy evaluation ossia il calcolo della funzione valore sopracitata, su cui si basa il prossimo punto cioe ˆ migliorare eventualmente la politica adottata, policy improvement ovvero studiare, per esempio, come perturbazioni come quelle citate nella sezione di sopra siano effettivamente utili al raggiungimento dello scopo, e nel caso variare di risposta la politica Bisogna dire che la letteratura e abbastanza vasta ed i formalismi utilizzati sono, matematicamente, non poco complessi. 7

8 Le tre grandi categorie di metodi di soluzione sono basati su ([2]): ˆ programmazione dinamica ˆ metodi Monte Carlo ˆ apprendimento TD (temporal difference) Nella PD l assunzione principale e che il modello mdp dell ambiente ricalchi quest ultimo in modo perfetto, sia totalmente fedele, e gli algoritmi si contraddistinguono per chiarezza ma eccessiva richiesta computazionale (specie spaziale). I metodi Monte Carlo sono invece metodi a forte natura probabilistica che non richiedono un modello strettamente preciso e suppliscono alla mancanza di questo attraverso un apprendimento online ad episodi e non a passi t. L approccio TD e invece una via di mezzo e tra i suoi esempi piu celebri e fortunati si ha [3], dove un particolare algoritmo td detto lambda e applicato come sistema di aggiornamento dei pesi di una rete neurale MLP (multi-layer perceptron). Lo spirito e prendere la rete mlp nella sua natura di approssimatore universale di funzione ([4]) per approssimare la funzione di policy evaluation e modellare il policy improvement attraverso un continuo aggiornamento dei pesi della rete, che permettono di modulare l approssimazione stessa. Il funzionamento dell apprendimento e illustrato abbastanza in dettaglio in [3] ed in modo informale ma chiaro in [5]. Consideriamo una rete mlp ad m unita nascoste. Poniamo di volerla allenare con la nota backpropagation, e con un apprendimento in genere supervisionato percio. Allora, a seguito di una qualsiasi mossa data in output dalla rete in una sessione di allenamento, bisognerebbe fornire la mossa effettivamente ottimale per far partire il meccanismo di differenze/errori bp ed affinare la scelta dell agente rete. Il problema e che non e possibile fornire una mossa referenza ottima a priori, dato che, fatta la sua mossa la rete, la sua prossima mossa dovrebbe essere ragionevolmente vincolata dalla reazione dell ambiente, l avversario. Sarebbe quindi necessaria in teoria una bp per cosi dire diluita sull orizzonte temporale che, emessa la mossa t permetta di valutare/riconsiderare la bonta di tutte le precedenti, e per fare cio e proprio utilizzato l algoritmo TD(λ): ˆ una sessione singola di allenamento consiste nel dare in input una sequenza di vettori X =< x 1,..., x n > dove X e una partita intera composta da n mani ed x t = (x t1,..., x tk ) la configurazione del tavolo alla mano t-esima (es. disposizione pedine sul tavolo). 8

9 ˆ un vettore di output y = f (x) e emesso per ogni input, e questo output rappresenta la ricompensa attesa totale a partire dallo stato input, ossia fino ad uno stato terminale (es. pareggio) come distribuzione di probabilita discreta sui possibili casi. ˆ dopo ogni output y ha luogo l aggiornamento dei pesi di rete, secondo una formula che, per completezza, e : w t+1 = w t + α(y t+1 y t ) t k=1 λt k wt [y k ] ˆ all ultima iterazione la differenza y t+1 y t e definita tra il risultato effettivo della partita e l ultima predizione della rete. La formula del terzo punto aggiorna il vettore pesi w di tutta la rete parallelamente se w = ((w 11,..., w 1j ),..., (w i1,..., w ij )) di consegnuenza w contiene i pesi di tutti i neuroni (si puo formulare analogamente concentrandosi sull aggiornamento di un solo neurone). α e una costante in (0, 1 ) detta costante di apprendimento mentre wt [y k ] e il gradiente dell output di rete y k determinato dal set di pesi w t. λ (0, 1) e invece un parametro caratterizzante dell algoritmo, che controlla quanto si imputi un feedback ricevuto ad azioni lontane dalla corrente: per λ 1 il sistema ha buona memoria, mentre per λ 0 il merito/demerito e localizzato. La rete deve essere certamente modellata in modo da avere una minima conoscenza pregressa, non in termini di strategie di gioco impartite a priori, ma di mosse lecite (le azioni possibili da uno stato che portino ad uno stato valido), stati terminali (fine gioco) e simili. Gli input di allenamento possono essere generati esternamente, o si puo anche fare in modo che la rete giochi da sola avendo una parte dell architettura destinata a dare input casuali (in quest ottica potrebbe essere piu comoda una rete ricorrente piuttosto che una aciclica/feedforward). Una volta allenata si suppone che il sistema di pesi metta la rete in condizione di portarsi, ad ogni mossa, in una situazione che massimizzi il valore atteso di vittoria, semplicemente di sceglier la mossa migliore dati i vincoli di sopra. In [3] sono presentati i risultati del non banale esperimento, ed il confronto tra TD-Gammon e Neurogammon, una rete neurale allo stesso scopo ma allenata attraverso paradigma supervisionato con mosse ottimali suggerite da un pool di giocatori di backgammon esperti: tali risultati sono molto buoni, il livello raggiunto dall agente e medio-alto, ed un contesto di IA pura ha permesso, attraverso l esplorazione, di validare tattiche assodate, scartarne di altrettanto e scoprirne nuove, eventualmente anche adottate nei circoli professionistici. 9

10 6 Spunti sulla modellazione MDP del gioco di carte UNO In questa sezione espongo qualche semplice idea riguardo una possibile modellazione del gioco di carte UNO in ambiente mdp. Anche nell esempio di sopra, l ambiente puo trovare una sua modellazione mdp, che l autore non ha esposto forse perche non gli e parsa necessaria per l illustrazione dello schema di risoluzione, ma essendo comunque un importante fondamento teorico invece di studiarla a posteriori per un problema tutto sommato gia risolto come illustrato forniamo un caso nuovo. Concentriamoci su di una modalita a due giocatori ovviamente non-cooperativa: posto il nostro agente come uno dei due, l ambiente con cui deve fare i conti e incarnato dall avversario, dall ultima carta scartata e dal mazzo corrente. In UNO il mazzo e composto da quattro sotto-mazzi di colori diversi, rosso, verde, blu e giallo con carte numerate da 0 a 9, due carte numerate per sottomazzo eccetto per lo 0 che e singolo, sei carte azione speciali di tre tipi, inverti giro, salta turno, pesca 2; ai quattro sotto-mazzi cosi organizzati si aggiungono otto carte di due tipi, cambia colore e cambia colore con pesca 4. Ogni giocatore parte con sette carte estratte a caso ed un ulteriore carta e pescata e messa faccia su sul tavolo con il ruolo di primo elemento della pila. L obiettivo del giocatore per la vittoria e scartare tutte le carte che ha in mano attaccandole sulla pila pescando una carta quando non gli sia possibile, e facendo i conti con i disturbi dagli altri giocatori, portati attraverso le carte speciali. L intero mazzo e partizionabile con partizioni sovrapposte per formalizzare la relazione y x sse la testa della pila e la carta x, e la carta y puo lecitamente essere scartata su x e diventare la nuova testa della pila. I fatti sono abbastanza banali. Nell insieme mazzo X siano: ˆ c i una carta standard di colore c {r, g, b, y} con i {0,..., 9 } ˆ c j una carta speciale di colore c {r, g, b, y} con j {a, b, c} ˆ w j e w j una carta cambio colore ed una cambio colore piu 4 rispettivamente a colore dichiarato j {r, g, b, y} Allora la carta y puo essere scartata sulla pila x secondo questa casistica: 1. se y = c l e x = c m l, m {0,..., 9 } (stesso colore) 2. se y = u i e x = v i u, v {r, g, b, y} (stesso numero) 3. se y = c i con c {r, g, b, y}, i {0,..., 9 } e x = w c (generica su wild 1) 4. se y = c i con c {r, g, b, y}, i {0,..., 9 } e x = w c (generica su wild 2) 5. se y = w j e x X (wild 1 va sempre) 10

11 6. se y = w j e x X (wild 2 va sempre) Ci importa ora definire la quadrupla (S,A,P(.,.),R(.,.)): ˆ S =< T 0,..., T k > con S = {T 0 } dove T i e lo stato in cui il giocatore ha i carte in mano. In single-player k 108 poiche ragionevolmente se anche la configurazione iniziale T 7 =< y 1,..., y 7 > con y i X e altamente incompatibile con la pila e per un numero alto di volte il giocatore deve continuare a pescare da un mazzo sfortunato che non migliora minimamente la compatibilita, arrivera un momento in cui, trovando le carte le carte wild, il giocatore potra scendere. In two-player come nel nostro caso deve valere nel caso peggiore altrettanto poiche se tutte le carte fossero in mano ad un giocatore l altro non ne avrebbe a partita ancora aperta e sarebbe nello stato finale di vittoria a partita ancora in corso, il che e assurdo. ˆ Mi pare opportuno distinguere tra azioni attive e passive, cioe fatte o subite, in un certo stato verso un altro. In un qualsiasi stato tranne T 0, dove non e possibile alcuna azione se non l azione vuota, l azione attiva sempre lecita e pescare, mentre e possibile scartare solo se si ha una carta compatibile (in T 1 e possibile anche dichiarare Uno!). Sia q la carta pila corrente; l insieme delle attive: A 1 = S A 1i, dove {} se i = T 0 {u, p, s} se i = T 1 e y T 1 : y q A 1i = {u, p} se i = T 1 e y T 1 : y q {p, s} se i = T j e y T j : y q {p} se i = T j e y T j : y q Le azioni passive sono invece quelle che determinano un cambio di stato ma non dipendono da azioni dirette del giocatore: in pratica, quando subiamo delle carte speciali dall avversario. Qualsiasi numero di carte l agente abbia in mano, l avversario puo sempre dargliene di nuove (se ne ha la possibilita con le apposite carte certo), 2 o 4 in piu a seconda della carta che questo usa. Se si e in stato finale, nulla e subibile; altrimenti: A 2 = S S A 2i dove A 2i = {+ 2, + 4 } L insieme di tutte le possibili azioni e quindi A = A 1 A2 ˆ Le probabilita sono contabili come nella stragrande maggioranza dei giochi, ma essendo troppe le possibilita, come nel backgammon, un approccio con lookup table puo essere infattibile, ed inoltre il comportamento dell avversario in termini di aggressivita e un fattore determinante. Per esempio potrebbe darsi che le azioni subite aumentino di frequenza all avvicinarsi 11

12 l agente ad uno stato finale. Sia l agente in un generico stato T i con i 0, 1 in condizione di subire un azione (il turno dell opponente) e tutte le carte +4 non siano ancora uscite. Potremmo pensare che: S +4 (T i, T i+4 ) = Pr(s t+1 = T i+4 s t = T i, a t = + 4 ) 1 per i 0 E chiaro che dinamiche del genere od anche molto piu complesse non possono essere definite a priori, e da cio nuovamente segue l opportunita di strutturare l agente come una rete magari TD(lambda): l aggressivita potrebbe ripresentarsi o meno in ognuna delle molte sessioni di allenamento previste, e la policy da sviluppare dovrebbe comportarsi discretamente nella maggior parte dei casi in funzione di questa ed altre peculiarita. ˆ I reward sono semplicemente dei naturali corrispondenti all effetto dell azione in termini di scarto/acquisizione carte oppure del passaggio da uno stato all altro: se ad esempio e subita l azione + 4 si avra un feedback negativo r +4 = +4, se si passa dallo stato T 1 allo stato T 0 scartando il feedback sara positivo, r s = 1 ecc ˆ L obiettivo allorae ancora massimizzare la ricompensa, ma siccome valori positivi sono negativi (si pesca) e viceversa, si ha: min( n i=1 r i) 7 Conclusioni Una rete neurale ha bisogno di essere istruita a calcolare una certa funzione o piu in generale a svolgere un certo compito, e tra i modi possibili abbiamo isolato l apprendimento rinforzato, dove la rete impara attraverso un processo iterativo azione-feedback con un ambiente esterno. Esiste un ampia gamma di problemi nel dominio dell intelligenza artificiale ma non solo che puo essere vista come caratterizzata dalla necessita di volere ottenere il massimo possibile, in termini di feedback, da un ambiente mediante fasi successive d interazione con questo, e che sono quindi adatti ad un approccio rinforzato in genere, anche con reti neurali quindi. Il supporto formale ci viene dai processi di decisione di Markov, dove ci concentriamo sugli stati previsti del sistema, le azioni che l agente fa per cambiarli e la ricompensa/punizione loro associata. Discutiamo un caso applicativo di successo del binomio apprendimento rinforzatorete neurale, un agente giocatore di livello nel backgammon, prescindendo dal 12

13 formalismo mdp, cosi come dualmente alcune idee per la modellazione mdp del gioco di carte UNO senza addentrarci nell implementazione. Riferimenti [1] Eugene A. Feinberg, Adam Shwartz et al, Handbook of Markov decision processes: methods and applications, 2002 [2] Richard S. Sutton, Andrew G. Barto, Reinforcement Learning: An Introduction, 1998 [3] G. Tesauro, Temporal Difference Learning and TD-Gammon, 1995 [4] G. Cybenko, Approximations by superpositions of sigmoidal functions, 1989 [5] D. Subramanian, D. Peixotto, A. Youssefi, Programming assignment 4 in Comp440, Rice University,

Regole del gioco UNO CONTENUTO DELLA CONFEZIONE: 108 Carte così distribuite: 19 Carte di colore Rosso che vanno dallo 0 al 9

Regole del gioco UNO CONTENUTO DELLA CONFEZIONE: 108 Carte così distribuite: 19 Carte di colore Rosso che vanno dallo 0 al 9 Regole del gioco UNO CONTENUTO DELLA CONFEZIONE: 108 Carte così distribuite: 19 Carte di colore Rosso che vanno dallo 0 al 9 19 Carte di colore Blu che vanno dallo 0 al 9 19 Carte di colore Giallo che

Dettagli

Pro e contro delle RNA

Pro e contro delle RNA Pro e contro delle RNA Pro: - flessibilità: le RNA sono approssimatori universali; - aggiornabilità sequenziale: la stima dei pesi della rete può essere aggiornata man mano che arriva nuova informazione;

Dettagli

da 2 a 5 giocatori, dai 10 anni in su, durata 30 minuti

da 2 a 5 giocatori, dai 10 anni in su, durata 30 minuti da 2 a 5 giocatori, dai 10 anni in su, durata 30 minuti OBIETTIVO Il vincitore è colui che, dopo due round di gioco, delle sue 11 ordinazioni, ne ha consegnate il maggior numero. CONTENUTO DELLA SCATOLA

Dettagli

Automazione Industriale (scheduling+mms) scheduling+mms. adacher@dia.uniroma3.it

Automazione Industriale (scheduling+mms) scheduling+mms. adacher@dia.uniroma3.it Automazione Industriale (scheduling+mms) scheduling+mms adacher@dia.uniroma3.it Introduzione Sistemi e Modelli Lo studio e l analisi di sistemi tramite una rappresentazione astratta o una sua formalizzazione

Dettagli

Calcolo delle probabilità

Calcolo delle probabilità Calcolo delle probabilità Laboratorio di Bioinformatica Corso A aa 2005-2006 Statistica Dai risultati di un esperimento si determinano alcune caratteristiche della popolazione Calcolo delle probabilità

Dettagli

Capitolo 13: L offerta dell impresa e il surplus del produttore

Capitolo 13: L offerta dell impresa e il surplus del produttore Capitolo 13: L offerta dell impresa e il surplus del produttore 13.1: Introduzione L analisi dei due capitoli precedenti ha fornito tutti i concetti necessari per affrontare l argomento di questo capitolo:

Dettagli

Regressione non lineare con un modello neurale feedforward

Regressione non lineare con un modello neurale feedforward Reti Neurali Artificiali per lo studio del mercato Università degli studi di Brescia - Dipartimento di metodi quantitativi Marco Sandri (sandri.marco@gmail.com) Regressione non lineare con un modello neurale

Dettagli

Siamo così arrivati all aritmetica modulare, ma anche a individuare alcuni aspetti di come funziona l aritmetica del calcolatore come vedremo.

Siamo così arrivati all aritmetica modulare, ma anche a individuare alcuni aspetti di come funziona l aritmetica del calcolatore come vedremo. DALLE PESATE ALL ARITMETICA FINITA IN BASE 2 Si è trovato, partendo da un problema concreto, che con la base 2, utilizzando alcune potenze della base, operando con solo addizioni, posso ottenere tutti

Dettagli

Rapporto dal Questionari Insegnanti

Rapporto dal Questionari Insegnanti Rapporto dal Questionari Insegnanti SCUOLA CHIC81400N N. Docenti che hanno compilato il questionario: 60 Anno Scolastico 2014/15 Le Aree Indagate Il Questionario Insegnanti ha l obiettivo di rilevare la

Dettagli

f(x) = 1 x. Il dominio di questa funzione è il sottoinsieme proprio di R dato da

f(x) = 1 x. Il dominio di questa funzione è il sottoinsieme proprio di R dato da Data una funzione reale f di variabile reale x, definita su un sottoinsieme proprio D f di R (con questo voglio dire che il dominio di f è un sottoinsieme di R che non coincide con tutto R), ci si chiede

Dettagli

Probabilità discreta

Probabilità discreta Probabilità discreta Daniele A. Gewurz 1 Che probabilità c è che succeda...? Una delle applicazioni della combinatoria è nel calcolo di probabilità discrete. Quando abbiamo a che fare con un fenomeno che

Dettagli

1 Giochi a due, con informazione perfetta e somma zero

1 Giochi a due, con informazione perfetta e somma zero 1 Giochi a due, con informazione perfetta e somma zero Nel gioco del Nim, se semplificato all estremo, ci sono due giocatori I, II e una pila di 6 pedine identiche In ogni turno di gioco I rimuove una

Dettagli

Ottimizzazione Multi Obiettivo

Ottimizzazione Multi Obiettivo Ottimizzazione Multi Obiettivo 1 Ottimizzazione Multi Obiettivo I problemi affrontati fino ad ora erano caratterizzati da una unica (e ben definita) funzione obiettivo. I problemi di ottimizzazione reali

Dettagli

OSSERVAZIONI TEORICHE Lezione n. 4

OSSERVAZIONI TEORICHE Lezione n. 4 OSSERVAZIONI TEORICHE Lezione n. 4 Finalità: Sistematizzare concetti e definizioni. Verificare l apprendimento. Metodo: Lettura delle OSSERVAZIONI e risoluzione della scheda di verifica delle conoscenze

Dettagli

Calcolo del Valore Attuale Netto (VAN)

Calcolo del Valore Attuale Netto (VAN) Calcolo del Valore Attuale Netto (VAN) Il calcolo del valore attuale netto (VAN) serve per determinare la redditività di un investimento. Si tratta di utilizzare un procedimento che può consentirci di

Dettagli

Fondamenti e didattica di Matematica Finanziaria

Fondamenti e didattica di Matematica Finanziaria Fondamenti e didattica di Matematica Finanziaria Silvana Stefani Piazza dell Ateneo Nuovo 1-20126 MILANO U6-368 silvana.stefani@unimib.it 1 Unità 9 Contenuti della lezione Operazioni finanziarie, criterio

Dettagli

Il principio di induzione e i numeri naturali.

Il principio di induzione e i numeri naturali. Il principio di induzione e i numeri naturali. Il principio di induzione è un potente strumento di dimostrazione, al quale si ricorre ogni volta che si debba dimostrare una proprietà in un numero infinito

Dettagli

LE SUCCESSIONI 1. COS E UNA SUCCESSIONE

LE SUCCESSIONI 1. COS E UNA SUCCESSIONE LE SUCCESSIONI 1. COS E UNA SUCCESSIONE La sequenza costituisce un esempio di SUCCESSIONE. Ecco un altro esempio di successione: Una successione è dunque una sequenza infinita di numeri reali (ma potrebbe

Dettagli

Politecnico di Milano Facoltà di Ingegneria dell Informazione AGENTI AUTONOMI E SISTEMI MULTIAGENTE Appello COGNOME E NOME

Politecnico di Milano Facoltà di Ingegneria dell Informazione AGENTI AUTONOMI E SISTEMI MULTIAGENTE Appello COGNOME E NOME Politecnico di Milano Facoltà di Ingegneria dell Informazione AGENTI AUTONOMI E SISTEMI MULTIAGENTE Appello COGNOME E NOME 5 luglio 2006 RIGA COLONNA MATRICOLA Il presente plico pinzato, composto di quattro

Dettagli

LA MASSIMIZZAZIONE DEL PROFITTO ATTRAVERSO LA FISSAZIONE DEL PREZZO IN FUNZIONE DELLE QUANTITÀ

LA MASSIMIZZAZIONE DEL PROFITTO ATTRAVERSO LA FISSAZIONE DEL PREZZO IN FUNZIONE DELLE QUANTITÀ LA MASSIMIZZAZIONE DEL PROFITTO ATTRAVERSO LA FISSAZIONE DEL PREZZO IN FUNZIONE DELLE QUANTITÀ In questa Appendice mostreremo come trovare la tariffa in due parti che massimizza i profitti di Clearvoice,

Dettagli

Parte I. Prima Parte

Parte I. Prima Parte Parte I Prima Parte Capitolo 1 Introduzione generale 1.1 Il problema dell assegnazione Corsi-Borsisti Il problema dell assegnazione delle borse dei corsi ai vari studenti può essere riassunto nei punti

Dettagli

Capitolo 2. Operazione di limite

Capitolo 2. Operazione di limite Capitolo 2 Operazione di ite In questo capitolo vogliamo occuparci dell operazione di ite, strumento indispensabile per scoprire molte proprietà delle funzioni. D ora in avanti riguarderemo i domini A

Dettagli

IL RISCHIO DI INVESTIRE IN AZIONI DIMINUISCE CON IL PASSARE DEL TEMPO?

IL RISCHIO DI INVESTIRE IN AZIONI DIMINUISCE CON IL PASSARE DEL TEMPO? IL RISCHIO DI INVESTIRE IN AZIONI DIMINUISCE CON IL PASSARE DEL TEMPO? Versione preliminare: 1 Agosto 28 Nicola Zanella E-mail: n.zanella@yahoo.it ABSTRACT I seguenti grafici riguardano il rischio di investire

Dettagli

Sommario. Definizione di informatica. Definizione di un calcolatore come esecutore. Gli algoritmi.

Sommario. Definizione di informatica. Definizione di un calcolatore come esecutore. Gli algoritmi. Algoritmi 1 Sommario Definizione di informatica. Definizione di un calcolatore come esecutore. Gli algoritmi. 2 Informatica Nome Informatica=informazione+automatica. Definizione Scienza che si occupa dell

Dettagli

Statistica e biometria. D. Bertacchi. Variabili aleatorie. V.a. discrete e continue. La densità di una v.a. discreta. Esempi.

Statistica e biometria. D. Bertacchi. Variabili aleatorie. V.a. discrete e continue. La densità di una v.a. discreta. Esempi. Iniziamo con definizione (capiremo fra poco la sua utilità): DEFINIZIONE DI VARIABILE ALEATORIA Una variabile aleatoria (in breve v.a.) X è funzione che ha come dominio Ω e come codominio R. In formule:

Dettagli

risulta (x) = 1 se x < 0.

risulta (x) = 1 se x < 0. Questo file si pone come obiettivo quello di mostrarvi come lo studio di una funzione reale di una variabile reale, nella cui espressione compare un qualche valore assoluto, possa essere svolto senza necessariamente

Dettagli

LA DISTRIBUZIONE DI PROBABILITÀ DEI RITORNI AZIONARI FUTURI SARÀ LA MEDESIMA DEL PASSATO?

LA DISTRIBUZIONE DI PROBABILITÀ DEI RITORNI AZIONARI FUTURI SARÀ LA MEDESIMA DEL PASSATO? LA DISTRIBUZIONE DI PROBABILITÀ DEI RITORNI AZIONARI FUTURI SARÀ LA MEDESIMA DEL PASSATO? Versione preliminare: 25 Settembre 2008 Nicola Zanella E-Mail: n.zanella@yahoo.it ABSTRACT In questa ricerca ho

Dettagli

e-dva - eni-depth Velocity Analysis

e-dva - eni-depth Velocity Analysis Lo scopo dell Analisi di Velocità di Migrazione (MVA) è quello di ottenere un modello della velocità nel sottosuolo che abbia dei tempi di riflessione compatibili con quelli osservati nei dati. Ciò significa

Dettagli

Teoria dei Giochi. Anna Torre

Teoria dei Giochi. Anna Torre Teoria dei Giochi Anna Torre Almo Collegio Borromeo 9 marzo 2010 email: anna.torre@unipv.it sito web del corso:www-dimat.unipv.it/atorre/borromeo2010.html TEOREMI DI ESISTENZA TEOREMI DI ESISTENZA Teorema

Dettagli

Progettaz. e sviluppo Data Base

Progettaz. e sviluppo Data Base Progettaz. e sviluppo Data Base! Progettazione Basi Dati: Metodologie e modelli!modello Entita -Relazione Progettazione Base Dati Introduzione alla Progettazione: Il ciclo di vita di un Sist. Informativo

Dettagli

Ai fini economici i costi di un impresa sono distinti principalmente in due gruppi: costi fissi e costi variabili. Vale ovviamente la relazione:

Ai fini economici i costi di un impresa sono distinti principalmente in due gruppi: costi fissi e costi variabili. Vale ovviamente la relazione: 1 Lastoriadiun impresa Il Signor Isacco, che ormai conosciamo per il suo consumo di caviale, decide di intraprendere l attività di produttore di caviale! (Vuole essere sicuro della qualità del caviale

Dettagli

Effetto reddito ed effetto sostituzione.

Effetto reddito ed effetto sostituzione. . Indice.. 1 1. Effetto sostituzione di Slutsky. 3 2. Effetto reddito. 6 3. Effetto complessivo. 7 II . Si consideri un consumatore che può scegliere panieri (x 1 ; ) composti da due soli beni (il bene

Dettagli

Computational Game Theory

Computational Game Theory Computational Game Theory Vincenzo Bonifaci 24 maggio 2012 5 Regret Minimization Consideriamo uno scenario in cui un agente deve selezionare, più volte nel tempo, una decisione tra un insieme di N disponibili:

Dettagli

Pinella Singolo ASC-CAAM 2013/14

Pinella Singolo ASC-CAAM 2013/14 Pinella Singolo ASC-CAAM 2013/14 Vedi Calendario Premi del campionato ( si svolge in 4/5 tappe di qualificazione ) : > Trofei per i primi nr 4 ( quattro ) > Ai prmi due omaggio pernottamento in residence

Dettagli

CALCOLO COMBINATORIO

CALCOLO COMBINATORIO CALCOLO COMBINATORIO 1 Modi di formare gruppi di k oggetti presi da n dati 11 disposizioni semplici, permutazioni Dati n oggetti distinti a 1,, a n si chiamano disposizioni semplici di questi oggetti,

Dettagli

Test statistici di verifica di ipotesi

Test statistici di verifica di ipotesi Test e verifica di ipotesi Test e verifica di ipotesi Il test delle ipotesi consente di verificare se, e quanto, una determinata ipotesi (di carattere biologico, medico, economico,...) è supportata dall

Dettagli

Dimensione di uno Spazio vettoriale

Dimensione di uno Spazio vettoriale Capitolo 4 Dimensione di uno Spazio vettoriale 4.1 Introduzione Dedichiamo questo capitolo ad un concetto fondamentale in algebra lineare: la dimensione di uno spazio vettoriale. Daremo una definizione

Dettagli

Teoria dei Giochi. Anna Torre

Teoria dei Giochi. Anna Torre Teoria dei Giochi Anna Torre Almo Collegio Borromeo 14 marzo 2013 email: anna.torre@unipv.it sito web del corso:www-dimat.unipv.it/atorre/borromeo2013.html IL PARI O DISPARI I II S T S (-1, 1) (1, -1)

Dettagli

Analisi e diagramma di Pareto

Analisi e diagramma di Pareto Analisi e diagramma di Pareto L'analisi di Pareto è una metodologia statistica utilizzata per individuare i problemi più rilevanti nella situazione in esame e quindi le priorità di intervento. L'obiettivo

Dettagli

Esercizio 1 Dato il gioco ({1, 2, 3}, v) con v funzione caratteristica tale che:

Esercizio 1 Dato il gioco ({1, 2, 3}, v) con v funzione caratteristica tale che: Teoria dei Giochi, Trento, 2004/05 c Fioravante Patrone 1 Teoria dei Giochi Corso di laurea specialistica: Decisioni economiche, impresa e responsabilità sociale, A.A. 2004/05 Soluzioni degli esercizi

Dettagli

Matematica generale CTF

Matematica generale CTF Successioni numeriche 19 agosto 2015 Definizione di successione Monotonìa e limitatezza Forme indeterminate Successioni infinitesime Comportamento asintotico Criterio del rapporto per le successioni Definizione

Dettagli

VINCERE AL BLACKJACK

VINCERE AL BLACKJACK VINCERE AL BLACKJACK Il BlackJack è un gioco di abilità e fortuna in cui il banco non può nulla, deve seguire incondizionatamente le regole del gioco. Il giocatore è invece posto continuamente di fronte

Dettagli

UNA LEZIONE SUI NUMERI PRIMI: NASCE LA RITABELLA

UNA LEZIONE SUI NUMERI PRIMI: NASCE LA RITABELLA UNA LEZIONE SUI NUMERI PRIMI: NASCE LA RITABELLA Tutti gli anni, affrontando l argomento della divisibilità, trovavo utile far lavorare gli alunni sul Crivello di Eratostene. Presentavo ai ragazzi una

Dettagli

Che cos è l intelligenza e come funzionano i test del Q.I.

Che cos è l intelligenza e come funzionano i test del Q.I. Che cos è l intelligenza e come funzionano i test del Q.I. Non esiste, al giorno d oggi, un parere unanime della comunità scientifica sulla definizione di intelligenza. In generale, potremmo dire che è

Dettagli

Project Cycle Management La programmazione della fase di progettazione esecutiva. La condivisione dell idea progettuale.

Project Cycle Management La programmazione della fase di progettazione esecutiva. La condivisione dell idea progettuale. Project Cycle Management La programmazione della fase di progettazione esecutiva. La condivisione dell idea progettuale. Il presente materiale didattico costituisce parte integrante del percorso formativo

Dettagli

Amplificatori Audio di Potenza

Amplificatori Audio di Potenza Amplificatori Audio di Potenza Un amplificatore, semplificando al massimo, può essere visto come un oggetto in grado di aumentare il livello di un segnale. Ha quindi, generalmente, due porte: un ingresso

Dettagli

VALORE DELLE MERCI SEQUESTRATE

VALORE DELLE MERCI SEQUESTRATE La contraffazione in cifre: NUOVA METODOLOGIA PER LA STIMA DEL VALORE DELLE MERCI SEQUESTRATE Roma, Giugno 2013 Giugno 2013-1 Il valore economico dei sequestri In questo Focus si approfondiscono alcune

Dettagli

Elementi di Psicometria con Laboratorio di SPSS 1

Elementi di Psicometria con Laboratorio di SPSS 1 Elementi di Psicometria con Laboratorio di SPSS 1 29-Analisi della potenza statistica vers. 1.0 (12 dicembre 2014) Germano Rossi 1 germano.rossi@unimib.it 1 Dipartimento di Psicologia, Università di Milano-Bicocca

Dettagli

Informatica 3. Informatica 3. LEZIONE 10: Introduzione agli algoritmi e alle strutture dati. Lezione 10 - Modulo 1. Importanza delle strutture dati

Informatica 3. Informatica 3. LEZIONE 10: Introduzione agli algoritmi e alle strutture dati. Lezione 10 - Modulo 1. Importanza delle strutture dati Informatica 3 Informatica 3 LEZIONE 10: Introduzione agli algoritmi e alle strutture dati Modulo 1: Perchè studiare algoritmi e strutture dati Modulo 2: Definizioni di base Lezione 10 - Modulo 1 Perchè

Dettagli

Protocollo di tracciamento e valutazione degli studenti dei corsi di italiano ICoNLingua A.A. 2013-2014

Protocollo di tracciamento e valutazione degli studenti dei corsi di italiano ICoNLingua A.A. 2013-2014 Progetto ICoNLingua Scienza senza Frontiere CsF- Italia Protocollo di tracciamento e valutazione degli studenti dei corsi di italiano ICoNLingua A.A. 2013-2014 1. Introduzione La valutazione sia in itinere

Dettagli

Obiettivo del gioco. Contenuto del gioco: Dedico questo gioco alle mie sorelle Ilona, Kasia e Mariola. Adam Kałuża

Obiettivo del gioco. Contenuto del gioco: Dedico questo gioco alle mie sorelle Ilona, Kasia e Mariola. Adam Kałuża autore: Adam Kałuża IlLustrazioni: Piotr Socha i s t r u z i o n i un gioco per 2-4 giocatori Durata di una partita circa 30 minuti Dai 7 anni in su Contenuto del gioco: tabellone 120 tessere granchio

Dettagli

Equilibrio bayesiano perfetto. Giochi di segnalazione

Equilibrio bayesiano perfetto. Giochi di segnalazione Equilibrio bayesiano perfetto. Giochi di segnalazione Appunti a cura di Stefano Moretti, Silvia VILLA e Fioravante PATRONE versione del 26 maggio 2006 Indice 1 Equilibrio bayesiano perfetto 2 2 Giochi

Dettagli

INTRODUZIONE AI CICLI

INTRODUZIONE AI CICLI www.previsioniborsa.net INTRODUZIONE AI CICLI _COSA SONO E A COSA SERVONO I CICLI DI BORSA. Partiamo dalla definizione di ciclo economico visto l argomento che andremo a trattare. Che cos è un ciclo economico?

Dettagli

Corrispondenze e funzioni

Corrispondenze e funzioni Corrispondenze e funzioni L attività fondamentale della mente umana consiste nello stabilire corrispondenze e relazioni tra oggetti; è anche per questo motivo che il concetto di corrispondenza è uno dei

Dettagli

~ Copyright Ripetizionando - All rights reserved ~ http://ripetizionando.wordpress.com STUDIO DI FUNZIONE

~ Copyright Ripetizionando - All rights reserved ~ http://ripetizionando.wordpress.com STUDIO DI FUNZIONE STUDIO DI FUNZIONE Passaggi fondamentali Per effettuare uno studio di funzione completo, che non lascia quindi margine a una quasi sicuramente errata inventiva, sono necessari i seguenti 7 passaggi: 1.

Dettagli

Come creare il test di Yasso tramite l applicazione Training Center

Come creare il test di Yasso tramite l applicazione Training Center Come creare il test di Yasso tramite l applicazione Training Center A differenza degli altri test pubblicati da Garmin, il test di Yasso necessita di un approfondimento. Il test di Yasso è un test molto

Dettagli

Politica Economica Istituzioni e Efficienza

Politica Economica Istituzioni e Efficienza Politica Economica Istituzioni e Efficienza 2 Introduzione al concetto di Istituzioni Le istituzioni riducono il tasso di incertezza creando delle regolarità nella vita di tutti i giorni. Sono una guida

Dettagli

Traduzione e adattamento a cura di Gylas per Giochi Rari

Traduzione e adattamento a cura di Gylas per Giochi Rari Traduzione e adattamento a cura di Gylas per Giochi Rari Versione 1.0 Luglio 2001 NOTA. La presente traduzione non sostituisce in alcun modo il regolamento originale del gioco; il presente documento è

Dettagli

Segui passo passo le istruzioni e potrai giocare le tue sfide online. Puoi già capirlo, è facile, divertente e eccitante.

Segui passo passo le istruzioni e potrai giocare le tue sfide online. Puoi già capirlo, è facile, divertente e eccitante. COME GIOCARE ONLINE? Segui passo passo le istruzioni e potrai giocare le tue sfide online. Puoi già capirlo, è facile, divertente e eccitante. 0. PERSONALIZZA IL TUO AVATAR Puoi accedere a tutte le sezioni

Dettagli

Ufficio Scolastico Regionale per l Abruzzo. Rapporto dal Questionari Studenti

Ufficio Scolastico Regionale per l Abruzzo. Rapporto dal Questionari Studenti Rapporto dal Questionari Studenti SCUOLA xxxxxxxxx Anno Scolastico 2014/15 Le Aree Indagate Il questionario studenti ha lo scopo di indagare alcuni aspetti considerati rilevanti per assicurare il benessere

Dettagli

Esercizi su. Funzioni

Esercizi su. Funzioni Esercizi su Funzioni ๒ Varie Tracce extra Sul sito del corso ๓ Esercizi funz_max.cc funz_fattoriale.cc ๔ Documentazione Il codice va documentato (commentato) Leggibilità Riduzione degli errori Manutenibilità

Dettagli

Logica Numerica Approfondimento 1. Minimo Comune Multiplo e Massimo Comun Divisore. Il concetto di multiplo e di divisore. Il Minimo Comune Multiplo

Logica Numerica Approfondimento 1. Minimo Comune Multiplo e Massimo Comun Divisore. Il concetto di multiplo e di divisore. Il Minimo Comune Multiplo Logica Numerica Approfondimento E. Barbuto Minimo Comune Multiplo e Massimo Comun Divisore Il concetto di multiplo e di divisore Considerato un numero intero n, se esso viene moltiplicato per un numero

Dettagli

INTEGRATORE E DERIVATORE REALI

INTEGRATORE E DERIVATORE REALI INTEGRATORE E DERIVATORE REALI -Schemi elettrici: Integratore reale : C1 R2 vi (t) R1 vu (t) Derivatore reale : R2 vi (t) R1 C1 vu (t) Elenco componenti utilizzati : - 1 resistenza da 3,3kΩ - 1 resistenza

Dettagli

Traduzione e adattamento a cura di Gylas per Giochi Rari Versione 1.0 Luglio 2001. http://giochirari.it e-mail: giochirari@giochirari.

Traduzione e adattamento a cura di Gylas per Giochi Rari Versione 1.0 Luglio 2001. http://giochirari.it e-mail: giochirari@giochirari. Traduzione e adattamento a cura di Gylas per Giochi Rari Versione 1.0 Luglio 2001 http://giochirari.it e-mail: giochirari@giochirari.it NOTA. La presente traduzione non sostituisce in alcun modo il regolamento

Dettagli

Introduzione agli Algoritmi Genetici Prof. Beatrice Lazzerini

Introduzione agli Algoritmi Genetici Prof. Beatrice Lazzerini Introduzione agli Algoritmi Genetici Prof. Beatrice Lazzerini Dipartimento di Ingegneria della Informazione Via Diotisalvi, 2 56122 PISA ALGORITMI GENETICI (GA) Sono usati per risolvere problemi di ricerca

Dettagli

Lezioni di Matematica 1 - I modulo

Lezioni di Matematica 1 - I modulo Lezioni di Matematica 1 - I modulo Luciano Battaia 16 ottobre 2008 Luciano Battaia - http://www.batmath.it Matematica 1 - I modulo. Lezione del 16/10/2008 1 / 13 L introduzione dei numeri reali si può

Dettagli

Analisi dei Dati 12/13 Esercizi proposti 3 soluzioni

Analisi dei Dati 12/13 Esercizi proposti 3 soluzioni Analisi dei Dati 1/13 Esercizi proposti 3 soluzioni 0.1 Un urna contiene 6 palline rosse e 8 palline nere. Si estraggono simultaneamente due palline. Qual è la probabilità di estrarle entrambe rosse? (6

Dettagli

Algoritmi e Strutture Dati II: Parte B Anno Accademico 2004-2005. Lezione 11

Algoritmi e Strutture Dati II: Parte B Anno Accademico 2004-2005. Lezione 11 Algoritmi e Strutture Dati II: Parte B Anno Accademico 2004-2005 Docente: Ugo Vaccaro Lezione 11 In questa lezione vedremo alcune applicazioni della tecnica greedy al progetto di algoritmi on-line. Vediamo

Dettagli

Per poter affrontare il problema abbiamo bisogno di parlare di probabilità (almeno in maniera intuitiva). Analizziamo alcune situazioni concrete.

Per poter affrontare il problema abbiamo bisogno di parlare di probabilità (almeno in maniera intuitiva). Analizziamo alcune situazioni concrete. Parliamo di probabilità. Supponiamo di avere un sacchetto con dentro una pallina rossa; posso aggiungere tante palline bianche quante voglio, per ogni pallina bianca che aggiungo devo pagare però un prezzo

Dettagli

Lezione 1 Introduzione

Lezione 1 Introduzione Lezione 1 Introduzione Argomenti Cosa è l Economia politica I principi fondamentali dell Economia politica Cosa studia l Economia politica Perché studiare l Economia politica 1.1 COSA È L ECONOMIA POLITICA

Dettagli

CAPITOLO 10 I SINDACATI

CAPITOLO 10 I SINDACATI CAPITOLO 10 I SINDACATI 10-1. Fate l ipotesi che la curva di domanda di lavoro di una impresa sia data da: 20 0,01 E, dove è il salario orario e E il livello di occupazione. Ipotizzate inoltre che la funzione

Dettagli

LEZIONE n. 5 (a cura di Antonio Di Marco)

LEZIONE n. 5 (a cura di Antonio Di Marco) LEZIONE n. 5 (a cura di Antonio Di Marco) IL P-VALUE (α) Data un ipotesi nulla (H 0 ), questa la si può accettare o rifiutare in base al valore del p- value. In genere il suo valore è un numero molto piccolo,

Dettagli

Che cosa e come valutano le prove di matematica e con quali risultati. nell A.S. 2008 2009

Che cosa e come valutano le prove di matematica e con quali risultati. nell A.S. 2008 2009 Che cosa e come valutano le prove di matematica e con quali risultati nell A.S. 2008 2009 Presentazione a cura di Roberta Michelini Casalpusterlengo, 8 gennaio 2010 http://www.invalsi.it/esamidistato0809/

Dettagli

NOTA. La presente traduzione non sostituisce in alcun modo il regolamento originale del gioco.

NOTA. La presente traduzione non sostituisce in alcun modo il regolamento originale del gioco. NOTA. La presente traduzione non sostituisce in alcun modo il regolamento originale del gioco. Il presente documento è da intendersi come un aiuto per i giocatori di lingua italiana per comprendere le

Dettagli

Come modificare la propria Home Page e gli elementi correlati

Come modificare la propria Home Page e gli elementi correlati Come modificare la propria Home Page e gli elementi correlati Versione del documento: 3.0 Ultimo aggiornamento: 2006-09-15 Riferimento: webmaster (webmaster.economia@unimi.it) La modifica delle informazioni

Dettagli

L ORGANIZZAZIONE AZIENDALE

L ORGANIZZAZIONE AZIENDALE L ORGANIZZAZIONE AZIENDALE CONCETTO: L ORGANIZZAZIONE SI PONE COME OBIETTIVO LO STUDIO DELLE COMPOSIZIONI PIU CONVENIENTI DELLE FORZE PERSONALI, MATERIALI E IMMATERIALI OPERANTI NEL SISTEMA AZIENDALE.

Dettagli

Page 1. Evoluzione. Intelligenza Artificiale. Algoritmi Genetici. Evoluzione. Evoluzione: nomenclatura. Corrispondenze natura-calcolo

Page 1. Evoluzione. Intelligenza Artificiale. Algoritmi Genetici. Evoluzione. Evoluzione: nomenclatura. Corrispondenze natura-calcolo Evoluzione In ogni popolazione si verificano delle mutazioni. Intelligenza Artificiale In un ambiente che varia, le mutazioni possono generare individui che meglio si adattano alle nuove condizioni. Questi

Dettagli

Elementi di Psicometria con Laboratorio di SPSS 1

Elementi di Psicometria con Laboratorio di SPSS 1 Elementi di Psicometria con Laboratorio di SPSS 1 10-Il test t per un campione e la stima intervallare (vers. 1.1, 25 ottobre 2015) Germano Rossi 1 germano.rossi@unimib.it 1 Dipartimento di Psicologia,

Dettagli

Concetti di soluzione in giochi dinamici a informazione perfetta in strategie pure (LEZIONE 4)

Concetti di soluzione in giochi dinamici a informazione perfetta in strategie pure (LEZIONE 4) Economia Industriale (teoria dei giochi) Concetti di soluzione in giochi dinamici a informazione perfetta in strategie pure (LEZIONE 4) Valerio Sterzi Università di Bergamo Facoltà di ingegneria 1 Cosa

Dettagli

IL BUDGET 04 LE SPESE DI REPARTO & GENERALI

IL BUDGET 04 LE SPESE DI REPARTO & GENERALI IL BUDGET 04 LE SPESE DI REPARTO & GENERALI Eccoci ad un altra puntata del percorso di costruzione di un budget annuale: i visitatori del nostro sito www.controllogestionestrategico.it possono vedere alcuni

Dettagli

GLI ENTI D EROGAZIONE IN ITALIA

GLI ENTI D EROGAZIONE IN ITALIA GLI ENTI D EROGAZIONE IN ITALIA Sono 4.388 gli enti di diritto privato che hanno indicato come attività prevalente o esclusiva l erogazione di sussidi a individui, piuttosto che quella di contributi a

Dettagli

Pillola 2015/051 del 11/08/2015: Ordine diretto nuovo - Calcolatrice finanziaria

Pillola 2015/051 del 11/08/2015: Ordine diretto nuovo - Calcolatrice finanziaria Pillola 2015/051 del 11/08/2015: Ordine diretto nuovo - Calcolatrice finanziaria Introduzione La calcolatrice finanziaria è uno strumento utile per verificare la convenienza d'acquisto di un determinato

Dettagli

Identificazione dei Parametri Caratteristici di un Plasma Circolare Tramite Rete Neuronale

Identificazione dei Parametri Caratteristici di un Plasma Circolare Tramite Rete Neuronale Identificazione dei Parametri Caratteristici di un Plasma Circolare Tramite Rete euronale Descrizione Il presente lavoro, facente segiuto a quanto descritto precedentemente, ha il fine di: 1) introdurre

Dettagli

Teoria dei Giochi. Dr. Giuseppe Rose Università degli Studi della Calabria Corso di Laurea Magistrale in Economia Applicata a.a 2011/2012 Handout 2

Teoria dei Giochi. Dr. Giuseppe Rose Università degli Studi della Calabria Corso di Laurea Magistrale in Economia Applicata a.a 2011/2012 Handout 2 Teoria dei Giochi Dr. Giuseppe Rose Università degli Studi della Calabria Corso di Laurea Magistrale in Economia Applicata a.a 2011/2012 Handout 2 1 Concetti risolutivi per i giochi in forma normale I

Dettagli

Necessità della formazione efficace delle figure professionali nel campo della sicurezza negli ambienti di lavoro

Necessità della formazione efficace delle figure professionali nel campo della sicurezza negli ambienti di lavoro Necessità della formazione efficace delle figure professionali nel campo della sicurezza negli ambienti di lavoro Mario ALVINO Formazione efficace : perché? è una misura di sicurezza, infatti svolge una

Dettagli

PARTE 3: SUPPORTI E RESISTENZE

PARTE 3: SUPPORTI E RESISTENZE Come creare una strategia di trading di successo. PARTE 3: SUPPORTI E RESISTENZE Questa serie di articoli si occupa del processo multilivello utilizzato per la creazione delle strategie di trading. Nella

Dettagli

1 Estensione in strategia mista di un gioco

1 Estensione in strategia mista di un gioco AVVERTENZA: Di seguito trovate alcuni appunti, poco ordinati e poco formali, che uso come traccia durante le lezioni. Non sono assolutamente da considerarsi sostitutivi del materiale didattico. Riferimenti:

Dettagli

E naturale chiedersi alcune cose sulla media campionaria x n

E naturale chiedersi alcune cose sulla media campionaria x n Supponiamo che un fabbricante stia introducendo un nuovo tipo di batteria per un automobile elettrica. La durata osservata x i delle i-esima batteria è la realizzazione (valore assunto) di una variabile

Dettagli

Quando troncare uno sviluppo in serie di Taylor

Quando troncare uno sviluppo in serie di Taylor Quando troncare uno sviluppo in serie di Taylor Marco Robutti October 13, 2014 Lo sviluppo in serie di Taylor di una funzione è uno strumento matematico davvero molto utile, e viene spesso utilizzato in

Dettagli

I contributi pubblici nello IAS 20

I contributi pubblici nello IAS 20 I contributi pubblici nello IAS 20 di Paolo Moretti Il principio contabile internazionale IAS 20 fornisce le indicazioni in merito alle modalità di contabilizzazione ed informativa dei contributi pubblici,

Dettagli

Capitolo 4 Probabilità

Capitolo 4 Probabilità Levine, Krehbiel, Berenson Statistica II ed. 2006 Apogeo Capitolo 4 Probabilità Insegnamento: Statistica Corso di Laurea Triennale in Economia Facoltà di Economia, Università di Ferrara Docenti: Dott.

Dettagli

Iniziamo con un esercizio sul massimo comun divisore: Esercizio 1. Sia d = G.C.D.(a, b), allora:

Iniziamo con un esercizio sul massimo comun divisore: Esercizio 1. Sia d = G.C.D.(a, b), allora: Iniziamo con un esercizio sul massimo comun divisore: Esercizio 1. Sia d = G.C.D.(a, b), allora: G.C.D.( a d, b d ) = 1 Sono state introdotte a lezione due definizioni importanti che ricordiamo: Definizione

Dettagli

Esercizio 1: trading on-line

Esercizio 1: trading on-line Esercizio 1: trading on-line Si realizzi un programma Java che gestisca le operazioni base della gestione di un fondo per gli investimenti on-line Creazione del fondo (con indicazione della somma in inizialmente

Dettagli

COMUNE DI RAVENNA GUIDA ALLA VALUTAZIONE DELLE POSIZIONI (FAMIGLIE, FATTORI, LIVELLI)

COMUNE DI RAVENNA GUIDA ALLA VALUTAZIONE DELLE POSIZIONI (FAMIGLIE, FATTORI, LIVELLI) COMUNE DI RAVENNA Il sistema di valutazione delle posizioni del personale dirigente GUIDA ALLA VALUTAZIONE DELLE POSIZIONI (FAMIGLIE, FATTORI, LIVELLI) Ravenna, Settembre 2004 SCHEMA DI SINTESI PER LA

Dettagli

1 Applicazioni Lineari tra Spazi Vettoriali

1 Applicazioni Lineari tra Spazi Vettoriali 1 Applicazioni Lineari tra Spazi Vettoriali Definizione 1 (Applicazioni lineari) Si chiama applicazione lineare una applicazione tra uno spazio vettoriale ed uno spazio vettoriale sul campo tale che "!$%!

Dettagli

CIRCOLO DIDATTICO DI SAN MARINO Anno Scolastico 2013/2014

CIRCOLO DIDATTICO DI SAN MARINO Anno Scolastico 2013/2014 CIRCOLO DIDATTICO DI SAN MARINO Anno Scolastico 2013/2014 RICERCA-AZIONE Insegnare per competenze: Lo sviluppo dei processi cognitivi Scuola Elementare Fiorentino DESCRIZIONE DELL ESPERIENZA Docente: Rosa

Dettagli

Proof. Dimostrazione per assurdo. Consideriamo l insieme complementare di P nell insieme

Proof. Dimostrazione per assurdo. Consideriamo l insieme complementare di P nell insieme G Pareschi Principio di induzione Il Principio di Induzione (che dovreste anche avere incontrato nel Corso di Analisi I) consente di dimostrare Proposizioni il cui enunciato è in funzione di un numero

Dettagli

Un gioco con tre dadi

Un gioco con tre dadi Un gioco con tre dadi Livello scolare: biennio Abilità interessate Costruire lo spazio degli eventi in casi semplici e determinarne la cardinalità. Valutare la probabilità in diversi contesti problematici.

Dettagli

www.andreatorinesi.it

www.andreatorinesi.it La lunghezza focale Lunghezza focale Si definisce lunghezza focale la distanza tra il centro ottico dell'obiettivo (a infinito ) e il piano su cui si forma l'immagine (nel caso del digitale, il sensore).

Dettagli

MOCA. Modulo Candidatura. http://www.federscacchi.it/moca. moca@federscacchi.it. [Manuale versione 1.0 marzo 2013]

MOCA. Modulo Candidatura. http://www.federscacchi.it/moca. moca@federscacchi.it. [Manuale versione 1.0 marzo 2013] MOCA Modulo Candidatura http://www.federscacchi.it/moca moca@federscacchi.it [Manuale versione 1.0 marzo 2013] 1/12 MOCA in breve MOCA è una funzionalità del sito web della FSI che permette di inserire

Dettagli