Computational Game Theory



Documenti analoghi
Un modello matematico di investimento ottimale

Algoritmi e Strutture Dati II: Parte B Anno Accademico Lezione 11

Economia Applicata ai sistemi produttivi Lezione II Maria Luisa Venuta 1

Matematica generale CTF

OCCUPATI SETTORE DI ATTIVITA' ECONOMICA

Esercizio 1 Dato il gioco ({1, 2, 3}, v) con v funzione caratteristica tale che:

E naturale chiedersi alcune cose sulla media campionaria x n

Politecnico di Milano. Facoltà di Ingegneria Industriale. Corso di Analisi e Geometria 2. Sezione D-G. (Docente: Federico Lastaria).

Equilibrio bayesiano perfetto. Giochi di segnalazione

Teoria dei Giochi. Dr. Giuseppe Rose Università degli Studi della Calabria Corso di Laurea Magistrale in Economia Applicata a.a 2011/2012 Handout 2

Ottimizzazione nella gestione dei progetti Capitolo 4: la gestione dei costi (Programmazione multimodale): formulazioni

1 Giochi a due, con informazione perfetta e somma zero

Il Campionameto dei segnali e la loro rappresentazione. 1 e prende il nome frequenza di

Gli input sono detti anche fattori di produzione: terra, capitale, lavoro, materie prime.

Analisi di scenario File Nr. 10

Ottimizzazione Multi Obiettivo

LEZIONE 7. Esercizio 7.1. Quale delle seguenti funzioni è decrescente in ( 3, 0) e ha derivata prima in 3 che vale 0? x x2. 2, x3 +2x +3.

b. Che cosa succede alla frazione di reddito nazionale che viene risparmiata?

La misura degli angoli

u 1 u k che rappresenta formalmente la somma degli infiniti numeri (14.1), ordinati al crescere del loro indice. I numeri u k

Teoria dei Giochi. Anna Torre

Sequenziamento a minimo costo di commutazione in macchine o celle con costo lineare e posizione home (In generale il metodo di ottimizzazione

Strumenti della Teoria dei Giochi per l Informatica A.A. 2009/10. Lecture 22: 1 Giugno Meccanismi Randomizzati

Schemi delle Lezioni di Matematica Generale. Pierpaolo Montana

Esercitazione 23 maggio 2016

CRITERI DI CONVERGENZA PER LE SERIE. lim a n = 0. (1) s n+1 = s n + a n+1. (2) CRITERI PER LE SERIE A TERMINI NON NEGATIVI

Appunti sulla Macchina di Turing. Macchina di Turing

Ricerca Operativa Esercizi sul metodo del simplesso. Luigi De Giovanni, Laura Brentegani

2. Leggi finanziarie di capitalizzazione

LA MASSIMIZZAZIONE DEL PROFITTO ATTRAVERSO LA FISSAZIONE DEL PREZZO IN FUNZIONE DELLE QUANTITÀ

Lezioni di Matematica 1 - I modulo

1. Distribuzioni campionarie

1 Estensione in strategia mista di un gioco

Scelta intertemporale: Consumo vs. risparmio

Capitolo 25: Lo scambio nel mercato delle assicurazioni

Dimensione di uno Spazio vettoriale

Indice. 1 Introduzione alle Equazioni Differenziali Esempio introduttivo Nomenclatura e Teoremi di Esistenza ed Unicità...

Esercitazione numeri

1. Calcolare la probabilità che estratte a caso ed assieme tre carte da un mazzo di 40, fra di esse vi sia un solo asso, di qualunque seme.

Teoria dei Giochi. Anna Torre

APPUNTI DI MATEMATICA LE FRAZIONI ALGEBRICHE ALESSANDRO BOCCONI

Capitolo 4: Ottimizzazione non lineare non vincolata parte II. E. Amaldi DEIB, Politecnico di Milano

Capitolo 6. Soluzione degli esercizi a cura di Rosa Falotico

Tesina di Identificazione dei Modelli e Analisi dei Dati

Traduzione e adattamento a cura di Gylas per Giochi Rari

Metodi e Modelli per l Ottimizzazione Combinatoria Il problema del flusso di costo minimo

La teoria dell utilità attesa

VC-dimension: Esempio

lezione 18 AA Paolo Brunori

Scelte in condizione di incertezza

I sistemi di numerazione

Viene lanciata una moneta. Se esce testa vinco 100 euro, se esce croce non vinco niente. Quale è il valore della mia vincita?

Test statistici di verifica di ipotesi

SVM. Veronica Piccialli. Roma 11 gennaio Università degli Studi di Roma Tor Vergata 1 / 14

Macroeconomia, Esercitazione 2. 1 Esercizi. 1.1 Moneta/ Moneta/ Moneta/3. A cura di Giuseppe Gori (giuseppe.gori@unibo.

Tecniche di analisi multivariata

Esponenziali elogaritmi

OPERAZIONI DI PRESTITO

Problema del trasporto

La Programmazione Lineare

ESERCIZIO N 4. Fatturato Supermercati [0;500) 340 [500;1000) 368 [1000;5000) 480 [5000;10000) 37 [10000;20000) 15 taglia = 1240

MAPPE DI KARNAUGH. Nei capitoli precedenti si è visto che è possibile associare un circuito elettronico o elettrico ad una funzione logica.

1 Serie di Taylor di una funzione

SISTEMI DI NUMERAZIONE IL SISTEMA DECIMALE

Corso di Matematica per la Chimica

1. Introduzione. 2. Simulazioni elettromagnetiche per la misura del SAR

Matematica finanziaria: svolgimento della prova di esonero del 28 marzo 2007

Equazioni non lineari

Equazioni non lineari

Iniziamo con un esercizio sul massimo comun divisore: Esercizio 1. Sia d = G.C.D.(a, b), allora:

Esercizio 1. Proprietà desiderabili degli stimatori (piccoli campioni)

1. PRIME PROPRIETÀ 2

Premessa. Esercitazione. Calcolo del reddito nel Conto del reddito. Calcolo del reddito nel Conto del capitale e nel Conto del reddito

2 + (σ2 - ρσ 1 ) 2 > 0 [da -1 ρ 1] b = (σ ρσ1 σ 2 ) = (σ 1

EGA Handicap System PARTE 3. IL CAMPO DA GOLF E IL COURSE RATING D2.5 - D D D2.26

QUANTIZZAZIONE diverse fasi del processo di conversione da analogico a digitale quantizzazione

LEZIONE 31. B i : R n R. R m,n, x = (x 1,..., x n ). Allora sappiamo che è definita. j=1. a i,j x j.

Daniela Lera A.A

Ammortamento di un debito

Algoritmi e strutture dati. Codici di Huffman

5. Coppie differenziali di transistori bipolari

Sistemi Operativi mod. B. Sistemi Operativi mod. B A B C A B C P P P P P P < P 1, >

Edited by Foxit PDF Editor Copyright (c) by Foxit Software Company, 2004 For Evaluation Only.

Costruire sistemi con il pigeonhole principle

Ai fini economici i costi di un impresa sono distinti principalmente in due gruppi: costi fissi e costi variabili. Vale ovviamente la relazione:

IL PROBLEMA DELLE SCORTE

RICERCA OPERATIVA GRUPPO B prova scritta del 22 marzo 2007

REGOLAZIONE (E TASSAZIONE OTTIMALE) DI UN MONOPOLIO CON PIÙ LINEE DI PRODUZIONE

Carichiamo il segnale contenuto nel file ecg_es_ mat

Parte 3. Rango e teorema di Rouché-Capelli

1 Applicazioni Lineari tra Spazi Vettoriali

Come visto precedentemente l equazione integro differenziale rappresentativa dell equilibrio elettrico di un circuito RLC è la seguente: 1 = (1)

= variazione diviso valore iniziale, il tutto moltiplicato per 100. \ Esempio: PIL del 2000 = 500; PIL del 2001 = 520:

Il mercato di monopolio

Esercizi su lineare indipendenza e generatori

4 Dispense di Matematica per il biennio dell Istituto I.S.I.S. Gaetano Filangieri di Frattamaggiore EQUAZIONI FRATTE E SISTEMI DI EQUAZIONI

15 volte più veloce. per ridurre TCO e time-to-market

Misure di base su una carta. Calcoli di distanze

Capitolo 3: Cenni di strategia

2) Codici univocamente decifrabili e codici a prefisso.

Transcript:

Computational Game Theory Vincenzo Bonifaci 24 maggio 2012 5 Regret Minimization Consideriamo uno scenario in cui un agente deve selezionare, più volte nel tempo, una decisione tra un insieme di N disponibili: X = {1, 2,..., N}. Ad ogni passo t, l agente sceglie, deterministicamente o probabilisticamente, una delle N azioni. Formalmente, vogliamo un algoritmo online che scelga, al tempo t, una distribuzione di probabilità p t = (p t 1, pt 2,..., pt N ). In seguito a ciascuna scelta, l ambiente (o un avversario ) associa ad ogni azione i una perdita l t i {0, 1} (osservabile dall algoritmo). La perdita (istantanea) dell algoritmo, lt A, sarà la media pesata della perdita delle azioni: l t A = i X pt i lt i. Il processo si ripete per t = 1, 2,... Ad esempio, possiamo immaginare uno scenario in cui le N azioni corrispondano a N titoli di borsa e che l t i = 1 se il titolo i perde quota, lt i = 0 se il titolo i tiene. In questo caso una distribuzione di probabilità può essere vista come una diversificazione del portafoglio titoli. Dopo T passi di questo processo possiamo considerare le seguenti quantità: - La perdita complessiva dell azione i: L T i = T lt i. - La perdita complessiva dell algoritmo A: L T A = T lt A. - La perdita complessiva dell azione migliore: L T min = min i X L T i. - Il rimorso (regret) dell algoritmo: la differenza R = L T A LT min. - Il rimorso per unità di tempo dopo T passi: R/T. Un buon algoritmo per regret minimization dovrebbe approssimativamente minimizzare la quantità R/T. In particolare sarebbe desiderabile avere R/T 0 per T. 5.1 Algoritmi per Regret Minimization Teorema 5.1. Per qualunque algoritmo deterministico A, esiste una sequenza di perdite tali che L T A = T e LT min T/N. Il rimorso per unità di tempo di A è quindi almeno 1 1/N. Dimostrazione. Si consideri la sequenza che, al passo t, assegna perdita 1 all azione selezionata dall algoritmo A e 0 a tutte le altre azioni. Questa sequenza è ben definita, poiché l algoritmo è deterministico. Per costruzione abbiamo L T A = T, poiché l algoritmo perde 1 ad ogni passo. 1

5 REGRET MINIMIZATION 2 Inoltre, tra tutti gli N T valori l t i, con i = 1,..., N, t = 1,..., T, esattamente T sono pari ad 1 (quelli corrispondenti alle scelte dell algoritmo A), tutti gli altri sono pari a 0. Il numero medio di perdite complessive per azione è quindi T/N. Deve quindi esistere un azione con perdita al più T/N. Algoritmo GREEDY. Un semplice algoritmo deterministico è il seguente: 1. Nella prima fase, seleziona deterministicamente l azione con indice 1. 2. Sia S t = {i X : L t i = Lt min }. Al tempo t, seleziona deterministicamente l azione con indice minimo nell insieme S t 1. Teorema 5.2. Per l algoritmo GREEDY si ha il bound L T GREEDY N L T min + N 1. Dimostrazione. Osserviamo che se L t min = Lt 1 min, allora St S t 1. Ad ogni passo t nel quale GREEDY subisce una perdita pari ad 1 e L t min non aumenta, la cardinalità dell insieme St diminuisce strettamente. Poiché 1 S t N, ciò può avvenire al massimo N volte prima che L t min aumenti di 1. Quindi GREEDY subisce al più N perdite tra un incremento di L t min e il successivo. Più precisamente, L t GREEDY N Lt min + N S t. Algoritmo Randomized Greedy (RG). 1. Inizializza p 1 i = 1/N per ciascun i X. 2. Sia S t = {i X : L t i = Lt min }. Al tempo t, poni p t i = { 1/ S t 1 se i S t 1 0 se i / S t 1. Teorema 5.3. Per l algoritmo Randomized Greedy (RG) si ha il bound L T RG (1 + ln N) L T min + ln N. Dimostrazione. Ad ogni passo t nel quale L t min = Lt 1 min e l insieme St passa da cardinalità n a cardinalità n k, la perdita (attesa) dell algoritmo RG è esattamente k/n, poiché ogni azione in S t 1 ha peso 1/n. Poiché k/n 1/n + 1/(n 1) +... + 1/(n k + 1), possiamo assumere che S t diminuisca di un elemento alla volta. Finché L t min non aumenta, quindi, la perdita dell algoritmo è al massimo Più precisamente, quanto detto mostra che 1/N + 1/(N 1) +... + 1/2 + 1/1 1 + ln N. L t RG (1 + ln N) L t min + 1/N + 1/(N 1) +... + 1/( S t + 1).

5 REGRET MINIMIZATION 3 Algoritmo Weighted Majority (WM) [Littlestone & Warmuth, 1994]. 1. Sia un parametro tale che 0 1/2. 2. Inizializza w 1 i = 1 per ogni i X. Al tempo t: 3. Associa all azione i peso wi t = (1 )Lt i. Equivalentemente, { wi t wi t 1 se l t i = = 0, (1 )wi t 1 se l t i = 1. 4. Poni p t i = wt i / N j=1 wt j. Teorema 5.4. Per l algoritmo Weighted Majority (WM) si ha il bound L T WM (1 + )L T min + ln N. Di conseguenza, se = (ln N)/T e T 4 ln N, si ha e quindi L T W M L T min + 2 T ln N R T 0 quando T. Dimostrazione. Consideriamo la seguente funzione (di potenziale ): Φ t := i X w t i. Poiché i pesi w non vengono mai aumentati dall algoritmo, Φ è una funzione non crescente nel tempo. Mostriamo ora che quando l algoritmo WM incorre un costo significativo, Φ deve decrescere notevolmente. Questo, unito al fatto che Φ T +1 max i wi T +1 = (1 ) LT min, ci permetterà di arrivare alla conclusione voluta. ( ) Sia F t := i:l t i =1 wt i /Φ t la frazione del peso totale Φ t che si ha sulle azioni che incorrono perdita 1 al tempo t; quindi F t è anche la perdita attesa dell algoritmo WM al tempo t. Ora, l algoritmo moltiplica il peso di ciascuna delle azioni con perdita 1 per un fattore 1, mentre i pesi restanti sono inalterati. Quindi, Φ t+1 = Φ t F t Φ t = (1 F t )Φ t. (In altre parole, la proporzione di peso rimossa dal sistema ad ogni passo è esattamente proporzionale alla perdita attesa dell algoritmo online. Usando il fatto che Φ 1 = N e Φ T +1 (1 ) LT min, otteniamo T (1 ) LT min Φ T +1 = Φ 1 (1 F t ) = N T (1 F t ).

5 REGRET MINIMIZATION 4 Prendendo i logaritmi di ciascuna espressione, e ricordando che ln(1 x) x, L T min ln(1 ) (ln N) + (ln N) T ln(1 F t ) T F t = (ln N) L T WM. Riarrangiando i termini, e ricordando che ln(1 x) x + x 2 per x [0, 1/2], L T WM LT min ln(1 ) + ln N (1 + )L T min + ln N. Quando = (ln N)/T e T 4 ln N, si ha 1/2 e quindi il bound può essere applicato; notando che si ha sempre L T min T, otteniamo L T WM L T min + L T min + ln N L T min + (ln N)/T T + = L T min + 2 T ln N. ln N (ln N)/T Osservazione 5.1. Osserviamo che per poter usare il valore = (ln N)/T nell algoritmo avremmo bisogno di conoscere in anticipo il valore T del numero di passi, informazione che in realtà non è a disposizione di un algoritmo online. A questo problema si può ovviare mantenendo una stima del valore di T e raddoppiandola quando il numero di passi è diventato troppo grande. Si può dimostrare che questa versione modificata mantiene un valore del regret che è entro un fattore costante da quello del teorema: L T WM online LT min + O( T ln N). Osservazione 5.2. L algoritmo può essere generalizzato per trattare il caso di perdite anche frazionarie, quindi in [0, 1] anziché in {0, 1}. In questo caso la regola di aggiornamento dei pesi è w t i = (1 ) lt i w t 1 i. Il bound del Teorema 5.4 può essere esteso a questa generalizzazione. 5.2 Regret Minimization e giochi a somma zero Consideriamo un gioco a somma zero Γ a due giocatori, con insiemi delle azioni S 1 e S 2 e funzioni di utilità u 1 e u 2. Abbiamo visto come esista un valore v R associabile a Γ che è esattamente l utilità

5 REGRET MINIMIZATION 5 che si ha all equilibrio: il primo giocatore può ottenere v, ma non più di v, e il secondo giocatore può perdere v, ma non meno di v; v è detto il valore di Γ. Mostriamo che se il gioco Γ viene giocato ripetutamente e uno dei giocatori segue una strategia per la minimizzazione del rimorso, questo gli garantisce di convergere al valore v nel tempo. Non è quindi necessario che il giocatore sappia risolvere un problema di programmazione lineare per giocare Γ al meglio; è sufficiente giocare molte volte, se si fa tesoro dell esperienza attraverso un algoritmo di apprendimento quale Weighted Majority. Teorema 5.5. Sia Γ un gioco a somma zero di valore v. Se il secondo giocatore gioca Γ per T passi usando un algoritmo A dal rimorso R, allora la sua perdita media 1 T LT A è al più v + R/T. Dimostrazione. Sia q la strategia mista che corrisponde alle frequenze osservate delle azioni giocate dal giocatore 1; in altre parole, q j = T xt j /T, dove xt j è la probabilità data dal giocatore 1 all azione j al tempo t. Per la teoria dei giochi a somma zero, il giocatore 2 ha una azione (pura) b k S 2 che è una miglior risposta alla strategia mista q del giocatore 1. Quindi, il giocatore 2 ha costo atteso v quando il giocatore 1 gioca q e il giocatore 2 gioca b k. In altre parole, se il giocatore 2 avesse sempre giocato b k, avrebbe pagato un costo complessivo v T. Quindi L T min LT k v T. Poiché il giocatore 2 sta seguendo un algoritmo A con rimorso R, abbiamo L T A L T min + R v T + R 1 T LT A v + R T.