Corso di Politica Economica Lezione 12: Introduzione alla Teoria dei Giochi (part 3) David Bartolini Università Politecnica delle Marche (Sede di S.Benedetto del Tronto) d.bartolini@univpm.it (email) http://utenti.dea.univpm.it/politica 1 / 1
Giochi Sequenziali con informazione completa 1 insieme finito di giocatori 2 insieme delle possibili storie del gioco (possibili sviluppi nel tempo) 3 una funzione che assegna un giocatore ad ogni storia terminale (cioè specifica quando è il suo turno di giocare) 4 insieme delle possibili azioni 5 un insieme di preferenze sull insieme delle storie possibili d.bartolini@univpm.it (email) http://utenti.dea.univpm.it/politica 2 / 1
Subgame Perfect Equilibrium (SPE) L equilibrio perfetto nei sottogiochi, è composto dalle strategie che formano un NE in ogni sottogioco sottogioco: per ogni sequenza del gioco (storia) non terminale, h, il sottogioco rappresenta la parte del gioco che rimane da giocare dopo la storia h Per la soluzione di questi giochi (nel caso di storia finita) utilizziamo il metodo Backward induction d.bartolini@univpm.it (email) http://utenti.dea.univpm.it/politica 3 / 1
Esempio Competizione alla Stackelberg: i = 1, 2 giocatori: leader e follower storie possibili: tutte le combinazioni di quantità del leader e del follower gioco finito: il leader sceglie al tempo 1, il follower sceglie al tempo 2 preferenze: sono le funzioni di profitto consideriamo il caso di domanda lineare e costo unitario costante C i (q i ) = cq i for i = 1, 2 P(Q) = α Q if α Q, otherwise the demand is zero consideriamo anche che c > 0 e c < α d.bartolini@univpm.it (email) http://utenti.dea.univpm.it/politica 4 / 1
Cerchiamo il SPE di questo gioco utilizzando il metodo di Backward induction 1 per prima cosa consideriamo la scelta ottima del giocatore che gioca per ultimo (il follower) data qualsiasi scelta del leader max π 2 q 2 = (α q 1 q 2 )q 2 cq 2 dπ 2 dq 2 = α q 1 2q 2 c = 0 q 2 = α q 1 c 2 q 2 (q 1 ) è la risposta ottima del follower ad ogni strategia del leader 2 il leader anticipa che il follower si comperterà in questa maniera una volta scelta la sua strategia, per cui: d.bartolini@univpm.it (email) http://utenti.dea.univpm.it/politica 5 / 1
max q 1 π 1 = ( ) α α q q1 c 1 2 q 1 cq 1 } {{ } q 2 (q 1 ) dπ 1 dq 1 = α q 1 2q 2 c = 0 q 1 = α c 2 questa è la scelta ottima del leader sostituendo q 1 nella best response function del follower otteniamo q 2 = α c 4 Quindi il SPE di questo gioco è (q 1, q 2(q 1 )) (per il leader la strategia è solo un azione mentre per il follower la strategia di equilibrio è la funzione di reazione) questo produce un payoff per le due imprese pari a: π 1 = 1 8 (α c)2 π 2 = 1 (α c)2 16 d.bartolini@univpm.it (email) http://utenti.dea.univpm.it/politica 6 / 1
Giochi Ripetuti Che succede se la stessa situazione si ripete nel tempo? 1 ripetizioni finite 2 ripetizioni infinite stage game è la parte del gioco che si ripete sempre uguale lo scorrere del tempo è misurato dal fattore di sconto δ [0, 1] si tratta del valore oggi di un EURO che percepiremo domani (o nei periodi futuri: VA di 1Euro che percepiremo tra 3 periodi = (1)δ 1 δ 2 δ 3 = 1δ 3 il fattore di sconto può essere interpretato come δ = 1 1+r dove r è il tasso di interesse che si perde ogni periodo oppure δ può essere interpretato come il livello di pazienza dell agente economico d.bartolini@univpm.it (email) http://utenti.dea.univpm.it/politica 7 / 1
Ripetizioni Finite Se lo stage game si ripete un numero finito di volte, allora applicando il backward induction, (in molte classi di giochi) otteniamo lo stesso equilibrio del gioco senza ripetizione Esempio: il dilemma del prigioniero Ripetiamo un numero di volte T (finito) il dilemma del prigioniero lo stage game è la situazione che abbiamo visto nell analisi statica ora cerchiamo un SPE la strategia di ogni giocatore in ogni periodo t deve specificare le azioni per tutti i successivi stage games e per ogni possibile storia del gioco d.bartolini@univpm.it (email) http://utenti.dea.univpm.it/politica 8 / 1
applichiamo il metodo di backward induction: al perido T quale sarà la strategia ottimale per i due prigionieri? procediamo a ritroso dati i NE già calcolati Subgame Perfect Equilibrium Esiste un unico SPE dove ogni giocatore sceglie la strategia confessare in ogni periodo, indipendentemente dalla storia del gioco d.bartolini@univpm.it (email) http://utenti.dea.univpm.it/politica 9 / 1
anche se il dilemma si ripete nel tempo i due prigionieri non riescono a cooperare. i due potrebbero accordarsi per cooperare (prima di essere catturati) con la promessa che in caso uno devi (non coopera) l altro la volta successiva (o tutte le volte successive) lo punisce non cooperando più perchè questa strategia non è efficace nel nostro esempio? d.bartolini@univpm.it (email) http://utenti.dea.univpm.it/politica 10 / 1
Giochi ripetuti all infinto In questi casi non è possibile applicare il metodo di backward induction, perchè non vi è un ultimo stadio però ora la minaccia di punizione potrebbe essere efficace Dobbiamo considerare un serie infinita di payoffs (lo stesso payoff, π): dato che il fattore di sconto è minore di 1 questa serie infinita converge ad un valore finito questo perchè δ t π = π + δ 1 δ π = π 1 δ t=0 (1 + δ 1 + δ 2 + δ 3 + ) = 1 1 δ for δ [0, 1) d.bartolini@univpm.it (email) http://utenti.dea.univpm.it/politica 11 / 1
Prisoner s Dilemma Ogni periodo t il seguente gioco si ripete: Sospetto 1 Sospetto 2 non conf. confessa non conf. 3, 3 0, 4 confessa 4, 0 1, 1 nel caso di gioco ripetuto T volte il SPE è (confessa, confessa) riusciranno ora i due sospettati ad ottenere il payoff (3,3)? dobbiamo considerare il payoff atteso in caso di cooperazione con il payoff in caso di deviazione d.bartolini@univpm.it (email) http://utenti.dea.univpm.it/politica 12 / 1
Strategia: consideriamo la seguente strategia per i due giocatori a t = 0 cooperare (non confessare) e continuare a cooperare se anche l altro sospettato coopera (non confessa), ma non appena l altro non coopera, non cooperare più (cioè confessare) In caso di cooperazione ogni agente ottiene il payoff: V (C) = 3 + 3δ + 3δ 2 + = 3 1 δ In caso di deviazione l agente che devia ottiene: V (D) = 4 + δ + δ 2 + = 4 + δ 1 δ d.bartolini@univpm.it (email) http://utenti.dea.univpm.it/politica 13 / 1
Comparing the two payoffs: V (C) V (D) 3 1 δ 4 + δ 1 δ δ 1 3 i due sospetti cooperano (non confessando) se il fattore di sconto δ 1 3 cioè cooperano se sono sufficientemente pazienti se tengo ai miei guadagni futuri allora ho interesse a mantenere la cooperazione e a non deviare (guadagnando di più oggi ma meno domani) se danno alcun valore ai payoff futuri (i.e., piccolo δ) allora preferiscono deviare d.bartolini@univpm.it (email) http://utenti.dea.univpm.it/politica 14 / 1
la strategia (trigger strategy) che abbiamo visto è un SPE del dilemma del prigioniero ripetuto un numero infinito di volte 1 quindi la ripetizione permette di superare l inefficienza (occorre però pazienza) 2 però questa strategia non è l unico SPE (per esempio potete pensare ad una strategia in cui si punisce la deviazione dell altro giocatore per un numero finito di volte) d.bartolini@univpm.it (email) http://utenti.dea.univpm.it/politica 15 / 1