知的都市基盤工学5月30日(水)5限(16:30~18:10)
ゲーム理論 第三部
再掲:囚人のジレンマ囚人のジレンマの利得行列
⎥⎦
⎤⎢⎣
⎡2,21,44,13,3協調(Cooperate):C
右がプレイヤー1の利得左がプレイヤー2の利得
裏切(Defect):Dプレイヤー1
C Dプレイヤー2
ナッシュ均衡点
(協調=黙秘、裏切=自白)
プレイヤーの合理的な意思決定の結果
(C,C) はナッシュ均衡ではない
再掲:無限繰り返し囚人のジレンマ 12
all-C
all-D
all-C all-D
プレイヤー1
プレイヤー2
しっぺ返し
しっぺ返し 3,3
δδ +− 1,24
δδ 24,1 −+
3,33,3
3,3
2,21,4
4,1
δ−1ただし、表中の値は全て 倍してある
である場合の最適反応戦略δ243 −≥ )2/1( ≥δ
2つのナッシュ均衡
プレイヤー1のプレイヤー2に対する最適反応戦略
プレイヤー2のプレイヤー1に対する最適反応戦略
)2/1( =δ の場合の最適反応戦略
フォークの定理
• 3つの戦略 all-C, all-D, しっぺ返し の中から1つを選択可能な場合
無限繰り返し囚人のジレンマ
δ243 −≥ )2/1( ≥δ
δ243 −< )2/1( <δナッシュ均衡 (all-D, all-D), ( しっぺ返し,しっぺ返し)
(all-D, all-D){
1回限りのゲームのナッシュ均衡戦略に含まれない行動の組(C,C) の系列が無限繰り返しゲームのナッシュ均衡に含まれるか?
フォークの定理
• 無限の戦略集合を仮定した場合 (一般的な場合に拡大)
1回限りのゲームのナッシュ均衡戦略に含まれない行動の組(C,C) の系列が無限繰り返しゲームのナッシュ均衡に含まれる
ミニマックス行動 1ミニマックス行動
戦略形ゲームG においてプレイヤー i に対するミニマックス行動とは、
),(maxmin),(max jiiaajiiaaafmaf
iji
≡を満たすプレイヤー j の行動 のことで、右辺の値をプレイヤー i のミニマックス利得という
jm
定義 1
プレイヤー2のミニマックス行動
プレイヤー1が最適反応原理に基づいて選択した行動に対してプレイヤー1の利得を最小化するプレイヤー2の行動
プレイヤー1が最適反応原理に
よって行動を選択した場合に最低限獲得可能な利得
プレイヤー1のミニマックス利得
プレイヤー2がミニマックス行動を選択した場合のプレイヤー1の利得
( 保障水準 )
ミニマックス行動 2囚人のジレンマ
プレイヤー1のミニマックス利得とプレイヤー2のミニマックス行動
2=
⎥⎦
⎤⎢⎣
⎡2,21,44,13,3C
D
C D
プレイヤー2 のミニマックス行動
プレイヤー1 のミニマックス利得
プレイヤー2
プレイヤー1
プレイヤー2がDを選択してプレイヤー1の利得を最小化
)]2,1max(),4,3[max(min2a
=
),(maxmin 21112
aafaa
]2,4[min2a
=プレイヤー2がミニマックス行動D を選択すれば、プレイヤー1はミニマックス利得
2以上の利得を獲得できない
同様にミニマックス利得の組
(2, 2)
:D :2
プレイヤー1 のミニマックス行動
プレイヤー2 のミニマックス利得
:D :2
プレイヤー2のC, Dに対するプレイヤー1の最適反応
個人合理的 1
プレイヤーの行動の組
が成立するとき、行動の組
),( 21 aa=aプレイヤー1とプレイヤー2 のミニマックス利得 に対して
が成立するときをいう
11 )( vf ≥a
iv
定義 2
),( 21 aa
個人合理的
=a
が個人合理的であるとは、
は強く個人合理的であるという
22 )( vf ≥a
11 )( vf >a 22 )( vf >a
∧
∧
個人合理的 2囚人のジレンマにおける個人合理的な行動の組
強く個人合理的な場合、
上の利得ベクトルは含まない
個人合理的な行動の組
(2,2)(3,3)
(2,2)
(1,4)
(4,1)
(3,3)
プレイヤー1の利得
個人合理的利得ベクトル集合
⎥⎦
⎤⎢⎣
⎡2,21,44,13,3C
D
C Dプレイヤー2
プレイヤー1
ミニマックス利得の組 (2,2)
個人合理的な行動の組の
条件を満たす利得の組
(D,D)(C,C)
強く個人合理的な行動の組
(2,2)(3,3)強く個人合理的な行動の組の
条件を満たす利得の組
(C,C)
ミニマックス利得の組 (2,2)
フォークの定理 1
成分ゲームGの強く個人合理的な任意の行動の組
ijiib
ijiib
vabf
fabf
i
i
−
−≥
),(max
)(),(max aδ
∞G ),( *2
*1
* ss=s
に対して将来利得の割引因子δが
が成り立つ
存在して、,...),()( 21* aasa =
を満たせば、繰り返しゲーム のナッシュ均衡点
2,1, =i
定理 1
),( 21 aaフォークの定理
=a
が
無限繰り返しゲームのナッシュ均衡の中の一つに強く個人合理的な行動の組を毎回実現する均衡点が存在
フォークの定理 2定理2 の証明 1
相手のプレイヤーだけが強く個人合理的な任意の行動の
上記の場合以外は強く個人合理的な任意の行動 をとる
*2
*1 , ss
21 , mm
21 , aa
トリガー戦略
ミニマックス行動 に従う
規則 1
規則 2
),( 21 aa=a
の定義
組 から離脱すれば、以後相手に対する
• 一度相手がDを出せば、それ以降のゲームではそれ以降の相手の行動に関係なく、Dを出し続ける
繰り返し囚人のジレンマでのトリガー戦略
• 相手がDを出すまで、自分は常にCを出し続ける (初回はCを出す)
フォークの定理 2定理2 の証明 1
が実現する
,...),()( 21* aasa =
プレイヤー1、プレイヤー2がトリガー戦略を選択Case 1初回からお互いに強く個人合理的な行動を取り続け、
どちらもそこから離脱することがないので
お互いにトリガー戦略から変更しなかった場合のプレイヤー1 のt 回目以降の割引利得和は、
)(1
11 af
δ−...)()( 11 aa ff δ =++
である.
フォークの定理 3定理2 の証明 2
プレイヤー1が戦略をトリガー戦略 から異なる戦略に変更
プレイヤー1は t 回目のゲームで と異なる行動 をとる.
*1s
1aこのとき、トリガー戦略の定義から、プレイヤー2 は t +1 回目以降のゲームで
1b
プレイヤー1 に対するミニマックス行動をとり続ける.
Case 2
戦略を変更したプレイヤー1の t 回目以降の割引利得和は、
121112
1211 1),(...),( vabfvvabf
δδδδ−
+=+++
t 回目の利得t+1 回目以降の
割引利得和である.
フォークの定理 4定理2 の証明 3
行動 に対して、12111 1
),()(1
1 vabffδ
δδ −
+≥−
a1b
*1sならば、トリガー戦略 から他の戦略へ変更しても割引利得和を増やせない
)(1
1: 1 afδ−
Case 1(変更しない)
Case 2(変更した) 1211 1
),(: vabfδ
δ−
+
プレイヤー1の t 回目以降の割引利得和
トリガー戦略からの変更に関して…
プレイヤー1のトリガー戦略はプレイヤー2のトリガー戦略に対する最適反応戦略
トリガー戦略がナッシュ均衡戦略
プレイヤー1とプレイヤー2の両方に対して成立
フォークの定理 5定理2 の証明 4
ijiii vabffδ
δδ −
+≥− 1
),()(1
1 a
ijiib
ijiib
vabf
fabf
i
i
−
−≥
),(max
)(),(max aδ
)(),(max)),(max( aijiibijiibfabfvabf
ii
−≥−δijiibjiibi vabfabff
ii
δδ +−≥ ),(max),(max)(aijiibi vabff
i
δδ +−≥ ),(max)1()( a
ijiibi vabffi δ
δδ −
+≥− 1
),(max)(1
1 a
右辺を最大化する についても成り立つ
)1,2(),2,1(),( =ji
式変形
式変形
ib
フォークの定理 6
ナッシュ均衡点の実現する行動の組の系列に
,....),...,()( 1* taasa =),...),(),...,,(( CCCC=
が含まれる
フォークの定理
強く個人合理的な行動の組 (C,C)
ijiib
ijiib
vabf
fabf
i
i
−
−≥
),(max
)(),(max aδ 2,1, =i
⎟⎠⎞
⎜⎝⎛ =
−−
≥21
2434δ
囚人のジレンマ
割引因子δの条件
+
が成り立つ場合
(2,2)
(1,4)
(4,1)
(3,3)
プレイヤー1の利得
個人合理的利得ベクトル集合
⎥⎦
⎤⎢⎣
⎡2,21,44,13,3C
D
C Dプレイヤー2
プレイヤー1
ミニマックス利得の組 (2,2)
再掲:無限繰り返し囚人のジレンマ 13δ243 −< )2/1( <δ の場合
しっぺ返しに対するしっぺ返しの割引利得和
しっぺ返しに対するall-Dの割引利得和
しっぺ返しを選択する誘因がない
>
(2,2)
(1,4)
(4,1)
(3,3)
プレイヤー1の利得
プレイヤー2の利得
)1,24( δδ +−
)24,1( δδ −+
δ24−
3
お互いしっぺ返しの場合の割引利得和
プレイヤー1: all-Dプレイヤー2: しっぺ返し
の場合の割引利得和のとる範囲
プレイヤー1: しっぺ返しプレイヤー2: all-Dの場合の割引利得和
のとる範囲
ナッシュ均衡
再掲:無限繰り返し囚人のジレンマ 14δ243 −≥ )2/1( ≥δ の場合
しっぺ返しに対するしっぺ返しの割引利得和
しっぺ返しに対するall-Dの割引利得和 δ24−
3
(2,2)
(1,4)
(4,1)
(3,3)
プレイヤー1の利得
)24,1( δδ −+
お互いしっぺ返しの場合の割引利得和
プレイヤー2の利得
)1,24( δδ +−
ナッシュ均衡
ナッシュ均衡
プレイヤー1: all-Dプレイヤー2: しっぺ返し
の場合の割引利得和のとる範囲
プレイヤー1: しっぺ返しプレイヤー2: all-Dの場合の割引利得和
のとる範囲
しっぺ返しを選択する誘因が発生
>
フォークの定理 7トリガー戦略以外でも強く個人合理的な行動の組(C,C )の系列は
強く個人合理的な行動の組(C,C)からの離脱に対してミニマックス行動Dを選択する戦略との対戦
ナッシュ均衡戦略により実現可能か?
割引因子δが十分に大きいと成立
ex.) しっぺ返し戦略
離脱により得られる利得強い個人合理的な戦略の組から離脱してミニマックス行動を選択
された場合の割引利得和+
強い個人合理的な戦略の組から離脱しない場合の割引利得和
>
強く個人合理的な戦略の組に留まる誘因発生の条件
強く個人合理的な行動の組(C,C)の系列が実現可能
有限繰り返しゲームのナッシュ均衡 1
割引因子δは導入しない
繰り返し回数が有限 = 未来に対する不確実がない
有限繰り返しゲーム
成分ゲームGが唯一のナッシュ均衡点
は、
),( 21 eee =
TG ),( *2
*1
* sss =もつとき、任意の繰り返し回数Tに対して、
),...,,()( * eeesa =である
T回繰り返しゲーム のナッシュ均衡点
定理 2
を
有限繰り返しゲームのナッシュ均衡 2定理2 の証明 1
後ろ向き帰納法で証明
1回限りのゲームと同様であるので
繰り返しゲームのナッシュ均衡点は成分ゲームのナッシュ均衡点と一致する
1=T の場合①
の場合、定理2は成立する1=T
有限繰り返しゲームのナッシュ均衡 3定理2 の証明 2
T回目のゲームでは既に行動が決定していて、T-1回目のゲームはT回目のゲームに影響を与えない
2≥T の場合
• T回目のゲーム (最後の一回のゲーム)
②
以降のゲームに影響を与えないので、 T-1回目までのゲームの履歴にかかわらず1回限りのゲームと同様に扱うことができる
• T-1回目のゲーム
合理的な行動の結果は成分ゲームGのナッシュ均衡
合理的な行動の結果は成分ゲームGのナッシュ均衡
T-1回目までのゲームの履歴にかかわらずT-1回目のゲームも1回限りのゲームと同様に扱うことができる
1回目のゲームも 1回限りのゲームと同様に扱うことができる
2≥T の場合、毎回のゲームにおけるナッシュ均衡点は成分ゲームのナッシュ均衡点と一致する
• 1回目のゲーム
合理的な行動の結果は成分ゲームGのナッシュ均衡
2≥T の場合②
定理2 の証明 3
有限繰り返しゲームのナッシュ均衡 4
2回目のゲームでも既に行動が成分ゲームのナッシュ均衡戦略と決定していて、 1回目のゲームは2回目のゲームに影響を与えない
したがって、
有限繰り返しゲームのナッシュ均衡 5
① ,② において定理2が成立しているので1=T 2≥T
が成立する
成分ゲームGが唯一のナッシュ均衡点
は、
),( 21 eee =
TG ),( *2
*1
* sss =もつとき、任意の繰り返し回数Tに対して、
),...,,()( * eeesa =である
T回繰り返しゲーム のナッシュ均衡点
定理 2
を
有限繰り返しゲームのナッシュ均衡 6
毎回成分ゲームの均衡点(D,D)が繰り返される
有限繰り返し囚人のジレンマ
定理2 の仮定…「成分ゲームのナッシュ均衡点が唯一」
),( DD定理2 の仮定を満たす
有限繰り返し囚人のジレンマのナッシュ均衡
)),(),...,,((),...,()( 1* DDDDt == aasa
一回限りの囚人のジレンマのナッシュ均衡点は で唯一
繰り返し囚人のジレンマ コンテスト 1前述の繰り返し囚人のジレンマの分析
• ゲーム全体を俯瞰する立場からの考察
• プレイヤー個人の立場からの考察
ex.) 複数のナッシュ均衡点、フォークの定理
繰り返し囚人のジレンマコンテスト [Axelrod 1984]複数の戦略プログラムの総当たり対戦
有限繰り返し囚人のジレンマ
ナッシュ均衡戦略:all-D…高い利得を獲得できるか?
お互いにDを選択すれば、お互いCよりも低い利得
実際に繰り返し囚人のジレンマをおこなう場合、どのような戦略を選択すればよいのだろうか?
繰り返し囚人のジレンマ コンテスト 2
ルール 総当り対戦…各対戦は200回繰り返しを5回おこなう
評価…対戦で得られた利得の合計
⎥⎦
⎤⎢⎣
⎡2,21,44,13,3C
D
C Dコンテストで用いられた
利得行列
結果 優勝…しっぺ返しの戦略
上位を占めた戦略の特徴
キングメーカーの存在
自分から裏切らない = 上品さ(nice)相手が裏切っても再び協調し合える = 心の広さ(forgiveness)
プレイヤー 心理学、経済学、政治学、数学、社会学の分野に属する14名に作成されたプログラム + ランダム プログラム
第1回コンテストの概要
繰り返し囚人のジレンマ コンテスト 3
ルール
前回の分野 +コンピュータサイエンス、物理学等の分野に属する62名に作成されたプログラム +ランダム プログラム
プレイヤー
前回のルール + 繰り返し回数の確率的変動
結果
優勝… しっぺ返しの戦略
上位を占めた戦略の特徴
第1回コンテストの結果を踏まえた参加プログラムの2つの傾向
1.上品で心が広いプログラム (しっぺ返しの戦略の踏襲)
2. 1のようなプログラムから搾取を狙うプログラム
→ 1 同士では協調、2 同士で裏切り合い
上品で心が広い… 傾向1 → 前回と同様
非協調的な相手(ex. all-D)には裏切り
第2回コンテストの概要
繰り返し囚人のジレンマ コンテスト 4
ルール
各戦略毎に種プレイヤー
前回のルール + 繰り返し回数の確率的変動
結果 優性種の交代
最近の研究
高い利得を獲得した種が増加するfitness 関数
Top Related