論文紹介 : Unifying count based exploration and intrinsic motivation

38
Unifying Count-Based Exploration and Intrinsic Motivation 第 34 第 第第第第第第第 in RECRUIT Katsuki Ohto @ YuriCat (github)

Transcript of 論文紹介 : Unifying count based exploration and intrinsic motivation

Page 1: 論文紹介 : Unifying count based exploration and intrinsic motivation

Unifying Count-Based Exploration and Intrinsic Motivation第 34 回 強化学習勉強会 in RECRUITKatsuki Ohto @ YuriCat (github)

Page 2: 論文紹介 : Unifying count based exploration and intrinsic motivation

論文概要

Unifying Count-Based Exploration and Intrinsic Motivation (Bellemare et al. 2016)

NIPS2016 採択論文

Atari2600 のゲームで最難関とされていた MONTEZUNA’S REVENGE において飛躍的な向上

( MONTEZUNA’S REVENGE のプレイ動画)https://www.youtube.com/watch?v=0yI2wJ6F8r0

以降式や図は特に注釈がない限りこの論文からの引用

Page 3: 論文紹介 : Unifying count based exploration and intrinsic motivation

DQN (Mnih et el., 2013), (Mnih et al., 2015)deep Q-network画面の画素情報から convolutional neural network により離散的行動の価値を予測

                       (Mnih et al., 2015)                  

Page 4: 論文紹介 : Unifying count based exploration and intrinsic motivation

DQN (Mnih et el., 2013), (Mnih et al., 2015)Atari2600 の多くのゲームにおいて「プレイ画面の画像」と「報酬」だけからの強化学習に成功し人間より上達した例 ) ブロック崩し

                   (Mnih et al., 2015)

Page 5: 論文紹介 : Unifying count based exploration and intrinsic motivation

DQN の進歩

Gorila DQN (Nair et al., 2015) … DQN を並列環境で学習

Double DQN (van Hasselt et al., 2015) … 2 つの Q 関数を学習する Double Q-learning を適用(後ほど詳しく)

hierarchical-DQN (Kulkarni et al., 2016) … 低レベルの行動方策とメタ行動方針の階層的な構造の DQN(詳細は小山田創哲さんのスライドhttp://www.slideshare.net/sotetsukoyamada/kulkarni-et-al-2016)

Page 6: 論文紹介 : Unifying count based exploration and intrinsic motivation

MONTEZUNA’S REVENGEAtari2600 のゲームのうち、DQN にとって最も難しいと言われていた内の 1 つ

(Mnih et al., 2015)

ここ

Page 7: 論文紹介 : Unifying count based exploration and intrinsic motivation

MONTEZUNA’S REVENGEAtari2600 のゲームのうち、DQN にとって最も難しいと言われていた内の 1 つ

・多くの敵や罠・多数の部屋による迷路的な構成・報酬を得ることが少なく、即時性がない

(Kulkarni et al., 2016)

Page 8: 論文紹介 : Unifying count based exploration and intrinsic motivation

本論文の動機

・報酬が疎 (sparse) で、遅れて得られる (delayed) 場合→探索的行動 (exploration) が重要。 そのため観測した状態が新奇かどうか知りたい

・状態が高次元→状態や(状態 , 行動)、(状態 , 報酬)などの経験回数を実際に数えても 役に立たない(完全に同じ状態に到達することが少ない)

よって、(厳密には)新奇の状態に対しても擬似的な経験回数を算出し、探索的行動を促進したい

Page 9: 論文紹介 : Unifying count based exploration and intrinsic motivation

Notationsalphabet の集合

alphabet

長さ  の alphabet の列

列の最後に alphabet を合成

Page 10: 論文紹介 : Unifying count based exploration and intrinsic motivation

sequential density model長さ n の列を観測した際に次に x を観測する確率のモデル

特に確率が全て正のとき

このとき universal (全域)なモデルという

Page 11: 論文紹介 : Unifying count based exploration and intrinsic motivation

empirical estimator同じく、長さ n の列を観測した際に次に x を観測する確率

実際に列の中に x が何回あったかの回数

観測されていない alphabet のところは確率が 0 になるので universal でない

Page 12: 論文紹介 : Unifying count based exploration and intrinsic motivation

提案する pseudo-count (準備)

x を 1 度観測して次に観測する確率を以下のように定義

特に universal なモデルの場合には以下の条件つき確率でも表現できる

Page 13: 論文紹介 : Unifying count based exploration and intrinsic motivation

提案する pseudo-countこのとき pseudo-count    は以下の式を満たしてほしい( p.4 の式 (1) )

つまり、 1 回 x を観測したときに全体回数、 x を観測した回数がそれぞれ 1 回分増えたような確率になってほしい、ということ

この連立方程式を解くと( p.4 の式 (2) )

Page 14: 論文紹介 : Unifying count based exploration and intrinsic motivation

information gainsequential density model のクラス   上の混合モデル  を以下の確率分布関数とする

この重み w の観測 x による更新式は以下

この重みの確率分布間の Kulback-Leibler divergence が information gain

Page 15: 論文紹介 : Unifying count based exploration and intrinsic motivation

prediction gaininformation gain の計算は難しかったり決定不可能であったりする

prediction gain がよい近似になる

x を一回観測したことによる情報量の差

Page 16: 論文紹介 : Unifying count based exploration and intrinsic motivation

pseudo-count と information gain との関係(Theorem 2)information gain    prediction gain    pseudo-countは以下の関係を満たす

Information gain は混合モデル上で計算される値だが、prediction gain と pseudo-count はそれを必要としない

Page 17: 論文紹介 : Unifying count based exploration and intrinsic motivation

Theorem 2 の証明

左側: KL 情報量の非負性

右側: pseudo-count の式( p.4 の式 (2) )を展開し prediction gain の定義の逆

Page 18: 論文紹介 : Unifying count based exploration and intrinsic motivation

pseudo-count の性能実験 (Figure 1)確率分布モデルとしてCTS モデル (Bellemare et al., 2014) を使用

Atari2600 の FREEWAY と PITFALL にてbaseline event と salient event のpseudo-count を計算

・ baseline event の pseudo-count がフレーム数に対して線形増加・ salient event を観測しうる区間(背景が緑色)において salient event の pseudo-countが増加

Page 19: 論文紹介 : Unifying count based exploration and intrinsic motivation

CTS density model確率分布モデルとしてCTS モデル (Bellemare et al., 2014) を使用

状態 x (画面全体)中の各ピクセルの値を factor と考え、

(i, j)ピクセルが

(i - 1, j), (i, j - 1), (i - 1, j - 1), (i + 1, j - 1)

ピクセルを parent とするグラフィカルモデル

フレームの各画素の値を予測するする確率モデル

Page 20: 論文紹介 : Unifying count based exploration and intrinsic motivation

Double DQN (van Hasselt et al., 2015)Q 関数を 2 つ用意し、互いの値を利用して値を更新するDouble Q-Learning (van Hasselt, 2010) を DQN に適用

Q 学習の際に現在の推定価値の argmax を取ることによる過大評価を防ぐ

Page 21: 論文紹介 : Unifying count based exploration and intrinsic motivation

Double Q-learning (van Hasselt, 2010)一般的な Q-learing の更新式

Double Q-learning における更新式

 または

Page 22: 論文紹介 : Unifying count based exploration and intrinsic motivation

exploration bonus with pseudo-count以下の式 (6) による exploration bonus を与える

係数は 0.05 を使用

+0.01 は安定化のためこの値は、今回の DQN では報酬を [-1, +1] に限定しているため正規化の必要はなし

Page 23: 論文紹介 : Unifying count based exploration and intrinsic motivation

Double DQN with exploration bonus + MC return更新式にさらにモンテカルロ法による「報酬」和を加えるここにも exploration bonus を加える

モンテカルロ項は計算時間短縮のために追加、ほぼ全てのゲームで性能向上に寄与

experience replay なのでモンテカルロ項計算の遅延は問題ない

Page 24: 論文紹介 : Unifying count based exploration and intrinsic motivation

Experiment: 5 つのゲームでの学習の進行比較

Atati2600 の 5 つのゲーム(難しいもののうち、 CNN の価値関数と CTS density model が使えるもの)にて

・ exprolation bonus なし DQN

・ 1フレームごととエピソード終了時に負の報酬を得る DQN  (optimistic initialization) (Machado et al., 2014)

・ exploration bonus を加えた DQN

を比較

Page 25: 論文紹介 : Unifying count based exploration and intrinsic motivation

Result: 5 つのゲームでの学習の進行 (Figure 2)各ゲームでの平均得点推移(〜 1億フレーム) DQN optimistic bonus

・ MONTEZUNA’S REVENGE, VENTURE にて bonus ありが圧倒・ FREEWAY では optimistic でも良い成績 (no bonus はおそらく 2 回失敗 )・ PRIVATE EYE は exploration bonus を入れても出来ない

Page 26: 論文紹介 : Unifying count based exploration and intrinsic motivation

Result : “known worlds” for agent (Figure 4) 上: no exploration bonus 下: with exploration bonusbonus を加えることでより多くの部屋に到達 ( 学習開始から 5000万フレーム )

Page 27: 論文紹介 : Unifying count based exploration and intrinsic motivation

A3C (Mnih et al., 2016)Asynchronous Advantage Actor-Critic の略

①asynchronous に複数のエージェントで学習を走らせる→  experience replay をしなくても学習が上手くいく

②actor-critic にする(方策と価値推定の両方を学習する)

③価値関数は advantage ( R - V(s) ) 2乗を最小化、方策は advantage を最大化

詳しくは藤田康博さんのスライドにてhttp://pt.slideshare.net/mooopan/a3c-62170605

Page 28: 論文紹介 : Unifying count based exploration and intrinsic motivation

Result : A3C と A3C+ の比較

A3C のパラメータ更新の際の報酬に exploration bonus を加えたものをA3C+ とする

Atari2600 の 60 のゲームで A3C と A3C+ を比較

ベースの A3C は 15 のゲームで学習に失敗(ランダムより 50% 以上伸びない)

一方 A3C+ は 10 のゲームでのみ学習に失敗

( DQN は 8 )

Page 29: 論文紹介 : Unifying count based exploration and intrinsic motivation

Result : A3C と A3C+ の比較 (Figure 5)A3C の 2億フレームでの得点に対する各段階の得点の割合( p.15 の式)

・中央値(太線)は 2億フレーム付近では大きな差はない

・ A3C+ ( exploration bonus あり)は1/4 程度のゲームで、半数の 1億フレームで A3C と同程度

Page 30: 論文紹介 : Unifying count based exploration and intrinsic motivation

Experiment: exploration bonus の与え方の検討式 (6) では exploration bonus を以下の式で与えた

これは Model-based interval estimation with exploratory bonus (MBIE-EB) (Sterl and Littman, 2008) の exploration bonus と同じ形状であった

Page 31: 論文紹介 : Unifying count based exploration and intrinsic motivation

Experiment: exploration bonus の与え方の検討ここでは exploration bonus の式を以下の形式に書き換えてみる

  Bayesian Exploration Bonus (Kolter and Ng, 2009)

 もしくは compression progress (Shumidhuber, 2008) に近い手法で

  prediction gain に係数を掛けて bonus項にする 

Page 32: 論文紹介 : Unifying count based exploration and intrinsic motivation

Result : exploration bonus の与え方 (Figure 6) Atari2600 の 60 のゲームにて各条件で

学習

inter-algorithm score distribution (Bellmare et al., 2013) を指標に全てのゲームでの総合成績を検討

(グラフの見方)高いスコアを出したゲーム割合←→低くないスコアを出したゲーム割合

Page 33: 論文紹介 : Unifying count based exploration and intrinsic motivation

Result : exploration bonus の与え方 (Figure 6)

・ no bonus は一部(おそらく、探索重要度が低い)ゲームでは高い得点

・   は学習の立ち上がりが早い

・    は 1000万フレームでは特に高い得点は出にくい(探索を重視する)が2億フレームやると良い成績に

・   の得点は低い

Page 34: 論文紹介 : Unifying count based exploration and intrinsic motivation

Future Work・ sequential density model の選択によって状態空間上の距離が定義出来るか

・ Solomonoff induction (Hutter, 2005) のような全域な確率密度モデルの解析

・ sequential density model と DQN における Q-learning の学習速度があっていないので、密度モデルに忘却を導入するか、密度モデルと Q 関数を対応が取れたものにする

・連続空間においても pseusdo-count     が回数の概念に合うかどうかの検証

Page 35: 論文紹介 : Unifying count based exploration and intrinsic motivation

引用文献

Bellemare et al. (2016). Unifying Count-Based Exploration and Intrinsic Motivation. NIPS2016

Mnih et al. (2013). Playing Atari with Deep Reinforcement Learning.

Mnih et al. (2015). Human-level control through deep reinforcement learning.

Nair et al. (2015). Massively Parallel Methods for Deep Reinforcement Learning.

van Hasselt et al. (2015). Deep Reinforcement Learning with Double Q-learning.

Kulkarni et al. (2016). Hierarchical Deep Reinforcement Learning: Integrating Temporal Abstraction and Intrinsic Motivation. NIPS2016

Bellemare et al. (2014). Skip Context Tree Switching. 31st ICML

Page 36: 論文紹介 : Unifying count based exploration and intrinsic motivation

引用文献

van Hasselt et al. (2015). Double Q-learning. NIPS2010

Machado et al. (2014). Domain-independent optimistic initialization for reinforcement learning. arxiv:1410.4604

Mnih et al. (2016). Asynchronous methods for deep reinforcement learning. arXiv:1602.01783

Strehl and Littman. (2008). An analysis of model-based interval estimation for Markov desicion process.Journal of Computer Science, 74(8):1309 - 1331.

Kolter and Ng. (2009). Near-bayesian exploration in polynominal time. 26th ICML

Shumidhuber. (2008). Driven by compression progress.

Page 37: 論文紹介 : Unifying count based exploration and intrinsic motivation

引用文献

Bellemare et al. (2013). The Arcade Learning Environment: An evaluation platform for general agents. Journal of Artificial Intelligence Research, 47: 253-279

Hutter (2005). Universal artificial intelligence: Sequential decisions based on algorithmic probability. Springer

Page 38: 論文紹介 : Unifying count based exploration and intrinsic motivation

pseudo-count を用いた exploration の目的

exploration の度合いについては以下の 4段階に分けて考えられる(大渡考察)

0. 常に最適と推測した行動を選択( SARSA等)

1. 最適と推測していない行動もたまに選択( epsilon-greedy等)← DQN

2. 新奇な状態に遷移しそうな行動を選択

3. 新奇な状態を探索できそうな行動を選択(理想)

Q 学習により 3 まで到達可能だが特にモンテカルロ項を加えたことで 3 に対する学習が促進されたのでは