論文紹介 : Unifying count based exploration and intrinsic motivation

Unifying Count-Based Exploration and Intrinsic Motivation第 34 回強化学習勉強会 in RECRUITKatsuki Ohto @ YuriCat (github)

論文概要

Unifying Count-Based Exploration and Intrinsic Motivation (Bellemare et al. 2016)

NIPS2016 採択論文

Atari2600 のゲームで最難関とされていた MONTEZUNA’S REVENGE において飛躍的な向上

（ MONTEZUNA’S REVENGE のプレイ動画）https://www.youtube.com/watch?v=0yI2wJ6F8r0

以降式や図は特に注釈がない限りこの論文からの引用

https://www.youtube.com/watch?v=0yI2wJ6F8r0

DQN (Mnih et el., 2013), (Mnih et al., 2015)deep Q-network画面の画素情報から convolutional neural network により離散的行動の価値を予測

　　　　　　　　　　　　　　　　　　　　　　 (Mnih et al., 2015) 　　　　　　　　　　　　　　　　　

DQN (Mnih et el., 2013), (Mnih et al., 2015)Atari2600 の多くのゲームにおいて「プレイ画面の画像」と「報酬」だけからの強化学習に成功し人間より上達した例 ) ブロック崩し

　　　　　　　　　　　　　　　　　　 (Mnih et al., 2015)

DQN の進歩

Gorila DQN (Nair et al., 2015) … DQN を並列環境で学習

Double DQN (van Hasselt et al., 2015) … 2 つの Q 関数を学習する Double Q-learning を適用（後ほど詳しく）

hierarchical-DQN (Kulkarni et al., 2016) … 低レベルの行動方策とメタ行動方針の階層的な構造の DQN（詳細は小山田創哲さんのスライドhttp://www.slideshare.net/sotetsukoyamada/kulkarni-et-al-2016）

http://www.slideshare.net/sotetsukoyamada/kulkarni-et-al-2016

MONTEZUNA’S REVENGEAtari2600 のゲームのうち、DQN にとって最も難しいと言われていた内の 1 つ

(Mnih et al., 2015)

ここ

MONTEZUNA’S REVENGEAtari2600 のゲームのうち、DQN にとって最も難しいと言われていた内の 1 つ

・多くの敵や罠・多数の部屋による迷路的な構成・報酬を得ることが少なく、即時性がない

(Kulkarni et al., 2016)

本論文の動機

・報酬が疎 (sparse) で、遅れて得られる (delayed) 場合→探索的行動 (exploration) が重要。　そのため観測した状態が新奇かどうか知りたい

・状態が高次元→状態や（状態 , 行動）、（状態 , 報酬）などの経験回数を実際に数えても　役に立たない（完全に同じ状態に到達することが少ない）

よって、（厳密には）新奇の状態に対しても擬似的な経験回数を算出し、探索的行動を促進したい

Notationsalphabet の集合

alphabet

長さ　　の alphabet の列

列の最後に alphabet を合成

sequential density model長さ n の列を観測した際に次に x を観測する確率のモデル

特に確率が全て正のとき

このとき universal （全域）なモデルという

empirical estimator同じく、長さ n の列を観測した際に次に x を観測する確率

実際に列の中に x が何回あったかの回数

観測されていない alphabet のところは確率が 0 になるので universal でない

提案する pseudo-count （準備）

x を 1 度観測して次に観測する確率を以下のように定義

特に universal なモデルの場合には以下の条件つき確率でも表現できる

提案する pseudo-countこのとき pseudo-count 　　　は以下の式を満たしてほしい（ p.4 の式 (1) ）

つまり、 1 回 x を観測したときに全体回数、 x を観測した回数がそれぞれ 1 回分増えたような確率になってほしい、ということ

この連立方程式を解くと（ p.4 の式 (2) ）

information gainsequential density model のクラス　　　上の混合モデル　　を以下の確率分布関数とする

この重み w の観測 x による更新式は以下

この重みの確率分布間の Kulback-Leibler divergence が information gain

prediction gaininformation gain の計算は難しかったり決定不可能であったりする

prediction gain がよい近似になる

x を一回観測したことによる情報量の差

pseudo-count と information gain との関係(Theorem 2)information gain 　　 prediction gain 　　 pseudo-countは以下の関係を満たす

Information gain は混合モデル上で計算される値だが、prediction gain と pseudo-count はそれを必要としない

Theorem 2 の証明

左側： KL 情報量の非負性

右側： pseudo-count の式（ p.4 の式 (2) ）を展開し prediction gain の定義の逆

pseudo-count の性能実験 (Figure 1)確率分布モデルとしてCTS モデル (Bellemare et al., 2014) を使用

Atari2600 の FREEWAY と PITFALL にてbaseline event と salient event のpseudo-count を計算

・ baseline event の pseudo-count がフレーム数に対して線形増加・ salient event を観測しうる区間（背景が緑色）において salient event の pseudo-countが増加

CTS density model確率分布モデルとしてCTS モデル (Bellemare et al., 2014) を使用

状態 x （画面全体）中の各ピクセルの値を factor と考え、

(i, j)ピクセルが

(i - 1, j), (i, j - 1), (i - 1, j - 1), (i + 1, j - 1)

ピクセルを parent とするグラフィカルモデル

フレームの各画素の値を予測するする確率モデル

Double DQN (van Hasselt et al., 2015)Q 関数を 2 つ用意し、互いの値を利用して値を更新するDouble Q-Learning (van Hasselt, 2010) を DQN に適用

Q 学習の際に現在の推定価値の argmax を取ることによる過大評価を防ぐ

Double Q-learning (van Hasselt, 2010)一般的な Q-learing の更新式

Double Q-learning における更新式

　または

exploration bonus with pseudo-count以下の式 (6) による exploration bonus を与える

係数は 0.05 を使用

+0.01 は安定化のためこの値は、今回の DQN では報酬を [-1, +1] に限定しているため正規化の必要はなし

Double DQN with exploration bonus + MC return更新式にさらにモンテカルロ法による「報酬」和を加えるここにも exploration bonus を加える

モンテカルロ項は計算時間短縮のために追加、ほぼ全てのゲームで性能向上に寄与

experience replay なのでモンテカルロ項計算の遅延は問題ない

Experiment: 5 つのゲームでの学習の進行比較

Atati2600 の 5 つのゲーム（難しいもののうち、 CNN の価値関数と CTS density model が使えるもの）にて

・ exprolation bonus なし DQN

・ 1フレームごととエピソード終了時に負の報酬を得る DQN　 (optimistic initialization) (Machado et al., 2014)

・ exploration bonus を加えた DQN

を比較

Result: 5 つのゲームでの学習の進行 (Figure 2)各ゲームでの平均得点推移（〜 1億フレーム） DQN optimistic bonus

・ MONTEZUNA’S REVENGE, VENTURE にて bonus ありが圧倒・ FREEWAY では optimistic でも良い成績 (no bonus はおそらく 2 回失敗 )・ PRIVATE EYE は exploration bonus を入れても出来ない

Result : “known worlds” for agent (Figure 4) 上： no exploration bonus 下： with exploration bonusbonus を加えることでより多くの部屋に到達 ( 学習開始から 5000万フレーム )

A3C (Mnih et al., 2016)Asynchronous Advantage Actor-Critic の略

①asynchronous に複数のエージェントで学習を走らせる→　 experience replay をしなくても学習が上手くいく

②actor-critic にする（方策と価値推定の両方を学習する）

③価値関数は advantage （ R - V(s) ） 2乗を最小化、方策は advantage を最大化

詳しくは藤田康博さんのスライドにてhttp://pt.slideshare.net/mooopan/a3c-62170605

http://pt.slideshare.net/mooopan/a3c-62170605

Result : A3C と A3C+ の比較

A3C のパラメータ更新の際の報酬に exploration bonus を加えたものをA3C+ とする

Atari2600 の 60 のゲームで A3C と A3C+ を比較

ベースの A3C は 15 のゲームで学習に失敗（ランダムより 50% 以上伸びない）

一方 A3C+ は 10 のゲームでのみ学習に失敗

（ DQN は 8 ）

Result : A3C と A3C+ の比較 (Figure 5)A3C の 2億フレームでの得点に対する各段階の得点の割合（ p.15 の式）

・中央値（太線）は 2億フレーム付近では大きな差はない

・ A3C+ （ exploration bonus あり）は1/4 程度のゲームで、半数の 1億フレームで A3C と同程度

Experiment: exploration bonus の与え方の検討式 (6) では exploration bonus を以下の式で与えた

これは Model-based interval estimation with exploratory bonus (MBIE-EB) (Sterl and Littman, 2008) の exploration bonus と同じ形状であった

Experiment: exploration bonus の与え方の検討ここでは exploration bonus の式を以下の形式に書き換えてみる

　 Bayesian Exploration Bonus (Kolter and Ng, 2009)

　もしくは compression progress (Shumidhuber, 2008) に近い手法で

　 prediction gain に係数を掛けて bonus項にする　

Result : exploration bonus の与え方 (Figure 6) Atari2600 の 60 のゲームにて各条件で

学習

inter-algorithm score distribution (Bellmare et al., 2013) を指標に全てのゲームでの総合成績を検討

（グラフの見方）高いスコアを出したゲーム割合←→低くないスコアを出したゲーム割合

Result : exploration bonus の与え方 (Figure 6)

・ no bonus は一部（おそらく、探索重要度が低い）ゲームでは高い得点

・　　　は学習の立ち上がりが早い

・　　　　は 1000万フレームでは特に高い得点は出にくい（探索を重視する）が2億フレームやると良い成績に

・　　　の得点は低い

Future Work・ sequential density model の選択によって状態空間上の距離が定義出来るか

・ Solomonoff induction (Hutter, 2005) のような全域な確率密度モデルの解析

・ sequential density model と DQN における Q-learning の学習速度があっていないので、密度モデルに忘却を導入するか、密度モデルと Q 関数を対応が取れたものにする

・連続空間においても pseusdo-count 　　　　が回数の概念に合うかどうかの検証

引用文献

Bellemare et al. (2016). Unifying Count-Based Exploration and Intrinsic Motivation. NIPS2016

Mnih et al. (2013). Playing Atari with Deep Reinforcement Learning.

Mnih et al. (2015). Human-level control through deep reinforcement learning.

Nair et al. (2015). Massively Parallel Methods for Deep Reinforcement Learning.

van Hasselt et al. (2015). Deep Reinforcement Learning with Double Q-learning.

Kulkarni et al. (2016). Hierarchical Deep Reinforcement Learning: Integrating Temporal Abstraction and Intrinsic Motivation. NIPS2016

Bellemare et al. (2014). Skip Context Tree Switching. 31st ICML

引用文献

van Hasselt et al. (2015). Double Q-learning. NIPS2010

Machado et al. (2014). Domain-independent optimistic initialization for reinforcement learning. arxiv:1410.4604

Mnih et al. (2016). Asynchronous methods for deep reinforcement learning. arXiv:1602.01783

Strehl and Littman. (2008). An analysis of model-based interval estimation for Markov desicion process.Journal of Computer Science, 74(8):1309 - 1331.

Kolter and Ng. (2009). Near-bayesian exploration in polynominal time. 26th ICML

Shumidhuber. (2008). Driven by compression progress.

引用文献

Bellemare et al. (2013). The Arcade Learning Environment: An evaluation platform for general agents. Journal of Artificial Intelligence Research, 47: 253-279

Hutter (2005). Universal artificial intelligence: Sequential decisions based on algorithmic probability. Springer

pseudo-count を用いた exploration の目的

exploration の度合いについては以下の 4段階に分けて考えられる（大渡考察）

0. 常に最適と推測した行動を選択（ SARSA等）

1. 最適と推測していない行動もたまに選択（ epsilon-greedy等）← DQN

2. 新奇な状態に遷移しそうな行動を選択

3. 新奇な状態を探索できそうな行動を選択（理想）

Q 学習により 3 まで到達可能だが特にモンテカルロ項を加えたことで 3 に対する学習が促進されたのでは

論文紹介 : Unifying count based exploration and intrinsic motivation

Science

Transcript of 論文紹介 : Unifying count based exploration and intrinsic motivation