[論文紹介] VCC-Finder: Finding Potential Vulnerabilities in Open-Source Projects to Assist Code Audits
論文紹介 : Unifying count based exploration and intrinsic motivation
-
Upload
katsuki-ohto -
Category
Science
-
view
611 -
download
0
Transcript of 論文紹介 : Unifying count based exploration and intrinsic motivation
Unifying Count-Based Exploration and Intrinsic Motivation第 34 回 強化学習勉強会 in RECRUITKatsuki Ohto @ YuriCat (github)
論文概要
Unifying Count-Based Exploration and Intrinsic Motivation (Bellemare et al. 2016)
NIPS2016 採択論文
Atari2600 のゲームで最難関とされていた MONTEZUNA’S REVENGE において飛躍的な向上
( MONTEZUNA’S REVENGE のプレイ動画)https://www.youtube.com/watch?v=0yI2wJ6F8r0
以降式や図は特に注釈がない限りこの論文からの引用
DQN (Mnih et el., 2013), (Mnih et al., 2015)deep Q-network画面の画素情報から convolutional neural network により離散的行動の価値を予測
(Mnih et al., 2015)
DQN (Mnih et el., 2013), (Mnih et al., 2015)Atari2600 の多くのゲームにおいて「プレイ画面の画像」と「報酬」だけからの強化学習に成功し人間より上達した例 ) ブロック崩し
(Mnih et al., 2015)
DQN の進歩
Gorila DQN (Nair et al., 2015) … DQN を並列環境で学習
Double DQN (van Hasselt et al., 2015) … 2 つの Q 関数を学習する Double Q-learning を適用(後ほど詳しく)
hierarchical-DQN (Kulkarni et al., 2016) … 低レベルの行動方策とメタ行動方針の階層的な構造の DQN(詳細は小山田創哲さんのスライドhttp://www.slideshare.net/sotetsukoyamada/kulkarni-et-al-2016)
MONTEZUNA’S REVENGEAtari2600 のゲームのうち、DQN にとって最も難しいと言われていた内の 1 つ
(Mnih et al., 2015)
ここ
MONTEZUNA’S REVENGEAtari2600 のゲームのうち、DQN にとって最も難しいと言われていた内の 1 つ
・多くの敵や罠・多数の部屋による迷路的な構成・報酬を得ることが少なく、即時性がない
(Kulkarni et al., 2016)
本論文の動機
・報酬が疎 (sparse) で、遅れて得られる (delayed) 場合→探索的行動 (exploration) が重要。 そのため観測した状態が新奇かどうか知りたい
・状態が高次元→状態や(状態 , 行動)、(状態 , 報酬)などの経験回数を実際に数えても 役に立たない(完全に同じ状態に到達することが少ない)
よって、(厳密には)新奇の状態に対しても擬似的な経験回数を算出し、探索的行動を促進したい
Notationsalphabet の集合
alphabet
長さ の alphabet の列
列の最後に alphabet を合成
sequential density model長さ n の列を観測した際に次に x を観測する確率のモデル
特に確率が全て正のとき
このとき universal (全域)なモデルという
empirical estimator同じく、長さ n の列を観測した際に次に x を観測する確率
実際に列の中に x が何回あったかの回数
観測されていない alphabet のところは確率が 0 になるので universal でない
提案する pseudo-count (準備)
x を 1 度観測して次に観測する確率を以下のように定義
特に universal なモデルの場合には以下の条件つき確率でも表現できる
提案する pseudo-countこのとき pseudo-count は以下の式を満たしてほしい( p.4 の式 (1) )
つまり、 1 回 x を観測したときに全体回数、 x を観測した回数がそれぞれ 1 回分増えたような確率になってほしい、ということ
この連立方程式を解くと( p.4 の式 (2) )
information gainsequential density model のクラス 上の混合モデル を以下の確率分布関数とする
この重み w の観測 x による更新式は以下
この重みの確率分布間の Kulback-Leibler divergence が information gain
prediction gaininformation gain の計算は難しかったり決定不可能であったりする
prediction gain がよい近似になる
x を一回観測したことによる情報量の差
pseudo-count と information gain との関係(Theorem 2)information gain prediction gain pseudo-countは以下の関係を満たす
Information gain は混合モデル上で計算される値だが、prediction gain と pseudo-count はそれを必要としない
Theorem 2 の証明
左側: KL 情報量の非負性
右側: pseudo-count の式( p.4 の式 (2) )を展開し prediction gain の定義の逆
pseudo-count の性能実験 (Figure 1)確率分布モデルとしてCTS モデル (Bellemare et al., 2014) を使用
Atari2600 の FREEWAY と PITFALL にてbaseline event と salient event のpseudo-count を計算
・ baseline event の pseudo-count がフレーム数に対して線形増加・ salient event を観測しうる区間(背景が緑色)において salient event の pseudo-countが増加
CTS density model確率分布モデルとしてCTS モデル (Bellemare et al., 2014) を使用
状態 x (画面全体)中の各ピクセルの値を factor と考え、
(i, j)ピクセルが
(i - 1, j), (i, j - 1), (i - 1, j - 1), (i + 1, j - 1)
ピクセルを parent とするグラフィカルモデル
フレームの各画素の値を予測するする確率モデル
Double DQN (van Hasselt et al., 2015)Q 関数を 2 つ用意し、互いの値を利用して値を更新するDouble Q-Learning (van Hasselt, 2010) を DQN に適用
Q 学習の際に現在の推定価値の argmax を取ることによる過大評価を防ぐ
Double Q-learning (van Hasselt, 2010)一般的な Q-learing の更新式
Double Q-learning における更新式
または
exploration bonus with pseudo-count以下の式 (6) による exploration bonus を与える
係数は 0.05 を使用
+0.01 は安定化のためこの値は、今回の DQN では報酬を [-1, +1] に限定しているため正規化の必要はなし
Double DQN with exploration bonus + MC return更新式にさらにモンテカルロ法による「報酬」和を加えるここにも exploration bonus を加える
モンテカルロ項は計算時間短縮のために追加、ほぼ全てのゲームで性能向上に寄与
experience replay なのでモンテカルロ項計算の遅延は問題ない
Experiment: 5 つのゲームでの学習の進行比較
Atati2600 の 5 つのゲーム(難しいもののうち、 CNN の価値関数と CTS density model が使えるもの)にて
・ exprolation bonus なし DQN
・ 1フレームごととエピソード終了時に負の報酬を得る DQN (optimistic initialization) (Machado et al., 2014)
・ exploration bonus を加えた DQN
を比較
Result: 5 つのゲームでの学習の進行 (Figure 2)各ゲームでの平均得点推移(〜 1億フレーム) DQN optimistic bonus
・ MONTEZUNA’S REVENGE, VENTURE にて bonus ありが圧倒・ FREEWAY では optimistic でも良い成績 (no bonus はおそらく 2 回失敗 )・ PRIVATE EYE は exploration bonus を入れても出来ない
Result : “known worlds” for agent (Figure 4) 上: no exploration bonus 下: with exploration bonusbonus を加えることでより多くの部屋に到達 ( 学習開始から 5000万フレーム )
A3C (Mnih et al., 2016)Asynchronous Advantage Actor-Critic の略
①asynchronous に複数のエージェントで学習を走らせる→ experience replay をしなくても学習が上手くいく
②actor-critic にする(方策と価値推定の両方を学習する)
③価値関数は advantage ( R - V(s) ) 2乗を最小化、方策は advantage を最大化
詳しくは藤田康博さんのスライドにてhttp://pt.slideshare.net/mooopan/a3c-62170605
Result : A3C と A3C+ の比較
A3C のパラメータ更新の際の報酬に exploration bonus を加えたものをA3C+ とする
Atari2600 の 60 のゲームで A3C と A3C+ を比較
ベースの A3C は 15 のゲームで学習に失敗(ランダムより 50% 以上伸びない)
一方 A3C+ は 10 のゲームでのみ学習に失敗
( DQN は 8 )
Result : A3C と A3C+ の比較 (Figure 5)A3C の 2億フレームでの得点に対する各段階の得点の割合( p.15 の式)
・中央値(太線)は 2億フレーム付近では大きな差はない
・ A3C+ ( exploration bonus あり)は1/4 程度のゲームで、半数の 1億フレームで A3C と同程度
Experiment: exploration bonus の与え方の検討式 (6) では exploration bonus を以下の式で与えた
これは Model-based interval estimation with exploratory bonus (MBIE-EB) (Sterl and Littman, 2008) の exploration bonus と同じ形状であった
Experiment: exploration bonus の与え方の検討ここでは exploration bonus の式を以下の形式に書き換えてみる
Bayesian Exploration Bonus (Kolter and Ng, 2009)
もしくは compression progress (Shumidhuber, 2008) に近い手法で
prediction gain に係数を掛けて bonus項にする
Result : exploration bonus の与え方 (Figure 6) Atari2600 の 60 のゲームにて各条件で
学習
inter-algorithm score distribution (Bellmare et al., 2013) を指標に全てのゲームでの総合成績を検討
(グラフの見方)高いスコアを出したゲーム割合←→低くないスコアを出したゲーム割合
Result : exploration bonus の与え方 (Figure 6)
・ no bonus は一部(おそらく、探索重要度が低い)ゲームでは高い得点
・ は学習の立ち上がりが早い
・ は 1000万フレームでは特に高い得点は出にくい(探索を重視する)が2億フレームやると良い成績に
・ の得点は低い
Future Work・ sequential density model の選択によって状態空間上の距離が定義出来るか
・ Solomonoff induction (Hutter, 2005) のような全域な確率密度モデルの解析
・ sequential density model と DQN における Q-learning の学習速度があっていないので、密度モデルに忘却を導入するか、密度モデルと Q 関数を対応が取れたものにする
・連続空間においても pseusdo-count が回数の概念に合うかどうかの検証
引用文献
Bellemare et al. (2016). Unifying Count-Based Exploration and Intrinsic Motivation. NIPS2016
Mnih et al. (2013). Playing Atari with Deep Reinforcement Learning.
Mnih et al. (2015). Human-level control through deep reinforcement learning.
Nair et al. (2015). Massively Parallel Methods for Deep Reinforcement Learning.
van Hasselt et al. (2015). Deep Reinforcement Learning with Double Q-learning.
Kulkarni et al. (2016). Hierarchical Deep Reinforcement Learning: Integrating Temporal Abstraction and Intrinsic Motivation. NIPS2016
Bellemare et al. (2014). Skip Context Tree Switching. 31st ICML
引用文献
van Hasselt et al. (2015). Double Q-learning. NIPS2010
Machado et al. (2014). Domain-independent optimistic initialization for reinforcement learning. arxiv:1410.4604
Mnih et al. (2016). Asynchronous methods for deep reinforcement learning. arXiv:1602.01783
Strehl and Littman. (2008). An analysis of model-based interval estimation for Markov desicion process.Journal of Computer Science, 74(8):1309 - 1331.
Kolter and Ng. (2009). Near-bayesian exploration in polynominal time. 26th ICML
Shumidhuber. (2008). Driven by compression progress.
引用文献
Bellemare et al. (2013). The Arcade Learning Environment: An evaluation platform for general agents. Journal of Artificial Intelligence Research, 47: 253-279
Hutter (2005). Universal artificial intelligence: Sequential decisions based on algorithmic probability. Springer
pseudo-count を用いた exploration の目的
exploration の度合いについては以下の 4段階に分けて考えられる(大渡考察)
0. 常に最適と推測した行動を選択( SARSA等)
1. 最適と推測していない行動もたまに選択( epsilon-greedy等)← DQN
2. 新奇な状態に遷移しそうな行動を選択
3. 新奇な状態を探索できそうな行動を選択(理想)
Q 学習により 3 まで到達可能だが特にモンテカルロ項を加えたことで 3 に対する学習が促進されたのでは