PRML 10.3, 10.4 (Pattern Recognition and Machine Learning)

17
2014 10 4 記号の使い方に関して 1 下記の記号体系の作成意図に関して - 概念の本質の理解にかかわる冗漫さを最小化するため。 - 後日の参照の際に、作成した数式を含むノートを容易に理解できるようにするため。 - 誤読の回避/入力と推敲の容易性/読解の手間の低減により、上記の目的の達成を目指している。 - まず最初に読んで欲しいものは「●」を付けたものであり、「○」はそれに準じるものである。 - それ以外については、後から参照すれば十分であると考えられる。 変数、特に確率変数に関する記号 2 -→ X 確率変数 [x] 既知化 (観測) 未知化 (由来参照) X x ←- P [x] 分布参照 P (x) 確率参照 表記 仮名称 この文書での定義 X 大文字化 変数 x の「未知化」 。分布を考慮することができるようになる。 x 意図達成 数式/変数の意図 (最適化/新たなデータの代入など) 達成を で示す。 x 任意化 変数の由来を残したまま、値を一般的に考慮する任意化の操作を表す。 [x] 一般化括弧 変数 x の「由来参照」/「未知化」/「任意化」のいずれかを示す。 X 観測/実現値 未知変数に がついた場合は、「観測/実現」した値を表すこととする。○ N (μ, σ 2 ) 観測/実現値 確率分布に がついた場合は、「観測/実現」した値を表すこととする。○ 引数 x の値だけでなく引数がどの確率変数に由来するか関知して P (x) 確率参照 確率参照記号 P は異なる働きをするものとする。 (従来の統計学の用法を踏襲。) 補助的に、Q, p, q も用いる。 P ([x]) 分布参照 未知化変数を引数に持つ確率参照は、分布を表す。 無名変数 数式表記簡潔化/変数 (の由来と意図) の考慮阻止の目的で用いる。 比例記号 未知化変数/無名変数のみを動かしたときの比例、と意味を限定する。 const. 定数記号 未知化変数/無名変数のみに対して定数関数、と意味を限定する。 普遍的総和 不都合の無い限り、総和及び積分をこの記号で表示する。 E P [x] ( f (x) | 条件 ) 相加平均を表す。(従来記法を踏襲。) G P [x] ( f (x) | 条件 ) 相乗平均を表す。geometric mean の頭文字 G を命名の参考にした。 省略記法 P [x] 分布参照 P ([x]) と同じ意味。 c. 定数記号 const. と同じ意味。 e {x} 指数関数 exp(x) または e x と同じ意味になる。 1 前回のゼミとも異なるので注意。 2 コルモゴロフによる確率論の公理論的展開において問題無く正当化が可能と考えられる。 1

description

パターン認識と機会学習10章 2014年10月4日(土)のゼミで話した内容。

Transcript of PRML 10.3, 10.4 (Pattern Recognition and Machine Learning)

Page 1: PRML 10.3, 10.4 (Pattern Recognition and Machine Learning)

2014年 10月 4日記号の使い方に関して 1

下記の記号体系の作成意図に関して

- 概念の本質の理解にかかわる冗漫さを最小化するため。

- 後日の参照の際に、作成した数式を含むノートを容易に理解できるようにするため。

- 誤読の回避/入力と推敲の容易性/読解の手間の低減により、上記の目的の達成を目指している。

- まず最初に読んで欲しいものは「●」を付けたものであり、「○」はそれに準じるものである。

- それ以外については、後から参照すれば十分であると考えられる。

変数、特に確率変数に関する記号 2

−→X

確率変数

[x]

既知化 (観測)

未知化 (由来参照)

X⋆

x

←−

P [x]

分布参照

P (x)

確率参照

表記 仮名称 この文書での定義

X 大文字化 変数 xの「未知化」 。分布を考慮することができるようになる。 ●

x⋆ 意図達成 数式/変数の意図 (最適化/新たなデータの代入など)達成を ⋆ で示す。

x∀ 任意化 変数の由来を残したまま、値を一般的に考慮する任意化の操作を表す。

[x] 一般化括弧 変数 xの「由来参照」/「未知化」/「任意化」のいずれかを示す。 ●

X⋆ 観測/実現値 未知変数に ⋆ がついた場合は、「観測/実現」した値を表すこととする。○

N (µ, σ2)⋆ 観測/実現値 確率分布に ⋆ がついた場合は、「観測/実現」した値を表すこととする。○

引数 xの値だけでなく引数がどの確率変数に由来するか関知して

P (x) 確率参照 確率参照記号 P は異なる働きをするものとする。 ●

(従来の統計学の用法を踏襲。)補助的に、Q, p, qも用いる。

P ([x]) 分布参照 未知化変数を引数に持つ確率参照は、分布を表す。 ●

• 無名変数 数式表記簡潔化/変数 (の由来と意図)の考慮阻止の目的で用いる。

∝ 比例記号 未知化変数/無名変数のみを動かしたときの比例、と意味を限定する。

const. 定数記号 未知化変数/無名変数のみに対して定数関数、と意味を限定する。∑′ 普遍的総和 不都合の無い限り、総和及び積分をこの記号で表示する。

EP [x]( f(x) |条件 ) 相加平均を表す。(従来記法を踏襲。)

GP [x]( f(x) |条件 ) 相乗平均を表す。geometric mean の頭文字 Gを命名の参考にした。 ●

省略記法

P [x] 分布参照 P ([x]) と同じ意味。

c. 定数記号 const.と同じ意味。

e′{x} 指数関数 exp(x)または ex と同じ意味になる。1前回のゼミとも異なるので注意。2コルモゴロフによる確率論の公理論的展開において問題無く正当化が可能と考えられる。

1

Page 2: PRML 10.3, 10.4 (Pattern Recognition and Machine Learning)

• 既存の確率論/統計学の書き方で、P (x) と書いた場合に、xが既に値を持っているのか、そうではなくて、

単に確率分布に興味があるのか、区別する手段が必要と考えた。前者を「確率参照」、後者を「分布参照」と

呼ぶことにし、この文書では、それぞれ P (x), P [x]のような記号で区別をすることとした。

– 条件付き確率については、おそらく誤解や混乱の余地無く、従来の記号用法に似た記法で、書けると考

えられる。

• ⋆ は上記のような利用で便利なので、混乱の無い限り、3種類の意味を文脈に応じて使い分ける。

• X⋆ = x、[x] = X である。一見冗長な定義だが、下記の場合を想定すると、無駄ではない。

– 既に使われているなど (名前の衝突)の理由で、小文字を大文字化できない場合。

– 同じ理由で、逆に大文字を「小文字化」でき無い場合。

– 添え字を伴う場合。xj = [X]j と [Xj ]は意味が異なるが、混乱しやすいので、読んで意味が分かりや

すいようにうまく工夫する。

• 確率/分布を表す式は、長くなりがちなため、必要に応じて、上記で定義した c.や e′を用いることで、式の

幅が広がり過ぎないようにした。

データを扱うための記号

(大体において数学の教科書に使われているような方法を踏襲する)

記号 参照名 この文書での定義

R 実数全体

RD 直積 D次元のベクトル全体

RN↕ / RM

↔ 縦/横ベクトル それぞれN 次元縦ベクトルとM 次元横ベクトル

N ×M 行列 行列の次元の順序 縦N 次元で横M 次元の行列であること

RNM

↕↔ N ×M 行列全体

IM 単位行列 対角要素は 1、非対角要素は 0の縦横M 次元の正方行列

ϕ : RD → RM 定義域と値域 写像 ϕの定義域と値域を→で結んで表示している。u · v 内積 同じ長さのベクトル 2個の内積を意味している。

(xi)Ni=1 数列 数列を表す。

2

Page 3: PRML 10.3, 10.4 (Pattern Recognition and Machine Learning)

議論展開に用いる記号

記号 仮名称 この文書での定義

⇐,⇔,⇒ 論理記号 純粋に論理的関係/論理的帰結を表す。(従来の数学的用法を踏襲。)

⇒! 不可逆帰結 ⇒であるが、⇔ではないことを示す。·⇒ 通常帰結 例外除去的な条件を課すと⇒と置換できるニュアンスを示す。⇒: 前提付加 左側のような前提条件を取り決めた上で、右側の命題を主張する。 ○

:⇐ 条件付加 右側のような条件を追加的に取り決めた上で、左側の命題を主張する。 ○

:⇔: 等価定義 等価な条件式を並べて、どれかの条件式で取り決めをすることを示す。

未定義  代入可能時主張 右辺の代入可能な全ての値について、左辺の条件が成り立つことを表す。

「· · ·」 カギ括弧 真偽の不明な命題、もしくは文字通りに解釈できない便宜上の数式を表す。

イコールに似た操作記号

記号 仮名称 この文書での定義

= 通常等号 少なくとも、純粋に論理的に両辺が等しい値を持つことを示す。

ニュアンス明確化の必要がある場合には、出来るだけこの他の記号に置換。

:=: 等式展開 計算すれば等式関係が判明可能であることを表す。 ●

:= 非未知化定義 左辺の未定義の変数について、右辺の内容で定義する。

左辺が単純な 1つの変数で無い場合には、未定義なのはどれであるか要注意。●

← 即時代入 左辺に右辺を即時に代入する。:=よりも意味が明確化する。 ○

(数式群からのアルゴリズムの構成に有用な場合がある。)

== 等式制約 等しいという条件を新たに加える操作を表す。 ●

:== 定義確認 既に定義したことを確認する意図で使う記号。 ○

未定義  定義可能主張 定義可能であることを主張し、かつ、それを定義として用いる。

未定義  定義可能時定義 定義可能な場合に限定して、それを定義として用いる。

≑ 近似記号 近似関係

:≑ 近似意図 右辺を近似する意図で、左辺に何かの定義操作を加える。

参考: プログラミング上の概念との対応

記号 対応する概念 詳細

:= 関数定義 定義の仕方は「遅延評価」になる。つまり即座には値を代入しない。

← 直接代入 (極限の記号/写像の定義域と値域を結ぶ記号である→ とは異なる。)

== 条件の宣言 C言語の ==とは意味は異なる。

:== 条件確認 ソフトウェアが動作中に指定条件を満たさない場合に警告を出すのと似ている。

• := と :== の両方の記法を定義したことにより、左辺をその場で定義したのか/既に定義したかのか、区別

が出来て便利。

• :=と←のある式を組み合わせることで、アルゴリズムが構成可能であるような式集合を作ることが可能と考えられる。この特徴を活用すると便利かもしれない。

• := を反転した =: を補助的に用いる場合がある。記号体系の整合性に問題が生じる可能性があるので、当

面控えめに用いる。

3

Page 4: PRML 10.3, 10.4 (Pattern Recognition and Machine Learning)

第10章の全般的な内容と構成に関して

上下巻全般からの10章についての言及のされかた

場所 (ページ) 言及のされ方 言及対象/解釈

1.2.3ベイズ確率 (23) 最近 1999 年以降? の非常に能率的な決定論的近似法 変分ベイズ法/EP法

1.2.4ガウス分布 (28) 分散パラメータがベイズアプローチでも得られる § 10.1.3 (§ 10.3.1?)

4.4ラプラス近似(213)(215) 解析的な近似/局所的でない全体的アプローチ 分解と変分近似

6.4.5ガウス過程からの分類 3個考えられるガウス分布近似 (1個は§ 6.4.6) 変分推論法/EP法

9混合モデルと EM (139)エレガントなベイズ的扱い KL距離を使ったこと?

余分な計算がほとんど不要 ?

データから自動的に要素数を決定 § 10.2

9.2.1混合ガウス最尤推定 (150)特異性による最尤推定の深刻な過学習を回避 EM alg.では未解決

◎ 識別性が高いとむしろ上記のような変なことが起こりやすくなることがある。

EMアルゴリズムの一般化が変分推論法の枠組み log px = Lpq +KLp(z|x)

q

10.2変分線形回帰(188) →「長く複雑なので · · · 後回しにして良い」 § 10.2全体について

手法紹介の年代に関して (教科書に記載されたもの全部とは限らない)

変分推論 (18世紀、オイラーとラグランジュ)/汎関数微分 (Feynmann et.al, 1964)

有限要素法 (Kapur,1989)/最大エントロピー法 (Schwarz,1988)

分布の分解の仮定 (Jordan et al.,1999; Jaakkola, 2001)/平均場近似 (Parisi, 1988)

条件 q⋆( (zj) ) = G[P (x,Z) ||Zj = zj ]による反復解の収束の保証 (Boyd and Vandenberghe, 2004)

αダイバージェンス (Ali and Silvey, 1966; Amari, 1985; Minka, 2005)

一変数ガウス分布を平均と分散で分解した近似の例 (MacKay, 2003)

ガウス分布のベイズ推論の完全な取り扱い (Minka 1998)

「変分混合ガウス分布」(ベイズ的でエレガント) (Attias, 1999b)

更新が最適化になっているのか徹底的なテスト (195)(Svensen and Bishop, 2004)

πをパラメータと見なして Lを最大化し、点推定する (Corduneanu and Bishop, 2001)

変分ベイズ法の推論を行う汎用ソフトウェアの構成 (207)(Bishop et al., 2003)

更新式は局所的なメッセージパッシングアルゴリズム (Winn and Bishop, 2005)

凸双対性の枠組み (Rockafellar, 1972; Jordan et al., 1999)

ガウス分布の関数形式でシグモイド関数の下限を作る (Jaakkola and Jordan, 2000)

EP法 (期待値伝搬法) (Minka, 2001a, Minka, 2001b) /雑音データ問題 (Minka, 2001b)

仮定密度フィルタリング (ADF)/モーメント一致法

(Maybeck, 1982; Lauritzen, 1992; Boyen and Koller, 1998; Opper and Winther,1999)

ロジスティックの形のモデルの場合は、EP法が局所的変分法/ラプラス近似より勝ることが多い

(Kuss and Rasmussen, 2006)

再重み付け木メッセージパッシング (Wainwright et al., 2005)

部分的確率伝搬 (Wiegerinck and Heskes, 2003)

Power EP法 (Minka, 2004)

◎ 変分法を統計学に使った話は、1970年代に Jagdish S. Rustagi が研究している。

4

Page 5: PRML 10.3, 10.4 (Pattern Recognition and Machine Learning)

10章の節の内容

節のタイトル 節の内容10.1 変分推論 分布を積に分ける/一般解を求める/ごく簡単な例10.2 例:変分混合ガウス分布 (例) 混合ガウス分布10.3 変分線形回帰 (例) 線形基底関数モデル10.4 指数型分布族 指数型分布族に関係することと/メッセージパッシング10.5 局所的変分推定法 局所的な下限?10.6 変分ロジスティック回帰 (例) ロジスティック回帰10.7EP法 逆 KL距離で考えた/(例)雑音とグラフィカルモデル

10章の節の構成 (小節の数とページ/参照先/例)

節小節の数(頁数) 依存先/言及先 計算例

10.14(11) 2.3ガウス分布 e−z2/2

1+e−20z−4 ; 細長い分布,2峰の分布;1変数ガウス分布10.25(13) 2.3.6, 10.4.1, 3.4, 7.2.2 間欠泉のデータに混合ガウスを適用10.33(4) 3.3 , 3.5 3次式にガウスノイズを入れた 10点10.41(3) 2.4, 4.2.4, 10.2.5 メッセージパッシング10.50(5) 1.6.1, 4.510.63(7) 4.5, 4.3 ロジスティック回帰10.72(2) 8.4 グラフ推論 混合ガウスモデル、雑音データ

10章の小節のタイトル

節のタイトル 小節のタイトル10.1 変分推論 分布の分解/分解の近似の持つ性質/一変数ガウス分布/モデル比較10.2 例:変分混合ガウス分布 変分事後分布/変分下限/予測分布/要素数決定/導出された分解10.3 変分線形回帰 変分分布/予測分布/変分下限10.4 指数型分布族 メッセージパッシング10.5 局所的変分推定法10.6 変分ロジスティック回帰 変分事後分布/変分パラメータの最適化/超パラメータの推論10.7EP法 雑音データ問題/グラフィカルモデルと EP法

5

Page 6: PRML 10.3, 10.4 (Pattern Recognition and Machine Learning)

似た様な章との比較

手法 利点 欠点

9章 混合モデルと EM (32頁) 離散潜在変数を扱う (例: どのクラスタに属するか)

K-means alg. 必ず極大値に収束する E-stepが無理なことがある (⇒10章,11章)

EM alg. (dimZ が高い/積分が閉形式でない場合)

10章 近似推論法 (62頁) 近似が決定的

変分法 or 変分ベイズ 事後分布の解析的近似 決して厳密解は求まらない

(分解/ガウス分布を使う)

11章 サンプリング法 (37頁) 近似が確率的

MCMC 厳密な漸近的な一致性 計算量が多く解ける問題は意外と小さい。

サンプルが互いに独立か検証困難。

12章 連続潜在変数 (48頁) 連続潜在変数を扱う (例: 文字画像のズレの分布を扱う)

線形ガウスモデル ? ?

6

Page 7: PRML 10.3, 10.4 (Pattern Recognition and Machine Learning)

■ 用語集 (索引に未記載のものなど)

変分ベイズ法 「変分推論法」と同じ。

モデルエビデンス パラメータを周辺化した尤度

モデルエビデンス最大化 パラメータを周辺化した尤度関数を最大にするパラメータを決定すること

非特異 連続な分布を持つ確率変数が、丁度ある値を持つ確率が 0で無いこと (ポイントマスを持つこと)。

積分消去 観測対象となりうる値の予測分布を求めるために、パラメータの変数に対して積分をすることで、その

パラメータを消去する操作。

解析的に 加減乗除およびべき乗の操作で式が表示できることを表す。

閉形式 積分の操作をした後の結果が「解析的」になった時の結果について表す。

モデル平均 p187 複数のモデルをパラメータで指定するようにして、そのパラメータ上の分布が求まったときに、

それを使った平均値を使うことと考えられる。(?)

■ 参考になりそうな他の文献:

1. 情報幾何学の新展開 甘利俊一 サイエンス社 (SGC-110)

ごく最近 (2014年 8月 25日)に出版された本で、EM alg. 等の理論的な話、最良検定など (私が個人的に気

になる話)、産業連関表への言及などあまり見たことの無い話、甘利氏のさまざまな個人的な研究にまつわ

る話が記載されており、興味深い。

2. 持橋さんのホームページ (所在未参照)

この章は長くて複雑なので、この章を補完する重要情報がインターネット上のどこかにあると聞いた。

http://ibisforest.org/index.php?PRML によると、10章を担当したのは持橋氏である。

■ 理解が難しいところなど ◎

• § 10.1(p177) 「十分に柔軟な分布を使っても、過学習の問題は起きない」

→ 理論的根拠はあるのか/経験則なのか?

• § 10.1.2(p183) 図 10.3「最もよく近似する一変数ガウス」 → 2変数ガウスではないか?

• § 10.1.4(p187) 隠れ変数 Z がモデルmにより「構造」が異なるということを反映した数学的に自然な表記

は何だろうか?

• § 10.3 (p204) 図 10.9について、どういう 3次式を用いたのだろうか? (第 2章の中間にある可能性がある。)

7

Page 8: PRML 10.3, 10.4 (Pattern Recognition and Machine Learning)

第10.1.2節 分解による近似のもつ性質下巻 180頁

この小節では 3例に、直前の小節 で示した方法の “分解” を適用し、その結果を観察する。

1. 2次元ガウス分布を q( (z1, z2) ) := q1(z1) q2(z2) (z1, z2 ∈ R) で “変分近似” する。

2. 比較のため、別の方法を適用する。KL距離KL( q ||P )の極小化をする代わりに、引数を逆転させたKL(P || q )を極小化する。

3. 2峰性の分布に対して適用し、局所解が複数存在することを調べる。

また、αダイバージェンスを紹介する。(KL距離、Hellinger距離の一般化になっている。)

P の分布 (↓) KL(q||P )を極小化した場合 KL(P ||q)を極小化した場合

斜めに細長い分布

分布を小さく

近似する傾向がある

周辺分布が一致する

(少なくとも 1 or 2次元ガウスの場合)

2峰性の分布

局所解が複数存在する 「予測性能の悪化をもたらす」P (z)がきわめて 0に近い場所で q(z)の値が大きいと ”損失” が大きいのでq の “分布域”は小さくまとまる。

q(z)がきわめて 0に近い場所で P (z)の値が大きいと ”損失” が大きいのでq は P の “分布域”を覆うように広がる。

◎考えると面白そうなこと:

• 分布の P と qが上記のようなケースだけではなくて、fat-tailな場合や特異の場合も考察して、何が起こる

か考える。

8

Page 9: PRML 10.3, 10.4 (Pattern Recognition and Machine Learning)

第10.1.3節 例: 一変数ガウス分布下巻 184頁

ガウス分布からN 個の点を観測した状況を考えている。

尤度関数 P (D = x|µ, τ) =(

τ2π

)N/2exp

{− τ

2

∑Nn=1(xn − µ)2

}(10.21)

事前分布: p[µ|τ ]← N (µ|µ0, (λ0τ)−1), p[τ ]← Gam(τ |a0, b0)を採用すると共役分布になる§ 2.3.6ガウス-ガンマ分布

演習 2.44 。

“分解”としては q[µ, τ ] = q[µ]× q[τ ] (10.24) とすることで、q[µ]はガウス分布、q[τ ]はガンマ分布となる。

(1)初期値 (2) µで最適化

(3) τ で最適化 (4) 収束解

分解 q[µ]q[τ ] := q[µ, τ ] (10.24)

共役事前分布 p([µ]|τ) ← N (µ0,1λ0) (10.22)

〃 p([τ ]) ← Gamma(a0, b0) (10.23)

最適解 q⋆[µ] :=: N (µN , λN ) := N(λ0µ0 +Nx

λ0 +N, (λ0 +N)Eq⋆[τ ](τ)

)(10.25− 27)

〃 q⋆[τ ] :=: Gam(aN , bN ) := Gam(a0 +N + 1

2, b0 +

1

2Eq⋆[µ]

[N∑

n=1

(xn − µ)2 + λ0(µ− µ0)

](10.28− 30)

(a0, b0, µ0, λ0)← (0, 0, 0, 0) =⇒ Eq⋆[µ][µ] = x,Eq⋆[µ][µ2] = x2 +

1

NEq⋆[τ ][τ ](10.32)

Eq⋆[τ ][τ ] = (x2 − x2)−1 = (∑N

n=1(xn − x)2/N)−1 (10.33),

補足 : 最尤推定と比較した優位性についての議論を含む、ガウス分布のベイズ推論の完全な扱いは、Minka1998(“Inferring a Gaussian distribution”. Media Lab note, MIT) を参照。

http://research.microsoft.com/˜minka

9

Page 10: PRML 10.3, 10.4 (Pattern Recognition and Machine Learning)

第3章 線形回帰モデル上巻135頁

この第 3章のメモについての作成意図 : 第 10.3節でよく参照されるため。

第 10.3節で必要と考えられる仮定と定義について (主に第 3章)

太字は主に節のタイトル 下線でよく使う用語の定義

●は x, t, ϕ,Φ, β, αの定義 ○は§ 10.3.から参照される事項節 (小節数)頁数 節のタイトル 10章で必要と考えられる仮定/定義事項

1.2.4 4 ガウス分布 精度とは分散の逆数であり 1/σ2 に等しい。

2.3.6 5 ガウス分布に対するベイズ推論 精度パラメータに対する共役事前分布はガンマ分布。

3. 42 線形回帰モデル ● N 個の観測値 (xn ∈ RD)と 「目標値」(tn ∈ R)

3.1 (5) 10 線形基底関数モデル 線形モデル = 線形基底関数モデル ∋ 線形回帰モデル

○●ϕj (j=0,...,M−1) :基底関数 (ただし ϕ0(x) := 1とする)

線形モデル y(x,w) :=∑

j=0..M−1 wjϕj(x) :=: w · ϕ(x)3.1.1 2 最尤推定と最小二乗法 ●計画行列 Φ :⇐ Φnj := ϕj(xn)

(3.16)

● β: 観測値へのノイズの分散の逆数 P (t|x,w, β) = N (t|y(x,w), β−1)

3.2 5 バイアス-バリアンス分解

3.3 (3) 9 ベイズ線形回帰

3.3.1 4 パラメータの分布 ● α: パラメータ wの各要素の精度 p(w|α) = N (w|0, α−1IM )

○ 事前分布P ([w]) := N (0, α−1), 観測ノイズP ([t]|x,w, β) := N (w · ϕ(x), β−1)⇒ P ( [w] |t) :=: N (mN , SN ) :⇐ (mN , SN ) := (β SNΦT t , (αIM + βΦTΦ)−1)

3.3.2 2 予測分布 ○ P (t⋆|x, t, α, β) :=: N (mN · ϕ(x⋆) , β−1 + ϕ(x⋆) · SNϕ(x⋆) )

3.3.3 2 等価カーネル

3.4 4 ベイズモデル比較 モデルエビデンス=周辺尤度,複数比較した比をベイズ因子′95 と呼ぶ

3.5 (3) 7 エビデンス近似′89 =経験ベイズ

′94,′04 =第二種の最尤推定′85 =一般化最尤推定

′75

パラメータ w の積分消去である。さて、なぜエビデンス近似というのか。

○ (1)w を積分消去して周辺尤度関数を作る。(2) その関数を最大化する超パラメータを探索する。

3.5.1 2 エビデンス関数の評価

3.5.2 2 エビデンス関数の最大化

予測分布P ( [t⋆] |t) :=:∑′

w,α,β P ( [t⋆] |w, β)P (w|t, α, β)P (α, β|t)パラメータ w の積分消去 P ( [t] |α, β) :=:

∑′w P ( [t] |w, β)P (w|α)

エビデンス関数最大化

⇔{

α = γ/mTNmN

β = (N − γ){∑N

n=1(tn −mTnϕ(xn))}−2

:⇐ γ :=∑

i(λi/(α+ λi) :⇐ (λi)は行列 (β ΦTΦ)の固有値

3.5.3 2 有効パラメータ数

3.6 1 固定された基底関数の限界

10

Page 11: PRML 10.3, 10.4 (Pattern Recognition and Machine Learning)

第3.3節と第3.5節の解釈

あらかじめ、M 重結合されることになる基底関数 (ϕj : RD → R)M−1j=0 が用意されているとする。

(ただし ϕ0(•) := 1とする。)

未知の加重係数 (wj)M−1j=0 に応じて、

観測されない y(x) :=∑M−1

j=0 wjϕj(x)(3.2) と観測される t(x) := y(x) +N (0, β)⋆ (3.8) が定義される。

データとして、(xn)Nn=1 と (tn)

Nn=1 が提供されている。

便宜上、下記の変数を定める。変数と定義 性質

Φ := (Φnj := ϕj(xn))nj 計画行列 (N ×M 行列である) § 3.1.1 (3.16) p139

SN :=(αIM + β ΦT Φ

)−1wの事後分布の分散 (3.49) § 3.3.1 (3.54) p152

mN := β SN ΦT t wの事後分布の平均 (3.49) § 3.3.1 (3.53) p152

(λi) :=β ΦT Φの固有値 S−1

N − αIM の固有値に等しい § 3.5.2 (3.87) p167

γ :=∑i

λiα+ λi

= Tr(IM − αS−1N ) § 3.5.2 (3.91) p168

ベイズ線形回帰を考える場合 (§ 3.3)、

事前分布 p[w]← N (0, α−1IM ) (3.52)

=⇒

事後分布 P ([w]|t,Φ) :=: N (mN , SN ) :=: N (β SN ΦT t , SN ) (3.49)(3.53)(3.54)

予測分布 P (t⋆|x, t, α, β) :=: N (mN · ϕ(x⋆) , β−1 + ϕ(x⋆) · SNϕ(x⋆) ) (3.58)(3.59)

エビデンス近似を考える場合 (§ 3.5)、

パラメータ wを積分消去した尤度関数 =: L[α, β]を最大化することを考える。

α⋆ :=:γ

mTN mN

(3.92)

さて、上記より γ =M − Tr(αS−1N )であるから、一次方程式を解くと次が成り立つ。

α⋆ =M

mTNmN +Tr(SN )

=M

Eq⋆(w) · Eq⋆(w) + TrSN(§ 10.3の考察で用いる。)

β⋆ :=:N − γ(

N∑n=1

{tn −mT

nϕ(xn)})2

(3.95)

◎ 補足

• 上記の SN :==(αIM + βΦTΦ

)−1において

– αIM は、事前情報量に相当する。

– βΦTΦは、事後情報量、フィッシャー情報量に相当する。

– 情報量と言うからには、加法性が成り立つ (この情報量はシャノン流のエントロピーとは異なる)。

11

Page 12: PRML 10.3, 10.4 (Pattern Recognition and Machine Learning)

第10.3節 変分回帰分析 200頁

初めに ベイズ線形回帰のことを「基底関数の線形結合モデル」の枠組みと言い換える場合がある。

話の流れ 変分推論の 2番目の例 3 として、ベイズ線形回帰§ 3.3 について考える。

この節の目的 基底関数の線形結合モデルの枠組みでエビデンスの最大化解 αを求める (β は固定)

背景 § 3.5.2でエビデンス最大化の枠組みを考えた。完全なベイズモデル (α, β,wの全てを積分消去)も考えられ

るが、この章の流れに沿い 4、変分ベイズによる近似を行う。

問題の定式化途中から第 10.3.1節

α ∈ Rが最適化したい精度、β ∈ Rは固定、(a0, b0)は共役事前分布のガンマ分布へのパラメータ。

w ∈ RM↕ , t ∈ RN

↕ , xn ∈ RD,ϕ : RD → RM

パラメータ wの事前分布 P ([w]|α) :== N (0, α−1IM ) (10.88)(3.52)

wに対する尤度関数 P ( t |w, x) :==∏N

n=1N (w · ϕ(xn) , β−1 ) (10.87)

共役事前分布 P (α) ← Gamma(a0, b0)(10.89)

全ての変数の同時分布 P (t, w, α) :=: P (t|w)P (w|α)P (α) (10.90) なぜここに記載?(グラフィカルモデルとの関連か?)

事後分布とその近似 q(w,α) := q(w) q(α) : ≑ P (w,α|t) (10.91)

変分推論の解 q⋆(w,α) 及び q⋆(w) , q⋆(α)

算出される変分解について

ガンマ分布パラメタ (aN , bN ) :=(a0 +

M2 , b0 +

12Eq⋆[w]

(wT w

))(10.94)(10.95)

αについての変分解 ⇒: q⋆[α] :=: Gamma(aN , bN ) (10.93)

補助等式 1 =⇒ Eq⋆[α](α ) :=: aN/bN =: E[α]⋆ (10.102)(10.104)

§3.1.1で定義したN ×M の計画行列 Φ :⇐ Φnj := ϕj(xn)(3.16)

補助変数 1 (§ 3.3.1で似た定義) ⇒: SN :=(Eq⋆[α](α ) IM + β ΦTΦ

)−1 (10.101)

補助変数 2 (§3.3.1で同じ定義) ⇒: mN := β SN ΦT t (M ×N 行列) (10.100)

wについての変分解 ⇒: q⋆[w] :=: N (mN , SN ) (10.99)

補助等式 2(M ×M 行列) =⇒ Eq⋆[w]

(wwT

):=: mN mT

N + SN =: E[wwT ]⋆ (10.103)

31 番目の例は、混合ガウス分布 (§ 10.2) で、3 番目はロジスティック回帰 (§ 10.6)。4積分消去困難な場合に特に有用と言える。

12

Page 13: PRML 10.3, 10.4 (Pattern Recognition and Machine Learning)

考察

• 実際に q⋆(w)と q⋆(α)を探索するには、補助等式 1と補助等式 2を交互参照して解く。

• 古典的なものとの整合性などを下記主張する。

考察ケース 比較される式 教科書での言及

(a0, b0)← (0, 0) E[α]⋆ =M

mTNmN +Tr(SN )

(10.104) 無限になだらか/変則事前分布

§ 3.5の最尤解 α⋆ =M

mTNmN +Tr(SN )

「比べてみると興味深い」

§ 9.3.4 EMアルゴリズム

SN =

(αIM + βΦTΦ

)−1 (3.54)

α =M

mTNmN +Tr(SN )

(9.63)q[w]が同じ分布を与える (?)

• wの分布についても上記のような対応を考察すると面白そうだ。◎

予測分布 (§ 10.3.2 203頁)

x⋆ を新しく入力される値、その結果出力される値を t⋆ とする。

P (t⋆|t, x⋆) :=: N ( mTN ϕ(x⋆) ,

1

β+ ϕ(x)T SN ϕ(x) ) (10.105)(10.106)

これは、SN を計算するときの αを固定したときの、§ 3.3節の線形基底ガウスモデルの予測分布 P (t⋆|x, t, α, β) :=:

N (mN · ϕ(x⋆) , β−1 + ϕ(x⋆) · SNϕ(x⋆) ) (3.58)(3.59) に一致する。

「変分下限」 (§ 10.3.3 203頁)

引数として w,α上の任意の関数 qに対する汎関数である L(q)の表式を算出する。

e′{•} :== exp(•), ディガンマ関数 ψ(•) :==d log Γ(•)

d •(B.25) 上巻 306 ページ

L(q) :== logG[p(w,α, t)]

G[q(w,α)]= log

G[p(t|w)]G[p(w|α)]G[p(α)]

G[q(w)]G[q(α)](10.107)

(10.108) G[p(t|w)] =

(β2π

)N/2

e′{β mTNΦT t }

e′{β2 tT t} e′{β2Tr[Φ

TΦ(mNmTN + SN )]}

(10.109) G[p(w|α)] ={e′(ψ(aN ))/bN}M/2

(2π)M/2e′{mTNmN +Tr(SN )}aN/2bN

(10.110) G[p(α)] =ba00 e

′{ψ(aN )/bN}a0−1

e′(b0aN/bN ) Γ(a0)

(10.111) 1 /G[q(w)] = |SN |1/2 e′{1 + log 2π}M/2

(10.112) 1 /G[q(α)] =Γ(aN ) e′{aN}

e′ { (aN − 1)ψ(aN ) } bN

13

Page 14: PRML 10.3, 10.4 (Pattern Recognition and Machine Learning)

計算例

上記でGは相乗平均を表す。変分解を求めるべく、L(q)を最大化するには、上記の最後の 2個の式を最小化する

(aN , bN )を探索することになる。そうすることで、L(q)の値を計算する。

次はモデルごとにmaxL(q)の値の変化する様子をみたもの。▼ モデルの次数ごとに L(q)をプロットしたものデータはある 3次多項式 f(x)に対して (f(xi) + ϵi)

10i=1 , ϵi ∼ N (0, 0.32)

事前分布のパラメータ (a0, b0)← (0, 0)

精度 αについては無情報事前分布 p(α) ∝ 1/α

14

Page 15: PRML 10.3, 10.4 (Pattern Recognition and Machine Learning)

第10.4節 指数型分布族• ガウス混合モデルを一般化して、指数型分布族の枠組みで変分ベイズを論じる。

• ここで述べる変分 E-step、変分M-stepは、後の第 10.6節でのロジスティック回帰にも使えて、非常に参考

になると考えられる。◎

• 第 10.4.1節では、別の枠組みで、有向グラフのグラフィカルモデルの枠組みで変分ベイズを論じる。

• さらに「全ての条件付き確率分布」が指数型分布族となる場合に、共役分布の「形状パラメータ」のグラフィカルモデル上の「局所的更新計算」になることを論じる。

• これは、大規模ネットワークを扱う応用例が考えられる。

ここでの導入記号

e′ := exp , c. := const. , η = η :自然パラメータ (χN , νN ):ηの形状パラメータ

指数型分布族に関する一般的な性質 (第 2.4節)

指数型分布族 p( [x] | [η] ) := g(η)h(x) e′(η · u(x)) (2.194)

共役事前分布 p( [η] | χ, ν) :== f(χ, ν) g(η)ν e′(η · (νχ)) (2.229)

=⇒事後分布 p( [η] |x, χ, ν) ∝ g(η)ν+N e′

(η ·

(νχ+

N∑n=1

u(xn)

))(2.230)

この節での変数の定義 (今までの潜在変数をさらにばらす)

性質 データサイズ増大との関係 例: ガウス混合モデル

Z 潜在変数 外延的 Z のサイズは連動して増大 zインジケータ変数kn

θパラメータ 内包的 θのサイズは連動せず一定 µ平均k ,Λ精度k , π混合比k

ガウス混合モデルについて、その観測変数と潜在変数の同時分布は、指数型分布族

• ガウス混合モデルの [xn]と [zn]の同時分布は指数型分布族である。

• [xn]の周辺分布は混合ガウス分布。これは指数型分布族ではない。

◎ 検証せよ

15

Page 16: PRML 10.3, 10.4 (Pattern Recognition and Machine Learning)

XとZの同時分布が指数型分布族の場合の変分近似について 5

指数型分布族 p(X,Z | [η] ) :=N∏

n=1

g(η)h(Xn, Zn) e′(η · u(Xn, Zn))

(10.113)

共役事前分布 p( [η] | ν0, χ0) ∝ g(η)ν0 e′(η · (ν0χ0))(10.114)

=⇒事後分布 p( [η] |X,Z, ν0, χ0) := g(η)ν0+N e′

(η ·

(ν0χ0 +

N∑n=1

u(Xn, Zn)

))

自然パラメータ [η] := [η] := [θ] からの何らかの変換

分解 q[z]× q[η] := q[z, η] :≑ p(x, z) (10.115) の直前

Z の変分近似解 q⋆(Z) :=: Gq⋆[η]{p(x,Z|η)} × c.

:=:N∏

n=1

h(xn, Zn)Gq⋆[η]{exp(η · u(xn, Zn))} × c. (10.115)

導出された分解 ∴∏N

n=1 q⋆(Zn) := q⋆(Z) と定義可能 (10.116) の直前

q⋆(Zn) :=: h(xn, Zn) × g (E[η] · u(xn, Zn))(10.116)

ηの変分近似解 q⋆[η] :=: p(η|ν0, χ0)Gq⋆[Z]{p(x, Z|η)} × c. (10.117)

:=: {g(η) e′(η · χ0)}ν0

N∏n=1

g(η) e′(η · Eq(Zn) (u(xn, Zn))

)(10.118)

νNの定義 νN := ν0 +N (10.120)

χNの定義 νN χN := ν0χ0 +

N∑n=1

Eq⋆(Z){u(xn, Zn) } (10.121)

ηの変分近似解 ∴ q⋆[η] :=: f(νN , χN ) × g(η)νN e′(η · νN χN ) (10.119)

手順: ◎

変分 E-step q[zn]から十分統計量の期待値 E[u(xn, zn)]を算出した上で、事後分布 q[η]を改良。

変分M-step q[η]から自然パラメータの期待値 E[η]を算出した上で、事後分布 q[z]を改良。

5指数型分布族を扱うことは、ガウス混合モデルの場合についてのひとつの一般化になっている。他には、次で行うような有向グラフによるグラフィカルモデリングとして扱うことによる一般化がある。

16

Page 17: PRML 10.3, 10.4 (Pattern Recognition and Machine Learning)

第10.4.1節 変分メッセージパッシング

混合ガウスモデルは有向グラフで マルコフブラケットの説明グラフィカルモデリング可能 (図 8.26, 96ページ)

• ベイズ混合ガウス分布は、有向グラフで表すことが出来る。これに変分ベイズを考えてきた。

• 今度は、さらに一般的に、有向グラフで表されるモデルに対して変分ベイズを考える。

定式化

有向グラフの同時分布∏i

p( [xi] | ⊕j∈pa(i)

xj) :== p(x) (10.122)

分解による近似∏i

q[xi] := q[x] :≑ p[x] (10.123)

変分解が満たす等式 q⋆[xj ] :=: Gq⋆(X)

∏i: =j

p(Xi|Xj = xj)× c. (10.124)

:=: Gq⋆(X)

∏i:∈pa(j)

p(Xi|Xj = xj)× c. ← 要再検討 ◎

• マルコフブランケット ◎

– q⋆[xj ]が依存するノード全体は、xj を表すノードのマルコフブランケットに対応している。

– よって、更新計算は、グラフ上で局所的なノードでの分布の更新計算になる。

– 従って、汎用ソフトウェアを構成可能 (Bishop2003)。

• 全ての p(Xi|Xj = x∀j )が指数型分布族で書けた場合

– 共役事前分布の形状パラメータの更新式が、「局所的なメッセージパッシングアルゴリズム」として表

現できる (Winn and Bishop2005)。

– Lの計算も簡単になる。(必要な量の多くがメッセージパッシングを通して既に求まっているため ?)

– このような分散メッセージパッシングは、耐規模性が良い。大きなネットワークを扱うのに、適して

いる。

17