Stochastic Variational Inference

Stochastic Variational Inferenceの紹介

林　楓 / Twitter @ahahsak

創発システム研究室 B4

January 12, 2016

林　楓 / Twitter @ahahsak (創発研) Stochastic Variational Inference の紹介 January 12, 2016 1 / 53

以下の文献を参考に，確率的変分近似法と言われる SVIを紹介します．• Matthew D Hoffmanらの原著 ” Stochastic Variational Inference ”• 佐藤一誠先生の著書「トピックモデルによる統計的潜在意味解析」

本スライドでは以下のことを紹介．

• Stochastic Variational Inference (SVI):事後分布を近似するためのアルゴリズム

• Latent Dirichlet Allocationへの適用

Keywards: Bayesian inference, variational inference, stochastic opti-mization, topic model


1 Stochastic Variational Inference

2 SVI for LDA

3 まとめ

4 指数型分布族と共役性



2 SVI for LDA

3 まとめ



SVI

本章では以下の流れで説明を行う．

• SVIを適用するモデルの定義．• モデルに変分ベイズ法を適用．• 確率的最適化• 自然勾配• モデルに SVIを適用．• Extension


局所潜在変数と大域潜在変数

• 観測 x1:N，局所潜在変数 z1:N，大域潜在変数 βを持つグラフィカルモデルを考える．

• p(β|x, z, α)と p(zn j|xn, zn,− j, β)が指数型分布族であると仮定する．


指数型分布族

指数型分布族の基本形

p(x|η) = h(η) exp{ηTt(x) − a(η)}

h(·)：基底測度，a(·)：対数正規化項（スカラ関数）η(·)：自然パラメータ，t(·)：十分統計量（ベクトル関数）

• 指数型分布族の形で分布を表すと，変分ベイズ法や EMアルゴリズムを適用を考えやすくなる（計算が楽になる）

• 正規分布や二項分布，ディリクレ分布，ポアソン分布など多くの分布がこの族に属す（混合ガウス分布は除く）


指数型分布族

指数型分布族の基本形

p(x|η) = h(η) exp{ηTt(x) − a(η)}

h(·)：基底測度，a(·)：対数正規化項（スカラ関数）η(·)：自然パラメータ，t(·)：十分統計量（ベクトル関数）

• 事後分布 p(β|x, z, α)

p(β|x, z, α)

= h(β) exp{ηg(x, z, α)Tt(β) − ag(ηg(x, z, α))} (1)

• 事後分布 p(zn j|xn, zn,− j, β)

p(zn j|xn, zn,− j, β)

= h(zn j) exp{ηl(xn, zn,− j, β)Tt(zn j) − al(ηl(xn, zn,− j, β))} (2)


指数型分布族

• 尤度 p(xn, zn|β)

p(xn, zn|β) = h(xn, zn) exp{βTt(xn, zn) − al(β)} (3)

• 事前分布 p(β|α)

p(β|α) = h(β) exp{αTt(β) − ag(α)} (4)

十分統計量は t(β) = (β,−al(β))である，また，ハイパーパラメータ αは 2つの要素から構成され，α1は βと同じ次元のベクトル，α2はスカラーであり，α = (α1, α2)となる．式 (3)，(4)から，式 (1)の自然パラメータは次のように表せる．（補足参照）

ηg(x, z, α) = (α1 +

N∑n=1

t(zn, xn), α2 + N) (5)


対数周辺尤度とKL情報量

変分ベイズ法では事後分布と変分事後分布との KL情報量を最小化するために，変分下限の最大化を行う．

p(x|α) = L[q(z, β)] + KL[q(z, β)||p(z, β|x, α)]


変分下限の導出

変分下限Lは対数関数の凸性とイエンゼンの不等式を利用することで得られる．

log p(x) = log∫

p(x, z, β)dzdβ

= log∫

q(z, β)p(x, z, β)q(z, β)

dzdβ

= logEq

[p(x, z, β)q(z, β)

]≥ Eq

[log p(x, z, β)

] − Eq[log q(z, β)

](6)

def= L(q)


変分下限の導出

L(q) = Eq[log p(x, z, β)

] − Eq[log q(z, β)

]• 結合分布の対数の期待値 Eq

[log p(x, z, β)

]Eq[log p(x, z, β)

]= Eq

[log p(β|x, z)p(x, z)

]= Eq

[log p(β|x, z)

]+ Eq

[p(x, z)

](7)

• 変分事後分布のエントロピー −Eq[log q(z, β)

]−Eq[log q(z, β)

]= −Eq

[log q(β|λ)]

−N∑

n=1

J∑j=1

Eq[log q(zn j|ϕn j)

](8)

※変分事後分布 q(z, β)は因子分解可能を仮定する．


変分下限の最大化

L(q) = Lglobal +Llocal

Lglobal = Eq[log p(β|x, z)

] − Eq[log q(β|λ)] def

= L(λ)

Llocal = Eq[log p(zn j|xn, zn,− j, β)

]− Eq

[log q(zn j)

] def= L(ϕn j)



変分事後分布の定義 (指数型分布族)

q(β|λ) = h(β) exp{λTt(β) − ag(λ)} (9)q(zn j|ϕn j) = h(zn j) exp{ϕT

n jt(zn j) − al(ϕn j)} (10)

式 (1),(9)より， L(λ)は次のように変形できる．

L(λ) = Eq[ηg(x, z, α)

]T ∇λag(λ) − λT∇λag(λ) + ag(λ) + const (11)

ここで，−Eq[ag(ηg(x, z, α))

]は q(β)に依らないため定数とした．



式 (11)で λ方向の勾配をとると以下のようになる．

∇λL(λ) = ∇2λag(λ)(Eq

[ηg(x, z, α)

]− λ) (12)

この勾配が 0になるとき，

λ = Eq[ηg(x, z, α)

](13)

L(ϕn j)についても同様で

∇ϕn jL(ϕn j) = ∇2ϕn j

al(ϕn j)(Eq[ηl(xn, zn,− j, β)

]− ϕn j) (14)

ϕn j = Eq[ηl(xn, zn,− j, β)

](15)


変分ベイズ法のアルゴリズム


確率的最適化

確率的勾配を用いることで，真の勾配の計算の計算量が軽減され，局所解にも陥りにくくなる．

最適化問題 (Robbins Monro型)

x∗ = argmaxx

f (x) (16)

に対して，最適解は以下の更新で求められる．

x(s) = x(s−1) − ρ(s)n∇x fi(x(s−1)) (17)

ただし，ステップサイズ ρは以下の条件を満たす．

∞∑s=1

ρ(s) = ∞,∞∑

s=1

(ρ(s))2 < ∞


自然勾配

自然勾配を導入することでユークリッド空間以外の空間での解の探索が可能になる．関数 f (λ)の自然勾配は次のように表せる．

∇̂λ f (λ) def= G(λ)−1∇λ f (λ) (18)

ここでG(λ)は変分事後分布 q(λ)についてのフィッシャーの情報行列である．

G(λ)の計算

G(λ) = Eλ[(∇λ log q(β|λ))(∇λ log q(β|λ))T

]= Eλ

[(t(β) − Eλ[t(β)])(t(β) − Eλ[t(β)])T

]= ∇2

λag(λ) (19)


自然勾配

式 (12)と (19)より，変分下限L(λ)の自然勾配 ∇̂λL(λ)は

∇̂λL(λ) = Eϕ[ηg(x, z, α)

]− λ (20)

同様に，式 (14)と (19)より，変分下限L(ϕn j)の自然勾配 ∇̂λL(ϕn j)は

∇̂ϕn jL(ϕn j) = Eλ,ϕn,− j

[ηl(xn, zn, β)

] − ϕn j (21)


SVI

SVIでは，データの一部をサンプリングすることで確率的自然勾配を推定し，確率的最適化の枠組みで変分下限Lの最大化を行う．


q∗ = argmaxqL(q)

λ(t) = λ(t−1) + ρ(t)∇̂λLi(λ) (22)

自然勾配

∇̂λL(λ) = Eϕ[ηg(x, z, α)

]− λ

∇̂ϕn jL(ϕn j) = Eλ,ϕn,− j

[ηl(xn, zn, β)

] − ϕn j


SVI

変分下限L(λ)を以下のように定義し直す．• L：大域変分パラメータ λと局所変分パラメータ ϕ(λ)の汎関数• ϕ(λ)：局所変分パラメータの局所最適解を返す関数

∇ϕL(λ, ϕ(λ)) = 0 (23)

局所変分パラメータ ϕが局所最適解 ϕ(λ)のとき，

L(λ) def= L(λ, ϕ(λ))

∇λL(λ) = ∇λL(λ, ϕ(λ))


確率的自然勾配の導出

変分下限を大域的な部分と局所的な部分に分解する．

L(λ) = Eq[log p(β)

] − Eq[log q(β)

]+

N∑n=1

maxϕn

(Eq[log p(xn, zn|β)

] − Eq[log q(zn)

])

変数が I ∼ Unif(1, ...,N)からランダムに選ばれるとすると

LI(λ)def= Eq

[log p(β)

] − Eq[log q(β)

]+maxϕI

(Eq[log p(xI , zI |β)

] − Eq[log q(zI)

]) (24)


確率的自然勾配の導出

式 (20)，(24)より，LI(λ)の自然勾配は次のようになる．{x(N)i , z

(N)i }は観

測 xn，潜在変数 znの N個のサンプルからなるデータセット．

∇̂λLi(λ) = Eq[ηg(x(N)

i , z(N)i , α)

]− λ (25)

また，式 (5)と (25)から

∇̂λLi(λ) = α + N · (Eϕi(λ) [t(xi, zi)] , 1) − λ (26)


SVI


q∗ = argmaxqL(q)

λ(t) = λ(t−1) + ρ(t)∇̂λLi(λ) (27)

式 (26)を代入して，

λ(t) = λ(t−1) + ρ(t)(α + N · (Eϕi(λ) [t(xi, zi)] , 1) − λ(t−1))

= (1 − ρ(t))λ(t−1) + ρ(t)(α + N · (Eϕi(λ) [t(xi, zi)] , 1)) (28)

忘却率 κ ∈ (0.5, 1]，遅延 τ ≥ 0とすると，

ρ(t) = (t + τ)−κ


SVIのアルゴリズム


Extensions

• ミニバッチを利用する方法

• ハイパーパラメータの推定に経験ベイズ推定を利用する方法


ミニバッチを利用する場合

ミニバッチを利用することでアルゴリズムの安定性を改善することができる．

処理の流れ

• イテレーション xt,1:S ごとに S個の例の集合をサンプリング.• 各データポイントでの局所変分パラメータ ϕS (λ(t−1))を計算．• データポイント xtS ごとについての確率的自然勾配を計算．

• 更新式は以下のようになる．

λ(t) = (1 − ρ(t))λ(t−1) +ρ(t)

S

∑S

(α + N · (EϕS (λ(t−1)) [t(xi, zi)] , 1))


ミニバッチを利用する理由

SVIではミニバッチが使われることが多い．

• 多くのデータポイントにわたる大域パラメータの更新にかかる計算コストを，データの分割により軽減するため．

• ミニバッチを使うとよりよい局所最適解にたどり着きやすくなるため．

• SVIは局所最適解に収束することが保証されている．• しかし，極めて少ないデータポイントでステップサイズを大きくするとうまく収束しないことがある．


経験ベイズ推定を利用する場合

潜在変数 β，z両方の事後分布を推定する場合，ハイパーパラメータ αの値を点推定した値が得られる．

αをフィッティングする方法：経験ベイズ推定

• データの結合尤度 p(x|α)を最大化する．• 正確には p(x|α)は計算できないため，変分下限を αについて最大化する．

• SVIでは，以下のように αと λを同時に更新する．

α(t) = α(t−1) + ρ(t)∇αLt(λ(t−1), ϕ, α(t−1))



2 SVI for LDA

3 まとめ



Topic Model

本章では以下の流れで説明を行う．

• トピックモデルの説明• LDAの説明• SVIの LDAへの適用• HDP Topic Modelの説明• SVIの HDP Topic Modelへの適用


トピックモデル

文章が生成される過程をモデル化した確率モデル．

• 同じ文章で現れやすい語彙の集まりをトピックと呼ぶ．• 政治記事→「国会」「法案」「首相」• スポーツ記事→「スタジアム」「選手」「ゴール」

• 文章と同じように隠れた構造を持てば応用が可能．

• トピックモデルは文章データの解析だけでなく，画像処理や推薦システム，バイオインフォマティクスなど，多くの分野で応用される．


Latent Dirichlet Allocation


θ∗, β∗, z∗,w∗ = argmaxθ,β,z,w

p(α, η, θ1:D, β1:K, z1:D,1:N,w1:D,1:N)

同時確率を最大化するパラメータ θ, β, z,wを見つける．


指数型分布族での多項分布

多項分布は指数型分布族の形で表すことができる．

Multi(x|π) = n!∏Ki=1 ni

K∏i=1

πnkk

=n!∏Ki=1 ni

exp

K∑i=1

xi log πi +(N −

K−1∑k=1

xi)(

log(1 −

K−1∑k=1

πi))

=n!∏Ki=1 ni

exp

K−1∑i=1

log( πi

1 −∑K−1k=1 πi

)xi + N

(log(1 −

K−1∑k=1

πi))


指数型分布族でのディリクレ分布多項分布は指数型分布族の形で表すことができる．

Dir(π|λ) =Γ(∑K

i=1 γi)∏Ki=1 Γ(γi)

K∏i=1

πγi−1

= exp

( K∑i=1

(γi − 1) log πi

)+ logΓ

( K∑i=1

γi

)−

K∑i=1

logΓ(γi)

ディリクレ分布の特性

E[θk|γ] =γk∑Ki=1 γi

(29)

E[log θk|γ] = Ψ(γk) − Ψ( K∑

i=1

γi

)(30)

ここで，Ψ(x) = d logΓ(x)dx であり，Ψ(x)はディガンマ関数と呼ばれる．


SVI for LDALDAに SVIを適用する．


• 潜在トピック zdは多項分布から生成される．

p(zdn = k|θd, β1:K ,wdn) ∝ exp{log θdk + log βkwdn} (31)

近似分布 q(zdn)も局所変分パラメータ ϕdnの多項分布になる．

q(zdn) = Multi(ϕdn)




• 文書 dでのトピック分布 θdはディリクレ分布から生成される．

p(θd |zd) = Dir(α +

N∑n=1

zdn

)(32)

近似分布 q(θd)も局所変分パラメータ γdのディリクレ分布になる．

q(θd) = Dir(γd)




• トピック kでの単語の出現確率 βkはディリクレ分布から生成される．

p(βk|z,w) = Dir(η +

D∑d=1

N∑n=1

zkdnwdn

)(33)

近似分布 q(βk)も大域変分パラメータ λkのディリクレ分布になる．

q(βk) = Dir(λk)


変分ベイズでの局所変分パラメータの更新

式 (15)より，式 (31)，(32)の自然パラメータの期待値をとると，

• 単語ごとのトピックの割り当てに関する更新は以下のようにできる．

ϕkdn ∝ exp{E[log θdk] + E[log βk,wdn]}

= exp{Ψ(γdk) + Ψ(γdk) + Ψ(λk,wdn) − Ψ

(∑ν

λkν

)}(34)

• 文書ごとのトピックの割合に関する更新は以下のようにできる．

γd = α +

N∑n=1

ϕdn (35)

ここで，Eq[zkdn] = ϕk

dnを用いた．


変分ベイズでの大域変分パラメータの更新

文書ごとの変分パラメータの更新後，トピックごとの変分パラメータを以下のように更新できる．

式 (13)より，式 (33)の自然パラメータの期待値をとると，

λk = η +

D∑d=1

N∑n=1

ϕkdnwdn (36)

この更新は文書ごとの変分パラメータ ϕに依存している．

トピックごとの更新 λ1:K をする前に，文書ごとの局所変分パラメータの計算をする必要がある．そのためバッチ推定では文書集合が大きいと効率が悪くなる．


SVI for LDA• 大域変分パラメータ：ディリクレパラメータ λk• 局所変分パラメータ：文書ごとのトピック分布のディリクレパラメータ γd

単語ごとのトピック割り当ての多項分布のパラメータ ϕdn



2 SVI for LDA

3 まとめ



まとめ

• SVIのmain idea：データを繰り返しサンプリングして確率的自然勾配を求め，変分下限を最大化するために確率的最適化を使うこと．

• SVIは逐次的に処理を行うので，数百万もあるデータセットに対しても簡単にトピックモデルに適用することができる．



2 SVI for LDA

3 まとめ



補足: 指数型分布族と共役性

以下では，指数型分布族の定義と本論文で用いたその性質について説明する．パラメータベクトル θを持つ確率分布 pは指数型分布族の形で次のように書ける．

p(x|θ) = h(x) exp{⟨ηx(θ), tx(x)⟩ − Zx(ηx(θ))} (37)

ここで，⟨·, ·⟩は実ベクトル空間での内積を表している．また，ベクトル関数 η(θ)，t(x)をそれぞれ自然パラメータと十分統計量と呼ぶ．さらに，スカラ関数 h(x)を基底測度，Z(θ)を対数正規化項と呼ぶ．


補足: 十分統計量の期待値式 (37)のような一般的な指数型分布族では次の式が成り立つ．

∇ηZ(η) = E[t(x)] (38)

証明.式 (38)を示す．

∇ηZ(η) = ∇η log∫

e⟨η,t(x)⟩h(x)dx (39)

=1∫

e⟨η,t(x)⟩h(x)dx

∫e⟨η,t(x)⟩h(x)dx (40)

=

∫t(x)p(x|η)dx (41)

= E[t(x)] (42)

□


補足: 共役な確率分布

例

p(x|θ) ∝ exp {⟨ηx(θ), tx(x)⟩ − Zx(ηx(θ))} (44)= exp {⟨(ηx(θ),−Zx(ηx(θ))), (tx(x), 1)⟩} (45)

ここで、tθ (θ) = (ηx (θ) ,−Zx (ηx (θ)))ととると，p (x|θ) ∝ exp {⟨tθ (θ) , (tx (x) , 1)⟩}となり，

p (x, θ|α) = p (θ|α) p (x|θ) (46)∝ exp { ⟨tθ (θ) , (tx (x) , 1) + ηθ (α)⟩ − Zθ (ηθ (α))} (47)∝ exp { ⟨tθ (θ) , (tx (x) , 1) + ηθ (α)⟩} (48)= g (x, θ) exp {⟨ηθ (α) , tθ (θ)⟩} (49)

よって，p (x, θ|α)は指数型分布となるので，p (θ|α)と p (x|θ)は共役な指数型分布とできる．


Stochastic Variational Inference

Technology

Transcript of Stochastic Variational Inference