Reducing the Dimensionality of Data with Neural Networks

Reducing the Dimensionality of

Data with Neural Networks

گردآورنده:آزاده صفیان

به نام خدا

2

عناوین

مدل های مبتنی بر انرژیRBMDBNمقاله مورد مطالعه و نتایج

3

(EBM)مدل های مبتنی بر انرژی

P(x) احتمال داده ارائه شده با بردار:x

E(x) تابع انرژی: هدف: کم کردن انرژی داده ها

4

EBMبا واحدهای مخفی

برای افزایش تواناییEBM متغیرهای مخفی به آن اضافه می کنیم.

با استفاده از تابع انرژی آزاد که به صورت زیر تعریف

می شود

P(x) به فرم مشابه EBM : استاندارد که

5

EBM

یک مدل مبتنی بر انرژی می تواند با اعمال gradient descent.روی تابع شباهت داده آموزشی یادگرفته شود

: تابع شباهت

:میانگین لگاریتم تابع شباهت

6

مشتق میانگین لگاریتم تابع شباهت

که

7

Restricted Boltzmann Machine(RBM)

روشی مبتنی بر انرژی دارای واحدهای نرون مانند دارای دو الیه

یک الیه پنهان)hidden(یک الیه قابل دید)visible(

واحدهای هر الیه به هم متصل نیستند میان واحدهای الیه های مخفی و قابل دید ارتباطات بی

جهت و متقارن وجود دارد.

8

RBM

ورودی هر واحد در الیه قابل دید

wij وزن روی اتصاالت بین: i و j sj : 1 اگر واحد مخفی j روشن باشد sj : 0 اگر واحد مخفیjخاموش باشد احتمال روشن بودن واحدi:با استفاده از تابع لجستیک

9

RBM

RBM یک روش EBM:است پس

V بردار داده : مانند شبکه هایHopfield انرژی بردار V:

در الیه قابل دید iحالت دودویی نسبت داده شده به واحد vتوسط بردار

در الیه مخفی توسط j :حالت دودویی نسبت داده شده به واحد vبردار

Cjبایاس الیه مخفی : Biبایاس الیه قابل دید:

10

RBM

واحدها باینری و الجستیک هستند

σ (x) تابع لجستیک سیگموئیدی: می گیرند که مقدار تابع 1واحدها هنگامی مقدار σ ایZبر

باشد.1 و 0آن واحد، بزرگتر از یک عدد تصادفی بین

11

محاسبه مشتق)به گونه ای دیگر(

12

قانون یادگیری

امید داده های آموزشی امید

نمونه های

تولیدی توسط

مدل

13

Gibbs Sampling

برایRBM د و واحدهای قابلZل دیZه داده های قابZه بZا توجZی بZواحدهای مخف

دید با توجه به واحدهای مخفی مدل سازی می شوند. ا فرضZبh(n) ی وZه واحدهای مخفZه همZمجموع v(n) ه همهZمجموع

ام داریم Nواحدهای قابل دید در مرحله ی

t →∞, p(v(t) ,h(t)) →p(v,h)

14

Gibbs Sampling

15

Alternative Gibbs Sampling

16

Alternative Gibbs Sampling

17

CONTRASTIVE DIVERGENCE (CD–k)

Hinton الگوریتم CONTRASTIVE DIVERGENCE (CD–k)را پیشنهاد داد که را با جایگزین می کند

kمقدار کوچکی است

18

CONTRASTIVE DIVERGENCE (CD–k)

19

RBMآموزش

داده های آموزشی را در الیه قابل دید قرار می دهیم.1(همه واحدهای مخفی را به صورت موازی به روز 2(

رسانی می کنیم.همه واحدهای قابل دید را به صورت موازی به روز 3(

رسانی می کنیم بار تکرار می کنیم k را 3 و 2مراحل 4(

20

DBNشبکه های باور عمیق

مدلیgenerative متشکل از چند الیه تصادفی و مخفی متغیرهای مخفی یا ویژگی یاب ها عموما مقادیر باینری

دارند دو الیه باال اتصاالت متقارن و بدون جهت دارند و یک

ایجاد می کنند .associativeحافظه حاالت واحدها در پایین ترین الیه یک بردار داده را ارائه

می دهند.

21

DBNشبکه های باور عمیق

پشته ای ازRBM ها در هر لحظه یک الیه را یاد می گیرد داده به عنوان یZک الیZه از مقادیZر متغیرهای مخفZی در

آموزشی برای الیه بعدی استفاده می کند. پروسیجرهای بZا توانZد مZی کارآ و حریZص یادگیری ایZن

یادگیری دیگری دنبال یZا ترکیZب شود کZه همZه وزن ها را تZا کارآیZی یا generativeبZه طور دقیZق میزان مZی کننZد

discriminative.همه شبکه را بهبود بخشد

22

DBN

23

DBN

24

DBN

25

DBN

26

Autoencoder

یک شبکه عصبیInput=output.برای کاهش بعد به کار می رود آموزشautoencoder

با یکی از انواع back propagation با پیش آموزش

27

Deep Autoencoder

28

Reducing the Dimensionality ofData with Neural Networks

از طریق یک شبکه عصبی چند الیه با یک الیه مرکزیکوچک برای بازسازی بردار داده با ابعاد باال، داده های با ابعاد باال می توانند به کدهای با بعد کم تبدیل شوند.

Gradient descent می تواند برای میزان سازی وزن ها ی به کار رود اما این فقط autoencoderدر چنین شبکه

وقتی وزن های اولیه به درستی مقداردهی اولیه شوند جواب می دهد.

در این مقاله روشی کارآمد برای مقداردهی اولیه وزن عمیق autoencoderها ارائه می شود که به شبکه های

امکان آموزش کدهای با ابعاد کم را می دهد. روش پیشنهادی بهتر ازPCA برای کاهش بعد داده ها

عمل می کند.

29


یک عمومی سازی غیر خطی ازPCAمتشکل از

از یک شبکه encoder چند الیه برای انتقال داده با ابعاد باال به کدهای با ابعاد کم

یک شبکه decoderه از کدZادZبرای یافتن د با شروع از وزن های تصادفی در دو شبکه آن ها می توانند با

یکدیگر به منظور کاهش تفاوت میان داده اصلی و بازسازی شده آن آموزش ببینند.

گرادیان های مورد نظر به آسانی با استفاده از قانون زنجیره ابتدا در طول شبکه backpropagateای برای مشتقات خطای

کدگشا و سپس در طول شبکه کدگذار به دست می آیند. همه سیستم یکautoencoderنامیده می شود

30


بهینه سازی وزن ها درautoencoder های غیرخطی که چندالیه پنهان دارند کار سختی است

با وزن های اولیه بزرگautoencoder ها عموما مینیمم های محلیضعیفی را می یابند

با وزن های اولیه کوچک ،گرادیان ها در هر الیه کوچک بوده و را با الیه های مخفی زیاد غیرممکن می کند.autoencoderآموزش

اگر وزن های اولیه به راه حل خوب نزدیک باشند ،کاهشگرادیان خوب کار می کند

راه حل: ارائه نوع متفاوت از الگوریتم ها که یک الیه ازویژگی ها را در یک زمان یاد می گیرند.

31


ترکیبی از بردارهای دودویی )مانند تصویر( می توانند با استفادهاز یک شبکه دو الیه به نام ماشین بولتزمن محدود مدل شوند

یک الیه واحد از ویژگی های دودویی بهترین راه برای مدل کردنساختار در مجموعه تصاویر نمی باشد.

بعد از یادگیری یک الیه از ویژگی یاب ها ما می توانیم ازنتایجشان به عنوان داده برای یادگیری الیه دوم از ویژگی

ها ،استفاده کنیم. اولین الیه از ویژگی یاب ها، واحدهای مخفی برای آموزشRBM

بعدی می شوند..این یادگیری الیه به الیه می تواند به دفعات مورد نیاز تکرار شود

32


پیش آموزش الیه های ویژگی یاب مدلی برای تولید شبکه های کدگذار و کدگشایی که با وزن های

یکسان مقداردهی اولیه شده اند به دست می آید مرحله ی میزان سازی دقیق(fine tuning فعالیت های :)

تصادفی را با احتماالت دقیق و با مقادیر حقیقی جایگزین autoencoder در طول همه backpropagationمی کند و از

برای میزان سازی دقیق وزن ها جهت بازسازی بهینه استفاده می کند.

33


34

تصاویری از منحنی های به دست آمده سه نقطه

مجموعه داده : تصاویری از منحنی های به دست آمده سه عدد تبدیل 6نقطه به طور تصادفی در دو بعد که باید به

شوندAutoencoder

6-25-50-100-200-400-28*28 یک کدگذار با الیه های با سایز یک کدگشای متقارن شش واحد در الیه کد خطی همه واحدهای دیگر الجستیک

training data : 20000 تصویر test data: 10000 تصویر جدید PCAبازسازی بدتری به دست می دهد

35

نتیجه برای تصاویری از منحنی های به دست آمده سه نقطه

the six-dimensional deep Autoencoder

logistic PCA using six components

logistic PCA using 18 components

Standard PCA using 18 components

36

اعداد دست نویس

داده ها: همه اعداد دست نویس در مجموعه آموزشیMNIST

autoencoder 784-1000-500-253-30 واحد کد خطی در الیه ی کد 30همه واحدها به جز

الجستیکTraining data:60000 تصویر Training test: 10000 تصویر جدید بازسازی بهتری نسبت به PCAارائه داد یک autoencoder دو بعدی دید بهتری از داده ها نسبت به

دو اجزای اصلی تولید می کند

37

نتیجه روی اعداد دست نویس

the 30-dimensional autoencoder

30-dimensional logistic PCA

30-dimensional standard PCA

38

نتایج برای اعداد دست نویس

A)The two dimensional codes for 500 digits of each class produced by taking the first two principal components of all training images

B)The two-dimensional codes found by a 784-1000-500-250-2 autoencoder

39

نتایج برای اسناد رویتر

Reducing the Dimensionality of Data with Neural Networks

Documents

Transcript of Reducing the Dimensionality of Data with Neural Networks