Reducing the Dimensionality of Data with Neural Networks
description
Transcript of Reducing the Dimensionality of Data with Neural Networks
Reducing the Dimensionality of
Data with Neural Networks
گردآورنده:آزاده صفیان
به نام خدا
2
عناوین
مدل های مبتنی بر انرژیRBMDBNمقاله مورد مطالعه و نتایج
3
(EBM)مدل های مبتنی بر انرژی
P(x) احتمال داده ارائه شده با بردار:x
E(x) تابع انرژی: هدف: کم کردن انرژی داده ها
4
EBMبا واحدهای مخفی
برای افزایش تواناییEBM متغیرهای مخفی به آن اضافه می کنیم.
با استفاده از تابع انرژی آزاد که به صورت زیر تعریف
می شود
P(x) به فرم مشابه EBM : استاندارد که
5
EBM
یک مدل مبتنی بر انرژی می تواند با اعمال gradient descent.روی تابع شباهت داده آموزشی یادگرفته شود
: تابع شباهت
:میانگین لگاریتم تابع شباهت
6
مشتق میانگین لگاریتم تابع شباهت
که
7
Restricted Boltzmann Machine(RBM)
روشی مبتنی بر انرژی دارای واحدهای نرون مانند دارای دو الیه
یک الیه پنهان)hidden(یک الیه قابل دید)visible(
واحدهای هر الیه به هم متصل نیستند میان واحدهای الیه های مخفی و قابل دید ارتباطات بی
جهت و متقارن وجود دارد.
8
RBM
ورودی هر واحد در الیه قابل دید
wij وزن روی اتصاالت بین: i و j sj : 1 اگر واحد مخفی j روشن باشد sj : 0 اگر واحد مخفیjخاموش باشد احتمال روشن بودن واحدi:با استفاده از تابع لجستیک
9
RBM
RBM یک روش EBM:است پس
V بردار داده : مانند شبکه هایHopfield انرژی بردار V:
در الیه قابل دید iحالت دودویی نسبت داده شده به واحد vتوسط بردار
در الیه مخفی توسط j :حالت دودویی نسبت داده شده به واحد vبردار
Cjبایاس الیه مخفی : Biبایاس الیه قابل دید:
10
RBM
واحدها باینری و الجستیک هستند
σ (x) تابع لجستیک سیگموئیدی: می گیرند که مقدار تابع 1واحدها هنگامی مقدار σ ایZبر
باشد.1 و 0آن واحد، بزرگتر از یک عدد تصادفی بین
11
محاسبه مشتق)به گونه ای دیگر(
12
قانون یادگیری
امید داده های آموزشی امید
نمونه های
تولیدی توسط
مدل
13
Gibbs Sampling
برایRBM د و واحدهای قابلZل دیZه داده های قابZه بZا توجZی بZواحدهای مخف
دید با توجه به واحدهای مخفی مدل سازی می شوند. ا فرضZبh(n) ی وZه واحدهای مخفZه همZمجموع v(n) ه همهZمجموع
ام داریم Nواحدهای قابل دید در مرحله ی
t →∞, p(v(t) ,h(t)) →p(v,h)
14
Gibbs Sampling
15
Alternative Gibbs Sampling
16
Alternative Gibbs Sampling
17
CONTRASTIVE DIVERGENCE (CD–k)
Hinton الگوریتم CONTRASTIVE DIVERGENCE (CD–k)را پیشنهاد داد که را با جایگزین می کند
kمقدار کوچکی است
18
CONTRASTIVE DIVERGENCE (CD–k)
19
RBMآموزش
داده های آموزشی را در الیه قابل دید قرار می دهیم.1(همه واحدهای مخفی را به صورت موازی به روز 2(
رسانی می کنیم.همه واحدهای قابل دید را به صورت موازی به روز 3(
رسانی می کنیم بار تکرار می کنیم k را 3 و 2مراحل 4(
20
DBNشبکه های باور عمیق
مدلیgenerative متشکل از چند الیه تصادفی و مخفی متغیرهای مخفی یا ویژگی یاب ها عموما مقادیر باینری
دارند دو الیه باال اتصاالت متقارن و بدون جهت دارند و یک
ایجاد می کنند .associativeحافظه حاالت واحدها در پایین ترین الیه یک بردار داده را ارائه
می دهند.
21
DBNشبکه های باور عمیق
پشته ای ازRBM ها در هر لحظه یک الیه را یاد می گیرد داده به عنوان یZک الیZه از مقادیZر متغیرهای مخفZی در
آموزشی برای الیه بعدی استفاده می کند. پروسیجرهای بZا توانZد مZی کارآ و حریZص یادگیری ایZن
یادگیری دیگری دنبال یZا ترکیZب شود کZه همZه وزن ها را تZا کارآیZی یا generativeبZه طور دقیZق میزان مZی کننZد
discriminative.همه شبکه را بهبود بخشد
22
DBN
23
DBN
24
DBN
25
DBN
26
Autoencoder
یک شبکه عصبیInput=output.برای کاهش بعد به کار می رود آموزشautoencoder
با یکی از انواع back propagation با پیش آموزش
27
Deep Autoencoder
28
Reducing the Dimensionality ofData with Neural Networks
از طریق یک شبکه عصبی چند الیه با یک الیه مرکزیکوچک برای بازسازی بردار داده با ابعاد باال، داده های با ابعاد باال می توانند به کدهای با بعد کم تبدیل شوند.
Gradient descent می تواند برای میزان سازی وزن ها ی به کار رود اما این فقط autoencoderدر چنین شبکه
وقتی وزن های اولیه به درستی مقداردهی اولیه شوند جواب می دهد.
در این مقاله روشی کارآمد برای مقداردهی اولیه وزن عمیق autoencoderها ارائه می شود که به شبکه های
امکان آموزش کدهای با ابعاد کم را می دهد. روش پیشنهادی بهتر ازPCA برای کاهش بعد داده ها
عمل می کند.
29
Reducing the Dimensionality ofData with Neural Networks
یک عمومی سازی غیر خطی ازPCAمتشکل از
از یک شبکه encoder چند الیه برای انتقال داده با ابعاد باال به کدهای با ابعاد کم
یک شبکه decoderه از کدZادZبرای یافتن د با شروع از وزن های تصادفی در دو شبکه آن ها می توانند با
یکدیگر به منظور کاهش تفاوت میان داده اصلی و بازسازی شده آن آموزش ببینند.
گرادیان های مورد نظر به آسانی با استفاده از قانون زنجیره ابتدا در طول شبکه backpropagateای برای مشتقات خطای
کدگشا و سپس در طول شبکه کدگذار به دست می آیند. همه سیستم یکautoencoderنامیده می شود
30
Reducing the Dimensionality ofData with Neural Networks
بهینه سازی وزن ها درautoencoder های غیرخطی که چندالیه پنهان دارند کار سختی است
با وزن های اولیه بزرگautoencoder ها عموما مینیمم های محلیضعیفی را می یابند
با وزن های اولیه کوچک ،گرادیان ها در هر الیه کوچک بوده و را با الیه های مخفی زیاد غیرممکن می کند.autoencoderآموزش
اگر وزن های اولیه به راه حل خوب نزدیک باشند ،کاهشگرادیان خوب کار می کند
راه حل: ارائه نوع متفاوت از الگوریتم ها که یک الیه ازویژگی ها را در یک زمان یاد می گیرند.
31
Reducing the Dimensionality ofData with Neural Networks
ترکیبی از بردارهای دودویی )مانند تصویر( می توانند با استفادهاز یک شبکه دو الیه به نام ماشین بولتزمن محدود مدل شوند
یک الیه واحد از ویژگی های دودویی بهترین راه برای مدل کردنساختار در مجموعه تصاویر نمی باشد.
بعد از یادگیری یک الیه از ویژگی یاب ها ما می توانیم ازنتایجشان به عنوان داده برای یادگیری الیه دوم از ویژگی
ها ،استفاده کنیم. اولین الیه از ویژگی یاب ها، واحدهای مخفی برای آموزشRBM
بعدی می شوند..این یادگیری الیه به الیه می تواند به دفعات مورد نیاز تکرار شود
32
Reducing the Dimensionality ofData with Neural Networks
پیش آموزش الیه های ویژگی یاب مدلی برای تولید شبکه های کدگذار و کدگشایی که با وزن های
یکسان مقداردهی اولیه شده اند به دست می آید مرحله ی میزان سازی دقیق(fine tuning فعالیت های :)
تصادفی را با احتماالت دقیق و با مقادیر حقیقی جایگزین autoencoder در طول همه backpropagationمی کند و از
برای میزان سازی دقیق وزن ها جهت بازسازی بهینه استفاده می کند.
33
Reducing the Dimensionality ofData with Neural Networks
34
تصاویری از منحنی های به دست آمده سه نقطه
مجموعه داده : تصاویری از منحنی های به دست آمده سه عدد تبدیل 6نقطه به طور تصادفی در دو بعد که باید به
شوندAutoencoder
6-25-50-100-200-400-28*28 یک کدگذار با الیه های با سایز یک کدگشای متقارن شش واحد در الیه کد خطی همه واحدهای دیگر الجستیک
training data : 20000 تصویر test data: 10000 تصویر جدید PCAبازسازی بدتری به دست می دهد
35
نتیجه برای تصاویری از منحنی های به دست آمده سه نقطه
the six-dimensional deep Autoencoder
logistic PCA using six components
logistic PCA using 18 components
Standard PCA using 18 components
36
اعداد دست نویس
داده ها: همه اعداد دست نویس در مجموعه آموزشیMNIST
autoencoder 784-1000-500-253-30 واحد کد خطی در الیه ی کد 30همه واحدها به جز
الجستیکTraining data:60000 تصویر Training test: 10000 تصویر جدید بازسازی بهتری نسبت به PCAارائه داد یک autoencoder دو بعدی دید بهتری از داده ها نسبت به
دو اجزای اصلی تولید می کند
37
نتیجه روی اعداد دست نویس
the 30-dimensional autoencoder
30-dimensional logistic PCA
30-dimensional standard PCA
38
نتایج برای اعداد دست نویس
A)The two dimensional codes for 500 digits of each class produced by taking the first two principal components of all training images
B)The two-dimensional codes found by a 784-1000-500-250-2 autoencoder
39
نتایج برای اسناد رویتر
40