Popular Ensemble Methods: An Empirical Study
-
Upload
jolene-riley -
Category
Documents
-
view
57 -
download
3
description
Transcript of Popular Ensemble Methods: An Empirical Study
![Page 1: Popular Ensemble Methods: An Empirical Study](https://reader035.fdocuments.in/reader035/viewer/2022062304/56813256550346895d98e040/html5/thumbnails/1.jpg)
Popular Ensemble Methods: An Empirical Study گروه مهندسي کامپيوتر و فناوری اطالعات دانشگاه
کردستان
Popular Ensemble Methods: An Empirical Study
استاد راهنما: دکتر کیومرث استاد راهنما: دکتر کیومرث شیخ اسماعیلیشیخ اسماعیلی
ارائه دهنده:ارائه دهنده:
شهرام رحمانی شهرام رحمانی
رحیم شیخیرحیم شیخی
مصطفی اعظمیمصطفی اعظمی
به نام خدا
![Page 2: Popular Ensemble Methods: An Empirical Study](https://reader035.fdocuments.in/reader035/viewer/2022062304/56813256550346895d98e040/html5/thumbnails/2.jpg)
2
مقدمه
بیان میدارد که: ( No Free Lunch Theorem)اصل ”نهار مجانی وجود ندارد“
هیچ الگوریتمی وجود ندارد که برای تمامی مسائل و در تمامی زمانها بهترین) دقیق ترین( یادگیر را بوجود آورد.
ایده: اگر تعدادی یادگیر پایه داشته باشیم میتوان با ترکیب نتایج آنها به دقت باالتری
رسید.
این یادگیرها ممکن است در موارد زیر با هم متفاوت باشند:.الگوریتم: که باعث میشود فرضیات مختلفی در مورد داده استفاده شود پارامترها: مثل تعداد گره های مختلف الیه پنهان شبکه های عصبی و یاK
KNNمتفاوت در نحوه نمایش: استفاده از تعداد متفاوت ویژگی برای هر یادگیر، استفاده از
مجموعه داده متفاوت مجموعه آموزشی: داده های آموزشی یادگیرها اندکی با هم تفاوت داشته
باشند.
![Page 3: Popular Ensemble Methods: An Empirical Study](https://reader035.fdocuments.in/reader035/viewer/2022062304/56813256550346895d98e040/html5/thumbnails/3.jpg)
3
ترکیب دسته بندی کننده هاروشهای مختلفی برای ترکیب نتایج
دسته بندی کننده ها وجود دارد: متداولترین روشها میانگین گیری و یا
استفاده از رای اکثریت هستندانگیزه اصلی این کار در اینجاست که:
ما هنگام طراحی یک سیستم یادگیرانتخاب های فراوانی داریم: نحوه
نمایش، پارامترهای یادگیر، داده های آموزشی و غیره.
این تنوع باعث میشود که نوعی از واریانس در عملکرد سیستم وجود داشته باشد. در نتیجه اگر سیستم های مختلفی داشته و از نتایج آنها
استفاده شود این امکان وجود دارد که توزیع خطا حول هدف متمرکز
شده و با افزایش نمونه گیری از این توزیع به نتیجه بهتری برسیم
d1
d2
d3
d4
d5
Final output
input
![Page 4: Popular Ensemble Methods: An Empirical Study](https://reader035.fdocuments.in/reader035/viewer/2022062304/56813256550346895d98e040/html5/thumbnails/4.jpg)
Simple Majority Voting
4
![Page 5: Popular Ensemble Methods: An Empirical Study](https://reader035.fdocuments.in/reader035/viewer/2022062304/56813256550346895d98e040/html5/thumbnails/5.jpg)
خصوصیت دسته بندی کننده های پایه
برای اینکtه بتtوان نتیجtه مناسtبی از تtرکیب دسtته بنtدی کننtده را زیtر بایtد شtرایط هtا کننtده بنtدی این دسtته گtرفت، هtا
داشته باشند: هر یک به تنهائی در حد قابل قبولی دقیق باشند. البته نیازی
به بسیار دقیق بودن آنها نیست. هر کدام مکمل دیگری عمل کنند. به این معنا که همگی نباید
مشابه هم بوده و نتیجه یکسانی تولید کنند.
5
![Page 6: Popular Ensemble Methods: An Empirical Study](https://reader035.fdocuments.in/reader035/viewer/2022062304/56813256550346895d98e040/html5/thumbnails/6.jpg)
6
انواع ترکیب دسته بندی کننده هاStatic structures
پاسtخ چنtدین خtبره بtدون در نظtر گtرفتن سtیگنال ورودی بtا هم تtرکیب میشوند.
ensemble averaging روجیtده و خtرکیب شtا هم تtورت خطی بtف بصtای مختلtبره هtخروجی خ
جمعی را بوجود می آوردboosting.یک یادگیر ضعیف طوری تغییر داده میشود تا به دقت باالئی برسد
Dynamic structuresدر این روش سtیگنال ورودی در انتخtاب مکانیسtم تtرکیب خtبره هtا تtاثیر
میگذارد.mixture of experts
بصtورت غtیر خطی بtا Gating networkخروجی خtبره هtا توسtط یtک شtبکه هم ترکیب میشوند.
hierarchical mixture of expertsشtبکه چنtدین توسtط هtا خtبره بصtورت Gating networkخروجی کtه
تtرکیب هم بtا خطی غtیر بصtورت انtد شtده داده قtرار مراتtبی سلسtله میشوند.
![Page 7: Popular Ensemble Methods: An Empirical Study](https://reader035.fdocuments.in/reader035/viewer/2022062304/56813256550346895d98e040/html5/thumbnails/7.jpg)
7
Ensemble Methods
![Page 8: Popular Ensemble Methods: An Empirical Study](https://reader035.fdocuments.in/reader035/viewer/2022062304/56813256550346895d98e040/html5/thumbnails/8.jpg)
8
Ensemble Averaging
![Page 9: Popular Ensemble Methods: An Empirical Study](https://reader035.fdocuments.in/reader035/viewer/2022062304/56813256550346895d98e040/html5/thumbnails/9.jpg)
اگر چندین خبره با بایاس و واریانس یکسان، از طریق با هم ترکیب شوند:ensemble-averaging روش
بایاس سیستم حاصل مشابه بایاس هر یک از خبره هاخواهد بود.
واریانس سیستم حاصل کمتر از واریانس هر یک از خبره هاخواهد بود.
خطای میانگین سیستم حاصل کمتر از خطای میانگین هر یک از خبره ها خواهد بود.
9
Ensemble Averagingنتیجه گیری در مورد
![Page 10: Popular Ensemble Methods: An Empirical Study](https://reader035.fdocuments.in/reader035/viewer/2022062304/56813256550346895d98e040/html5/thumbnails/10.jpg)
10
مثال
10در این مثال خروجی شبکه با هم ترکیب شده اند.
توانسته به Ensembleمیانگین خطای مورد انتظاری که
کمتر از خطای میانگین شبکه برسد.(D)های منفرد است
درصد صحت دسته 80.3%بندی کننده ترکیبی در
میانگین دسته % 79.4مقابلبندی کننده منفرد
اختالف%1
![Page 11: Popular Ensemble Methods: An Empirical Study](https://reader035.fdocuments.in/reader035/viewer/2022062304/56813256550346895d98e040/html5/thumbnails/11.jpg)
11
Baggingروش
این روش نیز مبتنی بر رای گیری است با این تفاوت که یادگیرهای پایه با داده های آموزشی متفاوتی آموزش داده
میشوند تا اندکی با هم تفاوت داشته باشند. در نتیجه در حالی که این یادگیرها بدلیل آموزش از مجموعه اصلی مشابه هم
خواهند بود بدلیل انتخاب تصادفی نمونه های آموزشی اندکی با هم اختالف نیز خواهند داشت.
Bagging (Bootstrap Aggregating) - Breiman, 1996 take a training set D, of size N for each network / tree / k-nn / etc…
- build a new training set by sampling N examples,
randomly with replacement, from D - train your machine with the new dataset
end for output is average/vote from all machines trained
![Page 12: Popular Ensemble Methods: An Empirical Study](https://reader035.fdocuments.in/reader035/viewer/2022062304/56813256550346895d98e040/html5/thumbnails/12.jpg)
12
مثال
برای الگوریتمهای یادگیر ناپایدار یعنی الگوریتمهائی Bagging روش که با تغییر داده دچار تغییر در نتیجه میشوند عملکرد خوبی خواهد
داشت. ) شبکه عصبی و درخت تصمیم نمونه ای از این الگوریتمها پایدار است.( KNNهستند. در حالیکه
![Page 13: Popular Ensemble Methods: An Empirical Study](https://reader035.fdocuments.in/reader035/viewer/2022062304/56813256550346895d98e040/html5/thumbnails/13.jpg)
Bagging
13
![Page 14: Popular Ensemble Methods: An Empirical Study](https://reader035.fdocuments.in/reader035/viewer/2022062304/56813256550346895d98e040/html5/thumbnails/14.jpg)
Bagging
14
![Page 15: Popular Ensemble Methods: An Empirical Study](https://reader035.fdocuments.in/reader035/viewer/2022062304/56813256550346895d98e040/html5/thumbnails/15.jpg)
Boosting
اگر یادگیرهای پایه مشابه هم باشند ترکیب آنها نتیجه متفاوت محسوسی نخواهد داشت. بهتر است که یادگیرها تصمیم گیری
متفاوتی داشته و مکمل یکدیگر باشند. سعی میشود تا تعدادی یادگیر پایه ضعیف که Boostingدر
مکمل هم باشند تولید شده و آنها را با اشتباه یادگیر قبلی آموزش داد.
منظور از یادگیر ضعیف این است که یادگیر فقط کافی است که ( > ½eیک کمی از حالت تصادفی بهتر عمل کند. )
در مقابل به یادگیری که با احتمال باالئی به دقت دلخواه برسد یادگیر قوی گفته میشود.
این است که یک یادگیر ضعیف را به یک Boostingمنظور از یادگیر قوی تبدیل کنیم.
15
![Page 16: Popular Ensemble Methods: An Empirical Study](https://reader035.fdocuments.in/reader035/viewer/2022062304/56813256550346895d98e040/html5/thumbnails/16.jpg)
16
Boosting
گفته (expert)به هر یک از دسته بندی کننده های مورد استفاده یک خبره میشود. هر خبره با مجموعه داده ای با توزیع متفاوت آموزش داده میشود.
سه روش مختلف وجود دارد:Boostingبرای پیاده سازی Filtering
در این روش فرض میشود مجموعه داده خیلی بزرگ است و مثالهائی کهاز آن انتخاب میشوند، یا حذف شده و یا به مجموعه داده برگردانده می
شوند.Subsampling
این روش با مجموعه داده های با اندازه ثابت بکار برده میشود. داده ها بااستفاده از یک توزیع احتمال مشخص مجدا نمونه برداری میشوند.
Reweighting این روش نیز با مجموعه داده های با اندازه ثابت بکار برده میشود. ولی
داده ها توسط یک یادگیر ضعیف ارزش گذاری شده و به آنها وزن داده میشود.
![Page 17: Popular Ensemble Methods: An Empirical Study](https://reader035.fdocuments.in/reader035/viewer/2022062304/56813256550346895d98e040/html5/thumbnails/17.jpg)
Boosting
17
![Page 18: Popular Ensemble Methods: An Empirical Study](https://reader035.fdocuments.in/reader035/viewer/2022062304/56813256550346895d98e040/html5/thumbnails/18.jpg)
Boosting accuracyTraining
18
![Page 19: Popular Ensemble Methods: An Empirical Study](https://reader035.fdocuments.in/reader035/viewer/2022062304/56813256550346895d98e040/html5/thumbnails/19.jpg)
Boosting
19
![Page 20: Popular Ensemble Methods: An Empirical Study](https://reader035.fdocuments.in/reader035/viewer/2022062304/56813256550346895d98e040/html5/thumbnails/20.jpg)
AdaBoost )ADAptive BOOSTing(
20
برای قرار گرفتن در مجموعه xtدر این روش احتمال انتخاب یک نمونه بر مبنای احتمال خطای j+1 داده های آموزشی دسته بندی کننده
تعیین میشود: cjدسته بندی کننده اگر نمونهxt بدرستی دسته بندی شده باشد، احتمال انتخاب شدن
آن برای دسته بندی کننده بعدی کاهش داده می شود. اگر نمونه xt بدرستی دسته بندی نشود، احتمال انتخاب شدن آن
برای دسته بندی کننده بعدی افزایش داده می شود.تمامی یادگیرها ضعیف و ساده بوده و باید خطائی کمتر از ½ داشته
باشند در غیر اینصورت آموزش متوقف میشود زیرا ادامه آن باعث خواهد شد تا یادگیری برای دسته بندی کننده بعدی مشکلتر شود.
![Page 21: Popular Ensemble Methods: An Empirical Study](https://reader035.fdocuments.in/reader035/viewer/2022062304/56813256550346895d98e040/html5/thumbnails/21.jpg)
AdaBoostیک نمونه از پیاده سازی الگوریتم
21
![Page 22: Popular Ensemble Methods: An Empirical Study](https://reader035.fdocuments.in/reader035/viewer/2022062304/56813256550346895d98e040/html5/thumbnails/22.jpg)
AdaBoost training
22
![Page 23: Popular Ensemble Methods: An Empirical Study](https://reader035.fdocuments.in/reader035/viewer/2022062304/56813256550346895d98e040/html5/thumbnails/23.jpg)
مثال
23
![Page 24: Popular Ensemble Methods: An Empirical Study](https://reader035.fdocuments.in/reader035/viewer/2022062304/56813256550346895d98e040/html5/thumbnails/24.jpg)
Arcing-x4
این روش از رای گیری وزن دار استفاده نمی کند. دسته بندی کننده ی قبلی با Kاما وزن مثال ها با توجه به
فرمول زیر محاسبه می شود:
24
![Page 25: Popular Ensemble Methods: An Empirical Study](https://reader035.fdocuments.in/reader035/viewer/2022062304/56813256550346895d98e040/html5/thumbnails/25.jpg)
مثال
25
![Page 26: Popular Ensemble Methods: An Empirical Study](https://reader035.fdocuments.in/reader035/viewer/2022062304/56813256550346895d98e040/html5/thumbnails/26.jpg)
مثال
26
![Page 27: Popular Ensemble Methods: An Empirical Study](https://reader035.fdocuments.in/reader035/viewer/2022062304/56813256550346895d98e040/html5/thumbnails/27.jpg)
مثال
27
![Page 28: Popular Ensemble Methods: An Empirical Study](https://reader035.fdocuments.in/reader035/viewer/2022062304/56813256550346895d98e040/html5/thumbnails/28.jpg)
مثال
28
![Page 29: Popular Ensemble Methods: An Empirical Study](https://reader035.fdocuments.in/reader035/viewer/2022062304/56813256550346895d98e040/html5/thumbnails/29.jpg)
مثال
29
![Page 30: Popular Ensemble Methods: An Empirical Study](https://reader035.fdocuments.in/reader035/viewer/2022062304/56813256550346895d98e040/html5/thumbnails/30.jpg)
Methodology
30
![Page 31: Popular Ensemble Methods: An Empirical Study](https://reader035.fdocuments.in/reader035/viewer/2022062304/56813256550346895d98e040/html5/thumbnails/31.jpg)
Data Set Error Rates
31
![Page 32: Popular Ensemble Methods: An Empirical Study](https://reader035.fdocuments.in/reader035/viewer/2022062304/56813256550346895d98e040/html5/thumbnails/32.jpg)
Percent Reduction in Error
32
![Page 33: Popular Ensemble Methods: An Empirical Study](https://reader035.fdocuments.in/reader035/viewer/2022062304/56813256550346895d98e040/html5/thumbnails/33.jpg)
33
شبکه طا در
خش
صد کاهدر
یصب
ع
![Page 34: Popular Ensemble Methods: An Empirical Study](https://reader035.fdocuments.in/reader035/viewer/2022062304/56813256550346895d98e040/html5/thumbnails/34.jpg)
34
ت خطا در در
خش
صد کاهدر
مصمی
ت
![Page 35: Popular Ensemble Methods: An Empirical Study](https://reader035.fdocuments.in/reader035/viewer/2022062304/56813256550346895d98e040/html5/thumbnails/35.jpg)
Ensemble Size
35
![Page 36: Popular Ensemble Methods: An Empirical Study](https://reader035.fdocuments.in/reader035/viewer/2022062304/56813256550346895d98e040/html5/thumbnails/36.jpg)
Noise
36
![Page 37: Popular Ensemble Methods: An Empirical Study](https://reader035.fdocuments.in/reader035/viewer/2022062304/56813256550346895d98e040/html5/thumbnails/37.jpg)
Error rates by the size of ensemble & Noise
37
![Page 38: Popular Ensemble Methods: An Empirical Study](https://reader035.fdocuments.in/reader035/viewer/2022062304/56813256550346895d98e040/html5/thumbnails/38.jpg)
نتیجه گیری
هاsingleوBagging نسبت به Boostingنتیجه بهتر نسبت به نویز وپایین آمدن کارائیBoostingحساسیت
15-10بیشترین کاهش خطا با شبکه عصبی با سایز25بیشترین کاهش خطا با درخت تصمیم با سایز
روی اکثر مسائلBaggingمناسب بودن در شرایط مناسبBoostingباال بودن دقت
38
![Page 39: Popular Ensemble Methods: An Empirical Study](https://reader035.fdocuments.in/reader035/viewer/2022062304/56813256550346895d98e040/html5/thumbnails/39.jpg)
پیشنهادات
استفاده ازالگوریتم ژنتیک درانتخاب طبقه بندی کننده هاانتخاب مناسب مقدارپارامترها ازقبیل الیه های مخفی و
نرخ یادگیری و....در دیتاهای Boostingشدن Overfitراهکاری برای ممانعت
حاوی نویز
39
![Page 40: Popular Ensemble Methods: An Empirical Study](https://reader035.fdocuments.in/reader035/viewer/2022062304/56813256550346895d98e040/html5/thumbnails/40.jpg)
40