ML 94 1 Chap9 Decision Trees

36
هاضیيشیادگی ی( 01 - 805 - 11 - 13 ) ن فػلهيد بهشتیگاه ش دانش مهندسی برق و کامپيىترانشکدهی ديس پاي1394 زناوهحمىدی اد م احمhttp://faculties.sbu.ac.ir/~a_mahmoudi/ Machine Learning Decision Tree

description

machine learning course slides in persian

Transcript of ML 94 1 Chap9 Decision Trees

Page 1: ML 94 1 Chap9 Decision Trees

یادگیشی هاضیي(01-805-11-13)

فػل ن

دانشگاه شهيد بهشتیدانشکده ی مهندسی برق و کامپيىتر

1394پاييس احمد محمىدی ازناوه

http://faculties.sbu.ac.ir/~a_mahmoudi/

Machine LearningDecision Tree

Page 2: ML 94 1 Chap9 Decision Trees

فشست هكالة

دسخت تػوین•دسخت تػوین تک هتغیش•

تذی– دسخت ای دستدسخت ای سگشسیى–

شس کشدى•استخشاج قاى تا کوک دسخت•استتاج قاى•دسخت ای چذ هتغیش•

شبکو عصبی2

Page 3: ML 94 1 Chap9 Decision Trees

یادگیشی دسخت تػوین

ی تشای پاساهتشی سش ای دس• ا و دست ت هذل یک داد ا اپاساهتشی سش ای دس ک حالی دس هی آیذ، اساس تش داد

سپس هی ضذ، تقسین «هحلی احلی» ت فاغل هؼیاس یک.هی ضد استخشاج هذل یک احی ش تشای ی یافتي حالت ایي دس– تش هشتـ احی سدی ش اصای ت است؛ ضی

ی ای و ی تا ضذ خستد آهصضی داد .ضد پیذا ظش هسد احی ی یک «تػوین دسخت»• هشاتثی ساختواى داد ک است سلسل

.هی گیشد قشاس استفاد هسد «تاظاست» یادگیشی تشای ی کن تشی هشاحل تؼذاد تا– .هی ضد ضاسایی هحلی احی ی تش– تیذاص» سیاست پای .هی کذ ػول «حکهت کي تفشق تشای ثاتت هذل یک ک حیث ایي اص است، «اپاساهتشی» یض ضی ایي–

ا ا ت تخ تا دسخت وی گیشد، ظش دس داد هی ضد هطؼة داد.هی کذ سضذ

کای» دس تیطتش– .هی گیشد قشاس استفاد هسد «داد

يادگيری ماشين3

Page 4: ML 94 1 Chap9 Decision Trees

ساختاس دسخت تػوین

ی سشی یک اص تػوین دسخت• «(داخلی) تػوین» گش.است ضذ تطکیل «تشگ» ای• تاتغ» یک هؼادل تػوین، گش

ی اساس تش ک ستذ «(fm(x))آصهى آى ا تید سدی ش اصای ت .هی خسذ تشچسة خشخی ا

ی ش دس ضذ ضشع سیط اص خستد تػوین گش تا فشآیذ ایي .هی ضد اتخاب اطؼاب ا اص یکی

.هی یاتذ اداه تشگ ت سسیذى ی هقذاس• طاى سا سدی آى اصای ت خشخی تشگ گش

تذی دس .هی دذ ی دست دس کالس ضواسيادگيری ماشينهیاگیي هقذاس سگشسیى

4

internal decision node

Leaves

Page 5: ML 94 1 Chap9 Decision Trees

...( اداه)ساختاس دسخت تػوین

يادگيری ماشين5

تؼذی-d فؿای دس خذاساص یک «(fm(x))آصهى تاتغ» ش• تقسین کچک تش احی ت سا سدی فؿای ک است،

یکذیگش تا تشکیة تا ک است ساد تاتغ یک f ش .هی کذ.ساخت خاذ سا پیچیذ تاتؼی

Page 6: ML 94 1 Chap9 Decision Trees

...( اداه)ساختاس دسخت تػوین

ای یافتي ت تػوین، دسخت تذیي تشتیة• و غست دس هثال ػاى ت .هی تخطذ سشػت هطات ی b داضتي ک غستی دس هختلف احی

log2b حالت تتشیي دس تاضذ، ددیی تػوین ا ی ت سسیذى تا گام .است یاص هحلی احی

قاتلیت» تػوین دسخت هضایای دیگش اص•.است آى «تفسیشپزیشی

ت قاى یک سشی ضذ تطکیل دسخت اص هی تاى–.کشد استخشاج if-then غست

يادگيری ماشين6

Page 7: ML 94 1 Chap9 Decision Trees

ی ش دس ،«تک هتغیش دسخت ای» دس• تا داخلی گش.هی گیشد قشاس تشسسی هسد سدی اتؼاد اص یکی تا) آى ا هقذاس تاضذ، گسست هتغیشا ک غستی دس–

.هی ضد تشسسی (هوکي هقذاس n اص یکی ای گش – ی ک هی گیشد غست هقایس گسست تید

:تاضذ داضت– fm(x) : xj ≥ wm0

تقسین قسوت د ت سا سدی فؿای تذیي تشتیة–:هی ضد

يادگيری ماشين7

Univariate Trees

0|m j mL x w x 0|m j mR x w x Binary Split

Page 8: ML 94 1 Chap9 Decision Trees

آهصش دسخت تػوین

ای اساس تش دسخت ساخت فشآیذ ت• دادtree» آهصضی induction» هی گیذ.

ی یک تشای• صیادی دسخت ای آهصضی، هدوػ.تاضذ غفش خكای داسای ک گشفت ظش دس هی تاى

ظش اص دسخت کچک تشیي دسخت، هكلب تشیي• ا تؼذاد ی ػولیات سادگی گش گش ش هقایس.است

تػوین دسخت یادگیشی الگسیتن ای تیطتش•.است حشیػا

.است خذاساصی تتشیي پی دس گام ش دس–يادگيری ماشين

8

(Breiman et al, 1984; Quinlan, 1986, 1993)

Page 9: ML 94 1 Chap9 Decision Trees

تذی دسخت ای دست

هیضاى تطخیع تشای هؼیاسی «اخالػی»• تذی دسخت هكلتیت .است دست

ک غستی دس است، «خالع» (split) اطؼاب یک• ای ضاهل آى تخص ش .تاضذ کالس یک و–Nm ایی تؼذاد ی ت ک است و ام-m گش

اذ ا کل) سسیذ .(است N گشNi آى ا تیي اص–

m کالس ت هتؼلق i-ام(Ci) است.

ای ک ایي احتوال• ی ت ک و سسیذ m گش ی ت است، :تاضذ داضت تؼلق ام-i دست

يادگيری ماشين9

ID3,CART,C4.5

Classification Trees

Impurity measure

m

imi

miN

NpmCP ,|ˆ x

i

m miN N

Page 10: ML 94 1 Chap9 Decision Trees

تذی ...(اداه)دسخت ای دست

ی• اگش است، خالع m گش

ی ک غستی دس• تاضذ، خالع خذاساصی ا و هی تاى یست دسخت هدذد اطؼاب ت لضهی.افضد دسخت ت سا دست تشچسة تا تشگ ا

ای ت تایذ دسخت آهصش فشآیذ• پزیشد غست گ.یاتذ افضایص خلظ هیضاى گام ش دس ک

خلظ سدص تشای هؼیاسی است الصم خت ایي اص•.ضد گشفت ظش دس

يادگيری ماشين10

0 or 1 for all i

mp i

Page 11: ML 94 1 Chap9 Decision Trees

خلظ

آتشپی» خلظ، هیضاى سدص تشای اتخاب یک•.است «اقالػات

تػادفی حذ چ تا اتفاقی سخذاد :اقالػات آتشپی–.است

يادگيری ماشين11

K

i

im

imm pp

1

2logI

آتشپی تشای د دست

Page 12: ML 94 1 Chap9 Decision Trees

سایش هؼیاسا

تذی تشای یست؛ هاسة هؼیاس تا آتشپی• د دست صیش خػغیات داسای ک φ(p,1-p) اهفی تاتغ ش گش،.است استفاد قاتل خلظ هؼیاس ػاى ت تاضذ،

يادگيری ماشين12

1 2,1 2 ,1 , for any p 0,1

0,1 1,0 0

,1 is increasing in on 0,1 2

and decreasing in on 1 2,1

p p

p p p

p

Devroye, L., et al. (1996). A Probabilistic Theory of Pattern Recognition, Springer.

Page 13: ML 94 1 Chap9 Decision Trees

...(اداه)سایش هؼیاسا

.ستذ K>2 ت تؼوین قاتل هؼیاسا ایي• دس هؼیاس س ایي ک است داد طاى پژص ا•

.ذاسذ ن تا چذای تفات ػول

يادگيری ماشين13

2 2: ,1 log 1 log 1entropy p p p p p p

: ,1 2 1Gini index p p p p

: ,1 1 max ,1Missclassification error p p p p

Page 14: ML 94 1 Chap9 Decision Trees

ی تػوین تطکیل گش

اخالػی کاص تاػث ک هی ضد اتخاب اطؼاتی•.ضد

ی ت ک سدی Nm اص ک غست دس• ام-m گش اذ، سا گش ایي ام-j اطؼاب سدی Nmj سسیذ

:داضت خاین کذ، اتخاب

ام–j اطؼاب اتخاب غست دس اطؼاب اص تؼذ•:ام-i کالس ت تؼلق احتوال

:هی آیذ دست ت صیش غست ت «کل اخالػی» •

يادگيری ماشين14

1

n

mj mjN N

1

K i

mj mjiN N

1

n i i

mj mjN N

mj

imji

mjiN

NpjmCP ,,|ˆ x

K

i

imj

imj

n

j m

mj

m ppN

N

1

2

1

logI'

Page 15: ML 94 1 Chap9 Decision Trees

تذی آهصش دسخت ای دست

ی تشای• ا، و حاالت توام اصای ت اخالػی خػیػ:هی ضد هحاسث

ا ک حالتی دس– ک غستی دس)تاضذ گسست خػیػ ی ی ش ،(تاضذ هختلف هقذاس n داسای ظش هسد خػیػ گش

ی n ت تػوین .هی ضد هطؼة دیگش، گش ای هسد دس– ی د ت گش ش پیست، خػیػ دیگش گش

.هی ضد هطؼة ی هقذاس تایذ حالت ایي دس• Nm-1 ضد، هطخع یض wm0 آستا

ی اصای ت داسد، خد آستا حذ ایي تشای هوکي هقذاس و ا ی خػیػ ای حذ و هحاسث اخالػی هوکي آستا

.هی ضد ی خای ت• است تتش تشگ ا، دس گش تشچسة رخیش

posterior) کالس ت تؼلق احتوال probability) رخیش هاذ تؼذی، هشاحل دس است هوکي ک چشا ضد،

ی .آیذ کاس ت سیسک هحاسثيادگيری ماشين

15

0( ) : m j mf x x w

Page 16: ML 94 1 Chap9 Decision Trees

يادگيری ماشين16

K

i

imj

imj

n

j m

mj

m ppN

N

1

2

1

logI'

دس غستی ک تطکیل دسخت تا حالتی ک اخالػی ت غفش تشسذ اداه یاتذ هوکي

ت )ضد overfittingاست هدش ت ، دس ایي حالت یک (یژ تا خد یض

حذآستا تشای اخالػی دس ظش گشفت پیچیذگی هذل ( θI)ایي هؼیاس . هی ضد

.سا هطخع هی کذ

K

i

im

imm pp

1

2logI

Page 17: ML 94 1 Chap9 Decision Trees

دسخت ای سگشسیى

تذی ستذ؛• دسخت ای سگشسیى، هاذ دسخت ای دست:تا یک هؼیاس اخالػی هاسة

«هیاگیي هشتؼات خكا»

ای تشای هیا) هیاگیي اص هی تاى• تشای (یضی داد.کشد استفاد خشخی تخویي

يادگيری ماشين17

2

1 if : reaches node

0 otherwise

1

m

m

t t

m m mtm

mb

E r g bN

x xx

x

X

ی ام-mهقذاس تخویي صد ضذ دس گش

t t

mt

m t

mt

b rg

b

x

x

ا خاذ تد ای ش تشگ، هؼیاس خكا اسیاس داد دس غست دس ظش گشفتي هیاگیي داد

Regression Trees

Page 18: ML 94 1 Chap9 Decision Trees

...(اداه)دسخت ای سگشسیى

ی تاضذ، پزیشش قاتل خكا هیضاى ک غستی دس• گش.هی یاتذ اداه تقسین سذ گش هی ضد، ایداد تشگ

هؼیاس اص هی تاى خكا، هشتؼات هیاگیي تش ػال• تذیي تشتیة کشد، استفاد یض «هوکي خكای تذتشیي»

:ود هحذد سا هوکي خكای هیضاى حذاکثش هی تاى

قاتل خكای حذاکثش تا هذل پیچیذگی هیضاى•.هی ضد هطخع (θr)پزیشش

ا تشای تشگ ش دس هی تاى هیاگیي گیشی، خای ت• داد:(خكی سگشسیى)گشفت ظش دس یض خكی هذل یک

يادگيری ماشين18

max max t t

m mj mj t

E r g b x

0

T

m m mg w x w x

Page 19: ML 94 1 Chap9 Decision Trees

هثال

يادگيری ماشين19

Page 20: ML 94 1 Chap9 Decision Trees

شس کشدى دسخت

افضایص تشای صیشدسخت ا حزف :«دسخت کشدى شس»•تؼوین پزیشی قاتلیت

–Prepruning: ایی تؼذاد ک غستی دس گش یک ت ک داد هثال ػاى ت)تاضذ کن تش آستا حذ یک اص هی سسذ ای پح دسغذ ای ت گش آى ،(آهصضی داد تیطتش گش.ضذ خاذ هطؼة

–Postpruning: دسخت ایی صیش دسخت، کاهل سضذ اص تؼذ حزف هی ضذ، (Overfitting)تیص تشاصش هخة ک

.ضذ خاذpruning) شس هدوػ یک ت یاص• set) ی اص خذای هدوػ

آهصضی•Prepruning ک حالی دس است، سشیغ تش

postpruning است دقیق تش.

يادگيری ماشين20

Page 21: ML 94 1 Chap9 Decision Trees

استخشاج داص.هی دذ ادام سا خػیػ استخشاج کاس ػی ت تػوین دسخت•

ا تشخی دسخت، تطکیل اص پس است هوکي– استفاد هسد خػیػ.گیشذ قشاس

ایی گفت هی تاى– هوتش ستذ، ضدیک تش سیط ت ک خػیػ.هی تاضذ

.داسد تفسیشپزیشی قاتلیت تػوین، دسخت• سشی یک «(conjunction)ػكفی تشکیة» تشگ، ش تا سیط هسیش–

ی ک چشا است، ضشـ ی ت داد تا تاضذ تشقشاس تایذ ضشـ و گش.تشسذ ظش هسد تشگ

ی– rule)قایي پایگا» یک هسیشا ایي و base)» تطکیل سا .هی دذ

ای سثت)پطتیثای هیضاى هی تاى قاى ش تشای– داد پضص داد.ود هحاسث سا (قاى تسف ضذ

تذی دس– دس تذذ، سا کالس یک تطکیل تشگ چذ است، هوکي دست تیاى «(disjunction)فػلی تشکیة» غست ت قایي غست ایي

.هی ضذ شس اص پس کشد؛ شس یض سا آهذ دست ت قایي هی تاى•

.ساخت سا آى هؼادل دسخت وی تاى دیگش کشدى

يادگيری ماشين21

Page 22: ML 94 1 Chap9 Decision Trees

...(اداه)استخشاج داص

يادگيری ماشين22

سا داسذ، Aت ػاى هثال دس غستی ک توام افشادی ک ضغل :سا شس کشد R3داضت تاضذ هی تاى 0.4خشخی

3 : IF job-type='A' THEN 0.4R y

Page 23: ML 94 1 Chap9 Decision Trees

استتاج قاى

غست ت سا (IF-THEN)قایي هی تاى تػوین دسخت خض ت• ا اص هستقین .ود استخشاج یض داد

BFS ک تػوین دسخت خالف تش است DFS سش یک ضی ایي–:است

.هی ضذ آهخت یک ت یک تشتیة ت قایي–

.ستذ ضشـ سشی یک ػكفی تشکیة قایي–ـ ا• ـ ا .هی ضذ افضدى قایي ت یک ت یک یض ضش ای ت ضش گ

ضذى تاػث ک هی ضذ اتخاب هثال ػاى ت) هؼیاس یک تی.ضذ (آتشپی

ک غستی دس هی دذ، «(cover)پضص» سا و یک قاى یک•.کذ اسؾا سا ضشایف توام و آى

يادگيری ماشين23

Rule induction

Page 24: ML 94 1 Chap9 Decision Trees

ی ت ک قای ش• ت ضذى شس اص پس کشد، سضذ کافی اذاص ای سپس هی ضد، اؾاف «قایي پایگا» داد پضص داد

ی اص آى تسف ضذ تاقی تا کاس ضذ حزف آهصضی هدوػ ا ی ک صهای تا کاس ایي .هی ضد گشفت سش اص داد و ا .هی یاتذ اداه ضذ داد پضص داد

ی د غست ت الگسیتن ایي– ی تدستست، حلق تشای تیشی حلق ی قاى افضدى ضشـ افضدى تشای دسی حلق

.یست ضذ تؿویي تی پاسخ ستذ حشیػا گام د ش– ی یک یض گام ش اص تؼذ– .است ضذ پیص تیی کشدى شس هشحل

ای د حالت تشای• ی)دست ت قایي ،(هفی هثثت دست ی تا هی ضذ افضد تذسیح ضذ؛ داد پضص هثثت ا دست

ای ک غستی دس داد پضص ضذ استتاج قایي تا داد.هی گیشد قشاس هفی ا گش دس طد،

يادگيری ماشين24

Sequential covering

Ripper (Cohen, 1995)

IREP (Fürnkrantz and Widmer, 1994)

Page 25: ML 94 1 Chap9 Decision Trees

افضدى ضشـ

ی» ام ت هؼیاسی اص ضشـ افضدى تشای• تشinformation) اقالػات gain)» هی ضد استفاد:

:هی ضد تذل ’R ت R قاى ضشـ، افضدى اص پس• افضایص غست دس– .هی ضد افضد قاى ت ضشـ تش

25

2 2, . log logN N

Gain R R sN N

ایی ک تؼذاد کل وپضص داد Rتا قاى هی ضد

ای هثثت تؼذاد و Rغحیح ک تا قاى

پضص داد هی ضد

ای هثثت تؼذاد ون ’Rک تا Rغحیح دس

.هثثت غحیح ستذ

ت غست هطات تشای ’Rقاى

Page 26: ML 94 1 Chap9 Decision Trees

شس کشدى ضشـ

ی یچ ک خایی تا• ت طد داد پضص هفی و.هی ضد اؾاف ضشـ قاى

.هی سسذ ضشـ کشدى شس ت تت آى اص پس•.است «قاى اسصش هؼیاس» افضایص هثا•

ی» اص هشحل ایي تشای• استفاد «شس هدوػ.هی ضد

يادگيری ماشين26

p n

rvm Rp n

rule value metric

ای هثثت کارب تؼذاد و(false positive)

ای هثثت غحیح تؼذاد و(true positive)

Page 27: ML 94 1 Chap9 Decision Trees

افضدى قایي

ایی توام ضذ، شس قاى یک ایي اص پس• ک و ی اص هی ضد، داد پضص آى تسف هدوػ

.هی ضد حزف آهصضی ی ثدى تی غست دس• دیگش قای آهصضی هدوػ

.هی ضد افضد صدتش خذیذ قاى افضدى است هوکي یض خد غست دس–

.ضد هتقف قاى• سدیذ «تغیف قل» هؼیاسی تا پایگا

.هی ضد ساصی یض قایي هدوػ سی پایاى دس• غست تی

.هی گیشد

يادگيری ماشين27

Description length

Page 28: ML 94 1 Chap9 Decision Trees

يادگيری ماشين28

Ripper Algorithm

Page 29: ML 94 1 Chap9 Decision Trees

يادگيری ماشين29

Ripper Algorithm

Page 30: ML 94 1 Chap9 Decision Trees

حالت تیص اص د دست

سخذاد احتوال تشتیة ت کالس ا حالت ایي دس• ای ت هی ضذ، هشتة آى ا کن تشیي C1 ک گ

داضت سا احتوال تیطتشیي Ck سخذاد احتوال.تاضذ

ی یک• (کالس ا سایش C1 کالس) کالس د هسال ی ت تؼشیف .هی ضد تشسسی ضذ گفت ضی

حزف C1 کالس تشای قاى استخشاج اص پس ا ی سایش تشای سذ ویي آى تا هشتثف و

کالس ا .هی یاتذ اداه

يادگيری ماشين30

Page 31: ML 94 1 Chap9 Decision Trees

دسخت چذهتغیش

ای توام چذهتغیش دسخت دس• ای دس خػیػ گش تشای هثال ػاى ت ستذ، استفاد قاتل داخلی

ای :پیست خػیػ

يادگيری ماشين31

Multivariate Trees

0 0T

m m mf w x w x

Page 32: ML 94 1 Chap9 Decision Trees

(...اداه)دسخت چذهتغیش

هحذد چذؾلؼی یک تا هحلی احی تذیي تشتیة،• ػود i هحس تش ،i خذاساص تک هتغیش، حالت دس).هی ضذ

(است داسد خد اتخاب تشای ساستا d تا تک هتغیش، حالت دس–

Nm-1 حذآستا تشای هقذاس

ای اص استفاد اهکاى چذهتغیش، حالت دس• غیشخكی گش.داسد خد

.است ضذ پیطاد گش، ش دس MLP اص استفاد وچیي•

ای اص استفاد وچیي• sphere) کشی گش node) .است ضذ پیطاد

يادگيری ماشين32

0 0T T

m m m mf w x xW x w x

m m mf x x c

Page 33: ML 94 1 Chap9 Decision Trees

(...اداه)دسخت چذهتغیش

ی یک CART تشای• ضذ پیطاد چذهتغیش و.است

ی سش ا، تشخی دس• یض تؼذ کاص پیص پشداصش هشحل.هی ضد ادام

تش فشؾی فؿای تک هتغیش، سش دس• دس است، ساد ای تؼذاد تا چذهتغیش فؿای دس تید کن تش گش

.هی ضد ادام تتشی تخویيbranching)اطؼاب ا تؼذاد– factor) داسد هطاتی اثش ن.

ا پیچیذگی اطؼاب ا تؼذاد دسخت، اتؼاد تیي• گشtrade-off داسد خد.

يادگيری ماشين33

Page 34: ML 94 1 Chap9 Decision Trees

(...اداه)دسخت چذهتغیش

ای تضسگیک دسخت کن تؼذاد اطؼاب سادتا گشیا

ای کچکیک دسخت صیاد تؼذاد اطؼاب پیچیذتا گش

قاتلیت تفسیش پزیشی تؼوین پزیشی دسخت ال تتش •.است

یکی اص هضایای دسخت، ضکستي هسأل ت هسائل کچک تش •.است، افضایص پیچیذگی دس اقغ قؽ غشؼ است

يادگيری ماشين34

Page 35: ML 94 1 Chap9 Decision Trees

.است تشکیثی ساختاس داسای• خذاساص هسأل، پیچیذگی ع ت تخ تا گش، ش دس–

.تاضذ هتفات است هوکي هكلب ا– یا خكی)چذهتغیش تک هتغیش، است هوکي گش

.تاضذ (غیشخكی ک هی ضذ اتخاب صهای تا پیچیذ هذل ای–

.تاضذ ذاضت هقایس قاتل کاسایی ساد هذل ای ای ک است داد طاى تایح– سیط ت ضدیک گش

تش هسأل ضین، دس سیط اص شچ)ستذ پیچیذ تش .(هی ضد ساد

يادگيری ماشين35

Omnivariate Decision Trees

Page 36: ML 94 1 Chap9 Decision Trees

هضایای دسخت تػوین

هؼادل تشگ ا اپاساهتشی، سش ای سایش هطات• اسا ػشؼ ک تفات ایي تا ستذ؛ اسا ا تؼذاد است ثاتت و

ضثات اساس تش تا هحلی، احی تقسین تذی• ا ظش دس ن خشخی تلک وی ضد، ادام و

.هی ضد گشفت.داسذ تیطتشی سشػت• ی ت یاص• ی رخیش ا و .یست و

يادگيری ماشين36