Chapter 5 Data Mining for Classification · Classification & Prediction 2 Data Mining...

34
Chapter 5 Data Mining for Classification 01/06/57 1 Data Mining Classification โดย ผศ.วิภาวรรณ บัวทอง

Transcript of Chapter 5 Data Mining for Classification · Classification & Prediction 2 Data Mining...

Page 1: Chapter 5 Data Mining for Classification · Classification & Prediction 2 Data Mining Classification โดย ผศ.วิภาวรรณ บัวทอง 01/06/57 Classification

Chapter 5Data Mining for Classification

01/06/571 Data Mining Classification โดย ผศ.วภาวรรณ บวทอง

Page 2: Chapter 5 Data Mining for Classification · Classification & Prediction 2 Data Mining Classification โดย ผศ.วิภาวรรณ บัวทอง 01/06/57 Classification

Classification & Prediction

01/06/57Data Mining Classification โดย ผศ.วภาวรรณ บวทอง2

Classification เปนกระบวนการสรางโมเดล จดการขอมลใหอยกลมทก าหนดมาให เชน จดกลมนกเรยนวา ดมาก ด ปานกลาง ไมด โดยพจารณาจากประวตและผลการเรยน หรอแบงประเภทของลกคาวาเชอถอได หรอเชอถอไมได โดยพจารณาจากขอมลทมอย

Page 3: Chapter 5 Data Mining for Classification · Classification & Prediction 2 Data Mining Classification โดย ผศ.วิภาวรรณ บัวทอง 01/06/57 Classification

Process of Classification

01/06/57Data Mining Classification โดย ผศ.วภาวรรณ บวทอง3

Page 4: Chapter 5 Data Mining for Classification · Classification & Prediction 2 Data Mining Classification โดย ผศ.วิภาวรรณ บัวทอง 01/06/57 Classification

01/06/57Data Mining Classification โดย ผศ.วภาวรรณ บวทอง4

1. แบงขอมลตวอยาง (Samples Data) ออกเปน 3 สวนไดแก - Training Datasets - Validation Datasets - Test Datasets

2. น า Training Datasets มาสราง Decision Tree3. ใช Validation Datasets วดความถกตองในการจ าแนกของ

Tree ทสราง4. ท าซ าขอ 2,3 เพอใหไดความถกตองสงสด5. ใช Testing Datasets มาทดสอบกบ Tree ทไดเพอวดความ

ถกตอง

Page 5: Chapter 5 Data Mining for Classification · Classification & Prediction 2 Data Mining Classification โดย ผศ.วิภาวรรณ บัวทอง 01/06/57 Classification

Classification : Definition

01/06/57Data Mining Classification โดย ผศ.วภาวรรณ บวทอง5

Page 6: Chapter 5 Data Mining for Classification · Classification & Prediction 2 Data Mining Classification โดย ผศ.วิภาวรรณ บัวทอง 01/06/57 Classification

อลกอรทมทใชในการเหมองขอมลแบบจ าแนก

01/06/57Data Mining Classification โดย ผศ.วภาวรรณ บวทอง6

ไดแก

• Decision Tree induction

• Naïve Bayes method• K-nearest neighbor (K-NN)

• Neural Network

Page 7: Chapter 5 Data Mining for Classification · Classification & Prediction 2 Data Mining Classification โดย ผศ.วิภาวรรณ บัวทอง 01/06/57 Classification

Decision Tree Example

01/06/57Data Mining Classification โดย ผศ.วภาวรรณ บวทอง7

Page 8: Chapter 5 Data Mining for Classification · Classification & Prediction 2 Data Mining Classification โดย ผศ.วิภาวรรณ บัวทอง 01/06/57 Classification

Decision Tree Learning Algorithm

01/06/57Data Mining Classification โดย ผศ.วภาวรรณ บวทอง8

Decision Tree เปนการน าขอมลมาสรางแบบจ าลองการพยากรณในรปแบบโครงสรางตนไม และมการท างานแบบ Supervised Learning (คอการเรยนรของโมเดลแบบมครสอน) สามารถสรางแบบจ าลองการจดหมวดหมไดจากกลมตวอยางขอมลทก าหนดไวลวงหนา และพยากรณกลมของรายการท ยงไ มเคยน ามาจดหมวดหม ไดดวยรปแบบของ Tree โครงสรางประกอบดวย Root Node, Child และ Leaf Node อลกอรทมทใชในการสราง Decision Tree ไดแก - ID3 Algorithm

- C4.5 Algorithm- C5.0 Algorithm- CART Algorithm

Page 9: Chapter 5 Data Mining for Classification · Classification & Prediction 2 Data Mining Classification โดย ผศ.วิภาวรรณ บัวทอง 01/06/57 Classification

เทคนคในการท าเหมองขอมลแบบ Decision Tree

01/06/57Data Mining Classification โดย ผศ.วภาวรรณ บวทอง9

สมมตวาตองการพยากรณว า ล ก ค าท ป จ จ บ น ไ ด เ ช าสนทรพยอยางใดอยางหนงไปแลว จะมโอกาสตดสนใจซอสนทรพยชนดนนไปเปนของตนเองหรอไม ? โดยใชปจจยในการวเคราะหคอ ระยะเวลาทลกคาไดเชาสนทรพยมาและอายของลกคา

อายเชาสนทรพย อายผเชา ซอสนทรพย

2 25 YES

3 22 YES

1 28 NO

5 30 YES

4 27 NO

2 21 NO

3 23 NO

... ... …

Page 10: Chapter 5 Data Mining for Classification · Classification & Prediction 2 Data Mining Classification โดย ผศ.วิภาวรรณ บัวทอง 01/06/57 Classification

01/06/57Data Mining Classification โดย ผศ.วภาวรรณ บวทอง10

จากขอมลพบวา “ลกคาทมอายเชาสนทรพยตงแต 2 ปขนไปและอายของผเชาตงแต 25 ปขนไป มกจะตกลงซอสนทรพยเปนของตนเอง” อายเชาสนทรพย

>= 2 ?

อายผเชา

>= 25 ?เชา

เชา ซอ

No

No

Yes

Yes

เทคนคในการท าเหมองขอมลแบบ Decision Tree

Page 11: Chapter 5 Data Mining for Classification · Classification & Prediction 2 Data Mining Classification โดย ผศ.วิภาวรรณ บัวทอง 01/06/57 Classification

Classification Sample Data

01/06/57Data Mining Classification โดย ผศ.วภาวรรณ บวทอง11

Page 12: Chapter 5 Data Mining for Classification · Classification & Prediction 2 Data Mining Classification โดย ผศ.วิภาวรรณ บัวทอง 01/06/57 Classification

01/06/57Data Mining Classification โดย ผศ.วภาวรรณ บวทอง12

ขอมลทก าหนดในตาราง เปนขอมลสภาพอากาศ ทใชประกอบการตดสนใจในการเลนกฬาชนดหนง วา มสภาพอากาศอยางไรจงจะเลน (play = yes)

มสภาพอากาศอยางไรจงไมเลน (play = no)

ในงานจ าแนกขอมล (Classification) ขอมลทเปนจดมงหมายในการจ าแนก คอ แอททรบวต play

ขณะท แอททรบวต outlook , temperature , humidity , windy ท าหนาทเปน predicting attributes

Page 13: Chapter 5 Data Mining for Classification · Classification & Prediction 2 Data Mining Classification โดย ผศ.วิภาวรรณ บัวทอง 01/06/57 Classification

01/06/57Data Mining Classification โดย ผศ.วภาวรรณ บวทอง13

ปญหาทตองพจารณาคอ จะเลอก Attributes ใด ท าหนาทเปน root node ในแตละขนตอนของการสราง tree และ subtree

เกณฑทชวยตดสนใจ ในการเลอก root node คอ ทดลองเลอกAttribute แตละตวมาท าหนาทเปน root node แลวหาคา Gain ซงเปนคาทใชบอกวา attribute ทท าหนาทเปน root node สามารถจ าแนกขอมลไดดมากนอยเพยงใด

จะเลอก attribute ทใหคา Gain สงสดเปน root node

Page 14: Chapter 5 Data Mining for Classification · Classification & Prediction 2 Data Mining Classification โดย ผศ.วิภาวรรณ บัวทอง 01/06/57 Classification

การหาคา Gain

01/06/57Data Mining Classification โดย ผศ.วภาวรรณ บวทอง14

Gain เปนคาทบอกระดบความสามารถของการจ าแนกคลาสของ attribute หนวยของการวดเปน bits (มาจาก Information Theory)

ถาให T แทน เซตของ Training Set

X แทน แอททรบวต ทถกเลอกใหเปนตวจ าแนกขอมล

Gain(x) = info(T) – infox(T)

Page 15: Chapter 5 Data Mining for Classification · Classification & Prediction 2 Data Mining Classification โดย ผศ.วิภาวรรณ บัวทอง 01/06/57 Classification

การหาคา Gain (ตอ)

01/06/57Data Mining Classification โดย ผศ.วภาวรรณ บวทอง15

Info(T) เปนฟงกชน ทระบปรมาณขอมลทตองการเพอใหสามารถจ าแนกคลาสทตองการได

info(T) =

เมอ |T| คอ จ านวนขอมลทงหมดใน Training DatasetsFreq(Cj,T) คอ ความถทขอมลใน T ปรากฏเปนคลาส Cj

Page 16: Chapter 5 Data Mining for Classification · Classification & Prediction 2 Data Mining Classification โดย ผศ.วิภาวรรณ บัวทอง 01/06/57 Classification

การหาคา Gain (ตอ)

01/06/57Data Mining Classification โดย ผศ.วภาวรรณ บวทอง16

Infox(T) หรอ Entropy คอ ฟงกชนทระบปรมาณขอมลทตองการเพอการจ าแนกคลาสของขอมลโดยใช attribute X เปนตวตรวจสอบเพอแยกขอมล

Infox(T) =

เมอ i คอ จ านวนคาทเปนไปไดของแอททรบวต x

|Ti| คอ จ านวนขอมลทมคา x=i

Page 17: Chapter 5 Data Mining for Classification · Classification & Prediction 2 Data Mining Classification โดย ผศ.วิภาวรรณ บัวทอง 01/06/57 Classification

Example

01/06/57Data Mining Classification โดย ผศ.วภาวรรณ บวทอง17

จากตวอยางขอมลจะหาคา gain ของแตละ attribute ทจะเลอกเปน Root node

1. จะตองหาคา info(T)

Page 18: Chapter 5 Data Mining for Classification · Classification & Prediction 2 Data Mining Classification โดย ผศ.วิภาวรรณ บัวทอง 01/06/57 Classification

2. หาคา infox(T) ของแตละแอททรบวต

01/06/57Data Mining Classification โดย ผศ.วภาวรรณ บวทอง18

คา info outlook(T) หาไดดงน

Page 19: Chapter 5 Data Mining for Classification · Classification & Prediction 2 Data Mining Classification โดย ผศ.วิภาวรรณ บัวทอง 01/06/57 Classification

01/06/57Data Mining Classification โดย ผศ.วภาวรรณ บวทอง19

การจะจ าแนกคลาสของขอมลออกเปน play = yes หรอ play = no ตองใชขอมลจากแอททรบวตอนประกอบการตดสนใจ ถาแอททรบวต outlook จะตองดขอมลเพอประกอบการเลอกคลาส ดงน

Page 20: Chapter 5 Data Mining for Classification · Classification & Prediction 2 Data Mining Classification โดย ผศ.วิภาวรรณ บัวทอง 01/06/57 Classification

01/06/57Data Mining Classification โดย ผศ.วภาวรรณ บวทอง20

Page 21: Chapter 5 Data Mining for Classification · Classification & Prediction 2 Data Mining Classification โดย ผศ.วิภาวรรณ บัวทอง 01/06/57 Classification

Classification : Constructing Decision Tree

01/06/57Data Mining Classification โดย ผศ.วภาวรรณ บวทอง21

Page 22: Chapter 5 Data Mining for Classification · Classification & Prediction 2 Data Mining Classification โดย ผศ.วิภาวรรณ บัวทอง 01/06/57 Classification

01/06/57Data Mining Classification โดย ผศ.วภาวรรณ บวทอง22

Classification : Constructing Decision Tree (ตอ)

Page 23: Chapter 5 Data Mining for Classification · Classification & Prediction 2 Data Mining Classification โดย ผศ.วิภาวรรณ บัวทอง 01/06/57 Classification

เปรยบเทยบคา Gain ทได

01/06/57Data Mining Classification โดย ผศ.วภาวรรณ บวทอง23

Page 24: Chapter 5 Data Mining for Classification · Classification & Prediction 2 Data Mining Classification โดย ผศ.วิภาวรรณ บัวทอง 01/06/57 Classification

01/06/57Data Mining Classification โดย ผศ.วภาวรรณ บวทอง24

เนองจากแอททรบวต outlook ยงไมสามารถจดกลมขอมลใหเปนคลาสเดยวกนไดทงหมด (outlook = sunny จดกลมขอมลทเปนคลาส yes=2 recs, no=3 recs และ outlook = rainy จดกลมขอมลทเปนคลาส yes=3 recs, no=2 recs) จงตองสราง decision tree ตอ โดยเลอกแอททรบวตทจะมาเปน node ในระดบท 2 ตอจาก root node ในกรณ outlook = cloudy ไมจ าเปนตองสราง node เพมเตม เพราะสามารถจดกลมขอมลทเปนคลาส yes ไดทงหมด

Constructing Decision Tree (ตอ)

Page 25: Chapter 5 Data Mining for Classification · Classification & Prediction 2 Data Mining Classification โดย ผศ.วิภาวรรณ บัวทอง 01/06/57 Classification

01/06/57Data Mining Classification โดย ผศ.วภาวรรณ บวทอง25

แอททรบวตทสามารถถกเลอกเปน node ในระดบท 2 ได คอ temperature, humidity และ windy

พจารณาการสรางโหนดลกทางซายมอ outlook = sunny ถาเลอกแอททรบวต temperature จะไดค านวณคา gain ไดดงน

เนองจาก outlook = sunny จดกลมขอมลทเปนคลาส yes=2 recs, no=3 recs ดงนน

Constructing Decision Tree (ตอ)

Page 26: Chapter 5 Data Mining for Classification · Classification & Prediction 2 Data Mining Classification โดย ผศ.วิภาวรรณ บัวทอง 01/06/57 Classification

01/06/57Data Mining Classification โดย ผศ.วภาวรรณ บวทอง26

Constructing Decision Tree (ตอ)

Page 27: Chapter 5 Data Mining for Classification · Classification & Prediction 2 Data Mining Classification โดย ผศ.วิภาวรรณ บัวทอง 01/06/57 Classification

01/06/57Data Mining Classification โดย ผศ.วภาวรรณ บวทอง27

Constructing Decision Tree (ตอ)

Page 28: Chapter 5 Data Mining for Classification · Classification & Prediction 2 Data Mining Classification โดย ผศ.วิภาวรรณ บัวทอง 01/06/57 Classification

01/06/57Data Mining Classification โดย ผศ.วภาวรรณ บวทอง28

เมอลอง outlook = sunny แลว ทดลองจ าแนกกลมตอไปดวยแอททรบวตcloudy

Constructing Decision Tree (ตอ)

Page 29: Chapter 5 Data Mining for Classification · Classification & Prediction 2 Data Mining Classification โดย ผศ.วิภาวรรณ บัวทอง 01/06/57 Classification

01/06/57Data Mining Classification โดย ผศ.วภาวรรณ บวทอง29

เมอลอง outlook = sunny แลว ทดลองจ าแนกกลมตอไปดวยแอททรบวตhumidity

Constructing Decision Tree (ตอ)

Page 30: Chapter 5 Data Mining for Classification · Classification & Prediction 2 Data Mining Classification โดย ผศ.วิภาวรรณ บัวทอง 01/06/57 Classification

01/06/57Data Mining Classification โดย ผศ.วภาวรรณ บวทอง30

ในท านองเดยวกนเมอ outlook = sunny แลว ทดลองสราง decision tree ดวยแอททรบวตอนๆ จะไดคา gain ดงตอไปน

gain(temperature) = 0.571gain(humidity) = 0.971gain(windy) = 0.020

จงพจารณาเลอกแอททรบวต humidity (เพราะมคา gain สงสด) เปน node ในระดบทสองตอจากโหนด outlook

Constructing Decision Tree (ตอ)

Page 31: Chapter 5 Data Mining for Classification · Classification & Prediction 2 Data Mining Classification โดย ผศ.วิภาวรรณ บัวทอง 01/06/57 Classification

01/06/57Data Mining Classification โดย ผศ.วภาวรรณ บวทอง31

decision tree ยงเหลอโหนดลกทางขวาของโหนด outlook ทตองพจารณาเลอกแอททรบวตและจากวธค านวณคา gain ทผานมากอนหนาน สามารถเลอกไดวา แอททรบวต windy จะใหคา gain สงทสด

กระบวนการสราง decision tree จะสนสด กตอเมอ leaf node เปนกลมของขอมลคลาสเดยวกนทงหมด

Constructing Decision Tree (ตอ)

Page 32: Chapter 5 Data Mining for Classification · Classification & Prediction 2 Data Mining Classification โดย ผศ.วิภาวรรณ บัวทอง 01/06/57 Classification

Classification Rule

01/06/57Data Mining Classification โดย ผศ.วภาวรรณ บวทอง32

ในกรณทมขอมลใหมทยงไมทราบคลาส “outlook = sunny, temperature = cool, humidity = high, windy = true” สามารถใช decision tree ท านายคลาสของขอมลนวา play = no โดยพจารณาจากเพยง 2 แอททรบวต คอ outlook = sunny และ humidity = high

Decision tree สามารถแปลงเปน Classification rule ไดดงน

rule 1 : IF (outlook = sunny) AND (humidity = high) THEN play = no

rule 2 : IF (outlook = sunny) AND (humidity = normal)THEN play = yes

rule 3 : IF (outlook = cloudy) THEN play = yes

rule 4 : IF (outlook = rainy) AND (windy = false) THEN play = yes

rule 5 : IF (outlook = rainy) AND (windy = true) THEN play = no

Page 33: Chapter 5 Data Mining for Classification · Classification & Prediction 2 Data Mining Classification โดย ผศ.วิภาวรรณ บัวทอง 01/06/57 Classification

01/06/57Data Mining Classification โดย ผศ.วภาวรรณ บวทอง33

Page 34: Chapter 5 Data Mining for Classification · Classification & Prediction 2 Data Mining Classification โดย ผศ.วิภาวรรณ บัวทอง 01/06/57 Classification

Exercise

01/06/57Data Mining Classification โดย ผศ.วภาวรรณ บวทอง34

จากขอมล ความคดเหนของคน 7 คน ทตองการเลอกผสมครหมายเลข 1 หรอ หมายเลข 2 โดยพจารณาจากอาย รายได และการศกษาของผแสดงความคดเหน ปรากฎดงตาราง ใหสราง Decision Tree พรอมแสดงกฎการเรยนรทได

No Age Income Education Candidate

1 >=35 High High School 1

2 <35 Low University 1

3 >=35 High College 2

4 >=35 Low High School 2

5 >=35 High University 1

6 <35 High College 1

7 <35 Low High School 2