Chapter 1 · 2017-08-08 · Data Mining คืออะไร Data Mining...

Post on 07-May-2020

3 views 0 download

Transcript of Chapter 1 · 2017-08-08 · Data Mining คืออะไร Data Mining...

Chapter 1Introduction to Data miningอาจารยอนพงศ สขประเสรฐคณะการบญชและการจดการมหาวทยาลยมหาสารคาม

2

Content Data Mining คออะไร ววฒนาการของการท าเหมองขอมล ขนตอนการท าเหมองขอมล สวนประกอบหรอสถาปตยกรรมของการท าเหมองขอมล ประเภทของขอมลทสามารถท า Data Mining ลกษณะเฉพาะของขอมลทใชท าเหมองขอมล ตวอยางการน าเหมองขอมลมาใช Data Mining ประโยชนของเหมองขอมล

Data Mining คออะไร

Data Mining เปนกระบวนการ (Process) ทกระท ากบขอมลขนาดใหญ เพอ

คนหารปแบบ แนวทาง และความสมพนธทซอนอยในชดขอมลนน โดยอาศยหลกสถต

การรจ า การเรยนรของเครอง และหลกคณตศาสตร เพอใหไดสารสนเทศทเราไมร

ออกมา โดยสารสนเทศทไดจะมเหตผลและสามารถน าไปใชประโยชนได

Data Mining คออะไร

ลกษณะการท างานของ Data Mining คลายกบกระบวนการ

Knowledge Discovery in Databases : KDD เปนการสบคน

ความรทเปนประโยชนในฐานขอมลขนาดใหญ

ซงนยมใช Data Mining เปนขนตอนหนงในกระบวนการ KDD

Data Mining (เหมองขอมล)

เหมองขอมล เปนเครองมอทชวยใหผใชเขาถงขอมลไดโดยตรงจากฐานขอมลขนาดใหญ

เหมองขอมล เปนเครองมอ และ Application ทสามารถแสดงผลการวเคราะหขอมลทางสถตได

เหมองขอมล หมายถงการวเคราะหขอมล เพอแยกประเภท จ าแนกรปแบบและความสมพนธของขอมลจากคลงขอมลหรอฐานขอมลขนาดใหญ น าสารสนเทศไปใชในการตดสนใจธรกจ

ไดองคความรใหม (Knowledge Discovery) อาจอยในรปแบบของกฎเกณฑ (Rule)

ววฒนาการของการท าเหมองขอมล

ป 1960 Data Collection คอ การน าขอมลมาจดเกบอยางเหมาะสมในอปกรณทนาเชอถอและปองกนการสญหายไดเปนอยางด

ป 1980 Data Access คอ การน าขอมลทจดเกบมาสรางความสมพนธตอกนในขอมลเพอประโยชนในการน าไปวเคราะห และการตดสนใจอยางมคณภาพ

ป 1990 Data Warehouse & Decision Support คอ การรวบรวมขอมลมาจดเกบลงไปในฐานขอมลขนาดใหญโดยครอบคลมทกดานขององคกร เพอชวยสนบสนนการตดสนใจ

ป 2000 Data Mining คอ การน าขอมลจากฐานขอมลมาวเคราะหและประมวลผล โดยการสรางแบบจ าลองและความสมพนธทางสถต

ท าไมจงตองม Data Mining

ขอมลทถกเกบไวในฐานขอมลหากเกบไวเฉย ๆ กจะไมเกดประโยชนดงนนจงตองมการสกดสารสนเทศหรอการคดเลอกขอมลออกมาใชงานสวนทเราตองการ

ในอดตเราไดใชคนเปนผสบคนขอมลตางๆ ในฐานขอมลซงผสบคนจะท าการสรางเงอนไขขนมาตามภมปญญาของผสบคน

ในปจจบนการวเคราะหขอมลจากฐานขอมลเดยวอาจไมใหความรเพยงพอและลกซงส าหรบการด าเนนงานภายใตภาวะทมการแขงขนสงและมการเปลยนแปลงทรวดเรวจงจ าเปนทจะตองรวบรวมฐานขอมลหลาย ๆ ฐานขอมลเขาดวยกน เรยกวา “ คลงขอมล” ( Data Warehouse) ดงนนเราจงจ าเปนตองใช Data Mining ในการดงขอมลจากฐานขอมลทมขนาดใหญ เพอทจะน าขอมลนนมาใชงานใหเกดประโยชนสงทสด

ขนตอนการท าเหมองขอมล

Data Cleaning เปนขนตอนส าหรบการคดขอมลทไมเกยวของออกไป Data Integration เปนขนตอนการรวมขอมลทมหลายแหลงใหเปนขอมลชด

เดยวกน Data Selection เปนขนตอนการดงขอมลส าหรบการวเคราะหจากแหลงทบนทกไว Data Transformation เปนขนตอนการแปลงขอมลใหเหมาะสมส าหรบการใชงาน Data Mining เปนขนตอนการคนหารปแบบทเปนประโยชนจากขอมลทมอย Pattern Evaluation เปนขนตอนการประเมนรปแบบทไดจากการท าเหมองขอมล Knowledge Representation เปนขนตอนการน าเสนอความรทคนพบ โดยใช

เทคนคในการน าเสนอเพอใหเขาใจ

สวนประกอบหรอสถาปตยกรรมของการท าเหมองขอมล

Database, Data Warehouse, World Wide Web และ Other Info Repositories เปนแหลงขอมลส าหรบการท าเหมองขอมล

Database หรอ Data Warehouse Server ท าหนาทน าเขาขอมลตามค าขอของผใช

Knowledge Base ไดแก ความรเฉพาะดานในงานทท าจะเปนประโยชนตอการสบคน หรอประเมนความนาสนใจของรปแบบผลลพธทได

Data Mining Engine เปนสวนประกอบหลกประกอบดวยโมดลทรบผดชอบงานท าเหมองขอมลประเภทตางๆ ไดแก การหากฎความสมพนธ การจ าแนกประเภท การจดกลม

สวนประกอบหรอสถาปตยกรรมของการท าเหมองขอมล (ตอ)

Pattern Evaluation Module ท างานรวมกบ Data Mining Engine โดยใชมาตรวดความนาสนใจในการกลนกรองรปแบบผลลทธทได เพอใหการคนหามงเนนเฉพาะรปแบบทนาสนใจ

User Interface สวนตดตอประสานระหวางผใชกบระบบการท าเหมองขอมล ชวยใหผใชสามารถระบงานท าเหมองขอมลทตองการท า ดขอมลหรอโครงสรางการจดเกบขอมล ประเมนผลลพธทได

ขอมลทใชท า Data mining มาจากไหน?

ขอมลแบงตามทมา◦ ภายในบรษท/องคกร ขอมลการซอขาย ขอมลประวตลกคา ขอมลประวตพนกงาน

◦ ภายนอกบรษท/องคกร ขอมลจาก social media ตางๆ ขอมลขาวตางๆ ขอมลรปภาพและเสยง

ทมา: http://www.ibmbigdatahub.com/infographic/where-does-big-data-come

6

ประเภทของขอมลทสามารถท า Data Mining

Relational databases เปนฐานขอมลทจดเกบอยในรปแบบของตาราง โดยในแตละตารางจะประกอบไปดวยแถวและคอลมน ความสมพนธของขอมลทงหมดสามารถแสดงไดโดย Entity Relationship Model

ประเภทของขอมลทสามารถท า Data Mining (ตอ)

Relational databases

ตารางท 1 ตวอยางตารางขอมลนสตขนตน

ตารางท 2 ตวอยางขอมลการลงทะเบยนของนสต

ประเภทของขอมลทสามารถท า Data Mining (ตอ)

Data Warehousesเปนการเกบรวบรวมขอมลจากหลายแหลงมาเกบไวในรปแบบเดยวกนและรวบรวมไวในทๆ เดยวกน

ประเภทของขอมลทสามารถท า Data Mining (ตอ)

Data Warehouses

ทมา : http://www.persysinc.com/persys_database_datawarehouse.aspx

Transactional databasesประกอบดวยขอมลทแตละทรานเเซกชนแทนดวยเหตการณในขณะใดขณะหนง เชน ใบเสรจรบเงน จะเกบขอมลในรปชอลกคาและรายการสนคาทลกคารายซอ

ประเภทของขอมลทสามารถท า Data Mining (ตอ)

Transactional databases◦ ใบเสรจรบเงน

ประเภทของขอมลทสามารถท า Data Mining (ตอ)

ประเภทของขอมลทสามารถท า Data Mining (ตอ)

Advanced database เปนฐานขอมลทจดเกบในรปแบบอนๆ เชน- ขอมลแบบ Object oriented- ขอมลทเปน Text file- ขอมลมลตมเดย- ขอมลในรปของ Web Site

ลกษณะเฉพาะของขอมลทใชท าเหมองขอมล

ขอมลขนาดใหญ เกนกวาจะพจารณาความสมพนธทซอนอยภายในขอมลไดดวยตาเปลา หรอโดยการใช Database Management System ( DBMS ) ในการจดการฐานขอมล

ขอมลทมาจากหลายแหลง โดยอาจรวบรวมมาจากหลายระบบปฏบตการหรอหลาย DBMS เชน Oracle , DB2 , MS SQL , MS Access เปนตน

ขอมลทมโครงสรางซบซอน เชน ขอมลรปภาพ ขอมลมลตมเดย ขอมลเหลานสามารถน ามาท า Mining ไดเชนกนแตตองใชเทคนคการท า Data Mining ขนสง

ลกษณะเฉพาะของขอมลทใชท าเหมองขอมล (ตอ)

ขอมลทไมมการเปลยนแปลงตลอดชวงเวลาทท าการ Mining หากขอมลทมอยนนเปนขอมลทเปลยนแปลงตลอดเวลาจะตองแกปญหานกอน โดยบนทกฐานขอมลนนไวและน าฐานขอมลทบนทกไวมาท า Mining แตเนองจากขอมลนนมการเปลยนแปลงอยตลอดเวลา จงท าใหผลลพธทไดจาการท า Mining สมเหตสมผลในชวงเวลาหนงเทานน ดงนนเพอใหไดผลลพธทมความถกตองเหมาะสมอยตลอดเวลาจงตองท า Mining ใหมทกครงในชวงเวลาทเหมาะสม

ปจจยทท าใหการท าเหมองขอมลเปนทไดรบความนยม

จ านวนและขนาดขอมลขนาดใหญถกผลตและขยายตวอยางรวดเรว การสบคนความรจะมความหมายกตอเมอฐานขอมลทใชมขนาดใหญมาก ปจจบนมจ านวนและขนาดขอมลขนาดใหญทขยายตวอยางรวดเรว โดยผานทาง Internet ดาวเทยม และแหลงผลตขอมล อน ๆ เชน เครองอานบารโคด , เครดตการด , อคอมเมรซ

ขอมลถกจดเกบเพอน าไปสรางระบบการสนบสนนการตดสนใจ ( Decision Support System) เพอเปนการงายตอการน าขอมลมาใชในการวเคราะหเพอการตดสนใจ สวนมากขอมลจะถกจดเกบแยกมาจากระบบปฏบตการ ( Operational System ) โดยจดอยในรปของคลงหรอเหมองขอมล ( Data Warehouse ) ซงเปนการงายตอการน าเอาไปใชในการสบคนความร

ปจจยทท าใหการท าเหมองขอมลเปนทไดรบความนยม (ตอ)

ระบบ computer สมรรถนะสงมราคาต าลง เทคนค Data Mining ประกอบไปดวย Algorithm ทมความซบซอนและความตองการการค านวณสง จงจ าเปนตองใชงานกบระบบ computer สมรรถนะสง ปจจบนระบบ computer สมรรถนะสงมราคาต าลง พรอมดวยเรมมเทคโนโลยทน าเครอง microcomputer จ านวนมากมาเชอมตอกนโดยเครอขายความเรวสง ( PC Cluster ) ท าใหไดระบบ computer สมรรถนะสงในราคาต า

ปจจยทท าใหการท าเหมองขอมลเปนทไดรบความนยม (ตอ)

การแขงขนอยางสงในดานอตสาหกรรมและการคา เนองจากปจจบนมการแขงขนอยางสงในดานอตสหกรรมและการคา มการผลตขอมลไวอยางมากมายแตไมไดน ามาใชใหเกดประโยชน จงเปนการจ าเปนอยางยงทตองควบคมและสบคนความรทถกซอนอยในฐานขอมลความรทไดรบสามารถน าไปวเคราะหเพอการตดสนใจในการจดการในระบบตาง ๆ ซงจะเหนไดวาความรเหลานถอวาเปนผลตผลอกชนหนงเลยทเดยว

ตวอยางการน าเหมองขอมลมาใชงาน

ธรกจการขายและการตลาด (Retail & Marketing) ใชวเคราะหรปแบบพฤตกรรมการซอสนคาของลกคา ใชหาความสมพนธของ Customer Demographic Characteristic วาสงผลตอ

ยอดซอไหม หาความสมพนธของสนคาทลกคาซอ เชน ซออะไรกอนหลงบาง ใชในการท านายความเปนไปไดทลกคาประเภทไหนจะตอบกลบ Mail โฆษณาสนคา

เพอทจะไดวางแผนสงขอมลโปรโมชนในการขายไดตรงจดมากขน การวเคราะห Market Trend

ตวอยางการน าเหมองขอมลมาใชงาน

ธรกจธนาคาร (Banking) ใชวเคราะหรปแบบการโกงของลกคาในการใชบตรเครดต เพอทวาจะไดปองกนกอน

แตเนนๆ วเคราะหเพอแบงแยกหาลกคาทมเครดตด หรอ ไมด และ พฤตกรรมการใชจายเงน

ผานบตรของแตละกลมวาเปนอยางไร วเคราะหกลมของการใชบตรเครดต ชวยวเคราะหหา Correlation ระหวาง Financial Indicators ตางๆ

ตวอยางการน าเหมองขอมลมาใชงาน

ธรกจประกนภย ใชวเคราะหพฤตกรรมการรองเรยน (Claim Analysis) ของลกคา ใชหารปแบบโมเดลของลกคาทนาจะนโยบายหรอกรมธรรมใหมของธรกจ ใชหารปแบบพฤตกรรมของลกคาทจดอยในกลมเสยงตอธรกจ

ตวอยางการน าเหมองขอมลมาใชงาน

ธรกจดานยา โรงพยาบาล คลนก ใชวเคราะหหาพฤตกรรมของคนไขทนาจะมโอกาสมาหาหมอ หรอมาโรงพยาบาล ใชวเคราะหหาวธการหรอยาบ าบดรกษาโรคทดทสด ส าหรบอาการและความ

เจบปวยแตละประเภท ใชวเคราะหหาความสมพนธระหวางอาการของผปวยกบการท านายโรคทนาจะ

เกดขน

ประโยชนของเหมองขอมล

การท าเหมองขอมล จ าเปนตองอาศยบคลากรจากหลายฝาย และตองอาศยความรจ านวนมาก ถงจะไดรบประโยชนอยางแทจรง เพราะสงทไดจากขนตอนวธเปนเพยงตวเลข และขอมล ทอาจจะน าไปใชประโยชนไดหรอใชประโยชนอะไรไมไดเลยกเปนได ผทศกษาการท าเหมองขอมลจงควรมความรรอบดานและตองตดตอกบทก ๆ ฝาย เพอใหเขาใจถงขอบเขตของปญหาโดยแทจรงกอน เพอใหการท าเหมองขอมลเกดประโยชนอยางแทจรง

The end

Q & A