資料庫知識探索 Knowledge Discovery in Databases

32
資資資資資資資 資資資資資資資 Knowledge Discovery in Dat Knowledge Discovery in Dat abases abases Prepared by: Dr. Tsung-Nan Tsai

description

資料庫知識探索 Knowledge Discovery in Databases. Prepared by: Dr. Tsung-Nan Tsai. Content. 了解資料庫知識探索程序之七個步驟 瞭解 KDD 之資料探勘步驟 了解標準化、轉換、修飾資料方法 瞭解資料屬性刪除與建立方法 認知資料遺漏處理方法之優點與缺點 熟悉 CRISP-DM 資料探勘標準. Data preprocessing. Data Transformation. KDD 步驟. - PowerPoint PPT Presentation

Transcript of 資料庫知識探索 Knowledge Discovery in Databases

Page 1: 資料庫知識探索 Knowledge Discovery in Databases

資料庫知識探索資料庫知識探索 Knowledge Discovery in DatabasesKnowledge Discovery in Databases

Prepared by: Dr. Tsung-Nan Tsai

Page 2: 資料庫知識探索 Knowledge Discovery in Databases

結束

ContentContent

了解資料庫知識探索程序之七個步驟 瞭解 KDD 之資料探勘步驟了解標準化、轉換、修飾資料方法 瞭解資料屬性刪除與建立方法 認知資料遺漏處理方法之優點與缺點 熟悉 CRISP-DM 資料探勘標準

Page 3: 資料庫知識探索 Knowledge Discovery in Databases

結束

Data preprocessing

Data Transformation

Page 4: 資料庫知識探索 Knowledge Discovery in Databases

結束

KDDKDD 步驟步驟

資料庫知識探勘 (KDD Discovery in Database, KDD) 為一種於資料庫中挖掘出內含事先未知且潛在有用知識之反覆交互運作程序。KDD 七個步驟:1. 定訂目標:了解知識探索領域與系統問題屬性,並

敘述目標與提出可能假設。2. 建立目標資料集:藉由一個或多個專家與知識探索

工具以選擇所需分析之初始資料。3. 資料前處理:運用有效方法處理資料所隱藏之雜訊、

不一致、遺漏、重覆之資料,並了解時間演進所帶來效應。

Page 5: 資料庫知識探索 Knowledge Discovery in Databases

結束

KDDKDD 步驟步驟

4. 資料轉換:刪除或新增目標資料群屬性與資料,此步驟用以決並一些標準化、轉換、與修飾資料方法。

5. 資料探勘:使用一個或多個資料探勘方法將資料處理成為最佳的模型表現。

6. 解釋與評估:審查步驟 5 所呈現之資料探勘結果,找出有用、有趣、可實行之資料或特徵。

7. 採取行動:直接應用至適當問題領域

Page 6: 資料庫知識探索 Knowledge Discovery in Databases

結束

KDD – KDD – 科學方法步驟科學方法步驟

Page 7: 資料庫知識探索 Knowledge Discovery in Databases

結束

步驟步驟 1: 1: 訂定目標訂定目標

訂定目標主要作用在於清楚定義完成目標為何。資源配置與成功的評量皆設在此步驟此階段須考量之事項:清楚描述所要解決的問題選定資料探勘工具,包括工具適用性、學習方式 (su

pervised or supervised learning or in combination)人力與資源規劃專案管理成果之合法性適當計畫以利於計畫持續運作

Page 8: 資料庫知識探索 Knowledge Discovery in Databases

結束

步驟步驟 2: 2: 建立目標資料集建立目標資料集

一組可用的資料集為資料探勘計畫是否成功與否之關鍵。一個大型資料倉儲 (Data warehouse) 、一個或多個可互相處理之資料庫、及純文字檔皆可為資料探勘資料來源。資料庫管理系統 (DBMS)

關聯式資料庫 (Relational database)TupleRelationship (1:∞, 1:1, ∞: ∞)See next slide

Page 9: 資料庫知識探索 Knowledge Discovery in Databases

結束

Page 10: 資料庫知識探索 Knowledge Discovery in Databases

結束

資料倉儲結構資料倉儲結構

DB1 DB2 DB3 DBn

Extractor Extractor Extractor Extractor

IntegratorIntegrator

Data Warehouse

Client 1 Client 2 Client 3 Client m

Informational Data

Page 11: 資料庫知識探索 Knowledge Discovery in Databases

結束

商業智慧流程商業智慧流程

¸ ê® Æ¤ Àª RData Mining

OLAP

¸ ê® Æº Þ² zª Ì

MIS

¸ ê® ÆÂ à «ª º¤ u ã

ExtractTransform

Load

¸ ê® Æ ÜÀ x/¸ ê® Æ¥ «¶ °

Metadata

Templates

¸ ê® Æ· ½

Data Source

¨ Ï¥ Ϊ ÌDecision Making

CRMMarketing Campaign

´ y z ê® Æª º ê® ÆMeta Data

Page 12: 資料庫知識探索 Knowledge Discovery in Databases

結束

商業智慧商業智慧

IntegratorIntegrator

Data Warehouse

OLAP Data Mining

Purchase

DBs in ERP

Inventory

Order Records

Account Payables

Customer Data

DBs in CRM

Service Records

Supplier Data

DBs in SCM

Purchase Data

Page 13: 資料庫知識探索 Knowledge Discovery in Databases

結束

Data MiningData Mining 評估評估

資料庫理論資料庫理論 人工智慧人工智慧

機器學習機器學習統計方法統計方法資料倉儲資料倉儲

Data MiningData Mining

Page 14: 資料庫知識探索 Knowledge Discovery in Databases

結束

步驟步驟 3: 3: 資料前處理資料前處理

Data preprocessing 乃指處理資料中雜訊與遺漏資訊的資料清理 (Data cleaning) 程序。大多數資料之前處理都在建立資料倉儲前執行之。雜訊資料 (Noisy data)重複紀錄不正確屬性值資料運算或權重重要性偏離值 (Outliers)

Examples, see page 164 to page 166

Page 15: 資料庫知識探索 Knowledge Discovery in Databases

結束

步驟步驟 3: 3: 資料前處理資料前處理

處理遺漏資料可能選項: 刪除有遺漏值之紀錄 將遺漏數值資料以該類平均值取代之 找出高度相似資料範例,並以該範例填補之某些軟體允許處理資料有遺漏情況:1. 忽略遺漏值:類神經網路、貝氏分類器2. 以相同比較方法處理遺漏值 – Treat missing values as e

qual comparison. ( 以相同值取代之 )

3. 以不同比較方法處理遺漏值 – Treat missing values as unequal comparisons ( 以不相同值取代之 )

Page 16: 資料庫知識探索 Knowledge Discovery in Databases

結束

步驟步驟 4: 4: 資料轉換資料轉換

資料正規化:將數值轉換並落於一個特定範圍內。十進位縮放法 (decimal scaling): 將每一個數值型資料皆除以 10 個次方。例如一個屬性值範圍介於 [-1000, 1000] 間,則將數值除以 1000而轉換之。最小 - 最大值正規化 :

Z-score:

對數正規化 : see page 168

oldMin-oldMax

oldMin-lueOriginalVanewValue

ueriginalValO

newValue

Page 17: 資料庫知識探索 Knowledge Discovery in Databases

結束步驟步驟 4: 4: 資料轉換 – 屬性選擇與消資料轉換 – 屬性選擇與消除除

屬性選擇, See page 168, the method

消除屬性:1. 輸入屬性與其他屬性具有高度相關 ( 擇 1)

2. 對於類別型資料,若其屬性值 vi,其隱含問題預測分數 ) 大於設定門檻值,則可刪除之。 (As the domain predictability score of vi increases, the ability of vi to differentiate the individual classes decreases)

3. 若於監督式學習,數值型屬性重要性可比較其類別平均值與標準差分數。

前兩個技術可用於監督與非監督式分群機制上。

Page 18: 資料庫知識探索 Knowledge Discovery in Databases

結束步驟步驟 4: 4: 資料轉換 – 屬性選擇與消資料轉換 – 屬性選擇與消除除

利用基因學習用以選擇屬性。1:被使用屬性 0: 未被使用屬性輸出屬性為壽險促銷,程序如下:1. 選擇適當訓練資料與測試資料2. 隨機選擇以選取初始族群3. 對每一個元素族群建立一個監督式學習模型, see page. 170.4. 利用同樣模型分析測試資料以評量每一個元素與計算出模型確度。5. 若結果吻合,則自屬性群中選取一個元素並由訓練資料建立出最終監督式模型。

6. 若結果未達到預期,則運用基因運算元修改元素屬性群,並重複步驟 3-5 。

Input

Page 19: 資料庫知識探索 Knowledge Discovery in Databases

結束

建立屬性建立屬性

一些部具有預測能力之屬性結合可能創造出另一個具高度預測能力的屬性。 Examples see page. 171.例如 Price/Earning rate, P/E 除以公司成長率。可運用以下原則建立新的屬性值 ( 資料轉換程序 ) :一個屬性除以某個屬性值該屬性為已存在屬性值之差異值其值為兩個屬性值之增加百分比 (Percent increase)或減少百分比。若存在兩個值 v1與 v2,且 v1<v2,則 v2對 v1之增加百分比為:

1

1221 v

v-v) v,invrease(vPercent

Page 20: 資料庫知識探索 Knowledge Discovery in Databases

結束

步驟步驟 5: 5: 資料探勘資料探勘

建立監督式或非監督式學習模型方案:1. 自獲取資料範例選出訓練資料與測試資料2. 指定一群輸入屬性3. 假使為監督式學習模型則選擇一個或多個輸出屬性4. 選擇學習參數5. 選用一個資料探勘工具用以建立資料歸納模型若未獲取可接受結果,則重複以上程序。

Page 21: 資料庫知識探索 Knowledge Discovery in Databases

結束

步驟步驟 6: 6: 解釋與評估解釋與評估

解釋與評估可採多種方法為之:統計分析:可利用 t-test or ANOVA 決定用不同屬性與資料範例所建立出模型間是否存在重大差異。

試探性分析:大部分資料探勘工具提供運算數值之試探法以協助使用者決定哪些資料已被探索。例如K-means 演算法可利用 ANOVA 計算已探索資料 (Tanagra) 。

實驗分析: ANN 與 K-means 所建立出模型通常存在差異,可運用實驗矩陣用以選擇不同參數。

人性分析:可經由領域專家協助判定模型適用性。

Page 22: 資料庫知識探索 Knowledge Discovery in Databases

結束

步驟步驟 7: 7: 採取行動採取行動

See page. 174 to 175.

Page 23: 資料庫知識探索 Knowledge Discovery in Databases

結束

CRISP-DMCRISP-DM 程序程序

Cross Industry Standard Process for Data Mining:1. 了解企業需求:以企業觀點找出推動此方案之目的,

先定義資料探勘問題並訂定初步計畫方案2. 瞭解資料特性:收集完整資料並建立假設3. 準備資料:篩選資料中之各項表格、記錄、與屬性。4. 設計模型:選擇一個或多個資料探勘技術建立模型5. 評估:鑑別模型是否符合企業需求與專案目的6. 建置:推動與執行計畫

Page 24: 資料庫知識探索 Knowledge Discovery in Databases

結束Screening with Tanagra – Screening with Tanagra – 資料轉資料轉換換

Page 25: 資料庫知識探索 Knowledge Discovery in Databases

結束

Screening with Tanagra – K-means & SOMScreening with Tanagra – K-means & SOM

Page 26: 資料庫知識探索 Knowledge Discovery in Databases

結束

K-meansK-means

Page 27: 資料庫知識探索 Knowledge Discovery in Databases

結束

K-meansK-means

Page 28: 資料庫知識探索 Knowledge Discovery in Databases

結束

K-meansK-means

Page 29: 資料庫知識探索 Knowledge Discovery in Databases

結束

Screening with TanagraScreening with Tanagra

Page 30: 資料庫知識探索 Knowledge Discovery in Databases

結束

Screening with Tanagra - SOMScreening with Tanagra - SOM

Page 31: 資料庫知識探索 Knowledge Discovery in Databases

結束

Screening with Tanagra - SOMScreening with Tanagra - SOM

Page 32: 資料庫知識探索 Knowledge Discovery in Databases

結束