Datamining vs Statistik

33
DATA DATA BAGIAN 2 BAGIAN 2 Shaufiah KBK RPL dan Data Fakultas Informatika IT Telkom [email protected]

Transcript of Datamining vs Statistik

Page 1: Datamining vs Statistik

DATA DATA BAGIAN 2BAGIAN 2

Shaufiah

KBK RPL dan DataFakultas Informatika IT [email protected]

Page 2: Datamining vs Statistik

CS 4333 Data Mining – Data Bag. 2 2

Pokok Bahasan Apa Preprocessing

Data Agregasi Sampling Pengurangan

dimensi Feature subset

selection Feature creation Diskretisasi dan

Binerisasi Transformasi

atribut

2

Pengukuran Similaritas & Dissimilaritas Euclidean distance Minkowski

distance Mahalanobis

Distance Simple Matching Jaccard

Coefficients Cosine Tanimoto Korelasi

Page 3: Datamining vs Statistik

CS 4333 Data Mining – Data Bag. 2 3

Definisi Data Preprocessing

Adalah strategi dan teknik yang saling berkaitan untuk membuat data lebih mudah/cocok untuk digunakan pada data mining

Tujuannya : meningkatkan hasil analisis data mining terkait masalah waktu, cost dan kualitas

3

Page 4: Datamining vs Statistik

CS 4333 Data Mining – Data Bag. 2 4

Kategori Data Preprocessing Bisa dibedakan menjadi 2:

Pemilihan berdasarkan objek data (record) untuk menganalisis atau creating/changing atribut Contoh : Agregasi, sampling

Pemilihan atribut untuk menganalisis atau creating/changing atribut Contoh: Pengurangan Dimensi, feature subset

selection

Page 5: Datamining vs Statistik

CS 4333 Data Mining – Data Bag. 2 5

Agregasi

Mengkombinasikan dua atau lebih atribut (atau objek ) menjadi satu atribut (atau objek)

Tujuannya Pengurangan data baik secara jumlah atribut

atau objek Merubah skala misalkan penggabungan atribut

kota dengan atribut propinsi dan negara Mendapatkan data yang lebih “stabil” karena

bisa didapatkan data dengan variabilitas yang kecil

5

Page 6: Datamining vs Statistik

CS 4333 Data Mining – Data Bag. 2 6

Sampling

Merupakan teknik utama utnuk memilih data dan biasanya digunakan untuk investigasi data dan analisis data akhir

Sampling di statistik ≠sampling di data mining Jika di statistik berkaitan dengan mahalnya

atau lamanya pengumpulan keseluruhan data, jika di data mining data keseluruhan ada namun untuk memproses keseluruhan akan terlalu lama

6

Page 7: Datamining vs Statistik

CS 4333 Data Mining – Data Bag. 2 7

Sampling …

Prinsip utama sampling yang efektif adalah: Ouput dengan penggunaan sampel sama

bagusnya dengan penggunaan data keseluruhan berarti data sampel sudah representatif

Sampel sudah representatif jika memiliki properti yang mirip (dari segi interest) seperti data asli

7

Page 8: Datamining vs Statistik

CS 4333 Data Mining – Data Bag. 2 8

Tipe-tipe Sampling

Simple Random Sampling Setiap item memiliki probabilitas yang sama untuk

dipilih

Sampling without replacement Setiap item yang terpilih akan dikeluarkan dari populasi

Sampling with replacement Setiap item yang terpilih tidak dikeluarkan dari populasi,

bisa saja terpilih lebih dari satu kali Stratified sampling

Data displit menjadi beberapa bagian; lalu diambil sampel secara acak dari tiap bagian

8

Page 9: Datamining vs Statistik

CS 4333 Data Mining – Data Bag. 2 9

Ukuran Sampel

Ukuran sampel penting untuk ditentukan Jika semakin besar jumlah sampel maka

peluang sampel tersebut representatif akan besar, namun keuntungan sampling tidak didapat secara optimal

Jika semakin kecil sampel kemungkinan pola tidak didapat kan atau kalaupun didapat pola tsb salah

Solusinya?? Adaptive/ progressive sampling Dimulai dari sampel kecil sampai sejumlah

sampel yang sudah memadai

Page 10: Datamining vs Statistik

CS 4333 Data Mining – Data Bag. 2 10

Ukuran Sampel

10

8000 points 2000 Points 500 Points

Page 11: Datamining vs Statistik

CS 4333 Data Mining – Data Bag. 2 11

Adaptive/ progressive sampling11

10 Group Points

Probabilitas sampel yang mengandung points dari tiap Group

Page 12: Datamining vs Statistik

CS 4333 Data Mining – Data Bag. 2 12

Pengurangan Dimensi

Kenapa harus? Karena data set bisa saja memiliki jumlah

features yang sangat banyak (contohnya: data dokumen dengan term sebagi vektor feature-nya)

Menghindari Curse of Dimensionality (yakni fenomena di mana analisis data menjadi sangat sulit disebabkan pertambahan dimensi data, data menjadi tersebar /sparse

mengurangi penggunaan memori dan waktu yang dibutuhkan oleh algortima data mining

Memudahkan visualisasi data Membantu pengeliminiran data yang tidak

relevan atau noise

Page 13: Datamining vs Statistik

CS 4333 Data Mining – Data Bag. 2 14

Principle Component Analysis (PCA) Tujuannya untuk mencari projeksi yang menggambarkan

variasi terbesar dalam data Teknik aljabar linier untuk atribut kontinu yang dapat

menemukan atribut baru (principal component)

14

Page 14: Datamining vs Statistik

CS 4333 Data Mining – Data Bag. 2 15

Pengurangan Dimensi: ISOMAP

Membangun graf neighbourhood Untuk tiap pasang points pada graf, hitung jarak

terpendek– jarak geodesic

15

By: Tenenbaum, de Silva, Langford (2000)

Page 15: Datamining vs Statistik

CS 4333 Data Mining – Data Bag. 2 16

Feature Subset Selection

Untuk pengurangan dimensi data

Redundant features duplicate much or all of the information

contained in one or more other attributes Example: purchase price of a product and the

amount of sales tax paid

Irrelevant features contain no information that is useful for the

data mining task at hand Example: students' ID is often irrelevant to the

task of predicting students' GPA

16

Page 16: Datamining vs Statistik

CS 4333 Data Mining – Data Bag. 2 17

Teknik-teknik Feature Subset Selection Pendekatan Brute-force :

Mencari semua kemungkinan subsets feature sebagai input algortima data mining

Pendekatan Embedded : Feature selection dilakukan sebagai bagina dari

algoritma data mining Pendekatan Filter :

Feature dipilih sebelum algoritma data mining dijalankan

Pendekatan Wrapper : Penggunaan algoritma data mining sebagai black

box untuk menemukan best subset dari atribut

17

Page 17: Datamining vs Statistik

CS 4333 Data Mining – Data Bag. 2 18

Feature Creation

Pembuatan atribut baru yang menggambarkan informasi penting pada dataset secara lebih efisien dibanding atribut asal

Ada 3 Metodologi umum : Ekstraksi feature

domain-specific Mapping Data ke New Space Konstruksi Feature

kombinasi features

18

Page 18: Datamining vs Statistik

CS 4333 Data Mining – Data Bag. 2 19

Mapping Data ke New Space

19

Two Sine Waves

Two Sine Waves + Noise Frequency

Transformasi Fourier Transformasi Wavelet

Page 19: Datamining vs Statistik

CS 4333 Data Mining – Data Bag. 2 20

Diskretisasi Beberapa teknik tidak menggunakan

label kelas

20

DataEqual interval width

Equal frequency Clustering

Page 20: Datamining vs Statistik

CS 4333 Data Mining – Data Bag. 2 21

Diskretisasi

Beberapa teknik menggunakan label kelas Entropy based approach

21

3 categories for both x and y 5 categories for both x and y

Page 21: Datamining vs Statistik

CS 4333 Data Mining – Data Bag. 2 22

Transformasi Atribut22

Merupakan fungsi yang memetakan keseluruhan nilai atibut ke nilai baru dan setiap nilai lama dapat diidentifikasi dengan satu nilai baru Fungsi sederhana: xk, log(x), ex, |x| Standarisasi dan Normaliasi

Page 22: Datamining vs Statistik

CS 4333 Data Mining – Data Bag. 2 23

Similaritas dan Disimilaritas

Similaritas Pengukuran numerik untuk kemiripan dua objek Semakin tinggi semakin mirip range antara [0,1]

Disimilaritas Pengukuran numerik untuk perbedaan dua objek Semakin rendah semakin berbeda Minimum dissimilaritas = 0 Upper limit varies

Untuk ukuran similaritas & dissimilaritas bisa menggunakan jarak (distance)

Page 23: Datamining vs Statistik

CS 4333 Data Mining – Data Bag. 2 24

Similaritas /Disimilaritas untuk Atribut Sederhana

Misalkan p dan q adalah nilai atribut untuk 2 objek data.

Page 24: Datamining vs Statistik

CS 4333 Data Mining – Data Bag. 2 25

Teknik-teknik pengukuran jarak

Euclidean Distance

Minkowski distance

Mahalanobis Distance

n

kkk qpdist

1

2)(

rn

k

rkk qpdist

1

1)||(

Tqpqpqpsmahalanobi )()(),( 1

Page 25: Datamining vs Statistik

CS 4333 Data Mining – Data Bag. 2 26

Contoh perhitungan Euclidean Distance

0

1

2

3

0 1 2 3 4 5 6

p1

p2

p3 p4

point x yp1 0 2p2 2 0p3 3 1p4 5 1

Distance Matrix

p1 p2 p3 p4p1 0 2.828 3.162 5.099p2 2.828 0 1.414 3.162p3 3.162 1.414 0 2p4 5.099 3.162 2 0

Page 26: Datamining vs Statistik

CS 4333 Data Mining – Data Bag. 2 27

Contoh perhitungan Minkowski Distance

Distance Matrix

point x yp1 0 2p2 2 0p3 3 1p4 5 1

L1 p1 p2 p3 p4p1 0 4 4 6p2 4 0 2 4p3 4 2 0 2p4 6 4 2 0

L2 p1 p2 p3 p4p1 0 2.828 3.162 5.099p2 2.828 0 1.414 3.162p3 3.162 1.414 0 2p4 5.099 3.162 2 0

L p1 p2 p3 p4

p1 0 2 3 5p2 2 0 1 3p3 3 1 0 2p4 5 3 2 0

Page 27: Datamining vs Statistik

CS 4333 Data Mining – Data Bag. 2 28

Contoh perhitungan Mahalanobis Distance

Covariance Matrix:

3.02.0

2.03.0

B

A

C

A: (0.5, 0.5)

B: (0, 1)

C: (1.5, 1.5)

Mahal(A,B) = 5

Mahal(A,C) = 4

Page 28: Datamining vs Statistik

CS 4333 Data Mining – Data Bag. 2 29

Similaritas untuk data Binary Disebut juga similarity coeficients Nilai antara [0,1] Simple Matching dan Jaccard Coefficients Misalkan : M01 = jumlah atribut di mana p = 0 dan q =1

M10 = jumlah atribut di mana p = 1 and q = 0M00 = jumlah atribut di mana p = 0 and q = 0M11 = jumlah atribut di mana p = 1 and q = 1

SMC = number of matches / number of attributes = (M11 + M00) / (M01 + M10 + M11 + M00)

J = number of 11 matches / number of not-both-zero attributes values

= (M11) / (M01 + M10 + M11)

Page 29: Datamining vs Statistik

CS 4333 Data Mining – Data Bag. 2 30

Contoh SMC Vs Jaccard

p = 1 0 0 0 0 0 0 0 0 0 q = 0 0 0 0 0 0 1 0 0 1

M01 = 2 (jumlah atribut di mana p = 0 dan q =1)

M10 = 1 (jumlah atribut di mana p =1 dan q = 0)

M00 = 7 (jumlah atribut di mana p =0 dan q = 0)

M11 = 0 (jumlah atribut di mana p = 1 dan q = 1)

SMC = (M11 + M00)/(M01 + M10 + M11 + M00) = (0+7) / (2+1+0+7) = 0.7

J = (M11) / (M01 + M10 + M11) = 0 / (2 + 1 + 0) = 0

Page 30: Datamining vs Statistik

CS 4333 Data Mining – Data Bag. 2 31

Cosine Similarity

Jika d1 dan d2 adalah dua vektor dokumen, maka

cos( d1, d2 ) = (d1 d2) / ||d1|| ||d2|| , Keterangan adalah vector dot product dan || d || adalah panjang vector d.

Contoh:

d1 = 3 2 0 5 0 0 0 2 0 0

d2 = 1 0 0 0 0 0 0 1 0 2

d1 d2= 3*1 + 2*0 + 0*0 + 5*0 + 0*0 + 0*0 + 0*0 + 2*1 + 0*0 + 0*2 = 5

||d1|| = (3*3+2*2+0*0+5*5+0*0+0*0+0*0+2*2+0*0+0*0)0.5 = (42) 0.5 = 6.481

||d2|| = (1*1+0*0+0*0+0*0+0*0+0*0+0*0+1*1+0*0+2*2) 0.5 = (6) 0.5 = 2.245

cos( d1, d2 ) = .3150

Page 31: Datamining vs Statistik

CS 4333 Data Mining – Data Bag. 2 32

Extended Jaccard Coefficient (Tanimoto)

Merupakan varian dari Jaccard untuk atribut kontinu atau count attributes

Page 32: Datamining vs Statistik

CS 4333 Data Mining – Data Bag. 2 33

Korelasi

Pengukuran korelasi hubungan linier antara objek-objek

Untuk perhitungan korelasi, data objek distandarkan p & q, lalu dilakukan dot product )(/))(( pstdpmeanpp kk

)(/))(( qstdqmeanqq kk

qpqpncorrelatio ),(

Page 33: Datamining vs Statistik

CS 4333 Data Mining – Data Bag. 2 34

34

Hatur NuhunHatur Nuhun