Datamining vs Statistik
-
Upload
atik-febriani -
Category
Documents
-
view
68 -
download
0
Transcript of Datamining vs Statistik
CS 4333 Data Mining – Data Bag. 2 2
Pokok Bahasan Apa Preprocessing
Data Agregasi Sampling Pengurangan
dimensi Feature subset
selection Feature creation Diskretisasi dan
Binerisasi Transformasi
atribut
2
Pengukuran Similaritas & Dissimilaritas Euclidean distance Minkowski
distance Mahalanobis
Distance Simple Matching Jaccard
Coefficients Cosine Tanimoto Korelasi
CS 4333 Data Mining – Data Bag. 2 3
Definisi Data Preprocessing
Adalah strategi dan teknik yang saling berkaitan untuk membuat data lebih mudah/cocok untuk digunakan pada data mining
Tujuannya : meningkatkan hasil analisis data mining terkait masalah waktu, cost dan kualitas
3
CS 4333 Data Mining – Data Bag. 2 4
Kategori Data Preprocessing Bisa dibedakan menjadi 2:
Pemilihan berdasarkan objek data (record) untuk menganalisis atau creating/changing atribut Contoh : Agregasi, sampling
Pemilihan atribut untuk menganalisis atau creating/changing atribut Contoh: Pengurangan Dimensi, feature subset
selection
CS 4333 Data Mining – Data Bag. 2 5
Agregasi
Mengkombinasikan dua atau lebih atribut (atau objek ) menjadi satu atribut (atau objek)
Tujuannya Pengurangan data baik secara jumlah atribut
atau objek Merubah skala misalkan penggabungan atribut
kota dengan atribut propinsi dan negara Mendapatkan data yang lebih “stabil” karena
bisa didapatkan data dengan variabilitas yang kecil
5
CS 4333 Data Mining – Data Bag. 2 6
Sampling
Merupakan teknik utama utnuk memilih data dan biasanya digunakan untuk investigasi data dan analisis data akhir
Sampling di statistik ≠sampling di data mining Jika di statistik berkaitan dengan mahalnya
atau lamanya pengumpulan keseluruhan data, jika di data mining data keseluruhan ada namun untuk memproses keseluruhan akan terlalu lama
6
CS 4333 Data Mining – Data Bag. 2 7
Sampling …
Prinsip utama sampling yang efektif adalah: Ouput dengan penggunaan sampel sama
bagusnya dengan penggunaan data keseluruhan berarti data sampel sudah representatif
Sampel sudah representatif jika memiliki properti yang mirip (dari segi interest) seperti data asli
7
CS 4333 Data Mining – Data Bag. 2 8
Tipe-tipe Sampling
Simple Random Sampling Setiap item memiliki probabilitas yang sama untuk
dipilih
Sampling without replacement Setiap item yang terpilih akan dikeluarkan dari populasi
Sampling with replacement Setiap item yang terpilih tidak dikeluarkan dari populasi,
bisa saja terpilih lebih dari satu kali Stratified sampling
Data displit menjadi beberapa bagian; lalu diambil sampel secara acak dari tiap bagian
8
CS 4333 Data Mining – Data Bag. 2 9
Ukuran Sampel
Ukuran sampel penting untuk ditentukan Jika semakin besar jumlah sampel maka
peluang sampel tersebut representatif akan besar, namun keuntungan sampling tidak didapat secara optimal
Jika semakin kecil sampel kemungkinan pola tidak didapat kan atau kalaupun didapat pola tsb salah
Solusinya?? Adaptive/ progressive sampling Dimulai dari sampel kecil sampai sejumlah
sampel yang sudah memadai
CS 4333 Data Mining – Data Bag. 2 10
Ukuran Sampel
10
8000 points 2000 Points 500 Points
CS 4333 Data Mining – Data Bag. 2 11
Adaptive/ progressive sampling11
10 Group Points
Probabilitas sampel yang mengandung points dari tiap Group
CS 4333 Data Mining – Data Bag. 2 12
Pengurangan Dimensi
Kenapa harus? Karena data set bisa saja memiliki jumlah
features yang sangat banyak (contohnya: data dokumen dengan term sebagi vektor feature-nya)
Menghindari Curse of Dimensionality (yakni fenomena di mana analisis data menjadi sangat sulit disebabkan pertambahan dimensi data, data menjadi tersebar /sparse
mengurangi penggunaan memori dan waktu yang dibutuhkan oleh algortima data mining
Memudahkan visualisasi data Membantu pengeliminiran data yang tidak
relevan atau noise
CS 4333 Data Mining – Data Bag. 2 14
Principle Component Analysis (PCA) Tujuannya untuk mencari projeksi yang menggambarkan
variasi terbesar dalam data Teknik aljabar linier untuk atribut kontinu yang dapat
menemukan atribut baru (principal component)
14
CS 4333 Data Mining – Data Bag. 2 15
Pengurangan Dimensi: ISOMAP
Membangun graf neighbourhood Untuk tiap pasang points pada graf, hitung jarak
terpendek– jarak geodesic
15
By: Tenenbaum, de Silva, Langford (2000)
CS 4333 Data Mining – Data Bag. 2 16
Feature Subset Selection
Untuk pengurangan dimensi data
Redundant features duplicate much or all of the information
contained in one or more other attributes Example: purchase price of a product and the
amount of sales tax paid
Irrelevant features contain no information that is useful for the
data mining task at hand Example: students' ID is often irrelevant to the
task of predicting students' GPA
16
CS 4333 Data Mining – Data Bag. 2 17
Teknik-teknik Feature Subset Selection Pendekatan Brute-force :
Mencari semua kemungkinan subsets feature sebagai input algortima data mining
Pendekatan Embedded : Feature selection dilakukan sebagai bagina dari
algoritma data mining Pendekatan Filter :
Feature dipilih sebelum algoritma data mining dijalankan
Pendekatan Wrapper : Penggunaan algoritma data mining sebagai black
box untuk menemukan best subset dari atribut
17
CS 4333 Data Mining – Data Bag. 2 18
Feature Creation
Pembuatan atribut baru yang menggambarkan informasi penting pada dataset secara lebih efisien dibanding atribut asal
Ada 3 Metodologi umum : Ekstraksi feature
domain-specific Mapping Data ke New Space Konstruksi Feature
kombinasi features
18
CS 4333 Data Mining – Data Bag. 2 19
Mapping Data ke New Space
19
Two Sine Waves
Two Sine Waves + Noise Frequency
Transformasi Fourier Transformasi Wavelet
CS 4333 Data Mining – Data Bag. 2 20
Diskretisasi Beberapa teknik tidak menggunakan
label kelas
20
DataEqual interval width
Equal frequency Clustering
CS 4333 Data Mining – Data Bag. 2 21
Diskretisasi
Beberapa teknik menggunakan label kelas Entropy based approach
21
3 categories for both x and y 5 categories for both x and y
CS 4333 Data Mining – Data Bag. 2 22
Transformasi Atribut22
Merupakan fungsi yang memetakan keseluruhan nilai atibut ke nilai baru dan setiap nilai lama dapat diidentifikasi dengan satu nilai baru Fungsi sederhana: xk, log(x), ex, |x| Standarisasi dan Normaliasi
CS 4333 Data Mining – Data Bag. 2 23
Similaritas dan Disimilaritas
Similaritas Pengukuran numerik untuk kemiripan dua objek Semakin tinggi semakin mirip range antara [0,1]
Disimilaritas Pengukuran numerik untuk perbedaan dua objek Semakin rendah semakin berbeda Minimum dissimilaritas = 0 Upper limit varies
Untuk ukuran similaritas & dissimilaritas bisa menggunakan jarak (distance)
CS 4333 Data Mining – Data Bag. 2 24
Similaritas /Disimilaritas untuk Atribut Sederhana
Misalkan p dan q adalah nilai atribut untuk 2 objek data.
CS 4333 Data Mining – Data Bag. 2 25
Teknik-teknik pengukuran jarak
Euclidean Distance
Minkowski distance
Mahalanobis Distance
n
kkk qpdist
1
2)(
rn
k
rkk qpdist
1
1)||(
Tqpqpqpsmahalanobi )()(),( 1
CS 4333 Data Mining – Data Bag. 2 26
Contoh perhitungan Euclidean Distance
0
1
2
3
0 1 2 3 4 5 6
p1
p2
p3 p4
point x yp1 0 2p2 2 0p3 3 1p4 5 1
Distance Matrix
p1 p2 p3 p4p1 0 2.828 3.162 5.099p2 2.828 0 1.414 3.162p3 3.162 1.414 0 2p4 5.099 3.162 2 0
CS 4333 Data Mining – Data Bag. 2 27
Contoh perhitungan Minkowski Distance
Distance Matrix
point x yp1 0 2p2 2 0p3 3 1p4 5 1
L1 p1 p2 p3 p4p1 0 4 4 6p2 4 0 2 4p3 4 2 0 2p4 6 4 2 0
L2 p1 p2 p3 p4p1 0 2.828 3.162 5.099p2 2.828 0 1.414 3.162p3 3.162 1.414 0 2p4 5.099 3.162 2 0
L p1 p2 p3 p4
p1 0 2 3 5p2 2 0 1 3p3 3 1 0 2p4 5 3 2 0
CS 4333 Data Mining – Data Bag. 2 28
Contoh perhitungan Mahalanobis Distance
Covariance Matrix:
3.02.0
2.03.0
B
A
C
A: (0.5, 0.5)
B: (0, 1)
C: (1.5, 1.5)
Mahal(A,B) = 5
Mahal(A,C) = 4
CS 4333 Data Mining – Data Bag. 2 29
Similaritas untuk data Binary Disebut juga similarity coeficients Nilai antara [0,1] Simple Matching dan Jaccard Coefficients Misalkan : M01 = jumlah atribut di mana p = 0 dan q =1
M10 = jumlah atribut di mana p = 1 and q = 0M00 = jumlah atribut di mana p = 0 and q = 0M11 = jumlah atribut di mana p = 1 and q = 1
SMC = number of matches / number of attributes = (M11 + M00) / (M01 + M10 + M11 + M00)
J = number of 11 matches / number of not-both-zero attributes values
= (M11) / (M01 + M10 + M11)
CS 4333 Data Mining – Data Bag. 2 30
Contoh SMC Vs Jaccard
p = 1 0 0 0 0 0 0 0 0 0 q = 0 0 0 0 0 0 1 0 0 1
M01 = 2 (jumlah atribut di mana p = 0 dan q =1)
M10 = 1 (jumlah atribut di mana p =1 dan q = 0)
M00 = 7 (jumlah atribut di mana p =0 dan q = 0)
M11 = 0 (jumlah atribut di mana p = 1 dan q = 1)
SMC = (M11 + M00)/(M01 + M10 + M11 + M00) = (0+7) / (2+1+0+7) = 0.7
J = (M11) / (M01 + M10 + M11) = 0 / (2 + 1 + 0) = 0
CS 4333 Data Mining – Data Bag. 2 31
Cosine Similarity
Jika d1 dan d2 adalah dua vektor dokumen, maka
cos( d1, d2 ) = (d1 d2) / ||d1|| ||d2|| , Keterangan adalah vector dot product dan || d || adalah panjang vector d.
Contoh:
d1 = 3 2 0 5 0 0 0 2 0 0
d2 = 1 0 0 0 0 0 0 1 0 2
d1 d2= 3*1 + 2*0 + 0*0 + 5*0 + 0*0 + 0*0 + 0*0 + 2*1 + 0*0 + 0*2 = 5
||d1|| = (3*3+2*2+0*0+5*5+0*0+0*0+0*0+2*2+0*0+0*0)0.5 = (42) 0.5 = 6.481
||d2|| = (1*1+0*0+0*0+0*0+0*0+0*0+0*0+1*1+0*0+2*2) 0.5 = (6) 0.5 = 2.245
cos( d1, d2 ) = .3150
CS 4333 Data Mining – Data Bag. 2 32
Extended Jaccard Coefficient (Tanimoto)
Merupakan varian dari Jaccard untuk atribut kontinu atau count attributes
CS 4333 Data Mining – Data Bag. 2 33
Korelasi
Pengukuran korelasi hubungan linier antara objek-objek
Untuk perhitungan korelasi, data objek distandarkan p & q, lalu dilakukan dot product )(/))(( pstdpmeanpp kk
)(/))(( qstdqmeanqq kk
qpqpncorrelatio ),(
CS 4333 Data Mining – Data Bag. 2 34
34
Hatur NuhunHatur Nuhun