Introduction to Data Mining

16
LABORATORIUM DATA MINING JURUSAN TEKNIK INDUSTRI FAKULTAS TEKNOLOGI INDUSTRI UNIVERSITAS ISLAM INDONESIA Modul I INTRODUCTION to DATA MINING I.1 TUJUAN PRAKTIKUM 1. Mahasiswa dapat mengetahui tentang Knowledge Discovery in Databases 2. Mahasiswa dapat mengetahui tentang Data Mining dan aplikasinya dalam dunia industri 3. Mahasiswa dapat mengaplikasikan teknik – teknik Data Mining dalam dunia industri I.2 LANDASAN TEORI 1.2.1 Knowledge Discovery in Databases (KDD) Gambar 1.1 Tahapan-tahapan dalam proses KDD

Transcript of Introduction to Data Mining

Page 1: Introduction to Data Mining

LABORATORIUM DATA MININGJURUSAN TEKNIK INDUSTRIFAKULTAS TEKNOLOGI INDUSTRIUNIVERSITAS ISLAM INDONESIA

Modul I

INTRODUCTION to DATA MINING

I.1 TUJUAN PRAKTIKUM

1. Mahasiswa dapat mengetahui tentang Knowledge Discovery in Databases

2. Mahasiswa dapat mengetahui tentang Data Mining dan aplikasinya dalam dunia

industri

3. Mahasiswa dapat mengaplikasikan teknik – teknik Data Mining dalam dunia industri

I.2 LANDASAN TEORI

1.2.1 Knowledge Discovery in Databases (KDD)

Gambar 1.1 Tahapan-tahapan dalam proses KDD

Knowledge discovery in databases (KDD) adalah keseluruhan proses untuk

mencari dan mengidentifikasi pola (pattern) dalam data, dimana pola yang ditemukan

bersifat sah, baru, dapat bermanfaat dan dapat dimengerti. KDD berhubungan dengan

teknik integrasi dan penemuan ilmiah, interprestasi dan visualisasi dari pola-pola

sejumlah kumpulan data (Osmar R. Zaïane, 1999).

Page 2: Introduction to Data Mining

Ada beberapa tahapan dalam proses KDD, yaitu:

1. Selection

Pemilihan atau penyeleksian data dari sekumpulan data operasional yang dilakukan

sebelum tahap penggalian informasi dalam KDD dimulai. Dalam tahapan ini, kita

memilih data-data seperti apa saja yang kita butuhkan untuk diproses lebih lanjut.

2. Preprocessing

Pada umumnya data yang diperoleh, baik dari database suatu perusahaan maupun

hasil eksperimen, memiliki isian-isian yang tidak sempurna seperti data yang hilang,

data yang tidak valid atau juga hanya sekedar salah ketik. Selain itu, ada juga atribut-

atribut data yang tidak relevan dengan hipotesa data mining yang kita miliki. Data-

data yang tidak relevan itu juga lebih baik dibuang karena keberadaannya bisa

mengurangi mutu atau akurasi dari hasil data mining nantinya. “Garbage in garbage

out” (hanya sampah yang akan dihasilkan bila yang dimasukkan juga sampah)

merupakan istilah yang sering dipakai untuk menggambarkan tahap ini. Pembersihan

data juga akan mempengaruhi performasi dari sistem data mining karena data yang

ditangani akan berkurang jumlah dan kompleksitasnya.

3. Transformation

Beberapa teknik data mining membutuhkan format data yang khusus sebelum bisa

diaplikasikan. Sebagai contoh beberapa teknik standar seperti analisis asosiasi dan

klastering hanya bisa menerima input data kategorikal. Karenanya data berupa angka

numerik yang berlanjut perlu dibagi-bagi menjadi beberapa interval. Proses ini sering

disebut binning. Disini juga dilakukan pemilihan data yang diperlukan oleh teknik

data mining yang dipakai. Transformasi dan pemilihan data ini juga menentukan

kualitas dari hasil data mining nantinya karena ada beberapa karakteristik dari teknik-

teknik data mining tertentu yang tergantung pada tahapan ini.

4. Data mining

Data mining merupakan proses untuk mencari pola atau informasi menarik dalam data

terpilih dengan menggunakan teknik atau metode tertentu. Teknik, metode, atau

algoritma dalam data mining sangat bervariasi. Pemilihan metode atau algoritma yang

tepat sangat bergantung pada tujuan dan proses KDD secara keseluruhan.

5. Interpretation and evaluation

Pola informasi yang dihasilkan dari proses data mining perlu ditampilkan dalam

bentuk yang mudah dimengerti. Tahap ini merupakan bagian dari proses KDD yang

Page 3: Introduction to Data Mining

mencakup pemeriksaan apakah pola atau informasi yang ditemukan bertentangan

dengan fakta atau hipotesa yang ada sebelumnya.

KDD proses dapat melibatkan iterasi yang signifikan dan dapat berisi

perulangan antara dua langkah. Dasar dari langkah- langkah digambarkan dalam gambar

1.1. Langkah-langkah awal dalam KDD difokuskan pada langkah keempat yaitu data

mining. Meskipun demikian, langkah-langkah yang lain juga sama pentingnya (bahkan

mungkin lebih penting) dalam keberhasilan aplikasi KDD. Setelah mendefinisikan dan

memperkenalkan proses KDD, selanjutnya kita akan membahas tentang komponen-

komponen data mining.

1.2.2 Data Mining Concept

Dengan kecanggihan teknologi yang semakin meningkat, kini database mampu

untuk menyimpan data berkapasitas terabytes atau sama dengan 1,000,000,000,000 bytes

data. Dalam kumpulan data yang sangat banyak ini, tersimpan informasi tersembunyi

yang merupakan strategi penting.

Kelimpahan data, berpasangan dengan kebutuhan untuk tools analisis data yang

kuat, telah digambarkan sebagai sebuah situasi ” kaya data tapi miskin informasi”.

Pertumbuhan yang cepat, data dengan jumlah yang banyak, dikumpulkan dan disimpan

dalam database yang luas dan banyak, jauh melebihi kemampuan manusia untuk

memahami tanpa tools yang kuat. Sebagai hasil, data dikumpulkan di database yang luas

menjadi ”kuburan data”, yaitu tempat penyimpanan data yang jarang di kunjungi kembali.

Gambar 1.2 Illustration of Rich data but Poor information

Page 4: Introduction to Data Mining

Konsekuensinya, keputusan-keputusan yang penting sering dibuat tidak

berdasarkan data yang kaya informasi yang disimpan di database tapi cukup pada intuisi

pembuat keputusan, dipermudah karena pembuat keputusan tidak mempunyai tools untuk

menggali pengetahuan yang berharga dan disimpan dalam data yang berjumlah besar.

Dalam penambahan, menimbang teknologi-teknologi expert sistem sekarang,

dimana tipicalnya dipercayakan kepada pengguna (user) atau expert domain untuk

menginputkan pengetahuan secara manual ke dasar pengetahuan. Sayangnya, prosedur ini

cenderung berat sebelah dan error, dan menghabiskan banyak waktu dan biaya. Tools

data mining dengan tampilan analisis data barangkali bisa mengungkap pola-pola data

yang penting, memberi kontribusi yang besar untuk strategi-strategi bisnis,pengetauan-

pengetahuan dasar, penelitian ilmiah dan medis. Pelebaran jarak antara data dan informasi

untuk sebuah pengembangan sistematis dari tools data mining yang akan merubah

kuburan data menjadi ”tambang emas” dari pengetahuan.

Gambar 1.3 Data mining - searching for knowledge in your data.

Perkembangan luar biasa yang terus-menerus tentang ”discovery knowledge”

mengakibatkan perlu dilakukannya penambangan data. Hal ini disebabkan oleh:

1. Kebutuhan akan informasi (atau pengetahuan) sebagai pendukung pengambilan

keputusan untuk membuat solusi bisnis dan dukungan infrastruktur dibidang

teknologi informasi meningkat.

2. Ledakan pertumbuhan pada pengumpulan data.

3. Banyak data yang dikumpulkan dan digudangkan, misal data penjualan di

supermarket, transaksi bank/ kartu kredit, data nilai mahasiswa dan alumni dll.

4. Ketersediaan data transaksi dalam volume yang besar.

Page 5: Introduction to Data Mining

5. Ketersediaan teknologi informasi dalam skala yang terjangkau dan sudah dapat

diadopsi secara luas.

6. Ketersediaan akses data yang meningkat (data dapat dikumpulkan dan disimpan

dengan kecepatan tinggi).

7. Tekanan persaingan yang kuat untuk meningkatkan market share.

8. Pertumbuhan yang besar di tenaga komputer dan kapasitas penyimpanan.

9. Komputer menjadi alat yang lebih murah dan lebih powerful.

10. Teknik-teknik tradisional tidak dapat diterapkan untuk jumlah data yang besar.

11. Data mining dapat digunakan untuk reduksi data di bidang keilmuwan.

1.2.3 Mini Scale Data Mining

Pada sisi lain, ada suatu konsep data mining dalam skala yang lebih kecil dimana

konsep ini mempunyai perbedaan dalam input data. Dalam data mining, data input

didapat dari file penyimpanan data. Tetapi pada konsep data mining dalam skala yang

lebih kecil, data input hanya bisa didapatkan dari analisis bisnis.

Dalam aplikasi statistik tradisional, ukuran sample relatif kecil, data dikumpulkan

dengan hati-hati, hasil contoh menyediakan suatu basis untuk kesimpulan, keganjilan

lebih sering tidak diselesaikan, dan model lebih terstruktur. Di dalam data mining, ukuran

sample dapat dalam ukuran yang besar: data menyebar dan historis ( secara rutin dicatat),

sample digunakan untuk pelatihan, pengesahan, dan pengujian ( bukan kesimpulan

formal); keganjilan merupakan suatu hal yang penting; dan model sering tidak

terstruktur. Lebih lanjut, data preparation termasuk kumpulan data, pembersihan dan

penilaian, definisi dan pemilihan variabel merupakan proses yang sulit dan

menggambarkan 60 - 80% dari proses dalam data mining.

1.2.4 Definisi Data Mining

Berdasarkan Gartner Group, “Data mining adalah proses dari penemuan hubungan

baru yang penuh makna, pola dan kecendrungan oleh penyelidikan melalui sekumpulan

data yang sangat besar yang disimpan di gudang, penggunaan teknologi pengenalan pola

sebaik teknik statistik dan matematik.”

Page 6: Introduction to Data Mining

Selain itu, ada beberapa definisi lain tentang Data Mining, yaitu:

a. “Data mining adalah analisis dari (dalam cakupan luas) observasi data uji untuk

menemukan hubungan yang tidak terduga dan untuk meringkaskan data dalam cara

baru yang dapat dimengerti dan berguna bagi pemilik data.”

b. “Data mining adalah dasar cabang dari ilmu pengetahuan yang menggabungkan

teknik dari pembelajaran mesin, penemuan pola, statistik, database dan visulisasi

untuk menyelesaikan persoalan dari pengambilan informasi dari database yang besar.

c. “Data mining adalah suatu bidang interdisciplinary yang bersama-sama membawa

teknik dari pembelajaran mesin, pengenalan pola, statistik, database, dan visualisasi

untuk menunjuk isu dalam penyaringan informasi dari data yang berukuran besar"

(Evangelos Simoudis dalam Cabena et Al.).

d. “Data Mining adalah proses dalam menemukan pengetahuan menarik dari sejumlah

data besar yang tersimpan dalam tiap database, gudang data, atau tempat

penyimpanan informasi lain.”

e. “Data Mining adalah ekstraksi dari prediksi informasi tersembunyi dari database yang

berukuran besar.”

f. “Data mining adalah serangkaian proses untuk menggali nilai tambah dari suatu

kumpulan data berupa pengetahuan yang selama ini tidak diketahui secara manual.”

g. “Data mining adalah analisa otomatis dari data yang berjumlah besar atau kompleks

dengan tujuan untuk menemukan pola atau kecenderungan yang penting yang

biasanya tidak disadari keberadaannya”

1.2.5 Hubungan Data Mining dengan Ilmu Lain

Data mining bukanlah suatu bidang yang sama sekali baru. Salah satu kesulitan

untuk mendefinisikan data mining adalah kenyataan bahwa data mining mewarisi banyak

aspek dan teknik dari bidang-bidang ilmu yang sudah mapan terlebih dulu. Gambar 1.4

menunjukkan bahwa data mining memiliki akar yang panjang dari bidang ilmu seperti

kecerdasan buatan (artificial intelligent), machine learning, statistic, database dan juga

information retrieval.

Page 7: Introduction to Data Mining

Gambar 1.4 Hubungan data mining dengan ilmu-ilmu lainnya

Beberapa teknik yang sering disebut-sebut dalam literatur data mining seperti

klasifikasi, neural network, genetic algorithm dll sudah lama dikenal di dunia kecerdasan

buatan. Statistik memberikan kontribusi pada data mining dengan teknik-teknik untuk

menyeleksi data dan evaluasi hasil data mining selain teknik-teknik data mining seperti

klasterisasi. Yang membedakan persepsi terhadap data mining adalah perkembangan

teknik-teknik data mining untuk aplikasi pada database skala besar. Sebelum populernya

data mining, teknik-teknik tersebut pada umumnya diterapkan untuk data skala kecil saja.

Selain itu beberapa teknik dari bidang database untuk transformasi data juga merupakan

bagian integral dari proses data mining. Akhir-akhir ini ada beberapa bidang ilmu seperti

information retrieval yang juga terlibat dalam proses data mining untuk mengekstrak

sumber data bagi data mining dari sumber-sumber seperti teks dan website.

1.2.6 Pre-processing Data

Pre-processing data adalah tahapan sebelum suatu data diproses, dapat berupa

pembersihan data, transformasi data, atau yang lainnya. Mengapa pre-processing data

perlu dilakukan? Biasanya, data yang digunakan belum baik, penyebabnya antara lain:

1. Incomplete → kekurangan nilai-nilai atribut atau atribut tertentu lainnya.

2. Noisy → berisi kesalahan atau nilai-nilai outlier yang menyimpang dari yang

diharapkan.

3. Inconsisten → ketidakcocokan dalam penggunaan kode atau nama.

Page 8: Introduction to Data Mining

Tujuan Data Mining agar bermanfaat, database harus mengalami preprocessing,

dalam wujud data yang bersih dan transformasi data. Data Mining sering berhadapan

dengan data yang belum dilihat bertahun-tahun, sehingga sebagian besar data berisi nilai-

nilai bidang yang sudah berakhir, yang tidak lagi relevan, atau yang hilang. Sasarannya

adalah untuk memperkecil GIGO: untuk memperkecil “sampah” yang masuk ke dalam

model kita sehingga kita dapat memperkecil jumlah sampah yang dikeluarkan.Untuk

mendapatkan data yang baik, ada beberapa kriteria yang diperhatikan, antara lain:

1. Accuracy

2. Completeness

3. Consistency

4. Timeliness

5. Value added

6. Interpretability

7. Accessibility

8. Contextual

9. Representational

Metode – metode yang digunakan dalam data pre-processing, antara lain:

1. Data cleaning

Menghilangkan nilai-nilai data yang salah, memperbaiki kekacauan data dan

memeriksa data yang tidak konsisten.

2. Data integrasi

Menggabungkan data dari beberapa sumber (database, data cube, atau file) ke dalam

penyimpanan data yang sesuai.

3. Data transformasi

Normalisasi dan pengumpulan data sehingga menjadi sama.

4. Data reduksi

Menguraikan data ke dalam bentuk yang lebih kecil ukurannya tetapi tetap

menghasilkan hasil analitis yang sama.

5. Data diskretisasi

Bagian dari data reduksi tetapi memiliki arti penting tersendiri, terutama untuk data

numerik.

Page 9: Introduction to Data Mining

Gambar 1.5 Pre-processing Data

1.2.7 Aplikasi Data Mining

Untuk analisa pasar, banyak sekali sumber data yang dapat digunakan seperti

transaksi kartu kredit, kartu anggota club tertentu, kupon diskon, keluhan pembeli,

ditambah dengan studi tentang gaya hidup publik. Beberapa solusi yang bisa diselesaikan

dengan data mining diantaranya:

1. Menembak target pasar

Data mining dapat melakukan pengelompokan (clustering) dari model-model pembeli

dan melakukan klasifikasi terhadap setiap pembeli sesuai dengan karakteristik yang

diinginkan seperti kesukaan yang sama, tingkat penghasilan yang sama, kebiasaan

membeli dan karakteristik lainnya.

2. Melihat pola beli pemakai dari waktu ke waktu

Data mining dapat digunakan untuk melihat pola beli seseorang dari waktu ke waktu.

Sebagai contoh, ketika seseorang menikah bisa saja dia kemudian memutuskan

pindah dari single account ke joint account (rekening bersama) dan kemudian setelah

itu pola beli-nya berbeda dengan ketika dia masih bujangan.

Page 10: Introduction to Data Mining

3. Cross-Market Analysis

Kita dapat memanfaatkan data mining untuk melihat hubungan antara penjualan satu

produk dengan produk lainnya, contohnya:

a. Dari pola penjualan Coca Cola sedemikian rupa sehingga kita dapat mengetahui

barang apa sajakah yang harus kita sediakan untuk meningkatkan penjualan Coca

Cola?

b. Dari pola penjualan IndoMie sedemikian rupa sehingga kita dapat mengetahui

barang apa saja yang juga dibeli oleh pembeli IndoMie. Dengan demikian kita

bisa mengetahui dampak jika kita tidak lagi menjual IndoMie.

4. Profil Customer

Data mining dapat membantu untuk melihat profil customer/ pembeli/ nasabah

sehingga kita dapat mengetahui kelompok customer tertentu suka membeli produk

apa saja.

5. Identifikasi Kebutuhan Customer

Kita dapat mengidentifikasi produk-produk apa saja yang terbaik untuk tiap kelompok

customer dan menyusun faktor-faktor apa saja yang kira-kira dapat menarik customer

baru untuk bergabung/membeli.

1.2.8 Data Mining Techniques

Beberapa teknik Data Mining yang sering digunakan dalam dunia indutri antara lain:

1. Clustering

Analisis cluster merupakan salah satu teknik data mining yang bertujuan untuk

mengidentifikasi sekelompok obyek yang mempunyai kemiripan karakteristik tertentu

yang dapat dipisahkan dengan kelompok obyek lainnya, sehingga obyek yang berada

dalam kelompok yang sama relatif lebih homogen daripada obyek yang berada pada

kelompok yang berbeda..

2. Association Rule (Market Basket Analysis)

Association Rule adalah teknik data mining yang digunakan untuk menemukan aturan

assosiatif antara suatu kombinasi item. Salah satu contoh penerapan Association Rule

adalah Market Basket Analysis.

3. Classification

Klasifikasi merupakan proses untuk menemukan sekumpulan model yang

menjelaskan dan membedakan kelas-kelas data, sehingga model tersebut dapat

Page 11: Introduction to Data Mining

digunakan untuk memprediksi nilai suatu kelas yang belum diketahui pada sebuah

objek.

4. Regression (Predictive)

Analisis regresi meruapakan teknik untuk membantu menganalisis hubungan antara

suatu peristiwa atau keadaan yang terjadi akibat peristiwa yang lain.

1.3 Daftar Pustaka

1. Han,Jiawei. “Data Mining Concept and Techniques”. Presentation.

http://www.cs.sfu.ca/~han/dmbook

2. Han, Jiawei and Micheline Kamber, “Data Mining: Concepts and Techniques”,

Morgan Kaufmann Publishers, 2000 (ebook)

3. Osmar R. Zaïane, 1999, Introduction to Data Mining

4. U. Fayyad, G. Piatetsky-Shapiro, P. Smyth, and R.Uthurusamy, 73–95. Menlo Park, Calif.: AAAI Press.