Introduction to Data Mining
-
Upload
atik-febriani -
Category
Documents
-
view
8 -
download
1
Transcript of Introduction to Data Mining
LABORATORIUM DATA MININGJURUSAN TEKNIK INDUSTRIFAKULTAS TEKNOLOGI INDUSTRIUNIVERSITAS ISLAM INDONESIA
Modul I
INTRODUCTION to DATA MINING
I.1 TUJUAN PRAKTIKUM
1. Mahasiswa dapat mengetahui tentang Knowledge Discovery in Databases
2. Mahasiswa dapat mengetahui tentang Data Mining dan aplikasinya dalam dunia
industri
3. Mahasiswa dapat mengaplikasikan teknik – teknik Data Mining dalam dunia industri
I.2 LANDASAN TEORI
1.2.1 Knowledge Discovery in Databases (KDD)
Gambar 1.1 Tahapan-tahapan dalam proses KDD
Knowledge discovery in databases (KDD) adalah keseluruhan proses untuk
mencari dan mengidentifikasi pola (pattern) dalam data, dimana pola yang ditemukan
bersifat sah, baru, dapat bermanfaat dan dapat dimengerti. KDD berhubungan dengan
teknik integrasi dan penemuan ilmiah, interprestasi dan visualisasi dari pola-pola
sejumlah kumpulan data (Osmar R. Zaïane, 1999).
Ada beberapa tahapan dalam proses KDD, yaitu:
1. Selection
Pemilihan atau penyeleksian data dari sekumpulan data operasional yang dilakukan
sebelum tahap penggalian informasi dalam KDD dimulai. Dalam tahapan ini, kita
memilih data-data seperti apa saja yang kita butuhkan untuk diproses lebih lanjut.
2. Preprocessing
Pada umumnya data yang diperoleh, baik dari database suatu perusahaan maupun
hasil eksperimen, memiliki isian-isian yang tidak sempurna seperti data yang hilang,
data yang tidak valid atau juga hanya sekedar salah ketik. Selain itu, ada juga atribut-
atribut data yang tidak relevan dengan hipotesa data mining yang kita miliki. Data-
data yang tidak relevan itu juga lebih baik dibuang karena keberadaannya bisa
mengurangi mutu atau akurasi dari hasil data mining nantinya. “Garbage in garbage
out” (hanya sampah yang akan dihasilkan bila yang dimasukkan juga sampah)
merupakan istilah yang sering dipakai untuk menggambarkan tahap ini. Pembersihan
data juga akan mempengaruhi performasi dari sistem data mining karena data yang
ditangani akan berkurang jumlah dan kompleksitasnya.
3. Transformation
Beberapa teknik data mining membutuhkan format data yang khusus sebelum bisa
diaplikasikan. Sebagai contoh beberapa teknik standar seperti analisis asosiasi dan
klastering hanya bisa menerima input data kategorikal. Karenanya data berupa angka
numerik yang berlanjut perlu dibagi-bagi menjadi beberapa interval. Proses ini sering
disebut binning. Disini juga dilakukan pemilihan data yang diperlukan oleh teknik
data mining yang dipakai. Transformasi dan pemilihan data ini juga menentukan
kualitas dari hasil data mining nantinya karena ada beberapa karakteristik dari teknik-
teknik data mining tertentu yang tergantung pada tahapan ini.
4. Data mining
Data mining merupakan proses untuk mencari pola atau informasi menarik dalam data
terpilih dengan menggunakan teknik atau metode tertentu. Teknik, metode, atau
algoritma dalam data mining sangat bervariasi. Pemilihan metode atau algoritma yang
tepat sangat bergantung pada tujuan dan proses KDD secara keseluruhan.
5. Interpretation and evaluation
Pola informasi yang dihasilkan dari proses data mining perlu ditampilkan dalam
bentuk yang mudah dimengerti. Tahap ini merupakan bagian dari proses KDD yang
mencakup pemeriksaan apakah pola atau informasi yang ditemukan bertentangan
dengan fakta atau hipotesa yang ada sebelumnya.
KDD proses dapat melibatkan iterasi yang signifikan dan dapat berisi
perulangan antara dua langkah. Dasar dari langkah- langkah digambarkan dalam gambar
1.1. Langkah-langkah awal dalam KDD difokuskan pada langkah keempat yaitu data
mining. Meskipun demikian, langkah-langkah yang lain juga sama pentingnya (bahkan
mungkin lebih penting) dalam keberhasilan aplikasi KDD. Setelah mendefinisikan dan
memperkenalkan proses KDD, selanjutnya kita akan membahas tentang komponen-
komponen data mining.
1.2.2 Data Mining Concept
Dengan kecanggihan teknologi yang semakin meningkat, kini database mampu
untuk menyimpan data berkapasitas terabytes atau sama dengan 1,000,000,000,000 bytes
data. Dalam kumpulan data yang sangat banyak ini, tersimpan informasi tersembunyi
yang merupakan strategi penting.
Kelimpahan data, berpasangan dengan kebutuhan untuk tools analisis data yang
kuat, telah digambarkan sebagai sebuah situasi ” kaya data tapi miskin informasi”.
Pertumbuhan yang cepat, data dengan jumlah yang banyak, dikumpulkan dan disimpan
dalam database yang luas dan banyak, jauh melebihi kemampuan manusia untuk
memahami tanpa tools yang kuat. Sebagai hasil, data dikumpulkan di database yang luas
menjadi ”kuburan data”, yaitu tempat penyimpanan data yang jarang di kunjungi kembali.
Gambar 1.2 Illustration of Rich data but Poor information
Konsekuensinya, keputusan-keputusan yang penting sering dibuat tidak
berdasarkan data yang kaya informasi yang disimpan di database tapi cukup pada intuisi
pembuat keputusan, dipermudah karena pembuat keputusan tidak mempunyai tools untuk
menggali pengetahuan yang berharga dan disimpan dalam data yang berjumlah besar.
Dalam penambahan, menimbang teknologi-teknologi expert sistem sekarang,
dimana tipicalnya dipercayakan kepada pengguna (user) atau expert domain untuk
menginputkan pengetahuan secara manual ke dasar pengetahuan. Sayangnya, prosedur ini
cenderung berat sebelah dan error, dan menghabiskan banyak waktu dan biaya. Tools
data mining dengan tampilan analisis data barangkali bisa mengungkap pola-pola data
yang penting, memberi kontribusi yang besar untuk strategi-strategi bisnis,pengetauan-
pengetahuan dasar, penelitian ilmiah dan medis. Pelebaran jarak antara data dan informasi
untuk sebuah pengembangan sistematis dari tools data mining yang akan merubah
kuburan data menjadi ”tambang emas” dari pengetahuan.
Gambar 1.3 Data mining - searching for knowledge in your data.
Perkembangan luar biasa yang terus-menerus tentang ”discovery knowledge”
mengakibatkan perlu dilakukannya penambangan data. Hal ini disebabkan oleh:
1. Kebutuhan akan informasi (atau pengetahuan) sebagai pendukung pengambilan
keputusan untuk membuat solusi bisnis dan dukungan infrastruktur dibidang
teknologi informasi meningkat.
2. Ledakan pertumbuhan pada pengumpulan data.
3. Banyak data yang dikumpulkan dan digudangkan, misal data penjualan di
supermarket, transaksi bank/ kartu kredit, data nilai mahasiswa dan alumni dll.
4. Ketersediaan data transaksi dalam volume yang besar.
5. Ketersediaan teknologi informasi dalam skala yang terjangkau dan sudah dapat
diadopsi secara luas.
6. Ketersediaan akses data yang meningkat (data dapat dikumpulkan dan disimpan
dengan kecepatan tinggi).
7. Tekanan persaingan yang kuat untuk meningkatkan market share.
8. Pertumbuhan yang besar di tenaga komputer dan kapasitas penyimpanan.
9. Komputer menjadi alat yang lebih murah dan lebih powerful.
10. Teknik-teknik tradisional tidak dapat diterapkan untuk jumlah data yang besar.
11. Data mining dapat digunakan untuk reduksi data di bidang keilmuwan.
1.2.3 Mini Scale Data Mining
Pada sisi lain, ada suatu konsep data mining dalam skala yang lebih kecil dimana
konsep ini mempunyai perbedaan dalam input data. Dalam data mining, data input
didapat dari file penyimpanan data. Tetapi pada konsep data mining dalam skala yang
lebih kecil, data input hanya bisa didapatkan dari analisis bisnis.
Dalam aplikasi statistik tradisional, ukuran sample relatif kecil, data dikumpulkan
dengan hati-hati, hasil contoh menyediakan suatu basis untuk kesimpulan, keganjilan
lebih sering tidak diselesaikan, dan model lebih terstruktur. Di dalam data mining, ukuran
sample dapat dalam ukuran yang besar: data menyebar dan historis ( secara rutin dicatat),
sample digunakan untuk pelatihan, pengesahan, dan pengujian ( bukan kesimpulan
formal); keganjilan merupakan suatu hal yang penting; dan model sering tidak
terstruktur. Lebih lanjut, data preparation termasuk kumpulan data, pembersihan dan
penilaian, definisi dan pemilihan variabel merupakan proses yang sulit dan
menggambarkan 60 - 80% dari proses dalam data mining.
1.2.4 Definisi Data Mining
Berdasarkan Gartner Group, “Data mining adalah proses dari penemuan hubungan
baru yang penuh makna, pola dan kecendrungan oleh penyelidikan melalui sekumpulan
data yang sangat besar yang disimpan di gudang, penggunaan teknologi pengenalan pola
sebaik teknik statistik dan matematik.”
Selain itu, ada beberapa definisi lain tentang Data Mining, yaitu:
a. “Data mining adalah analisis dari (dalam cakupan luas) observasi data uji untuk
menemukan hubungan yang tidak terduga dan untuk meringkaskan data dalam cara
baru yang dapat dimengerti dan berguna bagi pemilik data.”
b. “Data mining adalah dasar cabang dari ilmu pengetahuan yang menggabungkan
teknik dari pembelajaran mesin, penemuan pola, statistik, database dan visulisasi
untuk menyelesaikan persoalan dari pengambilan informasi dari database yang besar.
c. “Data mining adalah suatu bidang interdisciplinary yang bersama-sama membawa
teknik dari pembelajaran mesin, pengenalan pola, statistik, database, dan visualisasi
untuk menunjuk isu dalam penyaringan informasi dari data yang berukuran besar"
(Evangelos Simoudis dalam Cabena et Al.).
d. “Data Mining adalah proses dalam menemukan pengetahuan menarik dari sejumlah
data besar yang tersimpan dalam tiap database, gudang data, atau tempat
penyimpanan informasi lain.”
e. “Data Mining adalah ekstraksi dari prediksi informasi tersembunyi dari database yang
berukuran besar.”
f. “Data mining adalah serangkaian proses untuk menggali nilai tambah dari suatu
kumpulan data berupa pengetahuan yang selama ini tidak diketahui secara manual.”
g. “Data mining adalah analisa otomatis dari data yang berjumlah besar atau kompleks
dengan tujuan untuk menemukan pola atau kecenderungan yang penting yang
biasanya tidak disadari keberadaannya”
1.2.5 Hubungan Data Mining dengan Ilmu Lain
Data mining bukanlah suatu bidang yang sama sekali baru. Salah satu kesulitan
untuk mendefinisikan data mining adalah kenyataan bahwa data mining mewarisi banyak
aspek dan teknik dari bidang-bidang ilmu yang sudah mapan terlebih dulu. Gambar 1.4
menunjukkan bahwa data mining memiliki akar yang panjang dari bidang ilmu seperti
kecerdasan buatan (artificial intelligent), machine learning, statistic, database dan juga
information retrieval.
Gambar 1.4 Hubungan data mining dengan ilmu-ilmu lainnya
Beberapa teknik yang sering disebut-sebut dalam literatur data mining seperti
klasifikasi, neural network, genetic algorithm dll sudah lama dikenal di dunia kecerdasan
buatan. Statistik memberikan kontribusi pada data mining dengan teknik-teknik untuk
menyeleksi data dan evaluasi hasil data mining selain teknik-teknik data mining seperti
klasterisasi. Yang membedakan persepsi terhadap data mining adalah perkembangan
teknik-teknik data mining untuk aplikasi pada database skala besar. Sebelum populernya
data mining, teknik-teknik tersebut pada umumnya diterapkan untuk data skala kecil saja.
Selain itu beberapa teknik dari bidang database untuk transformasi data juga merupakan
bagian integral dari proses data mining. Akhir-akhir ini ada beberapa bidang ilmu seperti
information retrieval yang juga terlibat dalam proses data mining untuk mengekstrak
sumber data bagi data mining dari sumber-sumber seperti teks dan website.
1.2.6 Pre-processing Data
Pre-processing data adalah tahapan sebelum suatu data diproses, dapat berupa
pembersihan data, transformasi data, atau yang lainnya. Mengapa pre-processing data
perlu dilakukan? Biasanya, data yang digunakan belum baik, penyebabnya antara lain:
1. Incomplete → kekurangan nilai-nilai atribut atau atribut tertentu lainnya.
2. Noisy → berisi kesalahan atau nilai-nilai outlier yang menyimpang dari yang
diharapkan.
3. Inconsisten → ketidakcocokan dalam penggunaan kode atau nama.
Tujuan Data Mining agar bermanfaat, database harus mengalami preprocessing,
dalam wujud data yang bersih dan transformasi data. Data Mining sering berhadapan
dengan data yang belum dilihat bertahun-tahun, sehingga sebagian besar data berisi nilai-
nilai bidang yang sudah berakhir, yang tidak lagi relevan, atau yang hilang. Sasarannya
adalah untuk memperkecil GIGO: untuk memperkecil “sampah” yang masuk ke dalam
model kita sehingga kita dapat memperkecil jumlah sampah yang dikeluarkan.Untuk
mendapatkan data yang baik, ada beberapa kriteria yang diperhatikan, antara lain:
1. Accuracy
2. Completeness
3. Consistency
4. Timeliness
5. Value added
6. Interpretability
7. Accessibility
8. Contextual
9. Representational
Metode – metode yang digunakan dalam data pre-processing, antara lain:
1. Data cleaning
Menghilangkan nilai-nilai data yang salah, memperbaiki kekacauan data dan
memeriksa data yang tidak konsisten.
2. Data integrasi
Menggabungkan data dari beberapa sumber (database, data cube, atau file) ke dalam
penyimpanan data yang sesuai.
3. Data transformasi
Normalisasi dan pengumpulan data sehingga menjadi sama.
4. Data reduksi
Menguraikan data ke dalam bentuk yang lebih kecil ukurannya tetapi tetap
menghasilkan hasil analitis yang sama.
5. Data diskretisasi
Bagian dari data reduksi tetapi memiliki arti penting tersendiri, terutama untuk data
numerik.
Gambar 1.5 Pre-processing Data
1.2.7 Aplikasi Data Mining
Untuk analisa pasar, banyak sekali sumber data yang dapat digunakan seperti
transaksi kartu kredit, kartu anggota club tertentu, kupon diskon, keluhan pembeli,
ditambah dengan studi tentang gaya hidup publik. Beberapa solusi yang bisa diselesaikan
dengan data mining diantaranya:
1. Menembak target pasar
Data mining dapat melakukan pengelompokan (clustering) dari model-model pembeli
dan melakukan klasifikasi terhadap setiap pembeli sesuai dengan karakteristik yang
diinginkan seperti kesukaan yang sama, tingkat penghasilan yang sama, kebiasaan
membeli dan karakteristik lainnya.
2. Melihat pola beli pemakai dari waktu ke waktu
Data mining dapat digunakan untuk melihat pola beli seseorang dari waktu ke waktu.
Sebagai contoh, ketika seseorang menikah bisa saja dia kemudian memutuskan
pindah dari single account ke joint account (rekening bersama) dan kemudian setelah
itu pola beli-nya berbeda dengan ketika dia masih bujangan.
3. Cross-Market Analysis
Kita dapat memanfaatkan data mining untuk melihat hubungan antara penjualan satu
produk dengan produk lainnya, contohnya:
a. Dari pola penjualan Coca Cola sedemikian rupa sehingga kita dapat mengetahui
barang apa sajakah yang harus kita sediakan untuk meningkatkan penjualan Coca
Cola?
b. Dari pola penjualan IndoMie sedemikian rupa sehingga kita dapat mengetahui
barang apa saja yang juga dibeli oleh pembeli IndoMie. Dengan demikian kita
bisa mengetahui dampak jika kita tidak lagi menjual IndoMie.
4. Profil Customer
Data mining dapat membantu untuk melihat profil customer/ pembeli/ nasabah
sehingga kita dapat mengetahui kelompok customer tertentu suka membeli produk
apa saja.
5. Identifikasi Kebutuhan Customer
Kita dapat mengidentifikasi produk-produk apa saja yang terbaik untuk tiap kelompok
customer dan menyusun faktor-faktor apa saja yang kira-kira dapat menarik customer
baru untuk bergabung/membeli.
1.2.8 Data Mining Techniques
Beberapa teknik Data Mining yang sering digunakan dalam dunia indutri antara lain:
1. Clustering
Analisis cluster merupakan salah satu teknik data mining yang bertujuan untuk
mengidentifikasi sekelompok obyek yang mempunyai kemiripan karakteristik tertentu
yang dapat dipisahkan dengan kelompok obyek lainnya, sehingga obyek yang berada
dalam kelompok yang sama relatif lebih homogen daripada obyek yang berada pada
kelompok yang berbeda..
2. Association Rule (Market Basket Analysis)
Association Rule adalah teknik data mining yang digunakan untuk menemukan aturan
assosiatif antara suatu kombinasi item. Salah satu contoh penerapan Association Rule
adalah Market Basket Analysis.
3. Classification
Klasifikasi merupakan proses untuk menemukan sekumpulan model yang
menjelaskan dan membedakan kelas-kelas data, sehingga model tersebut dapat
digunakan untuk memprediksi nilai suatu kelas yang belum diketahui pada sebuah
objek.
4. Regression (Predictive)
Analisis regresi meruapakan teknik untuk membantu menganalisis hubungan antara
suatu peristiwa atau keadaan yang terjadi akibat peristiwa yang lain.
1.3 Daftar Pustaka
1. Han,Jiawei. “Data Mining Concept and Techniques”. Presentation.
http://www.cs.sfu.ca/~han/dmbook
2. Han, Jiawei and Micheline Kamber, “Data Mining: Concepts and Techniques”,
Morgan Kaufmann Publishers, 2000 (ebook)
3. Osmar R. Zaïane, 1999, Introduction to Data Mining
4. U. Fayyad, G. Piatetsky-Shapiro, P. Smyth, and R.Uthurusamy, 73–95. Menlo Park, Calif.: AAAI Press.