Canon Dm Mv600i Dm Mv630i Dm Mv600 Dm Mv590 Service Repair Manual
Data Mining - Universitas Hasanuddinunhas.ac.id/amil/S1TIF/DM2020/04 DM 2020.pdf · Algoritma Data...
Transcript of Data Mining - Universitas Hasanuddinunhas.ac.id/amil/S1TIF/DM2020/04 DM 2020.pdf · Algoritma Data...
Data Mininghttp://www.unhas.ac.id/amil/S1TIF/DM2020/
L4
Amil Ahmad Ilham
Algoritma Data Mining (DM)
1. Estimation (Estimasi):• Linear Regression, Neural Network, Support Vector Machine, etc
2. Prediction/Forecasting (Prediksi/Peramalan):• Linear Regression, Neural Network, Support Vector Machine, etc
3. Classification (Klasifikasi):• Naive Bayes, K-Nearest Neighbor, C4.5, ID3, CART, Linear Discriminant Analysis,
Logistic Regression, etc
4. Clustering (Klastering):• K-Means, K-Medoids, Self-Organizing Map (SOM), Fuzzy C-Means, etc
5. Association (Asosiasi):• FP-Growth, A Priori, Coefficient of Correlation, Chi Square, etc
2
Evaluasi Model RegresiEvaluasi Model Regresi
Evaluasi Regresi
𝑅𝑀𝑆𝐸 =1
𝑛
𝑗=1
𝑛
𝑦𝑗 − 𝑦𝑗2
Root Mean Squared Error:
Populer karena memberikan nilai dengan skala yang sama dengan vector respon y.
𝑀𝐴𝐸 =1
𝑛
𝑗=1
𝑛
𝑦𝑗 − 𝑦𝑗
Mean Absolute Error:
Mencerminkan rata-rata error.
𝑀𝑆𝐸 =1
𝑛
𝑗=1
𝑛
𝑦𝑗 − 𝑦𝑗2
Mean Squared Error:
Populer karena lebih mengutamaerror yang besar.
Error
Pendekatan Evaluasi (Train/Test Split)
Engine Size Cylinder
Fuel Consumption Co2 Em
0 2.0 4 8.5 196
1 2.4 4 9.6 221
2 1.5 4 5.9 136
3 3.5 6 11.1 255
4 3.5 6 10.6 244
5 3.5 6 10.0 230
6 3.5 6 10.1 232
7 3.7 6 11.1 255
8 3.7 6 11.6 267
9 2.4 4 9.2 212
Train
Test
Nilai aktual
Prediksi
6 234
7 256
8 267
9 210
Nilai prediksibandingkan
Pendekatan Evaluasi (Train/Test Split)
• Contoh:
Model Non-linierModel Non-linier
Haruskah menggunakan regresi linier?
8
Data GDP 1960 -2014
Haruskah menggunakan regresi linier?
9
Data GDP 1960 -2014 Tampak seperti fungsi eksponensial atau logistik.
Berbagai jenis regresi
10
Cari fungsi model yang paling cocok
Regresi linier vs non-linier
• Bagaimana cara mengetahui sebuah problem itu linier atau non-linier?
• Inspeksi secara visual (hitung koefisien korelasi antara variable terikat dan bebas; > 0,7 berarti linier)
• Berdasarkan akurasi (karena tidak dapat memodelkan hubungan dengan parameter linier)
• Bagaimana memodelkan data, jika scatter plot menunjukkan sifat non-linier?
• Regresi polynomial
• Regresi non-linier
• “transformasi” data…
11
TutorialTutorial
12
Persamaan Linier
• y = ax + b
• Contoh y = 2x + 3
• Gambarkan secara manual grafik y untuk -5 <= x <= 5
13
Persamaan Linier
y = 2x + 3
Menggunakan Jupyter Notebook, plot y untuk -5 <= x <= 5• import numpy as np• import matplotlib.pyplot as plt• %matplotlib inline• x = np.arange(-5.0, 5.0, 0.5)• y = 2*(x) + 3• plt.plot(x,y, 'r') • plt.ylabel(‘y')• plt.xlabel(‘x')• plt.show()
14
Persamaan Linier
Misalkan datanya digenerate secara random:• x = np.arange(-5.0, 5.0, 0.4)
• y = 2*(x) + 3
• y_random = 2 * np.random.normal(size=x.size)
• ydata = y + y_random
• plt.plot(x, ydata, ‘bo')
• plt.plot(x,y, 'r')
• plt.ylabel(‘y')
• plt.xlabel(‘x')
• plt.show()
15
Persamaan Non-Linier
16
Persamaan Non-Linier (polynomial)
• y = ax3 + bx2 + cx + d
• Contoh: y = x3 + 2x2 + 3x + 4
• Gambarkan secara manual grafik y untuk -5 <= x <= 5
17
Persamaan Non-Linier (polynomial)y = x3 + 2x2 + 3x + 4
• Misalkan datanya digenerate secara random:
18
Persamaan Non-Linier (Quadratic)y = x2
• Misalkan datanya digenerate secara random:
19
Persamaan Non-Linier (Exponential)y = ex
• Misalkan datanya digenerate secara random:
20
Persamaan Non-Linier (Logarithmic)y = log x
• Misalkan datanya digenerate secara random:
21
Persamaan Non-Linier (Sigmoidal/Logistic)
• Misalkan datanya digenerate secara random:
22
Persamaan Non-Linier (Sigmoidal/Logistic)
• Misalkan datanya digenerate secara random:
23
Persamaan Non-Linier (Sigmoidal/Logistic)
• Misalkan datanya digenerate secara random:
24
Studi Kasus Regresi Non-linier
• Download file china_gdp.csv di http://www.unhas.ac.id/amil/S1TIF/DM2020/• Klik kanan file => Save Link As => Save as type: All Files
• Buka file baru di Jupyter Notebook
25
Melihat dataset
• Run new jupyter notebook
26
Plotting dataset
27
Memilih model yang cocok dengan dataset(?)
28
Dataset
Exponential Sigmoidal/Logistic
Memilih model yang cocok dengan dataset(?)
29
Dataset
Sigmoidal/Logistic
Membuat Model (Sigmoidal/Logistic)
30
Testing Model (Optional)
31
Normalisasi data
Menentukan nilai beta_1 dan beta_2
33
Hitung y_prediksi
Plot Hasil Regresi Non Linier
35
Tugas• Buat program untuk menghasilkan
36GDP China 1960 - 2014 Prediksi GDP China 2015 - 2030