JUNI 2012 VOLUME 17-NOMOR 1

JUNI 2012 VOLUME 17- NOMOR 1 Kajian Nilai Peak to Average Power Ratio (PAPR) pada Bagian Legacy Signal Field Sistem Wireless LAN IEEE 802.11n Hendra Setiawan 1- 7

Analis is Performansi Self-Optimisation Cakupan dan Kapasitas Menggunakan Algoritma Heuristik di Lingkungan Radio Propagasi yang Berbeda (Studi Kasus 3G UMTS) Yasi r A. Saputro, Rina P. Astuti , Nachwan M. Adriansyah 8- 14

Desain dan lmplementasi Viterbi Decoder Soft Decision pada FPGA dengan Skema QPSK Raditiana Patmasari, Heroe Wijanto, lswahyudi Hidayat 15- 21

Desain Transmitter OFDM-STBC pada VHDL Sug(){l(jo Hadiyoso, Rina Pudji Astuti , lswahyudi Hidayat 22- 28

Pengembangan Metode Pemampatan Citra Diam Menggunakan Pustaka Basis Latih dan Representasi Sparse Antonius Darma Setiawan, Andriyan Bayu Suksmono, Hendra Gunawan, Tati Mengko 29- 36

Perancangan dan lmplementasi Suatu Problem Based Learning di Dalam Lingkungan Virtual Kolaboratif Menggunakan Teknologi MMOG Ferd inand Aruan , Ary Setijadi Prihatmanto, Hi lwadi Hindersah, Kuspriyanto 37- 45

Desain dan lmplementasi Sistem Penerjemah Bahasa lsyarat Berbasis Webcam dengan Metode Linear Discriminant Analysis Nelli Melinda Nasution , lwan lwut, Linda Meylani 46- 52

Anomaly Detection pada Intrusion Detection System (IDS) Menggunakan Metode Bayesian Network Oktavia Ari Marlita , Adiwijaya , Angelina Prima Kurniat i 53- 61

Analisis Degree Centrality dalam Social Network Analysis Menggunakan Probabilistic Affinity Index (PAl) pada Graf Berarah-Berbobot Andi Sulasikin , Warih Maharani, Adiwijaya 62- 68

Analisis Strategis Layanan Berbasis Data Flexi untuk Mempertahankan Bisnis Legacy Fixed Wireless Access Gunawan Wibisono, Khaidar Subhan Rahman 69- 75

Pengembangan Multisignal Remote Patient Monitoring System untuk Perawatan Pasien Jantung Menggunakan Tablet Berbasis Android dan Wireless LAN (IEEE.802.11 b/g) Achmad Riza l, Harrison Palti August, Sugondo Hadiyoso, Jondri 76- 84

lndeks Judul

INSTlTUT TEKNOLOGI

TELKOM

Last Name

Highlight

Anomaly Detection pada Intrusion Detection System (IDS) Menggunakan Metode Bayesian

Network

Oktavia Ari Marlita

1, Adiwijaya

2, Angelina Prima Kurniati

1

1Fakultas Informatika dan 2Fakultas sains

Institut Teknologi Telkom, Bandung 40257

[email protected], [email protected], [email protected]

Abstrak

Intrusion Detection System (IDS) merupakan sistem yang dapat mendeteksi adanya intrusi atau gangguan pada suatu jaringan atau sistem informasi. Salah satu jenis IDS adalah anomaly detection dimana suatu data trafik jaringan akan dikatakan intrusi apabila mempunyai karakteristik yang berbeda dari kebanyakan data lainnya. Anomaly detection dapat mendeteksi serangan dalam host atau network yang menyimpang dari aktivitas normal berdasarkan probabilitas statistika. Statistical anomaly detection tidak memiliki model intelligent learning yang mungkin menyebabkan false alarm memiliki tingkat deteksi tinggi.Metode yang digunakan sistem adalah Bayesian

Network TAN Classifier.CI Test merupakan salah satu algoritma yang handal untuk membangun Model TAN Classifier untuk klasifikasi. Dengan representasi grafis gabungan dari probabilitas fungsi distribusi lebih dari satu set variabel. Struktur jaringan direpresentasikan sebagai Directed Acyclic Graph (DAG) di mana setiap node berkorespondensi dengan variabel acak dan setiap edge menunjukkan hubungan ketergantungan antar variabel-variabel yang terhubung. Data trafik jaringan melalui proses training untuk membentuk model TAN Classifier, kemudian dilakukan proses testing. Pengujian dilakukan dengan beberapa skenario untuk mengetahui akurasi sistem dilihat dari nilai detection rate (DR) dan false positive rate (FPR), pengaruh proporsi data training dan data testing, serta pengaruh proporsi data normal dan data intrusi pada masing-masing dataset. Bayesian Network dapat mendeteksi intrusi, dengan DR sebesar 100% dan FPR 0%. Kata kunci: intrusi, Intrusion Detection System,anomaly detection, Bayesian Network, TAN Classifier

1. Abstract

Intrusion Detection System (IDS) is a system that can detect any intrusion or interference on a network or

information systems. One type of IDS is anomaly detection in which a data network traffic if the intrusion would be

said to have characteristics different from most other data. Anomaly detection can detect the attack on host or

network who deviate from normal activities based on statistical probability. Statistical anomaly detection does not

have a model of intelligent learning that may lead to false alarms have a high detection rate. The method used is a

system of TAN Bayesian Network Classifier. CI Test is one of a reliable algorithm to build classification models for

the TAN Classifier. With a graphical representation of the joint probability distribution function over a set of

variables. The network structure is represented as a Directed acyclic Graph (DAG) where each node corresponds to

a random variable and each edge shows the dependency relationships among the variables are connected. Data

network traffic through the training process to form a model of TAN Classifier, then do the testing. Tests carried out

with several scenarios to determine the accuracy of the detection system is seen rate (DR) and false positive rate

(FPR), the influence of the proportion of training data and testing the data, as well as the influence of the

proportion of normal data and data intrusion on each dataset. Bayesian Network can detect the intrusion, the DR of

100% and 0% FPR.

Kata kunci: intrusi, Intrusion Detection System, anomaly detection, Bayesian Network, TAN Classifier 1. Pendahuluan

Data dan informasi sensitif dalam skala besar diproses dalam jaringan komputer. Sehingga diperlukan suatu sistem keamanan dalam jaringan komputer yang tahan dan toleran terhadap intrusi jaringan. Intrusi jaringan merupakan upaya untuk mendapatkan akses ilegal keresource jaringan atau mem-by-pass sistem keamanan yang ada.

Upaya itu dapat dilakukan dengan mengakses sistem melalui Internet, maupun melalui celah keamanan jaringan lainnya. Oleh karena itu, Intrusion Detection

System (IDS) diperlukan untuk mengatasi permasalahan tersebut. Intrusion detection adalah suatu proses monitoring kejadian yang terjadi pada sistem komputer atau jaringan serta menganalisisnya

mailto:[email protected]



untuk mengetahui aktivitas tersebut termasuk normal atau intrusi.

Anomaly detection dapat mendeteksi serangan dalam host atau network yang menyimpang dari aktivitas normal berdasarkan probabilitas statistika. Statistical anomaly detection tidak memiliki model intelligent learning yang mungkin menyebabkan false alarm memiliki tingkat deteksi tinggi. Anomaly detection menggunakan pendekatan unsupervised learning (tidak ada intelligent

learning), yang mampu mendeteksi intrusi tanpa harus mempelajari data sebelumnya[9]. Misuse

detection/signature analysis membutuhkan akses ke database besar dari signatureintrusion yang diketahui. Detektor melakukan analisis terhadap aktivitas sistem, mencari event atau set event yang cocok dengan pola perilaku yang dikenali sebagai serangan.

Bayesian Network (BN) adalah representasi grafis dari gabungan dari probabilitas fungsi distribusi lebih dari satu set variabel. Struktur jaringan direpresentasikan sebagai Directed Acyclic

Graph (DAG) di mana setiap node berkorespondensi dengan variabel acak dan setiap edge menunjukkan hubungan ketergantunga antar variabel-variabel yang terhubung [5]. Setiap variabel memiliki satu finite set mutually exclusive states.

Dalam jurnal ini metode Bayesian Network yang digunakan yaitu Tree Augmented Naive Bayes

(TAN)classifier. Adaptive network IDS dengan medote BN mengambil data offline dari dataset KDD Cup tahun 1999 untuk mengukur kelayakan dan efektivitas sistem. Tipe datanya ada kontinu dan nominal dengan mengambil 9 dari 41 features termasuk unbalanced data[12]. Karena setiap variabel (node) dalam BN dikaitkan dengan Conditional Probability Tabel (CPT), yang menyebutkan probabilitas bersyarat untuk variabel yang memberikan semua kombinasi induknya. Akurasideteksi intrusi dapat dilihat dari seberapa dekat kah data klasifikasi dengan data asli. Dengan BN sebagai model yang ideal untuk menggabungkan priorknowledge sebelumnya dengan data baru dan menyimpulkan menjadi posterior knowledge. Oleh karena itu, Bayesian Network dengan TAN classifier

diharapkan dapat meningkatkan tingkat akurasi IDS.

2. Landasan Teori

2.1 Intrusion Detection System (IDS)

Intrusion detection adalah suatu proses monitoring kejadian yang terjadi pada sistem komputer atau jaringan serta menganalisisnya untuk mengetahui aktivitas tersebut termasuk normal atau intrusi.Model proses dari IDS ada 3 fungsi dasar, yaitu: pertama, pengambilan data dari berbagai level

dari sistem seperti network, host,dan application.

Kedua, analisis data yang diperoleh untuk mengenali intrusi. Terakhir, respon terhadap serangan.Secara umum prinsip proses kerja dari sistem deteksi intrusi dapat digambarkan sebagai berikut[2]:

Gambar 2-1 : Proses kerja sistem deteksi intrusi

Keterangan: 1. Input (Even Information) Sumber data yang akan digunakan untuk mendeteksi intrusi didapat dari bermacam-macam sumber, antara lain: host, network maupun application. 2. Activity (Analysis)

Untuk melakukan analisis mendeteksi intrusi, pendekatan yangsecara umum dilakukan adalah dengan pendekatan misuse dan anomalydetection. Misuse detection adalah pendekatan untuk mengenali intrusiberdasarkan pengetahuan atau data mengenai ciri-ciri intrusi yang telahdidefinisikan sebelumnya [2]. Sedangkan anomaly detection mendeteksiintrusi dari deviasi kelakuan umum data normal lainnya. 3. Output (Response)

Output (response) adalah mengklasifikasikan apakah sebuah data tersebut normal atau termasuk intrusi. Respon intrusi dapat berupa respon aktif yaitu mengeluarkan alarm dan mengamankan sistem ataupun respon pasif berupa laporan ditemukan adanya intrusi.

2.2 Bayesian Network

Bayesian Network (BN) adalah representasi grafis dari gabungan dari probabilitas fungsi distribusi lebih dari satu set variabel. Struktur jaringan direpresentasikan sebagai Directed Acyclic Graph (DAG) di mana setiap node berkorespondensi dengan variabel acak dan setiap edge menunjukkan hubungan ketergantunga antar variabel-variabel yang terhubung [6]. Setiap variabel memiliki satu finite set mutually exclusive states.Algoritma yang digunakan untuk membangun model Bayesian Network yaitu Conditional independence (CI) Test. Beberapa karakteristik umum metoda BN sebagai berikut : a. BN menyediakan pendekatan untuk menangkap

pengetahuan sebelumnya (prior knowledge) dari domain tertentu menggunakan pemodelan grafis. Network juga dapat digunakan untuk mengenkode dependensi kausal antar variabel.

b. Membangun network dapat menghabiskan waktu dan memerlukan usaha yang banyak. Bagaimanapun, ketika struktur network telah

Input Activity Output

Event

information

from source

(host, network,

application)

Response

(action

taken or

detection)

Analysis

(misuse or

anomaly

detection)

ditentukan, menambahkan variabel baru dapat dilakukan secara langsung.

c. BN sesuai untuk menangani data yang tidak lengkap. Instansiasi dengan atribut yang hilang dapat ditangani dengan menjumlahkan atau mengintegrasikan seluruh nilai atribut yang mungkin. 2.3 Struktur Bayesian Network

Pada umumnya struktur Bayesian Network terdiri dari 2 bagian, yaitu[3]: a. DAG (Directed Acyclic Graph) DAG ini terdiri dari nodes dan busur-busur (arcs) yang menghubungkan antara node yang satu dengan node yang lainnya. Node pada Bayesian Network merepresentasikan variabel atau atribut.Sedangkan busur merepresentasikan relasi ketergantungan atau hubungan kausal antara dua node.

Gambar 2-3: Hubungan kausal antara dua buah

node

Pada BN, node terdiri dari dua jenis, yaitu nodeclass dan node atribut. Nodeclass mewakili variabel class yang merupakan target klasifikasi pada dataset, sedangkan node atribut mewakili variabel-variabel selain variabel class. Apabila dua buah node dihubungkan oleh sebuah busur, maka kausal node akan menjadi parent node dari node yang lain. b. CPT (Conditional Probability Table) CPT merepresentasikan probabilitas berdasarkan informasi prior. Secara matematis, sebuah conditional probability dapat ditulis dengan P(X=x|P1=p1, P2=p2, …, Pn=pn) misalnya probabilitas simpul X pada status x berdasarkan simpul orang tua P1 pada status p1, simpul orang tua P2 pada status p2, …, dan simpul orang tua Pn pada status pn.Pada CPT terdapat status dari tiap variabel yang merupakan suatu nilai yang bisa diambil oleh node.

Gambar 2-4: Status pada parent node dan child

node.

Pada gambar 2-5 merupakan contoh penerapan dari CPT. Misalkan nilai P(Road

Conditions=Impassable|Precipitation=Heavy). Sel conditional probabilities tersebut memiliki makna: “Jika Precipitation berada pada status Heavy, maka probabilitas Road Conditions berada pada status Impassable yaitu 0.700.”

status simpul orang tua

status simpul anak

Child ParentPrecipitation

LightRoad Conditions None

PassableImpassable

0.9000.100 0.700

Heavy0.0500.950 0.300 conditional probabilities

Gambar 2-5: CPT antara node Precipitation dan

node Road Condition

2.3.1 Bayesian Network Tree Augmented

Naïve Bayes Classifier (TAN)

TAN classifier merupakan pengembangan dari Naïve

Bayes classifier dimana antar node atribut dapat saling memiliki ketergantungan. Sama seperti pada NB, setiap variabel merupakan directly dependent pada variabel class tetapi diantara variabel tersebut juga bisa dimungkinkan ber- conditionaldependent satu sama lain [3].

Gambar 2-6: TAN Classifier

Misalkan E= (a1, a2, ..., an) merupakan record data yang akan diklasifikasi, di mana ai adalah status simpul atribut Ai. Pada pengklasifikasian data, TAN classifier akan memilih status simpul class yang memiliki probabilitas paling besar berdasarkan E [13]:

(2.1) di mana aiadalah status simpul atribut Ai, aipadalah status simpulatribut Aip dan cjadalahstatussimpul classC. Aip dan C merupakan orang tua simpul atribut Ai, dan

(2.2)

Precipitation

Road

Conditions

simpul orang tua

simpul anak

Precipitation

Road

Conditions

status simpul orang tua

status simpul anak

Status

None

Light

Heavy

Status

Impassable

Passable

c

a3a1 a4a2

n

i

jipijcc caaPcPECj

1tan ),|()(maxarg)(

}{),|(

}{),,|()),|(

ipji

pijpi

jpiiAcaP

AcaiaPcaaP

Nilai P(cj), P(ai|cj) diestimasi menggunakan Laplace

estimation

(2.3)

(2.4) Keterangan: t = jumlah instan pada data training k = jumlah status pada simpul class

vi= jumlah status pada simpul atribut Ai nj = jumlah data training dengan C = cj nij = jumlah data training dengan C = cj dan Ai = ai Nilai P(cj), P(ai|cj), dan P(ai|aip,cj) diestimasi menggunakan Laplace estimation.

(2.5) Keterangan: vi = jumlah status pada simpul atribut Ai nipj = jumlah record pada data training dengan Aip=aipdan C=cj niipj = jumlah record pada datatraining dengan Ai=ai,

Aip=aip, dan C=cj TAN classifier membangun model klasifikasi BN berdasarkan pada dataset. Berbeda dengan Naive Bayes pada TAN bisa terjadi hubungan conditional diantara atribut. Algoritma yang digunakan untuk membangun model yaitu algoritma conditional

independence test based. Pembangunan yang dilakukan didasarkan pada perhitungan mutual

information dan conditional mutual information, yaitu seperti langkah di bawah ini [9]: 1. Hitung conditional mutual information

I(Ai,Aj|C),i j, di antara masing-masing pasangan variabel atribut, kemudian hitung thresholdConditional mutual information dihitung dengan persamaan (2.5), sedangkan thresholddihitung dengan persamaan (2.6).

2. Bangun graf lengkap tak berarah di mana simpul-simpulnya merupakan variabel atribut Ai, i=1,2,...,n. Sisi penghubung Ai ke Aj diberi bobot dengan I(Ai,Aj|C).

3. Cari pohon merentang dengan bobot maksimum dengan algoritma Kruskal. Yaitu dengan memotong busur yang mempunyai nilai IC minimum, dengan jumlah yang dipotong tidak melebihi sisa busur yang tersedia.

4. Hitung mutual information I(Ai,C), i=1,2,…,n antara masing-masing variabel atribut dengan

variabel class, kemudian pilih variabel atribut yang mempunyai nilai mutual information tertinggi untuk menjadi simpul Aroot. Mutual

information dihitung dengan persamaan (2.4). 5. Ubah pohon tak berarah menjadi pohon berarah

dengan membuat simpul Aroot sebagai orang tua dan membuat arah panah dari semua busur keluar dari simpul Aroot.

6. Hapus busur berarah yang memiliki bobot conditional mutual information di bawah nilai threshold .

7. Bangun model TAN dengan menambahkan variabel class sebagai simpul class dan tambahkan busur berarah dari simpul class ke masing-masing simpul atribut Ai, i=1,2,…,n.

2.3.2 Algoritma Kruskal

Algoritma Kruskal merupakan salah satu metode untuk mencari minimum spanning tree. Konsep dasar yang digunakan adalah pada setiap langkah, memilih sisi dari graf G yang berbobot minimum, tetapi sisi tersebut tidak membentuk sirkuit T. Langkah-langkah algoritma Kruskal adalah sebagai berikut [18]: 1. Lakukan pengurutan terhadap setiap sisi di graf

G mulai dari sisi dengan bobot terkecil. 2. Pilih sisi(u,v) yang mempunyai bobot minimum

yang tidak membentuk sirkuit di T. tambahkan (u,v) ke dalam T.

3. Ulangi langkah 2 sampai pohon merentang minimum terbentuk, yaitu ketika di dalam pohon merentang T berjumlah n-1 (n adalah jumlah simpul graf G) 2.4 CI Test

CI Test merupakan sebuah algoritma yang digunakan dalam pembangunan model Bayesian Network pada saat dilakukan proses learning. Pembangunan yang dilakukan didasarkan pada perhitungan mutual

information dan conditional mutual information [7]. 2.4.1 Mutual information

Mutual information merupakan fungsi untuk mengukur berapa banyak informasi untuk suatu variabel yang disediakan oleh suatu variabel yang lain. Mutual information antara variabel A dan C diformulasikan sebagai berikut [7][8][16]:

(2.6) Fungsi tersebut untuk mengukur berapa banyak informasi untuk A yang disediakan oleh C.

2.4.2 Conditional mutual information

Conditional mutual information merupakan fungsi untuk mengukur berapa banyak informasi untuk suatu variabel yang disediakan oleh suatu variabel yang lain jika nilai suatu variabel yang lain diketahui.Conditional mutual information antara

kt

ncP

j

j

1)(

ij

ij

jivn

ncaP

1)|(

ipji

iipj

jpiivn

ncaaP

1),|(

ca cPaP

caPcaPCAI

, )()(),(log),();(

variabel Aidan Aj berdasarkan C diformulasikan sebagai berikut[7][8][16]:

cajai ji

ji

jijicaPcaP

cPcaaPcaaPCAAI

,, ),(),()(),,(

log),,()|;(

(2.7) Fungsi tersebut untuk mengukur berapa banyak informasi untuk Ai yang disediakan oleh Aj jika nilai C diketahui. Ketika I(Ai;Aj|C) lebih kecil daripada nilai threshold, Ai dan Aj disebut conditional

independentoleh C. Nilai thresholddiformulasikan sebagai berikut [9]:

(2.8) Keterangan : C : variabel class, Ai, Aj : variabel atribut n : jumlah pasangan atribut

2.5 Evaluasi Sistem

Untuk mengetahui kinerja prediksi yang baik, sebuah IDS harus dapat dengan benar membedakan antara intrusi dan normal dalam lingkungan sistem [Network Intrusion Detection based on Bayesian

Network]. Berikut merupakan Tabel standar matrik evaluasi untuk hasil deteksi sistem[4]:

Tabel 2-1: Tabel Standar Matrik Evaluasi Hasil Deteksi Sistem

Hasil Deteksi

Intrusi Normal

Label

Asli

Intrusi True Positive (TP)

False Negative (FN)

Normal False Positive (FP)

True Negative (TN)

Evaluasi kinerja deteksi intrusi menggunakan parameter utama, yaitu: Detection Rate (DR)

Merupakan jumlah intrusi yang berhasil dideteksi oleh sistem dibagi dengan total jumlah intrusi yang ada pada dataset.

𝐷𝑅 =𝑇𝑃

𝑇𝑃 + 𝐹𝑁 (2.9)

False Positive Rate (FPR) Merupakan jumlah data normal yang dianggap sebagai intrusi oleh sistem dibagi dengan jumlah data normal pada dataset.

𝐹𝑃𝑅 =𝐹𝑃

𝐹𝑃 + 𝑇𝑁 (2.10)

3. Perancangan Sistem

Pada bagian ini akan dijelaskan gambaran tahapan proses dalam sistem deteksi anomali untuk mengenali intrusi. Berikut ini diagram yang menggambarkan sistem deteksi intrusi:

Gambar 3-1 : Alur algoritma TAN classifier dalam

sistem deteksi anomali

3.1 Dataset

Data yang digunakan sebagai masukan dalam sistem ini adalah sampling dari data KDD Cup 99 sebanyak 10% yang merupakan subset dari DARPA Intrusion Detection Evaluation Data Set yang dirilis pada tahun 1998 oleh MIT Lincoln Library. Data terdiri dari data normal dan data intrusi. Format ekstensi data adalah .xls dengan jumlah atribut sebanyak 41 atribut. Kemudian dilakukan proses pemilihan atribut-atribut yang paling berpengaruh sesuai dengan paper ada 9 atribut yaitu protocol_type, service, num_of_wrong_fragments,

num_of_failed_logins, land ,login_success,

is_guess_login, root_shell_obtained, and type

(intrusion atau normal connection) [14]. Jumlah record data input adalah 1000 record, namun komposisi data baik intrusi maupun normal berbeda-beda. Tabel 3-1 Tabel dataset pengujian untuk skenario A

ijnn

CAAI

Ii j

ji

avg

,

)1(

)|;(

* Preprocessing data dilakukan diluar sistem dengan

bantuan Ms. excel

Data Trafik

Jaringan

(10% KDD

Cup 99)

Feature

selection by

information gain

Pemodelan TAN

Classifier dengan

CI Test

Data Hasil

Preprocessi

ng

Pengisian CPT

dengan Laplace

Estimation

Struktur

TAN

Classifier

Penghitungan

false alarm rate

& detection rate

Nilai false

alarm rate

&

detection

rate

Discretization

Hasil

klasifikasi

Model

TAN

Data

Training

Data

Testing

Pengujian

(klasifikasi)

Nama Dataset

Data Training

Jml Dataset

% train

training

Normal

Intrusi Keterangan

Dataset_A1 TRAIN_A900 1000 0.9 900 540 360 Proporsi data normal dan data intrusi untuk semua dataset adalah 6:4 sesuai komposisi asli data KDD 10% setelah preprocessing

Dataset_A2 TRAIN_A800 1000 0.8 800 480 320

Dataset_A3 TRAIN_A700 1000 0.7 700 420 280

Dataset_A4 TRAIN_A600 1000 0.6 600 360 240

Dataset_A5 TRAIN_A500 1000 0.5 500 300 200

Data testing Jml Dataset

% test

testing

Normal

Intrusi

Dataset_A1 TEST100 1000 0.1 100 60 40

Dataset_A2 TEST200 1000 0.2 200 120 80

Dataset_A3 TEST300 1000 0.3 300 180 120

Dataset_A4 TEST400 1000 0.4 400 240 160

Dataset_A5 TEST500 1000 0.5 500 300 200

Pada Tabel 3.1 dataset untuk skenario A, jumlah data untuk tiap dataset yaitu 1000. Proporsi data normal dan data intrusi untuk training dan testing tetap yaitu 6:4 (sesuai komposisi sesuai komposisi asli data KDD 10% setelah preprocessing). Namun proporsi data training dan data testing yang diubah-ubah. Tabel 3-2 Tabel dataset pengujian untuk skenario B

Pada Tabel 3.2 dataset untuk skenario B, jumlah

data untuk tiap dataset yaitu 1000. Proporsi data

training dan data testing tetap yaitu 90% dan 10%.Namun proporsi data normal dan data intrusi untuk training dan testing yang diubah-ubah. 4. Hasil Pengujian

4.1 Pengujian terhadap karakteristik data

training terhadap model TAN BN dan

performansi sistem.

Berdasarkan keseluruhan pengujian yang dilakukan terhadap dataset pada Tabel 3.1, terlihat bahwa model TAN Classifier Bayesian Network yang terbentuk ada 9 node (termasuk kelas). Setiap node memiliki nilai mutual information dari feature yang berbeda-beda. Namun karena proporsi data normal dan data intrusi yang tetap atau sama yaitu 60% dan 40% (sesuai dengan proporsi 10% dataset asli KDD Cup 99) pada setiap dataset akan menghasilkan probabilitas kelas yang sama.

Tabel 4-1 Hasil performansi sistem dari tiap

dataset Skenario B

Nama dataset

Data training

Data training

DR (%) FPR (%)

DATA_A1 TEST100 TRAIN_A900 A900

100.00 100.00

1.67 5.00


98.75 100.00

10.83 9.17


99.17 100.00

5.00 6.11


100.00 98.75

6.67 7.50


100.00 99.00

4.00 3.33

Berdasarkan Tabel 4.1, setiap dataset yang terdiri dari 2 data training diujikan dengan data testing yang sama menghasilkan performansi yang berbeda. Hal

ini menunjukan bahwa pada TAN classifier memungkinkan terjadinya ketergantungan diantara atribut yang dibangun menggunakan Algoritma CI Test dapat menaikkan nilai performansi sistem.

Grafik 4-1 Hasil performansi sistem dari tiap

dataset Skenario B

Karena statistical based jumlah instance dari

feature akan mempengaruhi nilai threshold. Karena perhitungannya melibatkan conditional mutual information tiap pasangan atribut. Jadi semakin banyak data training tentu saja jumlah instance dari feature juga semakin banyak, akibatnya variable-variabel penentu model TAN classifier semakin bervariasi. Model tersebut nantinya untuk dasar pengisian CPT dan sangat berpengaruh untuk klasifikasi data testing serta perhitungan performansi sistem. Berikut salah satu hasil jaringan Bayesian Network.

Gambar 4.1: Model TAN BN Data TRAIN_A500

Class

Service0.240679

Protocol_type

0.045487

Is_guess_login

0.012231

Logged_In

0.026253

Wrong_fragment

0.061332

Land0.000000

Root_shell0.000797

Num_failed_logins0.003205

Berdasarkan Tabel 4.1, terlihat hasil performansi dari dataset DATA_A1 yang terdiri dari 90% data training dan 10% data testing memiliki nilai DR 100% dan FPR 1,67%. Detection rate 100% artinya sistem mampu mendeteksi seluruh intrusi pada data testing sebanyak 0 data dengan benar. Dan False Positive Rate 1,67% yang artinya ada 9 data yang salah terdeteksi dari seluruh data normal yang berjumlah 540 data. Semakin besar nilai DR berarti

020406080

100120

A1-

a

A1-

b

A2-

a

A2-

b

A3-

a

A3-

b

A4-

a

A4-

b

A5-

a

A5-

b

DR

FPR

Nama

dataset B1 B2 B3 B4 B5 B6

Keterangan

Data Training

% normal 0.95 0.9 0.8 0.7 0.6 0.5 Proporsi data train dan data test untuk semua data set adalah 75% data train dan 25% data test

900

Jml normal 855 810 720 630 540 450

% intrusi 0.05 0.1 0.2 0.3 0.4 0.5

Jml intrusi 45 90 180 270 360 450

Data Testing

% normal 0.95 0.9 0.8 0.7 0.6 0.5

100

Jml normal 95 90 80 70 60 50

% intrusi 0.05 0.1 0.2 0.3 0.4 0.5

Jml intrusi 5 10 20 30 40 50

semakin bagus performansi sistem, karena jumlah semua data intrusi berarti berhasil dikenali oleh sistem. Sebaliknya jika nilai FPR tinggi, malah tidak bagus karena data normal yang dikenali sistem sebagai intrusi banyak.

4.2 Pengujian Analisis Pengaruh Proporsi Data

Intrusi dan Normal terhadap Performansi

Sistem (DR dan FPR)

Berikut ini merupakan hasil performansi sistem Anomaly Detection dari pengujian keseluruhan data testing dari dataset terhadap model Bayesian

Network TAN Classifier yang terbentuk dari masing-masing data training. Tabel 4-2 Hasil performansi sistem dari tiap dataset

Skenario B Nama dataset

% normal

% intrusi

DR (%)

FPR (%)

DATA_B1 95 5 40.00 0.00

DATA_B2 90 10 72.73 0.00

DATA_B3 80 20 100 0.00

DATA_B4 70 30 100 8.57

DATA_B5 60 40 100 5.00

DATA_B6 50 50 80 0.80

Berdasarkan keseluruhan pengujian yang dilakukan terhadap dataset pada Tabel 4.4, terlihat bahwa model TAN ClassifierBayesian Network yang terbentuk berbeda-beda. Secara umum dapat diambil kesimpulan ketika data training dengan jumlah yang sama namun proporsi data normal dan data intrusi diubah-ubah, ternyata mempengaruhi model TAN Classifier BN. Grafik 4-1 Hasil performansi sistem dari tiap dataset

Skenario B

Semakin kecil proporsi data intrusi pada

data training, ternyata model TAN BN yang terbentuk juga hanya beberapa feature saja. Untuk DATA_B1 dan DATA_B2 menghasilkan model TAN BN dengan node kurang dari 8. Sebaliknya semakin besar data intrusi pada data training, model TAN BN yang dihasilkan memiliki node lengkap dari 8 feature. Namun bentuk model TAN Classifier BN

yang lengkap belum tentu menghasilkan performansi sistem yang optimal.

Gambar 4-2 Model TAN BN Data TRAN_B7-3

Berdasarkan Tabel 4.2, DATA_B4 memiliki hasil performansi paling optimal yaitu DR 100% dan FPR 0%. Nilai Detection Rate 100%. Artinya sistem mampu mendeteksi seluruh intrusi dengan benar.Sedangkan nilai False Positive Rate 0%, artinya tidak ada data normal pada data testing yang terdeteksi sebagai intrusi.Semakin kecil nilai FPR maka semakin bagus performansi sistem. Hasil performansi tersebut mencapai optimal karena menggunakan proporsi data training dan testing pada pengujian skenario A yaitu 90% data train dan 10% data test. Semakin banyak data yang di-training maka model TAN BN yang dihasilkan semakin bagus untuk proses klasifikasi. Berikut ini tabel perbandingan hasil performansi dengan karakteristik data yang sama, namun proporsi data normal dan data intrusi berbeda.

Tabel 4-3 Tabel Perbandingan Hasil Performansi dengan penelitian sebelumnya

Nama

dataset

Data

train

Data

test

Data

normal

Data

intrusi

DR FPR

Skenario A

DATA_A1

90% 10% 60% 40% 100%

1,67%

Skenario B

DATA_B3

90% 10% 80% 20% 100%

0%

Berdasarkan Tabel 4.3, dengan proporsi data

normal 80% dan data intrusi 20% menghasilkan performansi sitem yang lebih tinggi dari hasil skenario A. Jadi secara umum dapat diambil kesimpulan bahwa perfomansi sistem yang lebih bagus yaitu skenario B pada daset DATA_B3. DATA_B3 menghasilkan model TAN Classifier tanpa feature land, ternyata menghasilkan performansi yang lebih bagus. Proporsi data normal

0

20

40

60

80

100

120

B1 B2 B3 B4 B5 B6

DR

FPR

Class

Service0.205914

Protocol_type

0.0569997

Is_guess_login

0.0195168

Logged_In

0.0483736

Wrong_fragment

0.0716679

Land0.0028032

Root_shell0.0028032

Num_failed_logins

0.0056359

80% dan data intrusi 20% pada data training dan data testing, ternyata memberikan pengaruh yang lebih bagus daripada proporsi data asli 10% KDD Cup 99 yaitu nilai DR 100% dan nilai FPR 0%.

Secara keseluruhan dari hasil performansi sistem, model Bayesian Network membutuhkan data training yang lebih besar dari data testing. Idealnya untuk sistem ini yaitu 90% data training dan 10% data testing. Sedangkan dari segi proporsi data normal dan data intrusi untuk Anomaly detection, ternyata untuk data normal haruslah lebih besar dari data intrusi. 5. Kesimpulan

Berdasarkan hasil pengujian dan analisis yang telah dilakukan pada Tugas Akhir ini, diperoleh beberapa kesimpulan sebagai berikut: 1. Faktor yang mempengaruhi pembentukan model

TAN Classifier yaitu jumlah record,jumlah atribut, dan jumlahvalue tiap atribut pada data training. Karena pada TAN Classifier melibatkan ketergantungan antar atribut yang dibangun menggunakan Algoritma CI Test.

2. Proporsi data training dan data testing yang optimal untuk membangun model TAN Classifier dengan hasil performansi yang optimal yaitu dengan proporsi 90% data training dan 10% data testing. lebih besar dari 50%. Semakin banyak data training semakin optimal Bayesian Network yang terbentuk.

3. Pengambilan sample untuk proporsi data normal dan data intrusi pada data training sangat berpengaruh terhadap pembentukan model TAN Classifier. Secara umum dapat diambil kesimpulan bahwa proporsi data normal pada Anomaly detection ini haruslah lebih besar dari data intrusi. Dari hasil pengujian proporsi data yang menghasilkan performansi optimal yaitu 80% data normal dan 20% data intrusi.

4. Algoritma Bayesian Network TAN Classifier bisa diimplementasikan untuk anomaly detection

pada IDS dengan performansi yang baik, yaitu dari detection rate 100% dan false alarm rate 0%. Hal ini dikarenakan model klasifikasi pada TAN dibangun menggunakan CI Test Based

Algorithms menghasilkan nilai akurasi yang rata-rata lebih tinggi di bandingkan dengan Bayesian

Network biasa (misalnya Naïve Bayes). Hal ini menunjukan pengaruh ketergantungan diantara atribut pada TAN dapat menaikkan nilai akurasi jika di bandingkan dengan Bayesian Network

lain yang hanya mempunyai ketergantungan setiap atribut dengan kelasnya saja.

Daftar Pustaka:

[1] Afianti Mira, 2011, “Implementasi Algoritma Y-Means sebagai Anomaly Detection (Studi

Kasus:Intrusion Detection System)”, IT Telkom Bandung.

[2] Amanda Delamer,2002,"Intrusion Detection with Data Mining" Donau-Universität Krems, Dublin.

[3] Baesens, B., M. Egmont Petersen., R. Castelo., J. Vanthienen. “Learning Bayesian Network Classifiers for Credit Scoring using Markov Chain Monte Carlo Search”. K.U.Leuven Dept. of Applied Economic Sciences Naamsestraat, Leuven, Belgium. www.cs.uu.nl/research/techreps/repo/CS-2001/2001-58.pdf.

[4] Bringas, Pablo G. dan Igor Santos. Bayesian Networks for Network Intrusion Detection,

[5] Cemerlic Alma, Li Yang, Joseph M. Kizza. Network Intrusion Detection Based on Bayesian Networks. Diakses pada 21 Maret 2011 di http://www.utc.edu/Faculty/Li-Yang/MyPaper/SEKE08-Cemerlic-Yang.pdf

[6] Charles River Analytics, Inc, 2004, “About Bayesian Belief Networks”, Cambridge. www.cra.com. Page 2. https://www.cra.com/pdf/BNetBuilderBackground.pdf.

[7] Cheng, Jie, dkk, ”An Algorithms for Bayesian Belief Network Construction from Data”. School of Information and Software Engineering University Ulster. Northern Ireland.

[8] Chia-Ping Chen, “Entropy and Mutual Information Notes on Information Theory”, Department of Computer Science and Engineering, National Sun Yat-Sen University, Kaohsiung, Taiwan ROC.

[9] Firmansyah, Ivan Suci. IP Network-Packet Shared Media pada Mesin Cluster Intrusion Detection System. diakses pada 24 Maret 2011 http://budi.insan.co.id/courses/el695/projects2002-2003/ivan-report.pdf

[10] Fradhany Yustiar, 2008, “Learning Klasifikasi Bayesian Network Menggunakan Algoritma Conditional Independence Test”, IT Telkom Bandung.

[11] Ghorbani A., Guan Yu, dkk. 2003. “Y-Means: A Clustering Method for Intrusion Detection”, Proceedings of the IEEE Canadian Conference on Electrical and Computer Engineering. Montreal, Canada. pp 87-99.

[12] H. Güneş Kayacık, A. Nur Zincir-Heywood, Malcolm I. Heywood “Selecting Features for Intrusion Detection:A Feature Relevance Analysis on KDD 99 Intrusion Detection Datasets”, Dalhousie University.

[13] Heckerman, David, 1995, “A Tutorial on Learning With Bayesian Networks”, Advanced Technology Division. Microsoft Corporation.

[14] Heckerman, David. Bayesian Networks for Data Mining. 1997 diakses pada 21 Maret 2011 di http://www.springerlink.com

[15] Hernández- Pereira E.,Suárez-RomeroJ. A., dkk. 2009. “Conversion methods for symbolic features: A comparison applied to an intrusion detection problem”, Expert System With Applications, Vol. 36(2009) 10612-10617.

[16] Jiang, Liangxiao, Harry Zhang, Jiang Su, “Learning Tree Augmented Naïve Bayes for Ranking”, Department of Computer Science, China University of Geosciences. Wuhan, China. www.ai.mit.edu/projects/jmlr/papers/volume3/ling02a/top.pdf

[17] Jiawei Han, Micheline Kamber, 2001, “Data Mining : Concepts and Techniques”, Simon Fraser University.

[18] Kannan, Sivanadiyan Sabari. 2005.Y-Means Clustering Vs N-CP Clustering With Canopies for Intrusion Detection. Thesis. Oklahoma State University.

[19] Leung, Kingsly & Christopher Leckie. Unsupervised Anomaly Detection in Network Intrusion Detection Using Cluster.

[20] M. Tavallaee, E. Bagheri, W. Lu, dan A. Ghorbani. 2009. “A Detailed Analysis of the KDD CUP 99 Data Set”. Second IEEE Symposium on Computational Intelligence for Security and Defense Applications (CISDA).

[21] Pang-Ning Tan, Vipin Kumar, Michael Steinbach, 2004, “Introduction to Data Mining”, Michigan State University, University of Minnesota.

[22] Munir, Rinaldi. 2008. Diktat Kuliah IF2091 Struktur Diskrit. Program Studi Teknik Informatika, Sekolah Tinggi Teknik Elektro dan Informatika, Institut Teknologi Bandung.

[23] Tran, D., Wanli Ma, Sharma, D. 2008. "Automated network feature weighting-based anomaly detection," Intelligence and Security Informatics, IEEE International Conference on , pp.162-166.

JUNI 2012 VOLUME 17-NOMOR 1

Documents

Transcript of JUNI 2012 VOLUME 17-NOMOR 1