Budi Susanto Versi 1.0 29/08/2012 -...

42
1 Teknik Informatika UKDW Yogyakarta Budi Susanto Versi 1.0 29/08/2012

Transcript of Budi Susanto Versi 1.0 29/08/2012 -...

1 Teknik Informatika UKDW Yogyakarta

Budi Susanto Versi 1.0

29/08/2012

� Memahami pengertian dari text mining dan web mining

� Memahami latar belakang perlunya pengolahan dokumen teks dan web

� Memahami arsitektur dasar aplikasi text dan web mining

� Mengetahui beberapa contoh aplikasi text dan web mining

Teknik Informatika UKDW Yogyakarta 2

Outlook Temperature Humidity Windy Play Sunny Hot High False No Sunny Hot High True No Overcast Hot High False Yes Rainy Mild High False Yes Rainy Cool Normal False Yes Rainy Cool Normal True No Overcast Cool Normal True Yes Sunny Mild High False No Sunny Cool Normal False Yes Rainy Mild Normal False Yes Sunny Mild Normal True Yes Overcast Mild High True Yes Overcast Hot Normal False Yes Rainy Mild High True No

Teknik Informatika UKDW Yogyakarta 3

Teknik Informatika UKDW Yogyakarta 4

Teknik Informatika UKDW Yogyakarta 5

�  Menurut Loretta Auvil dan Duane Searsmith dari University of Illinois, karakteristik dokumen teks:

•  database teks yang berukuran besar, •  memiliki dimensi yang tinggi, yakni satu kata merupakan satu

dimensi, •  mengandung kumpulan kata yang saling terkait (frase) dan

antara kumpulan kata satu dengan lain dapat memiliki arti yang berbeda,

•  banyak mengandung kata ataupun arti yang bias (ambiguity), •  dokumen email merupakan dokumen yang tidak memiliki

struktur bahasa yang baku, karena di dalamnya terkadang muncul istilah slank seperti ”r u there?”, ”helllooo bosss, whatzzzzzzz up?”, dan sebagainya.

Teknik Informatika UKDW Yogyakarta 6

� Data mining adalah suatu proses yang secara otomatis mencari atau menemukan informasi yang bermanfaat dari suatu kumpulan data yang besar.

� Tidak semua tugas penemuan informasi disebut sebagai data mining. •  Sebagai contoh, pencarian data pribadi dengan

menggunakan sebuah sistem manajemen basis data, atau

•  pencarian suatu halaman web tertentu dengan cara melakukan query pada search engine di Internet.

•  Sebutkan contoh lain?

Teknik Informatika UKDW Yogyakarta 7

� Text mining merupakan penerapan konsep dan teknik data mining untuk mencari pola dalam teks, yaitu proses penganalisisan teks guna menyarikan informasi yang bermanfaat untuk tujuan tertentu.

� Berdasarkan ketidakteraturan struktur data teks, maka proses text mining memerlukan beberapa tahap awal yang pada intinya adalah mempersiapkan agar teks dapat diubah menjadi lebih terstruktur.

Teknik Informatika UKDW Yogyakarta 8

Teknik Informatika UKDW Yogyakarta 9

� tahap text preprocessing akan dilakukan analisis terhadap sintak dan atau semantik (di sini terdapat proses tokenisasi).

� tahap text transformation, diterapkan proses stopword list dan atau stemming.

� tahapan features selection akan dilakukan perhitungan jumlah kata yang muncul ataupun statistik sederhana lainnya.

Teknik Informatika UKDW Yogyakarta 10

�  Tokenisasi secara garis besar memecah sekumpulan karakter dalam suatu teks ke dalam satuan kata.

•  bagaimana membedakan karakter-karakter tertentu yang dapat diperlakukan sebagai pemisah kata atau bukan.

•  Sebagai contoh karakter whitespace, seperti enter, tabulasi, spasi dianggap sebagai pemisah kata.

�  Namun untuk karakter petik tunggal ('), titik (.), semikolon (;), titk dua (:) atau lainnya, dapat memiliki peran yang cukup banyak sebagai pemisah kata.

•  Sebagai contoh antara “tahu, tempet dan sambal” dengan “100,56”.

Teknik Informatika UKDW Yogyakarta 11

� Dalam memperlakukan karakter-karakter dalam teks sangat tergantung sekali pada kontek aplikasi yang dikembangkan.

� Pekerjaan tokenisasi ini akan semakin sulit jika juga harus memperhatikan struktur bahasa (grammatikal).

Teknik Informatika UKDW Yogyakarta 12

� Karakter Nonalphanumeric •  contoh: Yahoo!, AT&T, dsb.

� Sebuah titik (.) biasanya untuk tanda akhir kalimat, tapi dapat juga muncul dalam singkatan, inisial orang, alamat internet •  Contoh: Sdr., S.Kom., 192.168.1.1, ukdw.ac.id

� Tanda hypen (-) biasanya muncul untuk menggabungkan dua token yang berbeda untuk membentuk token tunggal. Tapi dapat pula ditemukan untuk menyatakan rentang nilai, kata berulang, dsb. •  Contoh: x-ray, 32-120, lari-lari.

Teknik Informatika UKDW Yogyakarta 13

� Karakter slash ( / ) sebagai pemisah file atau direktori atau url ataupun untuk menyatakan “dan atau” •  Contoh: /opt/rapidminer, www.google.com/

search?num=100&q=text+mining, Ibu/Bapak. � URL. � Format nomor telepon. � Emoticon � Format angka � Frase

Teknik Informatika UKDW Yogyakarta 14

� Setelah deretan karakter telah disegmentasi ke dalam kata-kata (token), langkah berikut yang mungkin dilakukan adalah mengubah setiap token ke bentuk standard. •  Proses ini disebut menerapkan stemming dan atau

lemmatization. •  Tujuan: untuk mendapatkan bentuk dasar umum

dari suatu kata. � Contoh:

•  Am, are, is => be •  Car, cars, car's, cars' => car

Teknik Informatika UKDW Yogyakarta 15

� Stemming •  Proses heuristic yang memotong akhir kata, dan

sering juga membuang imbuhan. � Lemmatization

•  Serupa dengan stemming, hanya lebih baik hasilnya.

•  Memperhatikan kamus dan analisis morfologi. •  Menghasilkan kata dasar (lemma)

� N-gram

Teknik Informatika UKDW Yogyakarta 16

� Prinsip dari ZIPF’s LAW •  Kita menggunakan sedikit kata lebih sering dan

jarang untuk sebagian besar kata lain. •  Rata-rata 20% kata-kata berperan sebagai

mayoritas kata dalam suatu teks. � Kata-kata yang memiliki frekuensi

kemunculan tinggi, dapat dibuang.

Teknik Informatika UKDW Yogyakarta 17

� Karakteristik ciri/sifat sebuah dokumen dinyatakan oleh token atau kata-kata di dalamnya.

Teknik Informatika UKDW Yogyakarta 18

� Dalam pembentukan features, dapat juga menerapkan pembobotan: •  TF/IDF •  Chi-Square •  Information Gain

Teknik Informatika UKDW Yogyakarta 19

Teknik Informatika UKDW Yogyakarta 20

Teknik Informatika UKDW Yogyakarta 21

Teknik Informatika UKDW Yogyakarta 22

Teknik Informatika UKDW Yogyakarta 23

� Klasifikasi Dokumen � Information Retrieval � Pengorganisasian dan Clustering

Dokumen � Information Extraction � Natural Language Processing � Text Summarization

Teknik Informatika UKDW Yogyakarta 24

Teknik Informatika UKDW Yogyakarta 25

� Analisis cluster adalah pengorganisasian kumpulan pola ke dalam cluster (kelompok-kelompok) berdasar atas kesamaannya.

� Pola-pola dalam suatu cluster akan memiliki kesamaan ciri/sifat daripada pola-pola dalam cluster yang lainnya.

Teknik Informatika UKDW Yogyakarta 26

� Clustering bermanfaat untuk melakukan analisis pola-pola yang ada, mengelompokkan, membuat keputusan dan machine learning, termasuk data mining, document retrieval, segmentasi citra, dan klasifikasi pola.

� Metodologi clustering lebih cocok digunakan untuk eksplorasi hubungan antar data untuk membuat suatu penilaian terhadap strukturnya.

Teknik Informatika UKDW Yogyakarta 27

Teknik Informatika UKDW Yogyakarta 28

� Konsep dasar dari IR adalah pengukuran kesamaan •  sebuah perbandingan antara dua dokumen,

mengukur sebearapa mirip keduanya. � Setiap input query yang diberikan, dapat

dianggap sebagai sebuah dokumen yang akan dicocokan dengan dokumen-dokumen lain.

� Pengukuran kemiripan serupa dengan metode klasifikasi yang disebut metode nearest-neighbour.

Teknik Informatika UKDW Yogyakarta 29

Teknik Informatika UKDW Yogyakarta 30

�  Information Extraction bermanfaat untuk menggali struktur informasi dari sekumpulan dokumen.

� Dalam menerapkan IE, perlu sekali dilakukan pembatasan domain problem.

�  IE sangat memerlukan NLP untuk mengetahui gramatikal dari setiap kalimat yang ada.

� Sebagai contoh: •  “Indonesia dan Singapore menandatangani MoU

kerjasama dalam bidang informasi dan komunikasi.” •  KerjaSama(Indonesia, Singapore, TIK)

Teknik Informatika UKDW Yogyakarta 31

� Dengan IE, kita dapat menemukan: •  concepts (CLASS) •  concept inheritance (SUBCLASS-OF) •  concept instantiation (INSTANCE-OF) •  properties/relations (RELATION) •  domain and range restrictions (DOMAIN/

RANGE) •  equivalence

Teknik Informatika UKDW Yogyakarta 32

Teknik Informatika UKDW Yogyakarta 33

� Web Mining bertujuan untuk menemukan informasi atau pengetahuan dari: •  Web hyperlink structure �  contoh: �  menemukan halaman web terpenting �  menemukan komunitas pemakai yang berbagi ketertarikan topik

yang sama

•  page content  •  usage data. �  contoh: � menemukan pola akses pemakai terhadap web, melalaui

click stream.

Teknik Informatika UKDW Yogyakarta 34

� Web Structure Mining � Web Content Mining � Web Usage Mining

Teknik Informatika UKDW Yogyakarta 35

� jumlah data/informasi di web sangat besar dan terus bertambah.

� tipe data beragam � informasi pada web sangat beragam. � informasi-informasi di web saling

terhubung. � informasi di web sangat "kotor". � web juga merupakan service. � web dinamis � web merupakan sarana komunitas sosial

virtual.

Teknik Informatika UKDW Yogyakarta 36

� Aggregate content •  Asosiasi informasi

� Reference structure •  folksonomy

� Algorithms •  Prediksi, rekomendasi, klasifikasi, clustering

Teknik Informatika UKDW Yogyakarta 37

� Social networking site � Mashups � Portals � Wikis � Media-sharing sites � Online gaming � Semantic Web

Teknik Informatika UKDW Yogyakarta 38

Teknik Informatika UKDW Yogyakarta 39

Teknik Informatika UKDW Yogyakarta 40

Teknik Informatika UKDW Yogyakarta 41

Teknik Informatika UKDW Yogyakarta 42