Data Preprocessing

2
A. Data preprocessing Data cleaning dapat di aplikasikan untuk menghilangkan “kebisingan” dan membenarkan data yang tidak inkonsisten by transforming all entries for a date field to a common format. Data integration menggabungkan data dari berbagai sumber ke dalam menyimpan data koheren, seperti data warehouse. Data transformation seperti normalisasi, yaitu dapat meningkatkan akurasi dan efisiensi dari algoritma mining yang melibatkan pengukuran jarak. Data reduction dapat mengeliminasi ukuran data dengan agregasi, dan menghilangkan fitur yang berlebih, serta clustering. B. Data Matrix Data sering digambarkan sebagai m x n, dengan m sebagai baris dan n sebagai kolom. C. Atribut a. Atribut numeric Memiliki domain yang real valued atau integer value. Disebut juga atribut kuantitatif yaitu dapat dihitung banyaknya dan dapat diwakilkan bilangan integer. Memiliki domai yang bersifat berurutan Contoh: jumlah_buku (0,1,2,..,n) Umur(18,19,....dst) Atribut numerik dapat dibagi lagi menjadi dua kelompok yaitu skala interval dan skala rasio - Skala intervalpada temperatur panas. Misalkan pada suatu daerah memiliki suhu paling rendah 10oC dan paling tinggi 20oC. Namun pada saat suhu 10oC tidak bisa dikatakan bahwa suhu tersbut dua kali lebih dingin dari suhu 20oC - Skala rasiopada umur seseorang. Misal ada seseorang dengan umur 10 th dan 20 th. Sehingga dapat dikatakan bahwa umur 20th itu dua kali lebih tua dari pada umur 10 tahun b. Atribut kategorik Atribut ini memiliki dua tipe, yaitu nominal dan ordinal - Nominal

description

data

Transcript of Data Preprocessing

A. Data preprocessingData cleaning dapat di aplikasikan untuk menghilangkan kebisingan dan membenarkan data yang tidak inkonsisten by transforming all entries for a date field to a common format. Data integration menggabungkan data dari berbagai sumber ke dalam menyimpan data koheren, seperti data warehouse. Data transformation seperti normalisasi, yaitu dapat meningkatkan akurasi dan efisiensi dari algoritma mining yang melibatkan pengukuran jarak. Data reduction dapat mengeliminasi ukuran data dengan agregasi, dan menghilangkan fitur yang berlebih, serta clustering.B. Data MatrixData sering digambarkan sebagai m x n, dengan m sebagai baris dan n sebagai kolom.C. Atributa. Atribut numericMemiliki domain yang real valued atau integer value. Disebut juga atribut kuantitatif yaitu dapat dihitung banyaknya dan dapat diwakilkan bilangan integer. Memiliki domai yang bersifat berurutanContoh: jumlah_buku (0,1,2,..,n)Umur(18,19,....dst)Atribut numerik dapat dibagi lagi menjadi dua kelompok yaitu skala interval dan skala rasio Skala intervalpada temperatur panas. Misalkan pada suatu daerah memiliki suhu paling rendah 10oC dan paling tinggi 20oC. Namun pada saat suhu 10oC tidak bisa dikatakan bahwa suhu tersbut dua kali lebih dingin dari suhu 20oC Skala rasiopada umur seseorang. Misal ada seseorang dengan umur 10 th dan 20 th. Sehingga dapat dikatakan bahwa umur 20th itu dua kali lebih tua dari pada umur 10 tahunb. Atribut kategorikAtribut ini memiliki dua tipe, yaitu nominal dan ordinal NominalNilai tidak memiliki urutan yang memiliki arti. Pada nominal attribute, operasi matematika pada nilai-nilainya tidak berarti. Sehingga, tidak masuk akal untuk mencari nilai meannya atau nilai mediannya, kecuali untuk nilai modus.Contoh: Jenis_Kelamin={M,F} Ordinalatribut dengan nilai-nilai yang kemungkinan memiliki urutan yang mempunyai arti atau tingkatan(ranking), akan tetapi jarak antara nilai-nilainya tidak diketahui. Ordinal attribute berguna untuk mendaftarkan taksiran suatu kualitas yang tidak bisa diukur secara obyektif. Oleh karena itu ordinal attribute biasanya digunakan dalam survey atau rating.Contoh: edukasi={sd,smp,sma}D. Aljabar dan geometric viewE. Probabilistic ViewAtribut numerik adalah variable yang random