Im Put as i Missing Value
-
Upload
riskey-comunity -
Category
Documents
-
view
118 -
download
0
description
Transcript of Im Put as i Missing Value
-
5/26/2018 Im Put as i Missing Value
1/57
IMPUTASIMISSING VALUE
PADA DATA YANG MENGANDUNGOUTLIER
Oleh :
HAFTI MARDIAH
140720090012
TESIS
Untuk memenuhi salah satu syarat
Guna memperoleh gelar Magister Statistika Terapan
Program Magister Statistika Terapan
Konsentrasi Statistika Sosial
UNIVERSITAS PADJADJARAN
PROGRAM PASCASARJANA
BANDUNG
2010
-
5/26/2018 Im Put as i Missing Value
2/57
IMPUTASIMISSING VALUE
PADA DATA YANG MENGANDUNGOUTLIER
Oleh :
HAFTI MARDIAH
140720090012
TESIS
Untuk memenuhi salah satu syarat ujian
Guna memperoleh gelar Magister Statistika Terapan
Program Magister Statistika Terapan
Telah disetujui oleh Tim Pembimbing pada tanggal
Seperti tertera di bawah ini
Bandung, Agustus 2010
Gandhi Pawitan, Ph.D. Budhi Handoko, M.Si.
Ketua Tim Pembimbing Anggota Tim Pembimbing
-
5/26/2018 Im Put as i Missing Value
3/57
PERNYATAAN
Dengan ini saya menyatakan bahwa :
1. Karya tulis saya, tesis ini, adalah asli dan belum pernah diajukan untuk
mendapatkan gelar akademik (sarjana, magister, dan/atau doktor), baik di
Universitas Padjadjaran maupun di perguruan tinggi lain.
2. Karya tulis ini adalah murni gagasan, rumusan, dan penelitian saya sendiri,
tanpa bantuan pihak lain, kecuali arahan Tim Pembimbing.
3. Dalam karya tulis ini tidak terdapat karya atau pendapat yang telah ditulis atau
dipublikasikan orang lain, kecuali secara tertulis dengan jelas dicantumkan
sebagai acuan dalam naskah dengan disebutkan nama pengarang dan
dicantumkan dalam daftar pustaka.
4. Pernyataan ini saya buat dengan sesungguhnya dan apabila di kemudian
hari terdapat penyimpangan dan ketidakbenaran dalam pernyataan ini, maka
saya bersedia menerima sanksi akademik berupa pencabutan gelar yang telah
diperoleh karena karya ini, serta sanksi lainnya sesuai dengan norma yang
berlaku di perguruan tinggi ini.
Nama : Hafti Mardiah
NPM : 140720090012
Tanda Tangan :
Tanggal : Agustus 2010
ii
-
5/26/2018 Im Put as i Missing Value
4/57
ABSTRAK
Judul Tesis : ImputasiMissing Valuepada Data yang Mengandung
Outlier.
Kata Kunci : Missing Data, Outlier,Predictive Mean Matching,
Least Trimmed Squares, Robust Estimation
Nama : Hafti Mardiah
NPM : 140720090012
Program Studi : Statistika Terapan
Bidang Kajian Utama : Statistika Sosial
Tim Pembimbing : 1. Gandhi Pawitan, Ph.D.
2. Budhi Handoko, M.Si.
Tahun Kelulusan : 2010
Abstrak
Missing Data merupakan salah satu permasalahan yang sering terjadi pada
sebuah survey. Imputasi adalah pilihan penangananmissing datayang paling bijak
dari pada membuang sebagian observasi atau variabel yang mengandung missing
value, mengingat bahwa data sangat mahal dan berharga. Penanganan missing
valuepada sekumpulan data yang terdapat outliermenjadi perhatian khusus karena
sebagian besar metode imputasi dengan mekanisme Missing at Random (MAR)
dan Missing Completely at Random (MCAR) mengasumsikan data berdistribusi
normal multivariat. Asumsi ini menjadi tidak valid ketika terdapat outlier pada
data, sehingga sebaiknya menggunakan metode imputasi berdasarkan estimasi yang
robustterhadap outlier. MetodePredictive Mean Matching (PMM) adalah salah
satu alternatif metode imputasi komposit, penggabungan metode imputasi regresi
iii
-
5/26/2018 Im Put as i Missing Value
5/57
iv
dengan metode imputasi nearest neighbour, yang mengasumsikan data berasal
dari distribusi normal multivariat. Ketika asumsi normalitas dilanggar, PMM
menghasilkan nilai hasil imputasi yang tidak masuk akal dan statistik Efficiency
Relative yang lebih rendah dibandingkan dengan metode imputasi regresi Least
Trimmed Squares (LTS). Metode imputasi regresi LTS merupakan penggabungan
algoritma LTS dan algoritma imputasi regresi.
Abstract
Missing data is the most frequent problem that occurs in a survey. Thus,
imputation is a prudent alternative of handling the missing data instead of reducing
the number of observations or variables due to its cost achieved and value. The
treatment of the missing data in the presence of outlier becomes the major problem
which is the most imputation method based on the Missing at Random (MAR) and
Missing Completely at Random (MCAR) mechanism. Moreover, it assumes data
originated from a multivariate normal distribution, which is no longer valid in the
presence of outliers in the data. For instance, Predictive Mean Matching (PMM),
a combination of regression imputation method and the nearest neighbour method,
assumes the data originated from a multivariate normal distribution. When the
normality assumption is violated, the predictive mean matching method does not
yield plausible imputed values plus the performance of the Efficiency Relative (ER)
is below compared to the ER of Least Trimmed Squares (LTS) regression imputation
method. LTS regression imputation method is actually a regression imputation
method which its parameter is the result of LTS regression estimation then combined
with the regression imputation algorithm.
-
5/26/2018 Im Put as i Missing Value
6/57
KATA PENGANTAR
Puji syukur penulis panjatkan kehadirat kepada Allah SWT karena rahmat dan
hidayah-Nya sehingga penulis dapat menyelesaikan tesis yang berjudul Imputasi
Missing Value Pada Data Yang Mengandung Outlier ini dapat diselesaikan.
Penyelesaian penulisan tesis ini tidak terlepas dari bantuan moral dan material dari
berbagai pihak. Oleh karena itu penulis mengucapkan terima kasih yang tidak
terhingga kepada:
1. Bapak Gandhi Pawitan, Ph.D., selaku Ketua Tim pembimbing yang selalu
memberikan arahan, bimbingan dan motivasi sehingga penulisan tesis ini
selesai tepat waktu.
2. Bapak Budhi Handoko, M.Si., selaku Co-Pembimbing yang selalu
memberikan arahan, bimbingan dan dengan tangan terbuka membagi
ilmunya.
3. Bapak M. Dokhi, Ph.D. dan Ibu Dr. Lienda Noviyanti,M.Si., selaku penguji
yang banyak memberikan masukan dan arahan dalam penyelesaian tesis ini.
4. Seluruh dosen dan staf di bagian Program Statistika Terapan Universitas
Padjadjaran.
5. Bapak Drs. Aminul Akbar, M.Sc. yang pada masa jabatannya selaku
Kepala BPS Provinsi Kepulauan Riau telah memberikan kesempatan dan ijin
kepada penulis untuk mengikuti pendidikan di Program Magister Statistika
Terapan Universitas Padjadjaran.
6. Bapak Nyoto Widodo, M.Ec, selaku Kapusdiklat BPS yang telah memberikan
kesempatan kepada penulis untuk mengikuti pendidikan di program Magister
Statistika Terapan Universitas Padjadjaran.
v
-
5/26/2018 Im Put as i Missing Value
7/57
vi
7. Ibunda Suyati yang tiada hentinya mencurahkan kasih sayangnya kepada
penulis semenjak kecil serta sanak famili di Bandung dan di Jakarta atas
dukungannya.
8. Secara khusus untuk suami tercinta Purwo Astono dan buah hati Hana
yang telah memberikan motivasi serta doanya dari jauh selama mengikuti
pendidikan.
9. Rekan-rekan senasib seperjuangan dalam kuliah Angkatan I Program Kerja
Sama BPS-UNPAD, khususnya rekan-rekanGEROMBOLAN SI BERATatas
kebersamaannya dalam menyelesaikan studi ini.
10. Seluruh rekan-rekan di BPS Provinsi Kepulau Riau yang telah membantu
kelancaran selama mengikuti kuliah.
11. Rekan-rekan yang nun jauh di Papua Suryana dan di NTB Acul Marucul
yang telah membantu dalam penulisan tesis ini.
12. Semua pihak yang tidak dapat penulis sebutkan satu-persatu yang telah
membantu kelancaran selama mengikuti kuliah dan menyelesaikan tesis ini.
Bandung, Agustus 2010
Hafti Mardiah
-
5/26/2018 Im Put as i Missing Value
8/57
DAFTAR ISI
Daftar Isi vii
Daftar Tabel ix
Daftar Gambar x
BAB I PENDAHULUAN 1
1.1 Latar Belakang Masalah. . . . . . . . . . . . . . . . . . . . . . . . 1
1.2 Identifikasi Masalah . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.3 Tujuan Penelitian . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.4 Manfaat Penelitian . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.5 Batasan Masalah . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
BAB II TINJAUAN PUSTAKA 6
2.1 PolaMissing Data . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
2.2 MekanismeMissing Data . . . . . . . . . . . . . . . . . . . . . . . 8
2.3 Tinjauan Kritis . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2.3.1 MetodePredictive Mean Matching . . . . . . . . . . . . . . 11
2.3.2 Metode ImputasiRobust . . . . . . . . . . . . . . . . . . . 12
2.3.3 Outlier . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
2.4 Survei Industri Besar dan Sedang (Survei IBS). . . . . . . . . . . . 14
BAB III IMPUTASI MISSING VALUE PADA DATA YANG
MENGANDUNG OUTLIER 16
3.1 PendeteksianOutlier . . . . . . . . . . . . . . . . . . . . . . . . . 16
3.1.1 PendeteksianOutlierpada DimensiX . . . . . . . . . . . . 17
3.1.2 PendeteksianOutlierpada Dimensi Y . . . . . . . . . . . . 17
vii
-
5/26/2018 Im Put as i Missing Value
9/57
viii
3.1.3 Outlieryang Berkaitan denganInfluential Cases. . . . . . . 17
3.2 Metode Imputasi PMM . . . . . . . . . . . . . . . . . . . . . . . . 18
3.3 Metode Imputasi Regresi LTS . . . . . . . . . . . . . . . . . . . . 20
3.3.1 Ide Dasar dan C-steps . . . . . . . . . . . . . . . . . . . . . 21
3.3.2 AlgoritmaFAST-LTS . . . . . . . . . . . . . . . . . . . . . 21
3.3.3 Tahapan Imputasi Regresi . . . . . . . . . . . . . . . . . . 22
3.4 Efisiensi dari Imputasi Berganda . . . . . . . . . . . . . . . . . . . 23
3.5 Tahapan Penelitian . . . . . . . . . . . . . . . . . . . . . . . . . . 25
3.6 Variabel Penelitian . . . . . . . . . . . . . . . . . . . . . . . . . . 26
BAB IV HASIL DAN PEMBAHASAN 29
4.1 Eksplorasi Data . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
4.2 PendeteksianOutlier . . . . . . . . . . . . . . . . . . . . . . . . . 32
4.2.1 PendeteksianOutlierpada DimensiX . . . . . . . . . . . . 33
4.2.2 PendeteksianOutlierpada Dimensi Y . . . . . . . . . . . . 33
4.2.3 PendeteksianOutlieryang Berkaitan denganInfluential Cases 33
4.3 Imputasi dengan Menggunakan Metode PMM . . . . . . . . . . . . 33
4.4 Imputasi dengan Menggunakan Metode Regresi LTS . . . . . . . . 36
4.5 Perbandingan Efisiensi Relatif Metode Imputasi PMM dan Regresi
LTS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
BAB V KESIMPULAN DAN SARAN 41
5.1 Kesimpulan . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
5.2 Saran. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
Daftar Pustaka 43
-
5/26/2018 Im Put as i Missing Value
10/57
DAFTAR TABEL
Tabel 2.1. Metode Imputasi berdasarkan tipe variabel yang diimputasi . . 10
Tabel 4.1. Tabel PolaMissing Data . . . . . . . . . . . . . . . . . . . . 29
Tabel 4.2. Tabel Parameter pada Metode Imputasi PMM . . . . . . . . . 35
Tabel 4.3. Tabel Nilai Hasil Imputasi pada Metode Imputasi PMM . . . . 36
Tabel 4.4. Tabel Parameter pada Metode Imputasi Regresi LTS. . . . . . 37
Tabel 4.5. Tabel Nilai Hasil Imputasi pada Metode Imputasi Regresi LTS 38
Tabel 4.6. Tabel ER Parameter pada Metode Imputasi PMM . . . . . . . 39
Tabel 4.7. Tabel ER Parameter pada Metode Imputasi Regresi LTS. . . . 39
Tabel 4.8. Tabel Nilai ER Hasil Imputasi ke-2 ,3, 4 dan 5 pada Metode
Imputasi PMM dan Regresi LTS . . . . . . . . . . . . . . . . 40
ix
-
5/26/2018 Im Put as i Missing Value
11/57
DAFTAR GAMBAR
Gambar 2.1. PolaMissing Data, baris menyatakan observasi dan kolom
menyatakan variabel . . . . . . . . . . . . . . . . . . . . . 7
Gambar 3.1. Tahapan Penelitian . . . . . . . . . . . . . . . . . . . . . . 28
Gambar 4.1. Boxplot VariabelX1 . . . . . . . . . . . . . . . . . . . . . . 30
Gambar 4.2. Boxplot VariabelX2 . . . . . . . . . . . . . . . . . . . . . . 30
Gambar 4.3. Boxplot VariabelX3 . . . . . . . . . . . . . . . . . . . . . . 31
Gambar 4.4. Boxplot VariabelX4 . . . . . . . . . . . . . . . . . . . . . . 31
Gambar 4.5. Boxplot VariabelX5 . . . . . . . . . . . . . . . . . . . . . . 32
Gambar 4.6. Plot Laju ER PMM dan Regresi LTS . . . . . . . . . . . . . 40
x
-
5/26/2018 Im Put as i Missing Value
12/57
BAB I
PENDAHULUAN
1.1 Latar Belakang Masalah
Tugas pokok Badan Pusat Statistik (BPS) seperti tertuang pada Undang-
undang Nomor: 16 tahun 1997 tentang statistik Bab VI pasal 11 menyatakan BPS
sebagai satu-satunya lembaga yang berhak menyelenggarakan kegiatan statistik
dasar, berkewajiban memberi masukan berupa data statistik kepada pemerintah,
seperti tertuang dalam tugas pokok BPS pada Undang-undang Nomor: 16 tahun
1997 tentang statistik Bab VI pasal 11. Salah satu tugas pokok BPS adalah
melakukan kegiatan statistik di bidang perindustrian yaitu menyelenggarakan
Survei Tahunan Industri Pengolahan Besar dan Sedang (Survei IBS). Permasalahan
yang biasa ditemui dalam Survei IBS adalah missing datakarena nonrespons.
Pencegahan dan penanganan nonrespons seperti dua sisi mata uang pada
sebuah koin. Pencegahan adalah hal pertama yang harus dilakukan untuk
mengurangi nonrespons. Nonrespons tidak sepenuhnya dapat dicegah sehingga
penanganan nonrespons menjadi penting pada saat akan dilakukan analisis (Leeuw
et al.,2003).
BPS telah melakukan beberapa cara untuk meminimalkan nonrespons, yaitu:
1. Menyederhanakan kuesioner hanya terdiri dari 4 lembar pertanyaan.
2. Membuat kuesioner lebih menarik dengan jenis huruf yang menarik dan
mudah dibaca, juga sedikit warna, didalamnya juga terdapat instruksi
pengisian kuesioner dalam bahasa Indonesia dan bahasa Inggris.
3. Di bagian sampul kuesioner disebutkan RAHASIA, untuk menjamin
kerahasiaan responden yang dijamin dalam Undang-undang Nomor: 16 tahun
1997 tentang statistik.
1
-
5/26/2018 Im Put as i Missing Value
13/57
2
4. Memberikan souveniratau leafletyang berisi informasi mengenai hasil dari
pengumpulan data secara agregat.
5. Melakukan follow up, baik melalui kunjungan ulang ataupun telepon untuk
mengingatkan responden.
6. Mengantar kuesioner dan mengambilnya kembali setelah selesai diisi.
Meskipun langkah-langkah tersebut telah dilakukan, tetapi nonrespons tetap tidak
dapat dihindarkan. Beberapa alasan yang menyebabkan nonrespons dalam SurveiIBS di Provinsi Kepulauan Riau adalah perlindungan dari pihak kawasan industri
yang sangat ketat dan dinamisnya pergantian manajemen dalam perusahaan
sehingga personel yang baru terkendala dalam pengisian kuesioner dan bahkan
menolak untuk mengisi kuesioner.
Penanganan missing data menurutLittle and Rubin(1987) ada tiga macam,
yaitu:
1. Complete case analysis dengan membuang observasi yang terdapat missing
value maka estimasi mengarah kepada standard error yang lebih besar
dikarenakan jumlah sampel yang berkurang.
2. Available case analysis terjadi ketika satu atau lebih gugus variabel yang
terdapatmissing value dibuang dari pengamatan untuk kemudahan analisis.
Penghilangan satu variabel yang penting ketika akan menganalisa hubungan
sebab akibat akan menyebabkan salah penafsiran.
3. Membuang beberapa observasi atau variabel bukanlah solusi yang baik
berkaitan dengan bias dan presisi. Pendekatan lainnya adalah mengganti
missing valuedengan suatu nilai, metode ini disebut metode imputasi.
Lessler and Kalsbeek(1992) menggunakan istilahincomplete datayang sama
maknanya denganmissing data. Missing data berhubungan dengan permasalahan
-
5/26/2018 Im Put as i Missing Value
14/57
3
noncoverage, unit nonresponse dan item nonresponse. Pada Survei IBS non-
coverage diminimalisir dengan melakukan updating Direktori perusahaan IBS
setiap tahunnya sebelum pencacahan dengan kuesioner dilakukan, yaitu dengan
cara menghapus perusahaan yang tutup permanen dari daftar dan menambahkan
perusahaan baik yang baru beroperasi secara komersil pada tahun pencacahan atau
sudah beroperasi komersil sebelumnya tetapi belum tercatat di dalam Direktori.
Daftar nama calon perusahaan baru yang akan dimasukkan ke dalam Direktori
biasanya diambil dari pencatatan oleh instansi lain atau sumber lain. Kemudian
dilakukan pengecekan awal seperti melihat keberadaan perusahaan, kesesuaian
jumlah tenaga kerja, status permodalan perusahaan dan jenis produksi utama.
Permasalahan unit nonresponsedanitem nonresponseterjadi di dalam Survei
IBS, tetapi penelitian ini difokuskan kepada permasalahan item nonresponse. BPS
melakukan estimasi untuk setiapunit nonresponsedengan menggunakan informasi
pertumbuhan nilai tambah dan rasio antar variabel pada unit observasi yang respons
dan melakukan imputasi untuk setiap item nonresponse dengan memperhatikan
rasio antar variabel pada unit observasi respons yang terdekat.
Survey IBS termasuk mail survey, hanya tidak dikirim lewat pos tetapi
diantar dan diambil kembali oleh petugas BPS, jarang sekali terdapat proses
wawancara pada pelaksanaannya. Hal tersebut menjadi salah satu penyebab
terjadinya item nonresponse. Penafsiran yang berbeda dengan maksud pertanyaan,
pihak manajemen perusahaan menganggap establishmentnya adalah jasa industri
(makloon) sehingga pertanyaan bahan baku dan bahan penolong yang dipakai
selama tahun 2008 (dalam 000 Rupiah) tidak terisi tetapi dapat mengisi
pertanyaan barang-barang yang dihasilkan (dalam 000 Rupiah). Item nonresponse
menyebabkan lubang dalam kumpulan data yang disebut missing value, oleh
karena itu dibutuhkan metode imputasi untuk memperoleh kumpulan data yang
lengkap sehingga analisis data dapat dilakukan. Keadaan lain yang nyata terjadi
-
5/26/2018 Im Put as i Missing Value
15/57
4
pada Survei IBS adalah outlier. Outlier terjadi karena cakupan Survei IBS itu
sendiri yaitu perusahaan berskala sedang dan besar, status permodalan perusahaan
berasal dari dalam negri (PMDN) dan dari luar negri (PMA).
1.2 Identifikasi Masalah
Pertanyaan-pertanyaan mengenai struktur pengeluaran dan pendapatan pada
akhirnya diperlukan untuk menghitung nilai tambah (value added) suatu produk
barang ataupun jasa. Terjadinyaitem nonresponse pada salah satu dari komponen
pengeluaran akan mengakibatkan perhitungan nilai tambah menjadi over estimate
apabila permasalahan ini tidak ditangani.
BPS mengelompokan unit-unit observasi berdasarkan klasifikasi
industri yang disebut Klasifikasi Baku Lapangan Usaha Indonesia (KBLI).
Pengelompokkan unit-unit observasi ke dalam KBLI tidak dapat mencegah
kehadiran outlier dengan asumsi bahwa jawaban responden adalah benar, karena
responden sendiri yang menjawab pertanyaan-pertanyaan di dalam kuesioner.
Sebagian besar metode imputasi dengan mekanisme Missing Completely at
Random (MCAR) dan Missing at Random (MAR) mengasumsikan multivariat
normal, jika data mengandung outlier maka asumsi ini menjadi tidak valid.
Langkah selanjutnya yang harus dihadapi adalah:
1. Bagaimana mengatasimissing valuemelalui metode imputasi pada data yang
terdapatoutlier? Metode apa yang sesuai dengan masalah ini?
2. Bagaimana efisiensi hasil imputasi antara metode imputasi PMM
dibandingkan dengan imputasi Regresi LTS bila terdapatoutlier?
-
5/26/2018 Im Put as i Missing Value
16/57
5
1.3 Tujuan Penelitian
Berdasarkan latar belakang dan identifikasi masalah diatas, maka tujuan
penelitian ini adalah untuk mengetahui metode terbaik dalam mengatasi missing
valuepada Survei IBS ketika data yang digunakan terdapatoutlier.
1.4 Manfaat Penelitian
1. Manfaat dari penelitian ini adalah sebagai kontribusi wawasan keilmuan dan
pengetahuan mengenai metode imputasi yang robustterhadapoutlier.
2. Metode yang dihasilkan menjadi salah satu alternatif yang dapat digunakan
oleh BPS untuk mengatasi missing datapada Survei IBS.
1.5 Batasan Masalah
1. Permasalahan dibatasi dengan cakupan data Survei IBS Provinsi Kepulauan
Riau tahun 2008 pada KBLI 32100 yaitu kelompok perusahaan yang
memproduksi tabung, katup elektronik dan komponen elektronik lainnya
dengan jumlah unit observasi terbanyak dari seluruh KBLI 5digityang ada.
2. Metode yang digunakan terkait hasil eksplorasi data dengan pola missing data
univariat dan asumsi mekanismemissing datayaituMissing At Random.
-
5/26/2018 Im Put as i Missing Value
17/57
BAB II
TINJAUAN PUSTAKA
Lessler and Kalsbeek (1992) menjabarkan tentang noncoverage, unit
nonresponse dan item nonresponse dilihat dari penyebabnya. Item nonresponse
terjadi ketika ada pertanyaan di dalam kuesioner yang seharusnya dijawab tetapi
tidak dijawab atau terhapus ketika proseseditingdan dataentry. Unit nonresponse
terjadi jika tidak ada tanggapan dari unit observasi yang terpilih sebagai sampel.
Penyebab terjadinya unit nonresponse adalah diantaranya karena sampel terpilih
tidak berada di tempat, kendala bahasa antara pewawancara dengan sampel terpilih,
kesulitan pengaturan jadwal pertemuan atau karena sampel terpilih memang
menolak untuk memberi jawaban dan lain sebagainya. Noncoverage adalah
kesalahan tidak memasukkan beberapa unit observasi ke dalam target populasi.
2.1 PolaMissing Data
MatriksY adalah sebuah matriks berukuran n x k, data tanpa missing value
dengan elemen yi j, yaitu nilai variabel ke-j pada unit ke-i. Matriks M adalah
matriks missing data,mi j= 1 jikayi jadalah missing value dan mi j= 0 jikayi jbukan
missing value. Selanjutnya M akan menggambarkan pola missing data. Gambar
2.1. menunjukkan contoh dari pola missing data (Little and Rubin, 2002 dalam
Chaimongkol(2005)).
1. Pola (a) disebutmissing dataunivariat yaitu dimana hanya satu variabel yang
terdapatmissing data.
2. Pola (b) adalah bentuk dimana satu blokmissing datauntuk kasus yang sama
dan variabel lainnya komplit. Hal ini terjadi pada survei sampel yang terdapat
unit nonresponse sehingga kuesioner tidak terisi dan terdapat beberapa unit
6
-
5/26/2018 Im Put as i Missing Value
18/57
7
nonresponselainnya.
Gambar 2.1. Pola Missing Data, baris menyatakan observasi dan kolom
menyatakan variabel
3. Pola (c) disebut monotone missing data, terjadi ketika observasi variabel
Y1 lebih banyak dari Y2 dan observasi variabel Y2 lebih banyak dari Y3
dan seterusnya. Missing data univariat adalah kasus khusus dari monotone
missing data yang terjadi pada penelitian longitudinal dimana subjek
penelitian keluar dari penelitian sebelum penelitian berakhir dan tidak per-
nah kembali.
4. Pola (d) adalah pola umum missing data, dikenal juga dengan item
nonresponse pada kuesioner, missing value dapat terjadi pada variabel
manapun. Item non responsebiasanya ditangani dengan metode imputasi.
-
5/26/2018 Im Put as i Missing Value
19/57
8
5. Pola (e) dinamakanfile matching pattern, ketika dua buah kumpulan variabel
tidak pernah terobservasi secara bersama-sama maka parameter dari kedua
variabel ini tidak dapat diestimasi, jika dipaksakan akan berakibat pada
penafsiran yang salah.
6. Pola (f) disebut faktor analisis. Terjadi ketika X adalah variabel laten
dan terdapat variabel pengukuran Y, pola seperti ini adalah analisis regresi
multivariat Y terhadapX, dan dibutuhkan beberapa asumsi.
2.2 MekanismeMissing Data
Terdapat tiga macam mekanismemissing data:
1. Missing Completely at Random(MCAR)
Sebuah variabel dikatakan MCAR bila peluang hilangnya sama untuk semua
unit. Sebagai contoh, jika setiap responden memutuskan untuk menjawab
pertanyaan tentang pendapatan dengan mengundi sebuah dadu, menolak
menjawab jika muncul dadu mata enam. Jika data MCAR, maka membuang
observasi dari kumpulan data tidak akan menyebabkan bias pada inferensi
statistik.
2. Missingness at Random(MAR)
Kebanyakan missing data bukanlah MCAR. MAR terjadi jika peluang
hilangnya data bergantung pada ketersediaan informasi. Pola missing data
dapat dilacak atau dapat diprediksi dari variabel-variabel lain. Sebuah
variabel yang hilang dipengaruhi oleh nilai-nilai dari variabel lainnya.
Sebagai contoh pertanyaan tentang jenis kelamin, umur, suku bangsa,
pendidikan, dan pendapatan ditanyakan untuk semua orang yang terkena
sampel. Maka pertanyaan pendapatan adalah MAR, karena tidak semua orang
-
5/26/2018 Im Put as i Missing Value
20/57
9
mempunyai pendapatan.
3. Nonignorable Missing at Random(NMAR)
Mekanisme hilangnya data bergantung pada missing value itu sendiri. Pola
dari data yang hilang tidak random dan tidak dapat diprediksi dari variabel-
variabel lain. Contoh, misalkan orang yang mempunyai pendapatan tinggi
cenderung untuk menolak menjawab pertanyaan mengenai pendapatan.
2.3 Tinjauan Kritis
Metode penanganan missing data berkembang dari masa ke masa.
Chaimongkol (2005) dalam disertasinya memperkenalkan tiga jenis kombinasi
imputasi antara regresi dannearest neighbour, yaituNearest Neighbour Regression
Imputation (NNR), Weighted Nearest Neighbour Regression Imputation (WNR)
dan Distance Regression Imputation (DRI). Meskipun metode ini menghasilkan
estimator yang bias tetapi dapat diabaikan dan akan menuju nol bila persentase data
hilang kurang dari lima belas persen.
Carpenter and Kenward (2006) melakukan perbandingan regresi Least
Squares(LS),doubly robust, multiple imputation dan inverse probabilty weighting
(IPW) pada 2.000 data hasil simulasi berdistribusi normal yang mempunyai empat
dimensi. Dari penelitiannyaCarpenter and Kenward(2006) menyimpulkan bahwa
doubly robust sangat sensitif bila digunakan pada multivariate response model.
Kemudian diperkenalkan doubly robust IPW untuk variabel kategorik dan jika
peluang hilangnya data ekstrim. Metode ini merupakan salah satu metode alternatif
untuk melakukan analisis pada ilmu-ilmu sosial jika terdapat observasi yang hilang.
Perangkat lunak untuk teori tersebut masih terus dikembangkan.
Hron et al. (2008) mengelompokkan teknik imputasi ke dalam empat kategori:
1. Metode univariat, contoh: imputasi mean. Metode imputasi mean berguna
-
5/26/2018 Im Put as i Missing Value
21/57
10
jika mekanismemissing dataadalah MCAR atau jumlahmissing datasedikit
dan bila tidak terdapat variabel prediktor. Ini merupakan cara termudah untuk
mengimputasi yaitu mengganti missing data dengan nilai tengah tetapi hal
ini dapat menyebabkan estimasi varians dari populasi menjadiunderestimate
(Chaimongkol,2005).
2. Metode imputasi berdasarkan jarak, contoh: imputasi k-nearest neighbour
3. Metode imputasi berdasarkan kovarians, contoh: imputasi Algoritma
Expectation Maximization (EM). Metode ini merupakan metode iterasi
penggabungan antara complete data analysis dan penaksiran statistik yang
efisien. Proses iterasinyaslowkonvergen karena perbedaan antara iterasi ke
iterasi berikutnya sangat kecil sehingga kita tidak tahu kapan harus berhenti
dari proses iterasi dan EM tidak dapat memberikan informasi mengenai
varians.
4. Metode imputasi berdasarkan model, contoh: imputasi regresi.
Berdasarkan pola missing data dan tipe variabel yang akan diimputasi,
diberikan rekomendasi seperti pada Tabel2.1.(SAS/STAT 9.2Users Guide).
Tabel 2.1. Metode Imputasi berdasarkan tipe variabel yang diimputasi
PolaMissing Data Tipe variabel Metode
yang akan diimputasi
Monoton Kontinyu Regresi
Komposit (PMM)
Propensity Score
Monoton Klasifikasi (Ordinal) Regresi Logistik
Monoton Klasifikasi (Nominal) Metode Fungsi Diskriminan
Arbitary Kontinyu MCMCFull-Data Imputation
MCMCMonotone-Data Imputation
Metode propensity score pada awalnya digunakan untuk percobaan pada
pengukuran variabelresponseyang berulang. Setiap variabel dengan missing data
-
5/26/2018 Im Put as i Missing Value
22/57
11
dibuatpropensity score pada setiap observasi untuk mengestimasi peluang observasi
tersebut hilang. Observasi dikelompokkan berdasarkanpropensity scorekemudian
imputasi dengan menggunakan approximate bayesian bootstrap diterapkan pada
setiap kelompok. Metode propensity score tidak menggunakan korelasi antar
variabel dan tidak cocok untuk analisis hubungan antar variabel, seperti regresi.
2.3.1 MetodePredictive Mean Matching
Metode komposit pertama kali diperkenalkan olehRubin(1987) kemudian
dikembangkan oleh Little (1988) untuk mengatasi multivariat nonrespons. Little
(1988) memperkenalkan metode komposit yang disebutPredictive Mean Matching.
Pada dasarnya metode ini adalah sama dengan metode regresi, yang membedakan
adalah untuk setiap nilai yang hilang diimputasikan dari nilai observasi yang
terdekat dari model (Rubin, 1987). Metode PMM menjamin bahwa nilai-nilai
yang diimputasikan adalah lebih masuk akal dan kemungkinan akan lebih tepat
dibandingkan metode regresi apabila asumsi kenormalan tidak terpenuhi (Horton &
Lipsitz,2001).
Basuki (2009) mendukung pernyataan Horton and Lipsitz (2001), dalam
penelitiannya digunakan data Survei IBS tahun 2007 Provinsi Jawa Timur untuk
KBLI 17115 (kain tenun ikat) dengan asumsi kenormalan dipenuhi, dan KBLI
19201 (alas kaki) dengan asumsi kenormalan tidak dipenuhi. Pola missing data
nya univariat pada variabel Y(nilai Produksi).
Thibaudeau et al.(2006) dalam laporan penelitian tentang penggunaan PMM
untuk assets dan liabilities pada Survey of Income and Program Participation,
menyebutkan salah satu alternatif metode imputasi yang dilakukan untuk X
(Mortgage Amount) dan Y (Property Value) sebagai variabel-variabel kontinyu, jika
Yresponse danXhilang dapat menggunakan PMM dengan syarat nilai Y>0.
Metode imputasi PMM dan regresi adalah yang paling memungkinkan untuk
-
5/26/2018 Im Put as i Missing Value
23/57
12
digunakan dalam penelitian ini karena metode tersebut termasuk metode imputasi
berdasarkan model.
2.3.2 Metode ImputasiRobust
Metode imputasi yang dapat menangani missing data dengan mekanisme
MCAR dan MAR sebagian besar mengasumsikan data berasal dari distribusi
normal multivariat. Asumsi ini menjadi tidak valid ketika terdapatoutlierpada data,
sehingga sebaiknya menggunakan metode imputasi berdasarkan estimasi robust
(Hron et al., 2008). Hron et al. (2008) dalam penelitiannya membandingkan
beberapa metode imputasi yaitu geometric mean, k-nn dengan jarak Aitchison,
regresi LS dengan isometric logratio transformation (ilr), regresi LTS dengan
ilr, imputasi mean, EM, k-nn dengan jarak Euclidian, regresi LS dan LTS
tanpa transformasi. Hron et al. (2008) menyarankan untuk menggunakan regresi
LTS karena robustregresi dapat mengurangi pengaruh kehadiran outlierterhadap
penaksiran parameter regresi (Maronna et al., 2006). Rousseeuw and Driessen
(2006) dalam kajiannya tentang penggunaan Regresi LTS untuk sampel besar
yaitu n = 100, 500, 1.000, 10.000 dan 50.000 dengan data hasil simulasi dan
sampel kecil n = 12, 18, 20, 23, 25 dan 28, menyimpulkan bahwa regersi LTS
sangat robust terhadap outlierdan cepat dalam penghitungannya. Rousseeuw and
Driessen (2006) mengembangkan Algoritma FAST-LTS kemudian dibandingkan
dengan Feasible Subsets Algorithm (FSA). Algoritma FAST-LTS dua kali lebih
cepat dari pada FSA pada sampel kecil dan sepuluh kali lebih cepat pada sampel
besar.
2.3.3 Outlier
Sembiring (1995) mendefinisikan outlier sebagai pengamatan yang tidak
mengikuti pola umum data, ditunjukkan dari residualnya yang besar, yang
-
5/26/2018 Im Put as i Missing Value
24/57
13
mungkin berpengaruh besar terhadap koefisien regresi. Barnett and Lewis(1994)
mendefinisikan outlier sebagai sebuah observasi (atau subset dari observasi)
yang memperlihatkan inkonsistensi dengan sisa data yang lain, pengamatan yang
memperlihatkan penyimpangan sangat mencolok dari anggota sampel lainnya.
Lebih lanjut Barnett and Lewis (1994) membedakan antara observasi ekstrim,
outlierdan contaminant. Observasi ekstrim adalah observasi yang berada di batas
atas atau batas bawah sebuah distribusi. Contaminantsadalah irisan observasi dari
dua buah distribusi. Outlierbelum tentu contaminants dan contaminants belum
tentuoutlier. Outliers sudah pasti observasi ekstrim sedangkan observasi ekstrim
belum tentuoutlier.
Secara umum terdapat tiga buah cara penanganan outlier, yaitu:
1. Menyisihkan outlier dari kumpulan data sebelum dilakukan analisis.
Alternatif pertama bukan lah keputusan yang bijak mengingat data sangat
berharga dan mahal.
2. Menganggap outlier sebagai missing value, lalu menggantikan nilai yang
dianggap hilang dengan suatu nilai dari hasil estimasi. Elliott (2006)
melakukan hal ini dalam penelitiannya, akan tetapi outlier yang terjadi
karena kesalahan pencatatan clerical errors. Perlu diwaspadai ketika data
sudah terdapat missing value, dengan menggantikan outliersebagaimissing
value maka akan menambah jumlah missing value. Chaimongkol (2005)
menyatakan bahwa jumlah missing value yang dapat ditangani oleh suatu
metode imputasi adalah sebesar kurang dari 15%.
3. Mengakomodir outlier dengan menggunakan metode yang robustterhadap
outlier. Alternatif ke-3 yang akan dilakukan dalam penelitian ini.
-
5/26/2018 Im Put as i Missing Value
25/57
14
2.4 Survei Industri Besar dan Sedang (Survei IBS)
Istilah-istilah yang berkaitan dengan Survei IBS (BPS (2006)):
1. Kuesioner II-A adalah jenis kuesioner yang digunakan untuk mengumpulkan
informasi mengenai jumlah perusahaan, status penanaman modal, jumlah
tenaga kerja, pengeluaran untuk pekerja, tenaga listrik, bahan bakar yang
digunakan, biaya input, nilaioutput, nilai tambah dan jual beli barang modal
tetap.
2. KBLI diadopsi dari International Standard Industrial Classification (ISIC)
yang disesuaikan dengan kondisi di Indonesia. KBLI suatu perusahaan
industri ditentukan berdasar pada produksi utamanya, yaitu jenis komoditi
yang dihasilkan dengan nilai paling besar.
3. Industri pengolahan adalah suatu kegiatan ekonomi yang melakukan kegiatan
mengubah suatu barang dasar secara mekanis, kimia atau dengan tangan
sehingga menjadi barang jadi atai setengah jadi dan atau barang kurang
nilainya menjadi barang yang lebih tinggi nilainya, dan sifatnya lebih dekat
kepada pemakai akhir.
4. Jasa Industri adalah kegiatan industri yang melayani keperluan pihak
lain. Pada kegiatan ini bahan baku disediakan oleh pihak lain sedangkan
pihak pengolah hanya melakukan pengolahannya dengan mendapat imbalan
sejumlah uang atau barang sebagai balas jasa (upah makloon).
5. Perusahaan atau usaha industri adalah suatu unit (kesatuan) usaha yang
melakukan kegiatan ekonomi, bertujuan menghasilkan barang atau jasa,
terletak pada suatu bangunan atau lokasi tertentu, dan mempunyai catatan
administrasi tersendiri yang bertanggung jawab atas usaha tersebut.
-
5/26/2018 Im Put as i Missing Value
26/57
15
6. Perusahaan atau usaha industri menurut jumlah tenaga kerja nya dibedakan
menjadi perusahaan besar (>100 orang), perusahaan sedang (20-99 orang),
perusahaan kecil (5-19 orang) dan usaha industri rumah tangga (1-4 orang).
-
5/26/2018 Im Put as i Missing Value
27/57
BAB III
IMPUTASI MISSING VALUEPADA DATA YANG MENGANDUNG
OUTLIER
Eksplorasi data merupakan langkah pertama yang harus dilakukan sebelum
melakukan analisis. Cara termudah yaitu dengan memplot data. Terkait dengan
permasalahan imputasi jika terdapat outlier maka pendeteksian outlier menjadi
bagian dari eksplorasi data. Pemilihan metode imputasi juga didasarkan kepada
hasil eksplorasi data secara keseluruhan mencakup data lengkap dan missing value.
Pendekatan yang digunakan dalam penelitian ini adalah pendekatan
superpopulasi yaitu nilai dari karakteristik dalam populasi dengan N elementer
dinotasikan sebagai y={y1,y2,...,yN} dianggap sebagai realisasi dari variabel
acak{Y1,Y2,...,YN}yang melalui suatu proses stokastik. Proses stokastik biasanya
dinyatakan dalam suatu model yang melibatkan variabel-variabel acak dengan
fungsi distribusi peluang tertentu (Pawitan, 2001). Jika seluruh komponen
dari vektor y diketahui maka N(y) adalah sebuah perkiraan dari parameter
superpopulasi . Jika survei populasi yaitu vektory tidak diketahui seluruhnya,
maka N(y) adalah sebuah parameter untuk survei populasi (Godambe &
Thompson,1986).
3.1 PendeteksianOutlier
Neter et al. (1989) menyatakan identifikasi outlier dengan boxplots, steam
and leaf plots, scatter plots, danresidual plots untuk regresi dengan lebih dari dua
variabel tidaklah memadai. Beberapa univariate outlierbelum tentu merupakan
nilai ekstrim pada model regresi berganda dan beberapa multipel outliers belum
tentu dapat terdeteksi pada analisis satu atau dua variabel.
16
-
5/26/2018 Im Put as i Missing Value
28/57
17
3.1.1 PendeteksianOutlierpada DimensiX
NilaiLaverage(hii)menampilkan nilai pengaruh terpusat, diperoleh dari nilai
diagonal utama hatmatriks(H) yang berukuran n x n. Hat matriks juga dikenal
sebagai matriks prediksi karena memetakan nilai Y menjadi nilai taksiran (Y).
Formulasi hatmatriks:
H=X
XX1
X. (3.1)
NilaiLaverage> 2p/ndiindikasikan sebagai outlier, dengan p adalah banyaknya
parameter dann adalah banyaknya unit observasi.
3.1.2 PendeteksianOutlierpada Dimensi Y
Studentized deleted residual merupakan nilai residual yang distandarkan
dengan menghilangkan pengamatan ke-i dari perhitungan. Studentized deleted
residualdiperoleh dengan menggunakan rumus sebagai berikut:
ti= ei
np1
SSE(1hii) e2i
1/2, i=1,2,...,n, (3.2)
dengan ei adalah residual, SSE adalah jumlah kuadrat residu dan hii adalah nilai
laverage. Bandingkan nilai| ti| dengan nilai t(1;np1), jika| ti|>t(1;np1)
maka unit observasi ke-iadalahoutlier.
3.1.3 Outlieryang Berkaitan denganInfluential Cases
Untuk mendeteksioutlieryang berkaitan dengan influential casesdigunakan
ukuranCooks distance(Di). UkuranCooks distance(Di)diformulasikan dengan:
Di=X
XX1
X
(p + 1)(1hii)
e2i
s2(1hii)
, (3.3)
-
5/26/2018 Im Put as i Missing Value
29/57
18
dengan ei adalah residual, s2 adalah rata-rata kuadrat residu, (p + 1)
adalah banyaknya parameter, dan hii adalah nilai laverage. Suatu data
dianggap berpengaruh jika nilai Di > 1, atau bisa menggunakan kriteria Di >
F((;(p+1),n(p+1))).
3.2 Metode Imputasi PMM
Pada dasarnya metode ini sama dengan metode regresi, yang membedakan
adalah setiap nilai yang hilang diimputasikan dari nilai observasi yang terdekat
dari model (Rubin,1987). Model yang digunakan pada tahapan ini adalah model
regresi linier normal denganY N
X,2
. Vektor =
0 1 2 . . . q
adalah vektor komponen q + 1 dengan q adalah banyaknya variabel prediktor dan
diasumsikan juga bahwanl> q + 1 dengannl jumlah responden yang memberikan
data lengkap.
Bilangan skalar 2
didapatkan dengan membagi 2
l(nl q1) denganbilangan acak g yang dibangkitkan dari distribusi Chi Square dengan derajat
bebas nl q 1. Selain itu, given 2 adalah berdistribusi normal dengan rata-
rata sebesar l dan matriks varians kovarians 2V (Box & Tiao, 1973). Dalam
terminologi statistik kuadrat terkecil berdasarkan pada nl dapat dituliskan sebagai
berikut:
2l =YYlX
Y
nl q1 (3.4)
l= V
XY
(3.5)
V=
XX
1(3.6)
Tahap-tahap berikut dilakukan untuk menghasilkan nilai yang akan diimputasikan
-
5/26/2018 Im Put as i Missing Value
30/57
19
pada setiap imputasi:
1. Hitung nilai2dengan menggunakan persamaan:
2=2l(nl q1)/g, (3.7)
dengan
2l adalah varian dari data lengkap
nl jumlah responden yang memberikan data lengkap
g adalah variabel random yang dibangkitkan dari distribusi Chi Square
dengan derajat bebasnl q1 (2nlq1
)
2. Tentukan q + 1 buah variabel independen berdistribusi Normal (0,1) untuk
membuatq + 1 komponen vektorZ, kemudian hitung nilai menggunakan
persamaan:
= l+ [V]1/2Z, (3.8)
dengan [V]1/2 adalah akar ciri dari V yang merupakan matriks segitiga atas
yang diperoleh dengan menggunakan dekomposisiCholesky.
3. Ymis(data yang hilang) diprediksi menggunakan persamaan:
Yi= Xi, (3.9)
dengan i adalah anggota item nonresponden (unit observasi yang terdapat
missing data). Untuk setiapYi dengani adalah anggota item nonresponden,
ambil responden yang mempunyai nilai Yidenganiadalah anggota responden
yang nilainya paling dekat dengan nilai Yi, kemudian nilai tersebut
diimputasikan pada data yang hilang.
-
5/26/2018 Im Put as i Missing Value
31/57
20
3.3 Metode Imputasi Regresi LTS
Asumsi Gaus-Markov harus dipenuhi sehingga dengan metode OLS akan
diperoleh estimator yang bersifat unbias dan variansnya minimum yang biasa
disebut dengan Best Linier Unbiased Estimator (BLUE). Asumsinya adalah rata-
rata residual model adalah nol untuk semua pengamatan, tidak terdapat korelasi
antar kekeliruan, setiap residual mempunyai varians yang sama, residual dan
variabel bebas saling independen. Analisis regresi multipel dengan menggunakan
OLS rentan terhadap outlier karena kehadirannya dapat menyebabkan varians
residual tidak lagi homogen atau menjadi besar. Akibatnya selang kepercayaan
melebar, taksiran parameter tidak lagi konsisten dan pengujian statistik terhadap
taksiran parameter regresi dan pembuatan selang kepercayaan yang didasarkan
kepada distribusi normal tidak dapat dilakukan. Estimator LTS diusulkan oleh
Rousseeuw (1984) sebagai alternatifrobustuntuk mengatasi kelemahan estimator
OLS. LTS merupakan suatu metode pendugaan parameter regresi robust untuk
meminimumkan jumlah kuadrath residual (fungsi objektif):
=argmin
h
i=1
e2(i:n), (3.10)
dengan
h=n +p + 1
2
nadalah banyaknya pengamatan
padalah banyaknya parameter regresi
Jumlahh menunjukkan sejumlah subset data dengan kuadrat fungsi objektif
terkecil. Nilai h akan membangunbreakdown value yang besar sebanding dengan
50 persen. Breakdown value yaitu jumlah pengamatan minimal yang dapat
menggantikan sejumlah pengamatan mula-mula yang berakibat pada nilai taksiran
-
5/26/2018 Im Put as i Missing Value
32/57
21
yang dihasilkan sangat berbeda dari taksiran sebenarnya. Algoritma FAST-LTS
menurutRousseeuw and Driessen(2006) adalah gabungan LTS dan C-steps.
3.3.1 Ide Dasar dan C-steps
Sebuah kumpulan data(x1,y1) ,...,(xn,yn) terdiri dari pvariabel prediktor xi
dan satu variabel responsyi.H1 {1,...,n} dengan |H1 |= hdanQ1:=iH1
(e1(i))2
dengan e1 (i) = yi
11xi1+
12xi2+ ...+
1pxip
untuk semua i = 1,...,n. 1 =
11,21,...,p1
adalah vektor px1. Selanjutnya H2 sedemikian rupa sehingga
{| e1(i) |;i H2}:={| e1 |1:n,..., | e1 |h:n} dengan |e1 |1:n|e1|2:n... | e1 |n:n
adalah order dari nilai absolut residual, kemudian hitung 2 dengan LS dari h
observasi dalamH2. Dihasilkan e2(i) untuk semua i = 1,...,n dan Q2=iH2
(e2(i))2
.
Tahapan algoritma C-stepsadalah sebagai berikut:
1. Terdapat h-subsetsHold, lalu hitungolddengan LS berdasarkanHold
2. Hitung residualeold(i)untuk semuai=1,...,n
3. Urutkan nilai absolut residual dari terkecil sampai terbesar yang
menghasilkan permutasi untuk | eold((1)) || eold((2)) | . . . |
eold((n)) |
4. AmbilHnew:= {(1) ,(2) , . . . ,(h)}
5. Hitungnewdengan LS berdasarkanHnew.
6. Lakukan sampaiQm= Qm1 dengan urutan Q1 Q2 Q3 . . .nilai yang
nonnegatif dan konvergen.
3.3.2 AlgoritmaFAST-LTS
Tahapan algoritmaFAST-LTS adalah sebagai berikut:
-
5/26/2018 Im Put as i Missing Value
33/57
22
1. Nilai h = [(n +p + 1)/2] yang sudah default, tetapi boleh memilih
suatu bilangan integer h dengan (n +p + 1)/2 h n. Jika yakin
terdapat contaminant kurang dari dua puluh lima persen pada data,
untuk mendapatkan breakdown value dan efisiensi sekaligus maka dapat
menggunakan h= [0,75n].
2. Jika p=2 dann kecil (sebut saja n=600) maka:
a. Ulangi sampai beberapa kali (sebut saja 500 kali). Bangun sebuah inisial
h-subset H1, kemudian lakukan dua langkah C-steps.
b. 10 hasil denganQ3terendah lakukan C-stepssampai konvergen
3.3.3 Tahapan Imputasi Regresi
Tahapan imputasi regresi:
1. Hitung nilai2dengan menggunakan persamaan:
2=2l(nl q1)/g, (3.11)
dengan
2l adalah varian dari data lengkap
nl banyak responden yang memberikan data lengkap
g adalah variabel random yang dibangkitkan dari distribusi Chi Square
dengan derajat bebasnl q1 (2nlq1
)
2. Tentukan q+1 buah variabel independen berdistribusi Normal (0,1) untuk
membuat q+1 komponen vektorZ, kemudian hitung nilai menggunakan
persamaan:
= l+ [V]1/2Z, (3.12)
-
5/26/2018 Im Put as i Missing Value
34/57
23
dengan [V]1/2 adalah akar ciri dari V yang merupakan matriks segitiga atas
yang diperoleh dengan menggunakan dekomposisi Cholesky.
3. Ymis
(data yang hilang) diprediksi dengan:
Yi= Xi +zi, (3.13)
dengani adalah anggota nonresponden (unit observasi yang terdapat missing
data) danzi adalah nilai berdistribusi normal (0,1) hasil simulasi.
Nilai yang akan diimputasikan pada Ymis dilakukan dengan mengambil nilai
yang baru bagi parameter2. Apabila ingin dilakukan imputasi sebanyakm
kali, maka ketiga langkah diatas diulang sebanyakm kali secara independen
(Rubin 1987: 166-167).
3.4 Efisiensi dari Imputasi Berganda
Qi adalah estimasi titik dan Wi estimasi varians dari data set hasil imputasi
ke-i dimanai=1,2,3,...,m. Rata-rata Qi darim buah imputasi adalah:
Q= 1
m
m
i=1
Qi, (3.14)
dengan m adalah banyaknya pengulangan imputasi. Rata-rata Wi adalah rata-rata
varians dalam imputasi kei, yaitu:
W= 1
m
m
i=1
Wi. (3.15)
Badalah varians antar imputasi, formulasi nya adalah sebagai berikut:
B=
1
m1
m
i=1
Qi Q2
(3.16)
-
5/26/2018 Im Put as i Missing Value
35/57
24
Tadalah total dari varians, formulasi nya adalah sebagai berikut:
T= W+
1 +
1
m
B (3.17)
Statistik dari
QQ
T1/2 mengikuti distribusitdengan derajat bebasvm(Rubin,
1987), dengan formulasivmadalah sebagai berikut:
vm= (m1) +1 + W
(1 + m1)B2
(3.18)
Besarnya derajat bebas vm tergantung padamdan rasio r. Statistikrdidefinisikan
sebagai pertambahan relatif dari varians akibat nonrespons (Rubin, 1987).
Formulasi vmadalah sebagai berikut:
r=
1 + m1
B
W(3.19)
Nilai r= 0 karena jika tidak ada informasi Q maka B adalah nol. Nilai m yang
besar mengakibatkan nilairyang kecil dan derajat bebas darivmakan menjadi besar
sehingga distribusinya akan mendekati normal. Statistik lain yang sangat berguna
berkaitan dengan nonrespons adalahfractiondari informasiQ. Fractionmerupakan
sebuah nilai yang berpengaruh terhadap kecepatan konvergensi terhadap suatu nilai.
Semakin besar fraction pada informasi Q maka konvergensinya semakin lambat.
Fractiondapat dicari dengan menggunakan persamaan:
=r+ (2/(vm+ 3))
r+ 1 (3.20)
Efisiensi relatif (ER) adalah efisiensi yang diperoleh dengan menggunakanm buah
imputasi terbatas (finite) dibandingkan dengan jumlah tidak terbatas (infinite). Pada
kasus dengan hanya sedikit informasi yang hilang, hanya diperlukan sejumlah kecil
-
5/26/2018 Im Put as i Missing Value
36/57
25
pengulangan imputasi. Menurut Yuan (2001), nilai efisiensi relatif biasanya berkisar
antara 80 sampai 100 persen. Efisiensi Relatif diperoleh dari fungsi m dan ,
formulasinya adalah:
ER=
1 +
m
1x 100% (3.21)
Nilai ER yang tinggi menunjukkan bahwa metode imputasi yang digunakan
memiliki efisiensi yang besar yang artinya dengan tidak terlalu banyak melakukan
pengulangan, nilai imputasi yang dihasilkan sudah mendekati hasil imputasi yang
dilakukan dengan jumlah tidak terbatas (infinite).
3.5 Tahapan Penelitian
Tahapan-tahapan penelitian adalah sebagai berikut:
1. Mengelompokkan perusahaan industri menjadi dua kelompok, unit
nonresponse dan unit response (nonresponden dan responden). Dari
kelompok responden dikelompokkan menjadi dua kelompok yaitu kelompok
yang menjawab semua pertanyaan dan kelompok yang terdapat item
nonresponse.
2. Melakukan analisa pola missing data kelompok yang terdapat item
nonresponse. Melakukan analisa deskriptif pada variabel yang digunakan
dalam penelitian.
3. Penanganan missing data
a. Memodelkan variabel pada kelompok responden yang menjawab semua
pertanyaan sebagai berikut X5 =0+ 1X1+ 2X2+ 3X3+ 4X4+
menggunakan regresi LS, denganX1adalah nilai pendapatan,X2adalah
banyaknya upah gaji yang dibayarkan,X3 adalah bahan bakar, pelumas
-
5/26/2018 Im Put as i Missing Value
37/57
26
dan tenaga listrik yang digunakan; X4 adalah banyaknya pengeluaran
lain danX5adalah banyaknya bahan baku yang digunakan.
b. Melakukan pendeteksianoutlier.
c. Melakukan imputasi dengan metode imputasi PMM
d. Memodelkan variabel menggunakan regresi LTS
e. Melakukan imputasi dengan metode imputasi regresi
4. Membandingkan hasil imputasi yang didapat dari kedua metode imputasi
dengan Efisiensi Relatif
3.6 Variabel Penelitian
Variabel yang digunakan adalah sebagai berikut:
1. Pendapatan (X1) yaitu nilai (dalam ribuan rupiah) dari semua barang yang
dihasilkan baik yang diekspor maupun tidak diekspor, termasuk di dalamnya
jasa industri, selisih nilai stok barang produksi setengah jadi, listrik yang
dijual dan pendapatan lainnya yang berasal dari keuntungan penjualan barang
yang tidak diproses, jasa-jasa non industri lainnya, penjualan limbah/sampah
produksi.
2. Upah gaji pekerja/karyawan (X2) yaitu nilai (dalam ribuan rupiah) upah
gaji pekerja/karyawan yang dibayarkan selama tahun 2008. Termasuk di
dalamnya insentif lain yang dibayarkan baik untuk pekerja produksi dan
pekerja lainnya.
3. Bahan bakar, pelumas dan tenaga listrik yang digunakan (X3) yaitu nilai
(dalam ribuan rupiah) dari seluruh bahan bakar dan pelumas yang betul-betul
dipakai selama tahun 2008 seperti bensin, solar, minyak tanah, batu bara dan
-
5/26/2018 Im Put as i Missing Value
38/57
27
bahan bakar lainnya + banyaknya tenaga listrik yang dibeli dari PLN dan atau
nonPLN.
4. Pengeluaran lain selama tahun 2008 (X4) nilai (dalam ribuan rupiah)
untuk pengeluaran sewa gedung, mesin, serta alat-alat dan tanah, pajak
tidak termasuk pajak upah dan pajak perseorangan, biaya jasa industri
yang digunakan, bunga atas pinjaman, hadiah, sumbangan, derma dan
sejenisnya, pengeluaran lainnya termasuk biaya representasi, royalti, man-
agement fee, promosi/iklan, air, pos, telepon, fax, perjalanan dinas, pencega-
han pencemaran lingkungan, biaya penelitian, biaya peningkatan SDM.
5. Banyaknya bahan baku dan penolong(X5) yaitu nilai (dalam ribuan rupiah)
dari seluruh bahan baku serta bahan penolong yang digunakan dalam proses
produksi selama tahun 2008.
-
5/26/2018 Im Put as i Missing Value
39/57
28
Gambar 3.1. Tahapan Penelitian
-
5/26/2018 Im Put as i Missing Value
40/57
BAB IV
HASIL DAN PEMBAHASAN
Tahapan analisis dimulai dengan eksplorasi data kemudian dilakukan
imputasi dengan metode PMM dan metode regresi LTS. Hasil dari kedua metode
tersebut dibandingkan dengan statistik Efficiency Relative (ER). Suatu metode
dikatakan efisien jika ER nya bernilai sama dengan satu.
4.1 Eksplorasi Data
Hasil Survei Industri Besar Sedang di Provinsi Kepulauan Riau tahun
2008 tidak mencapai seratus persen. Tingkat pemasukan dokumen nya hanya
mencapai 83 persen dari total 534 perusahaan. Dari 83 persen terdapat missing
data. Pengelompokkan perusahaan-perusahaan berdasarkan KBLI mempermudah
tahapan eksplorasi data. Pada KBLI 32100 terdapat missing value dan outlier.
Responden (unit observasi yang respons) dikumpulkan ke dalam dua kelompok
yaitu kelompok n0 yang menjawab semua pertanyaan dan kelompok n1 yang
terdapat item nonresponse. Dari 53 responden yang termasuk ke dalam KBLI
32100 n0=47 responden dan n1=6 responden. Tabel 4.1 memperlihatkan bahwa
polamissing datapada penelitian ini adalah pola univariat.
Tabel 4.1. Tabel PolaMissing Data
Responden Variabel
X1 X2 X3 X4 X5
1 0 0 0 0 0...
... ...
... ...
...
n0=47 0 0 0 0 0
1 0 0 0 0 1...
... ...
... ...
...
n1=6 0 0 0 0 1
29
-
5/26/2018 Im Put as i Missing Value
41/57
30
Gambar 4.1. Boxplot VariabelX1
Gambar 4.2. Boxplot VariabelX2
-
5/26/2018 Im Put as i Missing Value
42/57
31
Gambar 4.3. Boxplot VariabelX3
Gambar 4.4. Boxplot VariabelX4
-
5/26/2018 Im Put as i Missing Value
43/57
32
Gambar 4.5. Boxplot VariabelX5
Dari gambar 4.1 - 4.5 terlihat bahwa semua variabel terdeteksi terdapat
outlier. Pada variabel X1 terdeteksi observasi ke-13, 15, 18, 23 dan 47 sebagai
outlier. Pada variabelX2 terdeteksi observasi ke-4, 15, 17 dan 49 sebagai outlier.
Pada variabel X3 terdeteksi observasi ke-4, 6, 15, 17, 18 dan 50 sebagai outlier.
Pada variabel X4 terdeteksi observasi ke-1, 9, 18, 23 dan 49 sebagai outlier. Pada
variabelX5terdeteksi observasi ke-4, 6, 15, 17, 18 dan 50 sebagai outlier.
4.2 PendeteksianOutlier
Terkait dengan permasalahan bahwa data yang akan diimputasi mengandung
outlier maka perlu dilakukan pendeteksian outlier untuk melihat secara jelas
observasi mana saja yang dianggap sebagai outlier. Pada dasarnya imputasi PMM
diawali dengan membuat persamaan regresi dengan metode OLS antara variabel
yang mengandung missing value sebagai variabel respons dengan variabel yang
memiliki data lengkap sebagai variabel prediktornya. Oleh karena itu tahapan
eksplorasi berikutnya adalah melakukan pendeteksian outlier dilakukan dengan
-
5/26/2018 Im Put as i Missing Value
44/57
33
cara melihat nilai laverage, deleted studentized residual dan Cooks Distancedari
masing-masing observasi. Nilailaverage, deleted studentized residual dan Cooks
Distancemasing-masing observasi lihat pada lampiran.
4.2.1 PendeteksianOutlierpada DimensiX
Pengecekanoutlierpada dimensiXdilakukan dengan melihatlaverageuntuk
setiap observasi. Sebuah observasi dikatakan outlier jika nilai laveragenya >
2p/n. Pembentukan persamaan regresi antara variabel materi dengan variabelpendapatan, gaji, bahan bakar pelumas dan pengeluaran lainnya menghasilkan
parameter sebanyak 5 (p=5) dengan observasi sebanyak 47 buah. Oleh karena itu,
didapatkan 2p/n= (2x5)/47=0,21276. Observasi ke 6, 13, 15, 17, 23, 40 dan 47
mempunyailaveragelebih besar dari pada 0,21276.
4.2.2 PendeteksianOutlierpada Dimensi Y
Pengecekan outlierpada dimensi Y dilakukan dengan membandingkan nilai
absolut dari studentized deleted residual terhadap nilai t(1;np1). Dari tabel
distribusi t didapatkan nilai t(0.95;4751) =1,683. Observasi ke 10, 13, 17 dan
23 mempunyai nilai |ti| yang lebih besar dari pada 1,683.
4.2.3 PendeteksianOutlieryang Berkaitan denganInfluential Cases
Pengecekan outlierberkaitan dengan data berpengaruh menggunakan ukuran
Cooks Distance. Suatu data dianggap berpengaruh jika nilaiDi>1. Observasi ke
13, 15, 17 dan 23 adalah data yang berpengaruh.
4.3 Imputasi dengan Menggunakan Metode PMM
PROC MI pada paket program SAS 9.2 digunakan untuk melakukan imputasi
data hilang sebanyak 5 kali. Ulangan imputasi umumnya cukup dilakukan tiga
-
5/26/2018 Im Put as i Missing Value
45/57
34
sampai lima kali (Rubin, 1996). Output dan sintaks pada lampiran. Algoritma
imputasi PMM yaitu sebagai berikut:
1. Langkah pertama yang dilakukan adalah meregresikan data lengkap
(sebanyak 47 buah observasi) dengan metode OLS sehingga menghasilkan
persamaan regresi sebagai berikut:
yi= 5663635 + 0.622x11.62x2+ 2.49x30.893x4 (4.1)
2. Langkah kedua yaitu mencari nilai2dengan menggunakan persamaan:
2=2l(4741)/g, (4.2)
dengan
2
l
=SSE/d f=1.07490E16
g adalah variabel random yang dibangkitkan dari distribusi Chi Square
dengan derajat bebas 47-4-1 (24741)
3. Langkah ketiga yaitu mencari =
5663635
0.622
1.62
2.49
0.893
+
V
1/2Z dengan
V=
XX
1Z adalah variabel bebas sebanyak q+1 yang dibangkitkan dari distribusi
normal baku N(0,1) dan
V 1/2
adalah adalah matriks segitiga atas yang diperoleh dari dekomposisi
Cholesky.
-
5/26/2018 Im Put as i Missing Value
46/57
35
4. Ymis
(data yang hilang) diprediksi menggunakan persamaan:
yi=0+1x1+2x2+3x3+4x4, (4.3)
Model pada setiap imputasi dihasilkan sebagai berikut:
Tabel 4.2. Tabel Parameter pada Metode Imputasi PMM
Parameter Imputasi ke-
1 2 3 4 5
Intercept 0.031278 -0.13543 0.143468 -0.09983 -0.09802
PENDAPATAN(X1) 1.061884 1.108503 1.167132 1.163257 1.198147
GAJI(X2) 0.167279 -0.14848 -0.23702 -0.27967 -0.34579
BHNBKRPLMS(X3) 0.028362 0.004218 0.082983 0.135629 0.272966
PENGSEWA(X4) -0.91679 -0.59553 -0.69056 -0.8019 -0.75984
Pada imputasi ke-1 untuk variabel Gaji dihasilkan nilai parameter yg positif
tetapi tidak pada ulangan imputasi ke-2 ,3, 4, dan 5. Parameter hasil imputasi
ke-1 tidak konsisten dengan parameter hasil imputasi ke-2 sampai ke-5.
5. Hitung prediksi untuk setiap nilai yang hilang menggunakan persamaan4.3
dengan nilai-nilai dari parameternya tertera pada tabel4.2.
6. Ambil responden yang memiliki data lengkap dengan nilaiyi yang tedekat
dengan yi
7. Lakukan imputasimissing valuedengan menggunakan nilai dari tahap ke 6.
Berikut ini adalah nilai-nilai hasil imputasi berdasarkan paramater-parameter yang
dihasilkan dari tabel 4.4. Sekilas bila dilihat secara kasat mata, maka nilai
hasil imputasi PMM masih masuk akal karena tidak terdapat nilai minus, dalam
penelitian ini variabel pengeluaran bahan baku dan penolong tidak boleh bernilai
minus. Akan tetapi ada beberapa nilai pada imputasi ke-idan ke-i + 1 yang sangat
berbeda jauh. Hal tersebut menunjukkan bahwa metode imputasi PMM tidak cocok
digunakan pada data.
-
5/26/2018 Im Put as i Missing Value
47/57
36
Tabel 4.3. Tabel Nilai Hasil Imputasi pada Metode Imputasi PMM
Observasi Imputasi ke-1 2 3 4 5
1 15,855,718 0 0 326,000 326,000
2 240,000,000 240,000,000 131,869,926 5,706,271 36,314,705
3 136,297,463 13,625,576 36,314,705 13,057,100 28,662,200
4 124,409,480 36,314,705 7,553,811 13,057,100 7,553,811
5 0 5,053,463 1,532,377 326,000 0
6 28,662,200 15,855,718 24,646,582 5,598,720 47,215,925
4.4 Imputasi dengan Menggunakan Metode Regresi LTS
Paket program SAS 9.2 menyediakan paket LTS dengan perintah call LTS.
Koefisien dari hasil regresi LTS selanjutnya digunakan untuk imputasi dengan
metode regresi. Langkah-langkah nya adalah sebagai berikut:
1. Langkah pertama yang dilakukan menentukan subseth= (47 + 4 + 1)/2=
26 setelah dilakukan iterasi dengan PROC IML didapatkan 26 subset terbaik
yaitu observasi ke-3, 5, 11, 15, 16, 20, 21, 23, 24, 25, 27, 28, 29, 30, 31,
33, 35, 36, 37, 38, 39, 40, 41, 43, 44 dan 45. Menggunakan metode OLS
didapatkan persamaan regresi sebagai berikut:
yi= 284561.6438 + 0.99217x11.24224x20.67622x3 1.08837x4
(4.4)
2. Langkah kedua yaitu mencari nilai2dengan menggunakan persamaan:
2=2l(4741)/g, (4.5)
dengan
2l =SSE/d f=3.08717E+ 13
g adalah variabel acak yang dibangkitkan dari distribusi Chi Square dengan
-
5/26/2018 Im Put as i Missing Value
48/57
37
derajat bebas 47-4-1 (24741)
3. Langkah ketiga yaitu mencari =
284561.6438
0.9921733911
1.242240211
0.676226402
1.088368064
+
V
1/2Z
denganV= XX
1
Z adalah variabel bebas sebanyak q+1 yang dibangkitkan dari distribusi
normal baku N(0,1) dan
V
1/2adalah adalah matriks segitiga atas yang
diperoleh dari dekomposisi Cholesky.
4. Ymis
(data yang hilang) diprediksi menggunakan persamaan:
yi=0+1x1+2x2+3x3+4x4+zi, (4.6)
dengan zi adalah nilai yang dibangkitkan dari distribusi normal baku N(0,1)
Model pada setiap imputasi dihasilkan sebagai berikut:
Tabel 4.4. Tabel Parameter pada Metode Imputasi Regresi LTS
Parameter Imputasi ke-
1 2 3 4 5
Intercept -751,642.50 -669,582.90 578,671.68 -547,058.00 -778,612.00
PENDAPATAN(X1) 0.9921734 0.9921734 0.9921734 0.9921734 0.9921734GAJI(X2) -1.24224 -1.24224 -1.24224 -1.24224 -1.24224
BHNBKRPLMS(X3) -0.676226 -0.676226 -0.676226 -0.676226 -0.676226
PENGSEWA(X4) -1.088368 -1.088368 -1.088368 -1.088368 -1.088368
5. Lakukan imputasimissing valuedengan menggunakan persamaan4.6dengan
nilai-nilai dari parameternya tertera pada tabel4.4..
Berikut ini adalah nilai-nilai hasil imputasi berdasarkan paramater-parameter yang
dihasilkan dari tabel 4.2.
-
5/26/2018 Im Put as i Missing Value
49/57
38
Tabel 4.5. Tabel Nilai Hasil Imputasi pada Metode Imputasi Regresi LTS
Observasi Imputasi ke-1 2 3 4 5
1 7,140,577 3,258,824 9,135,643 4,832,130 7,506,269
2 226,459,817 231,826,775 238,445,408 238,645,486 221,926,623
3 21,700,364 18,381,884 31,784,957 22,217,785 25,321,659
4 75,954,984 71,064,833 63,981,323 70,044,146 70,541,831
5 18,376,697 11,111,621 12,725,039 20,056,442 17,323,727
6 35,455,594 31,510,268 33,595,911 44,415,840 35,616,538
Nilai hasil imputasi regresi LTS saling berdekatan pada setiap ulangan
imputasi.
4.5 Perbandingan Efisiensi Relatif Metode Imputasi PMM dan Regresi LTS
Efisiensi Relatif dari metode imputasi PMM dan regresi LTS diperoleh
melalui langkah-langkah berikut ini:
1. Hitung estimasi titik untukQ menggunakan persamaan3.14
2. Hitung varian within imputation (W) dan between imputation (B) seperti pada
persamaan3.15dan3.16
3. Hitung derajat bebas (vm) menggunakan persamaan3.18
4. Hitung besarnya nilai(r)menggunakan persamaan3.19
5. Hitung yaitufractiondari informasi hilangQmenggunakan persamaan3.20
6. Hitung besar ER menggunakan persamaan3.21
Hasil penghitungan secara simultan diperoleh ER untuk metode PMM sebesar
99.5109 persen dan ER untuk metode regresi LTS sebesar 99.9999 persen. Artinya
metode imputasi regresi LTS lebih efisien dibandingkan metode imputasi PMM,
-
5/26/2018 Im Put as i Missing Value
50/57
39
karena tidak perlu melakukan banyak pengulangan untuk menghasilkan nilai
imputasi. Hasil dari penghitungan ER ditampilkan pada lampiran.
Hasil penghitungan ER untuk setiap parameter dapat dilihat pada tabel 4.6
dan tabel 4.7. Setiap parameter yang dihasilkan pada metode imputasi regresi LTS
mempunyai ER yang lebih tinggi dibandingkan dengan paramater yang dihasilkan
dari metode imputasi PMM. Hal ini sejalan dengan kesimpulan yang didapatkan
dari perbandingan ER secara simultan antara kedua metode.
Tabel 4.6. Tabel ER Parameter pada Metode Imputasi PMM
Parameter Relative Fraction Relative
Increase Missing Efficiency
in Variance Information
Intercept 0.011771 0.011701 0.997665
PENDAPATAN(X1) 0.044906 0.043859 0.991304
GAJI(X2) 0.565362 0.399123 0.926076
BHNBKRPLMS(X3) 0.384237 0.303892 0.942704
PENGSEWA(X4) 0.038608 0.037837 0.992489
Tabel 4.7. Tabel ER Parameter pada Metode Imputasi Regresi LTS
Parameter Relative Fraction Relative
Increase Missing Efficiency
in Variance Information
Intercept 0.000207 0.000207 0.999959
PENDAPATAN(X1) 0.00017 0.00017 0.999966
GAJI(X2) 0.002439 0.002436 0.999513
BHNBKRPLMS(X3) 0.002021 0.002019 0.999596
PENGSEWA(X4) 0.0002 0.000199 0.99996
Laju kekonvergenan ER menuju nilai 100 persen dari kedua metode dapat dil-
ihat pada gambar 4.2. Metode imputasi regresi LTS lebih cepat konvergen daripada
metode imputasi PMM. Oleh karena itu secara jelas metode imputasi regresi LTS
mempunyai kinerja yang lebih baik untuk imputasi ketika data terdapat outlier.
Tidak ada aturan khusus dalam pemilihan hasil imputasi mana yang akan dipakai
dari berbagai macam pilihan nilai yang dihasilkan dari hasil pengulangan imputasi.
-
5/26/2018 Im Put as i Missing Value
51/57
40
Merujuk kepada laju kekonvergenan ER suatu metode menuju 100 persen maka
dapat digunakan nilai rata-rata hasil pengulangan imputasi, nilai median atau nilai
modusnya sebagai nilai akhir hasil imputasi untuk menggantikan missing value.
Tabel 4.8. Tabel Nilai ER Hasil Imputasi ke-2 ,3, 4 dan 5 pada Metode Imputasi
PMM dan Regresi LTS
Imputasi ke- ER LTS ER PMM
2 99.9998178041061 93.9282583002513
3 99.9999785790541 98.7333000686382
4 99.9999864200791 99.1747642887182
5 99.9999950275297 99.5109469219189
Gambar 4.6. Plot Laju ER PMM dan Regresi LTS
-
5/26/2018 Im Put as i Missing Value
52/57
BAB V
KESIMPULAN DAN SARAN
5.1 Kesimpulan
Berdasarkan penelitian yang telah dilakukan dapat diambil beberapa
kesimpulan sebagai berikut:
1. Pada beberapa kali ulangan, metode PMM menghasilkan nilai imputasi
sama dengan nol. Hasil imputasi sama dengan nol pada kenyataannya
mungkin terjadi untuk perusahaan makloon tetapi tidak pada perusahaan
bukanmakloon. Nilai nol pada metode PMM terjadi karena proses estimasi
menghasilkan nilai negatif maka kemudian akan dipilih nearest neighbour
dari nilai estimasi. Dalam hal ini, nilai nol adalah nilai yang paling dekat
dengan estimasi bernilai minus. Walaupun cukup baik dilihat dari statistik
ERnya, tetapi melalui beberapa kali ulangan nilai imputasi yang dihasilkan
tidak masuk akal.
2. Penggunaan metode imputasi yang robust terhadap outlier mempunyai
kinerja yang lebih baik dari pada metode imputasi PMM. Metode imputasi
regresi LTS sangat cepat konvergen menuju nilai imputasi yang efisien.
Metode imputasi regresi LTS menghasilkan nilai imputasi yang robust
terhadapoutlier.
5.2 Saran
1. Penelitian ini hanya difokuskan kepada penanganan missing value dengan
pola univariat, seyogyanya bila memungkinkan dapat dikembangkan untuk
polamissing valueyang lain.
41
-
5/26/2018 Im Put as i Missing Value
53/57
42
2. Sebelum melakukan imputasi missing value pada data yang mengandung
outlier sebaiknya harus dipastikan bahwa outlier yang ada terjadi bukan
karena kesalahan pengetikan atau penulisan (clerical errors) tetapi lebih
karena fenomena yang memang benar-benar terjadi.
-
5/26/2018 Im Put as i Missing Value
54/57
DAFTAR PUSTAKA
Barnett, V., & Lewis, T. (1994). Outliers in statistical data. New York: John Wiley
& Sons, Inc.
Basuki, R. (2009). Imputasi berganda menggunakan metode regresi dan metode
predictive mean matching untuk menangani missing data. Naskah tesis yang
tidak dipublikasikan, Institut Teknologi Sepuluh Nopember, Surabaya.
Box, G. E. P., & Tiao, G. C. (1973). Bayesian inference in statistical analysis.
Reading Mass: Addison-Wesley.
Carpenter, J., & Kenward, M. (2006). A comparison of multiple imputation and
doubly robust estimation for analysis with missing data. Journal of Royal
Statistics Society, 0964-1998/06/169000.
Chaimongkol, W. (2005).Three composite imputation method for item nonresponse
estimation in sample survey. Unpublished doctoral dissertation, National
Institute of Development Administration, Thailand.
Chambers, R., & Skinner, C. (2003). Analysis of survey data. New York: John
Wiley & Sons, Inc.
Elliott, M. (2006). Multiple imputation in the presence of outliers (Tech. Rep.
No. 59). University of Michigan School of Public Health. Available from
http://www.bepress.com/umichbiostat/paper59
Godambe, V., & Thompson, M. (1986). Parameters of superpopulation and survey
population: Their relationships and estimation. Internal Statistical Review,
54, 127-138.
Horton, N., & Kleinman, K. (2007). Much ado about nothing: A comparison of
missing data method and software to fit incomplete data regression models.
Journal of the American Statistical Association,61, 79-90.
Horton, N., & Lipsitz, S. (2001). Multiple imputation in practice: Comparison of
software package for regression model with missing variables. Journal of the
American Statistical Association,55, 244-255.
Hron, K., Templ, M., & Filzmoser, P. (2008, Desember). Imputation of missing
value for compositional data using classical and robust methods (Research
report sm-2008-4, Departement of Statistics and Probability Theory). Austria:
Vienna University of Technology. Available from http://www.statistik
.tuwien.ac.at/forschung/SM/SM-2008-4complete.pdf.
Huber, P. (1981). Robust statistics. New York: John Wiley & Sons, Inc.
43
http://www.bepress.com/umichbiostat/paper59http://www.statistik.tuwien.ac.at/forschung/SM/SM-2008-4complete.pdf.http://www.statistik.tuwien.ac.at/forschung/SM/SM-2008-4complete.pdf.http://www.statistik.tuwien.ac.at/forschung/SM/SM-2008-4complete.pdf.http://www.statistik.tuwien.ac.at/forschung/SM/SM-2008-4complete.pdf.http://www.bepress.com/umichbiostat/paper59 -
5/26/2018 Im Put as i Missing Value
55/57
44
Inc., S. I. (2008). Sas/stat 9.2 users guide. Cary, NC: SAS Institute Inc.
Leeuw, E. de, Hox, J., & Huisman, M. (2003). Prevention and treatment of item
nonresponse. Journal of Official Statistics,19, 153-176.
Lessler, J., & Kalsbeek, W. (1992).Nonsampling error in surveys. New York: John
Wiley & Sons, Inc.
Little, R., & Rubin, D. (1987). Statistical analysis with missing data. Cambridge:
John Wiley & Sons, Inc.
Longford, N. (2005).Missing data and small-area estimation. New York: Springer.
Maronna, R., Martin, R., & Yohai, V. (2006). Robust statistics: Theory and
methods. New York: John Wiley & Sons, Inc.
Neter, J., Wasserman, W., & Kutner, M. (1989). Applied linier regression. Boston:
Irwin.
Pawitan, G. (2001). Analysis of aggregated spatial social data. Naskah disertasi
yang tidak dipublikasikan, University of Wollongong, Australia.
Rousseeuw, P. J., & Driessen, K. V. (2006). Computing lts regression for large data
sets. Data Mining and Knowledge Discovery,12, 29-45.
Rousseeuw, P. J., & Leroy, A. M. (1987). Robust regression and outlier detection.
Canada: John Wiley & Sons, Inc.
Rubin, D. (1987). Multiple imputation for nonresponse in surveys. New York: JohnWiley & Sons, Inc.
Sembiring, R. (1995). Analisis regresi. Bandung: Institut Teknologi Bandung.
Statistik, B. P. (2006). Statistik industri besar sedang. Jakarta: BPS.
Thibaudeau, Y., Gottschalck, A., & Palumbo, T. (2006). The predictive-mean
method of imputation for preserving coupling between assets and liabilities
(Research report series of Statistical Research Division). U.S. Census
Bureau.
Yuan, Y. C. (2001). Multiple imputation for missing data: Concept and newdevelopment sas/stat 8.2. Cary NC: SAS Institute Inc. Available from
http://www.sas.com/statistics
http://www.sas.com/statisticshttp://www.sas.com/statistics -
5/26/2018 Im Put as i Missing Value
56/57
LAMPIRAN
-
5/26/2018 Im Put as i Missing Value
57/57
LAMPIRAN
44