Im Put as i Missing Value

5/26/2018 Im Put as i Missing Value

1/57

IMPUTASIMISSING VALUE

PADA DATA YANG MENGANDUNGOUTLIER

Oleh :

HAFTI MARDIAH

140720090012

TESIS

Untuk memenuhi salah satu syarat

Guna memperoleh gelar Magister Statistika Terapan

Program Magister Statistika Terapan

Konsentrasi Statistika Sosial

UNIVERSITAS PADJADJARAN

PROGRAM PASCASARJANA

BANDUNG

2010


2/57

IMPUTASIMISSING VALUE

PADA DATA YANG MENGANDUNGOUTLIER

Oleh :

HAFTI MARDIAH

140720090012

TESIS

Untuk memenuhi salah satu syarat ujian

Guna memperoleh gelar Magister Statistika Terapan

Program Magister Statistika Terapan

Telah disetujui oleh Tim Pembimbing pada tanggal

Seperti tertera di bawah ini

Bandung, Agustus 2010

Gandhi Pawitan, Ph.D. Budhi Handoko, M.Si.

Ketua Tim Pembimbing Anggota Tim Pembimbing


3/57

PERNYATAAN

Dengan ini saya menyatakan bahwa :

1. Karya tulis saya, tesis ini, adalah asli dan belum pernah diajukan untuk

mendapatkan gelar akademik (sarjana, magister, dan/atau doktor), baik di

Universitas Padjadjaran maupun di perguruan tinggi lain.

2. Karya tulis ini adalah murni gagasan, rumusan, dan penelitian saya sendiri,

tanpa bantuan pihak lain, kecuali arahan Tim Pembimbing.

3. Dalam karya tulis ini tidak terdapat karya atau pendapat yang telah ditulis atau

dipublikasikan orang lain, kecuali secara tertulis dengan jelas dicantumkan

sebagai acuan dalam naskah dengan disebutkan nama pengarang dan

dicantumkan dalam daftar pustaka.

4. Pernyataan ini saya buat dengan sesungguhnya dan apabila di kemudian

hari terdapat penyimpangan dan ketidakbenaran dalam pernyataan ini, maka

saya bersedia menerima sanksi akademik berupa pencabutan gelar yang telah

diperoleh karena karya ini, serta sanksi lainnya sesuai dengan norma yang

berlaku di perguruan tinggi ini.

Nama : Hafti Mardiah

NPM : 140720090012

Tanda Tangan :

Tanggal : Agustus 2010

ii


4/57

ABSTRAK

Judul Tesis : ImputasiMissing Valuepada Data yang Mengandung

Outlier.

Kata Kunci : Missing Data, Outlier,Predictive Mean Matching,

Least Trimmed Squares, Robust Estimation

Nama : Hafti Mardiah

NPM : 140720090012

Program Studi : Statistika Terapan

Bidang Kajian Utama : Statistika Sosial

Tim Pembimbing : 1. Gandhi Pawitan, Ph.D.

2. Budhi Handoko, M.Si.

Tahun Kelulusan : 2010

Abstrak

Missing Data merupakan salah satu permasalahan yang sering terjadi pada

sebuah survey. Imputasi adalah pilihan penangananmissing datayang paling bijak

dari pada membuang sebagian observasi atau variabel yang mengandung missing

value, mengingat bahwa data sangat mahal dan berharga. Penanganan missing

valuepada sekumpulan data yang terdapat outliermenjadi perhatian khusus karena

sebagian besar metode imputasi dengan mekanisme Missing at Random (MAR)

dan Missing Completely at Random (MCAR) mengasumsikan data berdistribusi

normal multivariat. Asumsi ini menjadi tidak valid ketika terdapat outlier pada

data, sehingga sebaiknya menggunakan metode imputasi berdasarkan estimasi yang

robustterhadap outlier. MetodePredictive Mean Matching (PMM) adalah salah

satu alternatif metode imputasi komposit, penggabungan metode imputasi regresi

iii


5/57

iv

dengan metode imputasi nearest neighbour, yang mengasumsikan data berasal

dari distribusi normal multivariat. Ketika asumsi normalitas dilanggar, PMM

menghasilkan nilai hasil imputasi yang tidak masuk akal dan statistik Efficiency

Relative yang lebih rendah dibandingkan dengan metode imputasi regresi Least

Trimmed Squares (LTS). Metode imputasi regresi LTS merupakan penggabungan

algoritma LTS dan algoritma imputasi regresi.

Abstract

Missing data is the most frequent problem that occurs in a survey. Thus,

imputation is a prudent alternative of handling the missing data instead of reducing

the number of observations or variables due to its cost achieved and value. The

treatment of the missing data in the presence of outlier becomes the major problem

which is the most imputation method based on the Missing at Random (MAR) and

Missing Completely at Random (MCAR) mechanism. Moreover, it assumes data

originated from a multivariate normal distribution, which is no longer valid in the

presence of outliers in the data. For instance, Predictive Mean Matching (PMM),

a combination of regression imputation method and the nearest neighbour method,

assumes the data originated from a multivariate normal distribution. When the

normality assumption is violated, the predictive mean matching method does not

yield plausible imputed values plus the performance of the Efficiency Relative (ER)

is below compared to the ER of Least Trimmed Squares (LTS) regression imputation

method. LTS regression imputation method is actually a regression imputation

method which its parameter is the result of LTS regression estimation then combined

with the regression imputation algorithm.


6/57

KATA PENGANTAR

Puji syukur penulis panjatkan kehadirat kepada Allah SWT karena rahmat dan

hidayah-Nya sehingga penulis dapat menyelesaikan tesis yang berjudul Imputasi

Missing Value Pada Data Yang Mengandung Outlier ini dapat diselesaikan.

Penyelesaian penulisan tesis ini tidak terlepas dari bantuan moral dan material dari

berbagai pihak. Oleh karena itu penulis mengucapkan terima kasih yang tidak

terhingga kepada:

1. Bapak Gandhi Pawitan, Ph.D., selaku Ketua Tim pembimbing yang selalu

memberikan arahan, bimbingan dan motivasi sehingga penulisan tesis ini

selesai tepat waktu.

2. Bapak Budhi Handoko, M.Si., selaku Co-Pembimbing yang selalu

memberikan arahan, bimbingan dan dengan tangan terbuka membagi

ilmunya.

3. Bapak M. Dokhi, Ph.D. dan Ibu Dr. Lienda Noviyanti,M.Si., selaku penguji

yang banyak memberikan masukan dan arahan dalam penyelesaian tesis ini.

4. Seluruh dosen dan staf di bagian Program Statistika Terapan Universitas

Padjadjaran.

5. Bapak Drs. Aminul Akbar, M.Sc. yang pada masa jabatannya selaku

Kepala BPS Provinsi Kepulauan Riau telah memberikan kesempatan dan ijin

kepada penulis untuk mengikuti pendidikan di Program Magister Statistika

Terapan Universitas Padjadjaran.

6. Bapak Nyoto Widodo, M.Ec, selaku Kapusdiklat BPS yang telah memberikan

kesempatan kepada penulis untuk mengikuti pendidikan di program Magister

Statistika Terapan Universitas Padjadjaran.

v


7/57

vi

7. Ibunda Suyati yang tiada hentinya mencurahkan kasih sayangnya kepada

penulis semenjak kecil serta sanak famili di Bandung dan di Jakarta atas

dukungannya.

8. Secara khusus untuk suami tercinta Purwo Astono dan buah hati Hana

yang telah memberikan motivasi serta doanya dari jauh selama mengikuti

pendidikan.

9. Rekan-rekan senasib seperjuangan dalam kuliah Angkatan I Program Kerja

Sama BPS-UNPAD, khususnya rekan-rekanGEROMBOLAN SI BERATatas

kebersamaannya dalam menyelesaikan studi ini.

10. Seluruh rekan-rekan di BPS Provinsi Kepulau Riau yang telah membantu

kelancaran selama mengikuti kuliah.

11. Rekan-rekan yang nun jauh di Papua Suryana dan di NTB Acul Marucul

yang telah membantu dalam penulisan tesis ini.

12. Semua pihak yang tidak dapat penulis sebutkan satu-persatu yang telah

membantu kelancaran selama mengikuti kuliah dan menyelesaikan tesis ini.

Bandung, Agustus 2010

Hafti Mardiah


8/57

DAFTAR ISI

Daftar Isi vii

Daftar Tabel ix

Daftar Gambar x

BAB I PENDAHULUAN 1

1.1 Latar Belakang Masalah. . . . . . . . . . . . . . . . . . . . . . . . 1

1.2 Identifikasi Masalah . . . . . . . . . . . . . . . . . . . . . . . . . . 4

1.3 Tujuan Penelitian . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

1.4 Manfaat Penelitian . . . . . . . . . . . . . . . . . . . . . . . . . . 5

1.5 Batasan Masalah . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

BAB II TINJAUAN PUSTAKA 6

2.1 PolaMissing Data . . . . . . . . . . . . . . . . . . . . . . . . . . . 6

2.2 MekanismeMissing Data . . . . . . . . . . . . . . . . . . . . . . . 8

2.3 Tinjauan Kritis . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

2.3.1 MetodePredictive Mean Matching . . . . . . . . . . . . . . 11

2.3.2 Metode ImputasiRobust . . . . . . . . . . . . . . . . . . . 12

2.3.3 Outlier . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

2.4 Survei Industri Besar dan Sedang (Survei IBS). . . . . . . . . . . . 14

BAB III IMPUTASI MISSING VALUE PADA DATA YANG

MENGANDUNG OUTLIER 16

3.1 PendeteksianOutlier . . . . . . . . . . . . . . . . . . . . . . . . . 16

3.1.1 PendeteksianOutlierpada DimensiX . . . . . . . . . . . . 17

3.1.2 PendeteksianOutlierpada Dimensi Y . . . . . . . . . . . . 17

vii


9/57

viii

3.1.3 Outlieryang Berkaitan denganInfluential Cases. . . . . . . 17

3.2 Metode Imputasi PMM . . . . . . . . . . . . . . . . . . . . . . . . 18

3.3 Metode Imputasi Regresi LTS . . . . . . . . . . . . . . . . . . . . 20

3.3.1 Ide Dasar dan C-steps . . . . . . . . . . . . . . . . . . . . . 21

3.3.2 AlgoritmaFAST-LTS . . . . . . . . . . . . . . . . . . . . . 21

3.3.3 Tahapan Imputasi Regresi . . . . . . . . . . . . . . . . . . 22

3.4 Efisiensi dari Imputasi Berganda . . . . . . . . . . . . . . . . . . . 23

3.5 Tahapan Penelitian . . . . . . . . . . . . . . . . . . . . . . . . . . 25

3.6 Variabel Penelitian . . . . . . . . . . . . . . . . . . . . . . . . . . 26

BAB IV HASIL DAN PEMBAHASAN 29

4.1 Eksplorasi Data . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29

4.2 PendeteksianOutlier . . . . . . . . . . . . . . . . . . . . . . . . . 32

4.2.1 PendeteksianOutlierpada DimensiX . . . . . . . . . . . . 33

4.2.2 PendeteksianOutlierpada Dimensi Y . . . . . . . . . . . . 33

4.2.3 PendeteksianOutlieryang Berkaitan denganInfluential Cases 33

4.3 Imputasi dengan Menggunakan Metode PMM . . . . . . . . . . . . 33

4.4 Imputasi dengan Menggunakan Metode Regresi LTS . . . . . . . . 36

4.5 Perbandingan Efisiensi Relatif Metode Imputasi PMM dan Regresi

LTS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38

BAB V KESIMPULAN DAN SARAN 41

5.1 Kesimpulan . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41

5.2 Saran. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41

Daftar Pustaka 43


10/57

DAFTAR TABEL

Tabel 2.1. Metode Imputasi berdasarkan tipe variabel yang diimputasi . . 10

Tabel 4.1. Tabel PolaMissing Data . . . . . . . . . . . . . . . . . . . . 29

Tabel 4.2. Tabel Parameter pada Metode Imputasi PMM . . . . . . . . . 35

Tabel 4.3. Tabel Nilai Hasil Imputasi pada Metode Imputasi PMM . . . . 36

Tabel 4.4. Tabel Parameter pada Metode Imputasi Regresi LTS. . . . . . 37

Tabel 4.5. Tabel Nilai Hasil Imputasi pada Metode Imputasi Regresi LTS 38

Tabel 4.6. Tabel ER Parameter pada Metode Imputasi PMM . . . . . . . 39

Tabel 4.7. Tabel ER Parameter pada Metode Imputasi Regresi LTS. . . . 39

Tabel 4.8. Tabel Nilai ER Hasil Imputasi ke-2 ,3, 4 dan 5 pada Metode

Imputasi PMM dan Regresi LTS . . . . . . . . . . . . . . . . 40

ix


11/57

DAFTAR GAMBAR

Gambar 2.1. PolaMissing Data, baris menyatakan observasi dan kolom

menyatakan variabel . . . . . . . . . . . . . . . . . . . . . 7

Gambar 3.1. Tahapan Penelitian . . . . . . . . . . . . . . . . . . . . . . 28

Gambar 4.1. Boxplot VariabelX1 . . . . . . . . . . . . . . . . . . . . . . 30





Gambar 4.6. Plot Laju ER PMM dan Regresi LTS . . . . . . . . . . . . . 40

x


12/57

BAB I

PENDAHULUAN

1.1 Latar Belakang Masalah

Tugas pokok Badan Pusat Statistik (BPS) seperti tertuang pada Undang-

undang Nomor: 16 tahun 1997 tentang statistik Bab VI pasal 11 menyatakan BPS

sebagai satu-satunya lembaga yang berhak menyelenggarakan kegiatan statistik

dasar, berkewajiban memberi masukan berupa data statistik kepada pemerintah,

seperti tertuang dalam tugas pokok BPS pada Undang-undang Nomor: 16 tahun

1997 tentang statistik Bab VI pasal 11. Salah satu tugas pokok BPS adalah

melakukan kegiatan statistik di bidang perindustrian yaitu menyelenggarakan

Survei Tahunan Industri Pengolahan Besar dan Sedang (Survei IBS). Permasalahan

yang biasa ditemui dalam Survei IBS adalah missing datakarena nonrespons.

Pencegahan dan penanganan nonrespons seperti dua sisi mata uang pada

sebuah koin. Pencegahan adalah hal pertama yang harus dilakukan untuk

mengurangi nonrespons. Nonrespons tidak sepenuhnya dapat dicegah sehingga

penanganan nonrespons menjadi penting pada saat akan dilakukan analisis (Leeuw

et al.,2003).

BPS telah melakukan beberapa cara untuk meminimalkan nonrespons, yaitu:

1. Menyederhanakan kuesioner hanya terdiri dari 4 lembar pertanyaan.

2. Membuat kuesioner lebih menarik dengan jenis huruf yang menarik dan

mudah dibaca, juga sedikit warna, didalamnya juga terdapat instruksi

pengisian kuesioner dalam bahasa Indonesia dan bahasa Inggris.

3. Di bagian sampul kuesioner disebutkan RAHASIA, untuk menjamin

kerahasiaan responden yang dijamin dalam Undang-undang Nomor: 16 tahun

1997 tentang statistik.

1


13/57

2

4. Memberikan souveniratau leafletyang berisi informasi mengenai hasil dari

pengumpulan data secara agregat.

5. Melakukan follow up, baik melalui kunjungan ulang ataupun telepon untuk

mengingatkan responden.

6. Mengantar kuesioner dan mengambilnya kembali setelah selesai diisi.

Meskipun langkah-langkah tersebut telah dilakukan, tetapi nonrespons tetap tidak

dapat dihindarkan. Beberapa alasan yang menyebabkan nonrespons dalam SurveiIBS di Provinsi Kepulauan Riau adalah perlindungan dari pihak kawasan industri

yang sangat ketat dan dinamisnya pergantian manajemen dalam perusahaan

sehingga personel yang baru terkendala dalam pengisian kuesioner dan bahkan

menolak untuk mengisi kuesioner.

Penanganan missing data menurutLittle and Rubin(1987) ada tiga macam,

yaitu:

1. Complete case analysis dengan membuang observasi yang terdapat missing

value maka estimasi mengarah kepada standard error yang lebih besar

dikarenakan jumlah sampel yang berkurang.

2. Available case analysis terjadi ketika satu atau lebih gugus variabel yang

terdapatmissing value dibuang dari pengamatan untuk kemudahan analisis.

Penghilangan satu variabel yang penting ketika akan menganalisa hubungan

sebab akibat akan menyebabkan salah penafsiran.

3. Membuang beberapa observasi atau variabel bukanlah solusi yang baik

berkaitan dengan bias dan presisi. Pendekatan lainnya adalah mengganti

missing valuedengan suatu nilai, metode ini disebut metode imputasi.

Lessler and Kalsbeek(1992) menggunakan istilahincomplete datayang sama

maknanya denganmissing data. Missing data berhubungan dengan permasalahan


14/57

3

noncoverage, unit nonresponse dan item nonresponse. Pada Survei IBS non-

coverage diminimalisir dengan melakukan updating Direktori perusahaan IBS

setiap tahunnya sebelum pencacahan dengan kuesioner dilakukan, yaitu dengan

cara menghapus perusahaan yang tutup permanen dari daftar dan menambahkan

perusahaan baik yang baru beroperasi secara komersil pada tahun pencacahan atau

sudah beroperasi komersil sebelumnya tetapi belum tercatat di dalam Direktori.

Daftar nama calon perusahaan baru yang akan dimasukkan ke dalam Direktori

biasanya diambil dari pencatatan oleh instansi lain atau sumber lain. Kemudian

dilakukan pengecekan awal seperti melihat keberadaan perusahaan, kesesuaian

jumlah tenaga kerja, status permodalan perusahaan dan jenis produksi utama.

Permasalahan unit nonresponsedanitem nonresponseterjadi di dalam Survei

IBS, tetapi penelitian ini difokuskan kepada permasalahan item nonresponse. BPS

melakukan estimasi untuk setiapunit nonresponsedengan menggunakan informasi

pertumbuhan nilai tambah dan rasio antar variabel pada unit observasi yang respons

dan melakukan imputasi untuk setiap item nonresponse dengan memperhatikan

rasio antar variabel pada unit observasi respons yang terdekat.

Survey IBS termasuk mail survey, hanya tidak dikirim lewat pos tetapi

diantar dan diambil kembali oleh petugas BPS, jarang sekali terdapat proses

wawancara pada pelaksanaannya. Hal tersebut menjadi salah satu penyebab

terjadinya item nonresponse. Penafsiran yang berbeda dengan maksud pertanyaan,

pihak manajemen perusahaan menganggap establishmentnya adalah jasa industri

(makloon) sehingga pertanyaan bahan baku dan bahan penolong yang dipakai

selama tahun 2008 (dalam 000 Rupiah) tidak terisi tetapi dapat mengisi

pertanyaan barang-barang yang dihasilkan (dalam 000 Rupiah). Item nonresponse

menyebabkan lubang dalam kumpulan data yang disebut missing value, oleh

karena itu dibutuhkan metode imputasi untuk memperoleh kumpulan data yang

lengkap sehingga analisis data dapat dilakukan. Keadaan lain yang nyata terjadi


15/57

4

pada Survei IBS adalah outlier. Outlier terjadi karena cakupan Survei IBS itu

sendiri yaitu perusahaan berskala sedang dan besar, status permodalan perusahaan

berasal dari dalam negri (PMDN) dan dari luar negri (PMA).

1.2 Identifikasi Masalah

Pertanyaan-pertanyaan mengenai struktur pengeluaran dan pendapatan pada

akhirnya diperlukan untuk menghitung nilai tambah (value added) suatu produk

barang ataupun jasa. Terjadinyaitem nonresponse pada salah satu dari komponen

pengeluaran akan mengakibatkan perhitungan nilai tambah menjadi over estimate

apabila permasalahan ini tidak ditangani.

BPS mengelompokan unit-unit observasi berdasarkan klasifikasi

industri yang disebut Klasifikasi Baku Lapangan Usaha Indonesia (KBLI).

Pengelompokkan unit-unit observasi ke dalam KBLI tidak dapat mencegah

kehadiran outlier dengan asumsi bahwa jawaban responden adalah benar, karena

responden sendiri yang menjawab pertanyaan-pertanyaan di dalam kuesioner.

Sebagian besar metode imputasi dengan mekanisme Missing Completely at

Random (MCAR) dan Missing at Random (MAR) mengasumsikan multivariat

normal, jika data mengandung outlier maka asumsi ini menjadi tidak valid.

Langkah selanjutnya yang harus dihadapi adalah:

1. Bagaimana mengatasimissing valuemelalui metode imputasi pada data yang

terdapatoutlier? Metode apa yang sesuai dengan masalah ini?

2. Bagaimana efisiensi hasil imputasi antara metode imputasi PMM

dibandingkan dengan imputasi Regresi LTS bila terdapatoutlier?


16/57

5

1.3 Tujuan Penelitian

Berdasarkan latar belakang dan identifikasi masalah diatas, maka tujuan

penelitian ini adalah untuk mengetahui metode terbaik dalam mengatasi missing

valuepada Survei IBS ketika data yang digunakan terdapatoutlier.

1.4 Manfaat Penelitian

1. Manfaat dari penelitian ini adalah sebagai kontribusi wawasan keilmuan dan

pengetahuan mengenai metode imputasi yang robustterhadapoutlier.

2. Metode yang dihasilkan menjadi salah satu alternatif yang dapat digunakan

oleh BPS untuk mengatasi missing datapada Survei IBS.

1.5 Batasan Masalah

1. Permasalahan dibatasi dengan cakupan data Survei IBS Provinsi Kepulauan

Riau tahun 2008 pada KBLI 32100 yaitu kelompok perusahaan yang

memproduksi tabung, katup elektronik dan komponen elektronik lainnya

dengan jumlah unit observasi terbanyak dari seluruh KBLI 5digityang ada.

2. Metode yang digunakan terkait hasil eksplorasi data dengan pola missing data

univariat dan asumsi mekanismemissing datayaituMissing At Random.


17/57

BAB II

TINJAUAN PUSTAKA

Lessler and Kalsbeek (1992) menjabarkan tentang noncoverage, unit

nonresponse dan item nonresponse dilihat dari penyebabnya. Item nonresponse

terjadi ketika ada pertanyaan di dalam kuesioner yang seharusnya dijawab tetapi

tidak dijawab atau terhapus ketika proseseditingdan dataentry. Unit nonresponse

terjadi jika tidak ada tanggapan dari unit observasi yang terpilih sebagai sampel.

Penyebab terjadinya unit nonresponse adalah diantaranya karena sampel terpilih

tidak berada di tempat, kendala bahasa antara pewawancara dengan sampel terpilih,

kesulitan pengaturan jadwal pertemuan atau karena sampel terpilih memang

menolak untuk memberi jawaban dan lain sebagainya. Noncoverage adalah

kesalahan tidak memasukkan beberapa unit observasi ke dalam target populasi.

2.1 PolaMissing Data

MatriksY adalah sebuah matriks berukuran n x k, data tanpa missing value

dengan elemen yi j, yaitu nilai variabel ke-j pada unit ke-i. Matriks M adalah

matriks missing data,mi j= 1 jikayi jadalah missing value dan mi j= 0 jikayi jbukan

missing value. Selanjutnya M akan menggambarkan pola missing data. Gambar

2.1. menunjukkan contoh dari pola missing data (Little and Rubin, 2002 dalam

Chaimongkol(2005)).

1. Pola (a) disebutmissing dataunivariat yaitu dimana hanya satu variabel yang

terdapatmissing data.

2. Pola (b) adalah bentuk dimana satu blokmissing datauntuk kasus yang sama

dan variabel lainnya komplit. Hal ini terjadi pada survei sampel yang terdapat

unit nonresponse sehingga kuesioner tidak terisi dan terdapat beberapa unit

6


18/57

7

nonresponselainnya.

Gambar 2.1. Pola Missing Data, baris menyatakan observasi dan kolom

menyatakan variabel

3. Pola (c) disebut monotone missing data, terjadi ketika observasi variabel

Y1 lebih banyak dari Y2 dan observasi variabel Y2 lebih banyak dari Y3

dan seterusnya. Missing data univariat adalah kasus khusus dari monotone

missing data yang terjadi pada penelitian longitudinal dimana subjek

penelitian keluar dari penelitian sebelum penelitian berakhir dan tidak per-

nah kembali.

4. Pola (d) adalah pola umum missing data, dikenal juga dengan item

nonresponse pada kuesioner, missing value dapat terjadi pada variabel

manapun. Item non responsebiasanya ditangani dengan metode imputasi.


19/57

8

5. Pola (e) dinamakanfile matching pattern, ketika dua buah kumpulan variabel

tidak pernah terobservasi secara bersama-sama maka parameter dari kedua

variabel ini tidak dapat diestimasi, jika dipaksakan akan berakibat pada

penafsiran yang salah.

6. Pola (f) disebut faktor analisis. Terjadi ketika X adalah variabel laten

dan terdapat variabel pengukuran Y, pola seperti ini adalah analisis regresi

multivariat Y terhadapX, dan dibutuhkan beberapa asumsi.

2.2 MekanismeMissing Data

Terdapat tiga macam mekanismemissing data:

1. Missing Completely at Random(MCAR)

Sebuah variabel dikatakan MCAR bila peluang hilangnya sama untuk semua

unit. Sebagai contoh, jika setiap responden memutuskan untuk menjawab

pertanyaan tentang pendapatan dengan mengundi sebuah dadu, menolak

menjawab jika muncul dadu mata enam. Jika data MCAR, maka membuang

observasi dari kumpulan data tidak akan menyebabkan bias pada inferensi

statistik.

2. Missingness at Random(MAR)

Kebanyakan missing data bukanlah MCAR. MAR terjadi jika peluang

hilangnya data bergantung pada ketersediaan informasi. Pola missing data

dapat dilacak atau dapat diprediksi dari variabel-variabel lain. Sebuah

variabel yang hilang dipengaruhi oleh nilai-nilai dari variabel lainnya.

Sebagai contoh pertanyaan tentang jenis kelamin, umur, suku bangsa,

pendidikan, dan pendapatan ditanyakan untuk semua orang yang terkena

sampel. Maka pertanyaan pendapatan adalah MAR, karena tidak semua orang


20/57

9

mempunyai pendapatan.

3. Nonignorable Missing at Random(NMAR)

Mekanisme hilangnya data bergantung pada missing value itu sendiri. Pola

dari data yang hilang tidak random dan tidak dapat diprediksi dari variabel-

variabel lain. Contoh, misalkan orang yang mempunyai pendapatan tinggi

cenderung untuk menolak menjawab pertanyaan mengenai pendapatan.

2.3 Tinjauan Kritis

Metode penanganan missing data berkembang dari masa ke masa.

Chaimongkol (2005) dalam disertasinya memperkenalkan tiga jenis kombinasi

imputasi antara regresi dannearest neighbour, yaituNearest Neighbour Regression

Imputation (NNR), Weighted Nearest Neighbour Regression Imputation (WNR)

dan Distance Regression Imputation (DRI). Meskipun metode ini menghasilkan

estimator yang bias tetapi dapat diabaikan dan akan menuju nol bila persentase data

hilang kurang dari lima belas persen.

Carpenter and Kenward (2006) melakukan perbandingan regresi Least

Squares(LS),doubly robust, multiple imputation dan inverse probabilty weighting

(IPW) pada 2.000 data hasil simulasi berdistribusi normal yang mempunyai empat

dimensi. Dari penelitiannyaCarpenter and Kenward(2006) menyimpulkan bahwa

doubly robust sangat sensitif bila digunakan pada multivariate response model.

Kemudian diperkenalkan doubly robust IPW untuk variabel kategorik dan jika

peluang hilangnya data ekstrim. Metode ini merupakan salah satu metode alternatif

untuk melakukan analisis pada ilmu-ilmu sosial jika terdapat observasi yang hilang.

Perangkat lunak untuk teori tersebut masih terus dikembangkan.

Hron et al. (2008) mengelompokkan teknik imputasi ke dalam empat kategori:

1. Metode univariat, contoh: imputasi mean. Metode imputasi mean berguna


21/57

10

jika mekanismemissing dataadalah MCAR atau jumlahmissing datasedikit

dan bila tidak terdapat variabel prediktor. Ini merupakan cara termudah untuk

mengimputasi yaitu mengganti missing data dengan nilai tengah tetapi hal

ini dapat menyebabkan estimasi varians dari populasi menjadiunderestimate

(Chaimongkol,2005).

2. Metode imputasi berdasarkan jarak, contoh: imputasi k-nearest neighbour

3. Metode imputasi berdasarkan kovarians, contoh: imputasi Algoritma

Expectation Maximization (EM). Metode ini merupakan metode iterasi

penggabungan antara complete data analysis dan penaksiran statistik yang

efisien. Proses iterasinyaslowkonvergen karena perbedaan antara iterasi ke

iterasi berikutnya sangat kecil sehingga kita tidak tahu kapan harus berhenti

dari proses iterasi dan EM tidak dapat memberikan informasi mengenai

varians.

4. Metode imputasi berdasarkan model, contoh: imputasi regresi.

Berdasarkan pola missing data dan tipe variabel yang akan diimputasi,

diberikan rekomendasi seperti pada Tabel2.1.(SAS/STAT 9.2Users Guide).

Tabel 2.1. Metode Imputasi berdasarkan tipe variabel yang diimputasi

PolaMissing Data Tipe variabel Metode

yang akan diimputasi

Monoton Kontinyu Regresi

Komposit (PMM)

Propensity Score

Monoton Klasifikasi (Ordinal) Regresi Logistik

Monoton Klasifikasi (Nominal) Metode Fungsi Diskriminan

Arbitary Kontinyu MCMCFull-Data Imputation

MCMCMonotone-Data Imputation

Metode propensity score pada awalnya digunakan untuk percobaan pada

pengukuran variabelresponseyang berulang. Setiap variabel dengan missing data


22/57

11

dibuatpropensity score pada setiap observasi untuk mengestimasi peluang observasi

tersebut hilang. Observasi dikelompokkan berdasarkanpropensity scorekemudian

imputasi dengan menggunakan approximate bayesian bootstrap diterapkan pada

setiap kelompok. Metode propensity score tidak menggunakan korelasi antar

variabel dan tidak cocok untuk analisis hubungan antar variabel, seperti regresi.

2.3.1 MetodePredictive Mean Matching

Metode komposit pertama kali diperkenalkan olehRubin(1987) kemudian

dikembangkan oleh Little (1988) untuk mengatasi multivariat nonrespons. Little

(1988) memperkenalkan metode komposit yang disebutPredictive Mean Matching.

Pada dasarnya metode ini adalah sama dengan metode regresi, yang membedakan

adalah untuk setiap nilai yang hilang diimputasikan dari nilai observasi yang

terdekat dari model (Rubin, 1987). Metode PMM menjamin bahwa nilai-nilai

yang diimputasikan adalah lebih masuk akal dan kemungkinan akan lebih tepat

dibandingkan metode regresi apabila asumsi kenormalan tidak terpenuhi (Horton &

Lipsitz,2001).

Basuki (2009) mendukung pernyataan Horton and Lipsitz (2001), dalam

penelitiannya digunakan data Survei IBS tahun 2007 Provinsi Jawa Timur untuk

KBLI 17115 (kain tenun ikat) dengan asumsi kenormalan dipenuhi, dan KBLI

19201 (alas kaki) dengan asumsi kenormalan tidak dipenuhi. Pola missing data

nya univariat pada variabel Y(nilai Produksi).

Thibaudeau et al.(2006) dalam laporan penelitian tentang penggunaan PMM

untuk assets dan liabilities pada Survey of Income and Program Participation,

menyebutkan salah satu alternatif metode imputasi yang dilakukan untuk X

(Mortgage Amount) dan Y (Property Value) sebagai variabel-variabel kontinyu, jika

Yresponse danXhilang dapat menggunakan PMM dengan syarat nilai Y>0.

Metode imputasi PMM dan regresi adalah yang paling memungkinkan untuk


23/57

12

digunakan dalam penelitian ini karena metode tersebut termasuk metode imputasi

berdasarkan model.

2.3.2 Metode ImputasiRobust

Metode imputasi yang dapat menangani missing data dengan mekanisme

MCAR dan MAR sebagian besar mengasumsikan data berasal dari distribusi

normal multivariat. Asumsi ini menjadi tidak valid ketika terdapatoutlierpada data,

sehingga sebaiknya menggunakan metode imputasi berdasarkan estimasi robust

(Hron et al., 2008). Hron et al. (2008) dalam penelitiannya membandingkan

beberapa metode imputasi yaitu geometric mean, k-nn dengan jarak Aitchison,

regresi LS dengan isometric logratio transformation (ilr), regresi LTS dengan

ilr, imputasi mean, EM, k-nn dengan jarak Euclidian, regresi LS dan LTS

tanpa transformasi. Hron et al. (2008) menyarankan untuk menggunakan regresi

LTS karena robustregresi dapat mengurangi pengaruh kehadiran outlierterhadap

penaksiran parameter regresi (Maronna et al., 2006). Rousseeuw and Driessen

(2006) dalam kajiannya tentang penggunaan Regresi LTS untuk sampel besar

yaitu n = 100, 500, 1.000, 10.000 dan 50.000 dengan data hasil simulasi dan

sampel kecil n = 12, 18, 20, 23, 25 dan 28, menyimpulkan bahwa regersi LTS

sangat robust terhadap outlierdan cepat dalam penghitungannya. Rousseeuw and

Driessen (2006) mengembangkan Algoritma FAST-LTS kemudian dibandingkan

dengan Feasible Subsets Algorithm (FSA). Algoritma FAST-LTS dua kali lebih

cepat dari pada FSA pada sampel kecil dan sepuluh kali lebih cepat pada sampel

besar.

2.3.3 Outlier

Sembiring (1995) mendefinisikan outlier sebagai pengamatan yang tidak

mengikuti pola umum data, ditunjukkan dari residualnya yang besar, yang


24/57

13

mungkin berpengaruh besar terhadap koefisien regresi. Barnett and Lewis(1994)

mendefinisikan outlier sebagai sebuah observasi (atau subset dari observasi)

yang memperlihatkan inkonsistensi dengan sisa data yang lain, pengamatan yang

memperlihatkan penyimpangan sangat mencolok dari anggota sampel lainnya.

Lebih lanjut Barnett and Lewis (1994) membedakan antara observasi ekstrim,

outlierdan contaminant. Observasi ekstrim adalah observasi yang berada di batas

atas atau batas bawah sebuah distribusi. Contaminantsadalah irisan observasi dari

dua buah distribusi. Outlierbelum tentu contaminants dan contaminants belum

tentuoutlier. Outliers sudah pasti observasi ekstrim sedangkan observasi ekstrim

belum tentuoutlier.

Secara umum terdapat tiga buah cara penanganan outlier, yaitu:

1. Menyisihkan outlier dari kumpulan data sebelum dilakukan analisis.

Alternatif pertama bukan lah keputusan yang bijak mengingat data sangat

berharga dan mahal.

2. Menganggap outlier sebagai missing value, lalu menggantikan nilai yang

dianggap hilang dengan suatu nilai dari hasil estimasi. Elliott (2006)

melakukan hal ini dalam penelitiannya, akan tetapi outlier yang terjadi

karena kesalahan pencatatan clerical errors. Perlu diwaspadai ketika data

sudah terdapat missing value, dengan menggantikan outliersebagaimissing

value maka akan menambah jumlah missing value. Chaimongkol (2005)

menyatakan bahwa jumlah missing value yang dapat ditangani oleh suatu

metode imputasi adalah sebesar kurang dari 15%.

3. Mengakomodir outlier dengan menggunakan metode yang robustterhadap

outlier. Alternatif ke-3 yang akan dilakukan dalam penelitian ini.


25/57

14

2.4 Survei Industri Besar dan Sedang (Survei IBS)

Istilah-istilah yang berkaitan dengan Survei IBS (BPS (2006)):

1. Kuesioner II-A adalah jenis kuesioner yang digunakan untuk mengumpulkan

informasi mengenai jumlah perusahaan, status penanaman modal, jumlah

tenaga kerja, pengeluaran untuk pekerja, tenaga listrik, bahan bakar yang

digunakan, biaya input, nilaioutput, nilai tambah dan jual beli barang modal

tetap.

2. KBLI diadopsi dari International Standard Industrial Classification (ISIC)

yang disesuaikan dengan kondisi di Indonesia. KBLI suatu perusahaan

industri ditentukan berdasar pada produksi utamanya, yaitu jenis komoditi

yang dihasilkan dengan nilai paling besar.

3. Industri pengolahan adalah suatu kegiatan ekonomi yang melakukan kegiatan

mengubah suatu barang dasar secara mekanis, kimia atau dengan tangan

sehingga menjadi barang jadi atai setengah jadi dan atau barang kurang

nilainya menjadi barang yang lebih tinggi nilainya, dan sifatnya lebih dekat

kepada pemakai akhir.

4. Jasa Industri adalah kegiatan industri yang melayani keperluan pihak

lain. Pada kegiatan ini bahan baku disediakan oleh pihak lain sedangkan

pihak pengolah hanya melakukan pengolahannya dengan mendapat imbalan

sejumlah uang atau barang sebagai balas jasa (upah makloon).

5. Perusahaan atau usaha industri adalah suatu unit (kesatuan) usaha yang

melakukan kegiatan ekonomi, bertujuan menghasilkan barang atau jasa,

terletak pada suatu bangunan atau lokasi tertentu, dan mempunyai catatan

administrasi tersendiri yang bertanggung jawab atas usaha tersebut.


26/57

15

6. Perusahaan atau usaha industri menurut jumlah tenaga kerja nya dibedakan

menjadi perusahaan besar (>100 orang), perusahaan sedang (20-99 orang),

perusahaan kecil (5-19 orang) dan usaha industri rumah tangga (1-4 orang).


27/57

BAB III

IMPUTASI MISSING VALUEPADA DATA YANG MENGANDUNG

OUTLIER

Eksplorasi data merupakan langkah pertama yang harus dilakukan sebelum

melakukan analisis. Cara termudah yaitu dengan memplot data. Terkait dengan

permasalahan imputasi jika terdapat outlier maka pendeteksian outlier menjadi

bagian dari eksplorasi data. Pemilihan metode imputasi juga didasarkan kepada

hasil eksplorasi data secara keseluruhan mencakup data lengkap dan missing value.

Pendekatan yang digunakan dalam penelitian ini adalah pendekatan

superpopulasi yaitu nilai dari karakteristik dalam populasi dengan N elementer

dinotasikan sebagai y={y1,y2,...,yN} dianggap sebagai realisasi dari variabel

acak{Y1,Y2,...,YN}yang melalui suatu proses stokastik. Proses stokastik biasanya

dinyatakan dalam suatu model yang melibatkan variabel-variabel acak dengan

fungsi distribusi peluang tertentu (Pawitan, 2001). Jika seluruh komponen

dari vektor y diketahui maka N(y) adalah sebuah perkiraan dari parameter

superpopulasi . Jika survei populasi yaitu vektory tidak diketahui seluruhnya,

maka N(y) adalah sebuah parameter untuk survei populasi (Godambe &

Thompson,1986).

3.1 PendeteksianOutlier

Neter et al. (1989) menyatakan identifikasi outlier dengan boxplots, steam

and leaf plots, scatter plots, danresidual plots untuk regresi dengan lebih dari dua

variabel tidaklah memadai. Beberapa univariate outlierbelum tentu merupakan

nilai ekstrim pada model regresi berganda dan beberapa multipel outliers belum

tentu dapat terdeteksi pada analisis satu atau dua variabel.

16


28/57

17

3.1.1 PendeteksianOutlierpada DimensiX

NilaiLaverage(hii)menampilkan nilai pengaruh terpusat, diperoleh dari nilai

diagonal utama hatmatriks(H) yang berukuran n x n. Hat matriks juga dikenal

sebagai matriks prediksi karena memetakan nilai Y menjadi nilai taksiran (Y).

Formulasi hatmatriks:

H=X

XX1

X. (3.1)

NilaiLaverage> 2p/ndiindikasikan sebagai outlier, dengan p adalah banyaknya

parameter dann adalah banyaknya unit observasi.

3.1.2 PendeteksianOutlierpada Dimensi Y

Studentized deleted residual merupakan nilai residual yang distandarkan

dengan menghilangkan pengamatan ke-i dari perhitungan. Studentized deleted

residualdiperoleh dengan menggunakan rumus sebagai berikut:

ti= ei

np1

SSE(1hii) e2i

1/2, i=1,2,...,n, (3.2)

dengan ei adalah residual, SSE adalah jumlah kuadrat residu dan hii adalah nilai

laverage. Bandingkan nilai| ti| dengan nilai t(1;np1), jika| ti|>t(1;np1)

maka unit observasi ke-iadalahoutlier.

3.1.3 Outlieryang Berkaitan denganInfluential Cases

Untuk mendeteksioutlieryang berkaitan dengan influential casesdigunakan

ukuranCooks distance(Di). UkuranCooks distance(Di)diformulasikan dengan:

Di=X

XX1

X

(p + 1)(1hii)

e2i

s2(1hii)

, (3.3)


29/57

18

dengan ei adalah residual, s2 adalah rata-rata kuadrat residu, (p + 1)

adalah banyaknya parameter, dan hii adalah nilai laverage. Suatu data

dianggap berpengaruh jika nilai Di > 1, atau bisa menggunakan kriteria Di >

F((;(p+1),n(p+1))).

3.2 Metode Imputasi PMM

Pada dasarnya metode ini sama dengan metode regresi, yang membedakan

adalah setiap nilai yang hilang diimputasikan dari nilai observasi yang terdekat

dari model (Rubin,1987). Model yang digunakan pada tahapan ini adalah model

regresi linier normal denganY N

X,2

. Vektor =

0 1 2 . . . q

adalah vektor komponen q + 1 dengan q adalah banyaknya variabel prediktor dan

diasumsikan juga bahwanl> q + 1 dengannl jumlah responden yang memberikan

data lengkap.

Bilangan skalar 2

didapatkan dengan membagi 2

l(nl q1) denganbilangan acak g yang dibangkitkan dari distribusi Chi Square dengan derajat

bebas nl q 1. Selain itu, given 2 adalah berdistribusi normal dengan rata-

rata sebesar l dan matriks varians kovarians 2V (Box & Tiao, 1973). Dalam

terminologi statistik kuadrat terkecil berdasarkan pada nl dapat dituliskan sebagai

berikut:

2l =YYlX

Y

nl q1 (3.4)

l= V

XY

(3.5)

V=

XX

1(3.6)

Tahap-tahap berikut dilakukan untuk menghasilkan nilai yang akan diimputasikan


30/57

19

pada setiap imputasi:

1. Hitung nilai2dengan menggunakan persamaan:

2=2l(nl q1)/g, (3.7)

dengan

2l adalah varian dari data lengkap

nl jumlah responden yang memberikan data lengkap

g adalah variabel random yang dibangkitkan dari distribusi Chi Square

dengan derajat bebasnl q1 (2nlq1

)

2. Tentukan q + 1 buah variabel independen berdistribusi Normal (0,1) untuk

membuatq + 1 komponen vektorZ, kemudian hitung nilai menggunakan

persamaan:

= l+ [V]1/2Z, (3.8)

dengan [V]1/2 adalah akar ciri dari V yang merupakan matriks segitiga atas

yang diperoleh dengan menggunakan dekomposisiCholesky.

3. Ymis(data yang hilang) diprediksi menggunakan persamaan:

Yi= Xi, (3.9)

dengan i adalah anggota item nonresponden (unit observasi yang terdapat

missing data). Untuk setiapYi dengani adalah anggota item nonresponden,

ambil responden yang mempunyai nilai Yidenganiadalah anggota responden

yang nilainya paling dekat dengan nilai Yi, kemudian nilai tersebut

diimputasikan pada data yang hilang.


31/57

20

3.3 Metode Imputasi Regresi LTS

Asumsi Gaus-Markov harus dipenuhi sehingga dengan metode OLS akan

diperoleh estimator yang bersifat unbias dan variansnya minimum yang biasa

disebut dengan Best Linier Unbiased Estimator (BLUE). Asumsinya adalah rata-

rata residual model adalah nol untuk semua pengamatan, tidak terdapat korelasi

antar kekeliruan, setiap residual mempunyai varians yang sama, residual dan

variabel bebas saling independen. Analisis regresi multipel dengan menggunakan

OLS rentan terhadap outlier karena kehadirannya dapat menyebabkan varians

residual tidak lagi homogen atau menjadi besar. Akibatnya selang kepercayaan

melebar, taksiran parameter tidak lagi konsisten dan pengujian statistik terhadap

taksiran parameter regresi dan pembuatan selang kepercayaan yang didasarkan

kepada distribusi normal tidak dapat dilakukan. Estimator LTS diusulkan oleh

Rousseeuw (1984) sebagai alternatifrobustuntuk mengatasi kelemahan estimator

OLS. LTS merupakan suatu metode pendugaan parameter regresi robust untuk

meminimumkan jumlah kuadrath residual (fungsi objektif):

=argmin

h

i=1

e2(i:n), (3.10)

dengan

h=n +p + 1

2

nadalah banyaknya pengamatan

padalah banyaknya parameter regresi

Jumlahh menunjukkan sejumlah subset data dengan kuadrat fungsi objektif

terkecil. Nilai h akan membangunbreakdown value yang besar sebanding dengan

50 persen. Breakdown value yaitu jumlah pengamatan minimal yang dapat

menggantikan sejumlah pengamatan mula-mula yang berakibat pada nilai taksiran


32/57

21

yang dihasilkan sangat berbeda dari taksiran sebenarnya. Algoritma FAST-LTS

menurutRousseeuw and Driessen(2006) adalah gabungan LTS dan C-steps.

3.3.1 Ide Dasar dan C-steps

Sebuah kumpulan data(x1,y1) ,...,(xn,yn) terdiri dari pvariabel prediktor xi

dan satu variabel responsyi.H1 {1,...,n} dengan |H1 |= hdanQ1:=iH1

(e1(i))2

dengan e1 (i) = yi

11xi1+

12xi2+ ...+

1pxip

untuk semua i = 1,...,n. 1 =

11,21,...,p1

adalah vektor px1. Selanjutnya H2 sedemikian rupa sehingga

{| e1(i) |;i H2}:={| e1 |1:n,..., | e1 |h:n} dengan |e1 |1:n|e1|2:n... | e1 |n:n

adalah order dari nilai absolut residual, kemudian hitung 2 dengan LS dari h

observasi dalamH2. Dihasilkan e2(i) untuk semua i = 1,...,n dan Q2=iH2

(e2(i))2

.

Tahapan algoritma C-stepsadalah sebagai berikut:

1. Terdapat h-subsetsHold, lalu hitungolddengan LS berdasarkanHold

2. Hitung residualeold(i)untuk semuai=1,...,n

3. Urutkan nilai absolut residual dari terkecil sampai terbesar yang

menghasilkan permutasi untuk | eold((1)) || eold((2)) | . . . |

eold((n)) |

4. AmbilHnew:= {(1) ,(2) , . . . ,(h)}

5. Hitungnewdengan LS berdasarkanHnew.

6. Lakukan sampaiQm= Qm1 dengan urutan Q1 Q2 Q3 . . .nilai yang

nonnegatif dan konvergen.

3.3.2 AlgoritmaFAST-LTS

Tahapan algoritmaFAST-LTS adalah sebagai berikut:


33/57

22

1. Nilai h = [(n +p + 1)/2] yang sudah default, tetapi boleh memilih

suatu bilangan integer h dengan (n +p + 1)/2 h n. Jika yakin

terdapat contaminant kurang dari dua puluh lima persen pada data,

untuk mendapatkan breakdown value dan efisiensi sekaligus maka dapat

menggunakan h= [0,75n].

2. Jika p=2 dann kecil (sebut saja n=600) maka:

a. Ulangi sampai beberapa kali (sebut saja 500 kali). Bangun sebuah inisial

h-subset H1, kemudian lakukan dua langkah C-steps.

b. 10 hasil denganQ3terendah lakukan C-stepssampai konvergen

3.3.3 Tahapan Imputasi Regresi

Tahapan imputasi regresi:

1. Hitung nilai2dengan menggunakan persamaan:

2=2l(nl q1)/g, (3.11)

dengan

2l adalah varian dari data lengkap

nl banyak responden yang memberikan data lengkap


dengan derajat bebasnl q1 (2nlq1

)

2. Tentukan q+1 buah variabel independen berdistribusi Normal (0,1) untuk

membuat q+1 komponen vektorZ, kemudian hitung nilai menggunakan

persamaan:

= l+ [V]1/2Z, (3.12)


34/57

23

dengan [V]1/2 adalah akar ciri dari V yang merupakan matriks segitiga atas

yang diperoleh dengan menggunakan dekomposisi Cholesky.

3. Ymis

(data yang hilang) diprediksi dengan:

Yi= Xi +zi, (3.13)

dengani adalah anggota nonresponden (unit observasi yang terdapat missing

data) danzi adalah nilai berdistribusi normal (0,1) hasil simulasi.

Nilai yang akan diimputasikan pada Ymis dilakukan dengan mengambil nilai

yang baru bagi parameter2. Apabila ingin dilakukan imputasi sebanyakm

kali, maka ketiga langkah diatas diulang sebanyakm kali secara independen

(Rubin 1987: 166-167).

3.4 Efisiensi dari Imputasi Berganda

Qi adalah estimasi titik dan Wi estimasi varians dari data set hasil imputasi

ke-i dimanai=1,2,3,...,m. Rata-rata Qi darim buah imputasi adalah:

Q= 1

m

m

i=1

Qi, (3.14)

dengan m adalah banyaknya pengulangan imputasi. Rata-rata Wi adalah rata-rata

varians dalam imputasi kei, yaitu:

W= 1

m

m

i=1

Wi. (3.15)

Badalah varians antar imputasi, formulasi nya adalah sebagai berikut:

B=

1

m1

m

i=1

Qi Q2

(3.16)


35/57

24

Tadalah total dari varians, formulasi nya adalah sebagai berikut:

T= W+

1 +

1

m

B (3.17)

Statistik dari

QQ

T1/2 mengikuti distribusitdengan derajat bebasvm(Rubin,

1987), dengan formulasivmadalah sebagai berikut:

vm= (m1) +1 + W

(1 + m1)B2

(3.18)

Besarnya derajat bebas vm tergantung padamdan rasio r. Statistikrdidefinisikan

sebagai pertambahan relatif dari varians akibat nonrespons (Rubin, 1987).

Formulasi vmadalah sebagai berikut:

r=

1 + m1

B

W(3.19)

Nilai r= 0 karena jika tidak ada informasi Q maka B adalah nol. Nilai m yang

besar mengakibatkan nilairyang kecil dan derajat bebas darivmakan menjadi besar

sehingga distribusinya akan mendekati normal. Statistik lain yang sangat berguna

berkaitan dengan nonrespons adalahfractiondari informasiQ. Fractionmerupakan

sebuah nilai yang berpengaruh terhadap kecepatan konvergensi terhadap suatu nilai.

Semakin besar fraction pada informasi Q maka konvergensinya semakin lambat.

Fractiondapat dicari dengan menggunakan persamaan:

=r+ (2/(vm+ 3))

r+ 1 (3.20)

Efisiensi relatif (ER) adalah efisiensi yang diperoleh dengan menggunakanm buah

imputasi terbatas (finite) dibandingkan dengan jumlah tidak terbatas (infinite). Pada

kasus dengan hanya sedikit informasi yang hilang, hanya diperlukan sejumlah kecil


36/57

25

pengulangan imputasi. Menurut Yuan (2001), nilai efisiensi relatif biasanya berkisar

antara 80 sampai 100 persen. Efisiensi Relatif diperoleh dari fungsi m dan ,

formulasinya adalah:

ER=

1 +

m

1x 100% (3.21)

Nilai ER yang tinggi menunjukkan bahwa metode imputasi yang digunakan

memiliki efisiensi yang besar yang artinya dengan tidak terlalu banyak melakukan

pengulangan, nilai imputasi yang dihasilkan sudah mendekati hasil imputasi yang

dilakukan dengan jumlah tidak terbatas (infinite).

3.5 Tahapan Penelitian

Tahapan-tahapan penelitian adalah sebagai berikut:

1. Mengelompokkan perusahaan industri menjadi dua kelompok, unit

nonresponse dan unit response (nonresponden dan responden). Dari

kelompok responden dikelompokkan menjadi dua kelompok yaitu kelompok

yang menjawab semua pertanyaan dan kelompok yang terdapat item

nonresponse.

2. Melakukan analisa pola missing data kelompok yang terdapat item

nonresponse. Melakukan analisa deskriptif pada variabel yang digunakan

dalam penelitian.

3. Penanganan missing data

a. Memodelkan variabel pada kelompok responden yang menjawab semua

pertanyaan sebagai berikut X5 =0+ 1X1+ 2X2+ 3X3+ 4X4+

menggunakan regresi LS, denganX1adalah nilai pendapatan,X2adalah

banyaknya upah gaji yang dibayarkan,X3 adalah bahan bakar, pelumas


37/57

26

dan tenaga listrik yang digunakan; X4 adalah banyaknya pengeluaran

lain danX5adalah banyaknya bahan baku yang digunakan.

b. Melakukan pendeteksianoutlier.

c. Melakukan imputasi dengan metode imputasi PMM

d. Memodelkan variabel menggunakan regresi LTS

e. Melakukan imputasi dengan metode imputasi regresi

4. Membandingkan hasil imputasi yang didapat dari kedua metode imputasi

dengan Efisiensi Relatif

3.6 Variabel Penelitian

Variabel yang digunakan adalah sebagai berikut:

1. Pendapatan (X1) yaitu nilai (dalam ribuan rupiah) dari semua barang yang

dihasilkan baik yang diekspor maupun tidak diekspor, termasuk di dalamnya

jasa industri, selisih nilai stok barang produksi setengah jadi, listrik yang

dijual dan pendapatan lainnya yang berasal dari keuntungan penjualan barang

yang tidak diproses, jasa-jasa non industri lainnya, penjualan limbah/sampah

produksi.

2. Upah gaji pekerja/karyawan (X2) yaitu nilai (dalam ribuan rupiah) upah

gaji pekerja/karyawan yang dibayarkan selama tahun 2008. Termasuk di

dalamnya insentif lain yang dibayarkan baik untuk pekerja produksi dan

pekerja lainnya.

3. Bahan bakar, pelumas dan tenaga listrik yang digunakan (X3) yaitu nilai

(dalam ribuan rupiah) dari seluruh bahan bakar dan pelumas yang betul-betul

dipakai selama tahun 2008 seperti bensin, solar, minyak tanah, batu bara dan


38/57

27

bahan bakar lainnya + banyaknya tenaga listrik yang dibeli dari PLN dan atau

nonPLN.

4. Pengeluaran lain selama tahun 2008 (X4) nilai (dalam ribuan rupiah)

untuk pengeluaran sewa gedung, mesin, serta alat-alat dan tanah, pajak

tidak termasuk pajak upah dan pajak perseorangan, biaya jasa industri

yang digunakan, bunga atas pinjaman, hadiah, sumbangan, derma dan

sejenisnya, pengeluaran lainnya termasuk biaya representasi, royalti, man-

agement fee, promosi/iklan, air, pos, telepon, fax, perjalanan dinas, pencega-

han pencemaran lingkungan, biaya penelitian, biaya peningkatan SDM.

5. Banyaknya bahan baku dan penolong(X5) yaitu nilai (dalam ribuan rupiah)

dari seluruh bahan baku serta bahan penolong yang digunakan dalam proses

produksi selama tahun 2008.


39/57

28

Gambar 3.1. Tahapan Penelitian


40/57

BAB IV

HASIL DAN PEMBAHASAN

Tahapan analisis dimulai dengan eksplorasi data kemudian dilakukan

imputasi dengan metode PMM dan metode regresi LTS. Hasil dari kedua metode

tersebut dibandingkan dengan statistik Efficiency Relative (ER). Suatu metode

dikatakan efisien jika ER nya bernilai sama dengan satu.

4.1 Eksplorasi Data

Hasil Survei Industri Besar Sedang di Provinsi Kepulauan Riau tahun

2008 tidak mencapai seratus persen. Tingkat pemasukan dokumen nya hanya

mencapai 83 persen dari total 534 perusahaan. Dari 83 persen terdapat missing

data. Pengelompokkan perusahaan-perusahaan berdasarkan KBLI mempermudah

tahapan eksplorasi data. Pada KBLI 32100 terdapat missing value dan outlier.

Responden (unit observasi yang respons) dikumpulkan ke dalam dua kelompok

yaitu kelompok n0 yang menjawab semua pertanyaan dan kelompok n1 yang

terdapat item nonresponse. Dari 53 responden yang termasuk ke dalam KBLI

32100 n0=47 responden dan n1=6 responden. Tabel 4.1 memperlihatkan bahwa

polamissing datapada penelitian ini adalah pola univariat.

Tabel 4.1. Tabel PolaMissing Data

Responden Variabel

X1 X2 X3 X4 X5

1 0 0 0 0 0...

... ...

... ...

...

n0=47 0 0 0 0 0

1 0 0 0 0 1...

... ...

... ...

...

n1=6 0 0 0 0 1

29


41/57

30

Gambar 4.1. Boxplot VariabelX1



42/57

31




43/57

32


Dari gambar 4.1 - 4.5 terlihat bahwa semua variabel terdeteksi terdapat

outlier. Pada variabel X1 terdeteksi observasi ke-13, 15, 18, 23 dan 47 sebagai

outlier. Pada variabelX2 terdeteksi observasi ke-4, 15, 17 dan 49 sebagai outlier.

Pada variabel X3 terdeteksi observasi ke-4, 6, 15, 17, 18 dan 50 sebagai outlier.

Pada variabel X4 terdeteksi observasi ke-1, 9, 18, 23 dan 49 sebagai outlier. Pada

variabelX5terdeteksi observasi ke-4, 6, 15, 17, 18 dan 50 sebagai outlier.

4.2 PendeteksianOutlier

Terkait dengan permasalahan bahwa data yang akan diimputasi mengandung

outlier maka perlu dilakukan pendeteksian outlier untuk melihat secara jelas

observasi mana saja yang dianggap sebagai outlier. Pada dasarnya imputasi PMM

diawali dengan membuat persamaan regresi dengan metode OLS antara variabel

yang mengandung missing value sebagai variabel respons dengan variabel yang

memiliki data lengkap sebagai variabel prediktornya. Oleh karena itu tahapan

eksplorasi berikutnya adalah melakukan pendeteksian outlier dilakukan dengan


44/57

33

cara melihat nilai laverage, deleted studentized residual dan Cooks Distancedari

masing-masing observasi. Nilailaverage, deleted studentized residual dan Cooks

Distancemasing-masing observasi lihat pada lampiran.

4.2.1 PendeteksianOutlierpada DimensiX

Pengecekanoutlierpada dimensiXdilakukan dengan melihatlaverageuntuk

setiap observasi. Sebuah observasi dikatakan outlier jika nilai laveragenya >

2p/n. Pembentukan persamaan regresi antara variabel materi dengan variabelpendapatan, gaji, bahan bakar pelumas dan pengeluaran lainnya menghasilkan

parameter sebanyak 5 (p=5) dengan observasi sebanyak 47 buah. Oleh karena itu,

didapatkan 2p/n= (2x5)/47=0,21276. Observasi ke 6, 13, 15, 17, 23, 40 dan 47

mempunyailaveragelebih besar dari pada 0,21276.

4.2.2 PendeteksianOutlierpada Dimensi Y

Pengecekan outlierpada dimensi Y dilakukan dengan membandingkan nilai

absolut dari studentized deleted residual terhadap nilai t(1;np1). Dari tabel

distribusi t didapatkan nilai t(0.95;4751) =1,683. Observasi ke 10, 13, 17 dan

23 mempunyai nilai |ti| yang lebih besar dari pada 1,683.

4.2.3 PendeteksianOutlieryang Berkaitan denganInfluential Cases

Pengecekan outlierberkaitan dengan data berpengaruh menggunakan ukuran

Cooks Distance. Suatu data dianggap berpengaruh jika nilaiDi>1. Observasi ke

13, 15, 17 dan 23 adalah data yang berpengaruh.

4.3 Imputasi dengan Menggunakan Metode PMM

PROC MI pada paket program SAS 9.2 digunakan untuk melakukan imputasi

data hilang sebanyak 5 kali. Ulangan imputasi umumnya cukup dilakukan tiga


45/57

34

sampai lima kali (Rubin, 1996). Output dan sintaks pada lampiran. Algoritma

imputasi PMM yaitu sebagai berikut:

1. Langkah pertama yang dilakukan adalah meregresikan data lengkap

(sebanyak 47 buah observasi) dengan metode OLS sehingga menghasilkan

persamaan regresi sebagai berikut:

yi= 5663635 + 0.622x11.62x2+ 2.49x30.893x4 (4.1)

2. Langkah kedua yaitu mencari nilai2dengan menggunakan persamaan:

2=2l(4741)/g, (4.2)

dengan

2

l

=SSE/d f=1.07490E16


dengan derajat bebas 47-4-1 (24741)

3. Langkah ketiga yaitu mencari =

5663635

0.622

1.62

2.49

0.893

+

V

1/2Z dengan

V=

XX

1Z adalah variabel bebas sebanyak q+1 yang dibangkitkan dari distribusi

normal baku N(0,1) dan

V 1/2

adalah adalah matriks segitiga atas yang diperoleh dari dekomposisi

Cholesky.


46/57

35

4. Ymis

(data yang hilang) diprediksi menggunakan persamaan:

yi=0+1x1+2x2+3x3+4x4, (4.3)

Model pada setiap imputasi dihasilkan sebagai berikut:

Tabel 4.2. Tabel Parameter pada Metode Imputasi PMM

Parameter Imputasi ke-

1 2 3 4 5

Intercept 0.031278 -0.13543 0.143468 -0.09983 -0.09802

PENDAPATAN(X1) 1.061884 1.108503 1.167132 1.163257 1.198147

GAJI(X2) 0.167279 -0.14848 -0.23702 -0.27967 -0.34579

BHNBKRPLMS(X3) 0.028362 0.004218 0.082983 0.135629 0.272966

PENGSEWA(X4) -0.91679 -0.59553 -0.69056 -0.8019 -0.75984

Pada imputasi ke-1 untuk variabel Gaji dihasilkan nilai parameter yg positif

tetapi tidak pada ulangan imputasi ke-2 ,3, 4, dan 5. Parameter hasil imputasi

ke-1 tidak konsisten dengan parameter hasil imputasi ke-2 sampai ke-5.

5. Hitung prediksi untuk setiap nilai yang hilang menggunakan persamaan4.3

dengan nilai-nilai dari parameternya tertera pada tabel4.2.

6. Ambil responden yang memiliki data lengkap dengan nilaiyi yang tedekat

dengan yi

7. Lakukan imputasimissing valuedengan menggunakan nilai dari tahap ke 6.

Berikut ini adalah nilai-nilai hasil imputasi berdasarkan paramater-parameter yang

dihasilkan dari tabel 4.4. Sekilas bila dilihat secara kasat mata, maka nilai

hasil imputasi PMM masih masuk akal karena tidak terdapat nilai minus, dalam

penelitian ini variabel pengeluaran bahan baku dan penolong tidak boleh bernilai

minus. Akan tetapi ada beberapa nilai pada imputasi ke-idan ke-i + 1 yang sangat

berbeda jauh. Hal tersebut menunjukkan bahwa metode imputasi PMM tidak cocok

digunakan pada data.


47/57

36

Tabel 4.3. Tabel Nilai Hasil Imputasi pada Metode Imputasi PMM

Observasi Imputasi ke-1 2 3 4 5

1 15,855,718 0 0 326,000 326,000

2 240,000,000 240,000,000 131,869,926 5,706,271 36,314,705

3 136,297,463 13,625,576 36,314,705 13,057,100 28,662,200

4 124,409,480 36,314,705 7,553,811 13,057,100 7,553,811

5 0 5,053,463 1,532,377 326,000 0

6 28,662,200 15,855,718 24,646,582 5,598,720 47,215,925

4.4 Imputasi dengan Menggunakan Metode Regresi LTS

Paket program SAS 9.2 menyediakan paket LTS dengan perintah call LTS.

Koefisien dari hasil regresi LTS selanjutnya digunakan untuk imputasi dengan

metode regresi. Langkah-langkah nya adalah sebagai berikut:

1. Langkah pertama yang dilakukan menentukan subseth= (47 + 4 + 1)/2=

26 setelah dilakukan iterasi dengan PROC IML didapatkan 26 subset terbaik

yaitu observasi ke-3, 5, 11, 15, 16, 20, 21, 23, 24, 25, 27, 28, 29, 30, 31,

33, 35, 36, 37, 38, 39, 40, 41, 43, 44 dan 45. Menggunakan metode OLS

didapatkan persamaan regresi sebagai berikut:

yi= 284561.6438 + 0.99217x11.24224x20.67622x3 1.08837x4

(4.4)

2. Langkah kedua yaitu mencari nilai2dengan menggunakan persamaan:

2=2l(4741)/g, (4.5)

dengan

2l =SSE/d f=3.08717E+ 13

g adalah variabel acak yang dibangkitkan dari distribusi Chi Square dengan


48/57

37

derajat bebas 47-4-1 (24741)

3. Langkah ketiga yaitu mencari =

284561.6438

0.9921733911

1.242240211

0.676226402

1.088368064

+

V

1/2Z

denganV= XX

1

Z adalah variabel bebas sebanyak q+1 yang dibangkitkan dari distribusi

normal baku N(0,1) dan

V

1/2adalah adalah matriks segitiga atas yang

diperoleh dari dekomposisi Cholesky.

4. Ymis

(data yang hilang) diprediksi menggunakan persamaan:

yi=0+1x1+2x2+3x3+4x4+zi, (4.6)

dengan zi adalah nilai yang dibangkitkan dari distribusi normal baku N(0,1)

Model pada setiap imputasi dihasilkan sebagai berikut:

Tabel 4.4. Tabel Parameter pada Metode Imputasi Regresi LTS

Parameter Imputasi ke-

1 2 3 4 5

Intercept -751,642.50 -669,582.90 578,671.68 -547,058.00 -778,612.00

PENDAPATAN(X1) 0.9921734 0.9921734 0.9921734 0.9921734 0.9921734GAJI(X2) -1.24224 -1.24224 -1.24224 -1.24224 -1.24224

BHNBKRPLMS(X3) -0.676226 -0.676226 -0.676226 -0.676226 -0.676226

PENGSEWA(X4) -1.088368 -1.088368 -1.088368 -1.088368 -1.088368

5. Lakukan imputasimissing valuedengan menggunakan persamaan4.6dengan

nilai-nilai dari parameternya tertera pada tabel4.4..

Berikut ini adalah nilai-nilai hasil imputasi berdasarkan paramater-parameter yang

dihasilkan dari tabel 4.2.


49/57

38

Tabel 4.5. Tabel Nilai Hasil Imputasi pada Metode Imputasi Regresi LTS

Observasi Imputasi ke-1 2 3 4 5

1 7,140,577 3,258,824 9,135,643 4,832,130 7,506,269

2 226,459,817 231,826,775 238,445,408 238,645,486 221,926,623

3 21,700,364 18,381,884 31,784,957 22,217,785 25,321,659

4 75,954,984 71,064,833 63,981,323 70,044,146 70,541,831

5 18,376,697 11,111,621 12,725,039 20,056,442 17,323,727

6 35,455,594 31,510,268 33,595,911 44,415,840 35,616,538

Nilai hasil imputasi regresi LTS saling berdekatan pada setiap ulangan

imputasi.

4.5 Perbandingan Efisiensi Relatif Metode Imputasi PMM dan Regresi LTS

Efisiensi Relatif dari metode imputasi PMM dan regresi LTS diperoleh

melalui langkah-langkah berikut ini:

1. Hitung estimasi titik untukQ menggunakan persamaan3.14

2. Hitung varian within imputation (W) dan between imputation (B) seperti pada

persamaan3.15dan3.16

3. Hitung derajat bebas (vm) menggunakan persamaan3.18

4. Hitung besarnya nilai(r)menggunakan persamaan3.19

5. Hitung yaitufractiondari informasi hilangQmenggunakan persamaan3.20

6. Hitung besar ER menggunakan persamaan3.21

Hasil penghitungan secara simultan diperoleh ER untuk metode PMM sebesar

99.5109 persen dan ER untuk metode regresi LTS sebesar 99.9999 persen. Artinya

metode imputasi regresi LTS lebih efisien dibandingkan metode imputasi PMM,


50/57

39

karena tidak perlu melakukan banyak pengulangan untuk menghasilkan nilai

imputasi. Hasil dari penghitungan ER ditampilkan pada lampiran.

Hasil penghitungan ER untuk setiap parameter dapat dilihat pada tabel 4.6

dan tabel 4.7. Setiap parameter yang dihasilkan pada metode imputasi regresi LTS

mempunyai ER yang lebih tinggi dibandingkan dengan paramater yang dihasilkan

dari metode imputasi PMM. Hal ini sejalan dengan kesimpulan yang didapatkan

dari perbandingan ER secara simultan antara kedua metode.

Tabel 4.6. Tabel ER Parameter pada Metode Imputasi PMM

Parameter Relative Fraction Relative

Increase Missing Efficiency

in Variance Information

Intercept 0.011771 0.011701 0.997665

PENDAPATAN(X1) 0.044906 0.043859 0.991304

GAJI(X2) 0.565362 0.399123 0.926076

BHNBKRPLMS(X3) 0.384237 0.303892 0.942704

PENGSEWA(X4) 0.038608 0.037837 0.992489

Tabel 4.7. Tabel ER Parameter pada Metode Imputasi Regresi LTS

Parameter Relative Fraction Relative

Increase Missing Efficiency

in Variance Information

Intercept 0.000207 0.000207 0.999959

PENDAPATAN(X1) 0.00017 0.00017 0.999966

GAJI(X2) 0.002439 0.002436 0.999513

BHNBKRPLMS(X3) 0.002021 0.002019 0.999596

PENGSEWA(X4) 0.0002 0.000199 0.99996

Laju kekonvergenan ER menuju nilai 100 persen dari kedua metode dapat dil-

ihat pada gambar 4.2. Metode imputasi regresi LTS lebih cepat konvergen daripada

metode imputasi PMM. Oleh karena itu secara jelas metode imputasi regresi LTS

mempunyai kinerja yang lebih baik untuk imputasi ketika data terdapat outlier.

Tidak ada aturan khusus dalam pemilihan hasil imputasi mana yang akan dipakai

dari berbagai macam pilihan nilai yang dihasilkan dari hasil pengulangan imputasi.


51/57

40

Merujuk kepada laju kekonvergenan ER suatu metode menuju 100 persen maka

dapat digunakan nilai rata-rata hasil pengulangan imputasi, nilai median atau nilai

modusnya sebagai nilai akhir hasil imputasi untuk menggantikan missing value.

Tabel 4.8. Tabel Nilai ER Hasil Imputasi ke-2 ,3, 4 dan 5 pada Metode Imputasi

PMM dan Regresi LTS

Imputasi ke- ER LTS ER PMM

2 99.9998178041061 93.9282583002513

3 99.9999785790541 98.7333000686382

4 99.9999864200791 99.1747642887182

5 99.9999950275297 99.5109469219189

Gambar 4.6. Plot Laju ER PMM dan Regresi LTS


52/57

BAB V

KESIMPULAN DAN SARAN

5.1 Kesimpulan

Berdasarkan penelitian yang telah dilakukan dapat diambil beberapa

kesimpulan sebagai berikut:

1. Pada beberapa kali ulangan, metode PMM menghasilkan nilai imputasi

sama dengan nol. Hasil imputasi sama dengan nol pada kenyataannya

mungkin terjadi untuk perusahaan makloon tetapi tidak pada perusahaan

bukanmakloon. Nilai nol pada metode PMM terjadi karena proses estimasi

menghasilkan nilai negatif maka kemudian akan dipilih nearest neighbour

dari nilai estimasi. Dalam hal ini, nilai nol adalah nilai yang paling dekat

dengan estimasi bernilai minus. Walaupun cukup baik dilihat dari statistik

ERnya, tetapi melalui beberapa kali ulangan nilai imputasi yang dihasilkan

tidak masuk akal.

2. Penggunaan metode imputasi yang robust terhadap outlier mempunyai

kinerja yang lebih baik dari pada metode imputasi PMM. Metode imputasi

regresi LTS sangat cepat konvergen menuju nilai imputasi yang efisien.

Metode imputasi regresi LTS menghasilkan nilai imputasi yang robust

terhadapoutlier.

5.2 Saran

1. Penelitian ini hanya difokuskan kepada penanganan missing value dengan

pola univariat, seyogyanya bila memungkinkan dapat dikembangkan untuk

polamissing valueyang lain.

41


53/57

42

2. Sebelum melakukan imputasi missing value pada data yang mengandung

outlier sebaiknya harus dipastikan bahwa outlier yang ada terjadi bukan

karena kesalahan pengetikan atau penulisan (clerical errors) tetapi lebih

karena fenomena yang memang benar-benar terjadi.


54/57

DAFTAR PUSTAKA

Barnett, V., & Lewis, T. (1994). Outliers in statistical data. New York: John Wiley

& Sons, Inc.

Basuki, R. (2009). Imputasi berganda menggunakan metode regresi dan metode

predictive mean matching untuk menangani missing data. Naskah tesis yang

tidak dipublikasikan, Institut Teknologi Sepuluh Nopember, Surabaya.

Box, G. E. P., & Tiao, G. C. (1973). Bayesian inference in statistical analysis.

Reading Mass: Addison-Wesley.

Carpenter, J., & Kenward, M. (2006). A comparison of multiple imputation and

doubly robust estimation for analysis with missing data. Journal of Royal

Statistics Society, 0964-1998/06/169000.

Chaimongkol, W. (2005).Three composite imputation method for item nonresponse

estimation in sample survey. Unpublished doctoral dissertation, National

Institute of Development Administration, Thailand.

Chambers, R., & Skinner, C. (2003). Analysis of survey data. New York: John

Wiley & Sons, Inc.

Elliott, M. (2006). Multiple imputation in the presence of outliers (Tech. Rep.

No. 59). University of Michigan School of Public Health. Available from

http://www.bepress.com/umichbiostat/paper59

Godambe, V., & Thompson, M. (1986). Parameters of superpopulation and survey

population: Their relationships and estimation. Internal Statistical Review,

54, 127-138.

Horton, N., & Kleinman, K. (2007). Much ado about nothing: A comparison of

missing data method and software to fit incomplete data regression models.

Journal of the American Statistical Association,61, 79-90.

Horton, N., & Lipsitz, S. (2001). Multiple imputation in practice: Comparison of

software package for regression model with missing variables. Journal of the

American Statistical Association,55, 244-255.

Hron, K., Templ, M., & Filzmoser, P. (2008, Desember). Imputation of missing

value for compositional data using classical and robust methods (Research

report sm-2008-4, Departement of Statistics and Probability Theory). Austria:

Vienna University of Technology. Available from http://www.statistik

.tuwien.ac.at/forschung/SM/SM-2008-4complete.pdf.

Huber, P. (1981). Robust statistics. New York: John Wiley & Sons, Inc.

43
http://www.bepress.com/umichbiostat/paper59http://www.statistik.tuwien.ac.at/forschung/SM/SM-2008-4complete.pdf.http://www.statistik.tuwien.ac.at/forschung/SM/SM-2008-4complete.pdf.http://www.statistik.tuwien.ac.at/forschung/SM/SM-2008-4complete.pdf.http://www.statistik.tuwien.ac.at/forschung/SM/SM-2008-4complete.pdf.http://www.bepress.com/umichbiostat/paper59


55/57

44

Inc., S. I. (2008). Sas/stat 9.2 users guide. Cary, NC: SAS Institute Inc.

Leeuw, E. de, Hox, J., & Huisman, M. (2003). Prevention and treatment of item

nonresponse. Journal of Official Statistics,19, 153-176.

Lessler, J., & Kalsbeek, W. (1992).Nonsampling error in surveys. New York: John

Wiley & Sons, Inc.

Little, R., & Rubin, D. (1987). Statistical analysis with missing data. Cambridge:

John Wiley & Sons, Inc.

Longford, N. (2005).Missing data and small-area estimation. New York: Springer.

Maronna, R., Martin, R., & Yohai, V. (2006). Robust statistics: Theory and

methods. New York: John Wiley & Sons, Inc.

Neter, J., Wasserman, W., & Kutner, M. (1989). Applied linier regression. Boston:

Irwin.

Pawitan, G. (2001). Analysis of aggregated spatial social data. Naskah disertasi

yang tidak dipublikasikan, University of Wollongong, Australia.

Rousseeuw, P. J., & Driessen, K. V. (2006). Computing lts regression for large data

sets. Data Mining and Knowledge Discovery,12, 29-45.

Rousseeuw, P. J., & Leroy, A. M. (1987). Robust regression and outlier detection.

Canada: John Wiley & Sons, Inc.

Rubin, D. (1987). Multiple imputation for nonresponse in surveys. New York: JohnWiley & Sons, Inc.

Sembiring, R. (1995). Analisis regresi. Bandung: Institut Teknologi Bandung.

Statistik, B. P. (2006). Statistik industri besar sedang. Jakarta: BPS.

Thibaudeau, Y., Gottschalck, A., & Palumbo, T. (2006). The predictive-mean

method of imputation for preserving coupling between assets and liabilities

(Research report series of Statistical Research Division). U.S. Census

Bureau.

Yuan, Y. C. (2001). Multiple imputation for missing data: Concept and newdevelopment sas/stat 8.2. Cary NC: SAS Institute Inc. Available from

http://www.sas.com/statistics
http://www.sas.com/statisticshttp://www.sas.com/statistics


56/57

LAMPIRAN


57/57

LAMPIRAN

44

Im Put as i Missing Value

Documents

Transcript of Im Put as i Missing Value