Qualitative Response Regression

QUALITATIVE RESPONSE REGRESSION MODELS

Dalam semua model regresi kita mempunyai pertimbangan, kita secara implisit

mengasumsikan bahwa regresan, variabel dependen, atau respon variabel Y adalah

kuantitatif, sedangkan variabel penjelas kuantitatif, kualitatif (atau dummy), atau

gabungan keduanya. Kenyataannya pada variabel dummy, kita melihat bagaimana

regressor dummy dimasukkan dalam model regresi dan apa peran yang mereka mainkan

dalam siatuasi spesifik.

Dalam bab ibi kita mempertimbangkan beberapa model dimanan regresan

memiliki sifat kualitatif. Meskipun penggunaan secara meningkat dalam berbagai area

ilmu sosial dan riset kedokteran, model regresi respon kualitatif memberikan tantangan

istimasi dan interpretasi yang menarik.

15.1 The Nature of Qualitative Response Models

Dalam analisis regresi seringkali terjadi bahwa variabel tak bebas

dipengaruhi, tidak hanya oleh variabel yang dapat segera dinyatakan secara

kualitatif pada Skala yang didefinisikan dengan baik (misalnya, pendapatan,

hasil, harga, biaya tinggi dan temperatur) tapi juga dengan variabel yang pada

dasarnya bersifat kualitatif (misalnya jenis kelamin, ras, warna kulit, agama,

kebangsaan, perang, gempa bumi, pemogokan, pergolakan politik, dan perubahan

dalam kebijakan ekonomi pemerintah). Misalnya, dengan semua faktor lain dijaga

konstan, guru wanita pada perguruan tinggi ternyata menerima penghasilan

yang lebih rendah dibandingkan dengan rekannya yang pria, dan mereka yang

bukan kulit putih ternyata berpenghasilan lebih rendah dari yang berkulit putih.

Ini mungkin diakibatkan oleh diskriminasi jenis kelamin atau racial, tetapi apapun

alasannya, variabel yang bersifat kualitatif seperti jenis kelamin dan ras memang

mempengaruhi variabel tak bebas dan jelas seharusnya dimasukkan di antara variabel

yang menjelaskan.

Dalam bab ini, kita berusaha menjawab pertanyaan berikut:

1. Bagaimana kita mengestimasi model regresi berespon kualitatif? Dapatkah kita

mengestimasinya secara sederhana dengan prosedur OLS?

R. Gunawan S. dan Yarnest 2

2. Apakah ada masalah-masalah inference khusus? Dengan kata lain, apakah ada

perbedaan prosedur pengujian hipotesis dari prosedur pengujian yang telah kita

pelajari?

3. Jika regresan kualitatif, bagaimana kita dapat mengukur goodness of fit model

tersebut? Apakah R2 hasil penghitungan secara konvensional mempunyai nilai

dalam model tersebut?

4. Bagaimana kita mengestimasi dan menginterpretasi model regresi polychotomous

(multiple category)? Juga, bagaimana kita membuat model di mana regresan

ordinal, seperti variabel kategori berjenjang (kurang dari 8 tahun; 8—11 tahun, 12

tahun; 13 tahun atau lebih) atau regresannya nominal yang tidak memiliki jenjang,

seperti etnik (hitam, putih, asian dan lainnya)?

5. Bagaimana kita melakukan model penomena, seperti jumlah kunjungan ke salah

satu dokter per tahun, jumlah paten yang diterima oleh perusahaan dalam

setahun, jumlah artikel yang dipublikasikan profesor suatu perguruan

tinggi dalam setahun, jumlah panggilan telepon diterima dalam waktu lima

menit, atau jumlah mobil lewat melalui toll dalam waktu 5 menit?

Penomena demikian, disebut menghitung data, atau rare event data,

merupakan contoh proses poisson (probabilitas).

Terdapat tiga pendekatan dalam membahas model probabilitas untuk

variabel berespon binary.

1. Model probabilitas linear

2. Model logit

3. Model probit

15.2 THE LINEAR PROBABILITY MODEL (LPM)

Ide yang pasti, berkaitan dengan model regresi berikut ini:

Yi = β1 + β2Xi + µi (15.2.1)

Dimana X = pendapatan keluarga dan Y = 1 jika keluarga memiliki rumah dan

0 jika keluarga tidak memiliki rumah. Tampaknya seperti model regresi linear biasa

tetapi karena regresannya binary atau dichotomous, disebut dengan model

probabilitas linear (LPM). Hal ini karena secara kondisional ekspektasi Yi atas Xi,

E(Yi/Xi), dapat diinterpretasikan sebagai conditional probability yang akan terjadi atas


Xi, yaitu Pr(Yi = 1/Xi). Pada contoh kita, E(Yi/Xi) memberikan probabilitas keluarga

yang memiliki rumah dan yang pendapatannya berjumlah Xi

Justifikasi LPM sebagai model (15.2.1) dapat ditunjukkan berikut ini:

asumsikan E(µi) = 0, sebagaimana biasa (untuk mendapatkan estimator yang tidak

bias), kita peroleh

E(Yi/Xi) = β1 + β2Xi (15.2.2)

Jika Pi = probabilitas Yi = 1 (peristiwa yang muncul), dan (1 – Pi) =

probabilitas Yi = 0 (peristiwa yang tidak muncul), variabel Yi memiliki distribusi

(probabilitas) sebagai berikut.

Yi Probability 0 1

Total

1 - Pi Pi 1

Yi mengikuti Bernoulli probability distribution.

Sehingga definisi ekspektasi secara matematis diperoleh persamaan:

E(Yi) = 0(1 – Pi) + 1(Pi) = Pi (15.2.3)

Bandingkan persamaan (15.2.2) dengan (15.2.3), kita dapat persamaan

E(Yi/Xi) = β1 + β2Xi = Pi (15.2.4)

Hal itu, ekspektasi model kondisional (15.2.1) yang didapat, kenyataan,

diinterpretasikan sebagai probabilitas kondisional Yi. Secara umum ekspektasi

variabel random Bernoulli adalah probabilitas yang variabel random sama dengan 1.

Jika terdapat percobaan n independen, masing-masing dengan probabilitas p untuk

sukses dan probabilitas (1 – p) gagal, dan X dalam percobaan ini menunjukkan

jumlah sukses, maka X dikatakan mengikuti distribusi binomial. Mean distribusi

binomial Aadalah np dan variannya adalah np(1 – p). istilah sukses didefinisikan

dalam kontek masalah.

Selagi probabilitas Pi harus terbentang antara 0 dan 1, kita punya batasan

0 ≤ E(Yi/Xi) ≤ 1 (15.2.5)

Berarti ekspektasi kondisional (probabilitas kondisional) harus terletak antara

0 dan 1. Dari diskusi sebelumnya nampaknya OLS dapat dikembangkan dengan

mudah ke model-model regresi variabel dependen yang binary.

Non-Normality of the Disturbances ui

Meskipun OLS tidak memerlukan disturbances (ui) untuk terdistribusi secara


normal, kita mengasumsikannya berdistribusi untuk maksud statistik inference.

Tetapi asumsi secara normal untuk ui tidak dapat dipercaya untuk LPM karena,

seperti Yi disturbance ui juga hanya memiliki dua nilai; karenanya juga mengikuti

distribusi Bernoulli. Hal ini dapat terlihat jelas sebagai berikut.

Ui = Yi – β1 – β2Xi (15.2.6)

Probabilitas distribusi ui adalah

ui Probability

when Yi = 1 1 – β1 – β2Xi Pi (15.2.7)

when Yi = 0 – β1 – β2Xi (1 – Pi)

Dengan jelas, ui tidak dapat diasumsikan berdistribusi secara normal; mereka

mengikuti distribusi Bernoulli.

Heteroscedastic Variances of the Disturbances

Jika E(ui) = 0 dan cov(ui, uj) = 0 untuk I ≠ j (tidak korelasi serial), hal ini tidak

dapat dipertahankan bahwa dalam LPM disturbances adalah homoscedastic.

Sebagaimana ditunjukkan teori statistik, untuk distribusi Bernoulli secara teori mean

dan variance secara respek, p dan p(1 – p), dimana p adalah probabilitas sukses

(sesuatu terjadi), menunjukkan bahwa variance adalah fungsi mean. Pembaca akan

memverifikasi

var(ui) = Pi (1 – Pi) (15.2.8)

Varian error dalam LPM adalah heteroscedastic. Selagi Pi = E(Yi|Xi) = β1 –

β2Xi variance ui akhirnya tergantung pada nilai X dan karenanya tidak homocedastic.

Selagi variance ui tergantung pada E(Yi|Xi), satu cara untuk menentukan

masalah heteroscedasticity adalah mentransfor model (15.2.1) dengan membaginya

menjadi

| 1 | = 1 – = say √

Yaitu

= + + (15.2.9)

Transformasi error di (15.2.9) adalah homoscedastic. Oleh karena itu, setelah

estimasi (15.2.1) kita dapat mengestimasi (15.2.9) dengan OLS, hal ini tidak satupun,

tetapi WLS dengan wi sebagai pembobot.


Dalam teori, apa yang telah kita jelaskan adalah benar. Tetapi dalam praktik

kebenaran E(Yi|Xi) tidak diketahui; karenanya bobot wi tidak diketahui. Untuk

mengestimasi wi kita dapat menggunakan dua langkah prosedur berikut ini.

1. Jalankan regresi OLS (15.2.1) walaupun masalah heteroscedasticity dan

mendapatkan Ŷi = estimasi kebenaran E(Yi|Xi). kemudian dapatkan ŵi = Ŷi

(1 - Ŷi), estimasi wi.

2. Menggunakan estimasi wi untuk mentransform data pada (15.2.9) dan

estimsi pentransforman persamaan dengan OLS.

Nonfulfillment of 0 ≤ E(Yi|Xi) ≤ 1

Ketika E(Yi|Xi) pada model probabilitas linear mengukur probabilitas

kondisional munculnya kejadian Y oleh X, hal ini harus benar-benar terletak antara 0

dan 1. Tidak ada garansi bahwa Ŷi estimator E(Yi|Xi), akan benar-benar memenuhi

batasan ini, dan hal ini benar-benar masalah dengan estimasi LPM dengan OLS.

Terdapat dua cara untuk mendapatkan apakah estimasi Ŷi terletak antara 0 dan 1.

1. Estimasi LPM dengan metode OLS dan temukan apakah estimasi Ŷi

terletak antara 0 dan 1. Jika kurang dari 0 (negatif) asumsikan 0 jika lebih

besar 1 asumsikan jadi 1.

2. Teknik estimasi yang akan menjamin bahwa estimasi probabilitas

kondisional Ŷi akan terletak antara 0 dan 1. Model Logit dan Probit akan

menjamin bahwa estimasi probabilitas akan terletak antara batas logika 0

dan 1.

Questionable Value of R2 as a Measure of Goodness of Fit

R2 yang dihitung secara konvensional memiliki nilai terbatas dalam model

respon dichotomous. Untuk mengetahui mengapa, mempertimbangkan figur yang

berikut. Suai dengan ditentukan X, Y adalah 0 atau 1. Oleh karena itu, semua nilai Y

yang manapun akan terletak sepanjang poros X atau sepanjang baris sesuai dengan 1.

Oleh karena itu, biasanya LPM tidak diharapkan untuk menfitkan sebaran yang baik,

apakah itu LPM yang tidak dibatasi (gambar 15.1a) atau LPM dibatasi atau yang

dipotong ujung (gambar 15.1c), suatu LPM memperkirakan sedemikian sehingga tidak

akan jatuh di luar batas logis 0-1. Sebagai hasilnya, R2 yang dihitung secara

konvensional adalah nampaknya akan banyak lebih rendah dari 1 untuk model seperti

R. G

itu

mo

yan

unt

men

den

bah

dih

Gunawan S.

. Dalam apl

del yang sed

ng nyata ada

tuk kasus ter

nggabungka

ngan 0 atau 1

Karena

hwa penggun

hindarkan dal

dan Yarnes

likasi yang p

demikian ak

alah sangat l

rsebut adalah

an dua titik A

1.

pertimbang

naan koefis

lam model d

t

paling prakti

kan tinggi, k

lekat cluster

h mudah un

A dan B. Da

gan ini Yoh

ien determin

dengan varia

is R2 mencak

katakan, lebih

ed di sekitar

ntuk menentu

alam hal ini y

hanes Aldri

nasi/penentu

abel depende

kup antara 0

h dari 0,8 h

r poin-poin

ukan/mempe

yang dirama

ch dan Nel

uan sebagai

ent kwalitatif

0,2 sampai 0

hanya ketika

A dan B (ga

erbaiki garis

alkan Yi akan

lson Forrest

ringkasan s

f.

0,6. R2 dala

yang sebara

ambar 15.1c

lurus denga

n sangat dek

t menetapka

statistik haru

6

am

an

c),

an

kat

an

us


Figure 15.1 Linear Probability Models

LPM: A NUMERICAL EXAMPLE To illustrate some of the points made about the LPM in the preceding section,

we present a numerical example' Table 15.1 gives invented data on home ownership Y(1 = owns a house,0= does not own a house) and family income X (thousands of dollars) for 40 families.From these data the LPM estimated by OLS was as follows:

= -0.9457 + 0.1021Xi (0.1228) (0.0082) (15.2.10) t = (-7.6e84) (12.s1s) Ri : 0'8048

TABLE 15.1 HYPOTHETICAL DATA ON HOME OWNERSHIP (v = 1 lF OWNS HOME, 0 AND INCOME X(THOUSANDS OF DOLLARS)

First, let us interpret this regression. The intercept of -0.9457 gives the

"probability" that a family with zero income will own a house. Since this value is negative, and since probability cannot be negative, we treat this value as zero, which is sensible in the present instance. The slope value of 0.1021 means that for a unitchange in income (here $1000), on the average the probability of owning a house increases by 0.1021 or about 10 percent. Of course, given a particular level of income, we can estimate the actual probability of owning a house from (15.2.10). Thus, for X = 12 ($12,000), the estimated probability of owning a house is

| 12 0.9457 12 0.1021 = 0.2795 That is, the probability that a family with an income of $12,000 will own a

house is about 28 percent. Table 15.2 shows the estimated probabilities, for the various income levels listed in the table. The most noticeable feature of this table is that six estimated values are negative and six values are in excess of 1, demonstrating


clearly the point made earlier that, although E(Yi | X) is positive and less than 1, their estimators, , need not be necessarily positive or less than 1. This is one reason that the LPM is not the recommended model when the dependent variable is dichotomous.

Even if the estimated Yi were all positive and less than 1, the LPM still suffers from the problem of heteroscedasticity, which can be seen readily from (15.2.8). As a consequence, we cannot trust the estimated standard errors reported in (15.12.10). (Why?) But we can use the weighted least-squares (WLS) procedure discussed earlier to obtain more efficient estimates of the standard errors. The necessary weights, , required for the application of WLS are also shown in Table 15.2, But note that since some Yi are negative and some are in excess of one, the corresponding to these values will be negative. Thus, we cannot use these observations in WLS (why?), thereby reducing the number of observations, from 40 to 28 In the present example. Omitting these observations, the WLS regression is

1.24561

0,1196

(0.1206) (0.0069) (15.2.11) t = (-10.332) (17.454) R2 = 0.9214 These results show that, compared with (15.12.10), the estimated standard

errors are smaller and, correspondingly, the estimated t ratios (in absolute value) larger. But one should take this result with a grain of salt since in estimating (15.12.11) we had to drop 12 observations. Also, since wi, are estimated, the usual statistical hypothesis-testing procedures are, strictly speaking, valid in the large samples (see Chapter 11

TABLE 15.2 ACTUAL Y, ESTIMATED Y, AND WEIGHTS wi FOR THE HOME OWNERSHIP EXAMPLE


TABLE 15.3 LABOR-FORCE PARTICIPATION Regression of women, age 22 and over, living in largest 96 standard metropolitan

statistical areas (SMSA) (dependent variable: in or out of labor force during 1966)


15.3 APLICATION OF LPM

Sampai ketersediaan paket komputer yang siap diakses untuk menaksir model


logit dan probit (untuk dibahas segera), LPM telah digunakan sungguh secara ekstensif

oleh karena kesederhanaannya. Kita sekarang menggambarkan sebagian dari aplikasi

ini.

EXAMPLE 15.1 COHEN-REA_LERMAN STUDY

In a study prepared for the U.S. Department of Labor, Cohen, Rea, and Lerman were interested in examining the labor-force participation of various categories of labor as a function of several socioeconomic-demographic variables. In all their regressions, the dependent variable was a dummy, taking a value of 1 if a person is in the labor force, 0 if he or she is not. In Table 15.3 we reproduce one of their several dummy-dependent variable regressions.

Before interpreting the results, note these fealures: The preceding regression was estimated by using the OLS. To correct for heteroscedasticity, the authors used the two-step procedure outlined previously in some of their regressions but found that the standard errors of the estimates thus obtained did not differ materially from those obtained without correction for heteroscedasticity. Perhaps this result is due to the sheer size of the sample, namely, about 25,000 Because of this large sample size, the estimated t values may be tested for statistical significance by the usual OLS procedure even though the error term takes dichotomous values. The estimated R2 of 0.175 may seem rather low, but in view of the large sample size, this R2 is still significant on the basis of the F test given in Section 8.5. Finally notice how the authors have blended quantitative and qualitative variables and how they have taken into account the interaction effects.

Turning to the interpretations of the findings, we see that each slope coefficient gives the rate of change in the conditional probability of the event occurring for a given unit change in the value of the explanatory variable. For instance, the coefficient of -0.2753 attached to the variable "age 65 and over" means, holding all other factors constant, the probability of participation in the labor force by women in this age group is smaller by about 27 percent (as compared with the base category of women aged 22 to 54). By the same token, the coefficient of 0.3061 attached to the variable "16 or more years of schooling" means, holding all other factors constant, the probability of women with this much education participating in the labor force is higher by about 31 percent (as compared with women with less than 5 years of schooling, the base category).

Now consider the interaction term marital status and age, The table shows that the labor-force participation probability is higher by some 29 percent for those women who were never married (as compared.with the base category) and smaller by about 28 percent for those women who are 65 and over (again in relation to the base category). But the probability of participation of women who were never married and are 65 or over is smaller by about 20 percent as compared with the base category. This implies that women aged 65 and over but never married are likely to participate in the labor force more than those who are aged 65 and over and are married or fall into the “other" category.

Following this procedure, the reader can easily interpret the rest of the coefficients given in Table 15,3. From the given information, it is easy to obtain the estimates of the conditional probabilities of labor force participation of the various categories, Thus, if we want to find the probability for married women (other), aged


22 to 54, with 12 to 15 years of schooling, with an unemployment rate of 2.5 to 3.4 percent, employment change of 3.5 to 6.49 percent, relative employment opportunities of 74 percent and over, and with FILOW of $7500 and over. we obtain

0.4368 + 0.1529 + 0.2231 - 0.0213 + 0.0301 + 0.0571 – 0.2455 = 0.6326 In other words, the probability of labor-force participation by women with the

preceding characteristics is estimated to be about 63 percent.

EXAMPLE 15.2 PREDICTING A BOND RATING

Based on a pooled time series and Cross'sectional data of 200 Aa (high-quality) and Baa (medium-quality) bonds over the period 1961-1966, Joseph Cappellerl estimated the following bond rating prediction model.

where Yi = 1 if the bond rating is Aa (Moody's rating) = 0 it the bond rating is Baa (Moody's rating) X2 = debt capitalization ratio, a measure of leverage

= 100

X3 = profit rate

=

100

X4 = standard deviation of the protit rate, a measure of profit rate variability

X5 = net total assets (thousands of dollars), a measure of size A priori, β2 and β4 are expected to be negative (why?) and β3 and β5 are

expected to be positive. After correcting for heteroscedasticity and first-order autocorrelation,

Cappelleri obtained the following results: Ŷi = 0.6860 – 0.0179 + 0.0486X31 + 0.0572 X41+ 0.378(E-7)X5 (0.1775) (0.0024) (0.0486) (0.0178) (0.039)(E-8) (15.3.1)

R2 = 0.6933 Note: 0.378 E-7 means 0,0000000378, etc All but the coefficient of X4 have the correct signs. It is left to finance students

to rationalize why the profit rate variability coefficient has a positive sign, for one would expect that the greater the variability in profits, the less likely it is Moody's would give an Aa rating, other things remaining the same.

The interpretation of the regression is straightforward. For example, 0.0486 attached to X3 means that, other things being the same, a 1 percentage point increase in the profit rate will lead on average to about a 0.05 increase in the probability of a bond getting the Aa rating. Similarly, the higher the squared leveraged ratio, the lower by 0.02 is the probability of a bond being classified as an Aa bond per unit increase in this ratio.

EXAMPLE 15.3 PREDICTING BOND DEFAULTS


To predict the probability of default on their bond obligations, Daniel Rubinfeld studied a sample of 35 municipalities in Massachusetts for the year 1930, several of which did in fact default. The LPM model he chose and estimated was as follows:

= 1.96 - 0.029 TAX - 4.86 lNT+ 0.063 AV + 0.007 DAV - 0.48WELF (0.29) (0.009) (2.13) (0.028) (0.003) (0.88) (15.3.2)

R2 = 0.36 Where P = 0 if the municipality defaulted and 1 otherwise, TAX = average of

1929, 1930, and 1931 tax rates: INT = percentage of current budget allocated to interest payments in 1930; AV = percenlage growth in assessed property valuation from 1925 to 1930; DAV = ratio of total direct net debt to total assessed valuation in 1930; and WELF = percentage of 1930 budget allocated to charities, pensions, and soldiers' benefits.

The interpretation (15.3.2) is again fairly straightforward. Thus, other things being the same, an increase in the tax rate of $1 per thousand will raise the probability of default by about 0.03, or 3 percent. The R2 value is rather low but, as noted previously, in LPMs the R2 values generally tend to be lower and are of limited use in judging the goodness of fit of the model.

15.4 ALTERNATIVE TO LPM

Sebagaimana kita ketahui, LPM dipengaruhi oleh beberapa permasalahan,

seperti (1) ketidaknormalitasan ui, (2) heteroscedastitas ui, (3) kemungkinan Ŷi terletak

di luar cakupan 0-1, dan (4) nilai R2 yang biasanya lebih rendah. Tetapi permasalahan

ini bisa diatasi. Sebagai contoh, kita dapat menggunakan WLS untuk memecahkan

masalah heteroscedastitas atau meningkatkan ukuran sampel untuk memperkecil

masalah ketidaknormalan. Dengan memilih untuk membatasi least-squares atau teknik

pemrograman matematika kita dapat membuat estimasi probabilitas terletak pada

interval 0-1.

Tetapi bahkan kemudian masalah yang pokok dengan LPM adalah tidaklah

masuk akal suatu modelsangat menarik sebab berasumsi bahwa Pi:= E(Y = 1|X)

meningkat secara linear dengan X, itu adalah, marginal atau incremental efect X tetap

dalam keseluruhannya. Seperti, contoh kepemilikan rumah kita menemukan ketika X

meningkat dengan suatu unit ($1000), kemungkinan pemilik suatu rumah meningkat

dengan jumlah tetap yang sama 0.10. Demikian juga tingkatan pendapatan adalah

$8000, $10,000, $18,000, atau $22,000. Ini nampak dengan jelas tak realistis. Pada

kenyataannya orang akan mengharapkan bahwa Pi nonlinearly dihubungkan dengan Xi:

Pada pendapatan sangat rendah suatu keluarga tidak akan memiliki rumah tetapi

pada tingkat pendapatan yang cukup tinggi, katakan, X*, hampir bisa dipastikan akan


memiliki rumah. Manapun peningkatan pendapatan di luar X* akan mempunyai sedikit

efek pada probabilitas memiliki suatu rumah. Hal itu, pada akhir kedua-duanya

distribusi pendapatan, probabilitas memiliki suatu rumah akan hampir tidak dipengaruhi

oleh peningkatan kecil pada X.

Oleh karena itu, apa yang kita butuhkan (probabilitas) model yang mempunyai

dua corak: (1) Xi meningkat, Pi:= E(Y = 1|X) meningkat tetapi tidak pernah di luar

interval 0-1, dan (2) hubungan antara Pi dan Xi nonlinear, "satu yang mendekati nol

pada tingkat tarip yang lebih lambat dan lebih lambat tingkat Xi mendapatkan kecil dan

mendekati satu perlahan dan tingkat lebih lambat Xi mendapatkan sangat besar.

Secara geometris, model yang kita inginkan akan terlihat pada Gambar 15.2.

Pesan pada model ini bahwa probabilitas berada antara 0 dan 1 dan bervariasi nonlinear

dengan X.

Figure 15.2 A Cumulative Distribution Function (CDF)

Pembaca akan menyadari bahwa sigmoid, atau S-shaped, kurva di gambar

sangat banyak menyerupai fungsi distribusi kumulatif (CDF) variable acak. Oleh

karena itu, seseorang dapat dengan mudah menggunakan CDF untuk model regresi jika

variabel respon dichotomous, mengambil nilai 0-1. Pertanyaan yang praktis sekarang

adalah, CDF yang mana? Karena walaupun semua CDFs adalah S-shaped, untuk

masing-masing variabel acak ada suatu CDF unik. Karena secara historis seperti halnya

pertimbangan praktis, CDFs biasanya memilih untuk menghadirkan model respon 0-1

adalah (1) fungsi (logistic) dan (2) normal, yang terdahulu menimbulkan logit model

dan yang belakangan probit ( atau normit) model.


Walaupun suatu diskusi terperinci logit dan probit model adalah di luar lingkup

buku ini, kita akan menandai sedikit banyak secara informal bagaimana seseorang

mengestimasi model demikian dan bagaimana seseorang menginterpretasikannya.

15.5 THE LOGIT MODEL

Kita akan melanjutkan dengan contoh kepemilikan rumah untuk menjelaskan

gagasan dasar yang mendasari logit model. Ingat bahwa dalam menjelaskan

kepemilikan rumah dalam hubungan dengan pendapatan, LPM adalah

Pi = E ( Y = l | Xi) = β1+ β2Xi (15.5.1)

Di mana X = pendapatan dan Y = 1 adalah keluarga memiliki rumah. Tetapi

pertimbangan sekarang mengikuti representasi kepemilikan rumah:

Pi = E(Y = 1|Xi) = 1 2 (15.5.2)

Untuk memudahkan kita tulis

1

1 1

Di mana Zi = β1+ β2Xi

Persamaan (15.53) merepresentasi pemahaman tentang fungsi distribusi

logistik.

Mudah untuk memverifikasi rentanga Zi diantara - ∞ + ∞, Pi, mencakup antara 0

dan 1 dan bahwa Pi, nonlinearly dihubungkan dengan Zi, (yaitu, Xi), dengan begitu

memuaskan dua pertimbangan awal yang diperlukan. Tetapi tampaknya dalam

memuaskan kebutuhan ini, kita sudah menciptakan masalah estimasi sebab Pi nonlinear

tidak hanya dalam X tetapi juga dalam β seperti dapat dilihat dengan jelas dari (15.5.2).

hal ini berarti bahwa kita tidak bisa menggunakan prosedur OLS familier untuk

menaksir parameters. Tetapi masalah ini jadi lebih nyata dibanding riil sebab (15.5.2)

dapat dilinearkan, yang dinyatakan sebagai berikut.

Jika Pi probabilitas memiliki rumah, rumus (15.5.3), kemudian (1 – Pi)

probabilitas tidak memiliki rumah, adalah

1 1

1

Karenanya kita bisa menuliskan

1 11


Sekarang Pi/(1 – Pi) hanya perbandingan rintangan sederhana menuju ke

pemilikan rumah—perbandingan probabilitas suatu keluarga akan memiliki rumah

kepada probabilitas bahwa tidak akan memiliki suatu rumah. Jika Pi = 0.8, berarti

rintangan itu 4 sampai 1 menuju ke keluarga yang memiliki rumah.

Sekarang jika kita mengambil log natural (15.5.5), kita memperoleh suatu hasil

yang sangat menarik, yaitu

ln 1

= β1+ β2Xi

L adalah log rasio rintangan, tidaklah hanya linear X, tetapi juga (dari sudut

pandang estimasi) linear dalam parameters. L disebut logit, dan karenanya nama logit

model untuk model seperti (15.5.6).

Karakteristik model logit ini.

1. Ketika P bergerak 0 sampai 1 (yaitu, seperti variasi Z dari -∞ + ∞), logit L

bergerak dari - ∞ + ∞. Walaupun probabilitas (karena terpaksa) terletak

diantara 0 dan 1, logits tidak demikian membatasi.

2. Walaupun L adalah linear X, probabilitas diri mereka tidak. Properti ini

adalah kontras dengan model LPM (15.5.1) jika] probabilitas meningkat

secara linear dengan X.

3. Walaupun kita telah memasukkan hanya variabel X tunggal, atau regressor,

dalam model yang terdahulu, seorang dapat menambahkan sebanyak

mungkin regressors didikte oleh teori yang mendasari.

4. Jika L, logit, adalah positif, ini berarti bahwa ketika nilai regressor(s)

meningkat, rintangan regressand yang sama dengan 1 (artinya beberapa

peristiwa menarik terjadi) meningkat. Jika L adalah negatif, rintangan

regressand yang sama dengan 1 menurun sebagai nilai X meningkat. Untuk

menaruhnya dengan cara yang berbeda, logit menjadi negatif dan terus

meningkat besar sebagai rasio rintangan berkurang dari 1 sampai 0 dan

menjadi terus meningkat besar dan positif sebagai rasio rintangan meningkat

dari 1 ke takterbatas.

5. Lebih formal, penafsiran logit model pada (15.5.6) sebagai berikut: β2 slope,

mengukur perubahan L untuk suatu unit perubahan pada X, yang menyatakan

bagaimana log-odds menuju ke pemilikan suatu rumah berubah ketika


pendapatan berubah dalam unit, katakan, $1000. Intercep β1 adalah nilai

log-odds menuju ke pemilikan suatu rumah jika pendapatan adalah nol.

Seperti kebanyakan penafsiran intercep, penafsiran ini mungkin tidak

mempunyai arti phisik.

6. Dengan suatu tingkatan pendapatan tertentu, katakan, X*, jika kita benar-

benar ingin estimasi bukan rintangan menuju ke pemilikan suatu rumah

tetapi probabilitas pemilikan rumah itu sendiri, bisa dilakukan secara

langsung dari (15.5.3) sekali estimasi β1+ β2 tersedia. Ini, bagaimanapun,

memunculkan pertanyaan yang paling utama: Bagaimana cara kita

mengestimasi β1 dan β2 pada tempat pertama? Jawaban disampaikan dalam

bagian yang berikutnya.

7. Sedangkan LPM berasumsi bahwa Pi secara linear berhubungan dengan Xi,

model logit berasumsi bahwa log ratio rintangan secara linear berhubungan

dengan Xi.

15.6 ESTIMATION OF THE LOGIT MODEL

Untuk tujuan estimasi, kita tuliskan (15.5.6) sebagai berikut:

ln 1

Kita akan mendiskusikan kekayaan istilah kesalahan stokastik ui, segera.

Untuk menaksir (15.6.1), kita perlukan, terlepas dari Xi, nilai regressand, atau

logit, Li. Ini tergantung pada jenis data yang kita mempunyai untuk analisa. Kita menciri

dua jenis data: (1) data di individu, atau mikro, tingkatan, dan (2) data replicated atau

yang dikelompokkan.

Data at the Individual Level

Jika kita mempunyai data keluarga individual, seperti di kasus Tabel 15.1,

estimasi OLS (15.6.1) infeasible. Ini mudah untuk melihat. Dalam kaitan dengan data

pada Tabel 15.1, Pi = 1 jika keluarga memiliki rumah dan Pi = 0 jika tidak memiliki

rumah. Tetapi jika kita menaruh nilai secara langsung ke dalam logit Li kita

memperoleh:

ln jika keluarga memiliki rumah

ln jika keluarga tidak memiliki rumah


Secara Sungguh, ungkapan ini tidak berarti. Oleh karena itu, jika kita

mempunyai data yang mikro, atau individual, tingkatan, kita tidak bisa mengestimasi

(15.6.1) dengan standard OLS terus menerus.

Dalam situasi ini kita mungkin punya untuk memohon pertolongan metoda

maximum-likelihood (ML) untuk menaksir parameter. Walaupun prinsip-prinsip dasar

metoda ini telah dibahas catatan tambahan ke bab 4, aplikasinya dalam kaitan dengan

kontek ini akan dibahas pada Catatan tambahan 15A, Bagian 15A.1, demi kepentingan

pembaca yang bermaksud belajar lebih banyak tentang ini. Paket software, seperti

Microfit, Eviews, Limdep, Shazam, PcGive, dan Minitab, sudah built-in yang rutin

untuk mengestimasi model logit di tingkatan yang individual. Kita akan

menggambarkan penggunaan metode ML kemudian.

Grouped or Replicated Data

Sekarang mempertimbangkan data pada Tabel 15.4. Tabel ini memberi data

pada beberapa kelompok keluarga atau replicated (pengulangan pengamatan) menurut

tingkatan pendapatan dan banyaknya keluarga yang memiliki rumah pada masing-

masing tingkatan pendapatan. Berkaitan dengan masing-masing tingkatan pendapatan Xi

terdapat Ni, keluarga ni diantara siapa yang pemilik rumah (ni ≤ Ni). Oleh karena itu,

jika kita menghitung

(15.6.2)

itu adalah, frekwensi relatif, kita dapat menggunakannya sebagai estimasi

kebenaran Pi berkaitan dengan masing-masing Xi. Jika Ni adalah cukup besar , akan

merupakan suatu alasan estimasi Pi yang baik. Penggunaan estimasi Pi, kita dapat

memperoleh logit estimasi sebagai berikut yang akan merupakan estimasi yang baik

logit Li yang benar jika banyaknya pengamatan Ni pada masing-masing Xi layak besar.

(15.6.3)


TABLE 15.4 HYPOTHETICAL DATA ON X, (INCOME), A/,- (NUMBER OF FAMILIES AT INCOME X,), AND n, (NUMBER OF FAMILIES OWNING A HOUSE)

X (thousands of dollars) Ni ni

6 8

10 13 15 20 25 30 35 40

40 50 60 80 100 70 65 50 40 25

8 12 18 28 45 36 39 33 30 20

Singkatnya, data replicated atau yang dikelompokkan, seperti Tabel 15.4,

seseorang dapat memperoleh data variabel yang dependent, logits, untuk menaksir

model (15.6.1). Dapatkah kita kemudian menerapkan OLS untuk (15.6.3) dan menaksir

parameter dalam pertunjukan yang umum? Jawaban adalah, tidak yakin, ketika kita

belum berkata segalanya tentang kekayaan kepemilikan pengganggu stokastik. Itu dapat

ditunjukkan bahwa jika Ni cukup besar dan jika masing-masing pengamatan dalam

kelas pendapatan ditentukan Xi terdistribusi dengan bebas sebagai variabel binomial,

kemudian

~ ,

(15.6.4)

ui mengikuti distribusi normal dengan mean nol dan perbedaan sepadan dengan

1/[Ni Pi (1- Pi)].

Oleh karena itu, seperti di kasus LPM, pengganggu model logit adalah

heteroscedastic. Seperti itu, sebagai ganti penggunaan OLS kita harus menggunakan

weighted least squares (WLS). Untuk tujuan empiris, bagaimanapun, kita akan

menggantikan yang tak dikenal Pi dengan dan gunakan

(15.6.5)

Sebagai estimator

Kita sekarang diskribsikan berbagai langkah dalam estimasi regresi logit

(15.6.1):

1. Masing-masing tingkat pendapatan X, hitung probabilitas pemilik rumah

seperti = ni / Ni.


2. Masing-masing Xi, dapatkan logit seperti ln

3. Untuk menyelesaikan masalah heteroscedasticity, transformasikan (15.6.1)

sebagai berikut: + (15.6.6)

Yang dapat kita tuliskan

+ (15.6.7)

di mana bobot wi = Ni (1 - ); = ditransformasikan atau dibobot

Li; = transformasi atau bobot Xi; dan vi = transformasi error. Adalah

mudah untuk memverifikasi bahwa transformasi error vi adalah

homoscedastic, mengingat bahwa perbedaan kesalahan yang asli =

1/[NiPi(1 – Pi)]

4. Mengestimasi (15.6.6) dengan OLS—ingat kembali bahwa WLS adalah

OLS pada transformasi data. Pesan bahwa dalam (15.6.6) tidak ada intercep

yang diperkenalkan dengan tegas (mengapa?). Oleh karena itu, seseorang

harus menggunakan regresi melalui aslinya untuk menaksir (15.6.6).

5. Tetapkan interval kepercayaan dan/atau hipotesis test yang umum pada

kerangka OLS, tetapi ingat bahwa semua kesimpulan pada hakekatnya akan

sah jika sampel layak besar (mengapa?). Oleh karena itu, pada sampel kecil,

hasil yang estimasi harus ditafsirkan secara hati-hati.

Qualitative Response Regression

Documents

Transcript of Qualitative Response Regression