Alternatives to Difference Scores: Polynomial Regression and Response Surface Methodology
Qualitative Response Regression
Transcript of Qualitative Response Regression
QUALITATIVE RESPONSE REGRESSION MODELS
Dalam semua model regresi kita mempunyai pertimbangan, kita secara implisit
mengasumsikan bahwa regresan, variabel dependen, atau respon variabel Y adalah
kuantitatif, sedangkan variabel penjelas kuantitatif, kualitatif (atau dummy), atau
gabungan keduanya. Kenyataannya pada variabel dummy, kita melihat bagaimana
regressor dummy dimasukkan dalam model regresi dan apa peran yang mereka mainkan
dalam siatuasi spesifik.
Dalam bab ibi kita mempertimbangkan beberapa model dimanan regresan
memiliki sifat kualitatif. Meskipun penggunaan secara meningkat dalam berbagai area
ilmu sosial dan riset kedokteran, model regresi respon kualitatif memberikan tantangan
istimasi dan interpretasi yang menarik.
15.1 The Nature of Qualitative Response Models
Dalam analisis regresi seringkali terjadi bahwa variabel tak bebas
dipengaruhi, tidak hanya oleh variabel yang dapat segera dinyatakan secara
kualitatif pada Skala yang didefinisikan dengan baik (misalnya, pendapatan,
hasil, harga, biaya tinggi dan temperatur) tapi juga dengan variabel yang pada
dasarnya bersifat kualitatif (misalnya jenis kelamin, ras, warna kulit, agama,
kebangsaan, perang, gempa bumi, pemogokan, pergolakan politik, dan perubahan
dalam kebijakan ekonomi pemerintah). Misalnya, dengan semua faktor lain dijaga
konstan, guru wanita pada perguruan tinggi ternyata menerima penghasilan
yang lebih rendah dibandingkan dengan rekannya yang pria, dan mereka yang
bukan kulit putih ternyata berpenghasilan lebih rendah dari yang berkulit putih.
Ini mungkin diakibatkan oleh diskriminasi jenis kelamin atau racial, tetapi apapun
alasannya, variabel yang bersifat kualitatif seperti jenis kelamin dan ras memang
mempengaruhi variabel tak bebas dan jelas seharusnya dimasukkan di antara variabel
yang menjelaskan.
Dalam bab ini, kita berusaha menjawab pertanyaan berikut:
1. Bagaimana kita mengestimasi model regresi berespon kualitatif? Dapatkah kita
mengestimasinya secara sederhana dengan prosedur OLS?
R. Gunawan S. dan Yarnest 2
2. Apakah ada masalah-masalah inference khusus? Dengan kata lain, apakah ada
perbedaan prosedur pengujian hipotesis dari prosedur pengujian yang telah kita
pelajari?
3. Jika regresan kualitatif, bagaimana kita dapat mengukur goodness of fit model
tersebut? Apakah R2 hasil penghitungan secara konvensional mempunyai nilai
dalam model tersebut?
4. Bagaimana kita mengestimasi dan menginterpretasi model regresi polychotomous
(multiple category)? Juga, bagaimana kita membuat model di mana regresan
ordinal, seperti variabel kategori berjenjang (kurang dari 8 tahun; 8—11 tahun, 12
tahun; 13 tahun atau lebih) atau regresannya nominal yang tidak memiliki jenjang,
seperti etnik (hitam, putih, asian dan lainnya)?
5. Bagaimana kita melakukan model penomena, seperti jumlah kunjungan ke salah
satu dokter per tahun, jumlah paten yang diterima oleh perusahaan dalam
setahun, jumlah artikel yang dipublikasikan profesor suatu perguruan
tinggi dalam setahun, jumlah panggilan telepon diterima dalam waktu lima
menit, atau jumlah mobil lewat melalui toll dalam waktu 5 menit?
Penomena demikian, disebut menghitung data, atau rare event data,
merupakan contoh proses poisson (probabilitas).
Terdapat tiga pendekatan dalam membahas model probabilitas untuk
variabel berespon binary.
1. Model probabilitas linear
2. Model logit
3. Model probit
15.2 THE LINEAR PROBABILITY MODEL (LPM)
Ide yang pasti, berkaitan dengan model regresi berikut ini:
Yi = β1 + β2Xi + µi (15.2.1)
Dimana X = pendapatan keluarga dan Y = 1 jika keluarga memiliki rumah dan
0 jika keluarga tidak memiliki rumah. Tampaknya seperti model regresi linear biasa
tetapi karena regresannya binary atau dichotomous, disebut dengan model
probabilitas linear (LPM). Hal ini karena secara kondisional ekspektasi Yi atas Xi,
E(Yi/Xi), dapat diinterpretasikan sebagai conditional probability yang akan terjadi atas
R. Gunawan S. dan Yarnest 3
Xi, yaitu Pr(Yi = 1/Xi). Pada contoh kita, E(Yi/Xi) memberikan probabilitas keluarga
yang memiliki rumah dan yang pendapatannya berjumlah Xi
Justifikasi LPM sebagai model (15.2.1) dapat ditunjukkan berikut ini:
asumsikan E(µi) = 0, sebagaimana biasa (untuk mendapatkan estimator yang tidak
bias), kita peroleh
E(Yi/Xi) = β1 + β2Xi (15.2.2)
Jika Pi = probabilitas Yi = 1 (peristiwa yang muncul), dan (1 – Pi) =
probabilitas Yi = 0 (peristiwa yang tidak muncul), variabel Yi memiliki distribusi
(probabilitas) sebagai berikut.
Yi Probability 0 1
Total
1 - Pi Pi 1
Yi mengikuti Bernoulli probability distribution.
Sehingga definisi ekspektasi secara matematis diperoleh persamaan:
E(Yi) = 0(1 – Pi) + 1(Pi) = Pi (15.2.3)
Bandingkan persamaan (15.2.2) dengan (15.2.3), kita dapat persamaan
E(Yi/Xi) = β1 + β2Xi = Pi (15.2.4)
Hal itu, ekspektasi model kondisional (15.2.1) yang didapat, kenyataan,
diinterpretasikan sebagai probabilitas kondisional Yi. Secara umum ekspektasi
variabel random Bernoulli adalah probabilitas yang variabel random sama dengan 1.
Jika terdapat percobaan n independen, masing-masing dengan probabilitas p untuk
sukses dan probabilitas (1 – p) gagal, dan X dalam percobaan ini menunjukkan
jumlah sukses, maka X dikatakan mengikuti distribusi binomial. Mean distribusi
binomial Aadalah np dan variannya adalah np(1 – p). istilah sukses didefinisikan
dalam kontek masalah.
Selagi probabilitas Pi harus terbentang antara 0 dan 1, kita punya batasan
0 ≤ E(Yi/Xi) ≤ 1 (15.2.5)
Berarti ekspektasi kondisional (probabilitas kondisional) harus terletak antara
0 dan 1. Dari diskusi sebelumnya nampaknya OLS dapat dikembangkan dengan
mudah ke model-model regresi variabel dependen yang binary.
Non-Normality of the Disturbances ui
Meskipun OLS tidak memerlukan disturbances (ui) untuk terdistribusi secara
R. Gunawan S. dan Yarnest 4
normal, kita mengasumsikannya berdistribusi untuk maksud statistik inference.
Tetapi asumsi secara normal untuk ui tidak dapat dipercaya untuk LPM karena,
seperti Yi disturbance ui juga hanya memiliki dua nilai; karenanya juga mengikuti
distribusi Bernoulli. Hal ini dapat terlihat jelas sebagai berikut.
Ui = Yi – β1 – β2Xi (15.2.6)
Probabilitas distribusi ui adalah
ui Probability
when Yi = 1 1 – β1 – β2Xi Pi (15.2.7)
when Yi = 0 – β1 – β2Xi (1 – Pi)
Dengan jelas, ui tidak dapat diasumsikan berdistribusi secara normal; mereka
mengikuti distribusi Bernoulli.
Heteroscedastic Variances of the Disturbances
Jika E(ui) = 0 dan cov(ui, uj) = 0 untuk I ≠ j (tidak korelasi serial), hal ini tidak
dapat dipertahankan bahwa dalam LPM disturbances adalah homoscedastic.
Sebagaimana ditunjukkan teori statistik, untuk distribusi Bernoulli secara teori mean
dan variance secara respek, p dan p(1 – p), dimana p adalah probabilitas sukses
(sesuatu terjadi), menunjukkan bahwa variance adalah fungsi mean. Pembaca akan
memverifikasi
var(ui) = Pi (1 – Pi) (15.2.8)
Varian error dalam LPM adalah heteroscedastic. Selagi Pi = E(Yi|Xi) = β1 –
β2Xi variance ui akhirnya tergantung pada nilai X dan karenanya tidak homocedastic.
Selagi variance ui tergantung pada E(Yi|Xi), satu cara untuk menentukan
masalah heteroscedasticity adalah mentransfor model (15.2.1) dengan membaginya
menjadi
| 1 | = 1 – = say √
Yaitu
= + + (15.2.9)
Transformasi error di (15.2.9) adalah homoscedastic. Oleh karena itu, setelah
estimasi (15.2.1) kita dapat mengestimasi (15.2.9) dengan OLS, hal ini tidak satupun,
tetapi WLS dengan wi sebagai pembobot.
R. Gunawan S. dan Yarnest 5
Dalam teori, apa yang telah kita jelaskan adalah benar. Tetapi dalam praktik
kebenaran E(Yi|Xi) tidak diketahui; karenanya bobot wi tidak diketahui. Untuk
mengestimasi wi kita dapat menggunakan dua langkah prosedur berikut ini.
1. Jalankan regresi OLS (15.2.1) walaupun masalah heteroscedasticity dan
mendapatkan Ŷi = estimasi kebenaran E(Yi|Xi). kemudian dapatkan ŵi = Ŷi
(1 - Ŷi), estimasi wi.
2. Menggunakan estimasi wi untuk mentransform data pada (15.2.9) dan
estimsi pentransforman persamaan dengan OLS.
Nonfulfillment of 0 ≤ E(Yi|Xi) ≤ 1
Ketika E(Yi|Xi) pada model probabilitas linear mengukur probabilitas
kondisional munculnya kejadian Y oleh X, hal ini harus benar-benar terletak antara 0
dan 1. Tidak ada garansi bahwa Ŷi estimator E(Yi|Xi), akan benar-benar memenuhi
batasan ini, dan hal ini benar-benar masalah dengan estimasi LPM dengan OLS.
Terdapat dua cara untuk mendapatkan apakah estimasi Ŷi terletak antara 0 dan 1.
1. Estimasi LPM dengan metode OLS dan temukan apakah estimasi Ŷi
terletak antara 0 dan 1. Jika kurang dari 0 (negatif) asumsikan 0 jika lebih
besar 1 asumsikan jadi 1.
2. Teknik estimasi yang akan menjamin bahwa estimasi probabilitas
kondisional Ŷi akan terletak antara 0 dan 1. Model Logit dan Probit akan
menjamin bahwa estimasi probabilitas akan terletak antara batas logika 0
dan 1.
Questionable Value of R2 as a Measure of Goodness of Fit
R2 yang dihitung secara konvensional memiliki nilai terbatas dalam model
respon dichotomous. Untuk mengetahui mengapa, mempertimbangkan figur yang
berikut. Suai dengan ditentukan X, Y adalah 0 atau 1. Oleh karena itu, semua nilai Y
yang manapun akan terletak sepanjang poros X atau sepanjang baris sesuai dengan 1.
Oleh karena itu, biasanya LPM tidak diharapkan untuk menfitkan sebaran yang baik,
apakah itu LPM yang tidak dibatasi (gambar 15.1a) atau LPM dibatasi atau yang
dipotong ujung (gambar 15.1c), suatu LPM memperkirakan sedemikian sehingga tidak
akan jatuh di luar batas logis 0-1. Sebagai hasilnya, R2 yang dihitung secara
konvensional adalah nampaknya akan banyak lebih rendah dari 1 untuk model seperti
R. G
itu
mo
yan
unt
men
den
bah
dih
Gunawan S.
. Dalam apl
del yang sed
ng nyata ada
tuk kasus ter
nggabungka
ngan 0 atau 1
Karena
hwa penggun
hindarkan dal
dan Yarnes
likasi yang p
demikian ak
alah sangat l
rsebut adalah
an dua titik A
1.
pertimbang
naan koefis
lam model d
t
paling prakti
kan tinggi, k
lekat cluster
h mudah un
A dan B. Da
gan ini Yoh
ien determin
dengan varia
is R2 mencak
katakan, lebih
ed di sekitar
ntuk menentu
alam hal ini y
hanes Aldri
nasi/penentu
abel depende
kup antara 0
h dari 0,8 h
r poin-poin
ukan/mempe
yang dirama
ch dan Nel
uan sebagai
ent kwalitatif
0,2 sampai 0
hanya ketika
A dan B (ga
erbaiki garis
alkan Yi akan
lson Forrest
ringkasan s
f.
0,6. R2 dala
yang sebara
ambar 15.1c
lurus denga
n sangat dek
t menetapka
statistik haru
6
am
an
c),
an
kat
an
us
R. Gunawan S. dan Yarnest 7
Figure 15.1 Linear Probability Models
LPM: A NUMERICAL EXAMPLE To illustrate some of the points made about the LPM in the preceding section,
we present a numerical example' Table 15.1 gives invented data on home ownership Y(1 = owns a house,0= does not own a house) and family income X (thousands of dollars) for 40 families.From these data the LPM estimated by OLS was as follows:
= -0.9457 + 0.1021Xi (0.1228) (0.0082) (15.2.10) t = (-7.6e84) (12.s1s) Ri : 0'8048
TABLE 15.1 HYPOTHETICAL DATA ON HOME OWNERSHIP (v = 1 lF OWNS HOME, 0 AND INCOME X(THOUSANDS OF DOLLARS)
First, let us interpret this regression. The intercept of -0.9457 gives the
"probability" that a family with zero income will own a house. Since this value is negative, and since probability cannot be negative, we treat this value as zero, which is sensible in the present instance. The slope value of 0.1021 means that for a unitchange in income (here $1000), on the average the probability of owning a house increases by 0.1021 or about 10 percent. Of course, given a particular level of income, we can estimate the actual probability of owning a house from (15.2.10). Thus, for X = 12 ($12,000), the estimated probability of owning a house is
| 12 0.9457 12 0.1021 = 0.2795 That is, the probability that a family with an income of $12,000 will own a
house is about 28 percent. Table 15.2 shows the estimated probabilities, for the various income levels listed in the table. The most noticeable feature of this table is that six estimated values are negative and six values are in excess of 1, demonstrating
R. Gunawan S. dan Yarnest 8
clearly the point made earlier that, although E(Yi | X) is positive and less than 1, their estimators, , need not be necessarily positive or less than 1. This is one reason that the LPM is not the recommended model when the dependent variable is dichotomous.
Even if the estimated Yi were all positive and less than 1, the LPM still suffers from the problem of heteroscedasticity, which can be seen readily from (15.2.8). As a consequence, we cannot trust the estimated standard errors reported in (15.12.10). (Why?) But we can use the weighted least-squares (WLS) procedure discussed earlier to obtain more efficient estimates of the standard errors. The necessary weights, , required for the application of WLS are also shown in Table 15.2, But note that since some Yi are negative and some are in excess of one, the corresponding to these values will be negative. Thus, we cannot use these observations in WLS (why?), thereby reducing the number of observations, from 40 to 28 In the present example. Omitting these observations, the WLS regression is
1.24561
0,1196
(0.1206) (0.0069) (15.2.11) t = (-10.332) (17.454) R2 = 0.9214 These results show that, compared with (15.12.10), the estimated standard
errors are smaller and, correspondingly, the estimated t ratios (in absolute value) larger. But one should take this result with a grain of salt since in estimating (15.12.11) we had to drop 12 observations. Also, since wi, are estimated, the usual statistical hypothesis-testing procedures are, strictly speaking, valid in the large samples (see Chapter 11
TABLE 15.2 ACTUAL Y, ESTIMATED Y, AND WEIGHTS wi FOR THE HOME OWNERSHIP EXAMPLE
R. Gunawan S. dan Yarnest 9
TABLE 15.3 LABOR-FORCE PARTICIPATION Regression of women, age 22 and over, living in largest 96 standard metropolitan
statistical areas (SMSA) (dependent variable: in or out of labor force during 1966)
R. Gunawan S. dan Yarnest 10
15.3 APLICATION OF LPM
Sampai ketersediaan paket komputer yang siap diakses untuk menaksir model
R. Gunawan S. dan Yarnest 11
logit dan probit (untuk dibahas segera), LPM telah digunakan sungguh secara ekstensif
oleh karena kesederhanaannya. Kita sekarang menggambarkan sebagian dari aplikasi
ini.
EXAMPLE 15.1 COHEN-REA_LERMAN STUDY
In a study prepared for the U.S. Department of Labor, Cohen, Rea, and Lerman were interested in examining the labor-force participation of various categories of labor as a function of several socioeconomic-demographic variables. In all their regressions, the dependent variable was a dummy, taking a value of 1 if a person is in the labor force, 0 if he or she is not. In Table 15.3 we reproduce one of their several dummy-dependent variable regressions.
Before interpreting the results, note these fealures: The preceding regression was estimated by using the OLS. To correct for heteroscedasticity, the authors used the two-step procedure outlined previously in some of their regressions but found that the standard errors of the estimates thus obtained did not differ materially from those obtained without correction for heteroscedasticity. Perhaps this result is due to the sheer size of the sample, namely, about 25,000 Because of this large sample size, the estimated t values may be tested for statistical significance by the usual OLS procedure even though the error term takes dichotomous values. The estimated R2 of 0.175 may seem rather low, but in view of the large sample size, this R2 is still significant on the basis of the F test given in Section 8.5. Finally notice how the authors have blended quantitative and qualitative variables and how they have taken into account the interaction effects.
Turning to the interpretations of the findings, we see that each slope coefficient gives the rate of change in the conditional probability of the event occurring for a given unit change in the value of the explanatory variable. For instance, the coefficient of -0.2753 attached to the variable "age 65 and over" means, holding all other factors constant, the probability of participation in the labor force by women in this age group is smaller by about 27 percent (as compared with the base category of women aged 22 to 54). By the same token, the coefficient of 0.3061 attached to the variable "16 or more years of schooling" means, holding all other factors constant, the probability of women with this much education participating in the labor force is higher by about 31 percent (as compared with women with less than 5 years of schooling, the base category).
Now consider the interaction term marital status and age, The table shows that the labor-force participation probability is higher by some 29 percent for those women who were never married (as compared.with the base category) and smaller by about 28 percent for those women who are 65 and over (again in relation to the base category). But the probability of participation of women who were never married and are 65 or over is smaller by about 20 percent as compared with the base category. This implies that women aged 65 and over but never married are likely to participate in the labor force more than those who are aged 65 and over and are married or fall into the “other" category.
Following this procedure, the reader can easily interpret the rest of the coefficients given in Table 15,3. From the given information, it is easy to obtain the estimates of the conditional probabilities of labor force participation of the various categories, Thus, if we want to find the probability for married women (other), aged
R. Gunawan S. dan Yarnest 12
22 to 54, with 12 to 15 years of schooling, with an unemployment rate of 2.5 to 3.4 percent, employment change of 3.5 to 6.49 percent, relative employment opportunities of 74 percent and over, and with FILOW of $7500 and over. we obtain
0.4368 + 0.1529 + 0.2231 - 0.0213 + 0.0301 + 0.0571 – 0.2455 = 0.6326 In other words, the probability of labor-force participation by women with the
preceding characteristics is estimated to be about 63 percent.
EXAMPLE 15.2 PREDICTING A BOND RATING
Based on a pooled time series and Cross'sectional data of 200 Aa (high-quality) and Baa (medium-quality) bonds over the period 1961-1966, Joseph Cappellerl estimated the following bond rating prediction model.
where Yi = 1 if the bond rating is Aa (Moody's rating) = 0 it the bond rating is Baa (Moody's rating) X2 = debt capitalization ratio, a measure of leverage
= 100
X3 = profit rate
=
100
X4 = standard deviation of the protit rate, a measure of profit rate variability
X5 = net total assets (thousands of dollars), a measure of size A priori, β2 and β4 are expected to be negative (why?) and β3 and β5 are
expected to be positive. After correcting for heteroscedasticity and first-order autocorrelation,
Cappelleri obtained the following results: Ŷi = 0.6860 – 0.0179 + 0.0486X31 + 0.0572 X41+ 0.378(E-7)X5 (0.1775) (0.0024) (0.0486) (0.0178) (0.039)(E-8) (15.3.1)
R2 = 0.6933 Note: 0.378 E-7 means 0,0000000378, etc All but the coefficient of X4 have the correct signs. It is left to finance students
to rationalize why the profit rate variability coefficient has a positive sign, for one would expect that the greater the variability in profits, the less likely it is Moody's would give an Aa rating, other things remaining the same.
The interpretation of the regression is straightforward. For example, 0.0486 attached to X3 means that, other things being the same, a 1 percentage point increase in the profit rate will lead on average to about a 0.05 increase in the probability of a bond getting the Aa rating. Similarly, the higher the squared leveraged ratio, the lower by 0.02 is the probability of a bond being classified as an Aa bond per unit increase in this ratio.
EXAMPLE 15.3 PREDICTING BOND DEFAULTS
R. Gunawan S. dan Yarnest 13
To predict the probability of default on their bond obligations, Daniel Rubinfeld studied a sample of 35 municipalities in Massachusetts for the year 1930, several of which did in fact default. The LPM model he chose and estimated was as follows:
= 1.96 - 0.029 TAX - 4.86 lNT+ 0.063 AV + 0.007 DAV - 0.48WELF (0.29) (0.009) (2.13) (0.028) (0.003) (0.88) (15.3.2)
R2 = 0.36 Where P = 0 if the municipality defaulted and 1 otherwise, TAX = average of
1929, 1930, and 1931 tax rates: INT = percentage of current budget allocated to interest payments in 1930; AV = percenlage growth in assessed property valuation from 1925 to 1930; DAV = ratio of total direct net debt to total assessed valuation in 1930; and WELF = percentage of 1930 budget allocated to charities, pensions, and soldiers' benefits.
The interpretation (15.3.2) is again fairly straightforward. Thus, other things being the same, an increase in the tax rate of $1 per thousand will raise the probability of default by about 0.03, or 3 percent. The R2 value is rather low but, as noted previously, in LPMs the R2 values generally tend to be lower and are of limited use in judging the goodness of fit of the model.
15.4 ALTERNATIVE TO LPM
Sebagaimana kita ketahui, LPM dipengaruhi oleh beberapa permasalahan,
seperti (1) ketidaknormalitasan ui, (2) heteroscedastitas ui, (3) kemungkinan Ŷi terletak
di luar cakupan 0-1, dan (4) nilai R2 yang biasanya lebih rendah. Tetapi permasalahan
ini bisa diatasi. Sebagai contoh, kita dapat menggunakan WLS untuk memecahkan
masalah heteroscedastitas atau meningkatkan ukuran sampel untuk memperkecil
masalah ketidaknormalan. Dengan memilih untuk membatasi least-squares atau teknik
pemrograman matematika kita dapat membuat estimasi probabilitas terletak pada
interval 0-1.
Tetapi bahkan kemudian masalah yang pokok dengan LPM adalah tidaklah
masuk akal suatu modelsangat menarik sebab berasumsi bahwa Pi:= E(Y = 1|X)
meningkat secara linear dengan X, itu adalah, marginal atau incremental efect X tetap
dalam keseluruhannya. Seperti, contoh kepemilikan rumah kita menemukan ketika X
meningkat dengan suatu unit ($1000), kemungkinan pemilik suatu rumah meningkat
dengan jumlah tetap yang sama 0.10. Demikian juga tingkatan pendapatan adalah
$8000, $10,000, $18,000, atau $22,000. Ini nampak dengan jelas tak realistis. Pada
kenyataannya orang akan mengharapkan bahwa Pi nonlinearly dihubungkan dengan Xi:
Pada pendapatan sangat rendah suatu keluarga tidak akan memiliki rumah tetapi
pada tingkat pendapatan yang cukup tinggi, katakan, X*, hampir bisa dipastikan akan
R. Gunawan S. dan Yarnest 14
memiliki rumah. Manapun peningkatan pendapatan di luar X* akan mempunyai sedikit
efek pada probabilitas memiliki suatu rumah. Hal itu, pada akhir kedua-duanya
distribusi pendapatan, probabilitas memiliki suatu rumah akan hampir tidak dipengaruhi
oleh peningkatan kecil pada X.
Oleh karena itu, apa yang kita butuhkan (probabilitas) model yang mempunyai
dua corak: (1) Xi meningkat, Pi:= E(Y = 1|X) meningkat tetapi tidak pernah di luar
interval 0-1, dan (2) hubungan antara Pi dan Xi nonlinear, "satu yang mendekati nol
pada tingkat tarip yang lebih lambat dan lebih lambat tingkat Xi mendapatkan kecil dan
mendekati satu perlahan dan tingkat lebih lambat Xi mendapatkan sangat besar.
Secara geometris, model yang kita inginkan akan terlihat pada Gambar 15.2.
Pesan pada model ini bahwa probabilitas berada antara 0 dan 1 dan bervariasi nonlinear
dengan X.
Figure 15.2 A Cumulative Distribution Function (CDF)
Pembaca akan menyadari bahwa sigmoid, atau S-shaped, kurva di gambar
sangat banyak menyerupai fungsi distribusi kumulatif (CDF) variable acak. Oleh
karena itu, seseorang dapat dengan mudah menggunakan CDF untuk model regresi jika
variabel respon dichotomous, mengambil nilai 0-1. Pertanyaan yang praktis sekarang
adalah, CDF yang mana? Karena walaupun semua CDFs adalah S-shaped, untuk
masing-masing variabel acak ada suatu CDF unik. Karena secara historis seperti halnya
pertimbangan praktis, CDFs biasanya memilih untuk menghadirkan model respon 0-1
adalah (1) fungsi (logistic) dan (2) normal, yang terdahulu menimbulkan logit model
dan yang belakangan probit ( atau normit) model.
R. Gunawan S. dan Yarnest 15
Walaupun suatu diskusi terperinci logit dan probit model adalah di luar lingkup
buku ini, kita akan menandai sedikit banyak secara informal bagaimana seseorang
mengestimasi model demikian dan bagaimana seseorang menginterpretasikannya.
15.5 THE LOGIT MODEL
Kita akan melanjutkan dengan contoh kepemilikan rumah untuk menjelaskan
gagasan dasar yang mendasari logit model. Ingat bahwa dalam menjelaskan
kepemilikan rumah dalam hubungan dengan pendapatan, LPM adalah
Pi = E ( Y = l | Xi) = β1+ β2Xi (15.5.1)
Di mana X = pendapatan dan Y = 1 adalah keluarga memiliki rumah. Tetapi
pertimbangan sekarang mengikuti representasi kepemilikan rumah:
Pi = E(Y = 1|Xi) = 1 2 (15.5.2)
Untuk memudahkan kita tulis
1
1 1
Di mana Zi = β1+ β2Xi
Persamaan (15.53) merepresentasi pemahaman tentang fungsi distribusi
logistik.
Mudah untuk memverifikasi rentanga Zi diantara - ∞ + ∞, Pi, mencakup antara 0
dan 1 dan bahwa Pi, nonlinearly dihubungkan dengan Zi, (yaitu, Xi), dengan begitu
memuaskan dua pertimbangan awal yang diperlukan. Tetapi tampaknya dalam
memuaskan kebutuhan ini, kita sudah menciptakan masalah estimasi sebab Pi nonlinear
tidak hanya dalam X tetapi juga dalam β seperti dapat dilihat dengan jelas dari (15.5.2).
hal ini berarti bahwa kita tidak bisa menggunakan prosedur OLS familier untuk
menaksir parameters. Tetapi masalah ini jadi lebih nyata dibanding riil sebab (15.5.2)
dapat dilinearkan, yang dinyatakan sebagai berikut.
Jika Pi probabilitas memiliki rumah, rumus (15.5.3), kemudian (1 – Pi)
probabilitas tidak memiliki rumah, adalah
1 1
1
Karenanya kita bisa menuliskan
1 11
R. Gunawan S. dan Yarnest 16
Sekarang Pi/(1 – Pi) hanya perbandingan rintangan sederhana menuju ke
pemilikan rumah—perbandingan probabilitas suatu keluarga akan memiliki rumah
kepada probabilitas bahwa tidak akan memiliki suatu rumah. Jika Pi = 0.8, berarti
rintangan itu 4 sampai 1 menuju ke keluarga yang memiliki rumah.
Sekarang jika kita mengambil log natural (15.5.5), kita memperoleh suatu hasil
yang sangat menarik, yaitu
ln 1
= β1+ β2Xi
L adalah log rasio rintangan, tidaklah hanya linear X, tetapi juga (dari sudut
pandang estimasi) linear dalam parameters. L disebut logit, dan karenanya nama logit
model untuk model seperti (15.5.6).
Karakteristik model logit ini.
1. Ketika P bergerak 0 sampai 1 (yaitu, seperti variasi Z dari -∞ + ∞), logit L
bergerak dari - ∞ + ∞. Walaupun probabilitas (karena terpaksa) terletak
diantara 0 dan 1, logits tidak demikian membatasi.
2. Walaupun L adalah linear X, probabilitas diri mereka tidak. Properti ini
adalah kontras dengan model LPM (15.5.1) jika] probabilitas meningkat
secara linear dengan X.
3. Walaupun kita telah memasukkan hanya variabel X tunggal, atau regressor,
dalam model yang terdahulu, seorang dapat menambahkan sebanyak
mungkin regressors didikte oleh teori yang mendasari.
4. Jika L, logit, adalah positif, ini berarti bahwa ketika nilai regressor(s)
meningkat, rintangan regressand yang sama dengan 1 (artinya beberapa
peristiwa menarik terjadi) meningkat. Jika L adalah negatif, rintangan
regressand yang sama dengan 1 menurun sebagai nilai X meningkat. Untuk
menaruhnya dengan cara yang berbeda, logit menjadi negatif dan terus
meningkat besar sebagai rasio rintangan berkurang dari 1 sampai 0 dan
menjadi terus meningkat besar dan positif sebagai rasio rintangan meningkat
dari 1 ke takterbatas.
5. Lebih formal, penafsiran logit model pada (15.5.6) sebagai berikut: β2 slope,
mengukur perubahan L untuk suatu unit perubahan pada X, yang menyatakan
bagaimana log-odds menuju ke pemilikan suatu rumah berubah ketika
R. Gunawan S. dan Yarnest 17
pendapatan berubah dalam unit, katakan, $1000. Intercep β1 adalah nilai
log-odds menuju ke pemilikan suatu rumah jika pendapatan adalah nol.
Seperti kebanyakan penafsiran intercep, penafsiran ini mungkin tidak
mempunyai arti phisik.
6. Dengan suatu tingkatan pendapatan tertentu, katakan, X*, jika kita benar-
benar ingin estimasi bukan rintangan menuju ke pemilikan suatu rumah
tetapi probabilitas pemilikan rumah itu sendiri, bisa dilakukan secara
langsung dari (15.5.3) sekali estimasi β1+ β2 tersedia. Ini, bagaimanapun,
memunculkan pertanyaan yang paling utama: Bagaimana cara kita
mengestimasi β1 dan β2 pada tempat pertama? Jawaban disampaikan dalam
bagian yang berikutnya.
7. Sedangkan LPM berasumsi bahwa Pi secara linear berhubungan dengan Xi,
model logit berasumsi bahwa log ratio rintangan secara linear berhubungan
dengan Xi.
15.6 ESTIMATION OF THE LOGIT MODEL
Untuk tujuan estimasi, kita tuliskan (15.5.6) sebagai berikut:
ln 1
Kita akan mendiskusikan kekayaan istilah kesalahan stokastik ui, segera.
Untuk menaksir (15.6.1), kita perlukan, terlepas dari Xi, nilai regressand, atau
logit, Li. Ini tergantung pada jenis data yang kita mempunyai untuk analisa. Kita menciri
dua jenis data: (1) data di individu, atau mikro, tingkatan, dan (2) data replicated atau
yang dikelompokkan.
Data at the Individual Level
Jika kita mempunyai data keluarga individual, seperti di kasus Tabel 15.1,
estimasi OLS (15.6.1) infeasible. Ini mudah untuk melihat. Dalam kaitan dengan data
pada Tabel 15.1, Pi = 1 jika keluarga memiliki rumah dan Pi = 0 jika tidak memiliki
rumah. Tetapi jika kita menaruh nilai secara langsung ke dalam logit Li kita
memperoleh:
ln jika keluarga memiliki rumah
ln jika keluarga tidak memiliki rumah
R. Gunawan S. dan Yarnest 18
Secara Sungguh, ungkapan ini tidak berarti. Oleh karena itu, jika kita
mempunyai data yang mikro, atau individual, tingkatan, kita tidak bisa mengestimasi
(15.6.1) dengan standard OLS terus menerus.
Dalam situasi ini kita mungkin punya untuk memohon pertolongan metoda
maximum-likelihood (ML) untuk menaksir parameter. Walaupun prinsip-prinsip dasar
metoda ini telah dibahas catatan tambahan ke bab 4, aplikasinya dalam kaitan dengan
kontek ini akan dibahas pada Catatan tambahan 15A, Bagian 15A.1, demi kepentingan
pembaca yang bermaksud belajar lebih banyak tentang ini. Paket software, seperti
Microfit, Eviews, Limdep, Shazam, PcGive, dan Minitab, sudah built-in yang rutin
untuk mengestimasi model logit di tingkatan yang individual. Kita akan
menggambarkan penggunaan metode ML kemudian.
Grouped or Replicated Data
Sekarang mempertimbangkan data pada Tabel 15.4. Tabel ini memberi data
pada beberapa kelompok keluarga atau replicated (pengulangan pengamatan) menurut
tingkatan pendapatan dan banyaknya keluarga yang memiliki rumah pada masing-
masing tingkatan pendapatan. Berkaitan dengan masing-masing tingkatan pendapatan Xi
terdapat Ni, keluarga ni diantara siapa yang pemilik rumah (ni ≤ Ni). Oleh karena itu,
jika kita menghitung
(15.6.2)
itu adalah, frekwensi relatif, kita dapat menggunakannya sebagai estimasi
kebenaran Pi berkaitan dengan masing-masing Xi. Jika Ni adalah cukup besar , akan
merupakan suatu alasan estimasi Pi yang baik. Penggunaan estimasi Pi, kita dapat
memperoleh logit estimasi sebagai berikut yang akan merupakan estimasi yang baik
logit Li yang benar jika banyaknya pengamatan Ni pada masing-masing Xi layak besar.
(15.6.3)
R. Gunawan S. dan Yarnest 19
TABLE 15.4 HYPOTHETICAL DATA ON X, (INCOME), A/,- (NUMBER OF FAMILIES AT INCOME X,), AND n, (NUMBER OF FAMILIES OWNING A HOUSE)
X (thousands of dollars) Ni ni
6 8
10 13 15 20 25 30 35 40
40 50 60 80 100 70 65 50 40 25
8 12 18 28 45 36 39 33 30 20
Singkatnya, data replicated atau yang dikelompokkan, seperti Tabel 15.4,
seseorang dapat memperoleh data variabel yang dependent, logits, untuk menaksir
model (15.6.1). Dapatkah kita kemudian menerapkan OLS untuk (15.6.3) dan menaksir
parameter dalam pertunjukan yang umum? Jawaban adalah, tidak yakin, ketika kita
belum berkata segalanya tentang kekayaan kepemilikan pengganggu stokastik. Itu dapat
ditunjukkan bahwa jika Ni cukup besar dan jika masing-masing pengamatan dalam
kelas pendapatan ditentukan Xi terdistribusi dengan bebas sebagai variabel binomial,
kemudian
~ ,
(15.6.4)
ui mengikuti distribusi normal dengan mean nol dan perbedaan sepadan dengan
1/[Ni Pi (1- Pi)].
Oleh karena itu, seperti di kasus LPM, pengganggu model logit adalah
heteroscedastic. Seperti itu, sebagai ganti penggunaan OLS kita harus menggunakan
weighted least squares (WLS). Untuk tujuan empiris, bagaimanapun, kita akan
menggantikan yang tak dikenal Pi dengan dan gunakan
(15.6.5)
Sebagai estimator
Kita sekarang diskribsikan berbagai langkah dalam estimasi regresi logit
(15.6.1):
1. Masing-masing tingkat pendapatan X, hitung probabilitas pemilik rumah
seperti = ni / Ni.
R. Gunawan S. dan Yarnest 20
2. Masing-masing Xi, dapatkan logit seperti ln
3. Untuk menyelesaikan masalah heteroscedasticity, transformasikan (15.6.1)
sebagai berikut: + (15.6.6)
Yang dapat kita tuliskan
+ (15.6.7)
di mana bobot wi = Ni (1 - ); = ditransformasikan atau dibobot
Li; = transformasi atau bobot Xi; dan vi = transformasi error. Adalah
mudah untuk memverifikasi bahwa transformasi error vi adalah
homoscedastic, mengingat bahwa perbedaan kesalahan yang asli =
1/[NiPi(1 – Pi)]
4. Mengestimasi (15.6.6) dengan OLS—ingat kembali bahwa WLS adalah
OLS pada transformasi data. Pesan bahwa dalam (15.6.6) tidak ada intercep
yang diperkenalkan dengan tegas (mengapa?). Oleh karena itu, seseorang
harus menggunakan regresi melalui aslinya untuk menaksir (15.6.6).
5. Tetapkan interval kepercayaan dan/atau hipotesis test yang umum pada
kerangka OLS, tetapi ingat bahwa semua kesimpulan pada hakekatnya akan
sah jika sampel layak besar (mengapa?). Oleh karena itu, pada sampel kecil,
hasil yang estimasi harus ditafsirkan secara hati-hati.