Chapter 1 DATA AND STATISTICS -...

Post on 31-Aug-2019

10 views 0 download

Transcript of Chapter 1 DATA AND STATISTICS -...

Chương 11

HỒI QUY VÀ TƯƠNG QUAN ĐƠN BIẾN

Ths. Nguyễn Tiến Dũng

Viện Kinh tế và Quản lý, Trường ĐH Bách khoa Hà Nội

Email: dung.nguyentien3@hust.edu.vn

MỤC TIÊU CỦA CHƯƠNG

● Sau khi học xong chương này, người học sẽ

● Nói được phạm vi ứng dụng của phương pháp phân

tích hồi quy và tương quan đơn biến

● Biết cách thực hiện một phân tích hồi quy dựa trên

dữ liệu mẫu

● Nói được những điều kiện và giả định cần thiết khi

phân tích hồi quy

● Biết được cách tính và ý nghĩa của hệ số tương quan

Pearson và hệ số tương quan hạng Spearman

© 2013 Nguyễn Tiến Dũng 2

CÁC NỘI DUNG CHÍNH

● 11.1 LÀM QUEN VỚI HỒI QUY

● 11.2 MÔ HÌNH HỒI QUY TUYẾN TÍNH ĐƠN

● 11.3 TƯƠNG QUAN TUYẾN TÍNH

● 11.4 TƯƠNG QUAN GIỮA CÁC BIẾN ĐỊNH TÍNH

© 2013 Nguyễn Tiến Dũng 3

11.1 Làm quen với hồi quy

● 11.1.1 Khái niệm hồi quy

● Regression, Regression to mediority: quy các điểm DL đã biết về một đường

lý thuyết

● Đ/nghĩa của TK:

● NC mối liên hệ phụ thuộc giữa một biến phụ thuộc (biến đầu ra) và một hay

nhiều biến độc lập (biến đầu vào),

● nhằm ước tính hoặc dự báo giá trị trung bình tổng thể của biến phụ thuộc dựa

trên các giá trị biết trước của biến độc lập

● Hồi quy đơn biến (simple regression): 1 biến PT và 1 biến ĐL, DL định lượng

● TD:

● KQ học tập = f(thời gian tự học)

● KQ học tập = f(thời gian tự học, yêu thích chuyên ngành)

● Lượng tiêu thụ = f(P1, P2, P3, P4)

● Chất lượng sản phẩm = f(NVL, thiết bị, công nghệ, con người, quản lý)

© 2013 Nguyễn Tiến Dũng 4

11.1.2 Phân biệt liên hệ TK và liên hệ hàm số khi phân tích hồi quy

● Liên hệ hàm số: Y = b0 + b1X

● Với 1 giá trị của X, có 1 giá trị xác định và duy nhất

của Y

● Liên hệ TK: Y = b0 + b1.X

● X = thời gian tự học; Y = điểm GPA

● DL về X: dữ liệu mẫu

● Một X, có thể có nhiều Y

● DL mẫu xác định đường HQ mẫu dự đoán

đường HQ tổng thể

© 2013 Nguyễn Tiến Dũng 5

© 2013 Nguyễn Tiến Dũng 6

11.1.3 Quy ước về ký hiệu và tên gọi

● Biến số: Y = b0 + b1.X1 + b2X2

● Biến độc lập, biến đầu vào, biến giải thích: X1, X2

● Biến phụ thuộc, biến đầu ra, biến được giải thích: Y

● Xki: giá trị của quan sát thứ i của biến Xk.

● b0, b1, b2: các hệ số của phương trình hồi quy

● Hồi quy đơn biến và hồi quy đa biến (HQ bội)

● HQ đơn biến (simple regression): 1 biến ĐL

● HQ đa biến (multiple regression): nhiều biến ĐL

© 2013 Nguyễn Tiến Dũng 7

11.1.4 Các dạng liên hệ giữa biến độc lập và biến phụ thuộc

© 2013 Nguyễn Tiến Dũng 8

11.2 Mô hình hồi quy tuyến tính đơn

● 11.2.1 Mở đầu

● NC mối liên hệ giữa thu nhập

(X) và chi tiêu (Y)

● Lấy mẫu n hộ gia đình

● Đường hồi quy lý thuyết

● E(Y|Xi) = b0 + b1.Xi

● Yi = b0 + b1Xi + ei

● b0: hệ số tung độ gốc (hệ số

chặn)

● b1: hệ số dốc (hệ số góc)

● ei: sai số, thể hiện yếu tố nhiễu

© 2013 Nguyễn Tiến Dũng 9

11.2.2 Các giả định liên quan đến yếu tố nhiễu

● Các ei tại mỗi Xi có phân

phối bình thường

● Không có sự tương quan

giữa các nhiễu, hay các ei

độc lập với nhau

© 2013 Nguyễn Tiến Dũng 10

11.2.3 Ý nghĩa và cách xác định các hệ số hồi quy

● b1: hệ số độ dốc, đo lường lượng thay đổi TB trong

biến phụ thuộc Y khi X thay đổi 1 đơn vị.

● b0: hệ số tung độ gốc cho biết giá trị của Y khi X =

0, có thể coi là ảnh hưởng TB của các yếu tố khác

mà không có mặt trong mô hình

© 2013 Nguyễn Tiến Dũng 11

Dữ liệu mẫu Bảng 11.1

Stt Số năm Doanh số

1 3 487

2 5 445

3 2 272

4 8 641

5 2 187

6 6 440

7 7 346

8 1 238

9 4 312

10 2 269

11 9 655

12 6 563

© 2013 Nguyễn Tiến Dũng 12

Xác định các hệ số hồi quy

● Phương pháp Cực tiểu hoá

tổng bình phương của các

phần dư

© 2013 Nguyễn Tiến Dũng 13

2 2

0 1

1 1

min min ( )X

n n

i i i

i i

e Y b b

11

2

1

0 1

( )( )

( )

n

i i

i

n

i

i

X X Y Y

b

X X

b Y b X

11.2.4 Tính toán các kết quả hồi quy bằng Excel

● Vẽ đồ thị Scatter Chart

© 2013 Nguyễn Tiến Dũng 14

y = 49,91x + 175,83R² = 0,6931

0

100

200

300

400

500

600

700

0 2 4 6 8 10

Do

an

h s

ố b

án

hàn

g (

triệ

u đ

ồn

g)

Số năm kinh nghiệm

● Sử dụng Data Analysis

© 2013 Nguyễn Tiến Dũng 15

11.2.6 Đo lường biến thiên bằng Hệ số xác định

● Hệ số xác định (Coefficient of Determination)

© 2013 Nguyễn Tiến Dũng 16

2

1

2

1

2

1

2

( )

ˆ( )

ˆ( )

n

i

i

n

i

i

n

i i

i

SST SSR SSE

SST Y Y

SSR Y Y

SSE Y Y

SSRR

SST

© 2013 Nguyễn Tiến Dũng 17

11.2.5 Vấn đề cần chú ý khi dự đoán với mô hình hồi quy

● Chỉ nên dự đoán 𝑌𝑖 với những giá trị Xi nằm giữa

Xmin và Xmax, hoặc không quá xa Xmin và Xmax

● Lý do: với những giá trị Xi nằm càng xa Xtb, thì sai

số khi ước lượng Yi càng lớn.

© 2013 Nguyễn Tiến Dũng 18

11.2.8 Suy diễn TK về hệ số độ dốc

● 11.2.8.1 Định lý Gauss-Markov

● Giả định: PP của Y là bình thường thì PP của b0

và b1 cũng là PP bình thường

● Đ/lý Gauss-Markov

● Trong các ƯL tuyến tính không chệch cho hệ số hồi

quy tổng thể, ƯL tìm được bằng PP bình phương bé

nhất có PS cực tiểu.

© 2013 Nguyễn Tiến Dũng 19

11.2.8.2 Khoảng tin cậy cho hệ số độ dốc

© 2013 Nguyễn Tiến Dũng 20

11.2.8.3 KĐ ý nghĩa của hệ số độ dốc

● Cặp giả thuyết KĐ

● Chỉ tiêu KĐ tính: t = b1/sb1

● Quy tắc bác bỏ H0:

● TD:

● b1 = 49,91

● sb1 = 10,5021

● t = 4,7524

● t tra bảng: tn-2;α/2 = t10; 0,025=2,228

● Bác bỏ H0.

© 2013 Nguyễn Tiến Dũng 21

0 1

1 1

2; /2

2; /2

: 0

: 0

0Baùc boû H neáu

n

n

H

H

t t

t t

© 2013 Nguyễn Tiến Dũng 22

11.2.9 Phân tích phần dư

● 11.2.9.1 Kiểm tra tính đúng đắn của mô hình HQTT

● KT mối liên hệ tuyến tính:

● Vẽ đồ thị phần dư theo biến độc lập X: e = f(X)

● Nếu các điểm không tạo thành một hình mẫu cụ thể

nào thì quan hệ HQTT là đúng đắn

© 2013 Nguyễn Tiến Dũng 23

11.2.9.2 KT sự vi phạm giả định PS bằng nhau

● Phương pháp đồ thị phần dư (e) theo X

● Nếu phần dư tăng dần khi X tăng lên thì có nghĩa là

phương sai của phần dư đã thay đổi vi phạm

● Phương pháp Kiểm định Park

© 2013 Nguyễn Tiến Dũng 24

11.2.9.3 KT giả định PP bình thường của phần dư

● Vẽ đồ thị xác suất bình thường (Normal Probability Plot): e = e(z)

● Sử dụng Excel

© 2013 Nguyễn Tiến Dũng 25

© 2013 Nguyễn Tiến Dũng 26

11.2.9.4 KT tính độc lập của phần dư

● P.pháp đồ thị: vẽ đồ thị phần dư

theo trật tự các giá trị thu được theo

thời gian. Nếu không xuất hiện một

hình mẫu xác định nào có thể KL

là các phần dư độc lập với nhau.

● KĐ Durbin-Watson: Chỉ tiêu KĐ D

© 2013 Nguyễn Tiến Dũng 27

2

1

2

2

1

( )

: phaàn dö taïi quan saùt i

: soá quan saùt

Giaù trò cuûa D: 0 D 4

n

i i

i

n

i

i

i

e e

D

e

e

n

© 2013 Nguyễn Tiến Dũng 28

Durbin-Watson Table

© 2013 Nguyễn Tiến Dũng 29

11.2.10 Sử dụng PT hồi quy để dự đoán giá trị TB và giá trị cá biệt của Y

● Giá trị TB

© 2013 Nguyễn Tiến Dũng 30

● Giá trị cá biệt

0 0

0 0 1 0

2

02; /2 |

2

1

ˆ( | )

ˆ

1 ( )

( )

Y

n Y X nY

i

i

E Y X Y e

Y b b X

X Xe t s

nX X

0 0

0 0 1 0

2

02; /2 |

2

1

ˆ

ˆ

1 ( )1

( )

Y

Y n Y X n

i

i

Y Y e

Y b b X

X Xe t s

nX X

11.3 Tương quan tuyến tính

● 11.3.1 Hệ số tương quan tổng thể rho

● 11.3.2 Hệ số tương quan mẫu rXY

© 2013 Nguyễn Tiến Dũng 31

cov( , )

var( ) var( )

.

XY

XYXY

X Y

X Y

X Y

1

2 2

1 1

( )( )

.( ) ( )

n

i i

XY iXY

n nX Y

i i

i i

x x y ys

rs s

x x y y

Giá trị và ý nghĩa của hệ số tương quan:

● r < 0: có mối liên hệ tỷ lệ nghịch

● r > 0: có mối liên hệ tỷ lệ thuận

● |r| > 0,8 : TQTT rất mạnh

● |r| = 0,6 – 0,8: TQTT mạnh

● |r| = 0,4 – 0,6: TQTT vừa phải

● |r| = 0,2 – 0,4: TQTT yếu

● |r| < 0,2 : TQTT rất yếu

© 2013 Nguyễn Tiến Dũng 32

KĐ ý nghĩa của hệ số tương quan tuyến tính

● Cặp giả thuyết KĐ

● Chỉ tiêu KĐ

● Quy tắc bác bỏ H0

● Bác bỏ H0 nếu |t| > tn-2;α/2

● TD: Trang 345

© 2013 Nguyễn Tiến Dũng 33

0

1

: 0

: 0

H

H

22

2

11

2

r nt r

rr

n

11.4 Tương quan giữa các biến định tính

● 11.4.1 Hệ số TQ hạng Spearman

● 11.4.2 Hệ số Kendall Tau

● 11.4.3 Hệ số tq đối với DL thứ bậc trong DL đã

phân nhóm (tau c, gamma, dyx và dxy)

© 2013 Nguyễn Tiến Dũng 34

KĐ theo hệ số tương quan hạng Spearman rS

● Biến X1 và X2 có dữ liệu thứ bậc (hoặc DL khoảng,

nhưng đã biến thành DL thứ bậc bằng cách xếp

hạng trong từng mẫu), mẫu n cặp quan sát

● Tính chênh lệch hạng di = x1i – x2i (i = 1, 2, … n)

● Tính hệ số tương quan hạng rS

● H0: Không có liên hệ giữa 2 biến (Hệ số tương

quan hạng của tổng thể = 0)

● Nếu số trường hợp có di = 0 nhiều, thì cần thêm

một hệ số hiệu chỉnh

● Nếu n > 10, PP của hệ số TQ hạng trên mẫu xấp xỉ

PP bình thường với độ lệch chuẩn là 1/(n – 1).

Chỉ tiêu KĐ sẽ là z

© 2013 Nguyễn Tiến Dũng 35

11 / 1

S

S

rz r n

n

2

1

6

1( 1)

S

n

i

i

d

rn n