رگرسیون چندگانه Multiple Regression

Post on 06-Jan-2016

216 views 0 download

Tags:

description

رگرسیون چندگانه Multiple Regression. موسوی ندوشنی بهار 1387. مدل چند متغیره. در رگرسیون چند متغیره رابطه به شرح زیر است: که می‌توان آن را مانند یک متغیره برای حالت چند متغیره نوشت: - PowerPoint PPT Presentation

Transcript of رگرسیون چندگانه Multiple Regression

دانشگاه صنعت آب و برق 1

چندگانهرگرسیونMultiple Regression

موسوی ندوشنی1387بهار

مدل چند متغیره در رگرسیون چند متغیره رابطه به شرح زیر

است:

که می توان آن را مانند یک متغیره برایحالت چند متغیره نوشت:

که درŷ برآورد مقدار y است. اگر مشاهده همان b0اول برابر واحد فرض شود، مقدار

مقدار ثابت )در حالت خطی برابر عرض از مبداء( است.

دانشگاه صنعت آب و برق 2

0 1 1 2 2 m my x x xb b b b e= + + + + +L

0 1 1 2 2ˆ 1

m mY b b X b X b X= ´ + ´ + ´ + + ´L

عملیات رگرسیون با نشان گذاری ماتریسی

معادله رگرسیون را می توان به صورت زیرنوشت:

:که نمایش ماتریسی آن به صورت زیر است

دانشگاه صنعت آب و برق 3

11 12 13 1

21 22 23 2

31 32 33 3

1 2 3

1

1

1

1

m

m

m

n n n nm

X X X X

X X X X

X X X XX

X X X X

é ùê úê úê úê ú= ê úê úê úê úê úë û

L

L

L

M M M M O M

L

1 1n n m mY X b

´ ´ ´=

ماتریس واریانس-کوواریانس در این ماتریس متقارن، عناصر قطری

واریانس و بقیه عناصر کوواریانس هستند.

دانشگاه صنعت آب و برق 4

1 12 13 1

21 2 23 2

31 32 3 3

1 2 3

m

mT

m

m m m m

V C C C

C V C C

C C V CX X

C C C V

é ùê úê úê úê ú= ê úê úê úê úê úë û

L

L

L

M M M O M

L

دنباله عملیات رگرسیون با نشان گذاری ماتریسی

فرم ماتریسیCiY یعنی کوواریانس بین Xi و Y.به صورت زیر است

بنابراین برآورد مقادیر.به صورت زیر است

دانشگاه صنعت آب و برق 5

1

2

3

Y

YT

Y

mY

C

C

CX Y

C

é ùê úê úê úê ú= ê úê úê úê úê úë û

M

( ) ( )1ˆ T Tb X X X Yb

-= =

عملیات رگرسیون با نشان گذاری ماتریسی روش دوم

.اگر معادله رگرسیون به صورت زیر باشد

.اگر ماتریس داده های خام به صورت زیر باشد

معادله فوق را می توان با استفاده از ضرایبهمبستگی حل نمود.

دانشگاه صنعت آب و برق 6

0 1 1 2 2ˆ

k kY b bX bX bX= + + + +L

11 12 13 1

21 22 23 2

1 2 3

k

k

n n n nk

X X X X

X X X X

X X X X

é ùê úê úê úê úê úê úê úë û

L

L

M M M O M

L

دنباله عملیات رگرسیون با نشان گذاری ماتریسی روش دوم

دستگاه معادالت زیر را می توان به صورتزیر داشت.

که در آنαi ،ضرایب rij همبستگی های میان همبستگی های بین ryjمتغیرهای مستقل و

Yمتغیرهای مستقل و متغیر وابسته یعنی دانشگاه صنعت آب و برقاست. 7

1 12 2 13 3 1 1

21 1 2 23 3 2 2

1 1 2 2 3 3

k k y

k k y

k k k k yk

r r r r

r r r r

r r r r

a a a a

a a a a

a a a a

+ + + + =

+ + + + =

+ + + + =

L

L

M

L

دنباله عملیات رگرسیون با نشان گذاری ماتریسی روش دوم

اگر دستگاه معادالت را به فرم ماتریسی بنویسید نتیجه وRijαj=Ryjمی شود.

برای محاسبهbj.از فرمول زیر استفاده می شود

bjضرایب رگرسیون

syانحراف معیار متغیر وابسته

sjانحراف معیار متغیرهای مستقل

ضمنا رابطهR2 و rykها

دانشگاه صنعت آب و برق 8

11 12 13 1 1 1

21 22 23 2 2 2 1

1 2 3

k y

k yj ij yj

k k k kk k yk

r r r r r

r r r r rR R

r r r r r

a

aa

a

-

æ öæ ö æ öç ÷ç ÷ ç ÷ç ÷ç ÷ ç ÷ç ÷ç ÷ ç ÷ç ÷ç ÷ ç ÷ç ÷ç ÷ ç ÷= Þ =ç ÷ç ÷ ç ÷ç ÷ç ÷ ç ÷ç ÷ç ÷ ç ÷ç ÷ç ÷ ç ÷ç ÷ç ÷ ç ÷ç ÷ç ÷ ç ÷ç ÷ç ÷ ç ÷è øè ø è ø

L

L

L L L O L M M

L

yj j

j

sb

sa=

2.123 1 1 2 2y k y y k yk

R r r ra a a= + + +L

L

دنباله عملیات رگرسیون با نشان گذاری ماتریسی روش دوم

و سرانجام مقدار ثابت معادله به صورت زیراست.

همانطور که قبال نیز مشاهده شد، ضریبتعیین به شرح زیر است.

دانشگاه صنعت آب و برق 9

0 1 1 2 2 k kb Y bX bX bX= - - - -L

2 reg reg

reg res t

ss ssR

ss ss ss= =

+

دنباله عملیات رگرسیون با نشان گذاری ماتریسی

باقی مانده به صورتe=y- ŷ.است متوسط خطاها یعنیE(e)ē=0 و واریانس

است.Var(e)=eTeخطا برابر با ( واریانس ضرایب:عبارتست از )

به ازاء یکX خاص می توان یک مقدار برای Y.پیشگویی نمود

دانشگاه صنعت آب و برق 10

1ˆVar( ) ( )( )T Te e X Xb -=

ˆp p

Y X b=

فاصله اطمینان برای ضرایب معادله

فاصله اطمینان 100(1-) برای ضرایب j عبارتست از:

که در آنCjj( عناصر قطری XTX)-1 است و واریانس خطای برآورد برابر است با:

کهm.تعداد ضرایب برآورد شده است

دانشگاه صنعت آب و برق 11

( /2, )j j n m e jjb t S C

ab

-Î ±

2 2

1

ne

e e ii

SSS SS e

n m =

= =- å

فاصله اطمینان برای مقادیر برآورد شده

100فاصله اطمینان(1-) برای یک مقدار y0 که توسط یک نقطه x0 در فضای چند بعدی

است ŷ0تولید شده و مقدار برآورد شده آن که عبارتست از:

دانشگاه صنعت آب و برق 12

10 0 ( /2, ) 0 0

ˆ 1 ( )T Tn m e

y y t S x X X xa

--

Î ± +

1مثال .به داده های زیر توجه کنید

X1: 2,2,1,1,3,4,5,5,7,6,4,3,6,6,8,9,10,9,4,4

X2: 4,4,4,3,6,6,3,4,3,3,5,5,9,8,6,7,5,5,7,7

Y: 2,1,1,1,5,4,7,6,7,8,3,3,6,6,10,9,6,6,9,10 معادله رگرسیون حاصل از داده ها به شرح

زیر است:

ضریب تعیین برابرR2=0.5054.است آزمونF :

دانشگاه صنعت آب و برق 13

1 2ˆ 0.1027 0.6771 0.3934Y X X= + +

2

1

2

2

11

8.685reg

res

ssR

df kss R

n kdf

F-- -

= = =

1تحلیل رگرسیون در مثال وقتی بیش از یک متغیر در معادله رگرسیون

قرار دارد، آنگاه تحلیل رگرسیون پیچیده تر می شود.

اولین بررسی آنچه را کهX1 و X2 با هم و( جدا از هم( به رگرسیون می افزایند به وضوح

نشان می دهد. آیا اضافه کردنX2 به معادله رگرسیون

را به طرز معنی داری باال Yپیش بینی می برد؟

اکنون فقط متغیرX1 .در نظر گرفته می شود

.که معنی دار است

دانشگاه صنعت آب و برق 14

2.1

0.454 14.943y

R F= =

دنباله تحلیل رگرسیون در مثال 1

اکنون فقط متغیرX2.در نظر گرفته می شود

0.08 معنی دار نمی شود. اما در سطح حدود 0.05در سطح مرسوم معنی دار است. بنابراین می توان موضوع را دنبال نمود.

با بررسی جداگانهX1 و X2 معلوم شد که X1 بسیار بهتر از X2 متغیر را پیش بینی می کند. Yوابسته یعنی

اما یک سوال را می توان مطرح کرد و راجع به آن تامل نمود. سوال این پیش بینی را باال می برد. قبال مالحظه شد X1 بر X2است: آیا اضافه کردن

R2که y.1=0.45 و R2

y.12=0.51 است. بنابراین، با اضافه کردن X2 بر X1، R2 باال می رود. با این وجود این مشارکت اضافی در 0.0518به مقدار

رگرسیون به لحاظ آماری معنی دار نیست. اما به تفاوت دقت کنید. در رگرسیونY تنها بر X2، R2 به 0.16 به مقدار

باال 0.05 را فقط X1، dR2 بر X2دست می آید. در حالی که اضافه کردن برد. این تفاوت یکی از خصوصیات مهم رگرسیون چندگانه را نشان

می دهد. دانشگاه صنعت آب و برق 15

2.2

0.156 3.320y

R F= =

بیان بعضی از مالحظات درباره رگرسیون چندگانه

اگر همبستگی بینX1 و X2 معادل صفر X2 بین r2 را می توان بر Y و X1 بین r2باشد،

R2 افزود و Yو y.12.را بدست آورد

ولی، این حالت کمتر رخ می دهد.کههمبستگی بین دو متغیر، معادل صفر باشد.

دانشگاه صنعت آب و برق 16

2 2 2.12 .1 .2y y y

R r r= +

تجزیه و تحلیل مدل رگرسیون stepwise

همانطور که قبال نیز اشاره شد در رگرسیون از مدل زیراستفاده می شود.

اما این که کدامیک ازXi ها مهم تر هستند معلوم نیست. البتهدر یک سیستم علت و معلولی کامال معین، این سوال مطرح

نیست. ولی در هیدرولوژی قضیه همیشه روش نیست. جریان ماهانه در یک ایستگاه را در نظر بگیرید، این جریان

می تواند متاثر از بارندگی این ماه باشد اما با توجه به سیستم تاخیر بارندگی-رواناب، بارندگی ماه قبل نیز

می تواند در ایجاد رواناب موثر واقع شود. هدف از رگرسیونstepwise این است که معادله پیشگویی

را بر اساس متغیرهای موثرتر بسط دهیم.

دانشگاه صنعت آب و برق 17

0 1 1 2 2ˆ 1

m mY b b X b X b X= ´ + ´ + ´ + + ´L

2مثال .به داده های زیر توجه کنید

X1: 2,2,1,1,3,4,5,5,7,6,4,3,6,6,8,9,10,9,4,4

X2: 5,4,5,3,6,4,6,4,3,3,3,6,9,8,9,6,4,5,8,9

X3: 1,2,4,4,5,6,3,3,7,7,8,9,5,4,5,5,7,8,8,7

Y: 2,1,1,1,5,4,7,6,7,8,3,3,6,6,10,9,6,6,9,10:معادله رگرسیون حاصل از داده ها به شرح زیر است

ضریب تعیین برابرR2=0.6637.است با آزمونF=10.526<3.239.رگرسیون معنی دار است

دانشگاه صنعت آب و برق 18

1 2 3ˆ 2.0045 0.6184 0.6240 0.1873Y X X X=- + + +

2تحلیل رگرسیون در مثال در آزمون آماری معنی دار بودن دو شیوه ذکر

می شود.( F )یا نسبت های tاولین روش از نسبت های •

استفاده می کند. سود Fها و نسبت های R2دومین روش از •

می جوید. در باره کاربرد نسبتt برای آزمون معنی دار

بودن آماری وزن های رگرسیون سوال مهمی پیش می آید: آیا رگرسیون متغیر وابسته بر یک متغیر مستقل معین، پس از به حساب آوردن تاثیرات متغیرهای مستقل دیگر، به

لحاظ آماری معنی دار است؟ دانشگاه صنعت آب و برق 19

دنباله تحلیل رگرسیون در مثال 2

خطای استاندارد برآورد

خطای استاندارد ضریب هایb را می توان به چند روش محاسبه نمود که یکی از آن ها به شرح زیر است.

کهSEbj خطای استاندارد j امین وزن b.است

SE2est.مجذور خطای استاندارد است

ssxj مجموع مجذورات متغیر j.است R2 مجذور همبستگی چند متغیری بین متغیر j )متغیر وابسته(

و بقیه متغیرهای مستقل است.دانشگاه صنعت آب و برق 20

55.48661.823

1 20 3 1res

est

ssSE

n k= = =

- - - -

2

2(1 )est

bj

xj

SESE

ss R=

-

دنباله تحلیل رگرسیون در مثال 2

:در مورد ضریب اول می توان نوشت

برای بدست آوردنR2j مجذور همبستگی(

امین متغیر مستقل و jچند متغیری بین متغیرهای مستقل دیگر است.( می توان

نوشت.rjj مقادیر واقع روی قطر وارون ماتریس

همبستگی میان متغیرهای مستقل است. نسبتt دارای n-k-1دانشگاه صنعت آب و برق درجه آزادی 21

2

1 21 1.23(1 )

estb

x

SESE

ss R=

-

2 11

jjj

Rr

= -

jj

bj

bt

SE=

دنباله تحلیل رگرسیون در مثال 2

R2 های الزم به صورت زیر محاسبه می شوند.

اکنونSEbj.به صورت زیر محاسبه می شوند

دانشگاه صنعت آب و برق 22

2 21 1.23

2 22 2.13

2 23 3.12

11 0.1427

1.16651

1 0.02181.0223

11 0.1248

1.1426

R R

R R

R R

= = - =

= = - =

= = - =

2

1

1.86220.1732

134.95(1 0.1427)bSE = =

-

دنباله تحلیل رگرسیون در مثال 2

اولین نسبتt:عبارتست از

دومین نسبتt:عبارتست از

دانشگاه صنعت آب و برق 23

11

1

0.61843.5719

0.1732b

bt

SE= = =

2

2

1.86220.2042

85(1 0.0218)bSE = =

-

22

2

0.62403.0555

0.2042b

bt

SE= = =

2

3

1.86220.2066

92.8(1 0.1248)bSE = =

-

دنباله تحلیل رگرسیون در مثال 2

سومین نسبتt:عبارتست از

ضریب هایb1 و b2 0.05 در سطح 16 با درجه آزادی در این سطح معنی دار نیست.b3معنی دار هستند ولی

معنی دار بودن آماری متغیرهای اضافه شده به معادلهرگرسیون

یعنی اولین و دومین متغیر X2 و X1فرض کنید که فقط • مورد نظر قرار گیرد و یک Yمستقل و متغیر وابسته،

تحلیل رگرسیون برای داده ها انجام شود. در این صورت شاخص های آماری ضروری به شرح زیر است.

دانشگاه صنعت آب و برق 24

33

3

0.18740.907

0.2066b

bt

SE= = =

دنباله تحلیل رگرسیون در مثال 2

معادله رگرسیون مقدارF و R2

y.12:عبارتست از

با توجه بهF در سطح 17 و 2 با درجه آزادی های معنی دار است.0.05

وقتی هر سه متغیر مستقل در معادله بودندR2 و F به قرار زیر بدست آمدند.

اکنون باید به این سوال پاسخ داد: آیا اضافه کردنX3 دقت پیش بینی را به طرز معنی داری باال می برد؟ برای

دیگر محاسبه Fپاسخ به این سوال باید یک نسبت شود.

دانشگاه صنعت آب و برق 25

1 2ˆ 1.2356 0.6737 0.6183Y X X=- + +

2.12

0.6464 10.526y

R F= =

2.123

0.6637 10.526y

R F= =

دنباله تحلیل رگرسیون در مثال 2

فرمول نسبتF:چنین است

نسبتF ،حاصله معنی دار نیست. بنابراین را به طرز معنی داری Y پیش بینی X3متغیر

باال نمی برد. ،برای نشان دادن تعمیم پذیری آزمون مزبور

که حایز اهمیت است، معادله دارای شکل زیر است.

دانشگاه صنعت آب و برق 26

2 2.123 .12

1 2

2.123

0.6637 0.64643 2

1 0.6637120 3 1

1

0.824y y

y

R R

k k

R

n k

F

--

- ---

- -- -

= = =

2 2.12 .121 2

1 2

2.12 1

1

1

1

y k y k

y k

R R

k k

R

n k

F

-

-

-

- -

=L L

L

دنباله تحلیل رگرسیون در مثال 2

اکنون اضافه شدن متغیرX2 را بر X1 آزموده به شرح زیر است:Fمی شود. نسبت

نسبتF درجه آزادی، در 17 و 1 حاصله، با معنی دار است. بنابراین، متغیر 0.05سطح

، رگرسیون را به طرز معنی داری باال 2می برد.

دانشگاه صنعت آب و برق 27

2 2.12 .1

1 2

2.12

1

0.6464 0.45362 1

1 0.6464120 2 1

1

9.269y y

y

R R

k k

R

n k

F

--

- ---

- -- -

= = =