計量経済学講義 - u-toyama.ac.jp...CV x 3 添え字のx を省略してs2...

32
計量経済学 講義 5 回 記述統計の基礎 Part 1 2017 10 17 日(火)3 担当教員: 唐渡 広志 研究室: 経済学研究棟4432号室 email: [email protected] website: http://www3.u-toyama.ac.jp/kkarato/ 1

Transcript of 計量経済学講義 - u-toyama.ac.jp...CV x 3 添え字のx を省略してs2...

Page 1: 計量経済学講義 - u-toyama.ac.jp...CV x 3 添え字のx を省略してs2 と書く場合もある 添え字のx を省略してsと書く場合もある ... s yy y Xi Yi 100

計量経済学 講義第 5 回 記述統計の基礎 Part 1

2017 年 10 月 17 日(火)3 限担当教員: 唐渡 広志

研究室: 経済学研究棟4階432号室

email: [email protected]: http://www3.u-toyama.ac.jp/kkarato/

1

Page 2: 計量経済学講義 - u-toyama.ac.jp...CV x 3 添え字のx を省略してs2 と書く場合もある 添え字のx を省略してsと書く場合もある ... s yy y Xi Yi 100

講義の目的

次回10月20日(金)は休講

データの集約方法や記述方法について学びます。

keywords:偏差2乗和,標本分散,標本標準偏差,変動係数,標準化,散布図,相関係数

教科書: pp. 36—93(第2章)

利用データ: chap2-econometrics.xlsx2

Page 3: 計量経済学講義 - u-toyama.ac.jp...CV x 3 添え字のx を省略してs2 と書く場合もある 添え字のx を省略してsと書く場合もある ... s yy y Xi Yi 100

データの「ばらつき」を示す特性値 (pp.48 – 52)

偏差2乗和(Sum of Squares)

分散 (Variance): 偏差2乗和を自由度で割った値

標準偏差 (Standard Deviation):分散の平方根

変動係数 (Coefficient of Variation):標準偏差を平均で割った値

222

21 XXXXXXS nxx

12

nS

s xxx

2xx ss

Xs

CV x

3

と書く場合もあるを省略して添え字の 2sx

と書く場合もあるを省略して添え字の sx

Page 4: 計量経済学講義 - u-toyama.ac.jp...CV x 3 添え字のx を省略してs2 と書く場合もある 添え字のx を省略してsと書く場合もある ... s yy y Xi Yi 100

4

偏差2乗和

偏差を合計すると必ず0になってしまう。

そこで,偏差を2乗してから合計したものを散らばり具合の指標として使う(2乗すると符号は?)

これを偏差2乗和とよぶ(記号は Sxx)

021 XXXXXX n

222

21:2 XXXXXXS nxx乗和偏差

を標本平均とするとき

について個の観測データ:【定義】

X

XXXXn ni ,,, 21

記号:大文字の Sに下付きの添え字 xx

るだけでは意味がない成立するので,合計すどんなデータでも必ず

Page 5: 計量経済学講義 - u-toyama.ac.jp...CV x 3 添え字のx を省略してs2 と書く場合もある 添え字のx を省略してsと書く場合もある ... s yy y Xi Yi 100

5

例.偏差2乗和の計算

1041142112

2

046454342:

44

6532

2222

24

23

22

21

4321

XXXXXXXXS

XXXXXXXX

X

xx乗和偏差

偏差の合計

標本平均

Page 6: 計量経済学講義 - u-toyama.ac.jp...CV x 3 添え字のx を省略してs2 と書く場合もある 添え字のx を省略してsと書く場合もある ... s yy y Xi Yi 100

6

【重要】偏差2乗和の注意点合計してから 2 乗してはいけない

偏差の合計は 0 であることに注意

偏差を合計してから 2 乗しても 0 になる.

「和の2乗」と「2乗の和」は意味が異なる点に注意

0021)1(2

2

22

24321 XXXXXXXX

乗偏差の和の

10411421)1(2

2

2222

24

23

22

21 XXXXXXXXSxx

乗の和偏差の

Page 7: 計量経済学講義 - u-toyama.ac.jp...CV x 3 添え字のx を省略してs2 と書く場合もある 添え字のx を省略してsと書く場合もある ... s yy y Xi Yi 100

7

練習問題 (1)ワークシートに観測値 {Xi} = {3,4,0,−3} を入力して, {Xi}の合計と平均,偏差,偏差の合計,偏差の2乗,偏差2乗和を計算しなさい。

合計 sum 関数平均 average 関数偏差2乗和 devsq 関数

Excel 関数

301

xxSX

答え

Page 8: 計量経済学講義 - u-toyama.ac.jp...CV x 3 添え字のx を省略してs2 と書く場合もある 添え字のx を省略してsと書く場合もある ... s yy y Xi Yi 100

8

標本分散

偏差2乗和 Sxx を自由度 n − 1 で割った値を標本分散とよぶ。

n − 1 を自由度とよぶ

なぜ標本サイズ n ではなく,自由度 n − 1 で割るのか

• n 個の偏差のうち,必要な情報は n − 1 個で十分だから。

• 実は n − 1 で割った方が,母集団分散の良い推定になっている(nで割ると,母集団分散を過少に推定してしまうことが知られている)。

11

222

212

nXXXXXX

nSs nxx

x標本分散:

を標本平均とするときについて個の観測値:【定義】 XXXXXn ni ,,, 21

小文字の s を使う

1014

301

. 2

nSs xx

x例

Page 9: 計量経済学講義 - u-toyama.ac.jp...CV x 3 添え字のx を省略してs2 と書く場合もある 添え字のx を省略してsと書く場合もある ... s yy y Xi Yi 100

母集団と標本の対応関係:標本分散は母集団の分散を予測するために用いられるもの

9

母集団[観察の対象]

富山市の40歳既婚女性の子供の数有限母集団 1700人

0 1 2 3 4 5

200

400

600

子供の数

度数

母集団の平均:1.9人母集団の分散:1.09

標本抽出n =25

1 2 1 2 22 3 2 1 53 3 1 0 13 1 2 2 23 3 3 0 3

0 1 2 3 4 5

02

46

8

標本のヒストグラム

子供の数

度数

標本平均:2.04人標本分散:1.29

Page 10: 計量経済学講義 - u-toyama.ac.jp...CV x 3 添え字のx を省略してs2 と書く場合もある 添え字のx を省略してsと書く場合もある ... s yy y Xi Yi 100

10

標本標準偏差

なぜ,平方根なのか?

分散は計算の過程で2乗しているので,データの単位も2乗されてしまう.単位を元に戻すために平方根をとる.

2xx ss標準偏差:

162.310:

103

30.

3,0,4,32

x

x

i

s

s

X

標本標準偏差

標本分散:

を標本分散とするときを標本平均,

について個の観測データ:【定義】2

21 ,,,

x

ni

sX

XXXXn

小文字の s を使う

Page 11: 計量経済学講義 - u-toyama.ac.jp...CV x 3 添え字のx を省略してs2 と書く場合もある 添え字のx を省略してsと書く場合もある ... s yy y Xi Yi 100

練習問題 (2)

11

観測値 {Xi} = {3,4,0,−3}の標本分散,標本標準偏差を計算しなさい。

平方根 sqrt 関数標本分散 var 関数標本標準偏差 stdev 関数

Excel 関数

162.3102

x

x

ss

答え

Page 12: 計量経済学講義 - u-toyama.ac.jp...CV x 3 添え字のx を省略してs2 と書く場合もある 添え字のx を省略してsと書く場合もある ... s yy y Xi Yi 100

単位が異なるデータ p.51

X: 身長 (cm) 偏差の2乗 Y: 身長 (m) 偏差の2乗

1 167 (167 – 170)2 = 9 1.67 (1.67 – 1.70)2 = 0.00092 166 (166 – 170)2 = 16 1.66 (1.66 – 1.70)2 = 0.00163 175 (175 – 170)2 = 25 1.75 (1.75 – 1.70)2 = 0.00254 172 (172 – 170)2 = 4 1.72 (1.72 – 1.70)2 = 0.00045 170 (170 – 170)2 = 0 1.70 (1.70 – 1.70)2 = 0

合計 850 Sxx = 54 8.50 Syy = 0.0054平均 170 1.70

12

00135.015

0054.01

2

nS

s yyy

ii YX1001

]m[0367.000135.0ys

分散には単位をつけない。標準偏差には単位をつける。

データの単位が変わると,平均だけでなく分散や標準偏差の値も変わる。

データを1/100倍すると,平均も1/100倍される。分散は1/10000倍,標準偏差は1/100倍になる。

cm を m にする

5.1315

541

2

nSs xx

x

]cm[67.35.13xs

Page 13: 計量経済学講義 - u-toyama.ac.jp...CV x 3 添え字のx を省略してs2 と書く場合もある 添え字のx を省略してsと書く場合もある ... s yy y Xi Yi 100

変動係数 (1) pp.51-52

13

Xs

CV x

変動係数(Coefficient of Variation):標準偏差を平均で割った値

身長データの場合

70.1,72.1,75.1,66.1,67.1170,172,175,166,167

i

i

YmXcm

単位

単位

]cm[67.3]cm[170

xsX

]m[0367.0]m[70.1

ysY

022.0170

67.3Xs

CV xx 022.0

70.10367.0

Ys

CV yy

変動係数は単位が異なる場合の「ばらつき」の比較に使える

Page 14: 計量経済学講義 - u-toyama.ac.jp...CV x 3 添え字のx を省略してs2 と書く場合もある 添え字のx を省略してsと書く場合もある ... s yy y Xi Yi 100

変動係数 (2)平均の大きさが著しく異なる二つの集団の比較

「クジラ」と「メダカ」の体長

「16歳男子」と「6歳男子」の身長

「2014年の所得」と「1964年の所得」

平均が大きくなると,ばらつきも大きくなる(分散や標準偏差が比較に使えなくなるケース)

対象の異なる二つの集団のばらつきを比較するときには「変動係数」Coefficient of Variation を利用する

14

身長 [cm]

度数

80 100 120 140 160 180 200

050

100

150

200

歳男子6平均: 116.2 [cm]標準偏差: 4.6 [cm]変動係数: 0.040

歳男子16平均: 170.1 [cm]標準偏差: 6.0 [cm]変動係数: 0.035

Page 15: 計量経済学講義 - u-toyama.ac.jp...CV x 3 添え字のx を省略してs2 と書く場合もある 添え字のx を省略してsと書く場合もある ... s yy y Xi Yi 100

データ変換と標準化 (1) pp.53-56

15

mYcmX

i

i

単位

単位

70.1,72.1,75.1,66.1,67.1170,172,175,166,167

]cm[67.35.13

54]cm[170

2

x

x

xx

ss

SX

]m[0367.000135.0

0054.0]m[70.1

2

y

y

yy

s

s

SY

cmi

mi XY

1001

xy

xy

xxyy

ss

ss

SS

XY

1001100

1100

11001

22

2

xy

xy

xxyy

ass

sas

SaS

XaY

222

2

ならば一般に ii aXY

データを1/100倍すると,平均と標準偏差も1/100倍になる。偏差2乗和と分散は1/10000倍になる。

Page 16: 計量経済学講義 - u-toyama.ac.jp...CV x 3 添え字のx を省略してs2 と書く場合もある 添え字のx を省略してsと書く場合もある ... s yy y Xi Yi 100

データ変換と標準化 (2)

16

ならばbaXY ii

xy

xy

xxyy

ass

sas

SaS

bXaY

222

25 10 15 20 25 30

5 10 15 20 25 30

5 10 15 20 25 30

5 10 15 20 25 30

13,12,9,6iX

ii XY 2

32 ii XY

3ii XY

30,10 xxSX

302120,20 2yySY

302120,23 2yySY

30,13 yySY

データが2倍になったので平均もばらつきも大きくなる

データが2倍になったので平均もばらつきも大きくなる。平均の位置はさらに+3だけ右に移動している

データのばらつきは変わらないが,平均の位置が+3だけ移動している

p.53 表2.13 摂氏と華氏の関係も参照

Page 17: 計量経済学講義 - u-toyama.ac.jp...CV x 3 添え字のx を省略してs2 と書く場合もある 添え字のx を省略してsと書く場合もある ... s yy y Xi Yi 100

データ変換と標準化 (3)

17

bXaYの平均はのとき iii YbaXY

bXan

nbn

XXa

nbbaXaX

nbaXbaX

nYY

Y

n

n

n

n

1

1

1

1

532321.

XY

YXYXX iiii の平均はのときであるとしよう。の平均が例

Page 18: 計量経済学講義 - u-toyama.ac.jp...CV x 3 添え字のx を省略してs2 と書く場合もある 添え字のx を省略してsと書く場合もある ... s yy y Xi Yi 100

データ変換と標準化 (4)

18

乗和はの偏差のとき 2iii YbaXY xxyy SaS 2

よりXXabXabaXYY iii

xx

n

n

nyy

Sa

XXaXXa

XXaXXa

YYYYS

2

2221

2

221

221

xxy

xxxyy

y

assas

san

SanS

s

22

222

2

11

325.61022

401042

1203042

232302.

2

222

2

ss

ss

SS

YXYSX

y

xy

xxyy

i

iixxi

分散,標準偏差は

乗和,の偏差のとき

,乗和がの偏差例

Page 19: 計量経済学講義 - u-toyama.ac.jp...CV x 3 添え字のx を省略してs2 と書く場合もある 添え字のx を省略してsと書く場合もある ... s yy y Xi Yi 100

練習問題 (3)

19

1031 ii XY

5132 i

iXY

観測値が {Xi} = {3,4,0,−3} であるとする。次のデータ {Yi} の平均,偏差2乗和,分散,標準偏差を計算しなさい。Excelでも確認しなさい。

162.3,10,30,1 2xxxx ssSXただし

Page 20: 計量経済学講義 - u-toyama.ac.jp...CV x 3 添え字のx を省略してs2 と書く場合もある 添え字のx を省略してsと書く場合もある ... s yy y Xi Yi 100

データ変換と標準化 (5)

20

の特殊ケースデータ変換 baXY ii

このとき,を標準化変量とよぶ。

」とよび,となる変換を「標準化のとき

i

x

ii

xx

Zs

XXZsXb

sa ,1

310,

3102

xx ss

1,1,1,0 2zzzz ssnSZ

[重要]標準化するとどのようなデータも平均が0,分散(標準偏差)が1になる。

Page 21: 計量経済学講義 - u-toyama.ac.jp...CV x 3 添え字のx を省略してs2 と書く場合もある 添え字のx を省略してsと書く場合もある ... s yy y Xi Yi 100

データ変換と標準化 (6)

21

bx

i

ax

i sXX

sZ 1

xy

xy

xxyy

ass

sas

SaS

bXaY

222

2

11

111

1111

01

22

22

222

22

22

xx

xz

xx

xx

xz

xx

xxx

xxzz

xx

ss

ass

ss

ss

sas

nsns

Ss

SaS

sXX

sbXaZ

標準化変量の平均は 0,分散(および標準偏差)は 1 である。平均が 0,分散が 1 になるようにデータを変換することを標準化とよぶ。

x

ii

sXXZ標準化変量変量

Page 22: 計量経済学講義 - u-toyama.ac.jp...CV x 3 添え字のx を省略してs2 と書く場合もある 添え字のx を省略してsと書く場合もある ... s yy y Xi Yi 100

データ変換と標準化 (7)

22

標準化変量の応用例

ii ZH 1050偏差値

平成〇年センター試験 平均 標準偏差

数学I・数学A 70 19

6.5226.01050

26.019

707575

i

i

H

Z点の場合得点が

方式検査 Binet15100 ii ZIIQ

1050,標準偏差はの平均は偏差値 iH

9.10326.015100

26.019

707575

i

i

I

Z点の場合得点が

15100,標準偏差はの平均はiIIQ

Page 23: 計量経済学講義 - u-toyama.ac.jp...CV x 3 添え字のx を省略してs2 と書く場合もある 添え字のx を省略してsと書く場合もある ... s yy y Xi Yi 100

練習問題 (4)

23

観測値が {Xi} = {3,4,0,−3} であるとする。標準化変量 {Zi} の平均,偏差2乗和,分散,標準偏差を計算しなさい。Excelでも確認しなさい。

数式バーの = の左側の位置をクリックして ctrl + shift + enter

Page 24: 計量経済学講義 - u-toyama.ac.jp...CV x 3 添え字のx を省略してs2 と書く場合もある 添え字のx を省略してsと書く場合もある ... s yy y Xi Yi 100

配列数式の計算

24

表2.9 のデータ (n = 10) それぞれの標準化変量を計算しなさい。

① 平均を求める (average 関数)② 標準偏差を求める (stdev 関数)③ 標準化変量を計算するセルに =(全データー平均)/標準偏差 を入力④ 標準化変量を計算する全てのセルを選択状態にする⑤ 「数式バー」の一番左側( = の手前)をクリック⑥ [配列数式の計算]ctrl + shift を押したまま Enterキー

ctrl + shit を押したまま Enterキー

①②

④⑤

エラーが出たら Escキー

Page 25: 計量経済学講義 - u-toyama.ac.jp...CV x 3 添え字のx を省略してs2 と書く場合もある 添え字のx を省略してsと書く場合もある ... s yy y Xi Yi 100

散布図 (1) pp.56-58

25

散布図:ペアになったデータ X, Y を平面上に「観測点」として表示した図,

p.57 表2.15 および 図2.11

Excel: ペアになったデータを選択状態にして「散布図」。左側のデータが横軸,

右側のデータが縦軸になる。

Page 26: 計量経済学講義 - u-toyama.ac.jp...CV x 3 添え字のx を省略してs2 と書く場合もある 添え字のx を省略してsと書く場合もある ... s yy y Xi Yi 100

散布図 (2) p.59 図2.13

26

{Xi}: 日中最高気温, {Yi}: 電力消費量

20 25 30 35 40

1800

2000

2200

2400

2600

2800

℃日中最高気温[ ]X

電力消費量[

]Y

kw

h

X 32.2

Y 2305

[ 領域 ] I [ 領域 ] II

[ 領域 ] III [ 領域 ] IV

X

Y

0 500 1000 150015

2025

3035

年収[万円]X

エンゲル係数[]

Y

%X 609

Y 24.3

[ 領域 ] I [ 領域 ] II

[ 領域 ] III [ 領域 ] IV

X

Y

{Xi}: 年収, {Yi}: エンゲル係数

正の関係性:[領域 I]と[領域 III]に比較的多くのデータが集まっている

負の関係性:[領域 II]と[領域 IV]に比較的多くのデータが集まっている

I

III

II

IV

X と Y は正の関係

「日中最高気温が上昇すると,電力消費量が増える」

X と Y は負の関係

「年収が上昇すると,エンゲル係数が減少する」

Page 27: 計量経済学講義 - u-toyama.ac.jp...CV x 3 添え字のx を省略してs2 と書く場合もある 添え字のx を省略してsと書く場合もある ... s yy y Xi Yi 100

偏差の積和と標本共分散 (1) pp.58-60

27

000IV000III000II000I

YYXXYYXX

YYXXYYXX

YYXXYYXX

YYXXYYXX

iiii

iiii

iiii

iiii

かつ][領域

かつ][領域

かつ][領域

かつ][領域

領域IとIIIにデータが多く集まっているのなら正の関係性があり,偏差の積和は正であることが多い。領域IIとIVにデータが多く集まっているのなら負の関係性があり,偏差の積和は負であることが多い。

X

Y

0XX i

0XX i

0XX i

0XX i

0YYi

0YYi

0YYi

X

Y

0YYi

I

III

II

IV

Page 28: 計量経済学講義 - u-toyama.ac.jp...CV x 3 添え字のx を省略してs2 と書く場合もある 添え字のx を省略してsと書く場合もある ... s yy y Xi Yi 100

偏差の積和と標本共分散 (2)

28

式)12.2(1

12211

nYYXXYYXXYYXX

nS

s

nn

xyxy

共分散:偏差の積和を自由度 n − 1 で割った値

式)11.2(2211 YYXXYYXXYYXXS nnxy

偏差の積和

。の間には関係性がないと

ある。の間には負の関係性がと

ある。の間には正の関係性がと

iixy

iixy

iixy

YXS

YXS

YXS

0

0

0

【Excel 関数】偏差の積和:なし共分散:covariance.s 関数

(covar関数および covariance.p関数は偏差の積和を n で割った共分散)

Page 29: 計量経済学講義 - u-toyama.ac.jp...CV x 3 添え字のx を省略してs2 と書く場合もある 添え字のx を省略してsと書く場合もある ... s yy y Xi Yi 100

相関係数 (1) p.61-63

29

Xi身長 (cm)

X*i

身長 (m)Yi

体重 (kg)

1 167 1.67 62 −3 × (−4) = 12 −0.03×(−4) = 0.12

2 166 1.66 59 −4 × (−7) = 28 −0.04×(−7) = 0.28

3 175 1.75 66 5 × 0 = 0 0.05×0 = 0

4 172 1.72 75 2 × 9 = 18 0.02×9 = 0.18

5 170 1.70 68 0 × 2 = 0 0 ×2 = 0合計 850 8.50 330 Sxy = 58 S*

xy = 0.58平均 170 1.70 66

*100 ii XX

表2.17

YYXX ii YYXX ii**

*100 xyxy SS

同じデータにも関わらず,単位が異なると偏差の積和も異なる値になってしまう。偏差の積和だけでは関係性の「強さ」は十分に説明できない

Page 30: 計量経済学講義 - u-toyama.ac.jp...CV x 3 添え字のx を省略してs2 と書く場合もある 添え字のx を省略してsと書く場合もある ... s yy y Xi Yi 100

相関係数 (2)

30

データの単位に関わりなく,{Xi} と {Yi} の直線的な関係の強さ(相関)を表す指標

乗和の偏差乗和の偏差

の偏差の積和

22,

22

YXYX

SS

S

YYXX

YYXXr

yyxx

xy

ii

iixy

644.09.058.0

1500054.058.058.0,150,0054.0

644.09058

150545858,150,54

*xyxyyyxx

xyxyyyxx

rSSS

rSSS

表2.17の場合

単位に関わらず同じ結果

相関係数のExcel関数 : correl (配列1,配列2)

11: xyr相関係数の範囲

完全な負の相関

負の相関

無相関

正の相関

完全な正の相関

:1

:01

:0

:10

:1

xy

xy

xy

xy

xy

r

r

r

r

r

Page 31: 計量経済学講義 - u-toyama.ac.jp...CV x 3 添え字のx を省略してs2 と書く場合もある 添え字のx を省略してsと書く場合もある ... s yy y Xi Yi 100

練習問題 (5)

31

表2.15 のデータ {Xi, Yi} の共分散,偏差の積和,相関係数を計算しなさい。

共分散×自由度

correl (配列1,配列2)

devsq (配列)

Page 32: 計量経済学講義 - u-toyama.ac.jp...CV x 3 添え字のx を省略してs2 と書く場合もある 添え字のx を省略してsと書く場合もある ... s yy y Xi Yi 100

32

記述統計量のまとめ

x

ii

x

xx

nxxx

nxx

n

n

sXXZ

XsCV

ss

nXXXXXX

nSs

XXXXXXS

XXXXXXn

XXXX

標準化

変動係数

標本標準偏差

標本分散

乗和偏差

偏差の和は

標本平均

2

222

212

222

21

21

21

11

2

00

:

yyxx

xyxy

xyxy

nnxy

SSS

r

nS

s

YYXXYYXXS

:

1:

: 11

相関係数

標本共分散

偏差の積和

p.56統計指標 Excel関数

平均 average

偏差2乗和 devsq

分散 var

標準偏差 stdev

共分散 covariance.s

相関係数 correl