計量経済学講義 - u-toyama.ac.jp...CV x 3 添え字のx を省略してs2...

計量経済学講義第 5 回記述統計の基礎 Part 1

2017 年 10 月 17 日（火）3 限担当教員: 唐渡広志

研究室: 経済学研究棟4階432号室

email: [email protected]: http://www3.u-toyama.ac.jp/kkarato/

1

講義の目的

次回10月20日（金）は休講

データの集約方法や記述方法について学びます。

keywords:偏差2乗和，標本分散，標本標準偏差，変動係数，標準化，散布図，相関係数

教科書: pp. 36—93（第2章）

利用データ: chap2-econometrics.xlsx2

データの「ばらつき」を示す特性値 (pp.48 – 52)

偏差2乗和（Sum of Squares）

分散 (Variance)：偏差2乗和を自由度で割った値

標準偏差 (Standard Deviation)：分散の平方根

変動係数 (Coefficient of Variation)：標準偏差を平均で割った値

222

21 XXXXXXS nxx

12

nS

s xxx

2xx ss

Xs

CV x

3

と書く場合もあるを省略して添え字の 2sx

と書く場合もあるを省略して添え字の sx

4

偏差2乗和

偏差を合計すると必ず0になってしまう。

そこで，偏差を2乗してから合計したものを散らばり具合の指標として使う（2乗すると符号は？）

これを偏差2乗和とよぶ（記号は Sxx）

021 XXXXXX n

222

21:2 XXXXXXS nxx乗和偏差

を標本平均とするとき

について個の観測データ：【定義】

X

XXXXn ni ,,, 21

記号：大文字の Sに下付きの添え字 xx

るだけでは意味がない成立するので，合計すどんなデータでも必ず

5

例．偏差2乗和の計算

1041142112

2

046454342:

44

6532

2222

24

23

22

21

4321

XXXXXXXXS

XXXXXXXX

X

xx乗和偏差

偏差の合計

標本平均

6

【重要】偏差2乗和の注意点合計してから 2 乗してはいけない

偏差の合計は 0 であることに注意

偏差を合計してから 2 乗しても 0 になる．

「和の2乗」と「2乗の和」は意味が異なる点に注意

0021)1(2

2

22

24321 XXXXXXXX

乗偏差の和の

10411421)1(2

2

2222

24

23

22

21 XXXXXXXXSxx

乗の和偏差の

7

練習問題 (1)ワークシートに観測値 {Xi} = {3,4,0,−3} を入力して， {Xi}の合計と平均，偏差，偏差の合計，偏差の2乗，偏差2乗和を計算しなさい。

合計 sum 関数平均 average 関数偏差2乗和 devsq 関数

Excel 関数

301

xxSX

答え

8

標本分散

偏差2乗和 Sxx を自由度 n − 1 で割った値を標本分散とよぶ。

n − 1 を自由度とよぶ

なぜ標本サイズ n ではなく，自由度 n − 1 で割るのか

• n 個の偏差のうち，必要な情報は n − 1 個で十分だから。

• 実は n − 1 で割った方が，母集団分散の良い推定になっている（nで割ると，母集団分散を過少に推定してしまうことが知られている）。

11

222

212

nXXXXXX

nSs nxx

x標本分散：

を標本平均とするときについて個の観測値：【定義】 XXXXXn ni ,,, 21

小文字の s を使う

1014

301

. 2

nSs xx

x例

母集団と標本の対応関係：標本分散は母集団の分散を予測するために用いられるもの

9

母集団［観察の対象］

富山市の40歳既婚女性の子供の数有限母集団 1700人

0 1 2 3 4 5

200

400

600

子供の数

度数

母集団の平均：1.9人母集団の分散：1.09

標本抽出n =25

1 2 1 2 22 3 2 1 53 3 1 0 13 1 2 2 23 3 3 0 3

0 1 2 3 4 5

02

46

8

標本のヒストグラム

子供の数

度数

標本平均：2.04人標本分散：1.29

10

標本標準偏差

なぜ，平方根なのか？

分散は計算の過程で2乗しているので，データの単位も2乗されてしまう．単位を元に戻すために平方根をとる．

2xx ss標準偏差：

162.310:

103

30.

3,0,4,32

x

x

i

s

s

X

標本標準偏差

標本分散：

例

を標本分散とするときを標本平均，

について個の観測データ：【定義】2

21 ,,,

x

ni

sX

XXXXn

小文字の s を使う

練習問題 (2)

11

観測値 {Xi} = {3,4,0,−3}の標本分散，標本標準偏差を計算しなさい。

平方根 sqrt 関数標本分散 var 関数標本標準偏差 stdev 関数

Excel 関数

162.3102

x

x

ss

答え

単位が異なるデータ p.51

X: 身長 (cm) 偏差の2乗 Y: 身長 (m) 偏差の2乗

1 167 (167 – 170)2 = 9 1.67 (1.67 – 1.70)2 = 0.00092 166 (166 – 170)2 = 16 1.66 (1.66 – 1.70)2 = 0.00163 175 (175 – 170)2 = 25 1.75 (1.75 – 1.70)2 = 0.00254 172 (172 – 170)2 = 4 1.72 (1.72 – 1.70)2 = 0.00045 170 (170 – 170)2 = 0 1.70 (1.70 – 1.70)2 = 0

合計 850 Sxx = 54 8.50 Syy = 0.0054平均 170 1.70

12

00135.015

0054.01

2

nS

s yyy

ii YX1001

]m[0367.000135.0ys

分散には単位をつけない。標準偏差には単位をつける。

データの単位が変わると，平均だけでなく分散や標準偏差の値も変わる。

データを1/100倍すると，平均も1/100倍される。分散は1/10000倍，標準偏差は1/100倍になる。

cm を m にする

5.1315

541

2

nSs xx

x

]cm[67.35.13xs

変動係数 (1) pp.51-52

13

Xs

CV x

変動係数（Coefficient of Variation）：標準偏差を平均で割った値

身長データの場合

70.1,72.1,75.1,66.1,67.1170,172,175,166,167

i

i

YmXcm

単位

単位

]cm[67.3]cm[170

xsX

]m[0367.0]m[70.1

ysY

022.0170

67.3Xs

CV xx 022.0

70.10367.0

Ys

CV yy

変動係数は単位が異なる場合の「ばらつき」の比較に使える

変動係数 (2)平均の大きさが著しく異なる二つの集団の比較

「クジラ」と「メダカ」の体長

「16歳男子」と「6歳男子」の身長

「2014年の所得」と「1964年の所得」

平均が大きくなると，ばらつきも大きくなる（分散や標準偏差が比較に使えなくなるケース）

対象の異なる二つの集団のばらつきを比較するときには「変動係数」Coefficient of Variation を利用する

14

身長 [cm]

度数

80 100 120 140 160 180 200

050

100

150

200

歳男子6平均: 116.2 [cm]標準偏差: 4.6 [cm]変動係数: 0.040

歳男子16平均: 170.1 [cm]標準偏差: 6.0 [cm]変動係数: 0.035

データ変換と標準化 (1) pp.53-56

15

mYcmX

i

i

単位

単位

70.1,72.1,75.1,66.1,67.1170,172,175,166,167

]cm[67.35.13

54]cm[170

2

x

x

xx

ss

SX

]m[0367.000135.0

0054.0]m[70.1

2

y

y

yy

s

s

SY

cmi

mi XY

1001

xy

xy

xxyy

ss

ss

SS

XY

1001100

1100

11001

22

2

xy

xy

xxyy

ass

sas

SaS

XaY

222

2

ならば一般に ii aXY

データを1/100倍すると，平均と標準偏差も1/100倍になる。偏差2乗和と分散は1/10000倍になる。

データ変換と標準化 (2)

16

ならばbaXY ii

xy

xy

xxyy

ass

sas

SaS

bXaY

222

25 10 15 20 25 30

5 10 15 20 25 30

5 10 15 20 25 30

5 10 15 20 25 30

13,12,9,6iX

ii XY 2

32 ii XY

3ii XY

30,10 xxSX

302120,20 2yySY

302120,23 2yySY

30,13 yySY

データが2倍になったので平均もばらつきも大きくなる

データが2倍になったので平均もばらつきも大きくなる。平均の位置はさらに+3だけ右に移動している

データのばらつきは変わらないが，平均の位置が+3だけ移動している

p.53 表2.13 摂氏と華氏の関係も参照


17

bXaYの平均はのとき iii YbaXY

bXan

nbn

XXa

nbbaXaX

nbaXbaX

nYY

Y

n

n

n

n

1

1

1

1

532321.

XY

YXYXX iiii の平均はのときであるとしよう。の平均が例


18

乗和はの偏差のとき 2iii YbaXY xxyy SaS 2

よりXXabXabaXYY iii

xx

n

n

nyy

Sa

XXaXXa

XXaXXa

YYYYS

2

2221

2

221

221

xxy

xxxyy

y

assas

san

SanS

s

22

222

2

11

325.61022

401042

1203042

232302.

2

222

2

ss

ss

SS

YXYSX

y

xy

xxyy

i

iixxi

分散，標準偏差は

乗和，の偏差のとき

，乗和がの偏差例

練習問題 (3)

19

1031 ii XY

5132 i

iXY

観測値が {Xi} = {3,4,0,−3} であるとする。次のデータ {Yi} の平均，偏差2乗和，分散，標準偏差を計算しなさい。Excelでも確認しなさい。

162.3,10,30,1 2xxxx ssSXただし


20

の特殊ケースデータ変換 baXY ii

このとき，を標準化変量とよぶ。

」とよび，となる変換を「標準化のとき

i

x

ii

xx

Zs

XXZsXb

sa ,1

例

310,

3102

xx ss

1,1,1,0 2zzzz ssnSZ

［重要］標準化するとどのようなデータも平均が0，分散（標準偏差）が1になる。


21

bx

i

ax

i sXX

sZ 1

xy

xy

xxyy

ass

sas

SaS

bXaY

222

2

11

111

1111

01

22

22

222

22

22

xx

xz

xx

xx

xz

xx

xxx

xxzz

xx

ss

ass

ss

ss

sas

nsns

Ss

SaS

sXX

sbXaZ

標準化変量の平均は 0，分散（および標準偏差）は 1 である。平均が 0，分散が 1 になるようにデータを変換することを標準化とよぶ。

x

ii

sXXZ標準化変量変量


22

標準化変量の応用例

ii ZH 1050偏差値

平成〇年センター試験平均標準偏差

数学I・数学A 70 19

6.5226.01050

26.019

707575

i

i

H

Z点の場合得点が

方式検査 Binet15100 ii ZIIQ

1050，標準偏差はの平均は偏差値 iH

9.10326.015100

26.019

707575

i

i

I

Z点の場合得点が

15100，標準偏差はの平均はiIIQ

練習問題 (4)

23

観測値が {Xi} = {3,4,0,−3} であるとする。標準化変量 {Zi} の平均，偏差2乗和，分散，標準偏差を計算しなさい。Excelでも確認しなさい。

数式バーの = の左側の位置をクリックして ctrl + shift + enter

配列数式の計算

24

表2.9 のデータ (n = 10) それぞれの標準化変量を計算しなさい。

① 平均を求める (average 関数)② 標準偏差を求める (stdev 関数)③ 標準化変量を計算するセルに =(全データー平均)/標準偏差を入力④ 標準化変量を計算する全てのセルを選択状態にする⑤ 「数式バー」の一番左側（ = の手前）をクリック⑥ ［配列数式の計算］ctrl + shift を押したまま Enterキー

ctrl + shit を押したまま Enterキー

①②

③

④⑤

⑥

エラーが出たら Escキー

散布図 (1) pp.56-58

25

散布図：ペアになったデータ X, Y を平面上に「観測点」として表示した図，

p.57 表2.15 および図2.11

Excel: ペアになったデータを選択状態にして「散布図」。左側のデータが横軸，

右側のデータが縦軸になる。

散布図 (2) p.59 図2.13

26

{Xi}: 日中最高気温, {Yi}: 電力消費量

20 25 30 35 40

1800

2000

2200

2400

2600

2800

℃日中最高気温［］X

電力消費量［

］Y

kw

h

X 32.2

Y 2305

［領域］ I ［領域］ II

［領域］ III ［領域］ IV

X

Y

0 500 1000 150015

2025

3035

年収［万円］X

エンゲル係数［］

Y

%X 609

Y 24.3

［領域］ I ［領域］ II

［領域］ III ［領域］ IV

X

Y

{Xi}: 年収, {Yi}: エンゲル係数

正の関係性：［領域 I］と［領域 III］に比較的多くのデータが集まっている

負の関係性：［領域 II］と［領域 IV］に比較的多くのデータが集まっている

I

III

II

IV

X と Y は正の関係

「日中最高気温が上昇すると，電力消費量が増える」

X と Y は負の関係

「年収が上昇すると，エンゲル係数が減少する」

偏差の積和と標本共分散 (1) pp.58-60

27

000IV000III000II000I

YYXXYYXX

YYXXYYXX

YYXXYYXX

YYXXYYXX

iiii

iiii

iiii

iiii

かつ］［領域

かつ］［領域

かつ］［領域

かつ］［領域

領域IとIIIにデータが多く集まっているのなら正の関係性があり，偏差の積和は正であることが多い。領域IIとIVにデータが多く集まっているのなら負の関係性があり，偏差の積和は負であることが多い。

X

Y

0XX i

0XX i

0XX i

0XX i

0YYi

0YYi

0YYi

X

Y

0YYi

I

III

II

IV

偏差の積和と標本共分散 (2)

28

式)12.2(1

12211

nYYXXYYXXYYXX

nS

s

nn

xyxy

共分散：偏差の積和を自由度 n − 1 で割った値

式)11.2(2211 YYXXYYXXYYXXS nnxy

偏差の積和

。の間には関係性がないと

ある。の間には負の関係性がと

ある。の間には正の関係性がと

iixy

iixy

iixy

YXS

YXS

YXS

0

0

0

【Excel 関数】偏差の積和：なし共分散：covariance.s 関数

（covar関数および covariance.p関数は偏差の積和を n で割った共分散）

相関係数 (1) p.61-63

29

Xi身長 (cm)

X*i

身長 (m)Yi

体重 (kg)

1 167 1.67 62 −3 × (−4) = 12 −0.03×(−4) = 0.12

2 166 1.66 59 −4 × (−7) = 28 −0.04×(−7) = 0.28

3 175 1.75 66 5 × 0 = 0 0.05×0 = 0

4 172 1.72 75 2 × 9 = 18 0.02×9 = 0.18

5 170 1.70 68 0 × 2 = 0 0 ×2 = 0合計 850 8.50 330 Sxy = 58 S*

xy = 0.58平均 170 1.70 66

*100 ii XX

表2.17

YYXX ii YYXX ii**

*100 xyxy SS

同じデータにも関わらず，単位が異なると偏差の積和も異なる値になってしまう。偏差の積和だけでは関係性の「強さ」は十分に説明できない

相関係数 (2)

30

データの単位に関わりなく，{Xi} と {Yi} の直線的な関係の強さ（相関）を表す指標

乗和の偏差乗和の偏差

の偏差の積和

22,

22

YXYX

SS

S

YYXX

YYXXr

yyxx

xy

ii

iixy

644.09.058.0

1500054.058.058.0,150,0054.0

644.09058

150545858,150,54

*xyxyyyxx

xyxyyyxx

rSSS

rSSS

表2.17の場合

単位に関わらず同じ結果

相関係数のExcel関数： correl (配列1,配列2)

11: xyr相関係数の範囲

完全な負の相関

負の相関

無相関

正の相関

完全な正の相関

:1

:01

:0

:10

:1

xy

xy

xy

xy

xy

r

r

r

r

r

練習問題 (5)

31

表2.15 のデータ {Xi, Yi} の共分散，偏差の積和，相関係数を計算しなさい。

共分散×自由度

correl (配列1,配列2)

devsq (配列)

32

記述統計量のまとめ

x

ii

x

xx

nxxx

nxx

n

n

sXXZ

XsCV

ss

nXXXXXX

nSs

XXXXXXS

XXXXXXn

XXXX

標準化

変動係数

標本標準偏差

標本分散

乗和偏差

偏差の和は

標本平均

2

222

212

222

21

21

21

11

2

00

:

yyxx

xyxy

xyxy

nnxy

SSS

r

nS

s

YYXXYYXXS

:

1:

: 11

相関係数

標本共分散

偏差の積和

p.56統計指標 Excel関数

平均 average

偏差2乗和 devsq

分散 var

標準偏差 stdev

共分散 covariance.s

相関係数 correl

計量経済学講義 - u-toyama.ac.jp...CV x 3 添え字のx を省略してs2...

Documents

Transcript of 計量経済学講義 - u-toyama.ac.jp...CV x 3 添え字のx を省略してs2...