計量経済学講義 - u-toyama.ac.jp...CV x 3 添え字のx を省略してs2...
Transcript of 計量経済学講義 - u-toyama.ac.jp...CV x 3 添え字のx を省略してs2...
計量経済学 講義第 5 回 記述統計の基礎 Part 1
2017 年 10 月 17 日(火)3 限担当教員: 唐渡 広志
研究室: 経済学研究棟4階432号室
email: [email protected]: http://www3.u-toyama.ac.jp/kkarato/
1
講義の目的
次回10月20日(金)は休講
データの集約方法や記述方法について学びます。
keywords:偏差2乗和,標本分散,標本標準偏差,変動係数,標準化,散布図,相関係数
教科書: pp. 36—93(第2章)
利用データ: chap2-econometrics.xlsx2
データの「ばらつき」を示す特性値 (pp.48 – 52)
偏差2乗和(Sum of Squares)
分散 (Variance): 偏差2乗和を自由度で割った値
標準偏差 (Standard Deviation):分散の平方根
変動係数 (Coefficient of Variation):標準偏差を平均で割った値
222
21 XXXXXXS nxx
12
nS
s xxx
2xx ss
Xs
CV x
3
と書く場合もあるを省略して添え字の 2sx
と書く場合もあるを省略して添え字の sx
4
偏差2乗和
偏差を合計すると必ず0になってしまう。
そこで,偏差を2乗してから合計したものを散らばり具合の指標として使う(2乗すると符号は?)
これを偏差2乗和とよぶ(記号は Sxx)
021 XXXXXX n
222
21:2 XXXXXXS nxx乗和偏差
を標本平均とするとき
について個の観測データ:【定義】
X
XXXXn ni ,,, 21
記号:大文字の Sに下付きの添え字 xx
るだけでは意味がない成立するので,合計すどんなデータでも必ず
5
例.偏差2乗和の計算
1041142112
2
046454342:
44
6532
2222
24
23
22
21
4321
XXXXXXXXS
XXXXXXXX
X
xx乗和偏差
偏差の合計
標本平均
6
【重要】偏差2乗和の注意点合計してから 2 乗してはいけない
偏差の合計は 0 であることに注意
偏差を合計してから 2 乗しても 0 になる.
「和の2乗」と「2乗の和」は意味が異なる点に注意
0021)1(2
2
22
24321 XXXXXXXX
乗偏差の和の
10411421)1(2
2
2222
24
23
22
21 XXXXXXXXSxx
乗の和偏差の
7
練習問題 (1)ワークシートに観測値 {Xi} = {3,4,0,−3} を入力して, {Xi}の合計と平均,偏差,偏差の合計,偏差の2乗,偏差2乗和を計算しなさい。
合計 sum 関数平均 average 関数偏差2乗和 devsq 関数
Excel 関数
301
xxSX
答え
8
標本分散
偏差2乗和 Sxx を自由度 n − 1 で割った値を標本分散とよぶ。
n − 1 を自由度とよぶ
なぜ標本サイズ n ではなく,自由度 n − 1 で割るのか
• n 個の偏差のうち,必要な情報は n − 1 個で十分だから。
• 実は n − 1 で割った方が,母集団分散の良い推定になっている(nで割ると,母集団分散を過少に推定してしまうことが知られている)。
11
222
212
nXXXXXX
nSs nxx
x標本分散:
を標本平均とするときについて個の観測値:【定義】 XXXXXn ni ,,, 21
小文字の s を使う
1014
301
. 2
nSs xx
x例
母集団と標本の対応関係:標本分散は母集団の分散を予測するために用いられるもの
9
母集団[観察の対象]
富山市の40歳既婚女性の子供の数有限母集団 1700人
0 1 2 3 4 5
200
400
600
子供の数
度数
母集団の平均:1.9人母集団の分散:1.09
標本抽出n =25
1 2 1 2 22 3 2 1 53 3 1 0 13 1 2 2 23 3 3 0 3
0 1 2 3 4 5
02
46
8
標本のヒストグラム
子供の数
度数
標本平均:2.04人標本分散:1.29
10
標本標準偏差
なぜ,平方根なのか?
分散は計算の過程で2乗しているので,データの単位も2乗されてしまう.単位を元に戻すために平方根をとる.
2xx ss標準偏差:
162.310:
103
30.
3,0,4,32
x
x
i
s
s
X
標本標準偏差
標本分散:
例
を標本分散とするときを標本平均,
について個の観測データ:【定義】2
21 ,,,
x
ni
sX
XXXXn
小文字の s を使う
練習問題 (2)
11
観測値 {Xi} = {3,4,0,−3}の標本分散,標本標準偏差を計算しなさい。
平方根 sqrt 関数標本分散 var 関数標本標準偏差 stdev 関数
Excel 関数
162.3102
x
x
ss
答え
単位が異なるデータ p.51
X: 身長 (cm) 偏差の2乗 Y: 身長 (m) 偏差の2乗
1 167 (167 – 170)2 = 9 1.67 (1.67 – 1.70)2 = 0.00092 166 (166 – 170)2 = 16 1.66 (1.66 – 1.70)2 = 0.00163 175 (175 – 170)2 = 25 1.75 (1.75 – 1.70)2 = 0.00254 172 (172 – 170)2 = 4 1.72 (1.72 – 1.70)2 = 0.00045 170 (170 – 170)2 = 0 1.70 (1.70 – 1.70)2 = 0
合計 850 Sxx = 54 8.50 Syy = 0.0054平均 170 1.70
12
00135.015
0054.01
2
nS
s yyy
ii YX1001
]m[0367.000135.0ys
分散には単位をつけない。標準偏差には単位をつける。
データの単位が変わると,平均だけでなく分散や標準偏差の値も変わる。
データを1/100倍すると,平均も1/100倍される。分散は1/10000倍,標準偏差は1/100倍になる。
cm を m にする
5.1315
541
2
nSs xx
x
]cm[67.35.13xs
変動係数 (1) pp.51-52
13
Xs
CV x
変動係数(Coefficient of Variation):標準偏差を平均で割った値
身長データの場合
70.1,72.1,75.1,66.1,67.1170,172,175,166,167
i
i
YmXcm
単位
単位
]cm[67.3]cm[170
xsX
]m[0367.0]m[70.1
ysY
022.0170
67.3Xs
CV xx 022.0
70.10367.0
Ys
CV yy
変動係数は単位が異なる場合の「ばらつき」の比較に使える
変動係数 (2)平均の大きさが著しく異なる二つの集団の比較
「クジラ」と「メダカ」の体長
「16歳男子」と「6歳男子」の身長
「2014年の所得」と「1964年の所得」
平均が大きくなると,ばらつきも大きくなる(分散や標準偏差が比較に使えなくなるケース)
対象の異なる二つの集団のばらつきを比較するときには「変動係数」Coefficient of Variation を利用する
14
身長 [cm]
度数
80 100 120 140 160 180 200
050
100
150
200
歳男子6平均: 116.2 [cm]標準偏差: 4.6 [cm]変動係数: 0.040
歳男子16平均: 170.1 [cm]標準偏差: 6.0 [cm]変動係数: 0.035
データ変換と標準化 (1) pp.53-56
15
mYcmX
i
i
単位
単位
70.1,72.1,75.1,66.1,67.1170,172,175,166,167
]cm[67.35.13
54]cm[170
2
x
x
xx
ss
SX
]m[0367.000135.0
0054.0]m[70.1
2
y
y
yy
s
s
SY
cmi
mi XY
1001
xy
xy
xxyy
ss
ss
SS
XY
1001100
1100
11001
22
2
xy
xy
xxyy
ass
sas
SaS
XaY
222
2
ならば一般に ii aXY
データを1/100倍すると,平均と標準偏差も1/100倍になる。偏差2乗和と分散は1/10000倍になる。
データ変換と標準化 (2)
16
ならばbaXY ii
xy
xy
xxyy
ass
sas
SaS
bXaY
222
25 10 15 20 25 30
5 10 15 20 25 30
5 10 15 20 25 30
5 10 15 20 25 30
13,12,9,6iX
ii XY 2
32 ii XY
3ii XY
30,10 xxSX
302120,20 2yySY
302120,23 2yySY
30,13 yySY
データが2倍になったので平均もばらつきも大きくなる
データが2倍になったので平均もばらつきも大きくなる。平均の位置はさらに+3だけ右に移動している
データのばらつきは変わらないが,平均の位置が+3だけ移動している
p.53 表2.13 摂氏と華氏の関係も参照
データ変換と標準化 (3)
17
bXaYの平均はのとき iii YbaXY
bXan
nbn
XXa
nbbaXaX
nbaXbaX
nYY
Y
n
n
n
n
1
1
1
1
532321.
XY
YXYXX iiii の平均はのときであるとしよう。の平均が例
データ変換と標準化 (4)
18
乗和はの偏差のとき 2iii YbaXY xxyy SaS 2
よりXXabXabaXYY iii
xx
n
n
nyy
Sa
XXaXXa
XXaXXa
YYYYS
2
2221
2
221
221
xxy
xxxyy
y
assas
san
SanS
s
22
222
2
11
325.61022
401042
1203042
232302.
2
222
2
ss
ss
SS
YXYSX
y
xy
xxyy
i
iixxi
分散,標準偏差は
乗和,の偏差のとき
,乗和がの偏差例
練習問題 (3)
19
1031 ii XY
5132 i
iXY
観測値が {Xi} = {3,4,0,−3} であるとする。次のデータ {Yi} の平均,偏差2乗和,分散,標準偏差を計算しなさい。Excelでも確認しなさい。
162.3,10,30,1 2xxxx ssSXただし
データ変換と標準化 (5)
20
の特殊ケースデータ変換 baXY ii
このとき,を標準化変量とよぶ。
」とよび,となる変換を「標準化のとき
i
x
ii
xx
Zs
XXZsXb
sa ,1
例
310,
3102
xx ss
1,1,1,0 2zzzz ssnSZ
[重要]標準化するとどのようなデータも平均が0,分散(標準偏差)が1になる。
データ変換と標準化 (6)
21
bx
i
ax
i sXX
sZ 1
xy
xy
xxyy
ass
sas
SaS
bXaY
222
2
11
111
1111
01
22
22
222
22
22
xx
xz
xx
xx
xz
xx
xxx
xxzz
xx
ss
ass
ss
ss
sas
nsns
Ss
SaS
sXX
sbXaZ
標準化変量の平均は 0,分散(および標準偏差)は 1 である。平均が 0,分散が 1 になるようにデータを変換することを標準化とよぶ。
x
ii
sXXZ標準化変量変量
データ変換と標準化 (7)
22
標準化変量の応用例
ii ZH 1050偏差値
平成〇年センター試験 平均 標準偏差
数学I・数学A 70 19
6.5226.01050
26.019
707575
i
i
H
Z点の場合得点が
方式検査 Binet15100 ii ZIIQ
1050,標準偏差はの平均は偏差値 iH
9.10326.015100
26.019
707575
i
i
I
Z点の場合得点が
15100,標準偏差はの平均はiIIQ
練習問題 (4)
23
観測値が {Xi} = {3,4,0,−3} であるとする。標準化変量 {Zi} の平均,偏差2乗和,分散,標準偏差を計算しなさい。Excelでも確認しなさい。
数式バーの = の左側の位置をクリックして ctrl + shift + enter
配列数式の計算
24
表2.9 のデータ (n = 10) それぞれの標準化変量を計算しなさい。
① 平均を求める (average 関数)② 標準偏差を求める (stdev 関数)③ 標準化変量を計算するセルに =(全データー平均)/標準偏差 を入力④ 標準化変量を計算する全てのセルを選択状態にする⑤ 「数式バー」の一番左側( = の手前)をクリック⑥ [配列数式の計算]ctrl + shift を押したまま Enterキー
ctrl + shit を押したまま Enterキー
①②
③
④⑤
⑥
エラーが出たら Escキー
散布図 (1) pp.56-58
25
散布図:ペアになったデータ X, Y を平面上に「観測点」として表示した図,
p.57 表2.15 および 図2.11
Excel: ペアになったデータを選択状態にして「散布図」。左側のデータが横軸,
右側のデータが縦軸になる。
散布図 (2) p.59 図2.13
26
{Xi}: 日中最高気温, {Yi}: 電力消費量
20 25 30 35 40
1800
2000
2200
2400
2600
2800
℃日中最高気温[ ]X
電力消費量[
]Y
kw
h
X 32.2
Y 2305
[ 領域 ] I [ 領域 ] II
[ 領域 ] III [ 領域 ] IV
X
Y
0 500 1000 150015
2025
3035
年収[万円]X
エンゲル係数[]
Y
%X 609
Y 24.3
[ 領域 ] I [ 領域 ] II
[ 領域 ] III [ 領域 ] IV
X
Y
{Xi}: 年収, {Yi}: エンゲル係数
正の関係性:[領域 I]と[領域 III]に比較的多くのデータが集まっている
負の関係性:[領域 II]と[領域 IV]に比較的多くのデータが集まっている
I
III
II
IV
X と Y は正の関係
「日中最高気温が上昇すると,電力消費量が増える」
X と Y は負の関係
「年収が上昇すると,エンゲル係数が減少する」
偏差の積和と標本共分散 (1) pp.58-60
27
000IV000III000II000I
YYXXYYXX
YYXXYYXX
YYXXYYXX
YYXXYYXX
iiii
iiii
iiii
iiii
かつ][領域
かつ][領域
かつ][領域
かつ][領域
領域IとIIIにデータが多く集まっているのなら正の関係性があり,偏差の積和は正であることが多い。領域IIとIVにデータが多く集まっているのなら負の関係性があり,偏差の積和は負であることが多い。
X
Y
0XX i
0XX i
0XX i
0XX i
0YYi
0YYi
0YYi
X
Y
0YYi
I
III
II
IV
偏差の積和と標本共分散 (2)
28
式)12.2(1
12211
nYYXXYYXXYYXX
nS
s
nn
xyxy
共分散:偏差の積和を自由度 n − 1 で割った値
式)11.2(2211 YYXXYYXXYYXXS nnxy
偏差の積和
。の間には関係性がないと
ある。の間には負の関係性がと
ある。の間には正の関係性がと
iixy
iixy
iixy
YXS
YXS
YXS
0
0
0
【Excel 関数】偏差の積和:なし共分散:covariance.s 関数
(covar関数および covariance.p関数は偏差の積和を n で割った共分散)
相関係数 (1) p.61-63
29
Xi身長 (cm)
X*i
身長 (m)Yi
体重 (kg)
1 167 1.67 62 −3 × (−4) = 12 −0.03×(−4) = 0.12
2 166 1.66 59 −4 × (−7) = 28 −0.04×(−7) = 0.28
3 175 1.75 66 5 × 0 = 0 0.05×0 = 0
4 172 1.72 75 2 × 9 = 18 0.02×9 = 0.18
5 170 1.70 68 0 × 2 = 0 0 ×2 = 0合計 850 8.50 330 Sxy = 58 S*
xy = 0.58平均 170 1.70 66
*100 ii XX
表2.17
YYXX ii YYXX ii**
*100 xyxy SS
同じデータにも関わらず,単位が異なると偏差の積和も異なる値になってしまう。偏差の積和だけでは関係性の「強さ」は十分に説明できない
相関係数 (2)
30
データの単位に関わりなく,{Xi} と {Yi} の直線的な関係の強さ(相関)を表す指標
乗和の偏差乗和の偏差
の偏差の積和
22,
22
YXYX
SS
S
YYXX
YYXXr
yyxx
xy
ii
iixy
644.09.058.0
1500054.058.058.0,150,0054.0
644.09058
150545858,150,54
*xyxyyyxx
xyxyyyxx
rSSS
rSSS
表2.17の場合
単位に関わらず同じ結果
相関係数のExcel関数 : correl (配列1,配列2)
11: xyr相関係数の範囲
完全な負の相関
負の相関
無相関
正の相関
完全な正の相関
:1
:01
:0
:10
:1
xy
xy
xy
xy
xy
r
r
r
r
r
練習問題 (5)
31
表2.15 のデータ {Xi, Yi} の共分散,偏差の積和,相関係数を計算しなさい。
共分散×自由度
correl (配列1,配列2)
devsq (配列)
32
記述統計量のまとめ
x
ii
x
xx
nxxx
nxx
n
n
sXXZ
XsCV
ss
nXXXXXX
nSs
XXXXXXS
XXXXXXn
XXXX
標準化
変動係数
標本標準偏差
標本分散
乗和偏差
偏差の和は
標本平均
2
222
212
222
21
21
21
11
2
00
:
yyxx
xyxy
xyxy
nnxy
SSS
r
nS
s
YYXXYYXXS
:
1:
: 11
相関係数
標本共分散
偏差の積和
p.56統計指標 Excel関数
平均 average
偏差2乗和 devsq
分散 var
標準偏差 stdev
共分散 covariance.s
相関係数 correl