データの代表値を把握する方法 - SAS...Data Science Institute 8 年度 売上高...
Transcript of データの代表値を把握する方法 - SAS...Data Science Institute 8 年度 売上高...
Data Science Institute
データの代表値を把握する方法
2019年8月6日データサイエンス研究所
伊藤嘉朗
Data Science Institute
2
本日の内容
・平均(算術平均・幾何平均)・バラツキ(分散・標準偏差)・中央値・四分位数・箱ひげ図、ヒストグラム・Z値、偏差値・正規分布・外れ値
Data Science Institute
3
平均
(1)1,2,3,4,5 の平均は?
算術平均(相加平均)(1+2+3+4+5)÷5=3
(2)ある区間を時速40kmで行き、時速60kmで帰ったとき、往復の平均時速は?
仮にある区間の距離を120kmとすると、往復の距離=240km行きの時間=120km÷時速40km=3時間帰りの時間=120km÷時速60km=2時間
往復の平均時速=240÷5=48
往復の平均時速=往復の距離/往復の時間
Data Science Institute
4
◇ある会社の年度別売上高。平均伸び率は?
2015~2016 20% ↑ (1.2倍)2016~2017 30% ↑ (1.3倍)
(20%+30%)/2=25% ?
(億円)
年度 売上高
2015 100
2016 120
2017 156
100×1.25×1.25=156.25
比率の平均に通常の平均(算術平均)は使用できない
比率の平均
Data Science Institute
5
幾何平均
1.2と1.3の幾何平均は、
√1.2×1.3 = 1.2489...
2つの幾何平均 √(a×b)
4つの幾何平均4√(a×b×c×d)
100×1.2489...×1.2489... = 156
Data Science Institute
6
◇ある商品を価格300円で発売し、その後3回値上げをした。値上げ率の平均は?
価格発売価格 3001回目 3502回目 3803回目 420
3√ 1.167×1.086×1.105
値上げ率1回目 1.167 2回目 1.086 3回目 1.105
= 1.1187
300
350
350
380
380
420×× =
3
√300
420=
3
√1.4 = 1.11873√
Data Science Institute
7
GEOMEAN(幾何平均) n乗根:^(1/n)
Data Science Institute
8
年度 売上高 対前年比率
2011 29,306
2012 31,298 1.068 2013 34,536 1.103
2014 33,971 0.984 2015 35,829 1.055
2016 36,747 1.026 2017 36,886 1.004
2018 38,925 1.055
◇ある事業部の売上高推移。伸び率の平均は?
算術平均=1.252幾何平均=1.178
◇2011年度の売上高を変更
Data Science Institute
9
広辞苑 ~平均~多くの量または数の中間的な値。また、それを求める演算。中間の意味のとり方によって、相加平均(算術平均)、相乗平均(幾何平均)その他がある。ふつう、相加平均(算術平均)をさす。
幾何平均は比率の合理的な平均値であり、比率、指数等の平均においては、算術平均より優れる。
Data Science Institute
10
・天井効果
測定値に上限があり、
分布がゆがむこと。
・床効果
測定値に下限があり、
分布がゆがむこと。
中央値はあまり影響を受けない。
本来の分布
実際の分布 ここにくるはずのデータがこちらに移る
上限
平均値がずれる
床効果・天井効果
Data Science Institute
11
中央値(MEDIAN)
230 287 252 313 825 331 292 851 229
平均値=401.1
平均値は極端な値の影響を受け易い
1 2 3 4 5 6 7 8 9
229 230 252 287 292 313 331 825 851
大きさの順番に並び替えて、中央に位置する値を代表値
Data Science Institute
12
・偶数の場合
真ん中の2つの値の平均a7710312511989157146173130164
a1 772 893 1034 1195 1256 1307 1468 1579 16410 173
(125+130)÷2 = 127.5
Data Science Institute
13
四分位数
Q1:第1四分位数(25%点)Q2:第2四分位数(50%点・中央値)Q3:第3四分位数(75%点)
・データを小さい順に並べる。
範囲=最大値-最小値
・4分の1ずつの場所にある値
四分位範囲(IQR) : Q3-Q1
Data Science Institute
14
230 287 252 313 825 331 292 851 229
平均 : 401.1Q1 四分位点(25%) : 252Q2 中央値 : 292Q3 四分位点(75%) : 331
四分位範囲 Q3-Q1=331-252=79
1 2 3 4 5 6 7 8 9
229 230 252 287 292 313 331 825 851
Data Science Institute
15
(1)データを入力する。
中央値、四分位数を求める。(SAS EG)
Data Science Institute
16
(2)「記述統計」-「要約統計量」をクリックし、変数リストから分析変数を指定する。
Data Science Institute
17
(3)「統計量」-「パーセント点」をクリックし、出力項目を設定する。
Data Science Institute
18
(4)出力結果が表示される。
平均 401.1Q1 四分位点(25%) 252Q2 中央値 292Q3 四分位点(75%) 331
Data Science Institute
19
外れ値
Q1-1.5×IQR以下 Q3+1.5×IQR以上
◇四分位範囲(IQR)を基準
Q1 四分位点(25%) : 252Q2 中央値 : 292Q3 四分位点(75%) : 331IQR Q3-Q1=331-252=79
外れ値 : 133.5以下 449.5以上
注)252-1.5×79=133.5 331+1.5×79=449.5
Data Science Institute
20
箱ひげ図
最小値
最大値
第1
四分位数(25
%)
第2
四分位数
第3
四分位数(75
%)
(中央値)
(外れ値がない場合)
Data Science Institute
21
「グラフ」をクリックし、「箱ひげ図」をチェックする。
箱ひげ図の作成(SAS EG)
Data Science Institute
22
Data Science Institute
23
箱ひげ図の比較
Data Science Institute
24
Data Science Institute
25
2つを同時に表示するために分類変数を設定する。
Data Science Institute
26
変数リストから「分類変数」、及び「分析変数」を指定する。
Data Science Institute
27
Data Science Institute
28
度数分布表とヒストグラム
下限
上限
階級値 度数
30 ~ 39 35 140 ~ 49 45 750 ~ 59 55 1160 ~ 69 65 2170 ~ 79 75 2480 ~ 89 85 2090 ~ 99 95 16
データ
0
5
10
15
20
25
30
35 45 55 65 75 85 95
人数
得点
Data Science Institute
29
88 88 60 86 86
48 86 60 46 40
64 84 70 34 62
78 36 77 72 76
65 68 90 90 56
72 54 54 52 66
68 68 60 74 72
78 56 62 96 90
36 86 48 48 90
48 68 84 66 46
成績データA
Data Science Institute
30
(3)「グラフ」をクリックし、「ヒストグラム」にチェックする。
ヒストグラムの作成(SAS EG)
(2)「記述統計」-「要約統計量」をクリックし、変数リストから分析変数を指定する。
(1)データを入力する。
Data Science Institute
31
Data Science Institute
32
88 88 60 86 86
48 86 60 46 40
64 84 70 34 62
78 36 77 72 76
65 68 90 90 56
72 54 54 52 66
68 68 60 74 72
78 56 62 96 90
36 86 48 48 90
48 68 84 66 46
成績データB 赤数字を35点に変更
Data Science Institute
33
Data Science Institute
34
88 88 60 86 86
48 86 60 46 40
64 84 70 34 62
78 36 77 72 76
65 68 90 90 56
72 54 54 52 66
68 68 60 74 72
78 56 62 96 90
36 86 48 48 90
48 68 84 66 46
成績データC 赤数字を90点に変更
Data Science Institute
35
Data Science Institute
36
Data Science Institute
37
Data Science Institute
38
A君の成績の評価
A君の得点 全体の平均点 得点-平均点研修前 70 58.3 +11.7研修後 72 58.3 +13.7
平均を評価基準とする合理性?
英語の研修前後の成績(20人)
A君の成績の評価は?
Data Science Institute
39
平均の信頼度
(例)暑い日に暑い場所で待ち合わせをした。いつも遅れてくる人が何分後に来るのか予測。
① 21 46 8 28 19 34 13 33 19 31② 25 26 23 24 26 27 26 25 24 26
<過去10回の遅刻データ(分)>
①、②それぞれにおける待ち時間の行動は?
①のデータは「バラツキ」が大きい。
「バラツキ」の大きいデータの平均は信頼できない。
25.2分25.2分
平均
Data Science Institute
40
<研修前>
70、56、89、27、69、57、69
50、33、67、37、49、98、69
68、25、65、67、33、68
<研修後>
72、31、95、36、89、88、89
76、28、47、23、28、96、48
51、20、33、91、27、98
全員の成績
Data Science Institute
41
<研修前>
70、56、89、27、69、57、69
50、33、67、37、49、98、69
68、25、65、67、33、68
<研修後>
72、31、95、36、89、88、89
76、28、47、23、28、96、48
51、20、33、91、27、98
全員の成績
研修後はバラツキ(標準偏差)が大きくなった。
Data Science Institute
42
平均値が同じデータ群
A:{1,2,3,4,5}
1 2 3 4 5
B:{2,3,3,3,4}
2 3 3 3 4
C:{1,1,1,1,11}
1 1 1 1 11
D:{3,3,3,3,3}
3 3 3 3 3
A群~D群の平均値はすべて同じ値3
平均値は同じであるので同類集団?
データのバラツキを表す代表値が必要!
各群のバラツキが異なる。 D<B<A<C
Data Science Institute
43
バラツキの計算方法の検討
A群のバラツキの部分を抽出する。
A群 平均値 値-平均値1 - 3 = -22 - 3 = -13 - 3 = 04 - 3 = 15 - 3 = 2
計 = 0
合計すると0!
バラツキの部分を2乗し、合計!
Data Science Institute
44
A群のバラツキの部分を2乗して合計
値-平均値-2-1012
A群のバラツキ=10
同様に、B、C、D群について計算する。
計 0 10
(値-平均値)2
41014
Data Science Institute
45
D<B<A<C 0<2<10<80
「偏差平方和」
B群 平均 差 (差)2
2 – 3 = -1 13 – 3 = 0 03 – 3 = 0 03 – 3 = 0 04 – 3 = 1 1
C群平均 差 (差)2
1 – 3 = -2 41 – 3 = -2 41 – 3 = -2 41 – 3 = -2 4
11 – 3 = 8 64
D群 平均 差 (差)2
3 – 3 = 0 03 – 3 = 0 03 – 3 = 0 03 – 3 = 0 03 – 3 = 0 0
計 0 2 計 0 80 計 0 0
Data Science Institute
46
計 = 20
E群:{1,1,2,2,3,3,4,4,5,5}の偏差平方和
E群 平均値 差 (差)2
1 - 3 = -2 41 - 3 = -2 4
2 - 3 = -1 1
2 - 3 = -1 13 - 3 = 0 03 - 3 = 0 0 4 - 3 = 1 14 - 3 = 1 15 - 3 = 2 45 - 3 = 2 4
E群の偏差平方和=20
Data Science Institute
47
E群:{1,1,2,2,3,3,4,4,5,5}の偏差平方和=20
A群:{1,2,3,4,5}の偏差平方和=10
A群とE群の構造は同じであるが、偏差平方和の値はE群の方が大きい。
偏差平方和をデータ数で割ると同じ代表値となる。E群:20÷10=2 A群:10÷5=2
バラツキの代表値①
「分散」
Data Science Institute
48
F群:{10,20,30,40,50} A群:{1,2,3,4,5}の10倍
A群の分散:2万円2
分散の比較は困難
分散の平方根は、同じ値となる。A群: ≒ 1.414万円
F群: ≒ 14.14千円
バラツキの代表値②
「標準偏差」
F群の単位:千円 A群の単位:万円の場合、全く同じデータ
偏差平方和を計算すると
F群 平均 差 (差)2
10 – 30 = -20 40020 – 30 = -10 10030 – 30 = 0 040 – 30 = 10 10050 – 30 = 20 400
計 0 1000
F群の分散: 200千円2
F群の偏差平方和:1000
√200
√ 2
Data Science Institute
49
(1)データを入力する。
平均、分散、標準偏差を求める。(SAS EG)
Data Science Institute
50
(2)「記述統計」-「要約統計量」をクリックし、変数リストから分析変数を指定する。
Data Science Institute
51
(3)「統計量」-「基本」をクリックし、出力項目を設定する。
「平均」、「標準偏差」、「分散」、「オブザベーションの数」をチェックし、「標準偏差と分散の除数」において「オブザベーションの数」を選択する。
Data Science Institute
52
(4)出力結果が表示される。
Data Science Institute
53
平均 標準偏差
A群(万円) 3 1.414
F群(千円) 30 14.14
データ群を比較するときは、単位の影響を除くために平均と標準偏差を組み合わせる
1.4143
14.14 30
0.471(約47.1%)=
標準偏差平均
変動係数(CV)
≒
A群(1,2,3,4,5)とF群(10,20,30,40,50)の比較
Data Science Institute
54
(4)「統計量」-「その他」をクリックし、「変動係数」にチェックする。
変動係数を求める。(SAS EG)
(2)「記述統計」-「要約統計量」をクリックし、変数リストから分析変数を指定する。
(3)「統計量」-「基本」をクリックし、出力項目を設定する。
(1)データを入力する。
Data Science Institute
55
(5)出力結果が表示される。
A群の変動係数=F群の変動係数
Data Science Institute
56
◇平均を基準とした場合研修前(+11.7) < 研修後(+13.7)
成績の評価
順位研修前(3番) > 研修後(9番)
・バラツキ(標準偏差)研修前 < 研修後
「標準偏差」の大きいデータの平均は信頼できない。
Data Science Institute
57
VARP(分散)
STDEVP(標準偏差)
Data Science Institute
58
平均,分散、標準偏差を求める。(SAS EG)
Data Science Institute
59
Data Science Institute
60
70-58.3
19.272-58.3
28.6>
研修前 研修後
成績 平均 成績-平均 標準偏差
研修前 70 58.3 11.7 19.2
研修後 72 58.3 13.7 28.6
A君の成績の評価
= 0.609 = 0.479
Z値成績と平均値の差
標準偏差
Data Science Institute
61
偏差値
Z値×10+50
研修前の偏差値=0.609×10+50=56.09
研修後の偏差値=0.479×10+50=54.79
Z値の比較によりデータの評価・比較が可能
Data Science Institute
62
Z値 0
偏差値 50
(-) (+)
Z値は、平均値=0平均値より大のときプラスの値、小のときマイナスの値
偏差値は、平均値=50平均値より大のとき50より大きな値、小のとき50より小さな値
Data Science Institute
63
Z値の特性
データ Z値 データ Z値
1 -1.4142 3 -1.1844
2 -0.7071 8 0.55739
3 0 6 -0.1393
4 0.70711 4 -0.8361
5 1.41421 11 1.60249
平均値 3 0 6.4 0分散 2 1 8.24 1
標準偏差 1.41421 1 2.87054 1
Z値の平均値=0 標準偏差=1
Data Science Institute
64
標準正規分布(standard normal distribution)
Z値 -3 -2 -1 0 1 2 3
偏差値 20 30 40 50 60 70 80
Z値=1(偏差値60) 以上の割合は約15.87%Z値=2(偏差値70) 以上の割合は全体の約2.28%
Data Science Institute
65
標準正規分布の活用
■日本の成年男子の身長が平均170cm 標準偏差6cm、182cm以上の人は、全体の何%を占めるか?
身長(cm) 158 170 182
182cm以上の人は約2.28% Z=182-170 (cm)
6 (cm)= 2
Z値 -2 0 2
Data Science Institute
66
■通信販売会社における顧客売上高の平均5,568円、標準偏差2,216円、10,000円以上購入した顧客は、全体の何%を占めるか?
10,000円以上:約2.28% Z=10,000-5,568 (円)
2,216 (円)= 2
Z値は単位とは無関係。
求める値-平均値
標準偏差Z値=
Data Science Institute
67
外れ値①
Z値 -3 -2 -1 0 1 2 3偏差値 20 30 40 50 60 70 80
Z値=-2~+2の割合は約95.5%(4.5%)Z値=-1.96~+1.96の割合は約95.0%(5.0%)Z値=-3~+3の割合は約99.7%(0.3%)
Data Science Institute
68
外れ値②
平均値を中央値としたときの標準偏差に相当する値
A群 中央値 絶対値2 - 5 = 34 - 5 = 15 - 5 = 08 - 5 = 39 - 5 = 4
①(値-中央値)の絶対値を求める。
② 中央絶対偏差(絶対値の中央値)を求める。
0,1,3,3,4 ⇒ 3
③ 3×1.4826 ⇒ 4.4478(標準偏差相当値)
補正係数(1.4826)によりデータが正規分布のときの標準偏差に一致。
中央絶対偏差×1.4826
Data Science Institute
69
外れ値③
◇売上高の平均120万円、標準偏差35万円中央値92万円、中央絶対偏差33万円
平均-1.96×標準偏差 ~ 平均+1.96×標準偏差51.4(120-1.96×35)~ 188.6(120+1.96×35)
95.0%の信頼区間
33×1.4826=48.9258 ⇒ 標準偏差
ロバスト(頑健)な場合
-3.895(92-1.96×48.9258)~ 187.89(92+1.96×48.9258)
Data Science Institute
70
まとめ
・算術平均・幾何平均(比率の平均)・分散、標準偏差、変動係数・中央値、四分位数・箱ひげ図、ヒストグラム・Z値(偏差値)・正規分布(信頼区間)・外れ値(Z値、中央絶対偏差)