データの代表値を把握する方法 - SAS...Data Science Institute 8 年度 売上高...

70
Data Science Institute データの代表値を把握する方法 2019年8月6日 データサイエンス研究所 伊藤嘉朗

Transcript of データの代表値を把握する方法 - SAS...Data Science Institute 8 年度 売上高...

Page 1: データの代表値を把握する方法 - SAS...Data Science Institute 8 年度 売上高 対前年比率 2011 29,306 2012 31,298 1.068 2013 34,536 1.103 2014 33,971 0.984 2015

Data Science Institute

データの代表値を把握する方法

2019年8月6日データサイエンス研究所

伊藤嘉朗

Page 2: データの代表値を把握する方法 - SAS...Data Science Institute 8 年度 売上高 対前年比率 2011 29,306 2012 31,298 1.068 2013 34,536 1.103 2014 33,971 0.984 2015

Data Science Institute

2

本日の内容

・平均(算術平均・幾何平均)・バラツキ(分散・標準偏差)・中央値・四分位数・箱ひげ図、ヒストグラム・Z値、偏差値・正規分布・外れ値

Page 3: データの代表値を把握する方法 - SAS...Data Science Institute 8 年度 売上高 対前年比率 2011 29,306 2012 31,298 1.068 2013 34,536 1.103 2014 33,971 0.984 2015

Data Science Institute

3

平均

(1)1,2,3,4,5 の平均は?

算術平均(相加平均)(1+2+3+4+5)÷5=3

(2)ある区間を時速40kmで行き、時速60kmで帰ったとき、往復の平均時速は?

仮にある区間の距離を120kmとすると、往復の距離=240km行きの時間=120km÷時速40km=3時間帰りの時間=120km÷時速60km=2時間

往復の平均時速=240÷5=48

往復の平均時速=往復の距離/往復の時間

Page 4: データの代表値を把握する方法 - SAS...Data Science Institute 8 年度 売上高 対前年比率 2011 29,306 2012 31,298 1.068 2013 34,536 1.103 2014 33,971 0.984 2015

Data Science Institute

4

◇ある会社の年度別売上高。平均伸び率は?

2015~2016 20% ↑ (1.2倍)2016~2017 30% ↑ (1.3倍)

(20%+30%)/2=25% ?

(億円)

年度 売上高

2015 100

2016 120

2017 156

100×1.25×1.25=156.25

比率の平均に通常の平均(算術平均)は使用できない

比率の平均

Page 5: データの代表値を把握する方法 - SAS...Data Science Institute 8 年度 売上高 対前年比率 2011 29,306 2012 31,298 1.068 2013 34,536 1.103 2014 33,971 0.984 2015

Data Science Institute

5

幾何平均

1.2と1.3の幾何平均は、

√1.2×1.3 = 1.2489...

2つの幾何平均 √(a×b)

4つの幾何平均4√(a×b×c×d)

100×1.2489...×1.2489... = 156

Page 6: データの代表値を把握する方法 - SAS...Data Science Institute 8 年度 売上高 対前年比率 2011 29,306 2012 31,298 1.068 2013 34,536 1.103 2014 33,971 0.984 2015

Data Science Institute

6

◇ある商品を価格300円で発売し、その後3回値上げをした。値上げ率の平均は?

価格発売価格 3001回目 3502回目 3803回目 420

3√ 1.167×1.086×1.105

値上げ率1回目 1.167 2回目 1.086 3回目 1.105

= 1.1187

300

350

350

380

380

420×× =

3

√300

420=

3

√1.4 = 1.11873√

Page 7: データの代表値を把握する方法 - SAS...Data Science Institute 8 年度 売上高 対前年比率 2011 29,306 2012 31,298 1.068 2013 34,536 1.103 2014 33,971 0.984 2015

Data Science Institute

7

GEOMEAN(幾何平均) n乗根:^(1/n)

Page 8: データの代表値を把握する方法 - SAS...Data Science Institute 8 年度 売上高 対前年比率 2011 29,306 2012 31,298 1.068 2013 34,536 1.103 2014 33,971 0.984 2015

Data Science Institute

8

年度 売上高 対前年比率

2011 29,306

2012 31,298 1.068 2013 34,536 1.103

2014 33,971 0.984 2015 35,829 1.055

2016 36,747 1.026 2017 36,886 1.004

2018 38,925 1.055

◇ある事業部の売上高推移。伸び率の平均は?

算術平均=1.252幾何平均=1.178

◇2011年度の売上高を変更

Page 9: データの代表値を把握する方法 - SAS...Data Science Institute 8 年度 売上高 対前年比率 2011 29,306 2012 31,298 1.068 2013 34,536 1.103 2014 33,971 0.984 2015

Data Science Institute

9

広辞苑 ~平均~多くの量または数の中間的な値。また、それを求める演算。中間の意味のとり方によって、相加平均(算術平均)、相乗平均(幾何平均)その他がある。ふつう、相加平均(算術平均)をさす。

幾何平均は比率の合理的な平均値であり、比率、指数等の平均においては、算術平均より優れる。

Page 10: データの代表値を把握する方法 - SAS...Data Science Institute 8 年度 売上高 対前年比率 2011 29,306 2012 31,298 1.068 2013 34,536 1.103 2014 33,971 0.984 2015

Data Science Institute

10

・天井効果

測定値に上限があり、

分布がゆがむこと。

・床効果

測定値に下限があり、

分布がゆがむこと。

中央値はあまり影響を受けない。

本来の分布

実際の分布 ここにくるはずのデータがこちらに移る

上限

平均値がずれる

床効果・天井効果

Page 11: データの代表値を把握する方法 - SAS...Data Science Institute 8 年度 売上高 対前年比率 2011 29,306 2012 31,298 1.068 2013 34,536 1.103 2014 33,971 0.984 2015

Data Science Institute

11

中央値(MEDIAN)

230 287 252 313 825 331 292 851 229

平均値=401.1

平均値は極端な値の影響を受け易い

1 2 3 4 5 6 7 8 9

229 230 252 287 292 313 331 825 851

大きさの順番に並び替えて、中央に位置する値を代表値

Page 12: データの代表値を把握する方法 - SAS...Data Science Institute 8 年度 売上高 対前年比率 2011 29,306 2012 31,298 1.068 2013 34,536 1.103 2014 33,971 0.984 2015

Data Science Institute

12

・偶数の場合

真ん中の2つの値の平均a7710312511989157146173130164

a1 772 893 1034 1195 1256 1307 1468 1579 16410 173

(125+130)÷2 = 127.5

Page 13: データの代表値を把握する方法 - SAS...Data Science Institute 8 年度 売上高 対前年比率 2011 29,306 2012 31,298 1.068 2013 34,536 1.103 2014 33,971 0.984 2015

Data Science Institute

13

四分位数

Q1:第1四分位数(25%点)Q2:第2四分位数(50%点・中央値)Q3:第3四分位数(75%点)

・データを小さい順に並べる。

範囲=最大値-最小値

・4分の1ずつの場所にある値

四分位範囲(IQR) : Q3-Q1

Page 14: データの代表値を把握する方法 - SAS...Data Science Institute 8 年度 売上高 対前年比率 2011 29,306 2012 31,298 1.068 2013 34,536 1.103 2014 33,971 0.984 2015

Data Science Institute

14

230 287 252 313 825 331 292 851 229

平均 : 401.1Q1 四分位点(25%) : 252Q2 中央値 : 292Q3 四分位点(75%) : 331

四分位範囲 Q3-Q1=331-252=79

1 2 3 4 5 6 7 8 9

229 230 252 287 292 313 331 825 851

Page 15: データの代表値を把握する方法 - SAS...Data Science Institute 8 年度 売上高 対前年比率 2011 29,306 2012 31,298 1.068 2013 34,536 1.103 2014 33,971 0.984 2015

Data Science Institute

15

(1)データを入力する。

中央値、四分位数を求める。(SAS EG)

Page 16: データの代表値を把握する方法 - SAS...Data Science Institute 8 年度 売上高 対前年比率 2011 29,306 2012 31,298 1.068 2013 34,536 1.103 2014 33,971 0.984 2015

Data Science Institute

16

(2)「記述統計」-「要約統計量」をクリックし、変数リストから分析変数を指定する。

Page 17: データの代表値を把握する方法 - SAS...Data Science Institute 8 年度 売上高 対前年比率 2011 29,306 2012 31,298 1.068 2013 34,536 1.103 2014 33,971 0.984 2015

Data Science Institute

17

(3)「統計量」-「パーセント点」をクリックし、出力項目を設定する。

Page 18: データの代表値を把握する方法 - SAS...Data Science Institute 8 年度 売上高 対前年比率 2011 29,306 2012 31,298 1.068 2013 34,536 1.103 2014 33,971 0.984 2015

Data Science Institute

18

(4)出力結果が表示される。

平均 401.1Q1 四分位点(25%) 252Q2 中央値 292Q3 四分位点(75%) 331

Page 19: データの代表値を把握する方法 - SAS...Data Science Institute 8 年度 売上高 対前年比率 2011 29,306 2012 31,298 1.068 2013 34,536 1.103 2014 33,971 0.984 2015

Data Science Institute

19

外れ値

Q1-1.5×IQR以下 Q3+1.5×IQR以上

◇四分位範囲(IQR)を基準

Q1 四分位点(25%) : 252Q2 中央値 : 292Q3 四分位点(75%) : 331IQR Q3-Q1=331-252=79

外れ値 : 133.5以下 449.5以上

注)252-1.5×79=133.5 331+1.5×79=449.5

Page 20: データの代表値を把握する方法 - SAS...Data Science Institute 8 年度 売上高 対前年比率 2011 29,306 2012 31,298 1.068 2013 34,536 1.103 2014 33,971 0.984 2015

Data Science Institute

20

箱ひげ図

最小値

最大値

第1

四分位数(25

%)

第2

四分位数

第3

四分位数(75

%)

(中央値)

(外れ値がない場合)

Page 21: データの代表値を把握する方法 - SAS...Data Science Institute 8 年度 売上高 対前年比率 2011 29,306 2012 31,298 1.068 2013 34,536 1.103 2014 33,971 0.984 2015

Data Science Institute

21

「グラフ」をクリックし、「箱ひげ図」をチェックする。

箱ひげ図の作成(SAS EG)

Page 22: データの代表値を把握する方法 - SAS...Data Science Institute 8 年度 売上高 対前年比率 2011 29,306 2012 31,298 1.068 2013 34,536 1.103 2014 33,971 0.984 2015

Data Science Institute

22

Page 23: データの代表値を把握する方法 - SAS...Data Science Institute 8 年度 売上高 対前年比率 2011 29,306 2012 31,298 1.068 2013 34,536 1.103 2014 33,971 0.984 2015

Data Science Institute

23

箱ひげ図の比較

Page 24: データの代表値を把握する方法 - SAS...Data Science Institute 8 年度 売上高 対前年比率 2011 29,306 2012 31,298 1.068 2013 34,536 1.103 2014 33,971 0.984 2015

Data Science Institute

24

Page 25: データの代表値を把握する方法 - SAS...Data Science Institute 8 年度 売上高 対前年比率 2011 29,306 2012 31,298 1.068 2013 34,536 1.103 2014 33,971 0.984 2015

Data Science Institute

25

2つを同時に表示するために分類変数を設定する。

Page 26: データの代表値を把握する方法 - SAS...Data Science Institute 8 年度 売上高 対前年比率 2011 29,306 2012 31,298 1.068 2013 34,536 1.103 2014 33,971 0.984 2015

Data Science Institute

26

変数リストから「分類変数」、及び「分析変数」を指定する。

Page 27: データの代表値を把握する方法 - SAS...Data Science Institute 8 年度 売上高 対前年比率 2011 29,306 2012 31,298 1.068 2013 34,536 1.103 2014 33,971 0.984 2015

Data Science Institute

27

Page 28: データの代表値を把握する方法 - SAS...Data Science Institute 8 年度 売上高 対前年比率 2011 29,306 2012 31,298 1.068 2013 34,536 1.103 2014 33,971 0.984 2015

Data Science Institute

28

度数分布表とヒストグラム

下限

上限

階級値 度数

30 ~ 39 35 140 ~ 49 45 750 ~ 59 55 1160 ~ 69 65 2170 ~ 79 75 2480 ~ 89 85 2090 ~ 99 95 16

データ

0

5

10

15

20

25

30

35 45 55 65 75 85 95

人数

得点

Page 29: データの代表値を把握する方法 - SAS...Data Science Institute 8 年度 売上高 対前年比率 2011 29,306 2012 31,298 1.068 2013 34,536 1.103 2014 33,971 0.984 2015

Data Science Institute

29

88 88 60 86 86

48 86 60 46 40

64 84 70 34 62

78 36 77 72 76

65 68 90 90 56

72 54 54 52 66

68 68 60 74 72

78 56 62 96 90

36 86 48 48 90

48 68 84 66 46

成績データA

Page 30: データの代表値を把握する方法 - SAS...Data Science Institute 8 年度 売上高 対前年比率 2011 29,306 2012 31,298 1.068 2013 34,536 1.103 2014 33,971 0.984 2015

Data Science Institute

30

(3)「グラフ」をクリックし、「ヒストグラム」にチェックする。

ヒストグラムの作成(SAS EG)

(2)「記述統計」-「要約統計量」をクリックし、変数リストから分析変数を指定する。

(1)データを入力する。

Page 31: データの代表値を把握する方法 - SAS...Data Science Institute 8 年度 売上高 対前年比率 2011 29,306 2012 31,298 1.068 2013 34,536 1.103 2014 33,971 0.984 2015

Data Science Institute

31

Page 32: データの代表値を把握する方法 - SAS...Data Science Institute 8 年度 売上高 対前年比率 2011 29,306 2012 31,298 1.068 2013 34,536 1.103 2014 33,971 0.984 2015

Data Science Institute

32

88 88 60 86 86

48 86 60 46 40

64 84 70 34 62

78 36 77 72 76

65 68 90 90 56

72 54 54 52 66

68 68 60 74 72

78 56 62 96 90

36 86 48 48 90

48 68 84 66 46

成績データB 赤数字を35点に変更

Page 33: データの代表値を把握する方法 - SAS...Data Science Institute 8 年度 売上高 対前年比率 2011 29,306 2012 31,298 1.068 2013 34,536 1.103 2014 33,971 0.984 2015

Data Science Institute

33

Page 34: データの代表値を把握する方法 - SAS...Data Science Institute 8 年度 売上高 対前年比率 2011 29,306 2012 31,298 1.068 2013 34,536 1.103 2014 33,971 0.984 2015

Data Science Institute

34

88 88 60 86 86

48 86 60 46 40

64 84 70 34 62

78 36 77 72 76

65 68 90 90 56

72 54 54 52 66

68 68 60 74 72

78 56 62 96 90

36 86 48 48 90

48 68 84 66 46

成績データC 赤数字を90点に変更

Page 35: データの代表値を把握する方法 - SAS...Data Science Institute 8 年度 売上高 対前年比率 2011 29,306 2012 31,298 1.068 2013 34,536 1.103 2014 33,971 0.984 2015

Data Science Institute

35

Page 36: データの代表値を把握する方法 - SAS...Data Science Institute 8 年度 売上高 対前年比率 2011 29,306 2012 31,298 1.068 2013 34,536 1.103 2014 33,971 0.984 2015

Data Science Institute

36

Page 37: データの代表値を把握する方法 - SAS...Data Science Institute 8 年度 売上高 対前年比率 2011 29,306 2012 31,298 1.068 2013 34,536 1.103 2014 33,971 0.984 2015

Data Science Institute

37

Page 38: データの代表値を把握する方法 - SAS...Data Science Institute 8 年度 売上高 対前年比率 2011 29,306 2012 31,298 1.068 2013 34,536 1.103 2014 33,971 0.984 2015

Data Science Institute

38

A君の成績の評価

A君の得点 全体の平均点 得点-平均点研修前 70 58.3 +11.7研修後 72 58.3 +13.7

平均を評価基準とする合理性?

英語の研修前後の成績(20人)

A君の成績の評価は?

Page 39: データの代表値を把握する方法 - SAS...Data Science Institute 8 年度 売上高 対前年比率 2011 29,306 2012 31,298 1.068 2013 34,536 1.103 2014 33,971 0.984 2015

Data Science Institute

39

平均の信頼度

(例)暑い日に暑い場所で待ち合わせをした。いつも遅れてくる人が何分後に来るのか予測。

① 21 46 8 28 19 34 13 33 19 31② 25 26 23 24 26 27 26 25 24 26

<過去10回の遅刻データ(分)>

①、②それぞれにおける待ち時間の行動は?

①のデータは「バラツキ」が大きい。

「バラツキ」の大きいデータの平均は信頼できない。

25.2分25.2分

平均

Page 40: データの代表値を把握する方法 - SAS...Data Science Institute 8 年度 売上高 対前年比率 2011 29,306 2012 31,298 1.068 2013 34,536 1.103 2014 33,971 0.984 2015

Data Science Institute

40

<研修前>

70、56、89、27、69、57、69

50、33、67、37、49、98、69

68、25、65、67、33、68

<研修後>

72、31、95、36、89、88、89

76、28、47、23、28、96、48

51、20、33、91、27、98

全員の成績

Page 41: データの代表値を把握する方法 - SAS...Data Science Institute 8 年度 売上高 対前年比率 2011 29,306 2012 31,298 1.068 2013 34,536 1.103 2014 33,971 0.984 2015

Data Science Institute

41

<研修前>

70、56、89、27、69、57、69

50、33、67、37、49、98、69

68、25、65、67、33、68

<研修後>

72、31、95、36、89、88、89

76、28、47、23、28、96、48

51、20、33、91、27、98

全員の成績

研修後はバラツキ(標準偏差)が大きくなった。

Page 42: データの代表値を把握する方法 - SAS...Data Science Institute 8 年度 売上高 対前年比率 2011 29,306 2012 31,298 1.068 2013 34,536 1.103 2014 33,971 0.984 2015

Data Science Institute

42

平均値が同じデータ群

A:{1,2,3,4,5}

1 2 3 4 5

B:{2,3,3,3,4}

2 3 3 3 4

C:{1,1,1,1,11}

1 1 1 1 11

D:{3,3,3,3,3}

3 3 3 3 3

A群~D群の平均値はすべて同じ値3

平均値は同じであるので同類集団?

データのバラツキを表す代表値が必要!

各群のバラツキが異なる。 D<B<A<C

Page 43: データの代表値を把握する方法 - SAS...Data Science Institute 8 年度 売上高 対前年比率 2011 29,306 2012 31,298 1.068 2013 34,536 1.103 2014 33,971 0.984 2015

Data Science Institute

43

バラツキの計算方法の検討

A群のバラツキの部分を抽出する。

A群 平均値 値-平均値1 - 3 = -22 - 3 = -13 - 3 = 04 - 3 = 15 - 3 = 2

計 = 0

合計すると0!

バラツキの部分を2乗し、合計!

Page 44: データの代表値を把握する方法 - SAS...Data Science Institute 8 年度 売上高 対前年比率 2011 29,306 2012 31,298 1.068 2013 34,536 1.103 2014 33,971 0.984 2015

Data Science Institute

44

A群のバラツキの部分を2乗して合計

値-平均値-2-1012

A群のバラツキ=10

同様に、B、C、D群について計算する。

計 0 10

(値-平均値)2

41014

Page 45: データの代表値を把握する方法 - SAS...Data Science Institute 8 年度 売上高 対前年比率 2011 29,306 2012 31,298 1.068 2013 34,536 1.103 2014 33,971 0.984 2015

Data Science Institute

45

D<B<A<C 0<2<10<80

「偏差平方和」

B群 平均 差 (差)2

2 – 3 = -1 13 – 3 = 0 03 – 3 = 0 03 – 3 = 0 04 – 3 = 1 1

C群平均 差 (差)2

1 – 3 = -2 41 – 3 = -2 41 – 3 = -2 41 – 3 = -2 4

11 – 3 = 8 64

D群 平均 差 (差)2

3 – 3 = 0 03 – 3 = 0 03 – 3 = 0 03 – 3 = 0 03 – 3 = 0 0

計 0 2 計 0 80 計 0 0

Page 46: データの代表値を把握する方法 - SAS...Data Science Institute 8 年度 売上高 対前年比率 2011 29,306 2012 31,298 1.068 2013 34,536 1.103 2014 33,971 0.984 2015

Data Science Institute

46

計 = 20

E群:{1,1,2,2,3,3,4,4,5,5}の偏差平方和

E群 平均値 差 (差)2

1 - 3 = -2 41 - 3 = -2 4

2 - 3 = -1 1

2 - 3 = -1 13 - 3 = 0 03 - 3 = 0 0 4 - 3 = 1 14 - 3 = 1 15 - 3 = 2 45 - 3 = 2 4

E群の偏差平方和=20

Page 47: データの代表値を把握する方法 - SAS...Data Science Institute 8 年度 売上高 対前年比率 2011 29,306 2012 31,298 1.068 2013 34,536 1.103 2014 33,971 0.984 2015

Data Science Institute

47

E群:{1,1,2,2,3,3,4,4,5,5}の偏差平方和=20

A群:{1,2,3,4,5}の偏差平方和=10

A群とE群の構造は同じであるが、偏差平方和の値はE群の方が大きい。

偏差平方和をデータ数で割ると同じ代表値となる。E群:20÷10=2 A群:10÷5=2

バラツキの代表値①

「分散」

Page 48: データの代表値を把握する方法 - SAS...Data Science Institute 8 年度 売上高 対前年比率 2011 29,306 2012 31,298 1.068 2013 34,536 1.103 2014 33,971 0.984 2015

Data Science Institute

48

F群:{10,20,30,40,50} A群:{1,2,3,4,5}の10倍

A群の分散:2万円2

分散の比較は困難

分散の平方根は、同じ値となる。A群: ≒ 1.414万円

F群: ≒ 14.14千円

バラツキの代表値②

「標準偏差」

F群の単位:千円 A群の単位:万円の場合、全く同じデータ

偏差平方和を計算すると

F群 平均 差 (差)2

10 – 30 = -20 40020 – 30 = -10 10030 – 30 = 0 040 – 30 = 10 10050 – 30 = 20 400

計 0 1000

F群の分散: 200千円2

F群の偏差平方和:1000

√200

√ 2

Page 49: データの代表値を把握する方法 - SAS...Data Science Institute 8 年度 売上高 対前年比率 2011 29,306 2012 31,298 1.068 2013 34,536 1.103 2014 33,971 0.984 2015

Data Science Institute

49

(1)データを入力する。

平均、分散、標準偏差を求める。(SAS EG)

Page 50: データの代表値を把握する方法 - SAS...Data Science Institute 8 年度 売上高 対前年比率 2011 29,306 2012 31,298 1.068 2013 34,536 1.103 2014 33,971 0.984 2015

Data Science Institute

50

(2)「記述統計」-「要約統計量」をクリックし、変数リストから分析変数を指定する。

Page 51: データの代表値を把握する方法 - SAS...Data Science Institute 8 年度 売上高 対前年比率 2011 29,306 2012 31,298 1.068 2013 34,536 1.103 2014 33,971 0.984 2015

Data Science Institute

51

(3)「統計量」-「基本」をクリックし、出力項目を設定する。

「平均」、「標準偏差」、「分散」、「オブザベーションの数」をチェックし、「標準偏差と分散の除数」において「オブザベーションの数」を選択する。

Page 52: データの代表値を把握する方法 - SAS...Data Science Institute 8 年度 売上高 対前年比率 2011 29,306 2012 31,298 1.068 2013 34,536 1.103 2014 33,971 0.984 2015

Data Science Institute

52

(4)出力結果が表示される。

Page 53: データの代表値を把握する方法 - SAS...Data Science Institute 8 年度 売上高 対前年比率 2011 29,306 2012 31,298 1.068 2013 34,536 1.103 2014 33,971 0.984 2015

Data Science Institute

53

平均 標準偏差

A群(万円) 3 1.414

F群(千円) 30 14.14

データ群を比較するときは、単位の影響を除くために平均と標準偏差を組み合わせる

1.4143

14.14 30

0.471(約47.1%)=

標準偏差平均

変動係数(CV)

A群(1,2,3,4,5)とF群(10,20,30,40,50)の比較

Page 54: データの代表値を把握する方法 - SAS...Data Science Institute 8 年度 売上高 対前年比率 2011 29,306 2012 31,298 1.068 2013 34,536 1.103 2014 33,971 0.984 2015

Data Science Institute

54

(4)「統計量」-「その他」をクリックし、「変動係数」にチェックする。

変動係数を求める。(SAS EG)

(2)「記述統計」-「要約統計量」をクリックし、変数リストから分析変数を指定する。

(3)「統計量」-「基本」をクリックし、出力項目を設定する。

(1)データを入力する。

Page 55: データの代表値を把握する方法 - SAS...Data Science Institute 8 年度 売上高 対前年比率 2011 29,306 2012 31,298 1.068 2013 34,536 1.103 2014 33,971 0.984 2015

Data Science Institute

55

(5)出力結果が表示される。

A群の変動係数=F群の変動係数

Page 56: データの代表値を把握する方法 - SAS...Data Science Institute 8 年度 売上高 対前年比率 2011 29,306 2012 31,298 1.068 2013 34,536 1.103 2014 33,971 0.984 2015

Data Science Institute

56

◇平均を基準とした場合研修前(+11.7) < 研修後(+13.7)

成績の評価

順位研修前(3番) > 研修後(9番)

・バラツキ(標準偏差)研修前 < 研修後

「標準偏差」の大きいデータの平均は信頼できない。

Page 57: データの代表値を把握する方法 - SAS...Data Science Institute 8 年度 売上高 対前年比率 2011 29,306 2012 31,298 1.068 2013 34,536 1.103 2014 33,971 0.984 2015

Data Science Institute

57

VARP(分散)

STDEVP(標準偏差)

Page 58: データの代表値を把握する方法 - SAS...Data Science Institute 8 年度 売上高 対前年比率 2011 29,306 2012 31,298 1.068 2013 34,536 1.103 2014 33,971 0.984 2015

Data Science Institute

58

平均,分散、標準偏差を求める。(SAS EG)

Page 59: データの代表値を把握する方法 - SAS...Data Science Institute 8 年度 売上高 対前年比率 2011 29,306 2012 31,298 1.068 2013 34,536 1.103 2014 33,971 0.984 2015

Data Science Institute

59

Page 60: データの代表値を把握する方法 - SAS...Data Science Institute 8 年度 売上高 対前年比率 2011 29,306 2012 31,298 1.068 2013 34,536 1.103 2014 33,971 0.984 2015

Data Science Institute

60

70-58.3

19.272-58.3

28.6>

研修前 研修後

成績 平均 成績-平均 標準偏差

研修前 70 58.3 11.7 19.2

研修後 72 58.3 13.7 28.6

A君の成績の評価

= 0.609 = 0.479

Z値成績と平均値の差

標準偏差

Page 61: データの代表値を把握する方法 - SAS...Data Science Institute 8 年度 売上高 対前年比率 2011 29,306 2012 31,298 1.068 2013 34,536 1.103 2014 33,971 0.984 2015

Data Science Institute

61

偏差値

Z値×10+50

研修前の偏差値=0.609×10+50=56.09

研修後の偏差値=0.479×10+50=54.79

Z値の比較によりデータの評価・比較が可能

Page 62: データの代表値を把握する方法 - SAS...Data Science Institute 8 年度 売上高 対前年比率 2011 29,306 2012 31,298 1.068 2013 34,536 1.103 2014 33,971 0.984 2015

Data Science Institute

62

Z値 0

偏差値 50

(-) (+)

Z値は、平均値=0平均値より大のときプラスの値、小のときマイナスの値

偏差値は、平均値=50平均値より大のとき50より大きな値、小のとき50より小さな値

Page 63: データの代表値を把握する方法 - SAS...Data Science Institute 8 年度 売上高 対前年比率 2011 29,306 2012 31,298 1.068 2013 34,536 1.103 2014 33,971 0.984 2015

Data Science Institute

63

Z値の特性

データ Z値 データ Z値

1 -1.4142 3 -1.1844

2 -0.7071 8 0.55739

3 0 6 -0.1393

4 0.70711 4 -0.8361

5 1.41421 11 1.60249

平均値 3 0 6.4 0分散 2 1 8.24 1

標準偏差 1.41421 1 2.87054 1

Z値の平均値=0 標準偏差=1

Page 64: データの代表値を把握する方法 - SAS...Data Science Institute 8 年度 売上高 対前年比率 2011 29,306 2012 31,298 1.068 2013 34,536 1.103 2014 33,971 0.984 2015

Data Science Institute

64

標準正規分布(standard normal distribution)

Z値 -3 -2 -1 0 1 2 3

偏差値 20 30 40 50 60 70 80

Z値=1(偏差値60) 以上の割合は約15.87%Z値=2(偏差値70) 以上の割合は全体の約2.28%

Page 65: データの代表値を把握する方法 - SAS...Data Science Institute 8 年度 売上高 対前年比率 2011 29,306 2012 31,298 1.068 2013 34,536 1.103 2014 33,971 0.984 2015

Data Science Institute

65

標準正規分布の活用

■日本の成年男子の身長が平均170cm 標準偏差6cm、182cm以上の人は、全体の何%を占めるか?

身長(cm) 158 170 182

182cm以上の人は約2.28% Z=182-170 (cm)

6 (cm)= 2

Z値 -2 0 2

Page 66: データの代表値を把握する方法 - SAS...Data Science Institute 8 年度 売上高 対前年比率 2011 29,306 2012 31,298 1.068 2013 34,536 1.103 2014 33,971 0.984 2015

Data Science Institute

66

■通信販売会社における顧客売上高の平均5,568円、標準偏差2,216円、10,000円以上購入した顧客は、全体の何%を占めるか?

10,000円以上:約2.28% Z=10,000-5,568 (円)

2,216 (円)= 2

Z値は単位とは無関係。

求める値-平均値

標準偏差Z値=

Page 67: データの代表値を把握する方法 - SAS...Data Science Institute 8 年度 売上高 対前年比率 2011 29,306 2012 31,298 1.068 2013 34,536 1.103 2014 33,971 0.984 2015

Data Science Institute

67

外れ値①

Z値 -3 -2 -1 0 1 2 3偏差値 20 30 40 50 60 70 80

Z値=-2~+2の割合は約95.5%(4.5%)Z値=-1.96~+1.96の割合は約95.0%(5.0%)Z値=-3~+3の割合は約99.7%(0.3%)

Page 68: データの代表値を把握する方法 - SAS...Data Science Institute 8 年度 売上高 対前年比率 2011 29,306 2012 31,298 1.068 2013 34,536 1.103 2014 33,971 0.984 2015

Data Science Institute

68

外れ値②

平均値を中央値としたときの標準偏差に相当する値

A群 中央値 絶対値2 - 5 = 34 - 5 = 15 - 5 = 08 - 5 = 39 - 5 = 4

①(値-中央値)の絶対値を求める。

② 中央絶対偏差(絶対値の中央値)を求める。

0,1,3,3,4 ⇒ 3

③ 3×1.4826 ⇒ 4.4478(標準偏差相当値)

補正係数(1.4826)によりデータが正規分布のときの標準偏差に一致。

中央絶対偏差×1.4826

Page 69: データの代表値を把握する方法 - SAS...Data Science Institute 8 年度 売上高 対前年比率 2011 29,306 2012 31,298 1.068 2013 34,536 1.103 2014 33,971 0.984 2015

Data Science Institute

69

外れ値③

◇売上高の平均120万円、標準偏差35万円中央値92万円、中央絶対偏差33万円

平均-1.96×標準偏差 ~ 平均+1.96×標準偏差51.4(120-1.96×35)~ 188.6(120+1.96×35)

95.0%の信頼区間

33×1.4826=48.9258 ⇒ 標準偏差

ロバスト(頑健)な場合

-3.895(92-1.96×48.9258)~ 187.89(92+1.96×48.9258)

Page 70: データの代表値を把握する方法 - SAS...Data Science Institute 8 年度 売上高 対前年比率 2011 29,306 2012 31,298 1.068 2013 34,536 1.103 2014 33,971 0.984 2015

Data Science Institute

70

まとめ

・算術平均・幾何平均(比率の平均)・分散、標準偏差、変動係数・中央値、四分位数・箱ひげ図、ヒストグラム・Z値(偏差値)・正規分布(信頼区間)・外れ値(Z値、中央絶対偏差)