データの代表値を把握する方法 - SAS...Data Science Institute 8 年度売上高...

Data Science Institute

データの代表値を把握する方法

2019年8月６日データサイエンス研究所

伊藤嘉朗


2

本日の内容

・平均（算術平均・幾何平均）・バラツキ（分散・標準偏差）・中央値・四分位数・箱ひげ図、ヒストグラム・Ｚ値、偏差値・正規分布・外れ値


3

平均

（1）1,2,3,4,5 の平均は？

算術平均（相加平均）（1+2+3+4+5）÷5＝3

（2）ある区間を時速40kmで行き、時速60kmで帰ったとき、往復の平均時速は？

仮にある区間の距離を120kmとすると、往復の距離＝240km行きの時間＝120km÷時速40km＝3時間帰りの時間＝120km÷時速60km＝2時間

往復の平均時速＝240÷5＝48

往復の平均時速＝往復の距離/往復の時間


4

◇ある会社の年度別売上高。平均伸び率は？

2015～2016 20% ↑ （1.2倍）2016～2017 30% ↑ （1.3倍）

（20%+30%）/2＝25% ?

（億円）

年度売上高

2015 100

2016 120

2017 156

100×1.25×1.25＝156.25

比率の平均に通常の平均（算術平均）は使用できない

比率の平均


5

幾何平均

1.2と1.3の幾何平均は、

√1.2×1.3 ＝ 1.2489...

2つの幾何平均 √（a×b）

4つの幾何平均4√（a×b×c×d）

100×1.2489...×1.2489... ＝ 156


6

◇ある商品を価格300円で発売し、その後3回値上げをした。値上げ率の平均は?

価格発売価格 3001回目 3502回目 3803回目 420

3√ 1.167×1.086×1.105

値上げ率1回目 1.167 2回目 1.086 3回目 1.105

＝ 1.1187

300

350

350

380

380

420×× ＝

3

√300

420＝

3

√1.4 ＝ 1.11873√


7

GEOMEAN（幾何平均） n乗根：＾（1/ｎ）


8

年度売上高対前年比率

2011 29,306

2012 31,298 1.068 2013 34,536 1.103

2014 33,971 0.984 2015 35,829 1.055

2016 36,747 1.026 2017 36,886 1.004

2018 38,925 1.055

◇ある事業部の売上高推移。伸び率の平均は?

算術平均＝1.252幾何平均＝1.178

◇2011年度の売上高を変更


9

広辞苑～平均～多くの量または数の中間的な値。また、それを求める演算。中間の意味のとり方によって、相加平均（算術平均）、相乗平均（幾何平均）その他がある。ふつう、相加平均（算術平均）をさす。

幾何平均は比率の合理的な平均値であり、比率、指数等の平均においては、算術平均より優れる。


10

・天井効果

測定値に上限があり、

分布がゆがむこと。

・床効果

測定値に下限があり、

分布がゆがむこと。

中央値はあまり影響を受けない。

本来の分布

実際の分布ここにくるはずのデータがこちらに移る

上限

平均値がずれる

床効果・天井効果


11

中央値（MEDIAN）

230 287 252 313 825 331 292 851 229

平均値＝401.1

平均値は極端な値の影響を受け易い

1 2 3 4 5 6 7 8 9

229 230 252 287 292 313 331 825 851

大きさの順番に並び替えて、中央に位置する値を代表値


12

・偶数の場合

真ん中の2つの値の平均a7710312511989157146173130164

a1 772 893 1034 1195 1256 1307 1468 1579 16410 173

(125+130)÷2 = 127.5


13

四分位数

Q1：第1四分位数（25％点）Q2：第2四分位数（50％点・中央値）Q3：第3四分位数（75％点）

・データを小さい順に並べる。

範囲＝最大値－最小値

・4分の1ずつの場所にある値

四分位範囲（IQR）： Q3－Q1


14

230 287 252 313 825 331 292 851 229

平均： 401.1Q1 四分位点（25％）： 252Q2 中央値： 292Q3 四分位点（75％）： 331

四分位範囲 Q3－Q1＝331－252＝79

1 2 3 4 5 6 7 8 9

229 230 252 287 292 313 331 825 851


15

（1）データを入力する。

中央値、四分位数を求める。（SAS EG)


16

（2）「記述統計」－「要約統計量」をクリックし、変数リストから分析変数を指定する。


17

（3）「統計量」－「パーセント点」をクリックし、出力項目を設定する。


18

（4）出力結果が表示される。

平均 401.1Q1 四分位点（25％） 252Q2 中央値 292Q3 四分位点（75％） 331


19

外れ値

Q1－1.5×IQR以下 Q3＋1.5×IQR以上

◇四分位範囲（IQR）を基準

Q1 四分位点（25％）： 252Q2 中央値： 292Q3 四分位点（75％）： 331IQR Q3－Q1＝331－252＝79

外れ値： 133.5以下 449.5以上

注）252－1.5×79＝133.5 331+1.5×79＝449.5


20

箱ひげ図

最小値

最大値

第1

四分位数（25

％）

第2

四分位数

第3

四分位数（75

％）

（中央値）

（外れ値がない場合）


21

「グラフ」をクリックし、「箱ひげ図」をチェックする。

箱ひげ図の作成（SAS EG）


22


23

箱ひげ図の比較


24


25

2つを同時に表示するために分類変数を設定する。


26

変数リストから「分類変数」、及び「分析変数」を指定する。


27


28

度数分布表とヒストグラム

下限

上限

階級値度数

30 ～ 39 35 140 ～ 49 45 750 ～ 59 55 1160 ～ 69 65 2170 ～ 79 75 2480 ～ 89 85 2090 ～ 99 95 16

データ

0

5

10

15

20

25

30

35 45 55 65 75 85 95

人数

得点


29

88 88 60 86 86

48 86 60 46 40

64 84 70 34 62

78 36 77 72 76

65 68 90 90 56

72 54 54 52 66

68 68 60 74 72

78 56 62 96 90

36 86 48 48 90

48 68 84 66 46

成績データA


30

（3）「グラフ」をクリックし、「ヒストグラム」にチェックする。

ヒストグラムの作成（SAS EG）




31


32

88 88 60 86 86

48 86 60 46 40

64 84 70 34 62

78 36 77 72 76

65 68 90 90 56

72 54 54 52 66

68 68 60 74 72

78 56 62 96 90

36 86 48 48 90

48 68 84 66 46

成績データB 赤数字を35点に変更


33


34

88 88 60 86 86

48 86 60 46 40

64 84 70 34 62

78 36 77 72 76

65 68 90 90 56

72 54 54 52 66

68 68 60 74 72

78 56 62 96 90

36 86 48 48 90

48 68 84 66 46

成績データC 赤数字を90点に変更


35


36


37


38

A君の成績の評価

A君の得点全体の平均点得点-平均点研修前 70 58.3 +11.7研修後 72 58.3 +13.7

平均を評価基準とする合理性？

英語の研修前後の成績（20人）

A君の成績の評価は？


39

平均の信頼度

（例）暑い日に暑い場所で待ち合わせをした。いつも遅れてくる人が何分後に来るのか予測。

① 21 46 8 28 19 34 13 33 19 31② 25 26 23 24 26 27 26 25 24 26

＜過去10回の遅刻データ（分）＞

①、②それぞれにおける待ち時間の行動は？

①のデータは「バラツキ」が大きい。

「バラツキ」の大きいデータの平均は信頼できない。

25.2分25.2分

平均


40

＜研修前＞

70、56、89、27、69、57、69

50、33、67、37、49、98、69

68、25、65、67、33、68

＜研修後＞

72、31、95、36、89、88、89

76、28、47、23、28、96、48

51、20、33、91、27、98

全員の成績


41

＜研修前＞

70、56、89、27、69、57、69

50、33、67、37、49、98、69

68、25、65、67、33、68

＜研修後＞

72、31、95、36、89、88、89

76、28、47、23、28、96、48

51、20、33、91、27、98

全員の成績

研修後はバラツキ（標準偏差）が大きくなった。


42

平均値が同じデータ群

A:｛1,2,3,4,5｝

1 2 3 4 5

B:｛2,3,3,3,4｝

2 3 3 3 4

C:｛1,1,1,1,11｝

1 1 1 1 11

D:｛3,3,3,3,3｝

3 3 3 3 3

A群～D群の平均値はすべて同じ値3

平均値は同じであるので同類集団？

データのバラツキを表す代表値が必要！

各群のバラツキが異なる。 D<B<A<C


43

バラツキの計算方法の検討

A群のバラツキの部分を抽出する。

A群平均値値－平均値1 － 3 ＝ -22 － 3 ＝ -13 － 3 ＝ 04 － 3 ＝ 15 － 3 ＝ 2

計＝ 0

合計すると0！

バラツキの部分を2乗し、合計！


44

A群のバラツキの部分を2乗して合計

値－平均値-2-1012

A群のバラツキ=10

同様に、B、C、D群について計算する。

計 0 10

（値－平均値）2

41014


45

D<B<A<C 0<2<10<80

「偏差平方和」

B群平均差（差）2

2 – 3 = -1 13 – 3 = 0 03 – 3 = 0 03 – 3 = 0 04 – 3 = 1 1

C群平均差（差）2

1 – 3 = -2 41 – 3 = -2 41 – 3 = -2 41 – 3 = -2 4

11 – 3 = 8 64

D群平均差（差）2

3 – 3 = 0 03 – 3 = 0 03 – 3 = 0 03 – 3 = 0 03 – 3 = 0 0

計 0 2 計 0 80 計 0 0


46

計＝ 20

E群:｛1,1,2,2,3,3,4,4,5,5｝の偏差平方和

E群平均値差（差）2

1 - 3 = -2 41 - 3 ＝ -2 4

2 - 3 ＝ -1 1

2 - 3 ＝ -1 13 - 3 ＝ 0 03 - 3 ＝ 0 0 4 - 3 ＝ 1 14 - 3 ＝ 1 15 - 3 ＝ 2 45 - 3 ＝ 2 4

E群の偏差平方和=20


47

E群:｛1,1,2,2,3,3,4,4,5,5｝の偏差平方和＝20

A群:｛1,2,3,4,5｝の偏差平方和＝10

A群とE群の構造は同じであるが、偏差平方和の値はE群の方が大きい。

偏差平方和をデータ数で割ると同じ代表値となる。E群：20÷10＝2 A群：10÷5＝2

バラツキの代表値①

「分散」


48

F群:｛10,20,30,40,50｝ A群:｛1,2,3,4,5｝の10倍

A群の分散：2万円2

分散の比較は困難

分散の平方根は、同じ値となる。A群： ≒ 1.414万円

F群： ≒ 14.14千円

バラツキの代表値②

「標準偏差」

F群の単位：千円 A群の単位：万円の場合、全く同じデータ

偏差平方和を計算すると

F群平均差（差）2

10 – 30 = -20 40020 – 30 = -10 10030 – 30 = 0 040 – 30 = 10 10050 – 30 = 20 400

計 0 1000

F群の分散： 200千円2

F群の偏差平方和：1000

√200

√ 2


49


平均、分散、標準偏差を求める。（SAS EG)


50



51

（3）「統計量」－「基本」をクリックし、出力項目を設定する。

「平均」、「標準偏差」、「分散」、「オブザベーションの数」をチェックし、「標準偏差と分散の除数」において「オブザベーションの数」を選択する。


52



53

平均標準偏差

A群（万円） 3 1.414

F群（千円） 30 14.14

データ群を比較するときは、単位の影響を除くために平均と標準偏差を組み合わせる

1.4143

14.14 30

0.471（約47.1%）＝

標準偏差平均

変動係数（CV）

≒

A群（1,2,3,4,5）とF群（10,20,30,40,50）の比較


54

（4）「統計量」－「その他」をクリックし、「変動係数」にチェックする。

変動係数を求める。（SAS EG）


（3）「統計量」－「基本」をクリックし、出力項目を設定する。



55


A群の変動係数＝F群の変動係数


56

◇平均を基準とした場合研修前（+11.7）＜研修後（+13.7）

成績の評価

順位研修前（3番）＞研修後（9番）

・バラツキ（標準偏差）研修前＜研修後

「標準偏差」の大きいデータの平均は信頼できない。


57

VARP（分散）

STDEVP（標準偏差）


58

平均,分散、標準偏差を求める。（SAS EG）


59


60

70-58.3

19.272-58.3

28.6＞

研修前研修後

成績平均成績－平均標準偏差

研修前 70 58.3 11.7 19.2

研修後 72 58.3 13.7 28.6

A君の成績の評価

＝ 0.609 ＝ 0.479

Z値成績と平均値の差

標準偏差


61

偏差値

Ｚ値×10＋50

研修前の偏差値＝0.609×10＋50＝56.09

研修後の偏差値＝0.479×10＋50＝54.79

Ｚ値の比較によりデータの評価・比較が可能


62

Ｚ値 0

偏差値 50

（－）（+）

Ｚ値は、平均値＝0平均値より大のときプラスの値、小のときマイナスの値

偏差値は、平均値＝50平均値より大のとき50より大きな値、小のとき50より小さな値


63

Ｚ値の特性

データＺ値データＺ値

1 -1.4142 3 -1.1844

2 -0.7071 8 0.55739

3 0 6 -0.1393

4 0.70711 4 -0.8361

5 1.41421 11 1.60249

平均値 3 0 6.4 0分散 2 1 8.24 1

標準偏差 1.41421 1 2.87054 1

Ｚ値の平均値＝0 標準偏差＝1


64

標準正規分布（standard normal distribution）

Z値 -3 -2 -1 0 1 2 3

偏差値 20 30 40 50 60 70 80

Ｚ値＝1（偏差値60）以上の割合は約15.87％Ｚ値＝2（偏差値70）以上の割合は全体の約2.28％


65

標準正規分布の活用

■日本の成年男子の身長が平均170cm 標準偏差6cm、182cm以上の人は、全体の何％を占めるか？

身長(cm) 158 170 182

182cm以上の人は約2.28% Z＝182-170 (cm)

6 (cm)＝ 2

Ｚ値 -2 0 2


66

■通信販売会社における顧客売上高の平均5,568円、標準偏差2,216円、10,000円以上購入した顧客は、全体の何％を占めるか？

10,000円以上：約2.28% Z＝10,000-5,568 (円)

2,216 (円)＝ 2

Ｚ値は単位とは無関係。

求める値－平均値

標準偏差Ｚ値＝


67

外れ値①

Z値 -3 -2 -1 0 1 2 3偏差値 20 30 40 50 60 70 80

Ｚ値＝－2～+2の割合は約95.5％（4.5％）Ｚ値＝－1.96～+1.96の割合は約95.0％（5.0％）Ｚ値＝－3～+3の割合は約99.7％（0.3％）


68

外れ値②

平均値を中央値としたときの標準偏差に相当する値

A群中央値絶対値2 － 5 ＝ 34 － 5 ＝ 15 － 5 ＝ 08 － 5 ＝ 39 － 5 ＝ 4

①（値－中央値）の絶対値を求める。

② 中央絶対偏差（絶対値の中央値）を求める。

0,1,3,3,4 ⇒ 3

③ 3×1.4826 ⇒ 4.4478（標準偏差相当値）

補正係数（1.4826）によりデータが正規分布のときの標準偏差に一致。

中央絶対偏差×1.4826


69

外れ値③

◇売上高の平均120万円、標準偏差35万円中央値92万円、中央絶対偏差33万円

平均－1.96×標準偏差～平均+1.96×標準偏差51.4（120－1.96×35）～ 188.6（120+1.96×35）

95.0%の信頼区間

33×1.4826＝48.9258 ⇒ 標準偏差

ロバスト（頑健）な場合

－3.895（92－1.96×48.9258）～ 187.89（92+1.96×48.9258)


70

まとめ

・算術平均・幾何平均（比率の平均）・分散、標準偏差、変動係数・中央値、四分位数・箱ひげ図、ヒストグラム・Z値（偏差値）・正規分布（信頼区間）・外れ値（Z値、中央絶対偏差）

データの代表値を把握する方法 - SAS...Data Science Institute 8 年度売上高...

Documents

Transcript of データの代表値を把握する方法 - SAS...Data Science Institute 8 年度売上高...

データの代表値を把握する方法 - SAS...Data Science Institute 8 年度 売上高...

Documents

Transcript of データの代表値を把握する方法 - SAS...Data Science Institute 8 年度 売上高...

データの代表値を把握する方法 - SAS...Data Science Institute 8 年度売上高...

Transcript of データの代表値を把握する方法 - SAS...Data Science Institute 8 年度売上高...