二色擬似カラー表示を用いた POS データの可視化店舗f,g,h,k,l,m,n,o,p,q,r...

4
画像電子学会 年次大会予稿 The Institute of Image Electronics Proceedings of the Media Computing Conference Engineers of Japan 二色擬似カラー表示を用いた POS データの可視化 Visualization of Point-of-Sales Data using Two-Tone Pseudo-Coloring 石川 吉田 典正 Satoru ISHIKAWA Norimasa YOSHIDA †日本大学 †Nihon University ‡日本大学 ‡Nihon University E-mail: [email protected] 1. はじめに 現在 , 通信技術などの発達により経済に関する情報 や気象情報 , インターネットの履歴など多岐にわたる データが世界中に大量に存在している . これらの大量 に存在するデータはビッグデータと呼ばれている . ッグデータを解析することによって , 経済の動向の予 測や交通状況の判断 , 犯罪防止などに役立てられてい . 経営に関するビッグデータの一つに POS データが ある .POS データとは Point Of-Sales POS )システムに より集計された店舗の販売履歴データである . 効果的 POS データの解析は , 経営活動の意思決定を補助す るために重要な意味を持つ . 本研究では二色擬似カラー表示 [9] の手法を用いて 日本のスーパーマーケットの POS データの可視化シ ステムを実装し ,POS データの全体の傾向と詳細な値 を同時に読み取れることを確認する . 2. 関連研究 Playfair ,1786 年に折れ線グラフと棒グラフ ,1801 年に円グラフを発明した [8]. 現在 , 一次元のデ ータ(例えば時間的なデータ)を可視化するために , れ線グラフは広く使われている . 近年では , 斎藤らが , 新しい一次元のデータの可視化 手法を発表した . 提案された手法は二色擬似カラー表 [9] と呼ばれている . この手法は森と木を同時に見る ことができる , つまり大規模なデータの全体の傾向お よび各々の詳細な値を同時に可視化することができる . Few , チャートをバンドに分け階層化し , 入れ子に なった形状の horizon グラフを提案した [2]. また ,Heer らは 4 階層で表された horizon グラフが折れ線グラフ と比較すると 1/8 までグラフの縦幅を減らしても値を 確認できることを示した [3]. Federico らはコンパクトな可視化 [1] のために量的デ ータと質的な概念を結合した Qualizon グラフを導入し .Jave らは , 比較のために 4 種類のグラフの使用結果 を調査した [4]. この4種類のグラフは , それぞれ折れ線 グラフ ,braided グラフ , 縮小し並べたグラフ ,horizon ラフである . 結果は折れ線グラフおよび braided グラフ がより部分的であることを示し , 可視化する内容の短 い期間の比較に対して効率的であり , 縮小し並べたグ ラフおよび horizon グラフは全体的であることを示し , 可視化する内容がより長い期間の比較に対して効率的 である . Krstajic らは , ストリーミング・データについていろ いろな可視化技術を確認し , 将来の研究のために未解 決の課題を確認している [5]. 本研究では ,POS データの全体的な傾向と詳細な情 報を同時に可視化することを目的として , 二色擬似カ ラー表示を適用する . 3. 二色擬似カラー表示 二色擬似カラー表示 [9] とは , 上下の帯の色の組合せ とその長さ割合で数値を表す可視化手法である . 二色 擬似カラー表示は使用法を学習することにより , 折れ 線グラフなどの Excel などで利用できるグラフと比較 , 非常に多量のデータを効率的に表示できる . n 個のエリア Ai と各エリアの上限値 a i+1 と下限値 a i の値と n 1 個の色とその順序を設定し , スケールを 作る . 1 のスケールの A2 (a 2 a 3 の間 ) に所属する数値デ ータを t とするとき , 全体の長さをLとし , によって計算できる y を用いて上下の帯の長さを決 定する . y = × t - a 2 a 3 - a 2 a 1 A1 a2 A2 a3 A3 a4 A4 a5 L y 1 スケール ( ) と可視化例 ( )

Transcript of 二色擬似カラー表示を用いた POS データの可視化店舗f,g,h,k,l,m,n,o,p,q,r...

Page 1: 二色擬似カラー表示を用いた POS データの可視化店舗f,g,h,k,l,m,n,o,p,q,r が週末売上型であることがわ かる.店舗i,j は,日にちによってあまり大きな変化のな

画像電子学会 年次大会予稿

The Institute of Image Electronics Proceedings of the Media Computing Conference

Engineers of Japan

二色擬似カラー表示を用いた POS データの可視化 Visualization of Point-of-Sales Data

using Two-Tone Pseudo-Coloring

石川 了† 吉田 典正‡

Satoru ISHIKAWA† Norimasa YOSHIDA‡

†日本大学 †Nihon University ‡日本大学 ‡Nihon University

E-mail: ‡[email protected]

1. はじめに

現在 ,通信技術などの発達により経済に関する情報

や気象情報 ,インターネットの履歴など多岐にわたる

データが世界中に大量に存在している .これらの大量

に存在するデータはビッグデータと呼ばれている .ビ

ッグデータを解析することによって ,経済の動向の予

測や交通状況の判断 ,犯罪防止などに役立てられてい

る .経営に関するビッグデータの一つに POS データが

ある .POS データとは Point–Of-Sales(POS)システムに

より集計された店舗の販売履歴データである .効果的

な POS データの解析は ,経営活動の意思決定を補助す

るために重要な意味を持つ .

本研究では二色擬似カラー表示 [9]の手法を用いて

日本のスーパーマーケットの POS データの可視化シ

ステムを実装し ,POS データの全体の傾向と詳細な値

を同時に読み取れることを確認する .

2. 関連研究

Playfair は ,1786 年 に 折 れ 線 グ ラ フ と 棒 グ ラ フ

を ,1801 年に円グラフを発明した [8].現在 ,一次元のデ

ータ(例えば時間的なデータ)を可視化するために ,折

れ線グラフは広く使われている .

近年では ,斎藤らが ,新しい一次元のデータの可視化

手法を発表した .提案された手法は二色擬似カラー表

示 [9]と呼ばれている .この手法は森と木を同時に見る

ことができる ,つまり大規模なデータの全体の傾向お

よび各々の詳細な値を同時に可視化することができる .

Few は ,チャートをバンドに分け階層化し ,入れ子に

なった形状の horizon グラフを提案した [2].また ,Heer

らは 4 階層で表された horizon グラフが折れ線グラフ

と比較すると 1/8 までグラフの縦幅を減らしても値を

確認できることを示した [3].

Federico らはコンパクトな可視化 [1]のために量的デ

ータと質的な概念を結合した Qualizon グラフを導入し

た .Jave らは ,比較のために 4 種類のグラフの使用結果

を調査した [4].この4種類のグラフは ,それぞれ折れ線

グラフ ,braided グラフ ,縮小し並べたグラフ ,horizon グ

ラフである .結果は折れ線グラフおよび braided グラフ

がより部分的であることを示し ,可視化する内容の短

い期間の比較に対して効率的であり ,縮小し並べたグ

ラフおよび horizon グラフは全体的であることを示し ,

可視化する内容がより長い期間の比較に対して効率的

である .

Krstajic らは ,ストリーミング・データについていろ

いろな可視化技術を確認し ,将来の研究のために未解

決の課題を確認している [5].

本研究では ,POS データの全体的な傾向と詳細な情

報を同時に可視化することを目的として ,二色擬似カ

ラー表示を適用する .

3. 二色擬似カラー表示

二色擬似カラー表示 [9]とは ,上下の帯の色の組合せ

とその長さ割合で数値を表す可視化手法である .二色

擬似カラー表示は使用法を学習することにより ,折れ

線グラフなどの Excel などで利用できるグラフと比較

し ,非常に多量のデータを効率的に表示できる .

n 個のエリア A i と各エリアの上限値 a i+1 と下限値

a i の値と n+1 個の色とその順序を設定し ,スケールを

作る .

図 1 のスケールの A2(a2 と a3 の間 )に所属する数値デ

ータを t とするとき ,全体の長さをLとし ,

によって計算できる y を用いて上下の帯の長さを決

定する .

y = × 𝐿 t - a2

a3 - a2

a1 A1 a2 A2 a3 A3 a4 A4 a5

L y

図 1 スケール (上 )と可視化例 (下 )

Page 2: 二色擬似カラー表示を用いた POS データの可視化店舗f,g,h,k,l,m,n,o,p,q,r が週末売上型であることがわ かる.店舗i,j は,日にちによってあまり大きな変化のな

画像電子学会 年次大会予稿

The Institute of Image Electronics Proceedings of the Media Computing Conference

Engineers of Japan

4. 使用データ

本研究で使用するデータは流通経済研究所で購入

した 2012 年のある地方のスーパーマーケット 18 店舗

の菓子類(キャンディー・キャラメル ,チョコレート ,チ

ューインガム ,ビスケット・クッキー ,ファミリーアイ

スの 5 分類 ,12078 種)の売上と来客数のデータである .

売上データの内容は ,表 1 のように年月日 ,店舗コー

ド ,JAN コード ,購買点数 ,購買金額である .来客数デー

タの内容は ,表 2 のように年月日 ,店舗コード ,来客数で

ある .

表 1 購買データ

表 2 客数データ

年月日 店舗コード 客数

20120731 P45146 2912

20120707 P30730 1808

20120218 P36326 474

20121129 P72013 2626

20121001 P14726 2965

20121108 P40745 2537

20121031 P38325 2643

20120330 P23125 2170

20120425 P40330 1095

20121207 P19161 1316

20120210 P22754 3458

5. プログラム

本研究で作成したプログラムでは ,2012 年のある地

方のスーパーマーケット 18 店舗の菓子類の売上 ,来客

数 ,経過日数を横軸としたときの菓子類の売上の最小

二乗法の傾き ,来客数を横軸としたときの菓子類の売

上の最小二乗法の傾きの 4 種類を二色擬似カラー表示

で可視化する .

図 2 の UI を実装した .この UI では ,可視化内容と対

象とする 3 店舗 ,可視化結果を1年間連続か半年ごと

に表示するかを選択し ,図 3 の上部の表示結果をリア

ルタイムで変化させる .

また ,1 週間および 1 ヶ月を判別しやすくするため ,

日曜と月末に空白 ,奇数月の上部に黒線を加える .

6. 可視化結果

図 4 は ,4 店舗の売上金額に対し ,スケールを 0 円か

ら 5 万円 ,10 万円 ,20 万円 ,100 万円までと設定した .ス

ケールは ,設定によって変更することが可能である .図

4では ,日付を横軸として ,4 ヶ月ごとに区切って可視

化している .

店舗 a,b では ,月の始めや半ばに ,売上が高くなって

いる日があることがわかる .各店舗の購買データを調

べた結果 ,一定期間ごと ,または毎月の特定の日付に販

売している製品の単価を下げ ,値引きをしていること

が分かった.このような店舗を,セール型と呼ぶことに

する.

店舗 c,d では ,特に値引きなどをしておらず ,週末に

来客数が大きく増えていたため ,客単価が増えたので

はなく ,単純に菓子類の購買者数が増えたためにうり

上げが上がっている .このような店舗を週末売上型と

呼ぶことにする .

図 4 の 4 店舗とも 2 月中旬および 12 月下旬に売上

金額が高くなっていることが読み取れる .これはそれ

ぞれバレンタインデーとクリスマスの前後である .前

者はバレンタインデーの準備とその後の割引のために

チョコ類の売上金額が大きく伸びていることがわかっ

た.後者はクリスマスパーティなどの準備とその後の

割引や年末セールなどのために菓子類全体の売上金額

年月日 店舗コード JAN コード 購買

点数

購買

金額

20120830 P05930 4901940022823 1 93

20120604 P27929 4969244502885 1 105

20120606 P75985 4902750956117 1 168

20121005 P24006 49812930 1 65

20120530 P40745 4901351019689 2 296

20121026 P23129 49404609 3 297

20121014 P22358 4903333136971 2 300

図 2 UI の画面

図 3 プログラムの実行画面

Page 3: 二色擬似カラー表示を用いた POS データの可視化店舗f,g,h,k,l,m,n,o,p,q,r が週末売上型であることがわ かる.店舗i,j は,日にちによってあまり大きな変化のな

画像電子学会 年次大会予稿

The Institute of Image Electronics Proceedings of the Media Computing Conference

Engineers of Japan

が大きく伸びたと考えられる .上記のような売上金額

の増加は日本全国で同じようなことが行われていると

考えられるため ,今回可視化を行った特定の地方のみ

だけではなく ,日本全国に同様に現れる傾向だと予測

することができる.

図 5 は ,今回使用した地方の 18 店舗の売上金額を 1

度に可視化した結果である .店舗 a,b,c,d,e がセール型 ,

店舗 f,g,h,k,l,m,n,o,p,q,r が週末売上型であることがわ

かる .店舗 i,j は ,日にちによってあまり大きな変化のな

いこと分かる .

7. まとめ

本研究では ,作成したプログラムで流通経済研究所

より取得したある地方 18 店舗の菓子類の POS データ

に対して ,二色擬似カラー表示を用いて店舗ごとの可

視化をおこなった .今後はより詳細にメーカーごとや

製品ごとの可視化や ,より分かりやすく詳細な可視化

やより良い配置や UI の探求を行う .また現在 ,可視化を

行ったのは特定の一地方のみだが ,他の地方に関して

の POS データを用いて可視化出来る店舗の数を 100 店

舗以上に増やしていく .

文 献 [1] Paolo Federico, Stephan Hoffmann, Alexander Rind,

Wolfgang Aigner, Silvia Miksch, Qualizon Graphs: Space-Efficient Time-Series Visualization with

Qualitative Abstractions, In Proceedings of the Working Conference on Advanced Visual Interfaces - AVI 2014.

[2] Stephen, Few. Time on the Horizon. Visual Business Intelligence Newsletter, Jun/Jul 2008. http://www.perceptualedge.com/articles/visual_business_intelligence/time_on_the_horizon .pdf

[3] Jeffrey Heer, Nicholas Kong, and Maneesh Agrawala, Sizing the Horizon: The Effects of Chart Size and Layering on the Graphical Perception of Time Series Visualizations, ACM Human Factors in Computing Systems (CHI), pp1303-1312, 2009.

[4] Waqas Javed, Bryan McDonnel, Niklas Elmqvist, Graphical Perception of Multiple Time Series , Visualization and Computer Graphics , pp927-934, 2010.

[5] Milos Krstajic, Daniel A. Keim Visualization of Streaming Data: Observing Change and Context in Information Visualization Techniques, 2013 IEEE International Conference on Big Data, pp41-47, 2013.

[6] GLUI User Interface Library, http://glui.sourceforge.net.

[7] OpenGL Graphics Library, https://www.opengl.org.

[8] William Playfair, http://en.wikipedia.org/wiki/William_Playfair.

[9] Takafumi Saito, Hiroko Nakamura Miyamura, Mitsuyoshi Yamamoto, Hiroki Saito, Yuka Hoshiya, Takumi Kaseda, Two-Tone Pseudo Coloring : Compact Visualization for One-Dimensional Data, IEEE Symposium on Information Visualization, pp.173–180, 2005.

0 5 10 20 100(万円 )

1 月 2 月 3 月 4 月

5 月 6 月 7 月 8 月

9 月 10 月 11 月 12 月

図 4 4 店舗の売上金額の可視化結果

a

b

c

d

a

b

c

d

a

b

c

d

Page 4: 二色擬似カラー表示を用いた POS データの可視化店舗f,g,h,k,l,m,n,o,p,q,r が週末売上型であることがわ かる.店舗i,j は,日にちによってあまり大きな変化のな

画像電子学会 年次大会予稿

The Institute of Image Electronics Proceedings of the Media Computing Conference

Engineers of Japan

0

5

10

2

0

10

0(万

円)

図5

1

8店舗の売上金額可視化結果

a

b

c

d

e

f g

h

i j k

l m

n

o

p

q

r