Chaos Game Representation Web Service

20
Progress Seminar 09.10.09

Transcript of Chaos Game Representation Web Service

Page 1: Chaos Game Representation Web Service

Chaos Game Representationによるゲ ノ ム の フ ラ ク タ ル 解 析

荒川和晴

Progress Seminar 09.10.09

Page 2: Chaos Game Representation Web Service

Chaos Game Representationによるゲ ノ ム の フ ラ ク タ ル 解 析

荒川和晴

Progress Seminar 09.10.09

Page 3: Chaos Game Representation Web Service
Page 4: Chaos Game Representation Web Service
Page 5: Chaos Game Representation Web Service

ranking

accesses

Page 6: Chaos Game Representation Web Service

0

150

300

450

600

10 9 8 7 6 5 4 3 2 1

ranking

accesses

Page 7: Chaos Game Representation Web Service

フラクタル

• 図形の「部分」と「全体」が自己相似系になっているもの

• シェルピンスキーのギャスケット、コッホ曲線

• 海岸線、樹木の枝葉、血管や腸、巻貝など自然界にも数多に存在

• 厳密な定義:位相次元とハウスドルフ次元が一致しない図形

Page 8: Chaos Game Representation Web Service

ハウスドルフ次元

• 正方形の一辺を2倍にすると、面積が2乗になる(元の正方形が4つできる)N次元における図形P倍の相似形の個数Qは

• フラクタル図形の場合は

よって、次元とは

コッホ曲線では、図形Aの長さを3倍にすると、図形ABCD、つまり相似形4個になる。

このハウスドルフ次元を求めると

位相次元2と異なる。

フラクタル図形は有限の面積内に無限の長さを持つ。逆に、シェルピンスキーのギャスケットなどは面積を持たない。

Page 9: Chaos Game Representation Web Service

ハウスドルフ次元

• 正方形の一辺を2倍にすると、面積が2乗になる(元の正方形が4つできる)N次元における図形P倍の相似形の個数Qは

• フラクタル図形の場合は

よって、次元とは

コッホ曲線では、図形Aの長さを3倍にすると、図形ABCD、つまり相似形4個になる。

このハウスドルフ次元を求めると

位相次元2と異なる。

フラクタル図形は有限の面積内に無限の長さを持つ。逆に、シェルピンスキーのギャスケットなどは面積を持たない。

Page 10: Chaos Game Representation Web Service

フラクタルとカオスゲーム

• カオス:複雑系における、解が予測できない複雑な現象。ただし、ある決定論的法則に従うため、ランダムではない。

• 一見不規則だが背後に規則性を持つカオスを、反復関数系を用いてグラフにプロットすると、フラクタルな性質を持つカオスアトラクターを描くことができる。(ランダムではないため、何かしらのアトラクターを持つ)これを、カオスゲームと呼ぶ。

• シェルピンスキーのギャスケットやコッホ曲線も反復関数系を用いて描いている。

• カオスゲームは、ランダムかカオスかを判定するための可視化手法。

Page 11: Chaos Game Representation Web Service

Joel H. Jeffrey (1990) NAR

• Chaos game representation of gene structure

ゲノムはカオスであることを示した(ランダムではない)

Page 12: Chaos Game Representation Web Service

配列の長さに依存しない、配列の特徴(genomic signature)の比較が可能。

Page 13: Chaos Game Representation Web Service

Nick Goldman (1993) NAR

• CGRは、2塩基及び3塩基のマルコフ性で説明できる。

CG塩基が存在しない、というルールの反復関数系でJoeffreyのCGRをシミュレーションで再現。

Page 14: Chaos Game Representation Web Service

Jonas S. Almeida (2001) Bioinformatics

• CGRは一般化マルコフ遷移確率表である。(箱の区切り方で配列の長さ、非正数を含めたマルコフオーダーに対応できる)

Page 15: Chaos Game Representation Web Service

CGR利用上の問題点

• マルコフ性が逆である。

• 一般化マルコフ遷移確率表と言っても、どの座標がどの塩基に対応するかがわからない。

• EMBOSSやAlmeidaのソフトウェアでは、画像がビットマップであり、せっかくのフラクタルなのに拡大してもピクセルが見えるだけ。

Almeida et al. 2001

Page 16: Chaos Game Representation Web Service

Arakawa et al. (2009) Source Code Biol. Med.

• 配列の逆順CGRを描くことによって、オリゴ配列表と座標系を対応づける。正しい(一般的に使う)マルコフ性を表現。

Page 17: Chaos Game Representation Web Service

k-mer table and CGR

Page 18: Chaos Game Representation Web Service

0 1 2 3 4

5 6 7 8 9

32px

32px

Ben Fry Font

gaou pixel Font

gaou pixel Font

Creating a Font for effective

visualization

Cartography of chromosome 21 by Ben Fry

Page 19: Chaos Game Representation Web Service

• マルコフ性が逆である。

• 一般化マルコフ遷移確率表と言っても、どの座標がどの塩基に対応するかがわからない。

• EMBOSSやAlmeidaのソフトウェアでは、画像がビットマップであり、せっかくのフラクタルなのに拡大してもピクセルが見えるだけ。

オリゴ配列表と対応する一般座標系に。

配列の逆読みでN+iの座標に対応。

文字を記録しながら最小限のビットマップに。

Page 20: Chaos Game Representation Web Service

• マルコフ性が逆である。

• 一般化マルコフ遷移確率表と言っても、どの座標がどの塩基に対応するかがわからない。

• EMBOSSやAlmeidaのソフトウェアでは、画像がビットマップであり、せっかくのフラクタルなのに拡大してもピクセルが見えるだけ。

オリゴ配列表と対応する一般座標系に。

配列の逆読みでN+iの座標に対応。

文字を記録しながら最小限のビットマップに。Google Maps APIを用いたZoomableなマップを構築。

G-language RESTサービスをベースに。