CyanoBase: 大規模更新とユーザコミュニティ連携

1
コミュニティベースのアノテーションリソース CyanoBase: 大規模更新とユーザコミュニティ連携 CyanoBase http://genome.microbedb.jp/cyanobase )は、1996 シアノバクテリアゲノム配列が決定されると共に、アノテーション情報 を提示するためのデータベースとして開発され、このゲノム情報をより 効率的に使用できるようにウェブサービスとして提供された。以降、 いくつかのアップデートを経てCyanoBase は常に拡張され、20周年を 迎えた昨年、セマンティック・ウェブ技術を用いたCyanoBase 更新系 を整備すると共に、データベースの新しい大規模な更新について報告し た。本発表では、継続的な更新整備およびコミュニティベースのアノテー ションリソースの拡張・再利用に関するCyanoBase の最新動向につい て報告すると共に、ユーザコミュニティとの連携を図りながら、生物分 類に関するメタデータについての拡張および藻類および植物ホロゲノム の研究への発展について議論したい。 藤澤貴智、中村保一(国立遺伝学研究所) Licensed under a Creative Commons表示4.0国際ライセンス (c)2017 MicrobeDB.jpプロジェクト URL: http://genome.microbedb.jp/cyanobase 要旨 歴史 今後の展開 1996年、Synechocystis sp. PCC 6803全ゲノム配列が決定 1996年、ゲノム情報呈示のためのデータベースとして開発 2001年、Anabaena sp. PCC7120追加 2002年、Thermosynechococcus elongatus BP-1追加 以降、シアノバクテリアゲノム決定後、順次追加 2009年、新規データベースシステムによる運用開始、39生物種 2011年、かずさDNA研究所から国立遺伝学研究所への移管 2016年、376生物種に拡張 20173月、クラウドサーバに環境移行 CyanoBase ゲノム 文献 塩基配列 遺伝子 遺伝子破壊株 データベースリンク 解析 BLAST InterPrro INSDC RefSeq TogoAnnotation CyanoMutant Community Annotation CyanoBaseが扱う情報リソース シアノバクテリア研究者によって提供された遺伝子破壊株情報やキュレーターによって集 積されたラン藻遺伝子に関する文献リファレンス情報が集積し、主にCyanoBase遺伝子 ページから提示することで拡張されてきた。 Database Description Aspects/Contents URL Number of cyanobaciterial genome resources CyanoBase Database of manually curated annotations for cyanobacteria Genome annotation http://genome.microbedb.jp/cyanobase 374 CyanoLyase A database of phycobilin lyase sequences, motifs and functions. Phycobilin lyase http://cyanolyase.genouest.org 129 ProPortal Prochlorococcus Portal Genomes, Population Dynamics, Microarrays, Physiology, Metagenomes http://proportal.mit.edu 123 CKB Cyanobacterial KnowledgeBase Genome http://nfmc.res.in/ckb/index.html 74 CyanoBIKE A Web-based, programmable, integrated biological knowledge base Genomic, metabolic, and experimental data http://biobike.csbc.vcu.edu 42 CyanoClust Database of homologous proteins in cyanobacteria and plastids Homologous protein http://cyanoclust.c.u-tokyo.ac.jp 41 CyanoPhyChe Database for Physico-chemical properties of cyanobacterial proteins Protein http://bif.uohyd.ac.in/cpc/ 38 CYORF Cyanobacteria gene annotation database Gene annotation http://cyano.genome.jp 33 cTFbase Database for comparative genomics of transcription factors in cyanobacteria Transcription factor http://www.bioinformatics.zj.cn/cTFbase/ index.php 26 Cyanorak A database of marine picocyanobacteria genomes Marine picocyanobacteria genome http://application.sb-roscoff.fr/cyanorak/ 14 ALCOdbCyan Cyanobacterial gene coexpression database Gene coexpression http://alcodb.jp/cyano/ 2 CyanoEXpress A web database for interactive exploration and visualisation of transcriptional response patterns in Synechocystis. Gene expression http://cyanoexpress.sysbiolab.eu 1 Fluorome The Cyanobacterial Chlorophyll Fluorescence Database Induction kinetics of chlorophyll fluorescence from cyanobacterial mutant http://www.photosynthesis.jp/fluorome/ 1 CyanoNews A newsletter intended to provide cyanobacteriologists Newsletter http://cyanonews.vcu.edu Cyanosite Cyanosite has been selected for inclusion in online curated information portals Media http://www-cyanosite.bio.purdue.edu CyanoDB The on-line database of cyanobacterial genera Genera http://www.cyanodb.cz CyanoBaseシアノバクテリア関連データベースとの比較 豊橋技術科学大 環境研 genome.fasta x33 metadata.xlsx 配列および配列メタデータ 菌株メタデータ dataset: CyanoBase API POST API GET genome.fasta x33 annotation.tsv (ddbj submission) x33 D-way scp NIESコレクションのシアノバクテリアのゲノム情報整備 Organism Strain BioProject BioSample Assembly level Number of sequence Sequence Anabaena cylindrica PCC 7122 NIES-19 PRJDB5665 SAMD00079794 chromosome 6 AP018166-AP018171 Anabaenopsis circularis NIES-21 NIES-21 PRJDB5665 SAMD00079795 chromosome 4 AP018174-AP018177 Calothrix brevissima NIES-22 NIES-22 PRJDB5665 SAMD00079796 chromosome 9 AP018207-AP018215 Anabaena variabilis NIES-23 NIES-23 PRJDB5665 SAMD00079797 chromosome 6 AP018216-AP018221 Nostoc linckia NIES-25 NIES-25 PRJDB5665 SAMD00079798 chromosome 5 AP018222-AP018226 Tolypothrix tenuis PCC 7101 NIES-37 PRJDB5665 SAMD00081165 chromosome 6 AP018248-AP018253 Aulosira laxa NIES-50 NIES-50 PRJDB5665 SAMD00079799 chromosome 7 AP018307-AP018313 Sphaerospermopsis kisseleviana NIES-73 NIES-73 PRJDB5665 SAMD00079800 chromosome 2 AP018314-AP018315 Calothrix parasitica NIES-267 NIES-267 PRJDB5665 SAMD00079801 chromosome 6 AP018227-AP018232 Dolichospermum compactum NIES-806 NIES-806 PRJDB5665 SAMD00079802 chromosome 1 AP018316 Raphidiopsis curvata NIES-932 NIES-932 PRJDB5665 SAMD00079803 chromosome 1 AP018317 Calothrix sp. NIES-2098 NIES-2098 PRJDB5665 SAMD00079805 chromosome 2 AP018172-AP018173 Calothrix sp. NIES-2100 NIES-2100 PRJDB5665 SAMD00079806 chromosome 2 AP018178-AP018179 Nostoc carneum NIES-2107 NIES-2107 PRJDB5665 SAMD00079804 chromosome 4 AP018180-AP018183 Nostoc sp. NIES-2111 NIES-2111 PRJDB5665 SAMD00079809 chromosome 10 AP018184-AP018193 Scytonema sp. HK-05 NIES-2130 PRJDB5665 SAMD00079811 chromosome 8 AP018194-AP018201 Thermosynechococcus vulcunus NIES-2134 NIES-2134 PRJDB5665 SAMD00081177 chromosome 1 AP018202 Leptolyngbya boryana NIES-2135 NIES-2135 PRJDB5665 SAMD00079812 chromosome 4 AP018203-AP018206 Fremyella diplosiphon NIES-3275 NIES-3275 PRJDB5665 SAMD00079813 chromosome 15 AP018233-AP018247 Nodularia sp. NIES-3585 NIES-3585 PRJDB5665 SAMD00079814 scaffold 4 BDUB01000001-BDUB01000004 Calothrix sp. NIES-3974 NIES-3974 PRJDB5665 SAMD00081174 chromosome 1 AP018254 Calothrix sp. NIES-4071 NIES-4071 PRJDB5665 SAMD00081178 chromosome 9 AP018255-AP018263 Scytonema sp. NIES-4073 NIES-4073 PRJDB5665 SAMD00081176 chromosome 5 AP018264-AP018268 Cylindrospermum sp. NIES-4074 NIES-4074 PRJDB5665 SAMD00081168 chromosome 5 AP018269-AP018273 Tolypothrix sp. NIES-4075 NIES-4075 PRJDB5665 SAMD00081171 scaffold 66 BDUC01000001-BDUC01000066 Calothrix sp. NIES-4101 NIES-4101 PRJDB5665 SAMD00081173 chromosome 7 AP018274-AP018280 Chondrocystis sp. NIES-4102 NIES-4102 PRJDB5665 SAMD00081172 chromosome 7 AP018281-AP018287 Nostoc sp. NIES-4103 NIES-4103 PRJDB5665 SAMD00081169 chromosome 2 AP018288-AP018289 Calothrix sp. NIES-4105 NIES-4105 PRJDB5665 SAMD00081175 chromosome 8 AP018290-AP018297 Fischerella sp. NIES-4106 NIES-4106 PRJDB5665 SAMD00081167 chromosome 9 AP018298-AP018306 NBRPゲノム情報等整備プログラム NIESコレクションのシアノバクテリアのゲノム情報整備(豊橋技術科学大学 広瀬 侑) Synechocystis sp. PCC 6803再アノテーション 登録データ修正 CyanoBase再アノテーションプロジェクト(静岡大 粟井光一郎、他) 国立環境研究所(NIES)に集積されたシアノバクテリアの中から、ゲノム情報整備が世界 的に遅れているヘテロシスト形成能を有するグループにおいて完全ゲノム解析を実施した。 CyanoBaseアノテーションを再利用可能とした自動アノテーションパイプラインDFASTよび再アノテーション支援ツールTogoAnnotator を用いて、ゲノム情報に高精度なアノ テーション情報を付与を実施し、シアノバクテリア30株のデータ公開した。 11 名のシアノバクテリア研究者が研究対象およびそれに関連した遺伝子を対象に、 gene product, gene symbol, reference, noteのアノテーションを実施し、アノテーションの根拠と したevidence codeを選択した。その結果、Synechocystis sp. PCC 68031096 / 3725遺伝子 (約30%)が再アノテーションされ、機能不明の遺伝子の割合は全遺伝子数の半分以下に減 少した(51.4%46.3%)。しかしながら、putative/probableなどの推論によるアノテーショ ンされていた遺伝子は新規に46遺伝子が新たに注釈されたが、これらを機能未知遺伝子カテ ゴリーに含めると55.1%が機能未知となる。アノテーションされた1398文献のうち、新規に 695文献が付与された。 窒素固定能、高熱性などの専門家知識レベルでの表現型メタデータで絞り込み検索の要望への対 専門家の知識をOWL/RDFに変換しデータベースへ反映する仕組みの必要性 藻類および植物ホロゲノム解析支援→これまで整備してきたリファレンスゲノムおよびアノテーショ ンリソース基盤を拡張、発展させデータベース間の連携をRDFSPARQLで実現

Transcript of CyanoBase: 大規模更新とユーザコミュニティ連携

Page 1: CyanoBase: 大規模更新とユーザコミュニティ連携

コミュニティベースのアノテーションリソース

CyanoBase: 大規模更新とユーザコミュニティ連携

CyanoBase(http://genome.microbedb.jp/cyanobase)は、1996年シアノバクテリアゲノム配列が決定されると共に、アノテーション情報を提示するためのデータベースとして開発され、このゲノム情報をより効率的に使用できるようにウェブサービスとして提供された。以降、いくつかのアップデートを経てCyanoBase は常に拡張され、20周年を迎えた昨年、セマンティック・ウェブ技術を用いたCyanoBase 更新系を整備すると共に、データベースの新しい大規模な更新について報告した。本発表では、継続的な更新整備およびコミュニティベースのアノテーションリソースの拡張・再利用に関するCyanoBaseの最新動向について報告すると共に、ユーザコミュニティとの連携を図りながら、生物分類に関するメタデータについての拡張および藻類および植物ホロゲノムの研究への発展について議論したい。

○藤澤貴智、中村保一(国立遺伝学研究所)

Licensed under a Creative Commons表示4.0国際ライセンス (c)2017 MicrobeDB.jpプロジェクト

URL: http://genome.microbedb.jp/cyanobase

要旨 歴史

今後の展開

1996年、Synechocystis sp. PCC 6803全ゲノム配列が決定

1996年、ゲノム情報呈示のためのデータベースとして開発

2001年、Anabaena sp. PCC7120追加

2002年、Thermosynechococcus elongatus BP-1追加

以降、シアノバクテリアゲノム決定後、順次追加

2009年、新規データベースシステムによる運用開始、39生物種

2011年、かずさDNA研究所から国立遺伝学研究所への移管

2016年、376生物種に拡張

2017年3月、クラウドサーバに環境移行

CyanoBase

ゲノム 文献

塩基配列

遺伝子

遺伝子破壊株

データベースリンク解析

BLAST InterPrro

INSDC

RefSeq

TogoAnnotation

CyanoMutant

CommunityAnnotation

CyanoBaseが扱う情報リソースシアノバクテリア研究者によって提供された遺伝子破壊株情報やキュレーターによって集積されたラン藻遺伝子に関する文献リファレンス情報が集積し、主にCyanoBase遺伝子ページから提示することで拡張されてきた。

Database Description Aspects/Contents URLNumber of

cyanobaciterial genome

resources

CyanoBase Database of manually curated annotations for cyanobacteria

Genome annotation http://genome.microbedb.jp/cyanobase 374

CyanoLyase A database of phycobilin lyase sequences, motifs and functions.

Phycobilin lyase http://cyanolyase.genouest.org 129

ProPortal Prochlorococcus PortalGenomes, Population Dynamics, Microarrays, Physiology, Metagenomes

http://proportal.mit.edu 123

CKB Cyanobacterial KnowledgeBase Genome http://nfmc.res.in/ckb/index.html 74CyanoBIKE A Web-based, programmable, integrated

biological knowledge baseGenomic, metabolic, and experimental data http://biobike.csbc.vcu.edu 42

CyanoClust Database of homologous proteins in cyanobacteria and plastids

Homologous protein http://cyanoclust.c.u-tokyo.ac.jp 41

CyanoPhyChe Database for Physico-chemical properties of cyanobacterial proteins

Protein http://bif.uohyd.ac.in/cpc/ 38

CYORF Cyanobacteria gene annotation database Gene annotation http://cyano.genome.jp 33

cTFbase Database for comparative genomics of transcription factors in cyanobacteria

Transcription factor http://www.bioinformatics.zj.cn/cTFbase/index.php

26

Cyanorak A database of marine picocyanobacteria genomes Marine picocyanobacteriagenome

http://application.sb-roscoff.fr/cyanorak/ 14

ALCOdbCyano

Cyanobacterial gene coexpression database Gene coexpression http://alcodb.jp/cyano/ 2

CyanoEXpressA web database for interactive exploration andvisualisation of transcriptional response patterns in Synechocystis.

Gene expression http://cyanoexpress.sysbiolab.eu 1

Fluorome The Cyanobacterial Chlorophyll Fluorescence Database

Induction kinetics of chlorophyll fluorescence from cyanobacterial mutant

http://www.photosynthesis.jp/fluorome/ 1

CyanoNews A newsletter intended to provide cyanobacteriologists

Newsletter http://cyanonews.vcu.edu

Cyanosite Cyanosite has been selected for inclusion in online curated information portals

Media http://www-cyanosite.bio.purdue.edu

CyanoDB The on-line database of cyanobacterial genera Genera http://www.cyanodb.cz

CyanoBaseシアノバクテリア関連データベースとの比較

豊橋技術科学大

環境研• genome.fasta x33

• metadata.xlsx

配列および配列メタデータ

菌株メタデータ

dataset: CyanoBase

API POST

API GET• genome.fasta x33

• annotation.tsv (ddbj submission) x33D-way scp

NIESコレクションのシアノバクテリアのゲノム情報整備

Organism Strain BioProject BioSample Assembly level

Number of sequence Sequence

Anabaena cylindrica PCC 7122 NIES-19 PRJDB5665 SAMD00079794 chromosome 6 AP018166-AP018171Anabaenopsis circularis NIES-21 NIES-21 PRJDB5665 SAMD00079795 chromosome 4 AP018174-AP018177

Calothrix brevissima NIES-22 NIES-22 PRJDB5665 SAMD00079796 chromosome 9 AP018207-AP018215

Anabaena variabilis NIES-23 NIES-23 PRJDB5665 SAMD00079797 chromosome 6 AP018216-AP018221

Nostoc linckia NIES-25 NIES-25 PRJDB5665 SAMD00079798 chromosome 5 AP018222-AP018226

Tolypothrix tenuis PCC 7101 NIES-37 PRJDB5665 SAMD00081165 chromosome 6 AP018248-AP018253

Aulosira laxa NIES-50 NIES-50 PRJDB5665 SAMD00079799 chromosome 7 AP018307-AP018313

Sphaerospermopsis kisseleviana NIES-73 NIES-73 PRJDB5665 SAMD00079800 chromosome 2 AP018314-AP018315

Calothrix parasitica NIES-267 NIES-267 PRJDB5665 SAMD00079801 chromosome 6 AP018227-AP018232

Dolichospermum compactum NIES-806 NIES-806 PRJDB5665 SAMD00079802 chromosome 1 AP018316

Raphidiopsis curvata NIES-932 NIES-932 PRJDB5665 SAMD00079803 chromosome 1 AP018317

Calothrix sp. NIES-2098 NIES-2098 PRJDB5665 SAMD00079805 chromosome 2 AP018172-AP018173

Calothrix sp. NIES-2100 NIES-2100 PRJDB5665 SAMD00079806 chromosome 2 AP018178-AP018179

Nostoc carneum NIES-2107 NIES-2107 PRJDB5665 SAMD00079804 chromosome 4 AP018180-AP018183

Nostoc sp. NIES-2111 NIES-2111 PRJDB5665 SAMD00079809 chromosome 10 AP018184-AP018193

Scytonema sp. HK-05 NIES-2130 PRJDB5665 SAMD00079811 chromosome 8 AP018194-AP018201

Thermosynechococcus vulcunus NIES-2134 NIES-2134 PRJDB5665 SAMD00081177 chromosome 1 AP018202

Leptolyngbya boryana NIES-2135 NIES-2135 PRJDB5665 SAMD00079812 chromosome 4 AP018203-AP018206

Fremyella diplosiphon NIES-3275 NIES-3275 PRJDB5665 SAMD00079813 chromosome 15 AP018233-AP018247

Nodularia sp. NIES-3585 NIES-3585 PRJDB5665 SAMD00079814 scaffold 4 BDUB01000001-BDUB01000004

Calothrix sp. NIES-3974 NIES-3974 PRJDB5665 SAMD00081174 chromosome 1 AP018254

Calothrix sp. NIES-4071 NIES-4071 PRJDB5665 SAMD00081178 chromosome 9 AP018255-AP018263

Scytonema sp. NIES-4073 NIES-4073 PRJDB5665 SAMD00081176 chromosome 5 AP018264-AP018268

Cylindrospermum sp. NIES-4074 NIES-4074 PRJDB5665 SAMD00081168 chromosome 5 AP018269-AP018273

Tolypothrix sp. NIES-4075 NIES-4075 PRJDB5665 SAMD00081171 scaffold 66 BDUC01000001-BDUC01000066

Calothrix sp. NIES-4101 NIES-4101 PRJDB5665 SAMD00081173 chromosome 7 AP018274-AP018280

Chondrocystis sp. NIES-4102 NIES-4102 PRJDB5665 SAMD00081172 chromosome 7 AP018281-AP018287

Nostoc sp. NIES-4103 NIES-4103 PRJDB5665 SAMD00081169 chromosome 2 AP018288-AP018289

Calothrix sp. NIES-4105 NIES-4105 PRJDB5665 SAMD00081175 chromosome 8 AP018290-AP018297

Fischerella sp. NIES-4106 NIES-4106 PRJDB5665 SAMD00081167 chromosome 9 AP018298-AP018306

NBRPゲノム情報等整備プログラム NIESコレクションのシアノバクテリアのゲノム情報整備(豊橋技術科学大学 広瀬 侑)

Synechocystis sp. PCC 6803再アノテーション

登録データ修正

CyanoBase再アノテーションプロジェクト(静岡大 粟井光一郎、他)

国立環境研究所(NIES)に集積されたシアノバクテリアの中から、ゲノム情報整備が世界的に遅れているヘテロシスト形成能を有するグループにおいて完全ゲノム解析を実施した。CyanoBaseアノテーションを再利用可能とした自動アノテーションパイプラインDFASTおよび再アノテーション支援ツールTogoAnnotatorを用いて、ゲノム情報に高精度なアノテーション情報を付与を実施し、シアノバクテリア30株のデータ公開した。

11名のシアノバクテリア研究者が研究対象およびそれに関連した遺伝子を対象に、gene

product, gene symbol, reference, noteのアノテーションを実施し、アノテーションの根拠としたevidence codeを選択した。その結果、Synechocystis sp. PCC 6803の1096 / 3725遺伝子(約30%)が再アノテーションされ、機能不明の遺伝子の割合は全遺伝子数の半分以下に減少した(51.4%→46.3%)。しかしながら、putative/probableなどの推論によるアノテーションされていた遺伝子は新規に46遺伝子が新たに注釈されたが、これらを機能未知遺伝子カテゴリーに含めると55.1%が機能未知となる。アノテーションされた1398文献のうち、新規に695文献が付与された。

•窒素固定能、高熱性などの専門家知識レベルでの表現型メタデータで絞り込み検索の要望への対応→専門家の知識をOWL/RDFに変換しデータベースへ反映する仕組みの必要性

•藻類および植物ホロゲノム解析支援→これまで整備してきたリファレンスゲノムおよびアノテーションリソース基盤を拡張、発展させデータベース間の連携をRDF、SPARQLで実現