|
(1)バイオデータベースのXML標準形式の設計 |
MDLデータベース、KEGG、DDBJ-XML、DIPなどを参考にして、それぞれ化合物、リガンド、代謝反応パスウェイ、DNA塩基配列、タンパク質間相互作用を記述するXML標準形式の設計を目指す。
|
(2)検索用配列分類データベースシステム |
まずは、配列分類アルゴリズムの高度化(クラスタリングの精度を高める)と、2次情報データベースの追加(オリジナルの2次情報データベースより動的に情報を入手する)を行い、検索用配列分類データベースの利便性を向上させた上で、予備システム上での検証結果と基盤グループ、および“ネットワーク上でのXMLデータ検索システム”の成果を合わせて、検索用配列分類データベースをグリッド上に展開する。
|
(3)薬物代謝情報XMLデータの検索・表示システムの開発 |
化合物関連情報として、2002年度開発した薬物代謝情報XMLデータに続き、レセプター情報、毒性情報の標準化を図りデータ連携を検討し、OGSA-DAI
(Open Grid Services Architecture - Data Access and Integration)上で実装する。
また、化合物を対象として各データベース間の表現方法の関係を抽出するためのアルゴリズムの開発及び実装を行う。開発項目は以下の通りである。 |
- 化合物高次情報抽出及び検索アルゴリズム検討
化合物と代謝情報、化合物とレセプター情報、化合物と毒性情報などによる関係から化合物毎の高次情報を定義し、その関係を特徴抽出する。これらの抽出された情報を元に高次の情報を検索するためのアルゴリズムを検討する。
化合物と代謝情報は、Metabolite(MDL社)、化合物と毒性情報は、Tocxicity(MDL社)、化合物とレセプター情報は、MDDR(MDL社)のそれぞれの個々のデータベースを利用する。さらに、文献アブストラクト(PubMed)からの化合物と蛋白質との関連情報を抽出するための技術要素を検討する。
- 化合物高次情報検索システム構築
前項で検討されたアルゴリズムに基づいて、化合物高次情報検索システムを構築する。化合物と代謝情報、化合物とレセプター情報、化合物と毒性情報などの関係情報による検索のみならず、他の様々な分野での高次検索にも利用できるためのシステムを開発する。
|
(4)ペプチド関連情報データベースのXML問合せシステム |
データグリッドにデータベースサービスシステムを容易に組み込むことができるようにするために以下の改良を行っていく。 |
- 「異種・既存のデータベースサービス」をシームレスに統合するために、OGSA-DAIに対応する中間レイヤーの変換コンポネントの開発を行う。
- 従来型の文字ベースのデータ以外に数値やグラフなどを扱うファクトデータベースに対応可能な中間レイヤーの開発を行う。
- 今後、新たに発表されるXML標準形式に対応するためのインターフェースの開発を行う。
|
(5)ネットワーク上でのXMLデータ検索システム |
本年度の成果をベースとして、グリッドの標準アーキテクチャになると見込まれるOGSA(Open Grid Services
Architecture)に準拠したWebサービスを実装する。特に、単なる分散データベースに留まらないデータグリッドを実現するために必要となる基本的なデータグリッドサービス、及び特定のバイオアプリケーションに特化した有用なアプリケーションサービスを定義・実装する。早い段階でデータグリッドサービスのインターフェイスを定義し、アプリケーションサービスから利用する枠組みを構築する。また、他のチームの成果予定プログラムのインターフェイスを定義し、ラッピングする形でアプリケーションサービスとして取り込んでいける環境を構築する。 |