バイオデータベースのXML標準形式の設計とXMLデータ検索システムの開発

リーダー	松田秀雄　（大阪大学大学院情報科学研究科バイオ情報工学専攻教授）

　データの種類や形式の異なる多数のバイオ情報データベースを相互に連携させるため、XMLをベースとするデータ標準形式を設計し、さらに、その標準形式により、実際にペプチド関連情報、薬物代謝情報、さらにはそれに付随して検索するための配列データを表現することで、ネットワーク上でそれらのデータを相互に連携して検索するためのシステムを開発することを目標とした。

2002年度の研究計画と研究成果（PDF）

■口頭発表

西條竜太郎、松田秀雄、竹中要一: XMLによるタンパク質の機能情報の統合的表現とその利用、第25回日本分子生物学会年会講演予稿集 1P-0164 (2002年12月11日～14日)
Hideo Matsuda, Development of Bio-Information Environment on the Grid, GlobusWorld, San Diego (2003年1月13日～17日).
Hideo Matsuda, Unifying Bio-Information on the Grid, 3rd Pacific Rim Applications and Grid Middleware Assembly Workshop (PRAGMA), Fukuoka (2003年1月23日～24日).

（１）バイオデータベースのXML標準形式の設計

MDLデータベース、KEGG、DDBJ-XML、DIPなどを参考にして、それぞれ化合物、リガンド、代謝反応パスウェイ、DNA塩基配列、タンパク質間相互作用を記述するXML標準形式の設計を目指す。

（２）検索用配列分類データベースシステム

まずは、配列分類アルゴリズムの高度化（クラスタリングの精度を高める）と、２次情報データベースの追加（オリジナルの２次情報データベースより動的に情報を入手する）を行い、検索用配列分類データベースの利便性を向上させた上で、予備システム上での検証結果と基盤グループ、および“ネットワーク上でのXMLデータ検索システム”の成果を合わせて、検索用配列分類データベースをグリッド上に展開する。

（３）薬物代謝情報XMLデータの検索・表示システムの開発

化合物関連情報として、2002年度開発した薬物代謝情報XMLデータに続き、レセプター情報、毒性情報の標準化を図りデータ連携を検討し、OGSA-DAI (Open Grid Services Architecture - Data Access and Integration)上で実装する。
また、化合物を対象として各データベース間の表現方法の関係を抽出するためのアルゴリズムの開発及び実装を行う。開発項目は以下の通りである。

化合物高次情報抽出及び検索アルゴリズム検討
化合物と代謝情報、化合物とレセプター情報、化合物と毒性情報などによる関係から化合物毎の高次情報を定義し、その関係を特徴抽出する。これらの抽出された情報を元に高次の情報を検索するためのアルゴリズムを検討する。
化合物と代謝情報は、Metabolite（MDL社）、化合物と毒性情報は、Tocxicity（MDL社）、化合物とレセプター情報は、MDDR（MDL社）のそれぞれの個々のデータベースを利用する。さらに、文献アブストラクト（PubMed）からの化合物と蛋白質との関連情報を抽出するための技術要素を検討する。
化合物高次情報検索システム構築
前項で検討されたアルゴリズムに基づいて、化合物高次情報検索システムを構築する。化合物と代謝情報、化合物とレセプター情報、化合物と毒性情報などの関係情報による検索のみならず、他の様々な分野での高次検索にも利用できるためのシステムを開発する。

（４）ペプチド関連情報データベースのXML問合せシステム

データグリッドにデータベースサービスシステムを容易に組み込むことができるようにするために以下の改良を行っていく。

「異種・既存のデータベースサービス」をシームレスに統合するために、OGSA-DAIに対応する中間レイヤーの変換コンポネントの開発を行う。
従来型の文字ベースのデータ以外に数値やグラフなどを扱うファクトデータベースに対応可能な中間レイヤーの開発を行う。
今後、新たに発表されるXML標準形式に対応するためのインターフェースの開発を行う。

（５）ネットワーク上でのXMLデータ検索システム

本年度の成果をベースとして、グリッドの標準アーキテクチャになると見込まれるOGSA(Open Grid Services Architecture)に準拠したWebサービスを実装する。特に、単なる分散データベースに留まらないデータグリッドを実現するために必要となる基本的なデータグリッドサービス、及び特定のバイオアプリケーションに特化した有用なアプリケーションサービスを定義・実装する。早い段階でデータグリッドサービスのインターフェイスを定義し、アプリケーションサービスから利用する枠組みを構築する。また、他のチームの成果予定プログラムのインターフェイスを定義し、ラッピングする形でアプリケーションサービスとして取り込んでいける環境を構築する。

｜　Top　｜　プロジェクト概要　｜　研究内容　｜　公開資料　｜　イベント　｜　リンク　｜