近年、多数のバイオ情報データが、公共データベースとしてインターネットを利用して公開されている。しかしながら、これらの公共データベースが提供するデータの外部インタフェースに関しては、提供元である各研究機関などが独自にスキーマを設計・構築していることが多く、書式、項目、表記の揺らぎなどに関する曖昧性が存在するため、これらを相互に連携して利用することが非常に困難な状況にある。
そこで本研究開発では、テキスト処理技術、知識処理技術、マンマシンインタフェース技術などを駆使することで、公共データベースの内容を、本データグリッド技術グループにおいて別途設計するXMLベースのデータ標準形式に基づいて半自動的に変換するためのシステムを開発することを考えた。変換後、出力されるXMLデータには、オリジナルのデータベースに記載されている全ての情報が欠落することなく網羅されるように留意するとともに、変換結果の良否を容易に判断でき、その結果を変換処理部に、適宜、フィードバックできるようなシステムの開発を目指す。そして、異種データベースに対する共通ビューを提供することで、データベースの異種性を意識せずに横断的な検索を可能にするデータグリッド技術を開発することを目標とする。
本研究開発により、独自開発されている各種公共データベースを論理的に統合した巨大バイオレポジトリの仮想的な構築が可能となる。さらに、このような構築事例を通して、多数のデータベースを有機的に連携利用するための基盤となる新しいデータグリッド技術の創出が見込まれる。
|