データグリッド技術グループが目指すバイオ分野の多数のデータベースをシームレスに連携させた高度なデータベースサービスを実現させるコンポーネントの一つとして遺伝子データベースを対象としたBLASTなどの類似性検索は欠かすことのできないサービスのひとつである。しかしながら遺伝子データベースは年あたり2倍弱という文字通り指数関数的増大を続け、検索に要する時間もそれに比例し増大し続けていることや、しかもデータベースには冗長的なデータが多く存在し本来得たい結果がデータベースの冗長性のために報告されないことがあるなど、いくつもの問題点を抱えている。これを解決するひとつの方法は、ゲノム配列データを検索対象のデータベースとすることである。幸い本年4月のヒトゲノム解読宣言に象徴されるように続々と数多くの生物のゲノム配列が決定されていることや、各生物のゲノムサイズは当然のことながら決まっており遺伝子データベースサイズの増大に起因する問題を労せずして回避することができる。しかもゲノム配列には蛋白質のコード情報だけでなく遺伝子発現情報などあらゆる生命情報が秘められておりゲノム配列を検索対象とするメリットは多い。ただこのメリットを引き出すためにはゲノム配列の各領域の機能が少なくとも既知のものに関してはデータベース化されている必要がある。そこで本年度はまず、既知のcDNAおよびESTのデータを分類し、BLAST等のホモロジー検索アルゴリズムを用いてゲノム配列にマッピングし、さらにそれを用いて得られたデータをデータベースに格納する作業を自動化するフレームワークを整える。ついで、ゲノム配列を対象とする類似性検索システムをBLASTをベースに開発しヒットした領域の詳細情報が得られるシステムを構築する。またここで開発するマッピングデータベースは類似性検索のみならずオルタナティブスプライシングの解析など他の多くの解析に利用可能である。 |