Genome Analysis Tools - Sakakibara Lab


Genome Analysis Tools

比較ゲノム解析ページ > 各種ゲノム解析ツールの開発

各種ゲノム解析ツールの開発

比較ゲノム班では,ゲノム解析に役立つ様々なプログラムを開発しています。 班員の人たちに,今までにどんなツールを作ってきたのか, 今どんなツールを作っているのかを紹介してもらいます。

八谷剛史(OB)

OSfinder - Orthologous Segment finder

非常に安価に生物配列データを得られるようになったことを背景に, 世界中の多くの研究機関でゲノム解読が進められています。 その成果の集大成として,2010年11月現在,153 種の真核生物ゲノム, 1,354 種の原核生物ゲノムが一般に公開されています。 原核生物ゲノムが世界で初めて解読されたのが,1995 年 (Mycoplasma genitalium G-37 株のゲノム)。 真核生物ゲノムが世界で初めて解読されたのが,1997 年 (Saccharomyces cerevisiae S228C 株のゲノム)。 それ以降ゲノム解読のスピードは指数関数的に増加しています。

これだけ急速に配列データが蓄積されていると, 新たに配列が得られた遺伝子の機能を Wet 実験で検証するスピードが追いつきません。 そこで,既に機能解析が進んでいるゲノム配列と, 新たに解読されたゲノム配列を比較することによって, 新たに解読されたゲノム配列にコードされている遺伝子の機能を予測するアプローチが 必要となります。 そのようなアプローチを大規模に,そして精度良く行うためのソフトウェアとして, OSfinder というツールを作り,公開しました。 OSfinder は高精度に多種間比較を行い進化的に関係のある領域を同定することができます。 例えば,ヒトとマウスを比較して関係のある領域を同定すると,以下の図のようになります (左:ヒト染色体,右:マウス染色体,進化的に関係のある領域は同じ色で示されている)。

osfinder

Kris Popendorf(OB)

Murasaki - A scalable and fast, language-theory based homology detection tool accross multiple large genomes

現在シークエンサーの技術が高速に発展されて、 毎年新しく読まれたゲノム配列が指数関数的に増えています。 他方、ゲノムを理解するために最初の段階で使われている解析として、 相同検索のためのツール(例えばBLAST、BLAT、TBA/BlastZ、Mauveなど) で大きいゲノムを扱う制限があり、 または使えるとしても現在のクラスターコンピューターの並列計算に向いていません。 現在のパソコンはもう周波数がこれ以上あまり増えない物理的な限界に当たっていますが、 並列計算出来るユニットが最近安くなっています (いわゆる「クラスターコンピューティング」)。 指数的に増えている配列データを効率良く解析するために、 巨大かつ多数なゲノムを並列計算で相同領域を探すために Murasaki というソフトウェアを開発しています。 複雑な解析の基本となる比較的に強い相同領域の検索が得意なので、 以下の図で示したような9種の哺乳類のゲノムの相同領域を計算するのに 40台のCPU約1時間で出来ることに比べて、 既存ソフトウェアのTBA/BlastZで同じ1時間で終わらせるために 1000台程度のCPUが必要です。

murasaki

並木俊亮(OB)

メタゲノム配列のアセンブリのためのソフトウェア

納豆菌ゲノムプロジェクトのように、 有用な生物資源としての細菌の研究が世界中で盛んに行われています。 その一方で、地球上に生息する全細菌のうち、 実に 99% 以上が、全く未解明のまま残されていると言われています。 これは、多くの細菌は納豆菌のように単独で生きられず、 実験室での培養が困難であるためです。 そこで近年、自然環境中に生息する細菌集団の全体像を解明するための手法として、 培養を経ずに細菌集団 DNA の配列情報を直接かつ網羅的に抽出する 「メタゲノム解析」が提案されました。 多数の菌種が複雑に混ざったメタゲノムデータから有用な情報を得るために、 また次世代シークエンサーにより取得される膨大な量のメタゲノム配列データを高速に 処理するために、榊原研では様々な解析ツールを開発しています。

次世代シークエンサーより得られる情報は、ゲノムの断片配列です。 これらの短い配列から元の長い配列(コンティグ)を復元するため、 断片配列の重なり部分をつなぎ合わせてゆく「アセンブリ」という処理を行います。 しかし、メタゲノム配列のアセンブリには特有の問題点があります。 下図のように、メタゲノム配列中には複数の菌種のゲノム断片が混在しているため、 通常のゲノム配列と同じようにアセンブリを行うと、 別々の菌種の断片を間違ってつなげてしまう可能性があります。 その結果得られる間違ったコンティグ(キメラコンティグ)は、 その後の解析に悪影響を及ぼしてしまいます。 そこで私は、メタゲノム配列中の各菌種をきちんと区別し、 同じ菌種に属する断片配列のみを抽出して、 正しくアセンブリ処理を行えるようにするためのソフトウェアを開発しています。

Meta genome analysis

田上倫也(OB)

メタゲノム解析が最初に報告されたのは Giovannoni によるサルガッソー海の海洋微生物に関するものです。 当時は採集したサンプルに含まれる 16S rRNA をPCR で増幅することによって、 生息する微生物の種類などを推定していました。 このような手法ではスループットが低く、 メタゲノム解析は莫大なコストがかかる研究分野でした。 しかし、近年の次世代シーケンサーの登場によってメタゲノム解析にかかるコストが低くなり、 研究が盛んになってきました。 現在までに人体の腸内細菌や海洋、 土壌、深海、温泉といった様々な環境下におけるメタゲノムが研究されています。

メタゲノム解析で重要なテーマとして、生物種組成と機能組成があります。 生物種組成はある生物がどれくらいいるのか、 機能組成はある機能を持つ遺伝子がどれくらいあるのかにそれぞれ注目しています。 私が開発しているツールは前者をメインターゲットとしています。 既存研究では、次世代シーケンサーから得られたデータを生物種組成に変換するにあたって、 配列長や精度に問題があります。 一般的に得られる配列長が短ければ短いほど、 また生物学的な分類階層をより詳細に掘り下げていくほど精度は落ちます。 私は短い配列を使用してもある程度の精度を維持できるようなツールを目指し、 開発しています。

田中秀明(OB)

近年の飛躍的な技術の向上により、配列データが大量に得られるようになりました。 しかし、その大量なデータを繋ぎ合わせてゲノム配列を作り上げる 統一的な手法は未だに確立されていません。 さらに、ゲノム配列の正解は誰も知らないので、 ゲノム解読のゴールを決めることも非常に難しく、 データベースに載っているゲノム配列ですら、 その全てが解読されたものはほとんどありません。 そこで、ゲノムサイズを推定することによって、 ゲノム解読のゴールを決める指標とすることが考えられます。 私は、 配列データから統計的な手法によりゲノムサイズを推定する手法の開発に取り組んでいます。 また、この手法を利用して、 共生菌などが混在している配列データから種ごとにデータを 分離する手法への応用も試みています。