遺伝子データベースに発見場所を加えることにより、より簡便、迅速に遺伝子データを探し出せるプラットフォーム〜IMNGS〜

日々、皮膚や臓器、土壌や水などから様々な生物サンプルが採取され、その遺伝子データが取得されています。取得されたデータは、公共のデータベースに登録され、世界中のどこからでも閲覧できるようになっていますが、現在、そのデータ量は厖大なものとなり、自分の必要なデータを探し出すだけでも一苦労。そこで検索をするのに新しい手法が開発されています。

スポンサーリンク

遺伝子を読むスピード

ミュンヘン工科大学の研究チームは、厖大な遺伝子データから目的の遺伝子と類似した遺伝子をわずかな操作で探し出すためのバイオフィンフォマティクスツールの開発を行っている。

1975年にフレデリック・サンガー博士が遺伝子の配列を読む方法(サンガー法)を開発して以来、世界各地で様々な生物の遺伝子を解析されてきた。

サンガー法は年々開発が進められ、コストが安価になり、解析スピードが上がったものの、まだまだその解析スピードは遅かったため、ほとんどの場合は生物種という大きなくくりで遺伝子が解析され、個体のゲノムを解析するということは困難であった。

近年、次世代シーケンサーという新しい原理に基づき、遺伝子を読む方法が開発され、研究現場で用いられるようになってから、遺伝子解析スピードは格段に向上し、個体のゲノムを全部解析するという新たな研究が生まれる様になった。

もちろん解析スピードが向上するにつれ、その遺伝子データの量は莫大なものとなり、データベースに登録される遺伝子の量も年々増加することとなる。

だが増加するにつれて、難しくなるのは検索だ。

個々の研究者が自分の目的に沿った遺伝子をデータベースから探し出そうとしても、その量が膨大なため、類似した遺伝子が数多く検索されてしまい、目的の遺伝子が埋もれてしまうようになる。

そこで研究チームは新しいバイオインフォマティクスツールを開発することにより、検索にかかる労力を軽減させようというのだ。

16sRNA

今日では、微生物を同定するために用いられる遺伝子領域が16rRNAという領域だ。

リボソームと呼ばれるRNAからタンパク質を作り出すタンパク質の遺伝子の一種が16sRNAだが、この領域は真核生物、原核生物問わず全ての種に存在しており、配列の保存性が高いため、極めて関係の遠い生物同士でも配列の比較が可能であるという利点性がある。

その16sRNAの公共データベースの一つが、The Sequence Read Archive(SRA)だが、現在では100,000を超える遺伝子が登録されている。

このデータベースも近年の遺伝子解析手法の発展により、年々登録数が膨大なものとなっている。

IMNGS:Integrated Microbial Next Generation Sequencing

そこで研究チームがより簡単に検索がかけられるように開発を進めているプラットフォームがIntegrated Microbial Next Generation Sequencing(IMNGS)だ。

このプラットフォームでは、検索対象に遺伝子配列や生物種だけでなく、これまで検索範囲として指定できなかった微生物の発見場所(例えば病院とか土壌中とか水中など)を指定することができる。

検索範囲が狭まることにより、個々の研究者は自分の目的に沿った遺伝子データをより容易に探し出すことができるというわけだ。

彼らは腸内細菌の一種であるAcetatifactor murisの遺伝子データを発見場所を用いて、検索をフィルタリングできるようにし、今回このプラットフォームの発表を行った。

だがまだこのデータベースは十分なものではない。

それぞれの遺伝子に対し、発見場所をタグ付けしなければいけないため、その作業は膨大なものとなり、まだ準備ができていない遺伝子データがたくさん存在するのだ。

新しい検索手法により、検索精度や検索スピードは向上し、研究者がより使いやすいデータベースとなっていくことだろう。

今日では、世界中に膨大な数の遺伝子データだけでなく、データベース自体の量の数多く存在しています。それぞれ同じデータを用いていても、検索の目的によって使うデータベースが異なるためです。いかに研究者が欲するデータにたどり着きやすくするのか、それがデータベース開発者にとって、課題となっているわけです。

私自身も遺伝子データをデータベースで検索することがありますが、なかなか自分の考えに沿った遺伝子を見つけ出すというのは難しいと感じています。どのデータベースを使うのか、検索条件はどうするのか、遺伝子の範囲をどう規定するのか、遺伝子の専門家でなければ正確な検索をすることが難しくなっているのが現状な気がします。

ですがバイオの研究者といっても、遺伝子を研究している人、タンパク質の研究をしている人、生物のメカニズムを研究している人、成分を研究している人など様々です。遺伝子はどの研究にも関わってくることなので、遺伝子の専門家でなくても、自分の望む遺伝子データが得られるデータベースの開発というのは重要なのです。

現在ではバイオの分野でなくても、ビッグデータを扱っている人の数が増加しています。相互に連携を取り、それぞれのデータベースがより使いやすく、より迅速にデータが得られるよう開発が進むことを願っています。

元記事はこちら(New bioinformatics tool for searching sequencing data. Big data processing enables worldwide bacterial analysis)

この記事を読んでくれたあなたへひろやんからのオススメ記事

ガン治療におけるビッグデータの利用〜SURVIV〜
ガンの治療はまず遺伝子データから?医学とITが結びつく未来では、個人の遺伝子に合わせた治療法が提案されます! ビッグデータ 現代社会はコンピュ...
遺伝子データを守るため、ほんの少し間違った情報を入れてみる?!〜Differential privacy〜
遺伝子データの重要性は日々増大しています。ですが、その人を規定する遺伝子。そんな重要な情報を簡単に開示してしまっていいのでしょうか?科学の発展とプ...