バイオインフォマティクスとは?~おススメのプログラミング言語~

投稿日

バイオインフォマティクス

 

薬剤開発、iPS細胞などの品質管理、新規生物種の発見、または既知生物種の再分類など、ゲノムあるいは遺伝情報の研究で、これらのデータを取り扱うことに長けているバイオインフォマティシャンの絶対数が世界的に足りず、データの出力に解析が追いついていないようです。今回は、このような背景を踏まえて、バイオインフォマティクスの概要を解説します。

 

1. なぜバイオインフォマティクスが必要か

科学が進歩してコンピューター技術も進化し、生物分子データの分析もコンピューター技術で便利になり、ヒト一人のゲノム解析にかかる時間は、初期の13年から今では1日に短縮されました。しかし、サンプルのシークエンシング後は膨大なデータが残り、例えばヒト一人のゲノムは平均して120GB相当のデータに変換されます。従って、120GB相当のデータ分析にはバイオインフォマティクス等の分析ツールやソフトウェアが必要となるのです。

 

今やバイオインフォマティクス解析に必要だった物は、実験や解析ではなく、コンピューターの知識であり、データベースにアクセスするためのインターネット環境です。事実、今日の生命科学の分野では、その研究過程にバイオインフォマティクスの関与が不可欠と言われています。

 

2.バイオインフォマティクスとは

バイオインフォマティクスは、生物学と情報処理が融合した新しい学問分野のことです。生命情報学と訳されることが多く、生物と情報というキーワードが入っていることから、 生物データをコンピューターにより解析する研究を総称して使われることが多いようです。

 

その特徴はコンピューターを使って生命を解析するということで、例えばゲノムでは、ゲノムというDNAの中にある情報をシークエンサで読み取り、その後コンピューターを使って解析をして真理に迫って行くというのがバイオインフォマティックスの研究です。

 

バイオインフォマティクスは、膨大な生命科学研究のデータベースから、コンピューターにより、効率的に有用なデータを導き出し、創薬や医療に役立てることを目的としています。研究者が利用している米国 National Center for Biotechnology Information の DNA 塩基配列データベースは、塩基配列だけでも6100万以上が登録されております。新しいタンパクを発見した場合、バイオインフォマティクス解析で National Center for Biotechnology Informationにより、その生理機能の予測や立体構造解析情報を短い期間で得ることが出来ます。

 

3. バイオインフォマティクスで何が可能となるのか

バイオインフォマティクスの用途は、一塩基多型の捜索などがあり、その識別は病気の遺伝的要素の発見を目的として行われます。1945年にフレドリック・サンガーがインスリンのアミノ酸配列を発見し、その情報が一般に利用可能になった時よりコンピューターは分子生物学において必要不可欠な存在となりました。革新的な技術の進歩により、今や複数の生体分子配列を手動で比較する事は非現実的です。

 

4.バイオインフォマティクスとプログラミング言語

様々な目的や用途に合わせて、プログラミング言語が作られてきたためプログラミング言語は数百種類あると言われています。高水準のプログラミング言語として、初期にはFORTRAN、COBOL、ALGOL などがありました。これらの言語設計の概念がのちに多くのプログラミング言語に影響を与えました。

 

プログラミング言語は、コンパイラ型とインタープリタ型に分けることができます。コンパイラ型は、プログラムコードを書いてからそれが動くようになるまでには、コンパイル作業を行う必要があります。コンパイラ型は、機械語に翻訳されるため速度が速く、様々な機能を実現できます。このようなメリットがあるのですが、コード化が難しく制約も多くあります。なお、コンパイラ型言語には、Java、FORTRAN などがあります。

 

これに対して、インタープリタ型はコンパイルを必要としないプログラミング言語で、コンパイル型とは対照的に、コード化が簡単で、初心者でも学びやすいでしょう。それでも、速度は遅くて実装できない機能があります。代表的な言語には、Python、Perl、Ruby や R などがあります。

...

バイオインフォマティクス

 

薬剤開発、iPS細胞などの品質管理、新規生物種の発見、または既知生物種の再分類など、ゲノムあるいは遺伝情報の研究で、これらのデータを取り扱うことに長けているバイオインフォマティシャンの絶対数が世界的に足りず、データの出力に解析が追いついていないようです。今回は、このような背景を踏まえて、バイオインフォマティクスの概要を解説します。

 

1. なぜバイオインフォマティクスが必要か

科学が進歩してコンピューター技術も進化し、生物分子データの分析もコンピューター技術で便利になり、ヒト一人のゲノム解析にかかる時間は、初期の13年から今では1日に短縮されました。しかし、サンプルのシークエンシング後は膨大なデータが残り、例えばヒト一人のゲノムは平均して120GB相当のデータに変換されます。従って、120GB相当のデータ分析にはバイオインフォマティクス等の分析ツールやソフトウェアが必要となるのです。

 

今やバイオインフォマティクス解析に必要だった物は、実験や解析ではなく、コンピューターの知識であり、データベースにアクセスするためのインターネット環境です。事実、今日の生命科学の分野では、その研究過程にバイオインフォマティクスの関与が不可欠と言われています。

 

2.バイオインフォマティクスとは

バイオインフォマティクスは、生物学と情報処理が融合した新しい学問分野のことです。生命情報学と訳されることが多く、生物と情報というキーワードが入っていることから、 生物データをコンピューターにより解析する研究を総称して使われることが多いようです。

 

その特徴はコンピューターを使って生命を解析するということで、例えばゲノムでは、ゲノムというDNAの中にある情報をシークエンサで読み取り、その後コンピューターを使って解析をして真理に迫って行くというのがバイオインフォマティックスの研究です。

 

バイオインフォマティクスは、膨大な生命科学研究のデータベースから、コンピューターにより、効率的に有用なデータを導き出し、創薬や医療に役立てることを目的としています。研究者が利用している米国 National Center for Biotechnology Information の DNA 塩基配列データベースは、塩基配列だけでも6100万以上が登録されております。新しいタンパクを発見した場合、バイオインフォマティクス解析で National Center for Biotechnology Informationにより、その生理機能の予測や立体構造解析情報を短い期間で得ることが出来ます。

 

3. バイオインフォマティクスで何が可能となるのか

バイオインフォマティクスの用途は、一塩基多型の捜索などがあり、その識別は病気の遺伝的要素の発見を目的として行われます。1945年にフレドリック・サンガーがインスリンのアミノ酸配列を発見し、その情報が一般に利用可能になった時よりコンピューターは分子生物学において必要不可欠な存在となりました。革新的な技術の進歩により、今や複数の生体分子配列を手動で比較する事は非現実的です。

 

4.バイオインフォマティクスとプログラミング言語

様々な目的や用途に合わせて、プログラミング言語が作られてきたためプログラミング言語は数百種類あると言われています。高水準のプログラミング言語として、初期にはFORTRAN、COBOL、ALGOL などがありました。これらの言語設計の概念がのちに多くのプログラミング言語に影響を与えました。

 

プログラミング言語は、コンパイラ型とインタープリタ型に分けることができます。コンパイラ型は、プログラムコードを書いてからそれが動くようになるまでには、コンパイル作業を行う必要があります。コンパイラ型は、機械語に翻訳されるため速度が速く、様々な機能を実現できます。このようなメリットがあるのですが、コード化が難しく制約も多くあります。なお、コンパイラ型言語には、Java、FORTRAN などがあります。

 

これに対して、インタープリタ型はコンパイルを必要としないプログラミング言語で、コンパイル型とは対照的に、コード化が簡単で、初心者でも学びやすいでしょう。それでも、速度は遅くて実装できない機能があります。代表的な言語には、Python、Perl、Ruby や R などがあります。

 

バイオインフォマティクスでは、研究分野、目的に応じてコンパイラ型とインタープリタ型を使い分けています。様々な科学領域では、分子動力学の計算などを効率よく計算するために、コンパイラ型の FORTRAN や C などが使われているようです。また、ゲノム配列解析・統計解析などに関しては、文字列処理あるいは数値処理であるため、すぐに実行できる Python や R などのインタープリタ型がよく利用されています。この使い分けは明確ではなく、研究者が得意とする言語を利用するのが普通です。

 

バイオインフォマティクス分野で、使うことを目的として初めてプログラミング言語を学ぶならば、Python か R が有効で、両者は、データ解析を目的とした数値計算や視覚化などの機能を備えています。データを解析するためにプログラミング言語を学ぶ人にとって、これらは無駄のない仕様となっています。

 

 

   続きを読むには・・・


この記事の著者

井上 敦雄

中小企業のIT導入を全力で応援しています。IT導入の8割が失敗するといわれている中で、当社の「中小企業専門PMOサービス」を使っていただければ、成功率は100パーセントに近づきます。

中小企業のIT導入を全力で応援しています。IT導入の8割が失敗するといわれている中で、当社の「中小企業専門PMOサービス」を使っていただければ、成功率は1...


「情報マネジメント一般」の他のキーワード解説記事

もっと見る
新しい分析手法やアルゴリズムに挑戦することは悪なのか データ分析講座(その67)

◆ 「すごい分析」よりも「使える分析」  データ分析の手法そのものに、こだわることは決して悪いことではありません。手法やアルゴリズムが発展するほど、...

◆ 「すごい分析」よりも「使える分析」  データ分析の手法そのものに、こだわることは決して悪いことではありません。手法やアルゴリズムが発展するほど、...


データ分析に立ちはだかる実践・活用の壁  データ分析講座(その288)

    「データ分析をやれ!」と言われたら、あなたならどうするでしょうか。多くの人は、分析手法の知識や分析ツールの使い方を習得...

    「データ分析をやれ!」と言われたら、あなたならどうするでしょうか。多くの人は、分析手法の知識や分析ツールの使い方を習得...


分析結果で今までの業務のどの部分がどのように変わるのか データ分析講座(その78)

◆ 分析結果を丸投げされ困惑する現場の人々  データ分析した結果を見える化すれば何とかなるでしょうか。日販や受注件数、コンバージョン数などの指標や、...

◆ 分析結果を丸投げされ困惑する現場の人々  データ分析した結果を見える化すれば何とかなるでしょうか。日販や受注件数、コンバージョン数などの指標や、...


「情報マネジメント一般」の活用事例

もっと見る
‐社内の問題克服による開発活動‐  製品・技術開発力強化策の事例(その14)

 前回の事例その13に続いて解説します。社内における様々な問題を高いレベルで深く追及して解決することが、競争力のある技術を育成し、売れる製品を生み出す事に...

 前回の事例その13に続いて解説します。社内における様々な問題を高いレベルで深く追及して解決することが、競争力のある技術を育成し、売れる製品を生み出す事に...


デジタルデータの保存とは

        今回は、地震災害等を想定して、デジタルデータの保存に焦点を当てて、主なバックアップ方法と長所...

        今回は、地震災害等を想定して、デジタルデータの保存に焦点を当てて、主なバックアップ方法と長所...


簡易版DX/IoTから機械学習への移行

  ◆ DX(デジタル・トランスフォーメーション)を使えばコスト削減と納期短縮が可能に  産業界のニュースなどをインターネットで読んでいると...

  ◆ DX(デジタル・トランスフォーメーション)を使えばコスト削減と納期短縮が可能に  産業界のニュースなどをインターネットで読んでいると...