バイオインフォマティクスとは?~おススメのプログラミング言語~

投稿日

バイオインフォマティクス

 

薬剤開発、iPS細胞などの品質管理、新規生物種の発見、または既知生物種の再分類など、ゲノムあるいは遺伝情報の研究で、これらのデータを取り扱うことに長けているバイオインフォマティシャンの絶対数が世界的に足りず、データの出力に解析が追いついていないようです。今回は、このような背景を踏まえて、バイオインフォマティクスの概要を解説します。

 

1. なぜバイオインフォマティクスが必要か

科学が進歩してコンピューター技術も進化し、生物分子データの分析もコンピューター技術で便利になり、ヒト一人のゲノム解析にかかる時間は、初期の13年から今では1日に短縮されました。しかし、サンプルのシークエンシング後は膨大なデータが残り、例えばヒト一人のゲノムは平均して120GB相当のデータに変換されます。従って、120GB相当のデータ分析にはバイオインフォマティクス等の分析ツールやソフトウェアが必要となるのです。

 

今やバイオインフォマティクス解析に必要だった物は、実験や解析ではなく、コンピューターの知識であり、データベースにアクセスするためのインターネット環境です。事実、今日の生命科学の分野では、その研究過程にバイオインフォマティクスの関与が不可欠と言われています。

 

2.バイオインフォマティクスとは

バイオインフォマティクスは、生物学と情報処理が融合した新しい学問分野のことです。生命情報学と訳されることが多く、生物と情報というキーワードが入っていることから、 生物データをコンピューターにより解析する研究を総称して使われることが多いようです。

 

その特徴はコンピューターを使って生命を解析するということで、例えばゲノムでは、ゲノムというDNAの中にある情報をシークエンサで読み取り、その後コンピューターを使って解析をして真理に迫って行くというのがバイオインフォマティックスの研究です。

 

バイオインフォマティクスは、膨大な生命科学研究のデータベースから、コンピューターにより、効率的に有用なデータを導き出し、創薬や医療に役立てることを目的としています。研究者が利用している米国 National Center for Biotechnology Information の DNA 塩基配列データベースは、塩基配列だけでも6100万以上が登録されております。新しいタンパクを発見した場合、バイオインフォマティクス解析で National Center for Biotechnology Informationにより、その生理機能の予測や立体構造解析情報を短い期間で得ることが出来ます。

 

3. バイオインフォマティクスで何が可能となるのか

バイオインフォマティクスの用途は、一塩基多型の捜索などがあり、その識別は病気の遺伝的要素の発見を目的として行われます。1945年にフレドリック・サンガーがインスリンのアミノ酸配列を発見し、その情報が一般に利用可能になった時よりコンピューターは分子生物学において必要不可欠な存在となりました。革新的な技術の進歩により、今や複数の生体分子配列を手動で比較する事は非現実的です。

 

4.バイオインフォマティクスとプログラミング言語

様々な目的や用途に合わせて、プログラミング言語が作られてきたためプログラミング言語は数百種類あると言われています。高水準のプログラミング言語として、初期にはFORTRAN、COBOL、ALGOL などがありました。これらの言語設計の概念がのちに多くのプログラミング言語に影響を与えました。

 

プログラミング言語は、コンパイラ型とインタープリタ型に分けることができます。コンパイラ型は、プログラムコードを書いてからそれが動くようになるまでには、コンパイル作業を行う必要があります。コンパイラ型は、機械語に翻訳されるため速度が速く、様々な機能を実現できます。このようなメリットがあるのですが、コード化が難しく制約も多くあります。なお、コンパイラ型言語には、Java、FORTRAN などがあります。

 

これに対して、インタープリタ型はコンパイルを必要としないプログラミング言語で、コンパイル型とは対照的に、コード化が簡単で、初心者でも学びやすいでしょう。それでも、速度は遅くて実装できない機能があります。代表的な言語には、Python、Perl、Ruby や R などがあります。

...

バイオインフォマティクス

 

薬剤開発、iPS細胞などの品質管理、新規生物種の発見、または既知生物種の再分類など、ゲノムあるいは遺伝情報の研究で、これらのデータを取り扱うことに長けているバイオインフォマティシャンの絶対数が世界的に足りず、データの出力に解析が追いついていないようです。今回は、このような背景を踏まえて、バイオインフォマティクスの概要を解説します。

 

1. なぜバイオインフォマティクスが必要か

科学が進歩してコンピューター技術も進化し、生物分子データの分析もコンピューター技術で便利になり、ヒト一人のゲノム解析にかかる時間は、初期の13年から今では1日に短縮されました。しかし、サンプルのシークエンシング後は膨大なデータが残り、例えばヒト一人のゲノムは平均して120GB相当のデータに変換されます。従って、120GB相当のデータ分析にはバイオインフォマティクス等の分析ツールやソフトウェアが必要となるのです。

 

今やバイオインフォマティクス解析に必要だった物は、実験や解析ではなく、コンピューターの知識であり、データベースにアクセスするためのインターネット環境です。事実、今日の生命科学の分野では、その研究過程にバイオインフォマティクスの関与が不可欠と言われています。

 

2.バイオインフォマティクスとは

バイオインフォマティクスは、生物学と情報処理が融合した新しい学問分野のことです。生命情報学と訳されることが多く、生物と情報というキーワードが入っていることから、 生物データをコンピューターにより解析する研究を総称して使われることが多いようです。

 

その特徴はコンピューターを使って生命を解析するということで、例えばゲノムでは、ゲノムというDNAの中にある情報をシークエンサで読み取り、その後コンピューターを使って解析をして真理に迫って行くというのがバイオインフォマティックスの研究です。

 

バイオインフォマティクスは、膨大な生命科学研究のデータベースから、コンピューターにより、効率的に有用なデータを導き出し、創薬や医療に役立てることを目的としています。研究者が利用している米国 National Center for Biotechnology Information の DNA 塩基配列データベースは、塩基配列だけでも6100万以上が登録されております。新しいタンパクを発見した場合、バイオインフォマティクス解析で National Center for Biotechnology Informationにより、その生理機能の予測や立体構造解析情報を短い期間で得ることが出来ます。

 

3. バイオインフォマティクスで何が可能となるのか

バイオインフォマティクスの用途は、一塩基多型の捜索などがあり、その識別は病気の遺伝的要素の発見を目的として行われます。1945年にフレドリック・サンガーがインスリンのアミノ酸配列を発見し、その情報が一般に利用可能になった時よりコンピューターは分子生物学において必要不可欠な存在となりました。革新的な技術の進歩により、今や複数の生体分子配列を手動で比較する事は非現実的です。

 

4.バイオインフォマティクスとプログラミング言語

様々な目的や用途に合わせて、プログラミング言語が作られてきたためプログラミング言語は数百種類あると言われています。高水準のプログラミング言語として、初期にはFORTRAN、COBOL、ALGOL などがありました。これらの言語設計の概念がのちに多くのプログラミング言語に影響を与えました。

 

プログラミング言語は、コンパイラ型とインタープリタ型に分けることができます。コンパイラ型は、プログラムコードを書いてからそれが動くようになるまでには、コンパイル作業を行う必要があります。コンパイラ型は、機械語に翻訳されるため速度が速く、様々な機能を実現できます。このようなメリットがあるのですが、コード化が難しく制約も多くあります。なお、コンパイラ型言語には、Java、FORTRAN などがあります。

 

これに対して、インタープリタ型はコンパイルを必要としないプログラミング言語で、コンパイル型とは対照的に、コード化が簡単で、初心者でも学びやすいでしょう。それでも、速度は遅くて実装できない機能があります。代表的な言語には、Python、Perl、Ruby や R などがあります。

 

バイオインフォマティクスでは、研究分野、目的に応じてコンパイラ型とインタープリタ型を使い分けています。様々な科学領域では、分子動力学の計算などを効率よく計算するために、コンパイラ型の FORTRAN や C などが使われているようです。また、ゲノム配列解析・統計解析などに関しては、文字列処理あるいは数値処理であるため、すぐに実行できる Python や R などのインタープリタ型がよく利用されています。この使い分けは明確ではなく、研究者が得意とする言語を利用するのが普通です。

 

バイオインフォマティクス分野で、使うことを目的として初めてプログラミング言語を学ぶならば、Python か R が有効で、両者は、データ解析を目的とした数値計算や視覚化などの機能を備えています。データを解析するためにプログラミング言語を学ぶ人にとって、これらは無駄のない仕様となっています。

 

 

   続きを読むには・・・


この記事の著者

井上 敦雄

中小企業のIT導入を全力で応援しています。IT導入の8割が失敗するといわれている中で、当社の「中小企業専門PMOサービス」を使っていただければ、成功率は100パーセントに近づきます。

中小企業のIT導入を全力で応援しています。IT導入の8割が失敗するといわれている中で、当社の「中小企業専門PMOサービス」を使っていただければ、成功率は1...


「情報マネジメント一般」の他のキーワード解説記事

もっと見る
検索の基礎とデータベース 技術情報を調べる(その1)

    今回のテーマは、「技術情報を検索する」です。特許にかかわる方だけではなく、技術情報やビジネスの情報を調べたい方、研究開発に携わっている方へも対応...

    今回のテーマは、「技術情報を検索する」です。特許にかかわる方だけではなく、技術情報やビジネスの情報を調べたい方、研究開発に携わっている方へも対応...


レコメンドのためのデータ分析:データ分析講座(その172)

  ◆ 何をすべきかを見える化する「レコメンド」のためのデータ分析  データを分析することで、例えば次の2種類の情報を得ることができます...

  ◆ 何をすべきかを見える化する「レコメンド」のためのデータ分析  データを分析することで、例えば次の2種類の情報を得ることができます...


データ分析文化を組織内で広めたいなら、Excelで データ分析講座(その72)

◆ 表計算ソフトととしての Excel  多くの企業が使っている表計算ソフトがあります。Excelです。Excelは無料ではなく、有料のソフトウェア...

◆ 表計算ソフトととしての Excel  多くの企業が使っている表計算ソフトがあります。Excelです。Excelは無料ではなく、有料のソフトウェア...


「情報マネジメント一般」の活用事例

もっと見る
‐情報収集で配慮すべき事項(第2回)‐  製品・技術開発力強化策の事例(その10)

 前回の事例その9に続いて解説します。ある目的で情報収集を開始する時には、始めに開発方針を明らかにして、目的意識を持って行動する必要があります。目的を明確...

 前回の事例その9に続いて解説します。ある目的で情報収集を開始する時には、始めに開発方針を明らかにして、目的意識を持って行動する必要があります。目的を明確...


人的資源マネジメント:製品開発の滞留を引き起こすファイルとは(その2)

 今回は、PDM/PLMに代表される製品開発業務のIT化をどのように考え、進めるのがよいのかについて解説します。    前回まで続けていたテ...

 今回は、PDM/PLMに代表される製品開発業務のIT化をどのように考え、進めるのがよいのかについて解説します。    前回まで続けていたテ...


中小製造業のウェブ戦略

 中小製造業がウェブサイトを立ち上げる際、その目的として「自社の信用力を高めるための会社概要的な役割」と考える経営者も少なくない。しかし、当社のクライアン...

 中小製造業がウェブサイトを立ち上げる際、その目的として「自社の信用力を高めるための会社概要的な役割」と考える経営者も少なくない。しかし、当社のクライアン...