データマイニングで使われるツール

投稿日

inf52 データマイニングに使われるツール、特にビッグデータを用いたデータマイニングツールにはどのようなものがあるか、以下にまとめます。
 

1.スプレッドシート

 いわゆるエクセル(Microsoft Excel)です。コンピュータに詳しくないコンピュータの初心者にはとっつきやすくデータ分析にはよく使われます。しかし、数値の処理に正確さがかける、大きなデータの処理には向かないなどの理由からエキスパートは避ける傾向にあります。データ分析者が、最終的なデータをコンピュータに詳しくない解析依頼者に渡す場合のフォーマットとしてはよく使われます。 
 

2.汎用統計解析ソフト

 製薬業界ではSASが、社会科学領域ではSPSSが、工学領域ではMATLABが、数学領域ではMathematica が人気です。統計学全般的にRというオープンソースソフトウェアが人気になっています。データサイエンティストはRが使えることが必須と言われています。しかし、Rはメモリ使用量が大きく、計算速度が遅いことが問題となっています。これに対し、汎用インタプリタ言語のPythonに数理計算、統計計算用の関数群であるモジュールを追加することで、汎用統計解析が可能になってきています。また、最近ではRに代わりPythonも、Rより高速で、大容量メモリの使用が可能であるために使われるようになっています。
 

3.データベース

 市販ソフトではオラクルやDB2(IBM)、SQL Server(Microsoft)などが用いられますが、オープンソースソフトウェアでは、MySQLおよびPostgreSQLなどが用いられます。
 

4.NoSQLデータベース

 従来のデータベースで処理しきれないスケールのデータを通常ビッグデータと呼びます。それらのビッグデータを処理するための従来のSQLのスキームによらないデータベースはNoSQLと呼ばれます。産業界により提供されたものとして、GoogleのBigTable、アマゾンのAmazon DynamoDBなどがあります。オープンソースとしては、例えばMongoDB、 Redis、Apache HBase、Apache Cassandraなどがあります。
 

5.ビッグデータ処理ツール

 従来のデータベースで処理しきれないスケールのデータを、コンピュータクラスタ上に分散して保存するファイルシステムに分散ファイルシステムHDFSがあり、コンピュータクラスタ上に分散して処理するシステムに分散処理システムMapReduceがあります。HDFSとMapReduceを合わせたビッグデータ処理システムはHadoop(Apache Hadoop)という名前でオープンソースとして提供されています。さらに、複数のハードディスク上に分散して処理するMapReduceに対し、複数のメモリ上にデータを保存して処理するインメモリ型分散処理システのSpark(Apache Spark)があります。MapReduce...
inf52 データマイニングに使われるツール、特にビッグデータを用いたデータマイニングツールにはどのようなものがあるか、以下にまとめます。
 

1.スプレッドシート

 いわゆるエクセル(Microsoft Excel)です。コンピュータに詳しくないコンピュータの初心者にはとっつきやすくデータ分析にはよく使われます。しかし、数値の処理に正確さがかける、大きなデータの処理には向かないなどの理由からエキスパートは避ける傾向にあります。データ分析者が、最終的なデータをコンピュータに詳しくない解析依頼者に渡す場合のフォーマットとしてはよく使われます。 
 

2.汎用統計解析ソフト

 製薬業界ではSASが、社会科学領域ではSPSSが、工学領域ではMATLABが、数学領域ではMathematica が人気です。統計学全般的にRというオープンソースソフトウェアが人気になっています。データサイエンティストはRが使えることが必須と言われています。しかし、Rはメモリ使用量が大きく、計算速度が遅いことが問題となっています。これに対し、汎用インタプリタ言語のPythonに数理計算、統計計算用の関数群であるモジュールを追加することで、汎用統計解析が可能になってきています。また、最近ではRに代わりPythonも、Rより高速で、大容量メモリの使用が可能であるために使われるようになっています。
 

3.データベース

 市販ソフトではオラクルやDB2(IBM)、SQL Server(Microsoft)などが用いられますが、オープンソースソフトウェアでは、MySQLおよびPostgreSQLなどが用いられます。
 

4.NoSQLデータベース

 従来のデータベースで処理しきれないスケールのデータを通常ビッグデータと呼びます。それらのビッグデータを処理するための従来のSQLのスキームによらないデータベースはNoSQLと呼ばれます。産業界により提供されたものとして、GoogleのBigTable、アマゾンのAmazon DynamoDBなどがあります。オープンソースとしては、例えばMongoDB、 Redis、Apache HBase、Apache Cassandraなどがあります。
 

5.ビッグデータ処理ツール

 従来のデータベースで処理しきれないスケールのデータを、コンピュータクラスタ上に分散して保存するファイルシステムに分散ファイルシステムHDFSがあり、コンピュータクラスタ上に分散して処理するシステムに分散処理システムMapReduceがあります。HDFSとMapReduceを合わせたビッグデータ処理システムはHadoop(Apache Hadoop)という名前でオープンソースとして提供されています。さらに、複数のハードディスク上に分散して処理するMapReduceに対し、複数のメモリ上にデータを保存して処理するインメモリ型分散処理システのSpark(Apache Spark)があります。MapReduceは分散処理により大規模データ処理を可能にしているのに対し、Sparkはそれをインメモリで分散処理することで高速データ処理を可能にしています。
 

6.Linux

 これらのツールを駆使しデータ処理を可能にするOSとして、Linuxは非常に重要です。特にシェルと呼ばれるシステムを用いてツール通しのデータのやり取りをシームレスに処理でき、簡単な記述式のプログラムであるスクリプトを使用することで高速、自動化、大規模化が自在となるため、WindowsやMacOSXに比べてビッグデータ処理に向いています。
 
 ビッグデータ分析のためのスキルとしては、R、Python、SQL、Hadoop、Sparkなどが重要になってきます。
 

   続きを読むには・・・


この記事の著者

石井 一夫

ゲノム科学、ビッグデータとクラウドコンピューティングが専門です

ゲノム科学、ビッグデータとクラウドコンピューティングが専門です


「データマイニング/ビッグデータ」の他のキーワード解説記事

もっと見る
アクション系のデータとは データ分析講座(その105)

◆ 必ず整備されていないデータは“アクション系”  積極的にデータ分析がなされていない企業で、必ずと言っていいほど整備されて...

◆ 必ず整備されていないデータは“アクション系”  積極的にデータ分析がなされていない企業で、必ずと言っていいほど整備されて...


ビッグデータにまつわる病とは

 以前、ビッグデータの研究会で、私がデータ分析において過ちを犯していたことを思い出しました。ある画像データ1万枚を、良不良を判別するために解析精度がな...

 以前、ビッグデータの研究会で、私がデータ分析において過ちを犯していたことを思い出しました。ある画像データ1万枚を、良不良を判別するために解析精度がな...


ビッグデータとデータマイニング

 データマイニングは、大量のデータから有用な知識・情報を取り出す技術のことです。マイニングとは、鉱山から鉱物を掘り出す作業のことで、あたかもデータの山から...

 データマイニングは、大量のデータから有用な知識・情報を取り出す技術のことです。マイニングとは、鉱山から鉱物を掘り出す作業のことで、あたかもデータの山から...