データマイニングに使われるツール、特にビッグデータを用いたデータマイニングツールにはどのようなものがあるか、以下にまとめます。
1.スプレッドシート
いわゆるエクセル(Microsoft Excel)です。コンピュータに詳しくないコンピュータの初心者にはとっつきやすくデータ分析にはよく使われます。しかし、数値の処理に正確さがかける、大きなデータの処理には向かないなどの理由からエキスパートは避ける傾向にあります。データ分析者が、最終的なデータをコンピュータに詳しくない解析依頼者に渡す場合のフォーマットとしてはよく使われます。
2.汎用統計解析ソフト
製薬業界ではSASが、社会科学領域ではSPSSが、工学領域ではMATLABが、数学領域ではMathematica が人気です。統計学全般的にRというオープンソースソフトウェアが人気になっています。データサイエンティストはRが使えることが必須と言われています。しかし、Rはメモリ使用量が大きく、計算速度が遅いことが問題となっています。これに対し、汎用インタプリタ言語のPythonに数理計算、統計計算用の関数群であるモジュールを追加することで、汎用統計解析が可能になってきています。また、最近ではRに代わりPythonも、Rより高速で、大容量メモリの使用が可能であるために使われるようになっています。
3.データベース
市販ソフトではオラクルやDB2(IBM)、SQL Server(Microsoft)などが用いられますが、オープンソースソフトウェアでは、MySQLおよびPostgreSQLなどが用いられます。
4.NoSQLデータベース
従来のデータベースで処理しきれないスケールのデータを通常ビッグデータと呼びます。それらのビッグデータを処理するための従来のSQLのスキームによらないデータベースはNoSQLと呼ばれます。産業界により提供されたものとして、GoogleのBigTable、アマゾンのAmazon DynamoDBなどがあります。オープンソースとしては、例えばMongoDB、 Redis、Apache HBase、Apache Cassandraなどがあります。
5.ビッグデータ処理ツール
従来のデータベースで処理しきれないスケールのデータを、コンピュータクラスタ上に分散して保存するファイルシステムに分散ファイルシステムHDFSがあり、コンピュータクラスタ上に分散して処理するシステムに分散処理システムMapReduceがあります。HDFSとMapReduceを合わせたビッグデータ処理システムはHadoop(Apache Hadoop)という名前でオープンソースとして提供されています。さらに、複数のハードディスク上に分散して処理するMapReduceに対し、複数のメモリ上にデータを保存して処理するインメモリ型分散処理システのSpark(Apache Spark)があります。MapReduce...