【ビッグデータ処理による機械学習・データマイニング 連載目次】
インターネットやクラウドコンピューティング、データ処理技術の進歩により
ビッグデータ処理が話題となっています。ビッグデータ処理は、ウェブログ解析やレコメンデーションに始まり、電子カルテやゲノム解析を中心とする医療ビッグデータ、気象ビッグデータ、ビッグデータマーケティングなどいろいろな分野に波及しています。その処理エンジンとしてのディープラーニングなどの機械学習や
データマイニングも注目されています。本稿では、ビッグデータ処理による機械学習、データマイニングについて解説します。今回は、その1です。
1. 機械学習とビッグデータの関係性
機械学習とは、人工知能における研究課題の一つで、人間が自然に行っている学習能力と同様の機能をコンピュータで実現しようとするものです。1)大量のデータを集め従来にない知見を見出すビッグデータの時代では、特にその応用に期待が集まっています。機械学習はインターネット等から情報を取り出す検索エンジン、医療診断、スパム(迷惑)メールの検出、金融市場の予測、DNA配列の分類、音声認識や文字認識などのパターン認識、戦略シミュレーションゲーム、自ら学習するロボットなど幅広い分野で用いられています。
一方、データマイニング(マイニング:「採掘」)2)とは、統計学、パターン認識、人工知能等のデータ解析の技法を大量のデータに網羅的に適用することで知識を取り出す技術です3)通常のデータの扱い方からは想像が及びにくい、ヒューリスティク(heuristic:発見的)な知識獲得が可能でする。とくにテキスト(文字列情報)を対象とするものをテキストマイニング、そのなかでもインターネットのウェブページを対象にしたものをウェブマイニングと呼びます。両者ともほぼ同様のツールを使い、ビッグデータ処理技術として重複する部分も多いようです。本稿では両者を取り分け区別せずデータ分析手法としての概要およびツールの最新トレンドを紹介して展望を示します。
2. 機械学習応用の事例4)
機械学習は,大まかにいって「分類」と「識別」の2つの機能があります。ここでは、ウェブ上に紹介されてる機械学習の事例を10点、解説します。
(1)スパムメールの検知
受信ボックスのなかのメールメッセージのどれがスパムメールでどれがそうでないかを識別する。
(2) クレジットカード不正検知
顧客のクレジットカード取引履歴から、それらの取引がその顧客によってなされたものか否かを識別する。
(3) 数字認識
封筒の上の手書きの郵便番号が書いてあるとき、その手書き文字の数字を識別する。
(4) 会話理解
人の会話の音声パターンから発声している内容の識別を行う。
(5) 顔検出
デジタル写真の特定の人物が写っている写真を他の人物と区別して識別する。
(6) 商品レコメンデーション
レコメンデーションとは、過去の購入履歴等から顧客一人一人の趣味や読書傾向を探り出し、それに合致すると思われる商品をホームページ上で重点的に顧客一人一人に推奨する機能です。例としてAmazon.co.jp では、そのユーザーが過去に購入したり閲覧したりした商品と、類似の商品のリストが自動的に提示されることが挙げられます。
(7) 医療診断
臨床診断において膨大な臨床検査データと医師の診断結果から相関する検査項目を選択して病気の患者や薬剤効果のある患者を識別することで、医療診断の支援を行う。
(8) 株式取引
現在と過去の株式の値動きから株価の変動規則を識別し株価を予測する。
(9) 顧客セグメンテーション
あるユーザーが試用期間に取った行動のパターンから、すべてのユーザーの過去の行動データをもとに有料バージョンへ移行するユーザーとしないユーザーを識別する。これらの結果はマーケティング戦略に利用したり、より見込みの高い顧客にアプローチをしたりする判断を支援する。
(10) 形状検出
ユーザーがタッチ・スクリーン上に手書きした形について、既知の形状データからそのユーザーの描こうとした形状を識別する。
次...