以前、ビッグデータの研究会で、私がデータ分析において過ちを犯していたことを思い出しました。ある画像データ1万枚を、良不良を判別するために解析精度がなかなかよくならない、なにかよい手立てはないかというものでした。
私は統計解析、データサイエンスに関しては、一通り学び実践していますが、ビッグデータ処理は扱いに慣れていません。機械学習の分析手法、サポートベクトルマシン、ランダムフォレスト、ディープラーニングなど、主査の先生に教えてもらいながら、手法を熟していきます。今回は、データ分析において、何を目的にその処理をするのかをテーマに解説します。
1.機械学習とは
データを与えて、機械学習のモデルを学習させて、予測する方法です。
- 学習データ:今回の事例では画像データ
- 学習器:機械学習のモデル
- 予測
2.機械学習の種類
- 教師あり学習:ロジスティクス回帰、サポートベクトルマシン、ランダムフォレスト、ニューラルネットワークなど
- 教師なし学習:主成分分析、K-means、混合ガウス分布など
- 教科学習
分析はできるのですが、解析結果、良不良の判別率が上がりません。
そこで私が取った行動は、データをクリーニングして、予測結果である判別率だけを上げることに固執しました。データ処理、扱い方に固執する考えです。
先生にその点を発表しましたら、鋭い評価を頂きました。
実際、良不良判定をしている作業者は、どんな点で良不良を判定しているのか、考えた方がよいでしょうね。解釈が上手くいかないならば、今後の再現性に疑問があります。
3.結果の扱い方
- 予測結果の精度を上げる
- 予測結果が予測データを解釈ための使う
- 実データから今後の予測する
ご尤もな評価であります。結果は出てきますが解釈が上手くいきません。データはあくまでもデータ。目的は良不良判定ですが、その理由が見つからなければ再現性がありません。
手法にこだわりを、流行の手法を駆使したからと言って解釈がともなわければ結局は意味がありません。何百万のデータを集めて、何百万のモデル式で分析したとしても同じです。目的は分析をするだけではなく、何を読み解くか、何を見つけるかです。
データから目的、課題に対してにどう活かせるか、どう反映させられるかです。
確かに製品企画において、顧客分析をしていますが、分析をしただけであったら師匠によく怒られました。ある製品に対してデータがどう活かせるかが必要です。仮に、その分析結果が悪かったとしても改善点、改良点が見つけられれば、結果的には問題は解決します。
数が膨大であれば、データ分析に対して時間もかかりますが、改善、改良は確実に向上...