ビッグデータにまつわる病とは

更新日 2022-07-01

投稿日 2019-11-07

　以前、ビッグデータの研究会で、私がデータ分析において過ちを犯していたことを思い出しました。ある画像データ1万枚を、良不良を判別するために解析精度がなかなかよくならない、なにかよい手立てはないかというものでした。

　私は統計解析、データサイエンスに関しては、一通り学び実践していますが、ビッグデータ処理は扱いに慣れていません。機械学習の分析手法、サポートベクトルマシン、ランダムフォレスト、ディープラーニングなど、主査の先生に教えてもらいながら、手法を熟していきます。今回は、データ分析において、何を目的にその処理をするのかをテーマに解説します。

1．機械学習とは

　データを与えて、機械学習のモデルを学習させて、予測する方法です。

学習データ：今回の事例では画像データ
学習器：機械学習のモデル
予測

2．機械学習の種類

教師あり学習：ロジスティクス回帰、サポートベクトルマシン、ランダムフォレスト、ニューラルネットワークなど
教師なし学習：主成分分析、K-means、混合ガウス分布など
教科学習

　分析はできるのですが、解析結果、良不良の判別率が上がりません。

　そこで私が取った行動は、データをクリーニングして、予測結果である判別率だけを上げることに固執しました。データ処理、扱い方に固執する考えです。

　先生にその点を発表しましたら、鋭い評価を頂きました。

　実際、良不良判定をしている作業者は、どんな点で良不良を判定しているのか、考えた方がよいでしょうね。解釈が上手くいかないならば、今後の再現性に疑問があります。

3．結果の扱い方

予測結果の精度を上げる
予測結果が予測データを解釈ための使う
実データから今後の予測する

　ご尤もな評価であります。結果は出てきますが解釈が上手くいきません。データはあくまでもデータ。目的は良不良判定ですが、その理由が見つからなければ再現性がありません。

　手法にこだわりを、流行の手法を駆使したからと言って解釈がともなわければ結局は意味がありません。何百万のデータを集めて、何百万のモデル式で分析したとしても同じです。目的は分析をするだけではなく、何を読み解くか、何を見つけるかです。

　データから目的、課題に対してにどう活かせるか、どう反映させられるかです。

　確かに製品企画において、顧客分析をしていますが、分析をしただけであったら師匠によく怒られました。ある製品に対してデータがどう活かせるかが必要です。仮に、その分析結果が悪かったとしても改善点、改良点が見つけられれば、結果的には問題は解決します。

　数が膨大であれば、データ分析に対して時間もかかりますが、改善、改良は確実に向上...

　以前、ビッグデータの研究会で、私がデータ分析において過ちを犯していたことを思い出しました。ある画像データ1万枚を、良不良を判別するために解析精度がなかなかよくならない、なにかよい手立てはないかというものでした。

　私は統計解析、データサイエンスに関しては、一通り学び実践していますが、ビッグデータ処理は扱いに慣れていません。機械学習の分析手法、サポートベクトルマシン、ランダムフォレスト、ディープラーニングなど、主査の先生に教えてもらいながら、手法を熟していきます。今回は、データ分析において、何を目的にその処理をするのかをテーマに解説します。

1．機械学習とは

　データを与えて、機械学習のモデルを学習させて、予測する方法です。

学習データ：今回の事例では画像データ
学習器：機械学習のモデル
予測

2．機械学習の種類

教師あり学習：ロジスティクス回帰、サポートベクトルマシン、ランダムフォレスト、ニューラルネットワークなど
教師なし学習：主成分分析、K-means、混合ガウス分布など
教科学習

　分析はできるのですが、解析結果、良不良の判別率が上がりません。

　そこで私が取った行動は、データをクリーニングして、予測結果である判別率だけを上げることに固執しました。データ処理、扱い方に固執する考えです。

　先生にその点を発表しましたら、鋭い評価を頂きました。

　実際、良不良判定をしている作業者は、どんな点で良不良を判定しているのか、考えた方がよいでしょうね。解釈が上手くいかないならば、今後の再現性に疑問があります。

3．結果の扱い方

予測結果の精度を上げる
予測結果が予測データを解釈ための使う
実データから今後の予測する

　ご尤もな評価であります。結果は出てきますが解釈が上手くいきません。データはあくまでもデータ。目的は良不良判定ですが、その理由が見つからなければ再現性がありません。

　手法にこだわりを、流行の手法を駆使したからと言って解釈がともなわければ結局は意味がありません。何百万のデータを集めて、何百万のモデル式で分析したとしても同じです。目的は分析をするだけではなく、何を読み解くか、何を見つけるかです。

　データから目的、課題に対してにどう活かせるか、どう反映させられるかです。

　確かに製品企画において、顧客分析をしていますが、分析をしただけであったら師匠によく怒られました。ある製品に対してデータがどう活かせるかが必要です。仮に、その分析結果が悪かったとしても改善点、改良点が見つけられれば、結果的には問題は解決します。

　数が膨大であれば、データ分析に対して時間もかかりますが、改善、改良は確実に向上していきます。データ分析をしていると、目的に対してどう活用するより、データ処理に焦点を当ててしまいがちです。組織はテクニックに興味ありません。そこで時間も、投資も行っています。

　データから何を見つけられるか、データ分析者が作業をただしているのでは意味がありません。なにを目的にその処理をするのか、それを忘れないように痛感した出来事でした。

4．実務での扱い方

良不良判定の解釈と活用方法
今後、人間による判断から、ビッグデータ分析に変える

【参考文献】加藤公一監修、秋庭伸也他著『機械学習図鑑』翔泳社、2019年

◆関連解説『情報マネジメントとは』

　続きを読むには・・・

新規会員登録

この記事の著者

石川朋雄

石川朋雄

有限会社企画システムコンサルティング

日本のものづくりは品質向上に切磋琢磨し，高品質な商品を開発しました。高品質商品と顧客価値創造を融合する商品企画のシステム化を提案します。

この記事の著者

石川朋雄

日本のものづくりは品質向上に切磋琢磨し，高品質な商品を開発しました。高品質商品と顧客価値創造を融合する商品企画のシステム化を提案します。

日本のものづくりは品質向上に切磋琢磨し，高品質な商品を開発しました。高品質商品と顧客価値創造を融合する商品企画のシステム化を提案します。

「データマイニング／ビッグデータ」の他のキーワード解説記事

もっと見る

ビッグデータ処理による機械学習・データマイニング【連載記事紹介】

ビッグデータ処理による機械学習・データマイニング【連載記事紹介】

ビッグデータ処理による機械学習・データマイニングの記事が、無料でお読みいただけます！【特集】連載記事紹介の一覧へ戻...

ビッグデータ処理による機械学習・データマイニングの記事が、無料でお読みいただけます！【特集】連載記事紹介の一覧へ戻...

ビッグデータ処理による機械学習・データマイニング（その1）

ビッグデータ処理による機械学習・データマイニング（その1）

【ビッグデータ処理による機械学習・データマイニング連載目次】 1. 機械学習とビッグデータの関係性 2. 機械学習法と数理モデリング...

【ビッグデータ処理による機械学習・データマイニング連載目次】 1. 機械学習とビッグデータの関係性 2. 機械学習法と数理モデリング...

データサイエンスとは？データサイエンティストの役割は？必要なツールも紹介

データサイエンスとは？データサイエンティストの役割は？必要なツールも紹介

データサイエンスは、統計学、機械学習、コンピュータサイエンスを駆使して、大量のデータから価値ある洞察を抽出する科学技術です。現代のビジ...

データサイエンスは、統計学、機械学習、コンピュータサイエンスを駆使して、大量のデータから価値ある洞察を抽出する科学技術です。現代のビジ...

「データマイニング／ビッグデータ」の活用事例

もっと見る

デジタルツインで日本の社会課題の解決に挑む

デジタルツインで日本の社会課題の解決に挑む

中小企業のデジタル投資余力や人材不足の課題解決に貢献したい中部電力株式会社製造業企業のデジタル化を⽀援する「ものづくり共創プラットフォーム」を構築...

中小企業のデジタル投資余力や人材不足の課題解決に貢献したい中部電力株式会社製造業企業のデジタル化を⽀援する「ものづくり共創プラットフォーム」を構築...

中部最大級！製造業の展示会　ものづくりワールド名古屋　2025.4.9-11

カリキュラム_半導体

カリキュラム_品質管理

広告掲載をご希望の方