より高度な分析にこだわる罠とは データ分析講座(その51)

更新日

投稿日

情報マネジメント

◆ 高度なデータ分析にこだわるほど、データ活用から遠のくという悲しい現実

 データ分析の実務を始めたころに、誰もが陥る罠があります。実は、人によっては、この罠から、なかなか抜け出せない人もいます。その罠とは、「より高度な分析にこだわる」という罠です。もしかしたら、この罠にはまることは、データ分析そのものや理論的な何かにこだわるのなら、大歓迎かもしれません。しかし、実務上は致命的です。この罠にはまっていないかを実務でのデータ活用が上手くいかない、と感じたときチャックしてみると良いと思います。

1. データ分析:予測精度が2%改善しました

 新卒2年目のデータサイエンティストがおりました。データ分析にもこなれなころで、統計モデルやら機械学習モデルやらも一通り知識だけはあります。最近はやりのディープラーニングもクラウド上に構築し、画像分類もできるようになっていました。そこで、ある商品の受注件数を予測するモデルを、一人で構築させてみました。非常にオーソドックスなモデル構築です。

 最初、「重回帰モデル」と呼ばれる単純なモデルで構築していました。受注件数を、複数の要因(例:営業リソース、見込み顧客数、など)で予測するモデルです。

 色々な書籍を読んでみると、どうもこの受注件数を予測するモデルは、「重回帰モデル」ではなく、「ポアソン回帰モデル」で構築した方が統計理論的にはより正しい。そのことに気づき、「ポアソン回帰モデル」で構築しなおしました。素晴らしいことです。

 さらに、色々な書籍を読んでみると、どうも「ポアソン回帰モデル」よりも「負の二項分布の回帰モデル」で構築した方が統計理論的にはより正しい。そのことに気づき、「負の二項分布の回帰モデル」で構築しなおしました。素晴らしいことです。勉強しながら、予測モデルを構築する、このような進め方をしていました。その結果、初期の「重回帰モデル」に比べ予測精度が2%改善し、とても素晴らしい予測モデルが出来上がりました。しかし、実務では使われることはありませんでした。

2. データ分析:なぜ使われないか

 なぜ、この素晴らしい予測モデルが実務で使われなかったのでしょうか。大きな原因の一つが、予測モデルが出来上がるまでに時間がかかりすぎ、使ってもらうタイミングを大きく逸したことがあります。

 このような問題は、往々にしてありがちです。「スピード」を取るか「クオリティ」を取るかという問題で、「クオリティ」を取ったがために活用されない。どんないハイクオリティであっても、活用されなければ、無駄なクオリティです。そのクオリティは活用されて初めて意味を持ちます。要するに、「クオリティ」よりも「スピード」を優先しないと、実務では活用してもらえないケースが多々あります。しかし、それだけが原因ではありません。

3. データ分析:「スピード」か「クオリティ」か

 初期の「重回帰モデル」に比べ予測精度が2%改善したことで、具体的にどれぐらいのアクションが変わるのでしょうか。業種業態や分野などで変わってくると思います。このときの2%の精度改善は、ほとんどアクションに影響ありませんでした。

 要するに、単純な「重回帰モデル」な予測結果から導き出されるアクションと、「負の二項分布の回帰モデル」の予測結果から導き出されるアクションに変化がなかった、ということです。

 予測モデルを構築する側としては、この数%の改善は重要なのかもしれませんが、活用する側から見たとき、たいして重要でなければ、この数%の改善は大きなインパクトはありません。おそらく、活用する側から見たとき、「それだけのために、こんなに時間をかけているの」となるでしょう。そうして、「スピード」よりも「クオリティ」を優先した結果がこれかよ、と思われるかもしれません。しかし、次の予測する機会に、このより高度な予測モデルを使ってもらえれば良いわけで、いくらでもこの後、使ってもらえる機会があります。

4. データ分析:他人に説明できないのであれば、実務で使わない

 より高度なモデルで、予測モデルを構築すればするほど、説明が難しくなります。そして、新卒2年目のデータサイエンティストが、「負の二項分布の回帰モデル」を活用する側の担当者に説明したとき、次のようなよくある声を頂戴しました。それは、「わけわからん」と言うことです。

 このケースでは、「負の二項分布の回帰モデル」がどのようなものかを説明する必要があります。正直、単純な「重回帰モデル」の方が説明は楽だし、直観的にもわかりやすいのです。覚えたての、より高度な何かを使うとき、他人に説明できないのであれば、データ分析の実務で使ってはいけません。

 他人に説明できないと、他人は理解できません。何よりも、他人に説明できていないということは、説明している本人もきちんと理解していない可能性があります。きちんと理解していない人が、理解していないもので分析を進めると、往々にして間違えます。間違えていることに気が付かないからです。怖いことです。要するに、「『スピード』よりも『クオリティ』を優先したあげくに、実務上素晴らしいモデルができたわけでもなく、挙句に何がどうなっているのかも理解できない」のであれば、活用する側としては、おそらく実務では活用しないことでしょう。

5. データ分析は、活用という観点で考えること

 今回は、「高度なデータ分析や、より高度な予測モデル構築にこだわるほど、データ活用から遠のくという悲しい現実」というお話しをしました。

 一見すると、より高度なデータ分析をしたり、より高度な予測モデルを構築した方が、一見するとよさそうに思えますが、活用という...

情報マネジメント

◆ 高度なデータ分析にこだわるほど、データ活用から遠のくという悲しい現実

 データ分析の実務を始めたころに、誰もが陥る罠があります。実は、人によっては、この罠から、なかなか抜け出せない人もいます。その罠とは、「より高度な分析にこだわる」という罠です。もしかしたら、この罠にはまることは、データ分析そのものや理論的な何かにこだわるのなら、大歓迎かもしれません。しかし、実務上は致命的です。この罠にはまっていないかを実務でのデータ活用が上手くいかない、と感じたときチャックしてみると良いと思います。

1. データ分析:予測精度が2%改善しました

 新卒2年目のデータサイエンティストがおりました。データ分析にもこなれなころで、統計モデルやら機械学習モデルやらも一通り知識だけはあります。最近はやりのディープラーニングもクラウド上に構築し、画像分類もできるようになっていました。そこで、ある商品の受注件数を予測するモデルを、一人で構築させてみました。非常にオーソドックスなモデル構築です。

 最初、「重回帰モデル」と呼ばれる単純なモデルで構築していました。受注件数を、複数の要因(例:営業リソース、見込み顧客数、など)で予測するモデルです。

 色々な書籍を読んでみると、どうもこの受注件数を予測するモデルは、「重回帰モデル」ではなく、「ポアソン回帰モデル」で構築した方が統計理論的にはより正しい。そのことに気づき、「ポアソン回帰モデル」で構築しなおしました。素晴らしいことです。

 さらに、色々な書籍を読んでみると、どうも「ポアソン回帰モデル」よりも「負の二項分布の回帰モデル」で構築した方が統計理論的にはより正しい。そのことに気づき、「負の二項分布の回帰モデル」で構築しなおしました。素晴らしいことです。勉強しながら、予測モデルを構築する、このような進め方をしていました。その結果、初期の「重回帰モデル」に比べ予測精度が2%改善し、とても素晴らしい予測モデルが出来上がりました。しかし、実務では使われることはありませんでした。

2. データ分析:なぜ使われないか

 なぜ、この素晴らしい予測モデルが実務で使われなかったのでしょうか。大きな原因の一つが、予測モデルが出来上がるまでに時間がかかりすぎ、使ってもらうタイミングを大きく逸したことがあります。

 このような問題は、往々にしてありがちです。「スピード」を取るか「クオリティ」を取るかという問題で、「クオリティ」を取ったがために活用されない。どんないハイクオリティであっても、活用されなければ、無駄なクオリティです。そのクオリティは活用されて初めて意味を持ちます。要するに、「クオリティ」よりも「スピード」を優先しないと、実務では活用してもらえないケースが多々あります。しかし、それだけが原因ではありません。

3. データ分析:「スピード」か「クオリティ」か

 初期の「重回帰モデル」に比べ予測精度が2%改善したことで、具体的にどれぐらいのアクションが変わるのでしょうか。業種業態や分野などで変わってくると思います。このときの2%の精度改善は、ほとんどアクションに影響ありませんでした。

 要するに、単純な「重回帰モデル」な予測結果から導き出されるアクションと、「負の二項分布の回帰モデル」の予測結果から導き出されるアクションに変化がなかった、ということです。

 予測モデルを構築する側としては、この数%の改善は重要なのかもしれませんが、活用する側から見たとき、たいして重要でなければ、この数%の改善は大きなインパクトはありません。おそらく、活用する側から見たとき、「それだけのために、こんなに時間をかけているの」となるでしょう。そうして、「スピード」よりも「クオリティ」を優先した結果がこれかよ、と思われるかもしれません。しかし、次の予測する機会に、このより高度な予測モデルを使ってもらえれば良いわけで、いくらでもこの後、使ってもらえる機会があります。

4. データ分析:他人に説明できないのであれば、実務で使わない

 より高度なモデルで、予測モデルを構築すればするほど、説明が難しくなります。そして、新卒2年目のデータサイエンティストが、「負の二項分布の回帰モデル」を活用する側の担当者に説明したとき、次のようなよくある声を頂戴しました。それは、「わけわからん」と言うことです。

 このケースでは、「負の二項分布の回帰モデル」がどのようなものかを説明する必要があります。正直、単純な「重回帰モデル」の方が説明は楽だし、直観的にもわかりやすいのです。覚えたての、より高度な何かを使うとき、他人に説明できないのであれば、データ分析の実務で使ってはいけません。

 他人に説明できないと、他人は理解できません。何よりも、他人に説明できていないということは、説明している本人もきちんと理解していない可能性があります。きちんと理解していない人が、理解していないもので分析を進めると、往々にして間違えます。間違えていることに気が付かないからです。怖いことです。要するに、「『スピード』よりも『クオリティ』を優先したあげくに、実務上素晴らしいモデルができたわけでもなく、挙句に何がどうなっているのかも理解できない」のであれば、活用する側としては、おそらく実務では活用しないことでしょう。

5. データ分析は、活用という観点で考えること

 今回は、「高度なデータ分析や、より高度な予測モデル構築にこだわるほど、データ活用から遠のくという悲しい現実」というお話しをしました。

 一見すると、より高度なデータ分析をしたり、より高度な予測モデルを構築した方が、一見するとよさそうに思えますが、活用という観点で考えると、あまりよい結果にはなりません。より高度になればなるほど、活用されにくくなるということです。マーケティングや営業などの人が介在するデータ活用では、特にそうです。では、どの程度高度なデータ分析やモデル構築であれば、よいのでしょうか。その見極めのための一番大きな試金石が、「分析者本人が他人に上手く説明できるかどうか」になります。実務で実施するデータ分析は、自分で説明できないものはやめましょう。間違った分析やモデル構築をするケースが多いからです。

 そして、説明できたとしても、やたらめったら時間がかかるようであれば、それも避けた方が良いでしょう。活用タイミングを逃すからです。理想は、「スピィーディにより高度な分析(もしくは、より高度な予測モデル構築)を実施し、他人にもきちんと説明できる」です。

 スピード面に不安があるときは、例えば予測モデル構築であれば、先ずは「単純な予測モデル」を構築し活用する側に渡し、残りの時間が許す限り「より高度は予測モデル」にチャレンジするのがよいでしょう。もちろん、他人に説明できるということが大前提ですが。

 もし、実務でのデータ活用が上手くいかない! と感じたら、いたずらに分析が小難しくなっていないかをチャックしてみると良いと思います。データ活用が上手く回るきっかけになるかもしれません。

 

   続きを読むには・・・


この記事の著者

高橋 威知郎

データネクロマンサー/データ分析・活用コンサルタント (埋もれたデータに花を咲かせる、データ分析界の花咲じじい。それほど年齢は重ねてないけど)

データネクロマンサー/データ分析・活用コンサルタント (埋もれたデータに花を咲かせる、データ分析界の花咲じじい。それほど年齢は重ねてないけど)


「情報マネジメント一般」の他のキーワード解説記事

もっと見る
ABテストからExcelでも出来る差の差推定へ データ分析講座(その301)

  ABテストとは、例えばユーザをA群(処置群)とB群(統制群)に分け、どちらのほうが好成績を納めるのかをデータで確かめたりするアプローチ...

  ABテストとは、例えばユーザをA群(処置群)とB群(統制群)に分け、どちらのほうが好成績を納めるのかをデータで確かめたりするアプローチ...


孫氏の教え(各個撃破せよ!) データ分析講座(その201)

  「あなたはデータを活用し、利益を生み出しつづけていますか?」 はたしてどうかなと思われた方は、財務諸表を見るといいでしょう。財務諸表と...

  「あなたはデータを活用し、利益を生み出しつづけていますか?」 はたしてどうかなと思われた方は、財務諸表を見るといいでしょう。財務諸表と...


理解されやすく成果の出やすいデータ分析 データ分析講座(その95)

◆ 「それなりにデータはあるが、まともなデータがない」時にすべきこと  私は仕事柄、次のような質問をよくします。「データの状況どうですか?」。当然な...

◆ 「それなりにデータはあるが、まともなデータがない」時にすべきこと  私は仕事柄、次のような質問をよくします。「データの状況どうですか?」。当然な...


「情報マネジメント一般」の活用事例

もっと見る
人的資源マネジメント:製品開発の滞留を引き起こすファイルとは(その2)

 今回は、PDM/PLMに代表される製品開発業務のIT化をどのように考え、進めるのがよいのかについて解説します。    前回まで続けていたテ...

 今回は、PDM/PLMに代表される製品開発業務のIT化をどのように考え、進めるのがよいのかについて解説します。    前回まで続けていたテ...


中小企業のセキュリティ対策を考える

◆ 企業の情報セキュリティと新型コロナウィルス対策の今  先日、駅のプラットフォ-ムで並んでいる時に、控えめに咳をしたら、前に並んでいた人にすかさず...

◆ 企業の情報セキュリティと新型コロナウィルス対策の今  先日、駅のプラットフォ-ムで並んでいる時に、控えめに咳をしたら、前に並んでいた人にすかさず...


既存コア技術強化のためのオープン・イノベーション:富士フイルムの例

 2015年7月20日号の日経ビジネスに、富士フイルムの特集が掲載されました。富士フイルムは、既存コア技術強化のためにオープン・イノベーションを果敢に...

 2015年7月20日号の日経ビジネスに、富士フイルムの特集が掲載されました。富士フイルムは、既存コア技術強化のためにオープン・イノベーションを果敢に...