より高度な分析にこだわる罠とは データ分析講座(その51)

更新日

投稿日

情報マネジメント

◆ 高度なデータ分析にこだわるほど、データ活用から遠のくという悲しい現実

 データ分析の実務を始めたころに、誰もが陥る罠があります。実は、人によっては、この罠から、なかなか抜け出せない人もいます。その罠とは、「より高度な分析にこだわる」という罠です。もしかしたら、この罠にはまることは、データ分析そのものや理論的な何かにこだわるのなら、大歓迎かもしれません。しかし、実務上は致命的です。この罠にはまっていないかを実務でのデータ活用が上手くいかない、と感じたときチャックしてみると良いと思います。

1. データ分析:予測精度が2%改善しました

 新卒2年目のデータサイエンティストがおりました。データ分析にもこなれなころで、統計モデルやら機械学習モデルやらも一通り知識だけはあります。最近はやりのディープラーニングもクラウド上に構築し、画像分類もできるようになっていました。そこで、ある商品の受注件数を予測するモデルを、一人で構築させてみました。非常にオーソドックスなモデル構築です。

 最初、「重回帰モデル」と呼ばれる単純なモデルで構築していました。受注件数を、複数の要因(例:営業リソース、見込み顧客数、など)で予測するモデルです。

 色々な書籍を読んでみると、どうもこの受注件数を予測するモデルは、「重回帰モデル」ではなく、「ポアソン回帰モデル」で構築した方が統計理論的にはより正しい。そのことに気づき、「ポアソン回帰モデル」で構築しなおしました。素晴らしいことです。

 さらに、色々な書籍を読んでみると、どうも「ポアソン回帰モデル」よりも「負の二項分布の回帰モデル」で構築した方が統計理論的にはより正しい。そのことに気づき、「負の二項分布の回帰モデル」で構築しなおしました。素晴らしいことです。勉強しながら、予測モデルを構築する、このような進め方をしていました。その結果、初期の「重回帰モデル」に比べ予測精度が2%改善し、とても素晴らしい予測モデルが出来上がりました。しかし、実務では使われることはありませんでした。

2. データ分析:なぜ使われないか

 なぜ、この素晴らしい予測モデルが実務で使われなかったのでしょうか。大きな原因の一つが、予測モデルが出来上がるまでに時間がかかりすぎ、使ってもらうタイミングを大きく逸したことがあります。

 このような問題は、往々にしてありがちです。「スピード」を取るか「クオリティ」を取るかという問題で、「クオリティ」を取ったがために活用されない。どんないハイクオリティであっても、活用されなければ、無駄なクオリティです。そのクオリティは活用されて初めて意味を持ちます。要するに、「クオリティ」よりも「スピード」を優先しないと、実務では活用してもらえないケースが多々あります。しかし、それだけが原因ではありません。

3. データ分析:「スピード」か「クオリティ」か

 初期の「重回帰モデル」に比べ予測精度が2%改善したことで、具体的にどれぐらいのアクションが変わるのでしょうか。業種業態や分野などで変わってくると思います。このときの2%の精度改善は、ほとんどアクションに影響ありませんでした。

 要するに、単純な「重回帰モデル」な予測結果から導き出されるアクションと、「負の二項分布の回帰モデル」の予測結果から導き出されるアクションに変化がなかった、ということです。

 予測モデルを構築する側としては、この数%の改善は重要なのかもしれませんが、活用する側から見たとき、たいして重要でなければ、この数%の改善は大きなインパクトはありません。おそらく、活用する側から見たとき、「それだけのために、こんなに時間をかけているの」となるでしょう。そうして、「スピード」よりも「クオリティ」を優先した結果がこれかよ、と思われるかもしれません。しかし、次の予測する機会に、このより高度な予測モデルを使ってもらえれば良いわけで、いくらでもこの後、使ってもらえる機会があります。

4. データ分析:他人に説明できないのであれば、実務で使わない

 より高度なモデルで、予測モデルを構築すればするほど、説明が難しくなります。そして、新卒2年目のデータサイエンティストが、「負の二項分布の回帰モデル」を活用する側の担当者に説明したとき、次のようなよくある声を頂戴しました。それは、「わけわからん」と言うことです。

 このケースでは、「負の二項分布の回帰モデル」がどのようなものかを説明する必要があります。正直、単純な「重回帰モデル」の方が説明は楽だし、直観的にもわかりやすいのです。覚えたての、より高度な何かを使うとき、他人に説明できないのであれば、データ分析の実務で使ってはいけません。

 他人に説明できないと、他人は理解できません。何よりも、他人に説明できていないということは、説明している本人もきちんと理解していない可能性があります。きちんと理解していない人が、理解していないもので分析を進めると、往々にして間違えます。間違えていることに気が付かないからです。怖いことです。要するに、「『スピード』よりも『クオリティ』を優先したあげくに、実務上素晴らしいモデルができたわけでもなく、挙句に何がどうなっているのかも理解できない」のであれば、活用する側としては、おそらく実務では活用しないことでしょう。

5. データ分析は、活用という観点で考えること

 今回は、「高度なデータ分析や、より高度な予測モデル構築にこだわるほど、データ活用から遠のくという悲しい現実」というお話しをしました。

 一見すると、より高度なデータ分析をしたり、より高度な予測モデルを構築した方が、一見するとよさそうに思えますが、活用という...

情報マネジメント

◆ 高度なデータ分析にこだわるほど、データ活用から遠のくという悲しい現実

 データ分析の実務を始めたころに、誰もが陥る罠があります。実は、人によっては、この罠から、なかなか抜け出せない人もいます。その罠とは、「より高度な分析にこだわる」という罠です。もしかしたら、この罠にはまることは、データ分析そのものや理論的な何かにこだわるのなら、大歓迎かもしれません。しかし、実務上は致命的です。この罠にはまっていないかを実務でのデータ活用が上手くいかない、と感じたときチャックしてみると良いと思います。

1. データ分析:予測精度が2%改善しました

 新卒2年目のデータサイエンティストがおりました。データ分析にもこなれなころで、統計モデルやら機械学習モデルやらも一通り知識だけはあります。最近はやりのディープラーニングもクラウド上に構築し、画像分類もできるようになっていました。そこで、ある商品の受注件数を予測するモデルを、一人で構築させてみました。非常にオーソドックスなモデル構築です。

 最初、「重回帰モデル」と呼ばれる単純なモデルで構築していました。受注件数を、複数の要因(例:営業リソース、見込み顧客数、など)で予測するモデルです。

 色々な書籍を読んでみると、どうもこの受注件数を予測するモデルは、「重回帰モデル」ではなく、「ポアソン回帰モデル」で構築した方が統計理論的にはより正しい。そのことに気づき、「ポアソン回帰モデル」で構築しなおしました。素晴らしいことです。

 さらに、色々な書籍を読んでみると、どうも「ポアソン回帰モデル」よりも「負の二項分布の回帰モデル」で構築した方が統計理論的にはより正しい。そのことに気づき、「負の二項分布の回帰モデル」で構築しなおしました。素晴らしいことです。勉強しながら、予測モデルを構築する、このような進め方をしていました。その結果、初期の「重回帰モデル」に比べ予測精度が2%改善し、とても素晴らしい予測モデルが出来上がりました。しかし、実務では使われることはありませんでした。

2. データ分析:なぜ使われないか

 なぜ、この素晴らしい予測モデルが実務で使われなかったのでしょうか。大きな原因の一つが、予測モデルが出来上がるまでに時間がかかりすぎ、使ってもらうタイミングを大きく逸したことがあります。

 このような問題は、往々にしてありがちです。「スピード」を取るか「クオリティ」を取るかという問題で、「クオリティ」を取ったがために活用されない。どんないハイクオリティであっても、活用されなければ、無駄なクオリティです。そのクオリティは活用されて初めて意味を持ちます。要するに、「クオリティ」よりも「スピード」を優先しないと、実務では活用してもらえないケースが多々あります。しかし、それだけが原因ではありません。

3. データ分析:「スピード」か「クオリティ」か

 初期の「重回帰モデル」に比べ予測精度が2%改善したことで、具体的にどれぐらいのアクションが変わるのでしょうか。業種業態や分野などで変わってくると思います。このときの2%の精度改善は、ほとんどアクションに影響ありませんでした。

 要するに、単純な「重回帰モデル」な予測結果から導き出されるアクションと、「負の二項分布の回帰モデル」の予測結果から導き出されるアクションに変化がなかった、ということです。

 予測モデルを構築する側としては、この数%の改善は重要なのかもしれませんが、活用する側から見たとき、たいして重要でなければ、この数%の改善は大きなインパクトはありません。おそらく、活用する側から見たとき、「それだけのために、こんなに時間をかけているの」となるでしょう。そうして、「スピード」よりも「クオリティ」を優先した結果がこれかよ、と思われるかもしれません。しかし、次の予測する機会に、このより高度な予測モデルを使ってもらえれば良いわけで、いくらでもこの後、使ってもらえる機会があります。

4. データ分析:他人に説明できないのであれば、実務で使わない

 より高度なモデルで、予測モデルを構築すればするほど、説明が難しくなります。そして、新卒2年目のデータサイエンティストが、「負の二項分布の回帰モデル」を活用する側の担当者に説明したとき、次のようなよくある声を頂戴しました。それは、「わけわからん」と言うことです。

 このケースでは、「負の二項分布の回帰モデル」がどのようなものかを説明する必要があります。正直、単純な「重回帰モデル」の方が説明は楽だし、直観的にもわかりやすいのです。覚えたての、より高度な何かを使うとき、他人に説明できないのであれば、データ分析の実務で使ってはいけません。

 他人に説明できないと、他人は理解できません。何よりも、他人に説明できていないということは、説明している本人もきちんと理解していない可能性があります。きちんと理解していない人が、理解していないもので分析を進めると、往々にして間違えます。間違えていることに気が付かないからです。怖いことです。要するに、「『スピード』よりも『クオリティ』を優先したあげくに、実務上素晴らしいモデルができたわけでもなく、挙句に何がどうなっているのかも理解できない」のであれば、活用する側としては、おそらく実務では活用しないことでしょう。

5. データ分析は、活用という観点で考えること

 今回は、「高度なデータ分析や、より高度な予測モデル構築にこだわるほど、データ活用から遠のくという悲しい現実」というお話しをしました。

 一見すると、より高度なデータ分析をしたり、より高度な予測モデルを構築した方が、一見するとよさそうに思えますが、活用という観点で考えると、あまりよい結果にはなりません。より高度になればなるほど、活用されにくくなるということです。マーケティングや営業などの人が介在するデータ活用では、特にそうです。では、どの程度高度なデータ分析やモデル構築であれば、よいのでしょうか。その見極めのための一番大きな試金石が、「分析者本人が他人に上手く説明できるかどうか」になります。実務で実施するデータ分析は、自分で説明できないものはやめましょう。間違った分析やモデル構築をするケースが多いからです。

 そして、説明できたとしても、やたらめったら時間がかかるようであれば、それも避けた方が良いでしょう。活用タイミングを逃すからです。理想は、「スピィーディにより高度な分析(もしくは、より高度な予測モデル構築)を実施し、他人にもきちんと説明できる」です。

 スピード面に不安があるときは、例えば予測モデル構築であれば、先ずは「単純な予測モデル」を構築し活用する側に渡し、残りの時間が許す限り「より高度は予測モデル」にチャレンジするのがよいでしょう。もちろん、他人に説明できるということが大前提ですが。

 もし、実務でのデータ活用が上手くいかない! と感じたら、いたずらに分析が小難しくなっていないかをチャックしてみると良いと思います。データ活用が上手く回るきっかけになるかもしれません。

 

   続きを読むには・・・


この記事の著者

高橋 威知郎

データネクロマンサー/データ分析・活用コンサルタント (埋もれたデータに花を咲かせる、データ分析界の花咲じじい。それほど年齢は重ねてないけど)

データネクロマンサー/データ分析・活用コンサルタント (埋もれたデータに花を咲かせる、データ分析界の花咲じじい。それほど年齢は重ねてないけど)


「情報マネジメント一般」の他のキーワード解説記事

もっと見る
課題発見型データ分析と課題解決型データ分析 データ分析講座(その225)

  【この連載の前回:データ分析講座(その224)5つのデータ分析へのリンク】 ◆関連解説『情報マネジメントとは』 データ分析といって...

  【この連載の前回:データ分析講座(その224)5つのデータ分析へのリンク】 ◆関連解説『情報マネジメントとは』 データ分析といって...


ABテストからExcelでも出来る差の差推定へ データ分析講座(その301)

  ABテストとは、例えばユーザをA群(処置群)とB群(統制群)に分け、どちらのほうが好成績を納めるのかをデータで確かめたりするアプローチ...

  ABテストとは、例えばユーザをA群(処置群)とB群(統制群)に分け、どちらのほうが好成績を納めるのかをデータで確かめたりするアプローチ...


需要予測とは データ分析講座(その211)

  コロナ禍で分かったのは、状況に対する適応力が必要ということです。変化する状況に対し、柔軟な在庫や人員配置などが求められることでしょう。...

  コロナ禍で分かったのは、状況に対する適応力が必要ということです。変化する状況に対し、柔軟な在庫や人員配置などが求められることでしょう。...


「情報マネジメント一般」の活用事例

もっと見る
‐販路開拓に関する問題 第2回‐ 製品・技術開発力強化策の事例(その18)

 販路開拓に関する問題点、次に示す4点について、第1回として、1と2項を解説しました。今回は、第2回として、3と4項を解説します。        1....

 販路開拓に関する問題点、次に示す4点について、第1回として、1と2項を解説しました。今回は、第2回として、3と4項を解説します。        1....


生産スピード向上と品質管理

 電子メールやインターネットの普及により、ビジネスのグローバル化が大きく進みましたが、IT技術の進歩は、品質管理の方法も進歩させました。20数年前は製造条...

 電子メールやインターネットの普及により、ビジネスのグローバル化が大きく進みましたが、IT技術の進歩は、品質管理の方法も進歩させました。20数年前は製造条...


中小企業のセキュリティ対策を考える

◆ 企業の情報セキュリティと新型コロナウィルス対策の今  先日、駅のプラットフォ-ムで並んでいる時に、控えめに咳をしたら、前に並んでいた人にすかさず...

◆ 企業の情報セキュリティと新型コロナウィルス対策の今  先日、駅のプラットフォ-ムで並んでいる時に、控えめに咳をしたら、前に並んでいた人にすかさず...