◆ 高度なデータ分析にこだわるほど、データ活用から遠のくという悲しい現実
データ分析の実務を始めたころに、誰もが陥る罠があります。実は、人によっては、この罠から、なかなか抜け出せない人もいます。その罠とは、「より高度な分析にこだわる」という罠です。もしかしたら、この罠にはまることは、データ分析そのものや理論的な何かにこだわるのなら、大歓迎かもしれません。しかし、実務上は致命的です。この罠にはまっていないかを実務でのデータ活用が上手くいかない、と感じたときチャックしてみると良いと思います。
1. データ分析:予測精度が2%改善しました
新卒2年目のデータサイエンティストがおりました。データ分析にもこなれなころで、統計モデルやら機械学習モデルやらも一通り知識だけはあります。最近はやりのディープラーニングもクラウド上に構築し、画像分類もできるようになっていました。そこで、ある商品の受注件数を予測するモデルを、一人で構築させてみました。非常にオーソドックスなモデル構築です。
最初、「重回帰モデル」と呼ばれる単純なモデルで構築していました。受注件数を、複数の要因(例:営業リソース、見込み顧客数、など)で予測するモデルです。
色々な書籍を読んでみると、どうもこの受注件数を予測するモデルは、「重回帰モデル」ではなく、「ポアソン回帰モデル」で構築した方が統計理論的にはより正しい。そのことに気づき、「ポアソン回帰モデル」で構築しなおしました。素晴らしいことです。
さらに、色々な書籍を読んでみると、どうも「ポアソン回帰モデル」よりも「負の二項分布の回帰モデル」で構築した方が統計理論的にはより正しい。そのことに気づき、「負の二項分布の回帰モデル」で構築しなおしました。素晴らしいことです。勉強しながら、予測モデルを構築する、このような進め方をしていました。その結果、初期の「重回帰モデル」に比べ予測精度が2%改善し、とても素晴らしい予測モデルが出来上がりました。しかし、実務では使われることはありませんでした。
2. データ分析:なぜ使われないか
なぜ、この素晴らしい予測モデルが実務で使われなかったのでしょうか。大きな原因の一つが、予測モデルが出来上がるまでに時間がかかりすぎ、使ってもらうタイミングを大きく逸したことがあります。
このような問題は、往々にしてありがちです。「スピード」を取るか「クオリティ」を取るかという問題で、「クオリティ」を取ったがために活用されない。どんないハイクオリティであっても、活用されなければ、無駄なクオリティです。そのクオリティは活用されて初めて意味を持ちます。要するに、「クオリティ」よりも「スピード」を優先しないと、実務では活用してもらえないケースが多々あります。しかし、それだけが原因ではありません。
3. データ分析:「スピード」か「クオリティ」か
初期の「重回帰モデル」に比べ予測精度が2%改善したことで、具体的にどれぐらいのアクションが変わるのでしょうか。業種業態や分野などで変わってくると思います。このときの2%の精度改善は、ほとんどアクションに影響ありませんでした。
要するに、単純な「重回帰モデル」な予測結果から導き出されるアクションと、「負の二項分布の回帰モデル」の予測結果から導き出されるアクションに変化がなかった、ということです。
予測モデルを構築する側としては、この数%の改善は重要なのかもしれませんが、活用する側から見たとき、たいして重要でなければ、この数%の改善は大きなインパクトはありません。おそらく、活用する側から見たとき、「それだけのために、こんなに時間をかけているの」となるでしょう。そうして、「スピード」よりも「クオリティ」を優先した結果がこれかよ、と思われるかもしれません。しかし、次の予測する機会に、このより高度な予測モデルを使ってもらえれば良いわけで、いくらでもこの後、使ってもらえる機会があります。
4. データ分析:他人に説明できないのであれば、実務で使わない
より高度なモデルで、予測モデルを構築すればするほど、説明が難しくなります。そして、新卒2年目のデータサイエンティストが、「負の二項分布の回帰モデル」を活用する側の担当者に説明したとき、次のようなよくある声を頂戴しました。それは、「わけわからん」と言うことです。
このケースでは、「負の二項分布の回帰モデル」がどのようなものかを説明する必要があります。正直、単純な「重回帰モデル」の方が説明は楽だし、直観的にもわかりやすいのです。覚えたての、より高度な何かを使うとき、他人に説明できないのであれば、データ分析の実務で使ってはいけません。
他人に説明できないと、他人は理解できません。何よりも、他人に説明できていないということは、説明している本人もきちんと理解していない可能性があります。きちんと理解していない人が、理解していないもので分析を進めると、往々にして間違えます。間違えていることに気が付かないからです。怖いことです。要するに、「『スピード』よりも『クオリティ』を優先したあげくに、実務上素晴らしいモデルができたわけでもなく、挙句に何がどうなっているのかも理解できない」のであれば、活用する側としては、おそらく実務では活用しないことでしょう。
5. データ分析は、活用という観点で考えること
今回は、「高度なデータ分析や、より高度な予測モデル構築にこだわるほど、データ活用から遠のくという悲しい現実」というお話しをしました。
一見すると、より高度なデータ分析をしたり、より高度な予測モデルを構築した方が、一見するとよさそうに思えますが、活用という...