◆ 精度が0.1%改善!だからどうしたと、周囲から不思議がられる分析結果
誰かを馬鹿にしたり、自虐的になっているわけでもありません。データ分析系の数理モデル(予測や判別、検知など)の精度に関する「呪い」です。試行錯誤の結果、予測精度や判別精度を高めることは重要なことですが、それがどのくらいのインパクトを持つかを考えることは、それ以上に重要なことです。予測精度が20%改善した、分類精度が10%向上した、このぐらいであれば、大きなインパクトがありそうです。
では、「予測精度が0.1%改善した」ではどうでしょうか。分野や何を対象にしているのか、掛けたコストにより、この数字の意味するところのインパクトは大きく異なるでしょう。場合によっては、大きなインパクトを得ることができず、コストの垂れ流しの憂き目にあうかもしれません。
今回は、「精度が0.1%改善!だからどうしたと、周囲から不思議がられる分析結果」についてのお話しです。
1. データ分析:コスパ度外視!
データ分析系のコンペは、昔からあります。その中で分かりやすいのは、精度を競うものです。数字で表されるため、プレゼンテーションなどが伴うものに比べ、非常に分かりやすいのです。それはそれで良いのですが、ビジネスのデータ分析にまで、過剰に精度を持ち込むのは得策ではありません。ビジネス系のデータ分析には、ビジネスへのインパクトの大きさというデータ分析の成果を求められるからです。
「データ分析のやり過ぎによる不効率」という現象は、何度も目の当たりにしたことがあります。
データ活用の恩恵として、何もしていないような組織やビジネス活動などに対し、データ分析のやり始めはそれなりのビジネス効果が現れます。伸びしろがたくさんあるからです。しかし、分析がある程度進むとやり始めの頃に比べ、得られるビジネス効果が小さくなります。伸びしろが少ないからです。コストパフォーマンスがみるみる悪くなります。
当たり前といえば当たり前のことなのですが、その小さな伸びしろに対し、多大なる労力をかけてしまい、不効率な状況を生み出してしまうことが結構起こります。往々にして、データ分析は効率化をけん引します。そんな分析が、分析そのものを不効率なものしてしまうにしてしまうという皮肉な現象です。
2. データ分析:ある若手データサイエンティストのお話し
20代のある若手データサイエンティストがおりました。その若手データサイエンティストは、ある画像の分類問題の精度を高めるため、色々な手法を試し、試行錯誤して分類精度を高めていきました。最初は、結構な勢いで精度が高くなっていきました。ある程度の精度になると、そこから精度を高めるのは大変です。かけた時間とコストに比べ、微々たる精度改善しか実現しません。
画像と分類問題とくれば、ディープラーニングです。ディープラーニングといえば、計算量です。多大なる計算量をどうにかするには、マシンスペックです。最近、はやりなのがクラウド環境です。
現在は便利なもので、高価な計算機(コンピュータ)を買ってこなくても、クラウド環境で何とかなります。クラウド環境の設定をいじって、使っている計算機のマシンスペックを上げればそれですみます。その手軽さの代償は、クラウド環境の利用料というコストで跳ね返ってきますが。実際、1カ月で0.1%の精度の改善に成功した代償として、数十万円という料金が請求されたということです。
0.1%の精度の改善のビジネスインパクトはどのくらいかといえば、ほぼ皆無でした。一度ですめば、それはそれで良いかもしれしれませんが、毎月新しいデータに対し、この方法を繰り返すということになり、どうしたものかとなったのでした。
3. データ分析:スピードとコストと精度の狭間
結局のところ、ビジネスで活用するなら、スピードの問題とコストの問題が出てきます。素晴らしい精度であっても、ビジネスタイミングを逃すような予測や分類では意味はありません。タイミングを逃すとは、必要な時にその予測結果や分類結果を得ることができないということです。
スピードの問題は、人の動き方やコンピュータのスペックの問題など、様々な問題が複合的に絡まってきますが、コンピュータだけに着目すれば、単に「マシンスペックを上げろ」ということになりがちです。
確かに、スペックを上げれば、スピードは上がるでしょう。しかし、多くの場合、スペックを上げるとコストがかかります。要するに、精度とスピードの両方を上げるにはコストがかかるということです。
コスト一定のもとでは、精度かスピードのどちらかを犠牲にする必要があります。その時どちらを犠牲にするかといえば、それは精度です。タイミングを逃せば、精度がどんなに高くても活用されないからです。何ともいえない問題ですが、仕方ありません。
4. データ分析:あなたならどうする
現実問題として、限られた予算と守るべきタイミングの中で、出来る限り精度を高める、ということに行きつきます。
精度を高めるため多大なる予算を使い、さらにタイミングまで逃したら目も当てられません。つまり、ビジネスインパクトを得るための最低条件として、決められたタイミングまでに予測なり分類なりの結果を出力する必要があるということです。そもそも、現実的に「どのくらいの精度」であれば使い物になるのでしょうか。「最低限必要な精度」とは、どの程度でしょうか。「求められる十分な精度」とは、どの程度なのでしょうか。
このような求められる精度に関して、活用視点からの議論が必要となることでしょう。
精度だけではありません。タイミングやコストに関しても同様です。決して、データ分析者やデータサイエンティストらの視点だけではなく、活用視点からの精度であり、タイミングであり、コストである必要があります。そのような議論は、どこかで行うタイミングは必ずあると思います。それは、分析結果などを報告する場ではなく、早め早めに議論しておくことが理想です。無駄に精度を高めるというリスクを避けられるからです。
5. 限られた予算と守るべきタイミングの中で、出来る限り精度を高める
今回は、「精度が0.1%改善!だからどうしたと、周囲から不思議がられる分析結果」というお話しをしました。
「データ分析者やデータサイエンティスト主導で、予測モデルや...