ビジネスに貢献し周囲に認められ感謝されるデータ分析 データ分析講座(その74)

更新日

投稿日

情報マネジメント

◆ 精度が0.1%改善!だからどうしたと、周囲から不思議がられる分析結果

 誰かを馬鹿にしたり、自虐的になっているわけでもありません。データ分析系の数理モデル(予測や判別、検知など)の精度に関する「呪い」です。試行錯誤の結果、予測精度や判別精度を高めることは重要なことですが、それがどのくらいのインパクトを持つかを考えることは、それ以上に重要なことです。予測精度が20%改善した、分類精度が10%向上した、このぐらいであれば、大きなインパクトがありそうです。

 では、「予測精度が0.1%改善した」ではどうでしょうか。分野や何を対象にしているのか、掛けたコストにより、この数字の意味するところのインパクトは大きく異なるでしょう。場合によっては、大きなインパクトを得ることができず、コストの垂れ流しの憂き目にあうかもしれません。

 今回は、「精度が0.1%改善!だからどうしたと、周囲から不思議がられる分析結果」についてのお話しです。

1. データ分析:コスパ度外視!

 データ分析系のコンペは、昔からあります。その中で分かりやすいのは、精度を競うものです。数字で表されるため、プレゼンテーションなどが伴うものに比べ、非常に分かりやすいのです。それはそれで良いのですが、ビジネスのデータ分析にまで、過剰に精度を持ち込むのは得策ではありません。ビジネス系のデータ分析には、ビジネスへのインパクトの大きさというデータ分析の成果を求められるからです。

 「データ分析のやり過ぎによる不効率」という現象は、何度も目の当たりにしたことがあります。

 データ活用の恩恵として、何もしていないような組織やビジネス活動などに対し、データ分析のやり始めはそれなりのビジネス効果が現れます。伸びしろがたくさんあるからです。しかし、分析がある程度進むとやり始めの頃に比べ、得られるビジネス効果が小さくなります。伸びしろが少ないからです。コストパフォーマンスがみるみる悪くなります。

 当たり前といえば当たり前のことなのですが、その小さな伸びしろに対し、多大なる労力をかけてしまい、不効率な状況を生み出してしまうことが結構起こります。往々にして、データ分析は効率化をけん引します。そんな分析が、分析そのものを不効率なものしてしまうにしてしまうという皮肉な現象です。

2. データ分析:ある若手データサイエンティストのお話し

 20代のある若手データサイエンティストがおりました。その若手データサイエンティストは、ある画像の分類問題の精度を高めるため、色々な手法を試し、試行錯誤して分類精度を高めていきました。最初は、結構な勢いで精度が高くなっていきました。ある程度の精度になると、そこから精度を高めるのは大変です。かけた時間とコストに比べ、微々たる精度改善しか実現しません。

 画像と分類問題とくれば、ディープラーニングです。ディープラーニングといえば、計算量です。多大なる計算量をどうにかするには、マシンスペックです。最近、はやりなのがクラウド環境です。

 現在は便利なもので、高価な計算機(コンピュータ)を買ってこなくても、クラウド環境で何とかなります。クラウド環境の設定をいじって、使っている計算機のマシンスペックを上げればそれですみます。その手軽さの代償は、クラウド環境の利用料というコストで跳ね返ってきますが。実際、1カ月で0.1%の精度の改善に成功した代償として、数十万円という料金が請求されたということです。

 0.1%の精度の改善のビジネスインパクトはどのくらいかといえば、ほぼ皆無でした。一度ですめば、それはそれで良いかもしれしれませんが、毎月新しいデータに対し、この方法を繰り返すということになり、どうしたものかとなったのでした。

3. データ分析:スピードとコストと精度の狭間

 結局のところ、ビジネスで活用するなら、スピードの問題とコストの問題が出てきます。素晴らしい精度であっても、ビジネスタイミングを逃すような予測や分類では意味はありません。タイミングを逃すとは、必要な時にその予測結果や分類結果を得ることができないということです。

 スピードの問題は、人の動き方やコンピュータのスペックの問題など、様々な問題が複合的に絡まってきますが、コンピュータだけに着目すれば、単に「マシンスペックを上げろ」ということになりがちです。

 確かに、スペックを上げれば、スピードは上がるでしょう。しかし、多くの場合、スペックを上げるとコストがかかります。要するに、精度とスピードの両方を上げるにはコストがかかるということです。

 コスト一定のもとでは、精度かスピードのどちらかを犠牲にする必要があります。その時どちらを犠牲にするかといえば、それは精度です。タイミングを逃せば、精度がどんなに高くても活用されないからです。何ともいえない問題ですが、仕方ありません。

4. データ分析:あなたならどうする

 現実問題として、限られた予算と守るべきタイミングの中で、出来る限り精度を高める、ということに行きつきます。

 精度を高めるため多大なる予算を使い、さらにタイミングまで逃したら目も当てられません。つまり、ビジネスインパクトを得るための最低条件として、決められたタイミングまでに予測なり分類なりの結果を出力する必要があるということです。そもそも、現実的に「どのくらいの精度」であれば使い物になるのでしょうか。「最低限必要な精度」とは、どの程度でしょうか。「求められる十分な精度」とは、どの程度なのでしょうか。

 このような求められる精度に関して、活用視点からの議論が必要となることでしょう。

 精度だけではありません。タイミングやコストに関しても同様です。決して、データ分析者やデータサイエンティストらの視点だけではなく、活用視点からの精度であり、タイミングであり、コストである必要があります。そのような議論は、どこかで行うタイミングは必ずあると思います。それは、分析結果などを報告する場ではなく、早め早めに議論しておくことが理想です。無駄に精度を高めるというリスクを避けられるからです。

5. 限られた予算と守るべきタイミングの中で、出来る限り精度を高める

 今回は、「精度が0.1%改善!だからどうしたと、周囲から不思議がられる分析結果」というお話しをしました。

 「データ分析者やデータサイエンティスト主導で、予測モデルや...

情報マネジメント

◆ 精度が0.1%改善!だからどうしたと、周囲から不思議がられる分析結果

 誰かを馬鹿にしたり、自虐的になっているわけでもありません。データ分析系の数理モデル(予測や判別、検知など)の精度に関する「呪い」です。試行錯誤の結果、予測精度や判別精度を高めることは重要なことですが、それがどのくらいのインパクトを持つかを考えることは、それ以上に重要なことです。予測精度が20%改善した、分類精度が10%向上した、このぐらいであれば、大きなインパクトがありそうです。

 では、「予測精度が0.1%改善した」ではどうでしょうか。分野や何を対象にしているのか、掛けたコストにより、この数字の意味するところのインパクトは大きく異なるでしょう。場合によっては、大きなインパクトを得ることができず、コストの垂れ流しの憂き目にあうかもしれません。

 今回は、「精度が0.1%改善!だからどうしたと、周囲から不思議がられる分析結果」についてのお話しです。

1. データ分析:コスパ度外視!

 データ分析系のコンペは、昔からあります。その中で分かりやすいのは、精度を競うものです。数字で表されるため、プレゼンテーションなどが伴うものに比べ、非常に分かりやすいのです。それはそれで良いのですが、ビジネスのデータ分析にまで、過剰に精度を持ち込むのは得策ではありません。ビジネス系のデータ分析には、ビジネスへのインパクトの大きさというデータ分析の成果を求められるからです。

 「データ分析のやり過ぎによる不効率」という現象は、何度も目の当たりにしたことがあります。

 データ活用の恩恵として、何もしていないような組織やビジネス活動などに対し、データ分析のやり始めはそれなりのビジネス効果が現れます。伸びしろがたくさんあるからです。しかし、分析がある程度進むとやり始めの頃に比べ、得られるビジネス効果が小さくなります。伸びしろが少ないからです。コストパフォーマンスがみるみる悪くなります。

 当たり前といえば当たり前のことなのですが、その小さな伸びしろに対し、多大なる労力をかけてしまい、不効率な状況を生み出してしまうことが結構起こります。往々にして、データ分析は効率化をけん引します。そんな分析が、分析そのものを不効率なものしてしまうにしてしまうという皮肉な現象です。

2. データ分析:ある若手データサイエンティストのお話し

 20代のある若手データサイエンティストがおりました。その若手データサイエンティストは、ある画像の分類問題の精度を高めるため、色々な手法を試し、試行錯誤して分類精度を高めていきました。最初は、結構な勢いで精度が高くなっていきました。ある程度の精度になると、そこから精度を高めるのは大変です。かけた時間とコストに比べ、微々たる精度改善しか実現しません。

 画像と分類問題とくれば、ディープラーニングです。ディープラーニングといえば、計算量です。多大なる計算量をどうにかするには、マシンスペックです。最近、はやりなのがクラウド環境です。

 現在は便利なもので、高価な計算機(コンピュータ)を買ってこなくても、クラウド環境で何とかなります。クラウド環境の設定をいじって、使っている計算機のマシンスペックを上げればそれですみます。その手軽さの代償は、クラウド環境の利用料というコストで跳ね返ってきますが。実際、1カ月で0.1%の精度の改善に成功した代償として、数十万円という料金が請求されたということです。

 0.1%の精度の改善のビジネスインパクトはどのくらいかといえば、ほぼ皆無でした。一度ですめば、それはそれで良いかもしれしれませんが、毎月新しいデータに対し、この方法を繰り返すということになり、どうしたものかとなったのでした。

3. データ分析:スピードとコストと精度の狭間

 結局のところ、ビジネスで活用するなら、スピードの問題とコストの問題が出てきます。素晴らしい精度であっても、ビジネスタイミングを逃すような予測や分類では意味はありません。タイミングを逃すとは、必要な時にその予測結果や分類結果を得ることができないということです。

 スピードの問題は、人の動き方やコンピュータのスペックの問題など、様々な問題が複合的に絡まってきますが、コンピュータだけに着目すれば、単に「マシンスペックを上げろ」ということになりがちです。

 確かに、スペックを上げれば、スピードは上がるでしょう。しかし、多くの場合、スペックを上げるとコストがかかります。要するに、精度とスピードの両方を上げるにはコストがかかるということです。

 コスト一定のもとでは、精度かスピードのどちらかを犠牲にする必要があります。その時どちらを犠牲にするかといえば、それは精度です。タイミングを逃せば、精度がどんなに高くても活用されないからです。何ともいえない問題ですが、仕方ありません。

4. データ分析:あなたならどうする

 現実問題として、限られた予算と守るべきタイミングの中で、出来る限り精度を高める、ということに行きつきます。

 精度を高めるため多大なる予算を使い、さらにタイミングまで逃したら目も当てられません。つまり、ビジネスインパクトを得るための最低条件として、決められたタイミングまでに予測なり分類なりの結果を出力する必要があるということです。そもそも、現実的に「どのくらいの精度」であれば使い物になるのでしょうか。「最低限必要な精度」とは、どの程度でしょうか。「求められる十分な精度」とは、どの程度なのでしょうか。

 このような求められる精度に関して、活用視点からの議論が必要となることでしょう。

 精度だけではありません。タイミングやコストに関しても同様です。決して、データ分析者やデータサイエンティストらの視点だけではなく、活用視点からの精度であり、タイミングであり、コストである必要があります。そのような議論は、どこかで行うタイミングは必ずあると思います。それは、分析結果などを報告する場ではなく、早め早めに議論しておくことが理想です。無駄に精度を高めるというリスクを避けられるからです。

5. 限られた予算と守るべきタイミングの中で、出来る限り精度を高める

 今回は、「精度が0.1%改善!だからどうしたと、周囲から不思議がられる分析結果」というお話しをしました。

 「データ分析者やデータサイエンティスト主導で、予測モデルや分類モデルの検討をすると、小さな精度改善のために、多大なる労力やコストをかけてしまう」という罠に陥ることがあります。

 活用視点で考えれば、精度以上に重要なのはタイミングです。活用するタイミングに、予測結果や分類結果が出力されていなければ、活用の仕様がありません。精度が良かろうが悪かろうが、使われていないので、ビジネスインパクトという点で考えるとどちらも同じです。

 データ分析をやり始めたころは、それなりの効果が目に見えて出てきます。しかし、データ分析をやり尽くした感が出てくるころになると、重箱の隅を突くかのように、目に見える成果が出にくくなります。それでも、その重箱の隅を突きまくるデータ分析者やデータサイエンティストがいます。効率性を生み出すはずのデータ分析自らが、不効率になるのです。どのタイミングでこのようなことが起こるのかを見極めることは、非常に大変です。かけた労力やコストに比べ、ビジネスインパクトの成果があったかどうかで見極めるべきです。この意識を保つには、常にデータ分析を活用する側の視点で、意識し続ける必要があります。コスト意識とスピード意識です。

 結局のところ、「限られた予算と守るべきタイミングの中で、出来る限り精度を高める」という姿勢で臨むしかありません。分析好きのデータ分析者やデータサイエンティストにとって、分析以外に意識を向けることは苦痛かもしれません。しかし、それ以上に「ビジネスに貢献し、周囲に認められ感謝される分析結果を量産」したほうが良いのではないでしょうか。

   続きを読むには・・・


この記事の著者

高橋 威知郎

データネクロマンサー/データ分析・活用コンサルタント (埋もれたデータに花を咲かせる、データ分析界の花咲じじい。それほど年齢は重ねてないけど)

データネクロマンサー/データ分析・活用コンサルタント (埋もれたデータに花を咲かせる、データ分析界の花咲じじい。それほど年齢は重ねてないけど)


「情報マネジメント一般」の他のキーワード解説記事

もっと見る
完璧にデータを集めなければならないのか データ分析講座(その220)

  【この連載の前回:データ分析講座(その219)現場感とデータ分析へのリンク】 データ分析・活用を始めようと考えたとき、データ収集から...

  【この連載の前回:データ分析講座(その219)現場感とデータ分析へのリンク】 データ分析・活用を始めようと考えたとき、データ収集から...


実例で学ぶMCAR、MAR、MNARの全貌:データ分析講座(その346)

【目次】 データサイエンスの世界では、欠損データは避けて通れない問題です。データが完全でないことは、分析の正確性や結果の信頼性に大き...

【目次】 データサイエンスの世界では、欠損データは避けて通れない問題です。データが完全でないことは、分析の正確性や結果の信頼性に大き...


データ分析・活用のテーマ データ分析講座(その176)

  ◆ データ分析・活用テーマ、上からのテーマと下からのテーマ  データサイエンスを実践するときのテーマ、要はデータ分析・活用のテーマで...

  ◆ データ分析・活用テーマ、上からのテーマと下からのテーマ  データサイエンスを実践するときのテーマ、要はデータ分析・活用のテーマで...


「情報マネジメント一般」の活用事例

もっと見る
情報システム導入企業の悩みとは

        今回は、次の事例から、自社の生産システムにあった生産管理ソフトの選択をどうすべきかを解説します。   1. 想定事例  電...

        今回は、次の事例から、自社の生産システムにあった生産管理ソフトの選択をどうすべきかを解説します。   1. 想定事例  電...


‐情報収集で配慮すべき事項(第3回)‐  製品・技術開発力強化策の事例(その11)

 前回の事例その10に続いて解説します。ある目的で情報収集を開始する時には、始めに開発方針を明らかにして、目的意識を持って行動する必要があります。目的を明...

 前回の事例その10に続いて解説します。ある目的で情報収集を開始する時には、始めに開発方針を明らかにして、目的意識を持って行動する必要があります。目的を明...


簡易版DX/IoTから機械学習への移行

  ◆ DX(デジタル・トランスフォーメーション)を使えばコスト削減と納期短縮が可能に  産業界のニュースなどをインターネットで読んでいると...

  ◆ DX(デジタル・トランスフォーメーション)を使えばコスト削減と納期短縮が可能に  産業界のニュースなどをインターネットで読んでいると...