点予測と区間予測 データ分析講座(その210)

更新日

投稿日

データ分析

 

よくデータサイエンスや機械学習などの技術を使い予測モデルを構築するケースも増えています。その中でよく目にするのが点予測です。点予測とは、「点」(1つのある数値)を予測することです。例えば、来年のこの事業の売上は100億であるとか、来月の店舗日販は50万円であるとか、そういったものです。

 

正直言って、点予測は当たることはありません。構築した予測モデルが悪いというのではなく、そういうものなのです。問題は、点予測を真であるかのように物事を進めることです。今回は、「点予測は100発0中が当たり前、であれば区間予測」というお話しをします。

 

【目次】

1.点予測は100発0中が当たり前
(1)区間予測とは?
(2)点予測は扱いやすい
(3)何が問題なのか?
2.区間予測の仕方

 

1.点予測は100発0中が当たり前

点予測とは、「点」(1つのある数値)を予測することです。例えば、明日の売上が53万2,871円(予測)である、といった感じで予測します。よくできた予測モデルであれば、近しい値になることでしょう。例えば、その日の売上が53万2,615円(実績)だった、という感じです。

 

しかし、予測と実績がどんなに近しい値になろうとも、ぴったり当たらなければ、予測結果が当たったとは言いません。要するに、このような点予測は100発0中が当たり前なのです。

 

(1)区間予測とは?

 

データ分析

 

予測には、点予測だけではありません。区間予測というものもあります。

 

区間予測とは、「点」(1つのある数値)の予測ではなく、幅のある予測をすることです。例えば、明日の売上が51万8,189円から54万1,178円(予測)である、といった感じで予測します。区間予測であれば、その日の売上が53万2,615円(実績)だった場合、予測結果が当たったと言えることでしょう。

 

(2)点予測は扱いやすい

正直、区間予測よりも点予測の方が分かりやすく説明しやすく、そして扱いやすいです。

 

明日の売上が53万2,871円(予測)である、といった感じで予測した場合、この売上の数値を前提に物事を計画し進めればいいからです。例えば、明日の売上が51万8,189円から54万1,178円(予測)である、といった感じの場合、この売上の区間を前提に物事を計画し進める必要があり、下限で物事を進めればいいのか、上限で物事を進めればいいのか、迷います。

 

(3)何が問題なのか?

点予測は何が問題なのでしょうか?

 

問題は、点予測を真であるかのように物事を進めることです。点予測の結果を真として、設備投資や広告宣伝などを考え痛い目に合うことがあります。例えば、広告宣伝に30億円かければ売上が100億円と予測したとしてます。100億円は点予測です。仮に区間予測したとき、90億円から110億円であれば点予測の結果を使っても問題ないかもしれません。

 

しかし、区間予測したら20億円から180億円だったらどうでしょうか。下手をすると、30億円の広告宣伝費で20億円の売上ということもあります。同じ点予測の値でも、区間予測したら幅が大きく異なることがあります。

 

区間予測の幅が小さいのであれば、点予測の値を真として物事を進めても問題ないかもしれませんが、区間予測の幅が広いとき気を付けた方がいいです。そのようなことを見極めるためにも、点予測だけでなく区間予測も見ておくといいでしょう。

 

2.区間予測の仕方

伝統的な統計学的な予測モデルの場合、ダイレクトに「予測区間」(信頼区間と予測区間は別ものです。混同されやすいので注意しましょう)というものを出力することができます。この「予測区間」を区間予測として利用するのが手っ取り早いです。多くの統計解析用のツールの場合、点予測と一緒に出力されます。

 

他には、感度解析することで区間予測する場合も多いです。昔からデータ分析を実施した人の多くは、普通に感度解析をしていましたが、最近は時間の都合なのか知らないだけなのか分かりませんが、感度解析する人の割合が微妙に減っている気がします。

 

感度解析とは、予測モデルの説明変数(...

データ分析

 

よくデータサイエンスや機械学習などの技術を使い予測モデルを構築するケースも増えています。その中でよく目にするのが点予測です。点予測とは、「点」(1つのある数値)を予測することです。例えば、来年のこの事業の売上は100億であるとか、来月の店舗日販は50万円であるとか、そういったものです。

 

正直言って、点予測は当たることはありません。構築した予測モデルが悪いというのではなく、そういうものなのです。問題は、点予測を真であるかのように物事を進めることです。今回は、「点予測は100発0中が当たり前、であれば区間予測」というお話しをします。

 

【目次】

1.点予測は100発0中が当たり前
(1)区間予測とは?
(2)点予測は扱いやすい
(3)何が問題なのか?
2.区間予測の仕方

 

1.点予測は100発0中が当たり前

点予測とは、「点」(1つのある数値)を予測することです。例えば、明日の売上が53万2,871円(予測)である、といった感じで予測します。よくできた予測モデルであれば、近しい値になることでしょう。例えば、その日の売上が53万2,615円(実績)だった、という感じです。

 

しかし、予測と実績がどんなに近しい値になろうとも、ぴったり当たらなければ、予測結果が当たったとは言いません。要するに、このような点予測は100発0中が当たり前なのです。

 

(1)区間予測とは?

 

データ分析

 

予測には、点予測だけではありません。区間予測というものもあります。

 

区間予測とは、「点」(1つのある数値)の予測ではなく、幅のある予測をすることです。例えば、明日の売上が51万8,189円から54万1,178円(予測)である、といった感じで予測します。区間予測であれば、その日の売上が53万2,615円(実績)だった場合、予測結果が当たったと言えることでしょう。

 

(2)点予測は扱いやすい

正直、区間予測よりも点予測の方が分かりやすく説明しやすく、そして扱いやすいです。

 

明日の売上が53万2,871円(予測)である、といった感じで予測した場合、この売上の数値を前提に物事を計画し進めればいいからです。例えば、明日の売上が51万8,189円から54万1,178円(予測)である、といった感じの場合、この売上の区間を前提に物事を計画し進める必要があり、下限で物事を進めればいいのか、上限で物事を進めればいいのか、迷います。

 

(3)何が問題なのか?

点予測は何が問題なのでしょうか?

 

問題は、点予測を真であるかのように物事を進めることです。点予測の結果を真として、設備投資や広告宣伝などを考え痛い目に合うことがあります。例えば、広告宣伝に30億円かければ売上が100億円と予測したとしてます。100億円は点予測です。仮に区間予測したとき、90億円から110億円であれば点予測の結果を使っても問題ないかもしれません。

 

しかし、区間予測したら20億円から180億円だったらどうでしょうか。下手をすると、30億円の広告宣伝費で20億円の売上ということもあります。同じ点予測の値でも、区間予測したら幅が大きく異なることがあります。

 

区間予測の幅が小さいのであれば、点予測の値を真として物事を進めても問題ないかもしれませんが、区間予測の幅が広いとき気を付けた方がいいです。そのようなことを見極めるためにも、点予測だけでなく区間予測も見ておくといいでしょう。

 

2.区間予測の仕方

伝統的な統計学的な予測モデルの場合、ダイレクトに「予測区間」(信頼区間と予測区間は別ものです。混同されやすいので注意しましょう)というものを出力することができます。この「予測区間」を区間予測として利用するのが手っ取り早いです。多くの統計解析用のツールの場合、点予測と一緒に出力されます。

 

他には、感度解析することで区間予測する場合も多いです。昔からデータ分析を実施した人の多くは、普通に感度解析をしていましたが、最近は時間の都合なのか知らないだけなのか分かりませんが、感度解析する人の割合が微妙に減っている気がします。

 

感度解析とは、予測モデルの説明変数(特徴量)やパラメータなどを色々変化させ、その予測結果の下限と上限を使い区間予測とするやり方です。

 

例えば、店舗のある日の売上をするとき、降雨量という説明変数(特徴量)を「0 mm/h」(晴れ)、「1 mm/h」(小雨)、「1 mm/h」(小雨)、「5 mm/h」(雨)、「10 mm/h」(やや強い雨)などと変化させて、日販予測をします。

 

この場合、幾つかのシナリオを作っておく必要があります。ちょっと敷居が高いですが、MCMC(Markov chain Monte Carlo methods、マルコフ連鎖モンテカルロ法)などで代表される乱数を使ったベイズ推定し求める予測モデルの場合、予測分布を出力することができます。この予測分布をもとに区間予測をすることもできます。

 

   続きを読むには・・・


この記事の著者

高橋 威知郎

データネクロマンサー/データ分析・活用コンサルタント (埋もれたデータに花を咲かせる、データ分析界の花咲じじい。それほど年齢は重ねてないけど)

データネクロマンサー/データ分析・活用コンサルタント (埋もれたデータに花を咲かせる、データ分析界の花咲じじい。それほど年齢は重ねてないけど)


「情報マネジメント一般」の他のキーワード解説記事

もっと見る
実務で使える5つの数理モデル   データ分析講座(その287)

  色々な数理モデルがありますが、実用性ではどうでしょうか。誰もが実務で使えるという観点で考えると、次の3つの回帰モデルと2つのデータ集約...

  色々な数理モデルがありますが、実用性ではどうでしょうか。誰もが実務で使えるという観点で考えると、次の3つの回帰モデルと2つのデータ集約...


現場感とデータ分析 データ分析講座(その219)

  【この連載の前回:データ分析講座(その218)見える化の魔力へのリンク】 データから新たな知見を得たい! という要望は、昔からありま...

  【この連載の前回:データ分析講座(その218)見える化の魔力へのリンク】 データから新たな知見を得たい! という要望は、昔からありま...


見積システムによるDX(その1)

  【目次】 1.アナログ情報をデジタル化 2.プロセス全体をデジタル化 3.価値の創造と利益の拡大   ここ...

  【目次】 1.アナログ情報をデジタル化 2.プロセス全体をデジタル化 3.価値の創造と利益の拡大   ここ...


「情報マネジメント一般」の活用事例

もっと見る
Excelの帳票を見直そう

 オフィス業務においては、マイクロソフトOfficeがデファクトスタンダードになっています。とりわけ活用されているのはExcelでしょう。Excelを使う...

 オフィス業務においては、マイクロソフトOfficeがデファクトスタンダードになっています。とりわけ活用されているのはExcelでしょう。Excelを使う...


情報、常識の検証を考える

1、勝ち組と負け組を支配する情報  皆さんがご存じの大手予備校有名講師である林先生が、かつてテレビで「情報」に関して興味深いことをおっしゃっており、...

1、勝ち組と負け組を支配する情報  皆さんがご存じの大手予備校有名講師である林先生が、かつてテレビで「情報」に関して興味深いことをおっしゃっており、...


‐技術開発の目標について 第1回‐  製品・技術開発力強化策の事例(その15)

 前回の事例その14に続いて解説します。製品開発を目指している企業の中には、テ-マが見つかったら、または、アイデアが閃いたら開発に取り組む。そのような淡い...

 前回の事例その14に続いて解説します。製品開発を目指している企業の中には、テ-マが見つかったら、または、アイデアが閃いたら開発に取り組む。そのような淡い...