指標から知りたい2つのこと データ分析講座(その23)

更新日

投稿日

 

情報マネジメント

◆ データ分析の事始めは、モニタリング指標(KPIなど)の異常検知

 「いつも見ているこの数字、このままで大丈夫なのか、簡単にわからないかな?」私の知人の、あるマーケティング部署の責任者から質問されました。マーケティングの部署は色々な指標を、KPIと称して日々モニタリングしています。そういう意味では、データ活用を積極的に実施している部署の一つが、マーケティングの部署なのです。例えば、消費者アンケートを実施し分析をしたり、販売データを手に入れ分析をしたり、テレビCMのGRPデータを購入し分析をしたりしています。さらに、ここ10年で、自社のWebサイトのアクセス解析ログや、TwitterなどのSNSデータ、Web広告関連のデータなど、デジタル系のマーケティングのデータや指標も分析対象に入ってきています。

 マーケティング・オートメーション(MA)ツールの普及で、楽になるかと思えば、逆にツールを覚える必要があったり、新たにモニタリングすべき指標が増えたりと、何が楽になってるのか分からなくなっています。マーケティング系の部署の宿命なのか分かりませんが、非常に多くの指標を日々モニタリングせざるを得ない組織や人が、特にマーケティング系の部署で増えています。

1. データ分析は、指標をモニタリングすることから始まる

 データがある程度蓄積され、きちんと指標(KPIなど)設計なされていれば、あなたは何をするのでしょうか?

 多くの人は、ひとまず蓄積されたデータを集計し、何かしら数字を算出します。指標の集計のやり方は様々で、合計してみたり、平均値をとってみたりします。それらの時系列の推移を、年別で見たり、月別で見たり、日別で見たりします。さらに、製品別で見たり、エリア別で見たり、部署別で見たりと、細かく見ていきます。そして、多くの場合、集計した数字を折れ線グラフなどで表現し、見やすくします。その集計されたものの多くが、受注件数や受注金額、来店客数などの指標です。要するに、データ分析の事始めは指標をモニタリングすることから始まります。

2. 知りたい2つのこと

 指標(KPIなど)から知りたいことは、2つしかありません。

 一つは、「指標(KPIなど)の数字に問題はないのか?」。もう一つが、「指標(KPIなど)の数字は今後どうなりそうなのか?」です。その2つを知るために、実施するのが「異常検知」と「将来予測」です。どちらも、データ分析の得意な領域です。

  指標(KPIなど)の数字が問題ないか? → 異常検知
  指標(KPIなど)の数字は今後どうなりそうなのか? → 将来予測

  「異常検知」と「将来予測」のための定量的なデータ分析の方法が、すでにいくつか存在します。存在すると言っても完璧なものではありません。
  「どうだったのか?」や「どうなりそうなのか?」といった、あたりを付けることができます。何もないよりも、大分ましです。焦点を絞れます。
  「異常検知」と「将来予測」のための定量的なデータ分析であたりを付けたら、次に解釈をしなければなりません。
  「本当に、この指標(KPIなど)の数字は異常と言えるのか」
  「本当に、指標(KPIなど)の数字はこのような値になりそうなのか」

 定量的なデータ分析の後には必ず、このような定性的な解釈をいれる必要があります。

3.異常検知

 指標(KPIなど)の異常検知は、すでにいくつかの検知の方法があります。例えば、ホテリングT2法やk近傍法などが有名です。

 ホテリングT2法は、すでに多くのデータ分析ツールで分析可能です。高度なデータ分析ツールがなくとも、実はExcelでも十分分析可能です。

 k近傍法は、最近注目されている異常検知の方法です。統計学的な話しになりますが、正規分布を仮定するホテリングT2法と異なり、特定の分布を特定する必要がないため、非常に使い勝手のよい方法です。あまり統計学に詳しくない方は、とりあえずホテリングT2法で異常検知することをお勧めします。別の機会に、ホテリングT2法を使った異常検知の方法をご説明します。非常に簡単にできます。営業やマーケティング系の指標であれば、ホテリングT2法だけで十分にいけます。

4. 将来予測

 将来予測は、回帰型のモデルで予測モデルを構築すれば、予測できるようになります。回帰型のモデルは、古くは重回帰分析やロジスティック回帰モデルなどの統計学系のモデルが有名です。最近ではニューラルネットワーク系のモデルやディシジョンツリー系のモデルなどの、機械学習系のモデルが注目を集めています。重回帰分析やロジスティック回帰モデルなどの統計学系のモデルと異なり、ニューラルネットワーク系のモデルやディシジョンツリー系などの機械学習系のモデルは、大きな環境変化に弱かったり解釈が難しかったりします。

 そのため、営業やマーケティング系の指標(KPIなど)を予測するとき、どちらかというと統計学系のモデルの方が向いています。さらに、解釈も容易なため、予測モデル構築に不慣れな方は、統計学系のモデルを予測モデルとして使うことをお勧めします。

 統計的学習モデルといわれている「正則化線形回帰モデル」です。Lasso回帰やRidge回帰などと色々なものがあります。統計学系の重回帰モデルをベースに拡張したものなので、非常に使い勝手が良く解釈もし易いです。お勧めです。こちらも、別の機会に使い方を含めてお話しします。

5. 先ずは、異常検知を自動化しよう

 「異常検知」と「将来予測」のどちら...

 

情報マネジメント

◆ データ分析の事始めは、モニタリング指標(KPIなど)の異常検知

 「いつも見ているこの数字、このままで大丈夫なのか、簡単にわからないかな?」私の知人の、あるマーケティング部署の責任者から質問されました。マーケティングの部署は色々な指標を、KPIと称して日々モニタリングしています。そういう意味では、データ活用を積極的に実施している部署の一つが、マーケティングの部署なのです。例えば、消費者アンケートを実施し分析をしたり、販売データを手に入れ分析をしたり、テレビCMのGRPデータを購入し分析をしたりしています。さらに、ここ10年で、自社のWebサイトのアクセス解析ログや、TwitterなどのSNSデータ、Web広告関連のデータなど、デジタル系のマーケティングのデータや指標も分析対象に入ってきています。

 マーケティング・オートメーション(MA)ツールの普及で、楽になるかと思えば、逆にツールを覚える必要があったり、新たにモニタリングすべき指標が増えたりと、何が楽になってるのか分からなくなっています。マーケティング系の部署の宿命なのか分かりませんが、非常に多くの指標を日々モニタリングせざるを得ない組織や人が、特にマーケティング系の部署で増えています。

1. データ分析は、指標をモニタリングすることから始まる

 データがある程度蓄積され、きちんと指標(KPIなど)設計なされていれば、あなたは何をするのでしょうか?

 多くの人は、ひとまず蓄積されたデータを集計し、何かしら数字を算出します。指標の集計のやり方は様々で、合計してみたり、平均値をとってみたりします。それらの時系列の推移を、年別で見たり、月別で見たり、日別で見たりします。さらに、製品別で見たり、エリア別で見たり、部署別で見たりと、細かく見ていきます。そして、多くの場合、集計した数字を折れ線グラフなどで表現し、見やすくします。その集計されたものの多くが、受注件数や受注金額、来店客数などの指標です。要するに、データ分析の事始めは指標をモニタリングすることから始まります。

2. 知りたい2つのこと

 指標(KPIなど)から知りたいことは、2つしかありません。

 一つは、「指標(KPIなど)の数字に問題はないのか?」。もう一つが、「指標(KPIなど)の数字は今後どうなりそうなのか?」です。その2つを知るために、実施するのが「異常検知」と「将来予測」です。どちらも、データ分析の得意な領域です。

  指標(KPIなど)の数字が問題ないか? → 異常検知
  指標(KPIなど)の数字は今後どうなりそうなのか? → 将来予測

  「異常検知」と「将来予測」のための定量的なデータ分析の方法が、すでにいくつか存在します。存在すると言っても完璧なものではありません。
  「どうだったのか?」や「どうなりそうなのか?」といった、あたりを付けることができます。何もないよりも、大分ましです。焦点を絞れます。
  「異常検知」と「将来予測」のための定量的なデータ分析であたりを付けたら、次に解釈をしなければなりません。
  「本当に、この指標(KPIなど)の数字は異常と言えるのか」
  「本当に、指標(KPIなど)の数字はこのような値になりそうなのか」

 定量的なデータ分析の後には必ず、このような定性的な解釈をいれる必要があります。

3.異常検知

 指標(KPIなど)の異常検知は、すでにいくつかの検知の方法があります。例えば、ホテリングT2法やk近傍法などが有名です。

 ホテリングT2法は、すでに多くのデータ分析ツールで分析可能です。高度なデータ分析ツールがなくとも、実はExcelでも十分分析可能です。

 k近傍法は、最近注目されている異常検知の方法です。統計学的な話しになりますが、正規分布を仮定するホテリングT2法と異なり、特定の分布を特定する必要がないため、非常に使い勝手のよい方法です。あまり統計学に詳しくない方は、とりあえずホテリングT2法で異常検知することをお勧めします。別の機会に、ホテリングT2法を使った異常検知の方法をご説明します。非常に簡単にできます。営業やマーケティング系の指標であれば、ホテリングT2法だけで十分にいけます。

4. 将来予測

 将来予測は、回帰型のモデルで予測モデルを構築すれば、予測できるようになります。回帰型のモデルは、古くは重回帰分析やロジスティック回帰モデルなどの統計学系のモデルが有名です。最近ではニューラルネットワーク系のモデルやディシジョンツリー系のモデルなどの、機械学習系のモデルが注目を集めています。重回帰分析やロジスティック回帰モデルなどの統計学系のモデルと異なり、ニューラルネットワーク系のモデルやディシジョンツリー系などの機械学習系のモデルは、大きな環境変化に弱かったり解釈が難しかったりします。

 そのため、営業やマーケティング系の指標(KPIなど)を予測するとき、どちらかというと統計学系のモデルの方が向いています。さらに、解釈も容易なため、予測モデル構築に不慣れな方は、統計学系のモデルを予測モデルとして使うことをお勧めします。

 統計的学習モデルといわれている「正則化線形回帰モデル」です。Lasso回帰やRidge回帰などと色々なものがあります。統計学系の重回帰モデルをベースに拡張したものなので、非常に使い勝手が良く解釈もし易いです。お勧めです。こちらも、別の機会に使い方を含めてお話しします。

5. 先ずは、異常検知を自動化しよう

 「異常検知」と「将来予測」のどちらを先にすべきか? といえば、それは「異常検知」です。

 多くの人は、何気なく指標(KPIなど)をモニタリングするとき、恐らく指標(KPIなど)の数字に問題がないか(異常検知)を見ていることでしょう。そして、この数字が今後どうなるのか(将来予測)を考えることでしょう。データ分析的に考えても、この順番は正しいです。先ずは「異常検知」で問題を探し、次に「要因分析」で問題の要因を特定する。そして、問題となっている要因の解決手段を考え、その要因を解決するとどうなるのかを「将来予測」する。この順番です。

 ちなみに、この「要因分析」も定量的なデータ分析で実施可能です。要因分析をするときは、指標(KPIなど)のデータだけでなく、指標(KPIなど)に影響を与えるデータも含めて分析対象になります。

 何はともあれ、「データ分析の事始めは、モニタリング指標(KPIなど)の異常検知」なのです。すべては、ここから始まります。そして、「異常検知」はある程度自動化することができます。異常検知にホテリングT2法を使うのであれば、Excelレベルでもほぼ自動でだすことができます。例えば、Excelの場合、Excelマクロ(Excel VBA)などである程度プログラミングしておくと、楽に異常検知をすることができます。

   続きを読むには・・・


この記事の著者

高橋 威知郎

データネクロマンサー/データ分析・活用コンサルタント (埋もれたデータに花を咲かせる、データ分析界の花咲じじい。それほど年齢は重ねてないけど)

データネクロマンサー/データ分析・活用コンサルタント (埋もれたデータに花を咲かせる、データ分析界の花咲じじい。それほど年齢は重ねてないけど)


「情報マネジメント一般」の他のキーワード解説記事

もっと見る
データ分析はPDCAの「Check」から始まる データ分析講座(その291)

  社会人の方であれば、PDCAサイクルと言う言葉を、聞いたことあると思います。ビジネスの世界では、意識しているかどうかに関係なく、結局の...

  社会人の方であれば、PDCAサイクルと言う言葉を、聞いたことあると思います。ビジネスの世界では、意識しているかどうかに関係なく、結局の...


データ活用の勘所 データ分析講座(その25)

  ◆ Excelレベルの分析をものにしたとき、データ活用の世界は変わる  多くの企業は、ビッグデータを使いこなし活用しているのではなく...

  ◆ Excelレベルの分析をものにしたとき、データ活用の世界は変わる  多くの企業は、ビッグデータを使いこなし活用しているのではなく...


自動機械学習 データ分析講座(その184)

    ◆ 古くて新しい自動機械学習 似たような数理モデルあり、その中から数理モデルを選択してモデル構築する場合のことです。この...

    ◆ 古くて新しい自動機械学習 似たような数理モデルあり、その中から数理モデルを選択してモデル構築する場合のことです。この...


「情報マネジメント一般」の活用事例

もっと見る
生産スピード向上と品質管理

 電子メールやインターネットの普及により、ビジネスのグローバル化が大きく進みましたが、IT技術の進歩は、品質管理の方法も進歩させました。20数年前は製造条...

 電子メールやインターネットの普及により、ビジネスのグローバル化が大きく進みましたが、IT技術の進歩は、品質管理の方法も進歩させました。20数年前は製造条...


‐販路開拓に関する問題事例‐ 製品・技術開発力強化策の事例(その19)

 前回の事例その18に続いて解説します。多額の資金と労力を費やして開発した知的財産をどのように活用して販路開拓に結びつけるのか、大変重要な問題ですが、販売...

 前回の事例その18に続いて解説します。多額の資金と労力を費やして開発した知的財産をどのように活用して販路開拓に結びつけるのか、大変重要な問題ですが、販売...


‐販路開拓に関する問題 第2回‐ 製品・技術開発力強化策の事例(その18)

 販路開拓に関する問題点、次に示す4点について、第1回として、1と2項を解説しました。今回は、第2回として、3と4項を解説します。        1....

 販路開拓に関する問題点、次に示す4点について、第1回として、1と2項を解説しました。今回は、第2回として、3と4項を解説します。        1....