◆ データ分析の事始めは、モニタリング指標(KPIなど)の異常検知
「いつも見ているこの数字、このままで大丈夫なのか、簡単にわからないかな?」私の知人の、あるマーケティング部署の責任者から質問されました。マーケティングの部署は色々な指標を、KPIと称して日々モニタリングしています。そういう意味では、データ活用を積極的に実施している部署の一つが、マーケティングの部署なのです。例えば、消費者アンケートを実施し分析をしたり、販売データを手に入れ分析をしたり、テレビCMのGRPデータを購入し分析をしたりしています。さらに、ここ10年で、自社のWebサイトのアクセス解析ログや、TwitterなどのSNSデータ、Web広告関連のデータなど、デジタル系のマーケティングのデータや指標も分析対象に入ってきています。
マーケティング・オートメーション(MA)ツールの普及で、楽になるかと思えば、逆にツールを覚える必要があったり、新たにモニタリングすべき指標が増えたりと、何が楽になってるのか分からなくなっています。マーケティング系の部署の宿命なのか分かりませんが、非常に多くの指標を日々モニタリングせざるを得ない組織や人が、特にマーケティング系の部署で増えています。
1. データ分析は、指標をモニタリングすることから始まる
データがある程度蓄積され、きちんと指標(KPIなど)設計なされていれば、あなたは何をするのでしょうか?
多くの人は、ひとまず蓄積されたデータを集計し、何かしら数字を算出します。指標の集計のやり方は様々で、合計してみたり、平均値をとってみたりします。それらの時系列の推移を、年別で見たり、月別で見たり、日別で見たりします。さらに、製品別で見たり、エリア別で見たり、部署別で見たりと、細かく見ていきます。そして、多くの場合、集計した数字を折れ線グラフなどで表現し、見やすくします。その集計されたものの多くが、受注件数や受注金額、来店客数などの指標です。要するに、データ分析の事始めは指標をモニタリングすることから始まります。
2. 知りたい2つのこと
指標(KPIなど)から知りたいことは、2つしかありません。
一つは、「指標(KPIなど)の数字に問題はないのか?」。もう一つが、「指標(KPIなど)の数字は今後どうなりそうなのか?」です。その2つを知るために、実施するのが「異常検知」と「将来予測」です。どちらも、データ分析の得意な領域です。
指標(KPIなど)の数字が問題ないか? → 異常検知
指標(KPIなど)の数字は今後どうなりそうなのか? → 将来予測
「異常検知」と「将来予測」のための定量的なデータ分析の方法が、すでにいくつか存在します。存在すると言っても完璧なものではありません。
「どうだったのか?」や「どうなりそうなのか?」といった、あたりを付けることができます。何もないよりも、大分ましです。焦点を絞れます。
「異常検知」と「将来予測」のための定量的なデータ分析であたりを付けたら、次に解釈をしなければなりません。
「本当に、この指標(KPIなど)の数字は異常と言えるのか」
「本当に、指標(KPIなど)の数字はこのような値になりそうなのか」
定量的なデータ分析の後には必ず、このような定性的な解釈をいれる必要があります。
3.異常検知
指標(KPIなど)の異常検知は、すでにいくつかの検知の方法があります。例えば、ホテリングT2法やk近傍法などが有名です。
ホテリングT2法は、すでに多くのデータ分析ツールで分析可能です。高度なデータ分析ツールがなくとも、実はExcelでも十分分析可能です。
k近傍法は、最近注目されている異常検知の方法です。統計学的な話しになりますが、正規分布を仮定するホテリングT2法と異なり、特定の分布を特定する必要がないため、非常に使い勝手のよい方法です。あまり統計学に詳しくない方は、とりあえずホテリングT2法で異常検知することをお勧めします。別の機会に、ホテリングT2法を使った異常検知の方法をご説明します。非常に簡単にできます。営業やマーケティング系の指標であれば、ホテリングT2法だけで十分にいけます。
4. 将来予測
将来予測は、回帰型のモデルで予測モデルを構築すれば、予測できるようになります。回帰型のモデルは、古くは重回帰分析やロジスティック回帰モデルなどの統計学系のモデルが有名です。最近ではニューラルネットワーク系のモデルやディシジョンツリー系のモデルなどの、機械学習系のモデルが注目を集めています。重回帰分析やロジスティック回帰モデルなどの統計学系のモデルと異なり、ニューラルネットワーク系のモデルやディシジョンツリー系などの機械学習系のモデルは、大きな環境変化に弱かったり解釈が難しかったりします。
そのため、営業やマーケティング系の指標(KPIなど)を予測するとき、どちらかというと統計学系のモデルの方が向いています。さらに、解釈も容易なため、予測モデル構築に不慣れな方は、統計学系のモデルを予測モデルとして使うことをお勧めします。
統計的学習モデルといわれている「正則化線形回帰モデル」です。Lasso回帰やRidge回帰などと色々なものがあります。統計学系の重回帰モデルをベースに拡張したものなので、非常に使い勝手が良く解釈もし易いです。お勧めです。こちらも、別の機会に使い方を含めてお話しします。
5. 先ずは、異常検知を自動化しよう
「異常検知」と「将来予測」のどちら...