◆ 先行き不透明な時代に求められる”即時的”データ分析・活用
データ分析なり予測モデル構築をする際「これまでの傾向がこれからも続く」ということを前提で実施している人が多い気がします。例えば「昨年の同時期に売れた商品と、今年の同時期の売れる商品はほぼ同じであろう」と推測する感じです。しかし新型コロナ騒動をみていると「このような過去の傾向が未来にも通用する」といった見方(データ分析・活用)だけでは限界もあると思います。今回は「変化が激しく、先行き不透明な時代に求められる”即時的”データ分析・活用」をテーマにお話します。
【目次】
1. データは所詮過去のものに過ぎない
(1)先行きが見えないときこそ威力を発揮すべき
(2)“即時的”データ分析の考え方
(3)古典的にはベイズ方式
2. シンプルなのはウエイトバック方式
3. 今回のまとめ
1. データは所詮過去のものに過ぎない
データは、過去の事象を記録したものです。商品が売れたという事象を、売上という形でデータで記録するものです。要するに「データは過去のことであって未来のことではない」ということです。このような前提の中で、データを活用し未来の見通しを良くしようと考えたり、今を過去のデータをもとにどうにかしようとしています。
(1)先行きが見えないときこそ威力を発揮すべき
過去と未来はつながっています。劇的な天変地異が起こらなければ、過去と未来に大きな変化がないと考え、データ分析・活用を考えられています。ここに自己矛盾(むじゅん)というか、ある種のジレンマが内在しています。
「過去と未来に大きな変化がないならば、データを見るまでもなく、過去と同様のことを繰り返し実施すれば十分ではないか」というものと「過去と未来に断絶が起こり、先行きが見えないからこそ、データの力を使い闇にロウソクの明かりを灯したい」というものです。「データ分析・活用は、先行きが見えないときこそ威力を発揮すべきであり、過去と未来に大きな変化があるためデータ分析・活用は無力です」とはなりません。要は、過去と未来に大きな変化がない“閉じた世界”を前提にしてはいけないということです。
(2)“即時的”データ分析の考え方
そこで求められるのが、“即時的”データ分析・活用です。非常にシンプルなもので、直近のデータほど重視し、データ分析なり予測モデル構築をしましょう! ということです。ここでデータ量に、ある種のアンバランスな状況が生まれます。「直近」というぐらいなので「最近の大きな変化が起こった後のデータ量は少なく、大きな変化が起こる前の(過去の)データ量が多い」ということになることでしょう。しかしながら、過去と未来に大きな変化があったといっても、ある種の傾向は保っているケースが多いのです。
新型コロナが流行しても、春先には花粉症、夏になれば暑くなります。暑くなれば、涼を求め冷たいアイスクリームなどの商品が売れることでしょう。過去に比べて売り上げは落ちるかもしれませんが、春に比べれば売れると思います。
要は、ある種の傾向を保ちつつ、直近の事象によって影響を受けるデータ分析なり予測モデル構築を行う、ということです。
(3)古典的にはベイズ方式
統計学には日本の学校や大学の多くでメインに学ぶネイマン・ピアソン流の統計学と、ベイズの定理を活用したベイズ流の統計学があります。
ベイズ統計学は、確率という概念を未来視点で縛るとおかしなことをしていると感じますが、過去や未来という時間の概念的な縛りをなくすと、便利な道具であることに気が付きます。過去に起こった事象にも確率という概念を導入します。過去に起こったかどうかは既に分かっているので、確率的には0 or 1しかありえませんが、ベイズ統計学の世界では主観確率という概念を用いることで、すでに起こったことに対し確率0.3(30%)であるといったりします。このようなややこしい議論は先に置いておきます。
ベイズ統計学は、事前に持っているある事象の起こる確率を、新しい情報(データ)を得るたびに更新していきます。
分かりやすくいうと「大きな変化の起こる前の過去の傾向を、大きな変化の起こった後のデータで更新する」ということです。この更新頻度を高めていけば、今起こっていることをデータ化しておくことで、即自的に今を反映したデータ分析や予測モデル構築が可能となります。「ベイズ」というキーワードから難しく感じるかもしれませんが、それほど難しいものではありません。
ベイズ統計学の面白いところは、現場の人の知見を、新しいデータを得るたびに更新することができるところにあります。このような使い方は、データ量が不十分なときに生きます。例えば、まずは現場の知見(思い込みでもOK)の力を借りてモデルを構築し、客観的なデータを入手するたびに更新する、という感じです。
2. シンプルなのはウエイトバック方式
ある種の変わらない傾向を保ちつつ、直近の事象によって影響を受けて進化させるデータ分析なり予測モデル構築を行えばいい、ということであれば、もっと簡単な方法があります。こちらも古典的ですが、ウエイトバックを利用するというものです。簡単に説明すると、直近のデータほど重視するため、直近のデータには大きなウエイトを付け、データ分析や予測モデルを構築を行います。
データ分析ツールの多くは、例えば回帰モデルを構築するときに、このウエイト付けをする機能が備わっていますの...