あなたがビジネスでデータ活用を考えているなら、時系列データを避けることは出来ません。なぜならば、ビジネス現場は時系列データで溢れているからです。あまりにも身近すぎて、意識していない人も多いことでしょう。では、この時系列データとはどのようなもので、ビジネスの現場でどのように活用されているのでしょうか。今回は「ビジネス現場は時系列データで溢れている」というお話しをいたします。
【この連載の前回:時系列性を加味した因果推論でよく利用されるSC法 データ分析講座(その302) へのリンク】
1. 時系列データとは何か?
次のような折れ線グラフを見たことはないでしょうか。
ビジネスの現場でよく見る折れ線グラフです。横軸が時間軸で、縦軸が色々な指標の値の軸(例では「販売金額」)になります。これは、次の時系列データのデータセットをグラフ化したものです。
この時系列のデータセットには、「時間を表現する変数」(例では「日付」)と「販売金額の値が入った変数」(例では「販売金額」)が1つずつあります。この例から分かる通り、時系列データは次のような特徴を持ちます。
- 「時間を表現する変数」(以後、「時間変数」と呼ぶ)が少なくとも1つある
- 「時間変数」の時間幅(例:年や四半期、月、週、日、時、分、秒など)が固定されている
- 固定された時間幅で計算した指標の値(例:合計や平均、中央値など)の変数(以後、「指標変数」と呼ぶ)が少なくとも1つある
この例ですと「日付」が「時間変数」で「販売金額」が「指標変数」です。「販売金額」の値は、1日という固定された時間幅で、販売金額を合計した値です。このような時系列データは、ビジネスの現場に溢れています。
- 例えば、営業・マーケティング系であれば、売上高や販売金額、受注件数や販売数量、既存顧客数や見込み顧客数、受注率や離反率、広告・販促関連のデータなどです。
- 例えば、Web系であれば、サイト訪問数やユニークユーザ数、PV(ページビュー)数、コンバージョンレートなどです。
- 例えば、生産系であれば、生産数や歩留まり率、サイクルタイム、各種センサーデータ(検査データや機器のデータなど)、在庫などです。
これらはすべて時系列データです。この時系列データを記号で表現すると、変数yのt時点の値をytと表現します。
2. 時系列データの3つの変動成分
時系列データを、次の4つの変動成分に分解し表現することがあります。ちなみに、分解前の元の時系列データを原系列と呼びます。
- T(趨勢変動成分)
- C(循環変動成分)
- S(季節変動成分)
- I(不規則変動成分)
足し算で表現する「加法モデル」の場合、次のようになります。
- 原系列=T+C+S+I
掛け算で表現する「乗法モデル」の場合、次のようになります。
- 原系列=T×C×S×I
乗法モデルも対数変換(log)によって、加法モデルの用に表現できます。
- log(原系列)=log(T)+log(C)+log(S)+log(I)
個々の変動成分について簡単に説明します。
3. T(趨勢変動成分)
T(趨勢変動成分)は、データの長期的な増加または減少を表現する変動成分です。もっともシンプルな表現方法は直線で定式化する方法ですが、直線である必要はありません。
4. C(循環変動成分)
C(循環変動成分)は、周期的なパターンを表現する変動成分です。次に説明するS(季節変動成分)と似た変動成分ですが、S(季節変動成分)が一定の周期を持っているのに対し、こちらの周期は一定である必要はありません。景気循環などがよい例です。上昇と下降を繰り返すが、上昇している期間が長いときもあれば短いときもある、という感じです。S(季節変動成分...