時系列データに対するクロスバリデーション法、データ分析講座(その307)

更新日

投稿日

 

時系列データに対するクロスバリデーション法、データ分析講座(その307)

 

ビジネスの世界では、売上などの時系列データを使い予測モデルを構築し、近未来を予測しながらビジネス活動する人や組織があります。ただ、予測モデルを構築するときに、どのモデル(アルゴリズム)がいいのか?どの説明変数Xの組み合わせがいいのか?どのハイパーパラメータの値の組み合わせがいいのか?は、モデル構築前に通常はわかりません。そのため、色々な組み合わせパターンで試す必要があります。試すとき、予測モデルを構築するために利用するデータセットを「訓練データ」と「検証データ」します。

時系列データに対するクロスバリデーション法、データ分析講座(その307)

色々なパターン(モデルと説明変数Xとハイパーパラメータの値などの組み合わせ)で「訓練データ」で予測モデルを学習し求め「検証データ」で検証し、より良いパターンを探索します。ここで、データセットを「訓練データ」と「検証データ」に分割しチューニングする場合、どう分割するのかという問題があります。そのやり方の1つが、クロスバリデーション法です。今回は「時系列データに対するクロスバリデーション法」というお話しをします。

1. クロスバリデーション法とは?

クロスバリデーション法とは、データセットを複数に分割し「訓練データ」による予測モデルの学習と「検証データ」による評価を、複数回実施する方法です。例えば、データセットをランダムに10個に分けます。このとき「訓練データ」と「検証データ」のデータセットの組み合わせを10セット作ります。

 

それぞれのセットで予測モデルを学習し評価することで、個々の評価結果を出します。最終的にその評価結果を取りまとめ総合評価結果とします。

 

2. クロスバリデーション法のイメージ

もう少し分かりやすく説明します。1セット目です。10分割したデータの1つを「検証データ」とします。それ以外の9個のデータを「訓練データ」とします。この「訓練データ」で予測モデルを学習し「検証データ」を使い評価します。 

時系列データに対するクロスバリデーション法、データ分析講座(その307)

2セット目です。10分割したデータの中から1セット目と異なる「検証データ」を1つ選択し「検証データ」とします。それ以外の9個のデータを「訓練データ」とします。この「訓練データ」で予測モデルを学習し「検証データ」を使い評価します。

時系列データに対するクロスバリデーション法、データ分析講座(その307)

このような感じで、3セット目以降も同様に「訓練データ」による予測モデルの学習と「検証データ」による評価を実施します。最終的に、10個の評価結果が手に入ります。多くの場合、評価結果の平均を取り総合評価とします。もちろん、平均ではなく最大値や最小値などを求め「最悪のケース」を総合評価とすることもあります。 

 

3. そのまま時系列データに適用したとき起こる問題

今説明したクロスバリデーション法は、時間軸を考慮した予測モデルのチューニングをするとき問題が起きます。

 

「訓練データ」は「検証データ」よりも時間的に過去のデータである必要があります。ランダムに分割すると「過去のデータで予測モデルを学習し、未来の目的変数yを予測する」という前提を満たさない可能性が高いからです。そのため、ある時点で2つにデータセットを分割し、時間的に前のデータを「訓練データ」時間的に後のデータを「検証データ」とします。

 

4. 時系列データに対するクロスバリデーション法

クロスバリデーション法は複数の「訓練データ」と「検証データ」のセットを準備し、それぞれのセットで予測モデルを学習し評価し、最終的にその評価結果を取りまとめ総合評価結果とします。時系列データの場合には、次のように「訓練データ」と「検証データ」を分割する時点を複数設け、その時点ごとに「訓練データ」と「検証データ」のセットを作ります。

時系列データに対するクロスバリデーション法、データ分析講座(その307)

訓練データの期間を伸ばしていくエクスパディング型と、訓練データの期間を常に一定と...

 

時系列データに対するクロスバリデーション法、データ分析講座(その307)

 

ビジネスの世界では、売上などの時系列データを使い予測モデルを構築し、近未来を予測しながらビジネス活動する人や組織があります。ただ、予測モデルを構築するときに、どのモデル(アルゴリズム)がいいのか?どの説明変数Xの組み合わせがいいのか?どのハイパーパラメータの値の組み合わせがいいのか?は、モデル構築前に通常はわかりません。そのため、色々な組み合わせパターンで試す必要があります。試すとき、予測モデルを構築するために利用するデータセットを「訓練データ」と「検証データ」します。

時系列データに対するクロスバリデーション法、データ分析講座(その307)

色々なパターン(モデルと説明変数Xとハイパーパラメータの値などの組み合わせ)で「訓練データ」で予測モデルを学習し求め「検証データ」で検証し、より良いパターンを探索します。ここで、データセットを「訓練データ」と「検証データ」に分割しチューニングする場合、どう分割するのかという問題があります。そのやり方の1つが、クロスバリデーション法です。今回は「時系列データに対するクロスバリデーション法」というお話しをします。

1. クロスバリデーション法とは?

クロスバリデーション法とは、データセットを複数に分割し「訓練データ」による予測モデルの学習と「検証データ」による評価を、複数回実施する方法です。例えば、データセットをランダムに10個に分けます。このとき「訓練データ」と「検証データ」のデータセットの組み合わせを10セット作ります。

 

それぞれのセットで予測モデルを学習し評価することで、個々の評価結果を出します。最終的にその評価結果を取りまとめ総合評価結果とします。

 

2. クロスバリデーション法のイメージ

もう少し分かりやすく説明します。1セット目です。10分割したデータの1つを「検証データ」とします。それ以外の9個のデータを「訓練データ」とします。この「訓練データ」で予測モデルを学習し「検証データ」を使い評価します。 

時系列データに対するクロスバリデーション法、データ分析講座(その307)

2セット目です。10分割したデータの中から1セット目と異なる「検証データ」を1つ選択し「検証データ」とします。それ以外の9個のデータを「訓練データ」とします。この「訓練データ」で予測モデルを学習し「検証データ」を使い評価します。

時系列データに対するクロスバリデーション法、データ分析講座(その307)

このような感じで、3セット目以降も同様に「訓練データ」による予測モデルの学習と「検証データ」による評価を実施します。最終的に、10個の評価結果が手に入ります。多くの場合、評価結果の平均を取り総合評価とします。もちろん、平均ではなく最大値や最小値などを求め「最悪のケース」を総合評価とすることもあります。 

 

3. そのまま時系列データに適用したとき起こる問題

今説明したクロスバリデーション法は、時間軸を考慮した予測モデルのチューニングをするとき問題が起きます。

 

「訓練データ」は「検証データ」よりも時間的に過去のデータである必要があります。ランダムに分割すると「過去のデータで予測モデルを学習し、未来の目的変数yを予測する」という前提を満たさない可能性が高いからです。そのため、ある時点で2つにデータセットを分割し、時間的に前のデータを「訓練データ」時間的に後のデータを「検証データ」とします。

 

4. 時系列データに対するクロスバリデーション法

クロスバリデーション法は複数の「訓練データ」と「検証データ」のセットを準備し、それぞれのセットで予測モデルを学習し評価し、最終的にその評価結果を取りまとめ総合評価結果とします。時系列データの場合には、次のように「訓練データ」と「検証データ」を分割する時点を複数設け、その時点ごとに「訓練データ」と「検証データ」のセットを作ります。

時系列データに対するクロスバリデーション法、データ分析講座(その307)

訓練データの期間を伸ばしていくエクスパディング型と、訓練データの期間を常に一定とするローリング型の2通りの方法があります。実務で予測モデルを構築し活用するとき、どちらの使い方に近いかで考えればいいと思います。

  1.  エクステパディング型:実務で予測モデルを構築するとき、手に入る過去データをできるだけ使うケース
  2.  ローリング型:実務で予測モデルを構築するとき、ある一定の期間の過去データを使うケース(もしくは、古いデータを定期的に破棄するケース)

 

【ものづくり セミナーサーチ】 セミナー紹介:国内最大級のセミナー掲載数 〈ものづくりセミナーサーチ〉 はこちら!

 

   続きを読むには・・・


この記事の著者

高橋 威知郎

データネクロマンサー/データ分析・活用コンサルタント (埋もれたデータに花を咲かせる、データ分析界の花咲じじい。それほど年齢は重ねてないけど)

データネクロマンサー/データ分析・活用コンサルタント (埋もれたデータに花を咲かせる、データ分析界の花咲じじい。それほど年齢は重ねてないけど)


「情報マネジメント一般」の他のキーワード解説記事

もっと見る
見積システムによるDX(その1)

  【目次】 1.アナログ情報をデジタル化 2.プロセス全体をデジタル化 3.価値の創造と利益の拡大   ここ...

  【目次】 1.アナログ情報をデジタル化 2.プロセス全体をデジタル化 3.価値の創造と利益の拡大   ここ...


データで騙す預言者になる データ分析講座(その280)

  データは非常に強力です。わかりやすく、有無を言わさない破壊力があります。ただ、おかしな使い方や見せ方で、人を騙すこともできます。恐ろし...

  データは非常に強力です。わかりやすく、有無を言わさない破壊力があります。ただ、おかしな使い方や見せ方で、人を騙すこともできます。恐ろし...


統計手法で役立つ、エクセル関数の整理

 PCを買うとMSオフィスが標準で入ってる場合が多いですし、ビジネス分野でも標準になっていることは、ご承知の通りです。仕事でエクセルを使う方はかなり多いと...

 PCを買うとMSオフィスが標準で入ってる場合が多いですし、ビジネス分野でも標準になっていることは、ご承知の通りです。仕事でエクセルを使う方はかなり多いと...


「情報マネジメント一般」の活用事例

もっと見る
電子メール、簡潔過ぎると逆効果

◆電子メール:多忙な人に確実な返信をもらうテクニック  皆様は仕事で電子メールを一日に何通受信しますか、企業の従業員数、所属部署、職務、職位などでも...

◆電子メール:多忙な人に確実な返信をもらうテクニック  皆様は仕事で電子メールを一日に何通受信しますか、企業の従業員数、所属部署、職務、職位などでも...


中小製造業とIoTの波

 「IoT(アイオーティー)」の波が、中小製造業にどのような影響をおよぼすのか、具体的にどのような変化がこの業界に訪れるのかについて、解説します。   ...

 「IoT(アイオーティー)」の波が、中小製造業にどのような影響をおよぼすのか、具体的にどのような変化がこの業界に訪れるのかについて、解説します。   ...


‐販路開拓に関する問題事例‐ 製品・技術開発力強化策の事例(その19)

 前回の事例その18に続いて解説します。多額の資金と労力を費やして開発した知的財産をどのように活用して販路開拓に結びつけるのか、大変重要な問題ですが、販売...

 前回の事例その18に続いて解説します。多額の資金と労力を費やして開発した知的財産をどのように活用して販路開拓に結びつけるのか、大変重要な問題ですが、販売...