クロスセクションデータとは データ分析講座(その102)

更新日

投稿日

データ分析

◆ 時系列データをクロスセクションデータとして分析するもったいなさ

 世の中の多くのデータは、時間という概念が紐づいた時系列データ(※1)です。時間の概念がないデータとして有名なのがクロスセクションデータ(※2)です。例えばある特定の時期に実施したアンケート調査などは、クロスセクションデータになります。同じアンケート調査を、毎月繰り返してその時間的な変化を分析することを考えた場合は時系列データです。同じ人(標本)に調査を繰り返した時系列データを、パネルデータ(※3)といいます。

 クロスセクションデータに比べ、時系列データは情報量が豊富で時間の概念も使えるため分析の幅も広がります。しかし時系列データをクロスセクションデータとして分析する人は、結構多いように思います。そこで今回は「時系列データをクロスセクションデータとして分析するもったいなさ」というお話しをします。

1. “もったいない”のはなぜ?

 なぜ、時系列データをクロスセクションデータとして分析するというもったいないことを多くの人が行うのでしょうか。

 第一に挙げられるのは「簡単だから」です。クロスセクションデータであれば時間軸という概念を排除できるので、データ分析の問題が簡単になります。例えば契約の継続・離反を予測するモデルを構築する時や、故障を予知するためのモデルを構築する時、時系列性を考えなければ考慮する場合と比べ比較的簡単に構築することができます。その代わり多くの何かを考慮しないことになります。

2. データの周期性やトレンドが無視されてしまう

 まずい理由として、一番最初に思いつくのが予測対象である継続・離反や故障などのデータの周期性やトレンドが考慮されないことです。周期性とは例えば季節性などを指し、トレンドは上昇や下降傾向といったものですが、そういったものが一切無視されてしまいます。トレンドや周期性が何によってもたらされているのかを感じることは、将来を予測したり過去を評価する上でも重要です。

3. ラグ性も考慮されない

 次に思い浮かぶのはラグ性(タイムラグ)です。1ケ月前の何かが次の月に何らかの形で影響を及ぼすことは結構あります。クロスセクションデータとして分析すると、このようなタイムラグを無視することになるのです。時間的軸の要素が抜け落ちているからです。

4. 構造変化も考慮されない

 周期性やラグ性だけではありません。クロスセクションデータとして分析すると構造変化も無視することにもなってしまいます。ここでいう構造とは、データ間の相関構造(相関係数行列)のことです。データ間の相関も、時間の変化とともに変化することがありますのでこの変化を分析に取り込むことは非常に重要なのです。

 例えば、故障予知を説明する要因として構造変化が考えられたりするからです。ある機械のセンサー間の相関関係に問題が...

データ分析

◆ 時系列データをクロスセクションデータとして分析するもったいなさ

 世の中の多くのデータは、時間という概念が紐づいた時系列データ(※1)です。時間の概念がないデータとして有名なのがクロスセクションデータ(※2)です。例えばある特定の時期に実施したアンケート調査などは、クロスセクションデータになります。同じアンケート調査を、毎月繰り返してその時間的な変化を分析することを考えた場合は時系列データです。同じ人(標本)に調査を繰り返した時系列データを、パネルデータ(※3)といいます。

 クロスセクションデータに比べ、時系列データは情報量が豊富で時間の概念も使えるため分析の幅も広がります。しかし時系列データをクロスセクションデータとして分析する人は、結構多いように思います。そこで今回は「時系列データをクロスセクションデータとして分析するもったいなさ」というお話しをします。

1. “もったいない”のはなぜ?

 なぜ、時系列データをクロスセクションデータとして分析するというもったいないことを多くの人が行うのでしょうか。

 第一に挙げられるのは「簡単だから」です。クロスセクションデータであれば時間軸という概念を排除できるので、データ分析の問題が簡単になります。例えば契約の継続・離反を予測するモデルを構築する時や、故障を予知するためのモデルを構築する時、時系列性を考えなければ考慮する場合と比べ比較的簡単に構築することができます。その代わり多くの何かを考慮しないことになります。

2. データの周期性やトレンドが無視されてしまう

 まずい理由として、一番最初に思いつくのが予測対象である継続・離反や故障などのデータの周期性やトレンドが考慮されないことです。周期性とは例えば季節性などを指し、トレンドは上昇や下降傾向といったものですが、そういったものが一切無視されてしまいます。トレンドや周期性が何によってもたらされているのかを感じることは、将来を予測したり過去を評価する上でも重要です。

3. ラグ性も考慮されない

 次に思い浮かぶのはラグ性(タイムラグ)です。1ケ月前の何かが次の月に何らかの形で影響を及ぼすことは結構あります。クロスセクションデータとして分析すると、このようなタイムラグを無視することになるのです。時間的軸の要素が抜け落ちているからです。

4. 構造変化も考慮されない

 周期性やラグ性だけではありません。クロスセクションデータとして分析すると構造変化も無視することにもなってしまいます。ここでいう構造とは、データ間の相関構造(相関係数行列)のことです。データ間の相関も、時間の変化とともに変化することがありますのでこの変化を分析に取り込むことは非常に重要なのです。

 例えば、故障予知を説明する要因として構造変化が考えられたりするからです。ある機械のセンサー間の相関関係に問題が生じ2時間後に故障する、などといったことが起こったりします。そこで構造変化という要因を、故障予知の変数として使うことで故障予知の精度が飛躍的に高まるということに繋がってくるからです。このように、時系列データをクロスセクションデータとして分析すると、色々な不都合が生じます。

※1 一つの項目について時間に沿って集めたデータ(過去5年間の人口推移など)
※2 
ある時点に特定し、場所やグループ別など複数の項目を集め記録したデータ(令和●年の東京都の人口、世帯数など)
※3 
同じ人や標本について、その対象を変えることなく複数の項目を継続的に調べ記録したデータ

   続きを読むには・・・


この記事の著者

高橋 威知郎

データネクロマンサー/データ分析・活用コンサルタント (埋もれたデータに花を咲かせる、データ分析界の花咲じじい。それほど年齢は重ねてないけど)

データネクロマンサー/データ分析・活用コンサルタント (埋もれたデータに花を咲かせる、データ分析界の花咲じじい。それほど年齢は重ねてないけど)


「情報マネジメント一般」の他のキーワード解説記事

もっと見る
ミルの比較分析 データ分析講座(その183)

  ◆ 古くても知っていて損のないミルの比較分析 ジョン・スチュアート・ミルの著書『論理学体系』の中に、因果関係の問題を解明するための5...

  ◆ 古くても知っていて損のないミルの比較分析 ジョン・スチュアート・ミルの著書『論理学体系』の中に、因果関係の問題を解明するための5...


データ分析活用の視点とは データ分析講座(その82)

◆ データ分析のビジネス貢献を阻害する7つの問題  何のためにデータ分析をするのでしょうか。ビジネスの世界で考えた場合は、ビジネスに貢献する必要があ...

◆ データ分析のビジネス貢献を阻害する7つの問題  何のためにデータ分析をするのでしょうか。ビジネスの世界で考えた場合は、ビジネスに貢献する必要があ...


点過程データと時系列データ データ分析講座(その266)

  時系列(time series)データと混同されやすいデータに点過程(point process)データがあります。点過程時系列データ...

  時系列(time series)データと混同されやすいデータに点過程(point process)データがあります。点過程時系列データ...


「情報マネジメント一般」の活用事例

もっと見る
デジタルデータの保存とは

        今回は、地震災害等を想定して、デジタルデータの保存に焦点を当てて、主なバックアップ方法と長所...

        今回は、地震災害等を想定して、デジタルデータの保存に焦点を当てて、主なバックアップ方法と長所...


レストランでのタブレット端末

        最近、テーブルにタブレット端末を置くレストランが増えています。レストラン利用者としては、ウェ...

        最近、テーブルにタブレット端末を置くレストランが増えています。レストラン利用者としては、ウェ...


電子メール、簡潔過ぎると逆効果

◆電子メール:多忙な人に確実な返信をもらうテクニック  皆様は仕事で電子メールを一日に何通受信しますか、企業の従業員数、所属部署、職務、職位などでも...

◆電子メール:多忙な人に確実な返信をもらうテクニック  皆様は仕事で電子メールを一日に何通受信しますか、企業の従業員数、所属部署、職務、職位などでも...