①時間的な依存関係を前提にしたモデル(時系列モデル,AR,多変量だとVAR等)
②一般のテーブルデータ用に用いる線型回帰や決定木のようなモデル
のどちらが適切でしょうか。一概にいえないかもしれませんが、例えば景気動向指数などの様々な外的要因や周期性に影響されるものは①が適切と思いますが、今回のケースだと②の方が適切だと考えています。結局得られるデータは時系列型なので①を採用という考えもある気がしています。各変数の自己相関係数を調べて(全変数?)ゼロ付近であれば依存関係なしと機械的に判断が下せるのでしょうが、そこまでやる価値があるのかも疑問です。
お手数ですがご教授頂けると幸いです
品質工学、多変量解析、品質管理全般のコンサルティングをしている村島技術士事務所の村島です。時系列予測は、あまり経験ありませんが、半導体製造会社勤務時代に、10件程度の実施をしました。品質工学のように、頑健性で片が付くものばかりではなく、やはり、現場データの多変量変動や時系列変化を予測して、パラメータを調節(変化させる)ことが大事になるときもあって、時系列分析と重回帰分析を組み合わせたモデルで、結構大きな効果を得た経験があります。
ご質問の件ですが、その経験から、①と②のドッキングがいいと思います。
たとえば、AR(1)モデルとプロセス調整パラメータの線形モデルのドッキングです。私は、IBM社からでているSPSSをつかっていました。時系列の長所である「時間的予測」と、そうはいっても、なるがままにはできないので、調節パラメータで線形モデルでの適切なチューニングを行うという考えです。
ご存じのうえでのご質問でしたら、申し訳ないです。
時系列分析と回帰分析のドッキング事例は、いろいろあるかもしれませんが、私が前職のころ、論文発表したなかでは、下記のものがあります。
Centering value by using TSMRA prediction of CD process variation (ISSM, 2008)
です。ISSM:International Symposium on Semiconductor Manufacturing の略です。なにぶん、大昔のことなので、今時、古いかもしれません。参考になれば幸いです。
|
村島です。2回目ですが、補足的な説明をさせていただきます。①と②のドッキングというのは、単に①と②を別々に計算して、総合的に判断するというものではありません。式でいえば、
目的変数y、説明変数x1, x2, 時間をtとしますと、モデル式は、以下のようになります。
y(t)=a+b1x1(t)+b2x2(t)+r(t)
r(t)=ρ*r(t-1)+u(t)
ここで、r(t)は自己回帰AR(1)モデルでの残差(誤差)、u(t)はホワイトノイズとします。
SPSSでは、a, b1, b2, ρ が自動計算され、出力されますが、たしかSTATWORKSはできなかったように覚えています。(別々には出力されますが、時系列を考えた上での説明変数の偏回帰係数ではありません。)
STATWORKSも日々アップデートされているので、今今はわかりません。もしくは、私の勘違い、記憶違いかもしれません。ご確認の上、お試しいただいたほうが良いかと思います。
|