今回は、重回帰分析をおこなうために、ある目的変数に対して相関分析を行い、相関係数の高い項目をピッアップし、回帰式を作成したい場合を解説します。
例として、相関分析を行い、相関係数よりp値を算出し、p<0.05のものを説明変数として採用し、重回帰分析を行います。重回帰分析の結果補正R2は0.82とよい結果となったとして、重回帰分析におけるp値はほとんどの説明変数にてp>0.05となり、有意水準を満たせなかったとします。
この場合、有意な回帰式として採用することができるのでしょうか。それとも、多重共線性の影響を加味して、説明変数の見直しを行うべきなのでしょうか。回帰分析の検定で定数項のP値が0.95となってしまう場合どういう意味があるのでしょうか。また、重回帰分析で自由度調整済決定係数が低い場合は、重回帰分析の結果が意味がないということでしょうか。
重回帰分析を行う時に、自動で計算して項目を選出してくれるステップワイズ法にて行うと、補正R2は0.98と高くなりますが、項目数が7項となり、p値も高い値となります。このような結果について、解説します。
1. 重回帰分析の長所
重回帰分析の良いところは、説明変数間に相関(共線性)があっても、説明変数毎に独立して目的変数への寄与を確認できることです。説明変数間に相関(共線性)がある場合、以下の現象が現れます。
- 目的変数と説明変数間に相関関係が無いのに有るように現れる(有意になる)
- 目的変数と説明変数間に相関関係が有るのに無いように現れる(有意差なし)
単独で相関分析を進めると、②のケース:有意な説明変数が見逃される可能性があります。
重回帰分析の特徴として、説明変数が多くなる程、またデータ数が少ない程、寄与率(重相関係数)が高くなります。これは見かけ上のものです。統計ソフトのアウトプットを見るときは、自由度調整済みの寄与率で判断する必要があります。
従って、上記の例の場合は、再度分析が必要です。
2. 重回帰分析の一般的手順
【ステップ1】
目的変数と全ての従属変数で相関マトリックス(散布図)を作成し、異常値が無いか確認し、分析対象のデータとして残して良いか判断します。
【ステップ2】
ステップ1の相関マトリックス(散布図)を見て、説明変数間に相関(共線性)がないか確認します。
- 相関(共線性)の度合いをVIF(分散拡大因子)として求めることができます。
- VIF≦10 であればステップ3の分析に移ります。
- VIF>10 の場合は、重回帰分析では正しい分析が出来ませんので、以下のどちらかの対応をします。
(1) 説明変数間に相関が無くなる...
ように追加のデータを採る⇒(現実に採れない場合もあります)
(2) 説明変数間に因果関係がある場合は相関のある説明変数のどちらかを残します。
【ステップ3】統計ソフトを用いて重回帰分析を行います。
・最終的に残す説明変数の絞り込み方には、記載されている「ステップワイズ法」や「ベストサブセット法」等があります。最終的に有意な説明変数のみで式を構成すれば良いです。単相関係数は考慮に入れなく良いです。
・上記の例にある定数項のP値は気にされなくて結構です。切片が0かどうかのP値で、現実には問題になることは少ないと思います。重回帰式には残しておきます。