回帰分析はじめ、実験計画法、タグチメソッドのコンサルをしている村島です。直交表のデータを回帰分析するということは、重回帰分析ですね。重回帰分析では、説明変数の数をp、データ数をnとするとき、偏回帰係数を決める(解析可能)な条件は、n-p-1≧0です。これがないと方程式が解けないわけです。p=6なら、nは7個以上ですから、L8ならデータ数が8個ですから、一応解けます。p=7ではデータ数が8個以上ですから、これでも一応は解けます。ここで、p=1の場合を考えてください。p=1すなわち、単回帰です。この場合、nは2個以上です。2個でもいいわけです。方程式が解ける、解けないの立場からは、です。でも、2個のデータがあれば、必ず絶対、直線になります。よって、次に別のデータが出てきたとき、その回帰直線に乗るかどうかは別です。よって、通常は3個以上のデータがないと話になりません。とすると、数学的に方程式が解けるのは、n-p-1≧0であっても、意味のある方程式(回帰分析の観点から)は、n-p-2≧0だということになります。p=1、単回帰なら3個以上のデータです。しかし、明らかにわかるように、3個のデータでよいはずがありません。統計的なばらつきを考慮すれば、通常、最低でも20個以上、と言われています。その根拠はここでは説明しません。この路線から言えば、説明変数すなわち因子数が7個なら、最低でも70個は必要です。
説明変数が6個でうまくいったといっても、先ほどの単回帰と同じように考えれば、全く意味のない解析であるといえます。データ数をもっと増やさないといけません。数学的に解析可能であることと、統計的に十分であることは違います。
6月12日には、この辺のセミナーが予定されています。当サイトのセミナー「製造業に役立つ数理的手法10選」です。申し込んでいただくとよくわかります。
|
結論からです。L8に7個の因子数を割り付けた場合には、重回帰分析を使えません。理由は、前回の解答によります。長々とした説明で申し訳なかったです。
|
くどいですが、今、もっと簡単な説明を思いつきました。回帰式では、実測値(観測値、実現値)と仮の予測値(予測式の形)との残差をとって、残差全体が最小になるように、係数を決定します。L8に7個の因子を割り付けてしまうと、この残差が出ません。実は、実験計画法でも同じことです。テキストには、L8なら7個の因子が割り付けられるとあるかもしれませんが、ウソです。7個割り付けたら、いったい効果は何と比較するのでしょうか?効果というのは、誤差と比較しての話ですから、誤差がなければそこで計算上はストップします。 手慣れた人は、7個割り付けて、最も平均変動の小さいものを半分ぐらい、プーリングして検定することで、効果を比較します。タグチメソッドではよく使う手です。ただし、通常は、(初歩では)、誤差列を確保して、その平均変動との比較で、残り6個の効果を知るわけです。プーリングするとしても、あくまで、基準は誤差列ですから、L8でも諸レベルでは6個割り付けのほうが迷いません。初心者は迷うのは無理ないです。ややこしいですね。エクセル使うと、プーリングなんて自動ではしませんので、おそらくそこで計算は止まります。
|