層別因子を含むデータ解析(その2)

更新日

投稿日

 

【層別因子を含むデータ解析 連載目次】

♦ 重回帰分析初心者向けの注意 ~ 水準3個以上の場合

 前回の本解説記事(その1)では、層別因子の水準が2個(機械号機が2台とか男女差とかなど…)の場合は、割り当てる数値を何に例えてもよいことを確認しました。今回は、この水準数が3個以上の場合についてお話します。結論を先にいえば、2個の場合と違い、きちんとした定義変数を割り当てる必要があります。機械号機の1号機、2号機、3号機に適当に、―1、0、1とか、1、2、3とかを割り当てることは厳禁ということです。2水準の時には、結局、大小を区別するというよりは、一応区別するが、号機はそのどちらでもいいわけです。例えば、号機別に1個ずつのデータを取ったとしましょう。号機に1や2を割り当てて、その散布図を想像しましょう。その方程式は直線にしかなりません。どんな適当な数値を割り当てても、直線にしかなりません。傾きは、変わりますが回帰するなら、定義した割り当てた数字を入れればいいので、yはそれに対応して出てきますから、同じことです。データ数が増えてもばらつき具合は、回帰線の中心(平均値)に一致するだけで、状況は変わりません。

 機械号機差や材料メーカー差、成長炉差、支店の差などで2水準で比べるなら、どんな数値を当てがってもよいですが、3水準以上ではダメです。一番簡単な理解は、号機に1、2、3を割り当てて、収率が10%、40%、70%とする場合を思い浮かべてください(下記表1.参照)。

図1.水準値と号機と収率グラフ①

 

 次に、水準値を逆にしてみます(表2参照)。

図2.水準値と号機と収率グラフ②

 

 回帰式は違いますが、特にここまでなら実害はありません。順序に注意するだけです。ところが、このやり方は非常に重要な誤りを誘導します。それは知らずと、号機の順序を決めているので、2水準の時のようなら、どう入れ替えても、大小が変わるだけですが(表1、2、図1、2参照)、今回の2号機はここまで、常に真ん中にあったわけです。1、2、3あるいは3、2、1という水準値の与え方は2号機が必ず、1号機と3号機の中間にあるという定義になってしまっているわけです。これはおかしな話です。1号、2号といってもA、Bとか太郎、花子というネーミングに過ぎないので、大小順列関係を考えた水準はおかしなことになります。実際にやってみましょう。

 下記表では、2号機を端に配置した水準値としています。

図3.2号機を端水準にした場合

 回帰式は役に立ちそうにありません。決定係数も25%となります。同じ事象を見ているのに、収率と号機の関係はほとんどないこととなります。差があるともいえないが、差がないともいえないということです。検定が必要になりますが、ここでは行いません。

 以上を単回帰で説明してきましたが、そろそろ重回帰に戻して説明します。今までのまとめは、

  1. 2水準なら適当に数値を入れればよい
  2. 3水準以上は、適当にいれると、数値が順序(大小)を表すことになり、厳禁

 そこで、どうするかです

 例えば、説明変数x1とx2は計量因子(温度とか圧力のような連続計量値)とし、号機が4個(A1、A2、A3、A4)とした場合、下表のように置き換えます。これを定義変数といいます。

表4. 号機が4個の場合の定義変数

 生データは前回解説記事の表2を使って、以下のようになります。

表5. 号機別の連データ


 相関行列や重回帰分析の結果は以下の...

 

【層別因子を含むデータ解析 連載目次】

♦ 重回帰分析初心者向けの注意 ~ 水準3個以上の場合

 前回の本解説記事(その1)では、層別因子の水準が2個(機械号機が2台とか男女差とかなど…)の場合は、割り当てる数値を何に例えてもよいことを確認しました。今回は、この水準数が3個以上の場合についてお話します。結論を先にいえば、2個の場合と違い、きちんとした定義変数を割り当てる必要があります。機械号機の1号機、2号機、3号機に適当に、―1、0、1とか、1、2、3とかを割り当てることは厳禁ということです。2水準の時には、結局、大小を区別するというよりは、一応区別するが、号機はそのどちらでもいいわけです。例えば、号機別に1個ずつのデータを取ったとしましょう。号機に1や2を割り当てて、その散布図を想像しましょう。その方程式は直線にしかなりません。どんな適当な数値を割り当てても、直線にしかなりません。傾きは、変わりますが回帰するなら、定義した割り当てた数字を入れればいいので、yはそれに対応して出てきますから、同じことです。データ数が増えてもばらつき具合は、回帰線の中心(平均値)に一致するだけで、状況は変わりません。

 機械号機差や材料メーカー差、成長炉差、支店の差などで2水準で比べるなら、どんな数値を当てがってもよいですが、3水準以上ではダメです。一番簡単な理解は、号機に1、2、3を割り当てて、収率が10%、40%、70%とする場合を思い浮かべてください(下記表1.参照)。

図1.水準値と号機と収率グラフ①

 

 次に、水準値を逆にしてみます(表2参照)。

図2.水準値と号機と収率グラフ②

 

 回帰式は違いますが、特にここまでなら実害はありません。順序に注意するだけです。ところが、このやり方は非常に重要な誤りを誘導します。それは知らずと、号機の順序を決めているので、2水準の時のようなら、どう入れ替えても、大小が変わるだけですが(表1、2、図1、2参照)、今回の2号機はここまで、常に真ん中にあったわけです。1、2、3あるいは3、2、1という水準値の与え方は2号機が必ず、1号機と3号機の中間にあるという定義になってしまっているわけです。これはおかしな話です。1号、2号といってもA、Bとか太郎、花子というネーミングに過ぎないので、大小順列関係を考えた水準はおかしなことになります。実際にやってみましょう。

 下記表では、2号機を端に配置した水準値としています。

図3.2号機を端水準にした場合

 回帰式は役に立ちそうにありません。決定係数も25%となります。同じ事象を見ているのに、収率と号機の関係はほとんどないこととなります。差があるともいえないが、差がないともいえないということです。検定が必要になりますが、ここでは行いません。

 以上を単回帰で説明してきましたが、そろそろ重回帰に戻して説明します。今までのまとめは、

  1. 2水準なら適当に数値を入れればよい
  2. 3水準以上は、適当にいれると、数値が順序(大小)を表すことになり、厳禁

 そこで、どうするかです

 例えば、説明変数x1とx2は計量因子(温度とか圧力のような連続計量値)とし、号機が4個(A1、A2、A3、A4)とした場合、下表のように置き換えます。これを定義変数といいます。

表4. 号機が4個の場合の定義変数

 生データは前回解説記事の表2を使って、以下のようになります。

表5. 号機別の連データ


 相関行列や重回帰分析の結果は以下のようになります。

表6. 相関行列

表7.重回帰分析結果

 説明するまでもなく号機1の時は、その他の号機の数値は0ですから、x3が1の時は号機1と言い切れます。順序も関係ありません。他の号機でも同じ考え方です。
 このように、説明変数が層別因子である場合には、その割り当て数(定義変数)には、注意する必要があります。ちなみに号機A1からA4に順に1、2、3、4と割り当てて、重回帰分析をしてみたものと比べましょう(意味のない解析ですが、一応差異を確認しておきましょう)。

表8.生データの例

表9.相関行列

表10.重回帰分析結果


 この表を、正しい解析である表6、表7と見比べてみてください。全く違うのですが、どこにその違いが表れるのかを考察しておくとよいでしょう。

   続きを読むには・・・


この記事の著者

村島 繁延

QCDはバランスさせるものではなく、全て両立させるものだという信念で向かいます。一石三鳥を狙った成果を目指します。

QCDはバランスさせるものではなく、全て両立させるものだという信念で向かいます。一石三鳥を狙った成果を目指します。


「SQC一般」の他のキーワード解説記事

もっと見る
分散の加法性とは

     SQC(Statistical Quality Control:統計的品質管理)というと、期待値、確率変数、標準偏差、正規分布...

     SQC(Statistical Quality Control:統計的品質管理)というと、期待値、確率変数、標準偏差、正規分布...


~速算:暗算計算と九去法 続・現場数学(その20)

  ♦ 計算を身近なケースから考える   1. 電卓よりはるかに速く~ 速算と暗算の活用  本シリーズのタイト...

  ♦ 計算を身近なケースから考える   1. 電卓よりはるかに速く~ 速算と暗算の活用  本シリーズのタイト...


~ 「定幅図形」マンホールのフタはなぜ丸い? 現場数学(その17)

  ♦ ルーローの三角形と定幅図形 1.自動車のタイヤは丸くないといけない?  ピラミッドを造った時、大きな石をどうやって...

  ♦ ルーローの三角形と定幅図形 1.自動車のタイヤは丸くないといけない?  ピラミッドを造った時、大きな石をどうやって...


「SQC一般」の活用事例

もっと見る
統計手法による 2018年LPGA公式記録データの解析事例(その1)

【統計手法による 2018年LPGA公式記録データの解析 連載目次】 統計手法による 2018年LPGA公式記録データの解析事例(その1) 統...

【統計手法による 2018年LPGA公式記録データの解析 連載目次】 統計手法による 2018年LPGA公式記録データの解析事例(その1) 統...


第1種の誤りと第2種の誤り

 「あわて者の誤り」と「ぼんやり者の誤り」をご存知ですか、あわて者の誤りは正式には『第一種の誤り』(Type Ⅰ error)と呼称し、ぼんやり者の誤りは...

 「あわて者の誤り」と「ぼんやり者の誤り」をご存知ですか、あわて者の誤りは正式には『第一種の誤り』(Type Ⅰ error)と呼称し、ぼんやり者の誤りは...


統計教育が必須な検査担当者

 測定や検査結果の値で合格判定を行い、製品性能の品質保証をする事は製造業に取っては当たり前と言える日常的作業です。一方で検査や測定の正確さや信頼性を担保す...

 測定や検査結果の値で合格判定を行い、製品性能の品質保証をする事は製造業に取っては当たり前と言える日常的作業です。一方で検査や測定の正確さや信頼性を担保す...