層別因子を含むデータ解析(その2)

更新日

投稿日

 

【層別因子を含むデータ解析 連載目次】

♦ 重回帰分析初心者向けの注意 ~ 水準3個以上の場合

 前回の本解説記事(その1)では、層別因子の水準が2個(機械号機が2台とか男女差とかなど…)の場合は、割り当てる数値を何に例えてもよいことを確認しました。今回は、この水準数が3個以上の場合についてお話します。結論を先にいえば、2個の場合と違い、きちんとした定義変数を割り当てる必要があります。機械号機の1号機、2号機、3号機に適当に、―1、0、1とか、1、2、3とかを割り当てることは厳禁ということです。2水準の時には、結局、大小を区別するというよりは、一応区別するが、号機はそのどちらでもいいわけです。例えば、号機別に1個ずつのデータを取ったとしましょう。号機に1や2を割り当てて、その散布図を想像しましょう。その方程式は直線にしかなりません。どんな適当な数値を割り当てても、直線にしかなりません。傾きは、変わりますが回帰するなら、定義した割り当てた数字を入れればいいので、yはそれに対応して出てきますから、同じことです。データ数が増えてもばらつき具合は、回帰線の中心(平均値)に一致するだけで、状況は変わりません。

 機械号機差や材料メーカー差、成長炉差、支店の差などで2水準で比べるなら、どんな数値を当てがってもよいですが、3水準以上ではダメです。一番簡単な理解は、号機に1、2、3を割り当てて、収率が10%、40%、70%とする場合を思い浮かべてください(下記表1.参照)。

図1.水準値と号機と収率グラフ①

 

 次に、水準値を逆にしてみます(表2参照)。

図2.水準値と号機と収率グラフ②

 

 回帰式は違いますが、特にここまでなら実害はありません。順序に注意するだけです。ところが、このやり方は非常に重要な誤りを誘導します。それは知らずと、号機の順序を決めているので、2水準の時のようなら、どう入れ替えても、大小が変わるだけですが(表1、2、図1、2参照)、今回の2号機はここまで、常に真ん中にあったわけです。1、2、3あるいは3、2、1という水準値の与え方は2号機が必ず、1号機と3号機の中間にあるという定義になってしまっているわけです。これはおかしな話です。1号、2号といってもA、Bとか太郎、花子というネーミングに過ぎないので、大小順列関係を考えた水準はおかしなことになります。実際にやってみましょう。

 下記表では、2号機を端に配置した水準値としています。

図3.2号機を端水準にした場合

 回帰式は役に立ちそうにありません。決定係数も25%となります。同じ事象を見ているのに、収率と号機の関係はほとんどないこととなります。差があるともいえないが、差がないともいえないということです。検定が必要になりますが、ここでは行いません。

 以上を単回帰で説明してきましたが、そろそろ重回帰に戻して説明します。今までのまとめは、

  1. 2水準なら適当に数値を入れればよい
  2. 3水準以上は、適当にいれると、数値が順序(大小)を表すことになり、厳禁

 そこで、どうするかです

 例えば、説明変数x1とx2は計量因子(温度とか圧力のような連続計量値)とし、号機が4個(A1、A2、A3、A4)とした場合、下表のように置き換えます。これを定義変数といいます。

表4. 号機が4個の場合の定義変数

 生データは前回解説記事の表2を使って、以下のようになります。

表5. 号機別の連データ


 相関行列や重回帰分析の結果は以下の...

 

【層別因子を含むデータ解析 連載目次】

♦ 重回帰分析初心者向けの注意 ~ 水準3個以上の場合

 前回の本解説記事(その1)では、層別因子の水準が2個(機械号機が2台とか男女差とかなど…)の場合は、割り当てる数値を何に例えてもよいことを確認しました。今回は、この水準数が3個以上の場合についてお話します。結論を先にいえば、2個の場合と違い、きちんとした定義変数を割り当てる必要があります。機械号機の1号機、2号機、3号機に適当に、―1、0、1とか、1、2、3とかを割り当てることは厳禁ということです。2水準の時には、結局、大小を区別するというよりは、一応区別するが、号機はそのどちらでもいいわけです。例えば、号機別に1個ずつのデータを取ったとしましょう。号機に1や2を割り当てて、その散布図を想像しましょう。その方程式は直線にしかなりません。どんな適当な数値を割り当てても、直線にしかなりません。傾きは、変わりますが回帰するなら、定義した割り当てた数字を入れればいいので、yはそれに対応して出てきますから、同じことです。データ数が増えてもばらつき具合は、回帰線の中心(平均値)に一致するだけで、状況は変わりません。

 機械号機差や材料メーカー差、成長炉差、支店の差などで2水準で比べるなら、どんな数値を当てがってもよいですが、3水準以上ではダメです。一番簡単な理解は、号機に1、2、3を割り当てて、収率が10%、40%、70%とする場合を思い浮かべてください(下記表1.参照)。

図1.水準値と号機と収率グラフ①

 

 次に、水準値を逆にしてみます(表2参照)。

図2.水準値と号機と収率グラフ②

 

 回帰式は違いますが、特にここまでなら実害はありません。順序に注意するだけです。ところが、このやり方は非常に重要な誤りを誘導します。それは知らずと、号機の順序を決めているので、2水準の時のようなら、どう入れ替えても、大小が変わるだけですが(表1、2、図1、2参照)、今回の2号機はここまで、常に真ん中にあったわけです。1、2、3あるいは3、2、1という水準値の与え方は2号機が必ず、1号機と3号機の中間にあるという定義になってしまっているわけです。これはおかしな話です。1号、2号といってもA、Bとか太郎、花子というネーミングに過ぎないので、大小順列関係を考えた水準はおかしなことになります。実際にやってみましょう。

 下記表では、2号機を端に配置した水準値としています。

図3.2号機を端水準にした場合

 回帰式は役に立ちそうにありません。決定係数も25%となります。同じ事象を見ているのに、収率と号機の関係はほとんどないこととなります。差があるともいえないが、差がないともいえないということです。検定が必要になりますが、ここでは行いません。

 以上を単回帰で説明してきましたが、そろそろ重回帰に戻して説明します。今までのまとめは、

  1. 2水準なら適当に数値を入れればよい
  2. 3水準以上は、適当にいれると、数値が順序(大小)を表すことになり、厳禁

 そこで、どうするかです

 例えば、説明変数x1とx2は計量因子(温度とか圧力のような連続計量値)とし、号機が4個(A1、A2、A3、A4)とした場合、下表のように置き換えます。これを定義変数といいます。

表4. 号機が4個の場合の定義変数

 生データは前回解説記事の表2を使って、以下のようになります。

表5. 号機別の連データ


 相関行列や重回帰分析の結果は以下のようになります。

表6. 相関行列

表7.重回帰分析結果

 説明するまでもなく号機1の時は、その他の号機の数値は0ですから、x3が1の時は号機1と言い切れます。順序も関係ありません。他の号機でも同じ考え方です。
 このように、説明変数が層別因子である場合には、その割り当て数(定義変数)には、注意する必要があります。ちなみに号機A1からA4に順に1、2、3、4と割り当てて、重回帰分析をしてみたものと比べましょう(意味のない解析ですが、一応差異を確認しておきましょう)。

表8.生データの例

表9.相関行列

表10.重回帰分析結果


 この表を、正しい解析である表6、表7と見比べてみてください。全く違うのですが、どこにその違いが表れるのかを考察しておくとよいでしょう。

   続きを読むには・・・


この記事の著者

村島 繁延

QCDはバランスさせるものではなく、全て両立させるものだという信念で向かいます。一石三鳥を狙った成果を目指します。

QCDはバランスさせるものではなく、全て両立させるものだという信念で向かいます。一石三鳥を狙った成果を目指します。


「SQC一般」の他のキーワード解説記事

もっと見る
~大工さんは建築現場の数学者 現場数学(その11)

  ♦ 日本文化伝承する規矩準縄術 1.曲尺と発音  棟梁(とうりょう)をはじめとする大工さんたちの腕の素晴らしさは、日本...

  ♦ 日本文化伝承する規矩準縄術 1.曲尺と発音  棟梁(とうりょう)をはじめとする大工さんたちの腕の素晴らしさは、日本...


~長方形の面積S=a×b?-誤差の概念、誤差の伝播― 現場数学(その3)

  1. 誤差の概念について  子どもの頃、面積を求める問題は分かりやすく、誰でも算数が出来た気になりました。その時、悩みもせず、例えば...

  1. 誤差の概念について  子どもの頃、面積を求める問題は分かりやすく、誰でも算数が出来た気になりました。その時、悩みもせず、例えば...


DPMO(Defects Per Million Opportunity) 工程能力の理解 (その3)

  【工程能力の理解 連載目次】  工程能力とは  工程能力指数-Cp/Cpk  ...

  【工程能力の理解 連載目次】  工程能力とは  工程能力指数-Cp/Cpk  ...


「SQC一般」の活用事例

もっと見る
統計教育が必須な検査担当者

 測定や検査結果の値で合格判定を行い、製品性能の品質保証をする事は製造業に取っては当たり前と言える日常的作業です。一方で検査や測定の正確さや信頼性を担保す...

 測定や検査結果の値で合格判定を行い、製品性能の品質保証をする事は製造業に取っては当たり前と言える日常的作業です。一方で検査や測定の正確さや信頼性を担保す...


信頼できる結果を得るために統計的手法の活用を

昔の事になりますが、配属された職場の先輩の下である実験を手伝いました。先輩は図1のような計画をたてました。2つの量的因子A、Bの効果を確認する実験でした。...

昔の事になりますが、配属された職場の先輩の下である実験を手伝いました。先輩は図1のような計画をたてました。2つの量的因子A、Bの効果を確認する実験でした。...


飛行機事故とセンサー・フィードバックの分布

   ボーイング 737 Max 8機が短い期間に2回の墜落死亡事故を起こし、多くの航空会社が同機種の運航を停止する事態となっています。多くの...

   ボーイング 737 Max 8機が短い期間に2回の墜落死亡事故を起こし、多くの航空会社が同機種の運航を停止する事態となっています。多くの...