非常に初歩的で直観的な質問で申し訳ないのですが、「実験計画法とタグチメソッド」という文献のp223にて、例えばある集団の人々が健康であるかどうかを判別する場合、MT法では
・健康である人々は類似している。つまり、集団とみなせる
・健康でない人々は各々の状態が千差万別であり、類似していない。つまり集団とみなせない
という前提で分析を行うとありました。
しかし、前ページで示された例題
「食生活や運動の仕方に問題があると診断された不健康グループ5人と特に問題がない15人について、食生活や生活態度の自己評価アンケートを実施しました。
下記は健康有無と自己評価得点(100点満点)を示したものです。
このデータを分析し、健康有無を判別する基準を作ってください。
作成した基準に基づき、Wさんが健康グループか不健康グループどちらに属するかをMT法を用いて判定してください。
健康有無 評価1 評価2 評価3 評価4 評価5 評価6
A 健康 61 68 74 76 74 79
B 健康 53 58 59 66 67 72
C 健康 84 80 83 88 94 99
D 健康 66 74 77 82 85 84
E 健康 40 38 50 47 51 66
F 健康 53 59 65 70 68 72
G 健康 61 73 75 76 79 81
H 健康 65 74 76 77 84 83
I 健康 57 65 68 74 70 75
J 健康 69 75 79 83 91 90
K 健康 59 67 70 74 71 77
L 健康 83 82 96 88 94 100
M 健康 43 43 52 50 64 67
N 健康 55 62 70 73 69 75
O 健康 51 57 56 56 64 65
P 不健康 53 60 52 57 53 66
Q 不健康 77 72 76 81 79 88
R 不健康 46 52 61 63 63 61
S 不健康 68 76 88 82 80 93
T 不健康 49 53 58 55 48 63
W ? 66 70 74 75 72 80 」
こちらの例題の表においては、各評価項目が「健康である人々は類似している。つまり、集団とみなせる」というようにはみえず、正常はある一つの群をなすが、異常は群をなさないというMT法が想定しているデータの背景の特徴と矛盾しているように感じるのですが、これは何故でしょうか?「健康である人々は類似している。つまり、集団とみなせる」というのは、何が類似していて、集団とみなせるのでしょうか?
また、もう1点、予測のための多変量分析において、重回帰分析などのほかの手法ではなく、MT法を用いるメリットは何ですか?ほかの手法と比較して教えていただきたいです。
とても初歩的な質問で申し訳ありませんが、ご教授いただけると幸いです。
補足1
MT法の想定しているデータに関して「正常な集団の各評価項目が、類似していて一つの群をなす」わけではないということはわかったのですが、ではMT法を用いる前提条件として正常な集団の何が類似していて一つの群をなすのでしょうか?
あああさん、ご質問ありがとうございます。
クラスターK平均法、クラスター観測値法、判別分析、2値ロジスティック回帰、MT法を使ってWが健康か不健康か判断してみました。(但しソフトウェアはMinitab、あまり最適化しないでほとんどデフォルト設定で分析)
Wの判別結果は
- クラスターK平均法(健康)
- クラスター観測値法(健康)
- 判別分析(不健康)
- 2値ロジスティック回帰(不健康)
- MT法(健康)
となりました(間違っていたらごめんなさい)。すべて同じ結果になることを期待したのですが、そうはなりませんでした。分析方法にはそれぞれ違った前提条件があるので、その前提条件に合わないと結果も異なるようです。
W以外のデータについて見てみると、B、E、F、L、O、R、R、Sは分析方法によって異なった結果となりました。確かに本の中の例題としては明確ではないかもしれませんが、実際の生データはこんなものではないでしょうか。
以下はMinitabが計算したマハラノビス距離です。
サンプル 健康 不健康
A 1.565 2.555
B 2.358 8.535
C 7.428 12.684
D 1.767 9.744
E 10.18 13.75
F 2.279 5.947
G 3.305 9.506
H 3.053 10.456
I 2.485 4.832
J 4.285 17.349
K 1.723 3.088
L 11.61 10.04
M 8.791 20.507
N 3.090 4.937
O 7.908 9.309
P 14.56 8.244
Q 11.424 6.595
R 10.82 10.98
S 10.36 11.04
T 18.241 4.967
W 5.331 0.341
AからOまでが健康、PからTまでが不健康のはずですが、EやLなどはマハラノビス距離が長くても健康となっているので、あああさんが「MT法が想定しているデータの背景の特徴と矛盾しているように感じる」と思うのも無理がありません。私もそう思います。
Wなどは健康グループからのマハラノビス距離が短いので、MT法では一応「健康」としましたが、しかし一方で、不健康グループとの距離はより近いので「不健康」とも言えます(判別分析は健康と不健康両方のハラノビス距離を比べるので「不健康」判断)。
統計的分析方法はそれぞれ、データに対する前提条件が違います。前提条件が期待するものに合わなければ、当然結果も異なってきます。
MT法の場合、「健康である人々は類似している」という前提条件が成立している必要があります。この与えられたデータの場合、「健康グループからのマハラノビス距離が10.820未満なら健康」と定義できれば、おおよそMT法が期待する前提条件が成立します。
MT法を使う理由は、計算が楽なこと、前提条件が比較的簡単なことが挙げられます。そのため判別が必要な色々なアプリケーションので応用できます。それが最大のメリットではないでしょうか。
しかしMT法に限らず、どの分析方法にも得意・不得意なケース(前提条件を含め)があるので、どの分析方法を使うのかはデータ次第です。
幸い今は統計処理ソフトウェアや機械学習プログラムなどが発達しているので、「どの分析方法を使おうか?」と深く悩む必要は減りました。「とりあえず全部使ってみて、最も正解率の高い分析方法、まはた最も経験値と合致する分析方法を採用する」というアプローチが広がりつつあります。
ちなみに私が使ったそれぞれの分析方法(2値ロジスティック回帰を除く)の正解率は、
- クラスターK平均法(70%)
- クラスター観測値法(75%)
- 判別分析(85%)
- MT法(95%: マハラノビス距離が10.820未満)
このデータなら「MT法を使ってみようかな?」と思えます。
少しでも参考になりましたら幸いです。
|
実験計画法や品質工学、多変量解析、その他品質管理手法全般にわたってコンサルを企業にて実施している村島技術士事務所の村島です。
ご質問者の質問に、すごくかんたんにこたえたいと思います。本当に初心者だということを前提に応えさせていただきますから、レベルの低い回答だと思われるかもしれませんが、ご容赦ください。
まず、勘違いしていけないのは、評価項目をみて、健康と不健康に分かれているわけではないということです。ですから、この評価項目をじっと観察していても、どんな分析をしても、この評価項目のデータが「健康に関して類似性」をもつかどうか、わかりません。例題文中にあるように、食生活や運動の仕方に問題がある、問題がないということで、不健康、健康を分けたにすぎません。評価項目には、食生活や運動に関する項目が全くない可能性もあります。評価項目には、血糖値や血圧、体重、歩数などがあるのかどうかわかりませんが、(私はこの本を読んでいません)、評価項目のスコアで健康と不健康を分けたわけではないと思います。それをやったとしたら、MTによる解析をする意味がありません。むしろ、健康に効く評価項目の組み合わせはなにかということを、MT法で解析するという意味だと思います。
あと一点、Wのスコアをみていてもわかるように、評価項目としてはさほどに異常値ではありません。しかし、マハラノビスの距離を計算すると異常になる場合があります。この様子は、2次元なら、わかりやすいです。たとえば、相関のある散布図を思い浮かべてください。相関があるから、楕円形のような形です。その楕円形の短軸外側に、ちょっとはずれた点を想像してみてください。外側ですから、異常です。しかし、x軸、Y軸からみれば、双方の分布に入っているので、異常ではないという判断をしてしまいがちです。こういった誤判断をしないためにマハラノビス距離が必要になります。評価項目が6個もあれば、6次元ですから、二次元と違い、散布図では太刀打ちできません。よって、マハラノビス距離によって判断するわけです。
予測メインの重回帰分析との違いについては、MT法は予測というよりは、分類とか判別です。予測ではありません。目的変数をもたないので、予測にはMT法は使いません。どちらかといえば、手法目的には、判別分析や主成分解析に近いのがMT法です。重回帰分析に近い予測手法としては品質工学にはT法があります。解析方法が違いますが、狙いは同じです。MT法は予測には使いません。
以上です。
|
品質工学のコンサルティングをしております対馬と申します。
健康な人の状態はだいたい似通っていて安定していますが、不健康な人というのはその不健康な状態が人それぞれ大きく異なっていているため、判断基準としては不安定なものになります。 したがって、不健康な人を正常な集団(単位空間)とするのには無理があります。
本事例の場合、評価項目の数値をみる限り、健康な人もばらつきがある(安定していない)ように思われるかもしれませんが、そのばらつきも含めた情報を総合した判断尺度「マハラノビスの距離(MD)」を用いて、不健康な人を正常な集団(健康な人)からの離れ具合で定量的に判断することになります。 すなわち、不健康な人あるいは健康か不健康かわからない未知のWさんが、正常な集団に近い位置にあれば健康な人、遠く離れていれば正常なものに似ていない、つまり、不健康な人と判断できるわけです。
実際、本事例をMT法で解析しますと、健康な人たち(正常な集団)のMDは0.25~1.93の範囲(MD平均値は1)にあるのに対して、不健康な人たちのMDは3.38~8.75の範囲にあり、不健康な人たちは健康な人たちから距離が離れていることがわかります。 一方、健康か不健康かわからないWさんのMDは1.24でしたので、Wさんは健康な人たちの集団に属していると判断できることになります。
二つ目の質問の多変量分析および重回帰分析と比較したときのMT法のメリットについては、以下の書籍の「第1章 パターン認識とMTシステム」に詳しく載っていますので、読んでいただければ理解が早いかと思います。
入門 MTシステム 立林和夫 編著 (株)日科技連出版社
以 上
|
健康な人たちというのは、食生活や運動の仕方が似ている(均質性がある)ということです。
|
村島です。「正常な集団の何が類似していて一つの群をなすのでしょうか?」という、補足質問ですが、大変難しいと思います。実際、MT法のコンサルテーマでは、必ず出る質問です。何を持って、普通と考えるのか、ということは、個人個人の考え方もあって、定義できないと思います。健康、不健康といったって、なにをもって健康というのでしょうか? 不健康のほうが分かりやすいので、不健康以外の人は健康なのでしょうか? 強靭な肉体を持っていないと健康とは言えないのでしょうか? 持久力でしょうか?風邪をひきにくいことでしょうか? わかりません。 よく似た話に「正常な業績の会社」というのがあります。なにをもって、正常な業績の会社といえるのでしょうか? 実は、よくわかっていないのです。私は、こういう事例説明では、なかなかMT法は流行らないと思います。結構難しいということです。むずかしくて理解できないことを理解したつもりになってはいけないと思います。自分が実際に扱うテーマがでてきたときに、真剣に議論し、考えればよくて、MT法を教科書から理解するのは困難であると思います。
|