【多変量解析概要 連載目次】
◆多変量解析とその種類
1.多変量解析とは
多変量データ(複数の変量)を解析する、つまり多変量解析ということになります。何を解析するのかといえば、ずばり、相関性です。関連性といってもよいです。この解析(分析といってもよいのですが、多変量分析とはあまりいいません)をすることで、複数間の関係(相関)を知ることができるということになります。
逆に、この手法の対極にあるものが1変量データの解析です。ヒストグラムはその典型的な分析手法です。また、単回帰分析は変量が2個(目的変数と説明変数が1個ずつ)ですが、これも多変量解析には通常入れません。
しかし、この1変量や2変量の解析は、多変量解析を進める前、あるいは多変量解析が終了したのちにも重要な手法です。例えば異常値はないか、ふた山分布になっていないかなどを先にヒストグラムで確認しておかないと、多変量の相関性を求めて意味があるのかどうかという、根本的な問題になってきます。
話を戻して、相関性を見るというのが大きな多変量解析の特徴で、単一の変量同士では分からなかったことが複数の変量から説明されるというのは大きな利点があります。
前回解説しました表1のようなデータによって、例えばエビの集まる時間(これは短いほうが調子良いことを指します)と最も関係のある項目(変量)は何かということが分かれば、それを重点管理し、飼育条件を見直すことでエビの調子を上げることも可能になります。
ものづくりの場合に例えると表1のyに出来上がり寸法や反応後の収量、歩留まりなどの品質特性を持ってきて、関連する変量としてプロセス条件や材料の濃度とかを収集すれば何が効果的で、どの変量をどう調整すればどうなるかということを知ることができますので、品質アップに非常に役に立ちます。
ところが、意外なほどにこの多変量解析は使われていません。例えば単回帰分析は散布図と相まって、非常によく使われていて、その誤用に注意することのほうが重要であったりするわけですが、多変量解析の代表格の重回帰分析(単回帰分析の説明変数が2個以上になった場合の解析)は十分使いこなされていないと思われます。アンケートやマーケット戦略に重要な主成分分析(総合性や異質性の検出)もそうです。これらの各論は別途説明なされることとして、その理由を以下に述べましょう。
2.多変量解析は難しい?
多くの項目(変量)がからみあって、一つの(多数の)事象を生んでいるのに、どうして多変量解析が活用されないのかについては、ほとんどが以下の理由によります。
- ① 多変量データがない。取得するにはコストがかかる
- ② 高度な数学の知識が必要である(と思っている)
- ③ 大変な計算作業が伴う(と思っている)
①については、効果との兼ね合いで決まるわけですから、再考して頂いたほうがいい場合もあります。しかし、これは企業個別の事情で異なってくるので、ここでは何ともいえません。問題は②と③の場合です。確かに高度な数学の知識がないと、解析の根拠となっているものが理解できません。ただし、それが必ず必要でしょうか? 我々はコンピュータの理論を知ってからでないと(たとえば、2進法からスタート)パソコンを使えないでしょうか?基本的な数学の原理さえ知っておけば、十分です。これは、ある程度必要です。というのも、それを知っておかないと誤用や誤判断を引き起こすからです。逆に誤用や誤判断の注意点だけをよく知っておけば、実践で問題ありません。それでも、自信ない人のためにコンサルタントがいます。
次に③ですが、パソコンの能力が今ほど驚異的でないときに多変量解析に出合った方に多い誤解です。クリック数回で重回帰分析ができるご時世です。③は全く悩む必要はありません。
3.多変量解析の種類
そういうわけで世の中、全て相関だらけという意味で多変量解析が有用な...