【多変量解析概要 連載目次】
◆ 多変量データとは?
1.様々なデータの関連性を調べ客観的、定量的に評価
現在、私たちの身の回りには製造業ではもちろん、サービス業、物流、等々の分野で多くのデータが存在しています。存在するデータから多くのことを学習し、次の段階に生かそうという活動は大昔からありました。株の売買でも、先を読むには現状や過去の傾向について関連情報を参考にします。製造業のようなものづくりの場でも歩留や生産数がおちた時「どの装置がダメだったのか」「温度が低下していなかったか」「濃度が低かったのではないか」「攪拌(かくはん)回転数は適切だったのか」といった調査を行います。
「知りたいこと」を「何が関係しているのか」によって知りたいわけです。通常は、何が関係しているのかの数は複数個となります。QC7つ道具で有名な特性要因図は、一つの特性(例えば、歩留まり悪化)に対して、様々な要因(原因と考えられるもの:温度差、作業条件、材料不純物…)を挙げていくわけですが、これも知りたいことが何によって決まっているのかを知りたいということにつきます。ここでも様々な要因は文字通り複数個です。もし、1個で決まっているのなら、特性要因図は要りません。
これから説明する多変量解析というのも、様々なデータの関連性を調べて客観的にそれを定量的に評価するという試みであって、やろうとしていることは大昔から変わらないのです。
2.多変量データについて
まず、表1を見てください。これは、私の趣味であるエビ飼育表で、一定数が餌に集まる時間をその時の水槽環境(飼育環境とか条件)で対応させた記録データです。もちろん抜粋です。
表1.エビ飼育における記録データ
この表では、第一列の時間yから第7列の添加剤x7まで7個の項目から対応データがとられています(なぜか、x3がありません。気にしないでください)。
このように複数個(この表では7個)の項目からなる資料を多変量データといいます。多変量というのは、名前通り複数の項目(=変量といいます)をいっているわけです。当然、このデータは、各項目(変量)で対応していることが重要です。当たり前かと思われますが、実際にこうなっていない場合も、結構あります。例えば上表で、温度x1が1日の最高と最低の平均であったり、時間yが何回かの平均であったりすると、対応していないことになります。なぜなら、平均や最高、最低の回りに多くのデータがばらついているわけですから、個々のデータは対応していないことになります。見せかけは対応していても、そういうデータは対応していないデータになります。実際によくやる失敗ですので今から注意してください。それでも、そのようなデータしか取れない、存在していない場合については、コンサルの出番になります。それはここでは扱いません。個別にご相談なさってください。
また、実験計画法にて実験データを採取する場合も、特性と因子水準とのデータは対応するわけで、多変量データですが、通常は実験計画法で得られた対応データを多変量データとはいいません。そのように呼んでいる書籍もありますが、ここでは実験計画法上のデータは多変量データから外します。
以上のことを概念的に図示すると、下図のよう...