【目次】
第5章 マトリックス・データ(MD)解析法の使い方←今回
第6章 マトリックス図法の使い方
第7章 系統図法の使い方
第8章 アロー・ダイヤグラム法の使い方
第5章 マトリックス・データ(MD)解析法の使い方
5.3 MD解析法について
5.3.4 MD解析法のステップの意味と概要
前回のStep 2に続いて解説します。
Step 3 : 基本統計量の算出とデータの吟味
次の4種類の統計量の算出結果をもとにデータを吟味・チェックします。
- 平均値 【=AVERAGE(データの範囲)】
- 標準偏差【=STDEV (データの範囲)】
- ひずみ 【=SKEW(データの範囲)】
- とがり 【=KURT (データの範囲)】
【 】内はExcelのコマンドで、データの範囲は、データの頭と終わりのセルアドレス(B4など)の間に“:”を入れます。
【ポイント1】解析者がデータを吟味する
これらは解析ソフトで一括して出てきますが、解析を人に頼む場合でも、ここまでは解析者が自分でチェックすべきなので、念のためコマンドを紹介しました。
【ポイント2】データ吟味の際のめど
平均値と標準偏差は、データの全貌を把握している解析者の直感に頼って判断すればよいでしょう。
“ひずみ” と“とがり”については、現実によく見られる値としては、前者の場合“-0.7~0.9”後者の場合は“‐0.4~0.8” とされていますが、双方とも目安として、絶対値が“1.5”を超えたら一応ヒストグラムを書くなどして分布の状況をチェックし、明らかに解析結果を目的に反して乱すと判断されるデータについては修正するなど適正な処置をとります。ただ、気をつけないといけないのは、分布上特異なデータが、解析結果を示唆に富む画期的な結論に導くケースが期待できる点であり、杓子定規で安易な削除や修正は慎み、解析結果に対する判断に反映するのが無難です。
Step 4 : データの基準化
対象が“混沌C”の場合、入手データの単位が特性により異なるケースがほとんどなので、単位の影響を避けるためのステップです。基準化されたデータは、特性ごとに、平均値“0”、分散“1”となり、解析結果は、特性の影響度のみが引き出される形となります。
【ポイント】“基準化”採用の判断基準
特性値の単位が単一で、特性の平均値や分散の大きさそのものの情報が結論に必要な場合は、基準化しないで、特性間すべての組み合わせの分散と共分散の行列“分散共分散行列”を起点として解析します。
行列は、同じ特性間の交点である対角線上のみが分散となりますが、これは共分散の特殊なケースととらえることができます。“分散共分散行列”を起点として解析する例としては、民族間の顔の特徴をつかもうとして、各民族の顔の縦横の長さ、額の長さ、鼻の長さと高さ、口の長さ、などをcm単位で計測したマトリックス・データの解析があげられます。
Step 5 : 相関係数行列を作成する
特性間の相関係数を行列形式にしたもので、相関行列ともいわれます。同じ特性間の相関係数“1”が対角線上に並び、その両側の値はまったく対称となるので、片側だけを表示するのが普通です。
主成分分析の定義にある「…測定された多変数の相互関連を分析活用して、…」の起点であり、前回説明したアプローチの決定的欠陥は、この特性間の相関関係を無視している点です。一応相関係数が“0.5”を超えると相関あり、“0.7”を超えると強い相関ありとして、数字の色やタイプを変えて見やすくしているソフトが普通です。
Step 6 : 固有値(注5-2)の算出
固有値は、行列計算式上の定義では概念がつかみにくいですが、「主成分得点の分散」です。一方、MD解析法は、多くの特性の相互関連を分析活用し、少数の総合的特性にまとめる手法ですが、その起点は“分散が最大になる座標軸を求める”ことであり、言葉を換えると“固有値を最大にする主成分(総合的特性)が第1主成分である”といえます。
(注5-2)“固有値”はeigen-value の訳で、「本来の“固有”の姿をよく現わす形にする“値”」ということからの命名らしいが、分散という意味を含んだ命名であれば、より理解しやすかったのではないかと思われ残念です。
Step 7 : 寄与率の算出
固有値は、その合計が特性の数に等しくなります。したがって、固有値を特性の数で割った値は、その固有値の対応する主成分が、元の特性のいくつ分の情報を持っているかを示すことになり、寄与率と呼ばれます。
Step 8 : 固有ベクトルの算出
固有ベクトルは、その数学的性質上、行列計算により固有値と同時に求められますが、その概念は、主成分得点を求める計算式における、各特性値にかかる係数といえます。前節で説明したアプローチの最期に思い当たった“ウエイトづけをして全特性と関わる数値”に対する解答です。
Step 9 : 主成分得点の算出
主成分得点は、サンプルの元の特性値にStep8 で求めた固有ベクトルを係数として掛けたものの合計です。この値は、新たな総合的特性(主成分)軸上に占めるサンプルの位置を示します。
Step 10 : 採用主成分の決定
主成分は、計算上元の特性の数だけ求めることができますが、元の特性が持つ情報の大部分をカバーする少数の主成分を採用して解析します。採用する主成分の選定基準は、次の2つです。
Step7で求めた寄与率の累計が60~80%あること 対応する固有値が、固有値の平均値である1より大きいこと
この連載が対象とするようなテーマの場合、マト...
リックス・データを構成する要因が十分当を得ていることが多く、たいていの場合第2主成分まででこの条件を満たすので、以後、採用主成分が第2主成分までとして説明しまう。
次回は、Step 11から解説を続けます。