「クラスター分析」とは、キーワードからわかりやすく解説

 

1. 「クラスター分析」とは

クラスター分析とは、分析対象となるサンプル間の類似度や非類似度に基づいて、いくつかのクラスター(集団)に分類する方法の総称です。 類似度を指標としては相関係数や連関係数を用い、被類似度には2点間の距離がよく用いられます。 クラスターの数はサンプルのまとまり具合や、仮説によって評価者が設定し、その数になるまでクラスターを統合していきます。 これによって選挙候補者をグループ分けしたり、マーケティングのセグメントを検討したりします。

 

現代ではクラスター(cluster)は「束、房」という意味が一般的ですが、本来は「cluster=集落」という意味で使われるそうです。「群れ・集団」という意味もありますが、これがクラスター分析の「クラスター」に一番近い表現です。つまり“仲間探し”なのです。

 

仲間探しですから、その基準の設定次第で色々と変わってきます。例えば象、キリン、ライオン、犬、猫、鉛筆、消しゴムを想定した時、誰でも「象、キリン、ライオン、犬、猫」と「鉛筆、消しゴム」に分けると思います。おそらく、頭の中で「動物と文房具」という集団分類をしているからでしょう。また「象、キリン、ライオン、犬、猫」をさらにクラスター分けすると、どうなるでしょうか?体の大きさでクラスターを考えると「象、キリン、ライオン」「犬、猫」になります。

 

このように基準をどこに設定するかで、クラスターは変わってきます。

 

2. 「クラスタ分析ー」と主成分分析

「クラスター分析」と主成分分析は、データを集約(もしくは、グルーピング)する分析技術の1つです。クラスター分析はケース(データセットの行)を集約(もしくは、グルーピング)するのに対して、主成分分析は変数(データセットの列)を集約(もしくは、グルーピング)することで次元縮約(例:1,000変数を10変数にまとめる)することで似たようなケースを同じようなのが集まっている状態にします。この場合のケースとは、個体(例:個人や店舗、企業など)です。ちなみに、主成分分析で作られた新たな変数を「主成分」と呼びます。

 


「クラスター分析」のキーワード解説記事

もっと見る
クラスター分析~概要とユークリッド距離の二乗

1. クラスター分析は“仲間探し”   「クラスター」という言葉を聞いたことのある人は多いと思います。この原稿を書...

1. クラスター分析は“仲間探し”   「クラスター」という言葉を聞いたことのある人は多いと思います。この原稿を書...