統計手法による 2018年LPGA公式記録データの解析事例(その2)
2019-01-08
前回のその1に続いて、解説します。
主成分分析の因子負荷量の総括表を表4に示します。主成分1は寄与率の大きい順に「平均ストローク」「パーセーブ率」「平均バーディ」「平均パット数」「パーオン率」「リカバリー率」の6変数になり累積寄与率は53%になります。これは「プロゴルファの実力」とネーミングしました。主成分2は「Dディスタンス」「Fキープ率」でネーミングは「アンバランス」で約20%の寄与率、主成分3はネーミング「Sセーブ率」で9.6%、主成分4は「イーグルねらい」で7.5%、以上4つの主成分で全体の89.5%になります。
表4.主成分分析結果
図3.因子負荷量のプロット
因子負荷量を散布図にプロットしたのが図3になります。横軸に「プロゴルファの実力(主成分1)」縦軸に「アンバランス(主成分2)」をプロットしました。右端の実力が大きい領域は「5つの変数」が集中していることが分かります。
すなわち、主成分2の軸「Dディスタンス」「Fキープ率」のバランスがとれたゼロ近傍に概ね集中しています。一方、主成分2のプラスとマイナス側に大きく振れると実力が低下します。主成分2は次式で表されます。
主成分2≒0.8541・X6(Dディスタンス)-0.8249・X7(Fキープ率)
DディスタンスとFキープ率のバランスを維持することが実力アップの必要条件になります。
図4.主成分得点のプロット
95人の選手を主成分1、2にプロットしたのが図4です。
鈴木愛、伸ジエ、アンソンジュ、比嘉真美子等の実力者が主成分1右端と主成分2の中心付近に位置しています。テレサ・ルー、ペヒギョン、穴井詩、葭葉 ルミ、渡邊彩香はFキープ率を改善すれば実力アップのポテンシャルを有すると考えます。一方、ユンチェヨン、酒井美紀、金田久美子はDディスタンスの改善が課題になります。主成分1の左端の選手はバランスは良いですが、基本の「5つの変数」を強化する必要があります。
視点を変えると実力者は主成分2の上下に大きくぶれてない位置にあることから、あえていえばコースによって技能を使い分ける戦略性を重視しているように思えます。
プレーヤーの類似性を評価するために、クラスター分析した結果を図5のデンドログラフに示します。上位10位までのプレーヤのグルーピングになります。鈴木愛、アンソンジュ、申ジエのグループは「Dディスタンス」と「Fキープ率」のバランスを旨く使い分ける戦略性を優先し、テレサ―・ルー、比嘉真美子の様に積極的にイーグルを狙うグループと一線を隔しています。
図5.上位10選手のデンドログラフ
上位3選手、下位3選手の10の変数をレーダチャートで示したのが、図6です。上位選手下位選手で明らかに各変数値に開きがあることが分かります。特に「平均バーディ」「パーセーブ率」「パーオン率」「平均パット数」「リカバリー率」で大きな差が認められます。
図7は上位・下位20選手の変数のバラツキ(分散)をレーダーチャートにした結果です。上位の選手間で「イーグル」「Sセーブ率」「Fキープ率」のばらつきが大きくなっています。原因は上位選手ほど個性的なプレーを目指している結果ではないかと推測していますが、各選手の詳細なデータ分析が必要になります。
図6.上位、下位3選手、実力レーダーチャート図
図7.上位、下位20選手 分散のレーダーチャート
2018年LPGA公式記録データから相関分析、主成分分析、クラスター分析、レーダーチャートの手法を使い、マクロな解析を試みました。各選手の特徴・...
課題については、平均データのみでなく時系列も含めて、さらに詳細なデータが必要になります。今回は初心者が統計処理で何ができるかについて知見を得るための内容にしました。
多変量解析の応用は多岐に渡ります。例えばマーケティング情報「営業戦略」を立案する場合にも主成分分析、クラスター分析は重要な情報源になります。行に「製品系列」列に「シェア」「原価率」「営業人員」「顧客数」「営業タクト」「アンケート結果」「品質」「納期遵守率」「リードタイム」等をマトリックス表にして多変量解析すれば自社の「弱み」「強み」が分析でき、営業戦略を立案するための有力な武器になると考えます。