「分散分析」とは、キーワードからわかりやすく解説
1. 「分散分析」とは
分散分析は、統計手法として広く利用されていて、実験や研究の結果を判断する際に使われ、要因間の影響を評価するために有用です。複数の母集団で平均値の差を比較したり、有意差を検証する手法で、データのばらつきを分解し、群間の分散が大きいほど有意差があると判断します。
2. 偏差と分散
標準偏差=分散の平方根です。偏差は分散の計算に用いられるからです。偏差は平均値と各データの差です。母集団の偏差を導きたい場合は分散は全データ数Nで割ることで算出されますが一部のデータn個をサンプルとして抜き取りそのデータから母分散値を推定する場合はn-1で 割ります。サンプルデータは当然母集団全てのデータより少ないので滅多に出現しない平均値から 離れたデータが含まれる可能性も低いです。平均値に近いデータだけで計算すると全データでの計算値よりも小さくなってしまうの でサンプルだけで母集団の分散を推定する場合は補正が必要なのです。よってデータ1つ分小さい数値n-1で割ってやるのだと理解してみて下さい。ちなみにn-1は自由度と呼ばれています。
今度は数学的に説明すると「各データと平均値の差(=偏差)」の和がゼロの数式が成り立ちます。未知数Xが5個あってもこの数式を用いれば4つ分かれば残り一つは決まります。つまりn個の未知数があればn-1個が分かれば残り一つは自動的に決まります。分かりやすく言えばn-1人は自由に椅子を選べるが残りの人は自ずと残った椅子に座ら ざるを得ないと言う感じです。その為自由度と呼ぶと思って下さい。分散が出たら後はその平方根を計算すれば標準偏差となります。 平方根を取るのはデータを自乗しているので元の単位に戻すためです。