数値データを分析するにあたり、情報の特徴を知るために基本的な統計量がありますので、今回はその中のいくつかについて説明します。
1.平均値(mean、average)
一般的には全データの和をデータ個数で割る算術平均が良く知られています。 他にデータの積に対し累乗根を求めた相乗平均、平均速度を求める時などに使われる調和平均があります。 統計学では主に算術平均を検定や推定等の基準に用います。
2.中央値 (median)
中央値とはデータを昇順もしくは降順に並べた場合に、中央に来る値を指します。 データ数が奇数であればちょうど中央の値が中央値となり、偶数であれば真ん中の2個の平均が中央値です。 データの分布が均等であれば、下の図1のように平均と中央値は同じ値になります。
図1 平均値と中央値の関係(分布が左右対称の場合)
異常に高い値や低い値があって平均値がその値に影響を受ける場合は、図2のように平均値がデータ分布の中央に来ない事があります。 この場合は中央値を分布のセンターとみなす方が実情に妥当な場合が多く管理図などでも用いられます。
図2 平均値と中央値の関係(データの分布が非対称の場合)
3.標準偏差(σ、s、Standard deviation)
標準偏差を考える前に「偏差」とは下図3にあるように平均値から各データまでの差を言います。
図3 偏差のイメージ図
平均値を挟んでプラスとマイナスのデータの合計はゼロになります。 ばらつきを示す統計量として偏差をそのまま用いないのは合計がゼロになってしまうからです。そこで、標準偏差という統計量を用いてばらつきの程度を評価します。
標準偏差の前に、偏差の二乗和を偏差平方和と言います。
この分散の平方根を取って偏差と同じ単位に戻したものが標準偏差です。
平均と標準偏差は統計的手法を取り扱う上で非常に重要な統計量ですので、概念を理解しエクセル等で計算出来る様になって下さい。
4.エクセルでの基本統計量計算
基本統計量のエクセル関数は以下のようになっています。
- 平均値=average(平均を求めたいデータ)
- 不偏分散=var(分散を求めたいデータ)
- 標準偏差=stdev(標準偏差を求めたいデータ)
注 :上記関数varとstdevはエクセル2007以前の関数式ですが現在も使えます。最新のエクセルでは次の関数が新しく定義されていますが結果は同じです。
- 不偏分散=var.s(分散を求めたいデータ)
- 標準偏差=stdev.s(標準偏差を求めたいデータ)
因みにsはサンプルを表すsですので母分散と母標準偏差を求めたい場合はsをpに変更すれば求められます。Pは母集団を表すpopulationのイニシャルです。
...
5.自由度(φ)
統計では「自由度」という概念が出てきますが、なかなかやっかいなものです。サンプルがn個あると自由度はn-1となります。
例えば3つのサンプルがあり合計が10になる事例があるとします。
数式で書くとn1+n2+n3=10となりますね。 この場合n1とn2には好きな数字を選べますがn3は合計10という縛りがあるので自ずと決まってしまいます。即ちn=3の場合の自由度は2となります。この様にn個の時は自由度がn-1になるのです。
6.レンジ(R、Range)
最大値から最小値を引いた値で、ばらつきを簡易的に評価する場合に使います。 1~10までの範囲のレンジは10-1=9となります。レンジは記号Rで表記されます。