基本統計量について(平均値・中央値・分散・標準偏差など)

投稿日

 数値データを分析するにあたり、情報の特徴を知るために基本的な統計量がありますので、今回はその中のいくつかについて説明します。

1.平均値(mean、average)

 一般的には全データの和をデータ個数で割る算術平均が良く知られています。 他にデータの積に対し累乗根を求めた相乗平均、平均速度を求める時などに使われる調和平均があります。 統計学では主に算術平均を検定や推定等の基準に用います。
  

2.中央値 (median)

 中央値とはデータを昇順もしくは降順に並べた場合に、中央に来る値を指します。 データ数が奇数であればちょうど中央の値が中央値となり、偶数であれば真ん中の2個の平均が中央値です。 データの分布が均等であれば、下の図1のように平均と中央値は同じ値になります。

平均値と中央値1
図1 平均値と中央値の関係(分布が左右対称の場合)

 異常に高い値や低い値があって平均値がその値に影響を受ける場合は、図2のように平均値がデータ分布の中央に来ない事があります。 この場合は中央値を分布のセンターとみなす方が実情に妥当な場合が多く管理図などでも用いられます。

平均値と中央値2
図2 平均値と中央値の関係(データの分布が非対称の場合)
  

3.標準偏差(σ、s、Standard deviation)

 標準偏差を考える前に「偏差」とは下図3にあるように平均値から各データまでの差を言います。

偏差のイメージ図
図3 偏差のイメージ図

 平均値を挟んでプラスとマイナスのデータの合計はゼロになります。 ばらつきを示す統計量として偏差をそのまま用いないのは合計がゼロになってしまうからです。そこで、標準偏差という統計量を用いてばらつきの程度を評価します。

 標準偏差の前に、偏差の二乗和を偏差平方和と言います。偏差平方和の式 この平方和をデータ数nで割ったものを母分散と言います。母分散は母集団の分散です。実際は母集団からサンプルをn個抜き取って分散を計算するので平方和をn-1で割った不偏分散を単に“分散”と言い表します。分散とは

 この分散の平方根を取って偏差と同じ単位に戻したものが標準偏差です。

 平均と標準偏差は統計的手法を取り扱う上で非常に重要な統計量ですので、概念を理解しエクセル等で計算出来る様になって下さい。
  

4.エクセルでの基本統計量計算

 基本統計量のエクセル関数は以下のようになっています。

  • 平均値=average(平均を求めたいデータ)
  • 不偏分散=var(分散を求めたいデータ)
  • 標準偏差=stdev(標準偏差を求めたいデータ)

注 :上記関数varとstdevはエクセル2007以前の関数式ですが現在も使えます。最新のエクセルでは次の関数が新しく定義されていますが結果は同じです。

  • 不偏分散=var.s(分散を求めたいデータ)
  • 標準偏差=stdev.s(標準偏差を求めたいデータ)

 因みにsはサンプルを表すsですので母分散と母標準偏差を求めたい場合はsをpに変更すれば求められます。Pは母集団を表すpopulationのイニシャルです。
 ...

 数値データを分析するにあたり、情報の特徴を知るために基本的な統計量がありますので、今回はその中のいくつかについて説明します。

1.平均値(mean、average)

 一般的には全データの和をデータ個数で割る算術平均が良く知られています。 他にデータの積に対し累乗根を求めた相乗平均、平均速度を求める時などに使われる調和平均があります。 統計学では主に算術平均を検定や推定等の基準に用います。
  

2.中央値 (median)

 中央値とはデータを昇順もしくは降順に並べた場合に、中央に来る値を指します。 データ数が奇数であればちょうど中央の値が中央値となり、偶数であれば真ん中の2個の平均が中央値です。 データの分布が均等であれば、下の図1のように平均と中央値は同じ値になります。

平均値と中央値1
図1 平均値と中央値の関係(分布が左右対称の場合)

 異常に高い値や低い値があって平均値がその値に影響を受ける場合は、図2のように平均値がデータ分布の中央に来ない事があります。 この場合は中央値を分布のセンターとみなす方が実情に妥当な場合が多く管理図などでも用いられます。

平均値と中央値2
図2 平均値と中央値の関係(データの分布が非対称の場合)
  

3.標準偏差(σ、s、Standard deviation)

 標準偏差を考える前に「偏差」とは下図3にあるように平均値から各データまでの差を言います。

偏差のイメージ図
図3 偏差のイメージ図

 平均値を挟んでプラスとマイナスのデータの合計はゼロになります。 ばらつきを示す統計量として偏差をそのまま用いないのは合計がゼロになってしまうからです。そこで、標準偏差という統計量を用いてばらつきの程度を評価します。

 標準偏差の前に、偏差の二乗和を偏差平方和と言います。偏差平方和の式 この平方和をデータ数nで割ったものを母分散と言います。母分散は母集団の分散です。実際は母集団からサンプルをn個抜き取って分散を計算するので平方和をn-1で割った不偏分散を単に“分散”と言い表します。分散とは

 この分散の平方根を取って偏差と同じ単位に戻したものが標準偏差です。

 平均と標準偏差は統計的手法を取り扱う上で非常に重要な統計量ですので、概念を理解しエクセル等で計算出来る様になって下さい。
  

4.エクセルでの基本統計量計算

 基本統計量のエクセル関数は以下のようになっています。

  • 平均値=average(平均を求めたいデータ)
  • 不偏分散=var(分散を求めたいデータ)
  • 標準偏差=stdev(標準偏差を求めたいデータ)

注 :上記関数varとstdevはエクセル2007以前の関数式ですが現在も使えます。最新のエクセルでは次の関数が新しく定義されていますが結果は同じです。

  • 不偏分散=var.s(分散を求めたいデータ)
  • 標準偏差=stdev.s(標準偏差を求めたいデータ)

 因みにsはサンプルを表すsですので母分散と母標準偏差を求めたい場合はsをpに変更すれば求められます。Pは母集団を表すpopulationのイニシャルです。
 

5.自由度(φ)

 統計では「自由度」という概念が出てきますが、なかなかやっかいなものです。サンプルがn個あると自由度はn-1となります。

 例えば3つのサンプルがあり合計が10になる事例があるとします。

 数式で書くとn1+n2+n3=10となりますね。 この場合n1とn2には好きな数字を選べますがn3は合計10という縛りがあるので自ずと決まってしまいます。即ちn=3の場合の自由度は2となります。この様にn個の時は自由度がn-1になるのです。

6.レンジ(R、Range)

 最大値から最小値を引いた値で、ばらつきを簡易的に評価する場合に使います。 1~10までの範囲のレンジは10-1=9となります。レンジは記号Rで表記されます。

   続きを読むには・・・


この記事の著者

眞名子 和義

ムダ・ムラ・ムリの「3ムの撤廃が企業収益向上に繋がる」を信条とし、お客様の"視座"に立ったご提案を致します

ムダ・ムラ・ムリの「3ムの撤廃が企業収益向上に繋がる」を信条とし、お客様の"視座"に立ったご提案を致します


「SQC一般」の他のキーワード解説記事

もっと見る
転ばぬ先の杖~RFCの備え

 RFCとはResponse Flow Chart(若しくはchecksheet)の略語です。あまりポピュラーな用語ではありませんが、外資系の製造業では良...

 RFCとはResponse Flow Chart(若しくはchecksheet)の略語です。あまりポピュラーな用語ではありませんが、外資系の製造業では良...


工程能力指数-Cp/Cpk 工程能力の理解 (その2)

  【目次】 ▼さらに深く学ぶなら!「工程能力指数」に関するセミナーはこちら!   1.行程能力の指数化 前...

  【目次】 ▼さらに深く学ぶなら!「工程能力指数」に関するセミナーはこちら!   1.行程能力の指数化 前...


~級数展開の不思議-桁落ち 現場数学(その2)

♦ 発想の転換で“桁落ち”回避  有限桁数の計算機を使って計算することによって起こる深刻な問題の例を挙げましょう...

♦ 発想の転換で“桁落ち”回避  有限桁数の計算機を使って計算することによって起こる深刻な問題の例を挙げましょう...


「SQC一般」の活用事例

もっと見る
統計教育が必須な検査担当者

 測定や検査結果の値で合格判定を行い、製品性能の品質保証をする事は製造業に取っては当たり前と言える日常的作業です。一方で検査や測定の正確さや信頼性を担保す...

 測定や検査結果の値で合格判定を行い、製品性能の品質保証をする事は製造業に取っては当たり前と言える日常的作業です。一方で検査や測定の正確さや信頼性を担保す...


第1種の誤りと第2種の誤り

 「あわて者の誤り」と「ぼんやり者の誤り」をご存知ですか、あわて者の誤りは正式には『第一種の誤り』(Type Ⅰ error)と呼称し、ぼんやり者の誤りは...

 「あわて者の誤り」と「ぼんやり者の誤り」をご存知ですか、あわて者の誤りは正式には『第一種の誤り』(Type Ⅰ error)と呼称し、ぼんやり者の誤りは...


飛行機事故とセンサー・フィードバックの分布

   ボーイング 737 Max 8機が短い期間に2回の墜落死亡事故を起こし、多くの航空会社が同機種の運航を停止する事態となっています。多くの...

   ボーイング 737 Max 8機が短い期間に2回の墜落死亡事故を起こし、多くの航空会社が同機種の運航を停止する事態となっています。多くの...