グラフを眺めただけの判断は要注意 データ分析講座(その156)

更新日

投稿日

データ分析

 

◆ 超簡略版「統計的仮説検定」

 ある小売チェーンの例です。例えば、次のような状況はよくあります。

  • 対前年比で売り上げはどうだろうか?
  • 今日の売り上げは、通常と比べ悪いといえるのだろうか?
  • 先週行ったキャンペーンの影響はどうだろうか?
  • 売り上げに効いている要因として、何が考えられるだろうか?
  • 先日の土・日の売り上げが悪かった要因は、何であろうか?
  • 何の対策を打たないまま営業すると、来月どうなりそうか?
  • A案とB案、どちらがいいだろうか?

 これらの例は「比較」というキーワードでデータ分析を進めることができます。このような「比較」は、多くの人が何気なくやっているのではないでしょうか?比較をする時、使えるツールとして「統計的仮説検定」というものがあります。今回は「超簡略版『統計的仮説検定』」というお話をします。

 

1. 「差があるのかどうか?」を検定する

 数理統計学の世界に「統計的仮説検定」というものがあります。その中に「差の検定」などがあります。「差があるのかどうか?」を調べるものです。分かりやすい例ですと「昨年の売り上げと比べ、今年の売り上げはどうだろう?」と比較検討するのに使えそうです。この例ですと、昨年の日販(1日あたりの売り上げ)と今年の日販を比較することになります。

 グラフを眺めただけで、判断が付くこともありますが、判断できないこともあります。グラフの作り方で差の大きさのイメージを変えることができるため、グラフを眺めただけの判断は注意が必要です。統計的仮説検定は、当然ながらグラフの作り方に依存しません。

 

2. 2つの仮説

 このような日販の差の有無を統計的仮説検定で実施するためには、まず次のような2つの仮説を作ります。

  • 帰無仮説H0:昨年の日販=今年の日販
  • 対立仮説H1:昨年の日販≠今年の日販

 帰無仮説H0は「昨年の日販=今年の日販」ということで「日販は昨年と今年で差があるとはいえない」という意味です。
 対立仮説H1は「昨年の日販≠今年の日販」ということで「日販は昨年と今年で差があるといえる」という意味です。

 

(1) なぜ「帰無仮説」というのか?

 ここでは、なぜ「帰無仮説」というのか、なぜ「対立仮説」というのかについて詳しい説明は省きます。

 簡単に説明すると……

  • 帰無仮説は「無に帰することを予定した仮説」
  • 対立仮説は「帰無仮説に対立する仮説」

 よく「計画が無に帰する」とか「努力が無に帰する」ということをいうかと思います。ニュアンスは似ています。

(2) 主張したい対立仮説

 「帰無仮説」は棄却したい仮説で、採択したいのは「対立仮説」になります。「対立仮説」に「主張したいこと」を置きます。その対立仮説を主張するために「引き立て役」とという意味の「噛(か)ませ犬」として「帰無仮説」を置きます。

 

3. 統計的仮説検定の流れ

 統計的仮説検定の流れをザックリいうと、次のようになります。

  • (1) まず、帰無仮説を正しいと仮定する
  • (2) 帰無仮説を正しいと仮定し論理展開したら、矛盾が見つかる
  • (3) 矛盾が見つかったため、帰無仮説は正しくないと判断する
  • (4) 帰無仮説が正しくないので、対立仮説を正しいとする

 これは数学的に「背理法」と呼ばれる証明法です。

【背理法】

 背理法とは「最初に仮説を設定し、仮説が正しいとした条件で考え、矛盾が起こった場合に仮説が間違っているとする」というものです。例えば次のようです。

 あなたは軟体動物のタコである⇒レントゲンを撮ったら背骨があった⇒タコには背骨はないので矛盾している⇒従って、あなたはタコではない

 このように、通常の背理法が前提としている矛盾は「明確な矛盾」です。しかし、統計的仮説検定が前提にしている矛盾は、明確なものではなく「矛盾していそう」という感じのものです。

【統計的検定ならではの不思議な背理法】

 明確なものではなく「矛盾していそう」とは、どういうことでしょうか。もう少し丁寧に説明を加えると「確率的に稀(まれ)なことが起こったから矛盾していそう」という感じです。ここで問題になるのは「どの程度稀なことが起こったのか?」になります。慣習的には「1%基準(高度に有意)」、「5%基準(有意)」、「10%基準(やや有意)」の3つの基準が用いられます。

【5%基準】

 上記3つの中で最もよく利用されているのが「5%基準(有意)」です。「5%基準」を用いた場合「5%の確率でしか起こらないぐらい稀なことが起こったから矛盾していそう」と考えます。ちなみに「1%基準」、「5%基準」、「10%基準」の3基準の中で「1%基準」が最も基準のハードルが高く「10%基準」が最も基準のハードルが低いことになります。

【「5%基準」の場合の統計的仮説検定の流れ】

 「5%基準」の場合の統計的仮説検定の流れは、次のようになります。

  • (1) まず、帰無仮説を正しいと仮定する
  • (2) 帰無仮説を正しいと仮定し論理展開したら、5%の確率でしか起こらないぐらい稀なことが起こった
  • (3) 5%の確率でしか起こらないぐらい稀なことが起こったため、帰無仮説は正しくないと判断する(帰無仮説を棄却するという)
  • (4) 帰無仮説が正しくないので、対立仮説を正しいとする(対立仮説を採択するという)

 このような流れで、帰無仮説H0(昨年の日販=今年の日販)を棄却し、対立仮説H1(昨年の日販≠今年の日販)を採択します。

 

4. 「対立仮説を採択するかどうか?」しかいえない

 ここで注意すべきことがあります。統...

データ分析

 

◆ 超簡略版「統計的仮説検定」

 ある小売チェーンの例です。例えば、次のような状況はよくあります。

  • 対前年比で売り上げはどうだろうか?
  • 今日の売り上げは、通常と比べ悪いといえるのだろうか?
  • 先週行ったキャンペーンの影響はどうだろうか?
  • 売り上げに効いている要因として、何が考えられるだろうか?
  • 先日の土・日の売り上げが悪かった要因は、何であろうか?
  • 何の対策を打たないまま営業すると、来月どうなりそうか?
  • A案とB案、どちらがいいだろうか?

 これらの例は「比較」というキーワードでデータ分析を進めることができます。このような「比較」は、多くの人が何気なくやっているのではないでしょうか?比較をする時、使えるツールとして「統計的仮説検定」というものがあります。今回は「超簡略版『統計的仮説検定』」というお話をします。

 

1. 「差があるのかどうか?」を検定する

 数理統計学の世界に「統計的仮説検定」というものがあります。その中に「差の検定」などがあります。「差があるのかどうか?」を調べるものです。分かりやすい例ですと「昨年の売り上げと比べ、今年の売り上げはどうだろう?」と比較検討するのに使えそうです。この例ですと、昨年の日販(1日あたりの売り上げ)と今年の日販を比較することになります。

 グラフを眺めただけで、判断が付くこともありますが、判断できないこともあります。グラフの作り方で差の大きさのイメージを変えることができるため、グラフを眺めただけの判断は注意が必要です。統計的仮説検定は、当然ながらグラフの作り方に依存しません。

 

2. 2つの仮説

 このような日販の差の有無を統計的仮説検定で実施するためには、まず次のような2つの仮説を作ります。

  • 帰無仮説H0:昨年の日販=今年の日販
  • 対立仮説H1:昨年の日販≠今年の日販

 帰無仮説H0は「昨年の日販=今年の日販」ということで「日販は昨年と今年で差があるとはいえない」という意味です。
 対立仮説H1は「昨年の日販≠今年の日販」ということで「日販は昨年と今年で差があるといえる」という意味です。

 

(1) なぜ「帰無仮説」というのか?

 ここでは、なぜ「帰無仮説」というのか、なぜ「対立仮説」というのかについて詳しい説明は省きます。

 簡単に説明すると……

  • 帰無仮説は「無に帰することを予定した仮説」
  • 対立仮説は「帰無仮説に対立する仮説」

 よく「計画が無に帰する」とか「努力が無に帰する」ということをいうかと思います。ニュアンスは似ています。

(2) 主張したい対立仮説

 「帰無仮説」は棄却したい仮説で、採択したいのは「対立仮説」になります。「対立仮説」に「主張したいこと」を置きます。その対立仮説を主張するために「引き立て役」とという意味の「噛(か)ませ犬」として「帰無仮説」を置きます。

 

3. 統計的仮説検定の流れ

 統計的仮説検定の流れをザックリいうと、次のようになります。

  • (1) まず、帰無仮説を正しいと仮定する
  • (2) 帰無仮説を正しいと仮定し論理展開したら、矛盾が見つかる
  • (3) 矛盾が見つかったため、帰無仮説は正しくないと判断する
  • (4) 帰無仮説が正しくないので、対立仮説を正しいとする

 これは数学的に「背理法」と呼ばれる証明法です。

【背理法】

 背理法とは「最初に仮説を設定し、仮説が正しいとした条件で考え、矛盾が起こった場合に仮説が間違っているとする」というものです。例えば次のようです。

 あなたは軟体動物のタコである⇒レントゲンを撮ったら背骨があった⇒タコには背骨はないので矛盾している⇒従って、あなたはタコではない

 このように、通常の背理法が前提としている矛盾は「明確な矛盾」です。しかし、統計的仮説検定が前提にしている矛盾は、明確なものではなく「矛盾していそう」という感じのものです。

【統計的検定ならではの不思議な背理法】

 明確なものではなく「矛盾していそう」とは、どういうことでしょうか。もう少し丁寧に説明を加えると「確率的に稀(まれ)なことが起こったから矛盾していそう」という感じです。ここで問題になるのは「どの程度稀なことが起こったのか?」になります。慣習的には「1%基準(高度に有意)」、「5%基準(有意)」、「10%基準(やや有意)」の3つの基準が用いられます。

【5%基準】

 上記3つの中で最もよく利用されているのが「5%基準(有意)」です。「5%基準」を用いた場合「5%の確率でしか起こらないぐらい稀なことが起こったから矛盾していそう」と考えます。ちなみに「1%基準」、「5%基準」、「10%基準」の3基準の中で「1%基準」が最も基準のハードルが高く「10%基準」が最も基準のハードルが低いことになります。

【「5%基準」の場合の統計的仮説検定の流れ】

 「5%基準」の場合の統計的仮説検定の流れは、次のようになります。

  • (1) まず、帰無仮説を正しいと仮定する
  • (2) 帰無仮説を正しいと仮定し論理展開したら、5%の確率でしか起こらないぐらい稀なことが起こった
  • (3) 5%の確率でしか起こらないぐらい稀なことが起こったため、帰無仮説は正しくないと判断する(帰無仮説を棄却するという)
  • (4) 帰無仮説が正しくないので、対立仮説を正しいとする(対立仮説を採択するという)

 このような流れで、帰無仮説H0(昨年の日販=今年の日販)を棄却し、対立仮説H1(昨年の日販≠今年の日販)を採択します。

 

4. 「対立仮説を採択するかどうか?」しかいえない

 ここで注意すべきことがあります。統計的仮説検定は「対立仮説を採択するかどうか?」しかいえないということです。帰無仮説に関しては何もいえません。簡単に説明します。

 「5%の確率でしか起こらないぐらい稀なことが起こった」のであれば、すんなり「帰無仮説を棄却し対立仮説を採択する」となります。

 一方「5%の確率でしか起こらないぐらい稀なことは起こらなかった」場合どうなるでしょうか。この場合、当然ながら「帰無仮説を棄却し対立仮説を採択する」とはなりません。「対立仮説を採択することができなかった」ということがいえるだけで「帰無仮説が採択する」ことにはなりません。便宜的に「帰無仮説が採択する」ことはあっても、厳密には「帰無仮説が採択する」ことにはなりません。

 このような場合「昨年の売り上げと今年の売り上げに差がなかった」ではなく「昨年の売り上げと比べ、今年の売り上げに差があるとはいえなかった」という表現になります。もう少し丁寧にいうと「昨年の売り上げと比べ、今年の売り上げに差があったかもしれないが、今回のデータから差があるとはいえなかった」となります。手元にあるデータで検討した結果、差があるかどうか判断が付かなかっただけなのです。

   続きを読むには・・・


この記事の著者

高橋 威知郎

データネクロマンサー/データ分析・活用コンサルタント (埋もれたデータに花を咲かせる、データ分析界の花咲じじい。それほど年齢は重ねてないけど)

データネクロマンサー/データ分析・活用コンサルタント (埋もれたデータに花を咲かせる、データ分析界の花咲じじい。それほど年齢は重ねてないけど)


「情報マネジメント一般」の他のキーワード解説記事

もっと見る
最近多いケーススタディ⑤「チャーン分析(離反顧客分析)」 データ分析講座(その192)

    データを使い販売力を効率的に高めるセールスアナリティクスには、3つの典型的なテーマがあります。 新規顧客の獲得 既...

    データを使い販売力を効率的に高めるセールスアナリティクスには、3つの典型的なテーマがあります。 新規顧客の獲得 既...


知恵が鍵を握る時代 データ分析講座(その114)

◆ データが鍵を握る時代の到来  データが鍵を握る時代が到来しましたが、拒否反応とともに「データごときに何ができる」というような意見が聞こえてきます...

◆ データが鍵を握る時代の到来  データが鍵を握る時代が到来しましたが、拒否反応とともに「データごときに何ができる」というような意見が聞こえてきます...


急激な変化をデータで見極める データ分析講座(その175)

  ◆ 売上などが急激な変化をしたとき「何が変わり何が変わっていないのか」をデータで見極める  収益の急激な悪化は、時系列解析の用語で言...

  ◆ 売上などが急激な変化をしたとき「何が変わり何が変わっていないのか」をデータで見極める  収益の急激な悪化は、時系列解析の用語で言...


「情報マネジメント一般」の活用事例

もっと見る
レストランでのタブレット端末

        最近、テーブルにタブレット端末を置くレストランが増えています。レストラン利用者としては、ウェ...

        最近、テーブルにタブレット端末を置くレストランが増えています。レストラン利用者としては、ウェ...


‐時代の流れを意識した開発テ-マの設定‐  製品・技術開発力強化策の事例(その5)

 前回の事例その4に続いて解説します。時代の流れに沿う開発テ-マとして、最近では、高齢者介護機器、環境関連機器、省エネ機器、情報技術(IT)等に関心が注が...

 前回の事例その4に続いて解説します。時代の流れに沿う開発テ-マとして、最近では、高齢者介護機器、環境関連機器、省エネ機器、情報技術(IT)等に関心が注が...


Web上で試作受注するツールを成功させるポイントとは

        今回は、「Web上で試作受注するツール」を成功させるポイントについて解説します。次の2点がポイントで、この2つを「最優先」に考える必...

        今回は、「Web上で試作受注するツール」を成功させるポイントについて解説します。次の2点がポイントで、この2つを「最優先」に考える必...