グラフを眺めただけの判断は要注意 データ分析講座(その156)

更新日

投稿日

データ分析

 

◆ 超簡略版「統計的仮説検定」

 ある小売チェーンの例です。例えば、次のような状況はよくあります。

  • 対前年比で売り上げはどうだろうか?
  • 今日の売り上げは、通常と比べ悪いといえるのだろうか?
  • 先週行ったキャンペーンの影響はどうだろうか?
  • 売り上げに効いている要因として、何が考えられるだろうか?
  • 先日の土・日の売り上げが悪かった要因は、何であろうか?
  • 何の対策を打たないまま営業すると、来月どうなりそうか?
  • A案とB案、どちらがいいだろうか?

 これらの例は「比較」というキーワードでデータ分析を進めることができます。このような「比較」は、多くの人が何気なくやっているのではないでしょうか?比較をする時、使えるツールとして「統計的仮説検定」というものがあります。今回は「超簡略版『統計的仮説検定』」というお話をします。

 

1. 「差があるのかどうか?」を検定する

 数理統計学の世界に「統計的仮説検定」というものがあります。その中に「差の検定」などがあります。「差があるのかどうか?」を調べるものです。分かりやすい例ですと「昨年の売り上げと比べ、今年の売り上げはどうだろう?」と比較検討するのに使えそうです。この例ですと、昨年の日販(1日あたりの売り上げ)と今年の日販を比較することになります。

 グラフを眺めただけで、判断が付くこともありますが、判断できないこともあります。グラフの作り方で差の大きさのイメージを変えることができるため、グラフを眺めただけの判断は注意が必要です。統計的仮説検定は、当然ながらグラフの作り方に依存しません。

 

2. 2つの仮説

 このような日販の差の有無を統計的仮説検定で実施するためには、まず次のような2つの仮説を作ります。

  • 帰無仮説H0:昨年の日販=今年の日販
  • 対立仮説H1:昨年の日販≠今年の日販

 帰無仮説H0は「昨年の日販=今年の日販」ということで「日販は昨年と今年で差があるとはいえない」という意味です。
 対立仮説H1は「昨年の日販≠今年の日販」ということで「日販は昨年と今年で差があるといえる」という意味です。

 

(1) なぜ「帰無仮説」というのか?

 ここでは、なぜ「帰無仮説」というのか、なぜ「対立仮説」というのかについて詳しい説明は省きます。

 簡単に説明すると……

  • 帰無仮説は「無に帰することを予定した仮説」
  • 対立仮説は「帰無仮説に対立する仮説」

 よく「計画が無に帰する」とか「努力が無に帰する」ということをいうかと思います。ニュアンスは似ています。

(2) 主張したい対立仮説

 「帰無仮説」は棄却したい仮説で、採択したいのは「対立仮説」になります。「対立仮説」に「主張したいこと」を置きます。その対立仮説を主張するために「引き立て役」とという意味の「噛(か)ませ犬」として「帰無仮説」を置きます。

 

3. 統計的仮説検定の流れ

 統計的仮説検定の流れをザックリいうと、次のようになります。

  • (1) まず、帰無仮説を正しいと仮定する
  • (2) 帰無仮説を正しいと仮定し論理展開したら、矛盾が見つかる
  • (3) 矛盾が見つかったため、帰無仮説は正しくないと判断する
  • (4) 帰無仮説が正しくないので、対立仮説を正しいとする

 これは数学的に「背理法」と呼ばれる証明法です。

【背理法】

 背理法とは「最初に仮説を設定し、仮説が正しいとした条件で考え、矛盾が起こった場合に仮説が間違っているとする」というものです。例えば次のようです。

 あなたは軟体動物のタコである⇒レントゲンを撮ったら背骨があった⇒タコには背骨はないので矛盾している⇒従って、あなたはタコではない

 このように、通常の背理法が前提としている矛盾は「明確な矛盾」です。しかし、統計的仮説検定が前提にしている矛盾は、明確なものではなく「矛盾していそう」という感じのものです。

【統計的検定ならではの不思議な背理法】

 明確なものではなく「矛盾していそう」とは、どういうことでしょうか。もう少し丁寧に説明を加えると「確率的に稀(まれ)なことが起こったから矛盾していそう」という感じです。ここで問題になるのは「どの程度稀なことが起こったのか?」になります。慣習的には「1%基準(高度に有意)」、「5%基準(有意)」、「10%基準(やや有意)」の3つの基準が用いられます。

【5%基準】

 上記3つの中で最もよく利用されているのが「5%基準(有意)」です。「5%基準」を用いた場合「5%の確率でしか起こらないぐらい稀なことが起こったから矛盾していそう」と考えます。ちなみに「1%基準」、「5%基準」、「10%基準」の3基準の中で「1%基準」が最も基準のハードルが高く「10%基準」が最も基準のハードルが低いことになります。

【「5%基準」の場合の統計的仮説検定の流れ】

 「5%基準」の場合の統計的仮説検定の流れは、次のようになります。

  • (1) まず、帰無仮説を正しいと仮定する
  • (2) 帰無仮説を正しいと仮定し論理展開したら、5%の確率でしか起こらないぐらい稀なことが起こった
  • (3) 5%の確率でしか起こらないぐらい稀なことが起こったため、帰無仮説は正しくないと判断する(帰無仮説を棄却するという)
  • (4) 帰無仮説が正しくないので、対立仮説を正しいとする(対立仮説を採択するという)

 このような流れで、帰無仮説H0(昨年の日販=今年の日販)を棄却し、対立仮説H1(昨年の日販≠今年の日販)を採択します。

 

4. 「対立仮説を採択するかどうか?」しかいえない

 ここで注意すべきことがあります。統...

データ分析

 

◆ 超簡略版「統計的仮説検定」

 ある小売チェーンの例です。例えば、次のような状況はよくあります。

  • 対前年比で売り上げはどうだろうか?
  • 今日の売り上げは、通常と比べ悪いといえるのだろうか?
  • 先週行ったキャンペーンの影響はどうだろうか?
  • 売り上げに効いている要因として、何が考えられるだろうか?
  • 先日の土・日の売り上げが悪かった要因は、何であろうか?
  • 何の対策を打たないまま営業すると、来月どうなりそうか?
  • A案とB案、どちらがいいだろうか?

 これらの例は「比較」というキーワードでデータ分析を進めることができます。このような「比較」は、多くの人が何気なくやっているのではないでしょうか?比較をする時、使えるツールとして「統計的仮説検定」というものがあります。今回は「超簡略版『統計的仮説検定』」というお話をします。

 

1. 「差があるのかどうか?」を検定する

 数理統計学の世界に「統計的仮説検定」というものがあります。その中に「差の検定」などがあります。「差があるのかどうか?」を調べるものです。分かりやすい例ですと「昨年の売り上げと比べ、今年の売り上げはどうだろう?」と比較検討するのに使えそうです。この例ですと、昨年の日販(1日あたりの売り上げ)と今年の日販を比較することになります。

 グラフを眺めただけで、判断が付くこともありますが、判断できないこともあります。グラフの作り方で差の大きさのイメージを変えることができるため、グラフを眺めただけの判断は注意が必要です。統計的仮説検定は、当然ながらグラフの作り方に依存しません。

 

2. 2つの仮説

 このような日販の差の有無を統計的仮説検定で実施するためには、まず次のような2つの仮説を作ります。

  • 帰無仮説H0:昨年の日販=今年の日販
  • 対立仮説H1:昨年の日販≠今年の日販

 帰無仮説H0は「昨年の日販=今年の日販」ということで「日販は昨年と今年で差があるとはいえない」という意味です。
 対立仮説H1は「昨年の日販≠今年の日販」ということで「日販は昨年と今年で差があるといえる」という意味です。

 

(1) なぜ「帰無仮説」というのか?

 ここでは、なぜ「帰無仮説」というのか、なぜ「対立仮説」というのかについて詳しい説明は省きます。

 簡単に説明すると……

  • 帰無仮説は「無に帰することを予定した仮説」
  • 対立仮説は「帰無仮説に対立する仮説」

 よく「計画が無に帰する」とか「努力が無に帰する」ということをいうかと思います。ニュアンスは似ています。

(2) 主張したい対立仮説

 「帰無仮説」は棄却したい仮説で、採択したいのは「対立仮説」になります。「対立仮説」に「主張したいこと」を置きます。その対立仮説を主張するために「引き立て役」とという意味の「噛(か)ませ犬」として「帰無仮説」を置きます。

 

3. 統計的仮説検定の流れ

 統計的仮説検定の流れをザックリいうと、次のようになります。

  • (1) まず、帰無仮説を正しいと仮定する
  • (2) 帰無仮説を正しいと仮定し論理展開したら、矛盾が見つかる
  • (3) 矛盾が見つかったため、帰無仮説は正しくないと判断する
  • (4) 帰無仮説が正しくないので、対立仮説を正しいとする

 これは数学的に「背理法」と呼ばれる証明法です。

【背理法】

 背理法とは「最初に仮説を設定し、仮説が正しいとした条件で考え、矛盾が起こった場合に仮説が間違っているとする」というものです。例えば次のようです。

 あなたは軟体動物のタコである⇒レントゲンを撮ったら背骨があった⇒タコには背骨はないので矛盾している⇒従って、あなたはタコではない

 このように、通常の背理法が前提としている矛盾は「明確な矛盾」です。しかし、統計的仮説検定が前提にしている矛盾は、明確なものではなく「矛盾していそう」という感じのものです。

【統計的検定ならではの不思議な背理法】

 明確なものではなく「矛盾していそう」とは、どういうことでしょうか。もう少し丁寧に説明を加えると「確率的に稀(まれ)なことが起こったから矛盾していそう」という感じです。ここで問題になるのは「どの程度稀なことが起こったのか?」になります。慣習的には「1%基準(高度に有意)」、「5%基準(有意)」、「10%基準(やや有意)」の3つの基準が用いられます。

【5%基準】

 上記3つの中で最もよく利用されているのが「5%基準(有意)」です。「5%基準」を用いた場合「5%の確率でしか起こらないぐらい稀なことが起こったから矛盾していそう」と考えます。ちなみに「1%基準」、「5%基準」、「10%基準」の3基準の中で「1%基準」が最も基準のハードルが高く「10%基準」が最も基準のハードルが低いことになります。

【「5%基準」の場合の統計的仮説検定の流れ】

 「5%基準」の場合の統計的仮説検定の流れは、次のようになります。

  • (1) まず、帰無仮説を正しいと仮定する
  • (2) 帰無仮説を正しいと仮定し論理展開したら、5%の確率でしか起こらないぐらい稀なことが起こった
  • (3) 5%の確率でしか起こらないぐらい稀なことが起こったため、帰無仮説は正しくないと判断する(帰無仮説を棄却するという)
  • (4) 帰無仮説が正しくないので、対立仮説を正しいとする(対立仮説を採択するという)

 このような流れで、帰無仮説H0(昨年の日販=今年の日販)を棄却し、対立仮説H1(昨年の日販≠今年の日販)を採択します。

 

4. 「対立仮説を採択するかどうか?」しかいえない

 ここで注意すべきことがあります。統計的仮説検定は「対立仮説を採択するかどうか?」しかいえないということです。帰無仮説に関しては何もいえません。簡単に説明します。

 「5%の確率でしか起こらないぐらい稀なことが起こった」のであれば、すんなり「帰無仮説を棄却し対立仮説を採択する」となります。

 一方「5%の確率でしか起こらないぐらい稀なことは起こらなかった」場合どうなるでしょうか。この場合、当然ながら「帰無仮説を棄却し対立仮説を採択する」とはなりません。「対立仮説を採択することができなかった」ということがいえるだけで「帰無仮説が採択する」ことにはなりません。便宜的に「帰無仮説が採択する」ことはあっても、厳密には「帰無仮説が採択する」ことにはなりません。

 このような場合「昨年の売り上げと今年の売り上げに差がなかった」ではなく「昨年の売り上げと比べ、今年の売り上げに差があるとはいえなかった」という表現になります。もう少し丁寧にいうと「昨年の売り上げと比べ、今年の売り上げに差があったかもしれないが、今回のデータから差があるとはいえなかった」となります。手元にあるデータで検討した結果、差があるかどうか判断が付かなかっただけなのです。

   続きを読むには・・・


この記事の著者

高橋 威知郎

データネクロマンサー/データ分析・活用コンサルタント (埋もれたデータに花を咲かせる、データ分析界の花咲じじい。それほど年齢は重ねてないけど)

データネクロマンサー/データ分析・活用コンサルタント (埋もれたデータに花を咲かせる、データ分析界の花咲じじい。それほど年齢は重ねてないけど)


「情報マネジメント一般」の他のキーワード解説記事

もっと見る
 データ分析結果にリアリティを データ分析講座(その80)

◆ 人の顔の見えない分析にリアリティは望めない  データ分析結果が活用されないのは、何がいけないのでしょうか。分析のレベルが低いのでしょうか。データ...

◆ 人の顔の見えない分析にリアリティは望めない  データ分析結果が活用されないのは、何がいけないのでしょうか。分析のレベルが低いのでしょうか。データ...


自動機械学習 データ分析講座(その184)

    ◆ 古くて新しい自動機械学習 似たような数理モデルあり、その中から数理モデルを選択してモデル構築する場合のことです。この...

    ◆ 古くて新しい自動機械学習 似たような数理モデルあり、その中から数理モデルを選択してモデル構築する場合のことです。この...


BIツールは、どのような生産性分析ができるのか?

  前回のBIツールとは、生産性向上にお勧めしたい最強のツールの解説に続けます。BIツールは、情報を把握、蓄積していくことで、以下の様な分...

  前回のBIツールとは、生産性向上にお勧めしたい最強のツールの解説に続けます。BIツールは、情報を把握、蓄積していくことで、以下の様な分...


「情報マネジメント一般」の活用事例

もっと見る
‐情報収集で配慮すべき事項(第1回)‐  製品・技術開発力強化策の事例(その9)

 前回の事例その8に続いて解説します。ある目的で情報収集を開始する時には、始めに開発方針を明らかにして、目的意識を持って行動する必要があります。目的を明確...

 前回の事例その8に続いて解説します。ある目的で情報収集を開始する時には、始めに開発方針を明らかにして、目的意識を持って行動する必要があります。目的を明確...


情報、常識の検証を考える

1、勝ち組と負け組を支配する情報  皆さんがご存じの大手予備校有名講師である林先生が、かつてテレビで「情報」に関して興味深いことをおっしゃっており、...

1、勝ち組と負け組を支配する情報  皆さんがご存じの大手予備校有名講師である林先生が、かつてテレビで「情報」に関して興味深いことをおっしゃっており、...


デジタルデータの保存とは

        今回は、地震災害等を想定して、デジタルデータの保存に焦点を当てて、主なバックアップ方法と長所...

        今回は、地震災害等を想定して、デジタルデータの保存に焦点を当てて、主なバックアップ方法と長所...