有象無象なデータとは データ分析講座(その94)

更新日

投稿日

データ分析

◆ ビッグデータブームでデータ分析が大きく変わる

 少し過去にさかのぼりますが、2012年のNHKクローズアップ現代でビッグデータの特集が組まれました。放送事例は特別なものではありませんでしたが、この日を境にある変化を私は感じるようになりました。データ分析への注目度が非常に上がっただけでなく、2000年前後のデータマイニングブームの本質を実現する機会の訪れと感じました。今回は「ビッグデータブームでデータ分析が大きく変わる」というお話しをします。

1. ビッグデータイニチアチブ

 ビッグデータが単なるブームではなく、米国という国が国家を挙げて取り組む何かであることが伺える出来事でした。この「ビッグデータイニチアチブ」は、未来に向けた研究投資に関するものです。今何か得るためではなく、未来の米国の国益を生み出すためのものです。この点は非常に重要です。「今すぐ」ではなく「未来」という点です。ビッグデータやAIなどのキーワードとともに、今すぐ特別な何かを手にできるような錯覚を覚える方もいますが、現実はそのようなことはあまりないと思います。

2. ガベージ・イン/ガベージ・アウト

 2000年頃同じようなデータ分析に関わるムーブメントがありました。データマイニングブームです。ブームで喧伝されていたキーワードの一つに「有象無象のデータの山から、今までにない宝となる何かが発見される」というものです。

 よく「ガベージ・イン/ゴスペル・アウト」と呼ばれ「ゴミの山から福音(良い知らせ)がもたらされる」といわれましたが、現実はそう簡単なものではありませんでした。そのうち「ガベージ・イン/ゴスペル・アウト」ではなく「ガベージ・イン/ガベージ・アウト」=「ゴミの山からでるのは、やっぱりゴミ」と呼ばれるようになり、世間からデータ分析は忘れ去られました。

3. データマイニングブーム時と本質は変わらない

 データマイニングブーム時に、データ分析上ある重要なパラダイムシフトが起こりました。従来のデータ分析は、少量の高品質なデータを相手に統計学的なアプローチを行いデータ分析するものでした。2000年ごろから、データが大量に蓄積されるようになりました。理由は単純でIT化の副産物としてデータが勝手に蓄積されるようになったからです。つまりIT化の広がりとともに、蓄積されるデータ量が爆発的に増えていきます。

 その爆発的に増えた有象無象のデータ、言い換えると「大量の低品質なデータ」に対しもデータ分析をしようという試みが生まれます。それがデータマイニングの諸手法です。なぜならば少量の高品質なデータを相手にする統計学的なアプローチでは、大量の低品質なデータを上手く扱えないからです。2012年頃から始まるビッグデータブームも、大量の低品質なデータを上手く活用しようという本質部分は、変わらないと思います。

4. データ分析:大きな違い

 大きな違いは12年の歳月の間に、大量の低品質なデータを上手く活用し収益急拡大したドットコム企業など、単なる夢物語を現実化する企業の成功事例が現れ注目されたことです。そこで私は「少量の高品質なデータを相手にする時代から、大量の低品質なデータを相手にする時代へ、データ分析の主流が変化したのだ」強く感じました。

 これからのデータ分析は「合目的なデータ」ではなく「有象無象なデータ」を相手にしなければならないのですが、そうすべきであると思います。ちなみに合目的なデータとは「ある目的のために計画的に集められたデータ」、有象無象なデータとは「ある目的のために集められたデータに、そうではないデータが大量に混在されたデータ」という意味で使っています。そのような有象無象なデータから、いかに価値を作るの...

データ分析

◆ ビッグデータブームでデータ分析が大きく変わる

 少し過去にさかのぼりますが、2012年のNHKクローズアップ現代でビッグデータの特集が組まれました。放送事例は特別なものではありませんでしたが、この日を境にある変化を私は感じるようになりました。データ分析への注目度が非常に上がっただけでなく、2000年前後のデータマイニングブームの本質を実現する機会の訪れと感じました。今回は「ビッグデータブームでデータ分析が大きく変わる」というお話しをします。

1. ビッグデータイニチアチブ

 ビッグデータが単なるブームではなく、米国という国が国家を挙げて取り組む何かであることが伺える出来事でした。この「ビッグデータイニチアチブ」は、未来に向けた研究投資に関するものです。今何か得るためではなく、未来の米国の国益を生み出すためのものです。この点は非常に重要です。「今すぐ」ではなく「未来」という点です。ビッグデータやAIなどのキーワードとともに、今すぐ特別な何かを手にできるような錯覚を覚える方もいますが、現実はそのようなことはあまりないと思います。

2. ガベージ・イン/ガベージ・アウト

 2000年頃同じようなデータ分析に関わるムーブメントがありました。データマイニングブームです。ブームで喧伝されていたキーワードの一つに「有象無象のデータの山から、今までにない宝となる何かが発見される」というものです。

 よく「ガベージ・イン/ゴスペル・アウト」と呼ばれ「ゴミの山から福音(良い知らせ)がもたらされる」といわれましたが、現実はそう簡単なものではありませんでした。そのうち「ガベージ・イン/ゴスペル・アウト」ではなく「ガベージ・イン/ガベージ・アウト」=「ゴミの山からでるのは、やっぱりゴミ」と呼ばれるようになり、世間からデータ分析は忘れ去られました。

3. データマイニングブーム時と本質は変わらない

 データマイニングブーム時に、データ分析上ある重要なパラダイムシフトが起こりました。従来のデータ分析は、少量の高品質なデータを相手に統計学的なアプローチを行いデータ分析するものでした。2000年ごろから、データが大量に蓄積されるようになりました。理由は単純でIT化の副産物としてデータが勝手に蓄積されるようになったからです。つまりIT化の広がりとともに、蓄積されるデータ量が爆発的に増えていきます。

 その爆発的に増えた有象無象のデータ、言い換えると「大量の低品質なデータ」に対しもデータ分析をしようという試みが生まれます。それがデータマイニングの諸手法です。なぜならば少量の高品質なデータを相手にする統計学的なアプローチでは、大量の低品質なデータを上手く扱えないからです。2012年頃から始まるビッグデータブームも、大量の低品質なデータを上手く活用しようという本質部分は、変わらないと思います。

4. データ分析:大きな違い

 大きな違いは12年の歳月の間に、大量の低品質なデータを上手く活用し収益急拡大したドットコム企業など、単なる夢物語を現実化する企業の成功事例が現れ注目されたことです。そこで私は「少量の高品質なデータを相手にする時代から、大量の低品質なデータを相手にする時代へ、データ分析の主流が変化したのだ」強く感じました。

 これからのデータ分析は「合目的なデータ」ではなく「有象無象なデータ」を相手にしなければならないのですが、そうすべきであると思います。ちなみに合目的なデータとは「ある目的のために計画的に集められたデータ」、有象無象なデータとは「ある目的のために集められたデータに、そうではないデータが大量に混在されたデータ」という意味で使っています。そのような有象無象なデータから、いかに価値を作るのかが求められる時代だと、私は2012年頃のビッグデータブーム時に感じました。

5. データ分析:大量の低品質データを相手にする時代

 今回は「ビッグデータブームでデータ分析が大きく変わる」というお話しをしました。単なる、2000年と2012年のデータ分析ブームの比較で、本質的には何も変わっていないというお話しです。

 「大量の低品質なデータを上手く活用する」という根幹の部分が同じということです。そこで、私は「少量の高品質なデータを相手にする時代から、大量の低品質なデータを相手にする時代へ、データ分析の主流が変化したのだ」と強く感じました。

 私がこのように感じたある事例があります。ある大手電機メーカーの工場のデータ分析事例です。従来の統計的品質管理の統計学的アプローチでは上手くいかなくなったのです。詳細は、この連載の別の機会に、解説します。

   続きを読むには・・・


この記事の著者

高橋 威知郎

データネクロマンサー/データ分析・活用コンサルタント (埋もれたデータに花を咲かせる、データ分析界の花咲じじい。それほど年齢は重ねてないけど)

データネクロマンサー/データ分析・活用コンサルタント (埋もれたデータに花を咲かせる、データ分析界の花咲じじい。それほど年齢は重ねてないけど)


「情報マネジメント一般」の他のキーワード解説記事

もっと見る
新たなコア技術確立のためのオープン・イノベーション  研究テーマの多様な情報源(その23)

1.新たなコア技術設定の必要性 ◆関連解説『情報マネジメントとは』   (1)成熟する技術    前回のその22に続いて解説...

1.新たなコア技術設定の必要性 ◆関連解説『情報マネジメントとは』   (1)成熟する技術    前回のその22に続いて解説...


数理統計学的な厳密性との狭間で データ分析講座(その155)

  ◆ データ分析・活用と数理統計学的な厳密性との狭間で  データ分析やデータサイエンス、機械学習などの基礎的なバックボーンとして、数理...

  ◆ データ分析・活用と数理統計学的な厳密性との狭間で  データ分析やデータサイエンス、機械学習などの基礎的なバックボーンとして、数理...


経営と組織の整合性を保つ、データによる意思決定推進とは:データ分析講座(その344)

【目次】   国内最多のものづくりに関するセミナー掲載中! ものづくりドットコムでは、製造業に関するセミナーを...

【目次】   国内最多のものづくりに関するセミナー掲載中! ものづくりドットコムでは、製造業に関するセミナーを...


「情報マネジメント一般」の活用事例

もっと見る
中小企業のセキュリティ対策を考える

◆ 企業の情報セキュリティと新型コロナウィルス対策の今  先日、駅のプラットフォ-ムで並んでいる時に、控えめに咳をしたら、前に並んでいた人にすかさず...

◆ 企業の情報セキュリティと新型コロナウィルス対策の今  先日、駅のプラットフォ-ムで並んでいる時に、控えめに咳をしたら、前に並んでいた人にすかさず...


個票データの共用化でコストダウン

 データ解析の効率は、生データとその整理の仕方で大きく異なると言えます。 例えば、アンケート結果は単なる生データであり、そのままでは解析出来ません。解析の...

 データ解析の効率は、生データとその整理の仕方で大きく異なると言えます。 例えば、アンケート結果は単なる生データであり、そのままでは解析出来ません。解析の...


P値で行う統計リテラシー判定

 「ピーチ」って聞いたら何を連想しますか、統計を学んでいる人に取っては「 P値 」が思い浮かぶはずです。統計学の素養がある程度備わっているか一言で知ろうと...

 「ピーチ」って聞いたら何を連想しますか、統計を学んでいる人に取っては「 P値 」が思い浮かぶはずです。統計学の素養がある程度備わっているか一言で知ろうと...