完璧にデータを集めなければならないのか データ分析講座(その220)

投稿日

データ分析

 

【この連載の前回:データ分析講座(その219)現場感とデータ分析へのリンク】

データ分析・活用を始めようと考えたとき、データ収集から始めることがあります。そのとき、完璧にデータを集めようと考える人も少なくありません。しかし、データ分析・活用(データサイエンス実践)をする前に想像する必要そうなデータは、妄想にしかすぎません。今回は、「完璧にデータを集めなければならないという勘違い」というお話しをします。

【目次】
1.どう活用していいか分からない問題
2.妄想と現実のギャップ
3.データにも80:20の法則がある
4.2つの視点(使用頻度と影響度)
(1)使用頻度:よく使うデータ
(2)影響度:影響の大きなデータ

 

1.どう活用していいか分からない問題

いざデータ活用を始めようと考え、データをある程度集めたとき、次にようなつぶやきは以前からあります。「このデータ、どう活用していいか分からない」目的を明確に定めても、このつぶやきは起こりえます。

 

データ分析・活用(データサイエンス実践)をする前に、データを完璧に把握することは難しいのです。他社を参考にしても、自社の他部署を参考にしても、難しいのです。一人一人の人間が異なるように、データ分析・活用(データサイエンス実践)も異なります。参考にはなりますが、まったく同じにはなりません。

 

2.妄想と現実のギャップ

要するに、妄想と現実にはギャップがあるということです。データ分析・活用(データサイエンス実践)をすると、絶対必要と思ったデータがそれほど必要でなかったり、あればいいかなぐらいのデータが必要不可欠だったりします。想像もしなかったデータが見えたりします。多くの場合、想像していたデータとは異なるデータが必要になるのではないでしょうか。

 

何が必要なのかは、今あるデータや手に入りやすいデータだけででもいいから、データ分析・活用(データサイエンス実践)を実施してこないと見えてきません。

 

そのときはじめて……

  • すでにあるデータは?
  • 追加で入手できそうなデータは?
  • 購入できそうなデータは?
  • 他のデータで代替できないか?

……などを検討し、データ分析・活用(データサイエンス実践)を実施しながらデータ収集を検討し実施するのがいいでしょう。

 

3.データにも80:20の法則がある

パレートの法則で有名な「80:20の法則」ですが、データの世界にも当てはまる気がします。集めたデータが平等に使われるのではなく、よく使われるデータと、あまり使われないデータに分かれると言うことです。また、同じように使われたデータでも、影響度が大きいデータと、そうでもないデータもあります。

 

4.2つの視点(使用頻度と影響度)

幾つかの視点がありますが、例えば次の2つの視点で考えると分かりやすいでしょう。

  • 使用頻度
  • 影響度

絶対集めるべきデータは、使用頻度が高くかつ影響度の大きなデータです。データ分析・活用(データサイエンス実践)をする前や、データ分析を実施したり数理モデルを構築する前に、完璧に把握することは、非常に難しいと思います。

 

(1)使用頻度:よく使うデータ

データ分析・活用(データサイエンス実践)を色々実施していくと、よく使うデータとそうでもないデータがあることに気が付くと思います。とりあえずこのデータ項目はデータセットに含めておこう、という形で常にデータセットに登場するデータ項目があります。一方で、まったくデータセットに登場しないデータ項目もあります。

 

データ分析・活用(データサイエンス実践)をする前に、ある程度想像も付きますが、たまに想像もつかないようなデータ項目が、頻繁に活用されることがあります。業種や企業、部署などによって、頻繁に活用されるデータ項目が微妙に異なってきます。

 

1点注意点があります。データセットに登場しないデータ項目の理由が、欠測値や異常値だらけでデータが不完全であるという理由や、データ収集されていないという理由なども考えられます。「データが不完全であるという理由」や「データ収集されていないという理由」などの理由で、データセットから除外するのは止めましょう。必要そうであれば、不完全であろうが収集されていなかろうが、データセットの中に含めておきましょう。

 

実際は、データ分析やモデル構築などには使いませんが、「ちゃんとしたデータを集めよう」「データ収集する仕組みを作ろう」という感じの意識づけというかプレッシャーにもなりますし、「本当は必要だけど考慮されていない情報が何か」(解釈上重要)が分かり...

データ分析

 

【この連載の前回:データ分析講座(その219)現場感とデータ分析へのリンク】

データ分析・活用を始めようと考えたとき、データ収集から始めることがあります。そのとき、完璧にデータを集めようと考える人も少なくありません。しかし、データ分析・活用(データサイエンス実践)をする前に想像する必要そうなデータは、妄想にしかすぎません。今回は、「完璧にデータを集めなければならないという勘違い」というお話しをします。

【目次】
1.どう活用していいか分からない問題
2.妄想と現実のギャップ
3.データにも80:20の法則がある
4.2つの視点(使用頻度と影響度)
(1)使用頻度:よく使うデータ
(2)影響度:影響の大きなデータ

 

1.どう活用していいか分からない問題

いざデータ活用を始めようと考え、データをある程度集めたとき、次にようなつぶやきは以前からあります。「このデータ、どう活用していいか分からない」目的を明確に定めても、このつぶやきは起こりえます。

 

データ分析・活用(データサイエンス実践)をする前に、データを完璧に把握することは難しいのです。他社を参考にしても、自社の他部署を参考にしても、難しいのです。一人一人の人間が異なるように、データ分析・活用(データサイエンス実践)も異なります。参考にはなりますが、まったく同じにはなりません。

 

2.妄想と現実のギャップ

要するに、妄想と現実にはギャップがあるということです。データ分析・活用(データサイエンス実践)をすると、絶対必要と思ったデータがそれほど必要でなかったり、あればいいかなぐらいのデータが必要不可欠だったりします。想像もしなかったデータが見えたりします。多くの場合、想像していたデータとは異なるデータが必要になるのではないでしょうか。

 

何が必要なのかは、今あるデータや手に入りやすいデータだけででもいいから、データ分析・活用(データサイエンス実践)を実施してこないと見えてきません。

 

そのときはじめて……

  • すでにあるデータは?
  • 追加で入手できそうなデータは?
  • 購入できそうなデータは?
  • 他のデータで代替できないか?

……などを検討し、データ分析・活用(データサイエンス実践)を実施しながらデータ収集を検討し実施するのがいいでしょう。

 

3.データにも80:20の法則がある

パレートの法則で有名な「80:20の法則」ですが、データの世界にも当てはまる気がします。集めたデータが平等に使われるのではなく、よく使われるデータと、あまり使われないデータに分かれると言うことです。また、同じように使われたデータでも、影響度が大きいデータと、そうでもないデータもあります。

 

4.2つの視点(使用頻度と影響度)

幾つかの視点がありますが、例えば次の2つの視点で考えると分かりやすいでしょう。

  • 使用頻度
  • 影響度

絶対集めるべきデータは、使用頻度が高くかつ影響度の大きなデータです。データ分析・活用(データサイエンス実践)をする前や、データ分析を実施したり数理モデルを構築する前に、完璧に把握することは、非常に難しいと思います。

 

(1)使用頻度:よく使うデータ

データ分析・活用(データサイエンス実践)を色々実施していくと、よく使うデータとそうでもないデータがあることに気が付くと思います。とりあえずこのデータ項目はデータセットに含めておこう、という形で常にデータセットに登場するデータ項目があります。一方で、まったくデータセットに登場しないデータ項目もあります。

 

データ分析・活用(データサイエンス実践)をする前に、ある程度想像も付きますが、たまに想像もつかないようなデータ項目が、頻繁に活用されることがあります。業種や企業、部署などによって、頻繁に活用されるデータ項目が微妙に異なってきます。

 

1点注意点があります。データセットに登場しないデータ項目の理由が、欠測値や異常値だらけでデータが不完全であるという理由や、データ収集されていないという理由なども考えられます。「データが不完全であるという理由」や「データ収集されていないという理由」などの理由で、データセットから除外するのは止めましょう。必要そうであれば、不完全であろうが収集されていなかろうが、データセットの中に含めておきましょう。

 

実際は、データ分析やモデル構築などには使いませんが、「ちゃんとしたデータを集めよう」「データ収集する仕組みを作ろう」という感じの意識づけというかプレッシャーにもなりますし、「本当は必要だけど考慮されていない情報が何か」(解釈上重要)が分かります。

 

(2)影響度:影響の大きなデータ

いつもデータセットの中には登場するけど、正直あってもなくても、分析結果や予測結果などに大きな影響を与えないようなデータ項目もあります。

 

逆に、データセットの中にたまに登場するけど、ある課題解決上重要なデータ項目もあります。当然ですが、大きな影響を与えるようなデータ項目は、非常に重要です。先ほどの「使用頻度」と合わせると、次にようなマップを描けると思います。

 

データ分析

 

「使用頻度」も「影響度」も、実際にデータ分析・活用(データサイエンス実践)をしなければ、分かりません。「使用頻度」も「影響度」も高そうなデータを準備してみて、本当のところどうであろうかと検討しながら、出来る限りきちんと集め整備すべきデータと、そうでもないデータを見極めていく作業が必要になります。

   続きを読むには・・・


この記事の著者

高橋 威知郎

データネクロマンサー/データ分析・活用コンサルタント (埋もれたデータに花を咲かせる、データ分析界の花咲じじい。それほど年齢は重ねてないけど)

データネクロマンサー/データ分析・活用コンサルタント (埋もれたデータに花を咲かせる、データ分析界の花咲じじい。それほど年齢は重ねてないけど)


「情報マネジメント一般」の他のキーワード解説記事

もっと見る
データの活かしどころを具体化することの重要性 データ分析講座(その49)

  ◆ データ活用の成否に企業規模は関係ないが、成功確率に差がある理由  数年前に統計学やビッグデータというキーワードが注目され、今では機械...

  ◆ データ活用の成否に企業規模は関係ないが、成功確率に差がある理由  数年前に統計学やビッグデータというキーワードが注目され、今では機械...


事例から分かるデータインサイト×現場感 データ分析講座(その209)

  2000年ごろのデータマイニングブームの頃、盛んに取り上げられた事例があります。それは、ビールおむつ事例です。この事例を元に、データ分...

  2000年ごろのデータマイニングブームの頃、盛んに取り上げられた事例があります。それは、ビールおむつ事例です。この事例を元に、データ分...


生成AI(Generative AI)とは何か:データ分析講座(その320)

  生成AI は創造的な限界を押し広げることを可能にし、さまざまな業界に広範囲に影響を与えるのではないかと、期待されています。ただし、想像...

  生成AI は創造的な限界を押し広げることを可能にし、さまざまな業界に広範囲に影響を与えるのではないかと、期待されています。ただし、想像...


「情報マネジメント一般」の活用事例

もっと見る
ソーシャルメディアデータの解析事例:異分野研究から得られる共通した目的とは

 2020年、コロナウィルス感染の問題が大きくなり始めた頃、少人数の開催ということで、ソーシャルメディアデータ解析を専門にされている先生の講演会を聞く...

 2020年、コロナウィルス感染の問題が大きくなり始めた頃、少人数の開催ということで、ソーシャルメディアデータ解析を専門にされている先生の講演会を聞く...


中小製造業のウェブ戦略

 中小製造業がウェブサイトを立ち上げる際、その目的として「自社の信用力を高めるための会社概要的な役割」と考える経営者も少なくない。しかし、当社のクライアン...

 中小製造業がウェブサイトを立ち上げる際、その目的として「自社の信用力を高めるための会社概要的な役割」と考える経営者も少なくない。しかし、当社のクライアン...


中小企業のセキュリティ対策を考える

◆ 企業の情報セキュリティと新型コロナウィルス対策の今  先日、駅のプラットフォ-ムで並んでいる時に、控えめに咳をしたら、前に並んでいた人にすかさず...

◆ 企業の情報セキュリティと新型コロナウィルス対策の今  先日、駅のプラットフォ-ムで並んでいる時に、控えめに咳をしたら、前に並んでいた人にすかさず...