【この連載の前回:データ分析講座(その220)完璧にデータを集めなければならないのかへのリンク】
データサイエンスは、データとドメイン(データ活用の現場)の間の橋であり、その橋を走る汽車のようなものです。ドメイン(データ活用の現場)を覗いてみれば、そこには何かに困っている人がいます。何かに困っている人が、何に困っているのかを上手く説明出来るわけではありません。上手く説明できないどころか、何に困っているのかさえ明確に認識していないケースも多々あります。データサイエンスが上手くドメイン(データ活用の現場)で機能しているとき、ある現象が起こっています。サーキュラーエコノミー(循環経済、Circular Economy)です。
今回は、「誰かが困っているところで、データサイエンスの循環経済を起こせ!」というお話しをします。
【目次】
1.データサイエンスはお困りごとから始まる
(1)サーキュラーエコノミー(循環経済)
(2)データは新しい原油である
(3)分析レポートや数理モデルも捨てない
2.データベースの上書き問題
3.データサイエンスはサーキュラーエコノミー
1.データサイエンスはお困りごとから始まる
データサイエンスの出発点は、ドメイン(データ活用の現場)で起こっているお困りごとです。誰も困っていないのに、お節介にデータサイエンスを押し付けるのは最悪です。お困りごとといっても、明確に認識している場合と、そうでない場合があります。
さらに、今困っていなけど、未来のお困りごともあります。ドメイン(データ活用の現場)のお困りごとが、明確でない場合には、それを明確化する活動が必要になります。
(1)サーキュラーエコノミー(循環経済)
ところで、サーキュラーエコノミー(循環経済、Circular Economy)とは何でしょうか?これまでの経済はリニアエコノミー(直線経済、Linear Economy)と呼ばれています。自然界から取り出された資源やエネルギーなどを採掘し(Take)、それらを用いて製品などを生産し(Make)、それが不必要になると捨てる(Waste)、という形で消費され続ける経済です。
サーキュラーエコノミーとは、端的に言うと廃棄物を出すことなく資源を循環させることです。データサイエンスが上手く活用されている状態が、まさにサーキュラーエコノミーの状態を作っている。
(2)データは新しい原油である
データは新しい原油である、と言われています。リニアエコノミーの概念で考えると、発生したデータは何かしら活用された後に廃棄され、それ以上活用されません。集計や分析などに利用したデータを廃棄したりすることに該当します。場合によってが、何ら利用されることなく廃棄されることもあることでしょう。しかし、最近では過去データを積極的に廃棄することは稀になっているようです。
なぜならば、集計や分析などに利用したデータであっても、十分に利用価値があるからです。
(3)分析レポートや数理モデルも捨てない
集計や分析などに利用したデータだけでなく、集計や分析した結果をまとめた分析レポートや、そのとき構築した数理モデル(異常検知モデルや予測モデルなど)も、ある種のデータです。
何を言いたいかと言うと、分析レポートや数理モデルもある種のデータなので捨てないようにしましょう。過去の分析レポートや数理モデルも、そこから多くの学びなどを得ることができます。どのような分析レポートを出したとき、現場ではどの部分を参考にし、どのような意思決定やアクションを起こしたのか、それは非常に有用な記録(データ)です。どのようなデータで、どのような数理モデルを構築したとき、どのくらいの精度で未来を予測し、どのように活かされたのか、それは非常に有用な記録(データ)です。
最近のBIツールのダッシュボードは、そういう意味では危険です。その時、その場で、どのようなダッシュボード(集計結果やグラフなど)を見たのかが分からなくなる可能性があるからです。数理モデルの定期的な更新(再学習)も、無邪気に実施すると危険です。1世代前や2世代前などの数理モデルがどういったものか分からなくなるからです。
2.データベースの上書き問題
恐ろしいことに、データベースにあるテーブルも上書き更新する人や組織もあります。上書きしたら、その前の状態のデータが消えてしまいます。これは、過去データを捨てているのと同じです。分析レポートや数理モデルを捨てること以上に、恐ろしいことです。消えたデータは、当然ながらもう利用することは出来ません。
3.データサイエンスはサーキュラーエコノミー
発生したデータは、一度利用されても、再利用可能です。どちらかと言うと、積極的に再利用されます。
...