データサイエンティストとは データ分析講座(その109)

更新日

投稿日

データ分析

◆ データサイエンティストとデータエンジニアは混同されやすい

 データサイエンティストは何者なのか…。最近、エンジニアである機械学習エンジニア(もしくはデータエンジニア)と、データサイエンティストが混同される不幸が、ちょいちょい見受けられます。似ているようで似ていない。そもそも、データサイエンティストはエンジニアではない。今回は「データサイエンティストとデータエンジニアは混同されやすい」というお話しをします。

1. データサイエンティスト:SAS社の定義

 定義は色々あります。以下はデータ分析系のツールの老舗、SAS社の定義です。

 データ・サイエンティストとは様々な意思決定の局面において、データに基づいて合理的な判断を行えるように意思決定者をサポートする職務またはそれを行う人のことです。

 細かい部分はさておき、異論のある人は少ないことでしょう。この定義から考えると、データサイエンティストの役割は「データに基づき合理的な判断を行えるように意思決定者をサポートする」ということになります。ポイントは「データに基づいて」という部分が他の意思決定をサポートする職務と異なります。

2. データサイエンティスト:私の定義

 私なりの定義を述べます。SAS社の定義プラスアルファな感じになります。

 データサイエンティストの役割は「意思決定者に対し、データに基づいた気の利いたレコメンド(勧める)する人(もしくは、その自動化を実現する人)」となるのではないかと思います。「サポート」を「レコメンド」としています。

3.「サポート」ではなく「レコメンド」

 おそらく「サポート」の中に「レコメンド」も含まれると思われます。

 「レコメンド」以外の「サポート」として、例えば「見える化」や「モニタリングレポートの作成」、「分析結果の提供」などもあることでしょう。しかし、具体的に何をすべきなのかが見えてこないと、ビジネス成果を掴むことはできません。では、どうすべきか、ということで、具体的に何をすべきなのかレコメンドすればいいとなります。

 レコメンドといっても、具体的にやるべきことをストレートに伝えることもありますし、やるべきことを考えさせる材料を提供するという方法もあることでしょう。つまり、提供された分析結果などを基に、何かしら意思決定する人(現場)が、何をすべきかを明確にすることができるという状態をつくれたら、それはレコメンドとなることでしょう。

4.「レコメンド」の例

 レコメンドには色々なやり方があります。具体的に一つだけアクション候補を提示する方法が最もシンプルです。また幅を持たせたり、複数の選択肢を提示する方法もよくあります。電車の経路検索や、ECサイトのレコメンド商品などを思い浮かべて頂けると分かりやすいことでしょう。

 分析レポートとして提供する場合「提言」という形でレコメンドをすることが多いことでしょう。レポートですのでその提言の数的根拠が提供されています。意思決定する人(現場)は、そのレポートに基づいて「あーでもない、こーでもない」と考え、実際にすべきことを検討していくことでしょう。最近ではBI(ビジネスインテリジェンス)のダッシュボード()として、分析レポートを提供するケースも増えています。ツール上で意思決定する人(現場)は直接深堀分析ができるのが特徴です。
ダッシュボード…複数の情報を一つにまとめ、一目でデータが把握できるようにする可視化ツール

5.データエンジニア

 データサイエンティストとデータエンジニアはコアスキルに違いがあり、コアスキルで比較するとその差が明確になります。データサイエンティストのコアスキルとは「数学や統計学(人によっては物理学)のバックグランドを持ち、高度な分析を実施したり、機械学習などのモデルを構築する」となるかと思います。

 データエンジニアのコアスキルとは「JavaやScala、Pythonなどプログラミングのバックグランドを持ち、分散シ...

データ分析

◆ データサイエンティストとデータエンジニアは混同されやすい

 データサイエンティストは何者なのか…。最近、エンジニアである機械学習エンジニア(もしくはデータエンジニア)と、データサイエンティストが混同される不幸が、ちょいちょい見受けられます。似ているようで似ていない。そもそも、データサイエンティストはエンジニアではない。今回は「データサイエンティストとデータエンジニアは混同されやすい」というお話しをします。

1. データサイエンティスト:SAS社の定義

 定義は色々あります。以下はデータ分析系のツールの老舗、SAS社の定義です。

 データ・サイエンティストとは様々な意思決定の局面において、データに基づいて合理的な判断を行えるように意思決定者をサポートする職務またはそれを行う人のことです。

 細かい部分はさておき、異論のある人は少ないことでしょう。この定義から考えると、データサイエンティストの役割は「データに基づき合理的な判断を行えるように意思決定者をサポートする」ということになります。ポイントは「データに基づいて」という部分が他の意思決定をサポートする職務と異なります。

2. データサイエンティスト:私の定義

 私なりの定義を述べます。SAS社の定義プラスアルファな感じになります。

 データサイエンティストの役割は「意思決定者に対し、データに基づいた気の利いたレコメンド(勧める)する人(もしくは、その自動化を実現する人)」となるのではないかと思います。「サポート」を「レコメンド」としています。

3.「サポート」ではなく「レコメンド」

 おそらく「サポート」の中に「レコメンド」も含まれると思われます。

 「レコメンド」以外の「サポート」として、例えば「見える化」や「モニタリングレポートの作成」、「分析結果の提供」などもあることでしょう。しかし、具体的に何をすべきなのかが見えてこないと、ビジネス成果を掴むことはできません。では、どうすべきか、ということで、具体的に何をすべきなのかレコメンドすればいいとなります。

 レコメンドといっても、具体的にやるべきことをストレートに伝えることもありますし、やるべきことを考えさせる材料を提供するという方法もあることでしょう。つまり、提供された分析結果などを基に、何かしら意思決定する人(現場)が、何をすべきかを明確にすることができるという状態をつくれたら、それはレコメンドとなることでしょう。

4.「レコメンド」の例

 レコメンドには色々なやり方があります。具体的に一つだけアクション候補を提示する方法が最もシンプルです。また幅を持たせたり、複数の選択肢を提示する方法もよくあります。電車の経路検索や、ECサイトのレコメンド商品などを思い浮かべて頂けると分かりやすいことでしょう。

 分析レポートとして提供する場合「提言」という形でレコメンドをすることが多いことでしょう。レポートですのでその提言の数的根拠が提供されています。意思決定する人(現場)は、そのレポートに基づいて「あーでもない、こーでもない」と考え、実際にすべきことを検討していくことでしょう。最近ではBI(ビジネスインテリジェンス)のダッシュボード()として、分析レポートを提供するケースも増えています。ツール上で意思決定する人(現場)は直接深堀分析ができるのが特徴です。
ダッシュボード…複数の情報を一つにまとめ、一目でデータが把握できるようにする可視化ツール

5.データエンジニア

 データサイエンティストとデータエンジニアはコアスキルに違いがあり、コアスキルで比較するとその差が明確になります。データサイエンティストのコアスキルとは「数学や統計学(人によっては物理学)のバックグランドを持ち、高度な分析を実施したり、機械学習などのモデルを構築する」となるかと思います。

 データエンジニアのコアスキルとは「JavaやScala、Pythonなどプログラミングのバックグランドを持ち、分散システムやビッグデータを専門とした高度なプログラミングやシステム構築のスキルを持つ」となるかと思います。

 よって、高度な分析を実施したりモデル構築をする人をデータサイエンティスト、それをシステム上で実現する人がデータエンジニアという感じになるかと思いますので、データサイエンティストに高度なプログラミングやシステム構築を期待するのは、違うということになります。

6. 混同されると不幸なことになる

 データを扱うという意味では同じですが、求められている仕事やキャリアパス、教育などを考えると大きく異なってきます。数学的なバックグランドの必要な、高度な分析やモデル構築をデータエンジニアに求めても酷というものです。またシステム構築や計算速度の高速化をデータサイエンティストに求めても同じです。実際「RやPythonなどの既存のライブラリーを使えば数学素養は必要ない! 」というわけにいかないのがデータ分析やモデル構築の世界です。

   続きを読むには・・・


この記事の著者

高橋 威知郎

データネクロマンサー/データ分析・活用コンサルタント (埋もれたデータに花を咲かせる、データ分析界の花咲じじい。それほど年齢は重ねてないけど)

データネクロマンサー/データ分析・活用コンサルタント (埋もれたデータに花を咲かせる、データ分析界の花咲じじい。それほど年齢は重ねてないけど)


「情報マネジメント一般」の他のキーワード解説記事

もっと見る
探索的データ分析(EDA)とは:データ分析講座(その314)

  データを得たとき、最初にすべきことの1つが、データ理解です。データ理解が不十分なまま、より高度な分析を実施したり、数理モデルを構築した...

  データを得たとき、最初にすべきことの1つが、データ理解です。データ理解が不十分なまま、より高度な分析を実施したり、数理モデルを構築した...


新しい分析手法やアルゴリズムに挑戦することは悪なのか データ分析講座(その67)

◆ 「すごい分析」よりも「使える分析」  データ分析の手法そのものに、こだわることは決して悪いことではありません。手法やアルゴリズムが発展するほど、...

◆ 「すごい分析」よりも「使える分析」  データ分析の手法そのものに、こだわることは決して悪いことではありません。手法やアルゴリズムが発展するほど、...


ビジネス現場は時系列データで溢れている データ分析講座(その303)

  あなたがビジネスでデータ活用を考えているなら、時系列データを避けることは出来ません。なぜならば、ビジネス現場は時系列データで溢れている...

  あなたがビジネスでデータ活用を考えているなら、時系列データを避けることは出来ません。なぜならば、ビジネス現場は時系列データで溢れている...


「情報マネジメント一般」の活用事例

もっと見る
情報、常識の検証を考える

1、勝ち組と負け組を支配する情報  皆さんがご存じの大手予備校有名講師である林先生が、かつてテレビで「情報」に関して興味深いことをおっしゃっており、...

1、勝ち組と負け組を支配する情報  皆さんがご存じの大手予備校有名講師である林先生が、かつてテレビで「情報」に関して興味深いことをおっしゃっており、...


既存コア技術強化のためのオープン・イノベーション:富士フイルムの例

 2015年7月20日号の日経ビジネスに、富士フイルムの特集が掲載されました。富士フイルムは、既存コア技術強化のためにオープン・イノベーションを果敢に...

 2015年7月20日号の日経ビジネスに、富士フイルムの特集が掲載されました。富士フイルムは、既存コア技術強化のためにオープン・イノベーションを果敢に...


中小企業のセキュリティ対策を考える

◆ 企業の情報セキュリティと新型コロナウィルス対策の今  先日、駅のプラットフォ-ムで並んでいる時に、控えめに咳をしたら、前に並んでいた人にすかさず...

◆ 企業の情報セキュリティと新型コロナウィルス対策の今  先日、駅のプラットフォ-ムで並んでいる時に、控えめに咳をしたら、前に並んでいた人にすかさず...