初心者がデータサイエンティストになるためには、データ分析講座(その310)

更新日

投稿日

初心者がデータサイエンティストになるためには、データ分析講座(その310)

 

データサイエンティストや機械学習エンジニアなどの社会的需要が高まっています。社会的な需要にこたえる人財となると、最低でも実務経験を積みながら2、3年は必要でしょう。その後、センスの有無や適性の有無が明らかになってきます。とは言え、そんなに待っていられない! ということもあろうかと思います。実務経験を一旦は脇に置いておいて、人財育成するなら、どのくらいの期間が必要だろうかと考えてしまいます。考えてみると、恐らく6か月は必要ではなかろうかと感じるわけです。今回は「6ヶ月間で初心者がデータサイエンティストになるためのロードマップ例」というお話しをします。

【目次】

1. 最低限必要な基礎スキル

実務経験を一旦は脇に置いておいて、人財育成するなら、どのような知識やスキルが必要だろうかと考えてみました。例えば、以下です。

  • 1カ月目:数理統計学および線形代数の基礎固め
  • 2カ月目:プログラミング(Python、R、SQLなど)の基礎体力作り
  • 3カ月目:ツールを使用したデータ抽出や探索的データ分析
  • 4カ月目:機械学習(伝統的な多変量解析手法などを含む)の最低限の知識獲得と実践
  • 5カ月目:深層学習(主にニューラルネットワーク部分)の最低限の知識獲得と実践
  • 6カ月目:ビジネス問題への適応練習

 

2. 【1カ月目】数理統計学および線形代数の基礎固め

数理統計学(記述統計や推測統計、多変量解析など)の知識は、データサイエンスや機械学習などにとって必要不可欠です。例えば、平均や標準偏差、確率分布、仮説検定、回帰分析、因子分析などです。線形代数のベクトルや行列、固有値などの知識も非常に重要です。数理統計学と線形代数の最低限の知識がないと、探索的データ分析も機械学習も深層学習も非常に困難なものになります。

 

3. 【2カ月目】プログラミング(Python、R、SQLなど)の基礎体力作り

データサイエンスや機械学習などを実施するには、少なくとも 1つのプログラミング言語に慣れている必要があります。RかPythonのどちらか1つで十分かと思います。もちろん、両方使いこなせるのがベストです。どちらも、データサイエンスや機械学習などで利用するライブラリーが豊富だからです。忘れていけないのが1つあります。SQLです。データ操作でSQLを使うことが多々ありますので、SQLも習得した方がいいでしょう。

 

RやPython上でSQLを記述し利用することもありますし、DBeaverなどのデータベース操作ツール(SQL クライアントソフト)上でSQLを記述し利用することもあります。探索的データ分析や機械学習などで利用するデータセットを準備する上で必要となります。

 

4. 【3カ月目】ツールを使用したデータ抽出や探索的データ分析

プログラミングスキルと数理統計学および線形代数の知識が身に着けたら、次にすべきはデータ抽出や探索的データ分析です。Pythonであれば、例えばデータ操作用のNumPy、pandas、Vaex、データ可視化用のMatplotlib、seaborn、Bokeh、さらに統計解析を実施できるstatsmodelsやScikit-learnなどのライブラリーを駆使すれば十分でしょう。データ分析用のNumPy、pandas、Vaexで、データ操作や集計などを実施していきます。平均値などの統計量を求めたりもします。

 

集計結果や統計量などの数値を見るのもいいですが、それをMatplotlib、seaborn、Bokehなどで視覚化するとより探索的データ分析がより進みます。さらに、仮説検定や回帰分析、因子分析などを実施するとき、atsmodelsやScikit-learnなどのライブラリーを使うと簡単に実施できます。そもそもデータベースから必要なデータを抽出したり、複数のデータテーブルがあるときにデータテーブル同士をつなげ操作したりするときに、SQLを使います。

 

PythonやRからデータベースに接続しSQLで操作するのもいいですし、データベース操作ツール(SQL クライアントソフト)上でSQLを記述し利用するのもいいでしょう。実務的には、データベース操作ツール(SQL クライアントソフト)上でSQLを駆使しPythonやRなどで扱いやすいようにある程度加工しておいて、それをPythonやRなどから接続し、実施する分析内容に応じてPythonやR上でSQLを記述し使うことが多いのではないかと思います。

 

5. 【4カ月目】機械学習の最低限の知識獲得と実践

探索的データ分析ができるようになったら、機械学習の世界に飛び込みましょう。多変量解析などの伝統的な数理モデルを含みます。2種類の機械学習を取り急ぎ学ぶといいでしょう。

  • 教師あり学習
  • 教師なし学習

教師あり学習とは、あるラベル付けられた変数(教師データ)を予測する数理モデルを学習することです。売上や顧客離反の予測することができるモデルを構築します。多変量解析で言うところの回帰分析やロジスティック回帰分析などが該当します。実務で最も利用頻度の多い、機械学習でしょう。

 

教師なし学習とは、ラベル付けされた変数(教師データ)がなく、データのパターンや変数間の関係を発見しようとするタイプの機械学習です。似たような顧客をグルーピングしたり、似たような変動をする変数を1つにまとめたりします。多変量解析で言うところのクラスター分析や因子分析などが該当します。機械学習の諸手法は、より高度な探索的データ分析でも利用されます。

 

例えば、顧客の売上データをもとに、クラスター分析(教師なし学習)を実施することで顧客をグルーピングし、各グループの特徴を洗い出すためにプロファイリング(教師あり学習)を実施する、といった探索的データ分析を実施することがあります。さらに、ここでベイズモデリングも簡単に扱えるぐらいのスキルを習得することをお勧めします。

 

6. 【5カ月目】深層学習の最低限の知識獲得と実践

機械学習の1つに深層学習(ディープラーニング)というものがあります。深層学習は、数値データだけでなく画像や音声認識、自然言語などの多様なデータに対し対応可能な機械学習です。近年、シングルモーダルなAI(深層学習)からマルチモーダルなAI(深層学習)に進化を遂げようとしています。シングルモーダルなAI(深層学習)とは、データの種類が数値データのみ、画像データのみといった形で、1種類しか対応しないAIです。

 

一方、マルチモーダルなAI(深層学習)とは、数値データ・画像データ・自然言語データ・音声データなどすべてをチャンポンしてもOKという感じのAIです。とは言え、基本はシングルモーダルなAI(深層学習)ですし、巨大なAIを創造するのではなく、身近な実務で活用するだけであれば、シングルモーダルで十分でしょう。要は、このシングルモーダルAIを実現する深層学習を習得することから始めましょう。

 

取り急ぎ、Tensorflowなどの深層学習を実施できるツールを使用してそれらを構築およびトレーニングする方法について学べば十分です。多くの場合、RやPythonからTensorflowなどの深層学習を実施できるツールを使用することができます。

 

7. 【6カ月目】ビジネス問題への適応練習

深層学習を含んだ機械学習を学んだら、身の回りの課題に対しに身に着けたスキルを適用してみましょう。幾つかやり方があります。

  • 1つ目:すでに誰かがすでに機械学習で構築したモデルと同じようなものを作ったり、より高度なものを作ったりすることです。
  • 2つ目:予測や異常検知などを実施した方がいいが、まだ誰もそのためのモデルを構築していないビジネス課題などを探し出し、一...

初心者がデータサイエンティストになるためには、データ分析講座(その310)

 

データサイエンティストや機械学習エンジニアなどの社会的需要が高まっています。社会的な需要にこたえる人財となると、最低でも実務経験を積みながら2、3年は必要でしょう。その後、センスの有無や適性の有無が明らかになってきます。とは言え、そんなに待っていられない! ということもあろうかと思います。実務経験を一旦は脇に置いておいて、人財育成するなら、どのくらいの期間が必要だろうかと考えてしまいます。考えてみると、恐らく6か月は必要ではなかろうかと感じるわけです。今回は「6ヶ月間で初心者がデータサイエンティストになるためのロードマップ例」というお話しをします。

【目次】

1. 最低限必要な基礎スキル

実務経験を一旦は脇に置いておいて、人財育成するなら、どのような知識やスキルが必要だろうかと考えてみました。例えば、以下です。

  • 1カ月目:数理統計学および線形代数の基礎固め
  • 2カ月目:プログラミング(Python、R、SQLなど)の基礎体力作り
  • 3カ月目:ツールを使用したデータ抽出や探索的データ分析
  • 4カ月目:機械学習(伝統的な多変量解析手法などを含む)の最低限の知識獲得と実践
  • 5カ月目:深層学習(主にニューラルネットワーク部分)の最低限の知識獲得と実践
  • 6カ月目:ビジネス問題への適応練習

 

2. 【1カ月目】数理統計学および線形代数の基礎固め

数理統計学(記述統計や推測統計、多変量解析など)の知識は、データサイエンスや機械学習などにとって必要不可欠です。例えば、平均や標準偏差、確率分布、仮説検定、回帰分析、因子分析などです。線形代数のベクトルや行列、固有値などの知識も非常に重要です。数理統計学と線形代数の最低限の知識がないと、探索的データ分析も機械学習も深層学習も非常に困難なものになります。

 

3. 【2カ月目】プログラミング(Python、R、SQLなど)の基礎体力作り

データサイエンスや機械学習などを実施するには、少なくとも 1つのプログラミング言語に慣れている必要があります。RかPythonのどちらか1つで十分かと思います。もちろん、両方使いこなせるのがベストです。どちらも、データサイエンスや機械学習などで利用するライブラリーが豊富だからです。忘れていけないのが1つあります。SQLです。データ操作でSQLを使うことが多々ありますので、SQLも習得した方がいいでしょう。

 

RやPython上でSQLを記述し利用することもありますし、DBeaverなどのデータベース操作ツール(SQL クライアントソフト)上でSQLを記述し利用することもあります。探索的データ分析や機械学習などで利用するデータセットを準備する上で必要となります。

 

4. 【3カ月目】ツールを使用したデータ抽出や探索的データ分析

プログラミングスキルと数理統計学および線形代数の知識が身に着けたら、次にすべきはデータ抽出や探索的データ分析です。Pythonであれば、例えばデータ操作用のNumPy、pandas、Vaex、データ可視化用のMatplotlib、seaborn、Bokeh、さらに統計解析を実施できるstatsmodelsやScikit-learnなどのライブラリーを駆使すれば十分でしょう。データ分析用のNumPy、pandas、Vaexで、データ操作や集計などを実施していきます。平均値などの統計量を求めたりもします。

 

集計結果や統計量などの数値を見るのもいいですが、それをMatplotlib、seaborn、Bokehなどで視覚化するとより探索的データ分析がより進みます。さらに、仮説検定や回帰分析、因子分析などを実施するとき、atsmodelsやScikit-learnなどのライブラリーを使うと簡単に実施できます。そもそもデータベースから必要なデータを抽出したり、複数のデータテーブルがあるときにデータテーブル同士をつなげ操作したりするときに、SQLを使います。

 

PythonやRからデータベースに接続しSQLで操作するのもいいですし、データベース操作ツール(SQL クライアントソフト)上でSQLを記述し利用するのもいいでしょう。実務的には、データベース操作ツール(SQL クライアントソフト)上でSQLを駆使しPythonやRなどで扱いやすいようにある程度加工しておいて、それをPythonやRなどから接続し、実施する分析内容に応じてPythonやR上でSQLを記述し使うことが多いのではないかと思います。

 

5. 【4カ月目】機械学習の最低限の知識獲得と実践

探索的データ分析ができるようになったら、機械学習の世界に飛び込みましょう。多変量解析などの伝統的な数理モデルを含みます。2種類の機械学習を取り急ぎ学ぶといいでしょう。

  • 教師あり学習
  • 教師なし学習

教師あり学習とは、あるラベル付けられた変数(教師データ)を予測する数理モデルを学習することです。売上や顧客離反の予測することができるモデルを構築します。多変量解析で言うところの回帰分析やロジスティック回帰分析などが該当します。実務で最も利用頻度の多い、機械学習でしょう。

 

教師なし学習とは、ラベル付けされた変数(教師データ)がなく、データのパターンや変数間の関係を発見しようとするタイプの機械学習です。似たような顧客をグルーピングしたり、似たような変動をする変数を1つにまとめたりします。多変量解析で言うところのクラスター分析や因子分析などが該当します。機械学習の諸手法は、より高度な探索的データ分析でも利用されます。

 

例えば、顧客の売上データをもとに、クラスター分析(教師なし学習)を実施することで顧客をグルーピングし、各グループの特徴を洗い出すためにプロファイリング(教師あり学習)を実施する、といった探索的データ分析を実施することがあります。さらに、ここでベイズモデリングも簡単に扱えるぐらいのスキルを習得することをお勧めします。

 

6. 【5カ月目】深層学習の最低限の知識獲得と実践

機械学習の1つに深層学習(ディープラーニング)というものがあります。深層学習は、数値データだけでなく画像や音声認識、自然言語などの多様なデータに対し対応可能な機械学習です。近年、シングルモーダルなAI(深層学習)からマルチモーダルなAI(深層学習)に進化を遂げようとしています。シングルモーダルなAI(深層学習)とは、データの種類が数値データのみ、画像データのみといった形で、1種類しか対応しないAIです。

 

一方、マルチモーダルなAI(深層学習)とは、数値データ・画像データ・自然言語データ・音声データなどすべてをチャンポンしてもOKという感じのAIです。とは言え、基本はシングルモーダルなAI(深層学習)ですし、巨大なAIを創造するのではなく、身近な実務で活用するだけであれば、シングルモーダルで十分でしょう。要は、このシングルモーダルAIを実現する深層学習を習得することから始めましょう。

 

取り急ぎ、Tensorflowなどの深層学習を実施できるツールを使用してそれらを構築およびトレーニングする方法について学べば十分です。多くの場合、RやPythonからTensorflowなどの深層学習を実施できるツールを使用することができます。

 

7. 【6カ月目】ビジネス問題への適応練習

深層学習を含んだ機械学習を学んだら、身の回りの課題に対しに身に着けたスキルを適用してみましょう。幾つかやり方があります。

  • 1つ目:すでに誰かがすでに機械学習で構築したモデルと同じようなものを作ったり、より高度なものを作ったりすることです。
  • 2つ目:予測や異常検知などを実施した方がいいが、まだ誰もそのためのモデルを構築していないビジネス課題などを探し出し、一から機械学習でモデルを構築することです。
  • 3つ目:現場などの「お困りごと」(問題)をベースに、ビジネス課題をデータサイエンスで解ける課題に昇華し、データの準備から探索データ分析、機械学習系のモデルの構築などを一から実施することです。

1つ目が最も簡単で、3つ目が最も難しいでしょう。

 

身近に1つ目に相当する題材がない場合には、Kaggleなどで公開されているデータに対しチャレンジするのがいいでしょう。

初心者がデータサイエンティストになるためには、データ分析講座(その310)

3つ目は、データをいかに現場課題の解決につなげるかというデータ活用ストーリーを描くところから始めた方がいいでしょう。

初心者がデータサイエンティストになるためには、データ分析講座(その310)

ちなみに、1つ目も2つ目のやり方も、データ活用ストーリーを描いてみてください。そうすると、どのようにデータが現場の課題解決に役立つのか見えてきます。

 

【ものづくり セミナーサーチ】 セミナー紹介:国内最大級のセミナー掲載数 〈ものづくりセミナーサーチ〉 はこちら!

 

   続きを読むには・・・


この記事の著者

高橋 威知郎

データネクロマンサー/データ分析・活用コンサルタント (埋もれたデータに花を咲かせる、データ分析界の花咲じじい。それほど年齢は重ねてないけど)

データネクロマンサー/データ分析・活用コンサルタント (埋もれたデータに花を咲かせる、データ分析界の花咲じじい。それほど年齢は重ねてないけど)


「情報マネジメント一般」の他のキーワード解説記事

もっと見る
分析結果で今までの業務のどの部分がどのように変わるのか データ分析講座(その78)

◆ 分析結果を丸投げされ困惑する現場の人々  データ分析した結果を見える化すれば何とかなるでしょうか。日販や受注件数、コンバージョン数などの指標や、...

◆ 分析結果を丸投げされ困惑する現場の人々  データ分析した結果を見える化すれば何とかなるでしょうか。日販や受注件数、コンバージョン数などの指標や、...


解釈は事実と現場の頭の中にある現場感 データ分析講座(その141)

◆ データ分析: 過去を考える  前回のデータ分析講座(その140)データ分析は必ず「アクション」まで導き出す。では次のようなお話しをしました。 ...

◆ データ分析: 過去を考える  前回のデータ分析講座(その140)データ分析は必ず「アクション」まで導き出す。では次のようなお話しをしました。 ...


テーマ設定のすれ違い データ分析講座(その239)

    データ活用の為のテーマ設定は、現場で上手くいっていないこと、現場で出来ていないことが設定されます。しかし、設定されたテ...

    データ活用の為のテーマ設定は、現場で上手くいっていないこと、現場で出来ていないことが設定されます。しかし、設定されたテ...


「情報マネジメント一般」の活用事例

もっと見る
現場のExcel依存に注意しよう

 マイクロソフトの「Excel」は企業の業務遂行にとって欠かせないツールになりました。数字の集計、グラフの作成にとどまらず、作業伝票の発行、作業の管理、資...

 マイクロソフトの「Excel」は企業の業務遂行にとって欠かせないツールになりました。数字の集計、グラフの作成にとどまらず、作業伝票の発行、作業の管理、資...


電子メール、簡潔過ぎると逆効果

◆電子メール:多忙な人に確実な返信をもらうテクニック  皆様は仕事で電子メールを一日に何通受信しますか、企業の従業員数、所属部署、職務、職位などでも...

◆電子メール:多忙な人に確実な返信をもらうテクニック  皆様は仕事で電子メールを一日に何通受信しますか、企業の従業員数、所属部署、職務、職位などでも...


‐社内の問題克服による開発活動‐  製品・技術開発力強化策の事例(その14)

 前回の事例その13に続いて解説します。社内における様々な問題を高いレベルで深く追及して解決することが、競争力のある技術を育成し、売れる製品を生み出す事に...

 前回の事例その13に続いて解説します。社内における様々な問題を高いレベルで深く追及して解決することが、競争力のある技術を育成し、売れる製品を生み出す事に...