【中止】Pythonによる実務に役立つデータサイエンス・AIのためのデータ前処理

 ☆Google Colabで動作するサンプルコードによる演習

※オンライン会議アプリZoomを使ったWEBセミナーです。ご自宅や職場のノートPCで受講できます。

 【アーカイブ配信(期間:9/13~9/24)】での受講もお選びいただけます。

セミナー趣旨

 本セミナーでは、データサイエンスや人工知能のためのデータ分析において欠かせないデータの前処理技術についてレクチャー、実演をメインに行います。自らGoogle Colab環境上でサンプルコードを動かすことで実践的な前処理技術を習得することが目標です。Google Colab上にはじめからインストールされている数値計算、機械学習ライブラリ、深層学習フレームワークは、大変便利で実用的です。しかし、市販の参考書を片手に整理整頓された教科書的なデータを分析するだけでデータサイエンスやAIを理解した気になっていると、実際の業務において、一筋縄ではいかないデータに直面した時、何をどうしてよいのかわからずに思考停止に陥るのではないでしょうか。
 データサイエンスやAIを一から学びたい人、仕事で使用するためにとにかく手っ取り早く手を動かしながらコツをつかみたい人、ご心配はご無用です。このセミナーでは、困ったときに参考になる実用的な前処理用のサンプルコードを豊富に準備しています。また、講師の研究経験から、データ前処理だけでなく有用なデータ収集の困難さやその極意<上手くいかないときのチューニングのノウハウなども伝授したいと思います。

受講対象・レベル

・データサイエンスやAIを一から学びたい方
・Pythonを使いこなすために勉強を始めた方
・すでにPythonを使ってデータ分析をされている方、など

習得できる知識

・Google Colabを用いて実用的かつ効率的なデータ分析を行う知識
・Pythonを使った基本的なデータの前処理知識
・数値,テキストなどに対する前処理の知識
・ファインチューニングやデータ拡張,大規模言語モデルなど最近のAIでは常識になっている技術に関する知識

セミナープログラム

0.序章「AI・機械学習における前処理」 

1.準備
 1-1. Google ColabによるPython実行環境と便利な使い方
 1-2. 便利なライブラリ
  1-2-1. NumPy, pandas による数値データの処理
  1-2-2. scikit-learnを用いた簡単な機械学習
  1-2-3. matplotlibによる可視化の基本
  1-2-4. Tensorflow, Keras を用いた深層学習の基本

2.基本的な前処理
 2-1. 標準化と正規化,ビニング
 2-2. 外れ値や欠損値への対処法
  2-2-1. 四分位範囲による外れ値除去
  2-2-2. 外れ値に頑健な標準化法
  2-2-3. 単一代入法による欠損値の補完
  2-2-4. 多重代入法による欠損値の補完
 2-3. 特徴選択手法
  2-3-1. フィルタ法(カイ二乗検定,ANOVA,ピアソン積率相関係数)
  2-3-2. ラッパ法(RFE,Boruta)
  2-3-3. 正則化(リッジ回帰,LASSO回帰,弾性回帰ネット)
 2-4. 次元削減と可視化
  2-4-1. PCA
  2-4-2. NMF
  2-4-3. UMAP
  2-4-4. その他の次元削減

3.高度な前処理
 3-1. カテゴリカルデータから数値データへの変換
  3-1-1. one-hotエンコーディング
  3-2-2. ラベルエンコーディングとその他のエンコーディング法
  3-2-3. 特徴量ハッシング
  3-2-4. カテゴリ変数の分散表現(エンティティ埋め込み)
 3-2. アンバランスなデータへの対処法
  3-2-1. アンダーサンプリング(ENN, NearMiss, TomekLinks, etc.)
  3-2-2. オーバーサンプリング(SMOTE, ADASYN, BorderlineSMOTE, etc.)
 3-3. 時系列データ処理の基本
  3-3-1. 窓付き統計値
  3-3-2. タイムゾーンの変換
  3-3-3. 時系列データの補完
 
4.テキストデータの前処理
 4-1. テキスト抽出,分かち書きと形態素解析
 4-2. 単語分散表現,トピックモデリング
 4-3. ニューラルネットワークによる文書分類
  4-3-1. 畳み込みニューラルネットワーク
  4-3-1. BERTのファインチューニング
  4-3-2. テキストデータの拡張方法
 4-5. 大規模言語モデルとその周辺
  4-5-1. 言語モデルのファインチューニング
  4-5-2. 言語モデルの軽量化
  4-5-3. 言語モデルの説明可能性

5.まとめ
 5-1. 演習問題
 5-2. もっと詳しく学びたい人へ

【質疑応答】


キーワード:
Python,人工知能,機械学習,ディープラーニング,データ,前処理,研修,講座,セミナー

セミナー講師

徳島大学 大学院 社会産業理工学研究部 准教授 博士(工学) 松本 和幸 氏

≪専門≫
 感性情報処理,自然言語処理

≪略歴≫
 2008年徳島大学大学院工学研究科博士後期課程修了.博士(工学).2009年10月徳島大学大学院ソシオテクノサイエンス研究部助教.2017年4月より徳島大学大学院社会産業理工学研究部助教,2020年4月より准教授.現在に至る.
感情計算,自然言語処理,感性ロボティクス,ビッグデータ解析,医療や介護福祉におけるテキストマイニング,マルチモーダル感情推定に基づくストレス自動検出システム,生活習慣病注意喚起システムの研究に従事.情報処理学会,電子情報通信学会,言語処理学会,電気学会,人工知能学会,日本感性工学会,ヒューマンインタフェース学会,ITヘルスケア学会などの会員.

セミナー受講料

55,000円(税込、資料付)
■ セミナー主催者からの会員登録をしていただいた場合、1名で申込の場合44,000円、
  2名同時申込の場合計55,000円(2人目無料:1名あたり27,500円)で受講できます。
(セミナーのお申し込みと同時に会員登録をさせていただきますので、
   今回の受講料から会員価格を適用いたします。)
※ 会員登録とは
  ご登録いただきますと、セミナーや書籍などの商品をご案内させていただきます。
  すべて無料で年会費・更新料・登録費は一切かかりません。
  メールまたは郵送でのご案内となります。
  郵送での案内をご希望の方は、備考欄に【郵送案内希望】とご記入ください。

受講について

Zoomを使ったWEB配信セミナー受講の手順

  1. Zoomを使用されたことがない方は、こちらからミーティング用Zoomクライアントをダウンロードしてください。ダウンロードできない方はブラウザ版でも受講可能です。
  2. セミナー前日までに必ず動作確認をお願いします。
  3. 開催日直前にWEBセミナーへの招待メールをお送りいたします。当日のセミナー開始10分前までに招待メールに記載されている視聴用URLよりWEB配信セミナーにご参加ください。
  • セミナー資料は開催前日までにお送りいたします。
  • アーカイブの場合は、配信開始日以降に、セミナー資料と動画のURLをメールでお送りします。
  • 無断転載、二次利用や講義の録音、録画などの行為を固く禁じます。

※セミナーに申し込むにはものづくりドットコム会員登録が必要です

開催日時


10:30

受講料

55,000円(税込)/人

※本文中に提示された主催者の割引は申込後に適用されます

※銀行振込

開催場所

全国

主催者

キーワード

情報技術一般   AI(人工知能)   機械学習・ディープラーニング

※セミナーに申し込むにはものづくりドットコム会員登録が必要です

開催日時


10:30

受講料

55,000円(税込)/人

※本文中に提示された主催者の割引は申込後に適用されます

※銀行振込

開催場所

全国

主催者

キーワード

情報技術一般   AI(人工知能)   機械学習・ディープラーニング

関連記事

もっと見る