機械学習のためのデータ前処理技術とノウハウ
開催日 | 10:30 ~ 16:30 |
---|---|
主催者 | 株式会社 技術情報協会 |
キーワード | 情報技術一般 機械学習・ディープラーニング AI(人工知能) |
開催エリア | 全国 |
開催場所 | Zoomを利用したLive配信またはアーカイブ配信※会場での講義は行いません。 |
★未整理の実用的なデータで学ぶ前処理のポイント!★思ったようなデータが入手できない、学習が上手くいかない時の秘策とは!
日時
【Live配信】2024年12月11日(水)10:30~16:30【アーカイブ(録画)配信】 2024年12月20日まで受付(視聴期間:12月20日~1月10日まで)
セミナー講師
徳島大学 大学院社会産業理工学研究部 准教授 松本 和幸氏
セミナー受講料
1名につき 55,000円(消費税込、資料付)〔1社2名以上同時申込の場合のみ1名につき49,500円〕
受講について
■ Live配信セミナーの視聴環境について
- 本講座はZoomを利用したLive配信セミナーです。セミナー会場での受講はできません。
- 下記リンクから視聴環境を確認の上、お申し込みください。 → https://zoom.us/test
- 開催日が近くなりましたら、視聴用のURLとパスワードをメールにてご連絡申し上げます。
- セミナー開催日時に、視聴サイトにログインしていただき、ご視聴ください。
- Zoomクライアントは最新版にアップデートして使用してください。
- Webブラウザから視聴する場合は、Google Chrome、Firefox、Microsoft Edgeをご利用ください。
- パソコンの他にタブレット、スマートフォンでも視聴できます。
- セミナー資料はお申込み時にお知らせいただいた住所へお送りいたします。お申込みが直前の場合には、開催日までに資料の到着が間に合わないことがあります。ご了承ください。
- 当日は講師への質問をすることができます。可能な範囲で個別質問にも対応いたします。
- 本講座で使用される資料や配信動画は著作物であり、録音・録画・複写・転載・配布・上映・販売等を禁止いたします。
- 本講座はお申し込みいただいた方のみ受講いただけます。
- 複数端末から同時に視聴することや複数人での視聴は禁止いたします。
- Zoomのグループにパスワードを設定しています。
- 部外者の参加を防ぐため、パスワードを外部に漏洩しないでください。万が一部外者が侵入した場合は管理者側で部外者の退出あるいはセミナーを終了いたします。
■Live配信・アーカイブ配信セミナーの受講について
- 開催前日または配信開始日までに視聴用のURLとパスワードをメールにてご連絡申し上げます。セミナー開催日時またはアーカイブ配信開始日に、視聴サイトにログインしていただき、ご視聴ください。
- 出席確認のため、視聴サイトへのログインの際にお名前、ご所属、メールアドレスをご入力ください。ご入力いただいた情報は他の受講者には表示されません。
- 開催前日または配信開始日までに、製本したセミナー資料をお申込み時にお知らせいただいた住所へお送りいたします。お申込みが直前の場合には、開催日または配信開始日までに資料の到着が間に合わないことがあります。
- 本講座で使用される資料や配信動画は著作物であり、録音・録画・複写・転載・配布・上映・販売等を禁止いたします。
- 本講座はお申し込みいただいた方のみ受講いただけます。
- 複数端末から同時に視聴することや複数人での視聴は禁止いたします。
- アーカイブ配信セミナーの視聴期間は延長しませんので、視聴期間内にご視聴ください。
セミナー趣旨
本セミナーでは,データ分析や人工知能の開発において欠かせないデータの前処理技術についてレクチャーし,実演を交えて解説します。Google Colab環境用に準備されているサンプルコードを使って実データを対象に前処理し,機械学習してみることで,実践的な技術を習得していただくことがねらいです。実際,市販の教科書を片手にGoogle Colabにあらかじめインストール済みの各種ライブラリ(数値計算,機械学習,深層学習フレームワーク)を使って,どなたでも簡単にデータサイエンスやAIの初歩を体験することができます。しかし,そうした初歩的なサンプルコードの多くが理想的なデータ形式であったり,整理されたデータを対象としているため,実務において目の前にした未整理のデータの前処理に挫折してしまう方も多いと聞きます。このようにサンプルデータと実務で直面する生データとのギャップに戸惑うことは少なくありません。このセミナーでは,とにかく手っ取り早く手を動かしながら実用的なデータ前処理のコツをつかみたい人には最適です。困ったときにそのまま使える便利で実用的な前処理用サンプルコードを提供します。また,講師のこれまでの研究や実務の経験から,有用なデータの収集方法のコツ,思ったようなデータが入手できないときの秘策,学習が上手くいかないときのチューニングのノウハウなども伝授します。
セミナープログラム
1.準備 1.1 Google Colabを使ったPython実行環境 1.2 便利なライブラリ群 1.2.1 NumPy, pandas 1.2.2 scikit-learn 1.2.3 matplotlib 1.2.4 Tensorflow, Keras
2.基本的な前処理テクニック 2.1 標準化,正規化,ビニング 2.2 外れ値と欠損値の扱い 2.2.1 四分位範囲による外れ値除去 2.2.2 外れ値に頑健な標準化法 2.2.3 単一代入法による欠損値の補完 2.2.4 多重代入法による欠損値の補完 2.3 特徴選択手法 2.3.1 フィルタ法(カイ二乗検定,ANOVA,ピアソン積率相関係数) 2.3.2 ラッパ法(RFE,Boruta) 2.3.3 正則化(リッジ回帰,LASSO回帰,弾性回帰ネット) 2.4 次元削減手法 2.4.1 PCA 2.4.2 NMF 2.4.3 UMAP 2.4.4 その他の次元削減
3.高度な前処理テクニック 3.1 カテゴリカルデータの数値データへの変換 3.1.1 one-hotエンコーディング 3.2.2 ラベルエンコーディングとその他のエンコーディング法 3.2.3 特徴量ハッシング 3.2.4 カテゴリ変数の分散表現(エンティティ埋め込み) 3.2 不均衡データに対するリサンプリング法 3.2.1 アンダーサンプリング(ENN, NearMiss, TomekLinks, etc.) 3.2.2 オーバーサンプリング(SMOTE, ADASYN, BorderlineSMOTE, etc.) 3.3 時系列データに対する前処理 3.3.1 窓付き統計値 3.3.2 タイムゾーンの変換 3.3.3 時系列データの補完
4.テキストデータの前処理テクニック 4.1 テキスト抽出と分かち書き・形態素解析 4.2 単語分散表現とトピックモデリング 4.2.1 Word2Vec 4.2.2 fastText 4.2.3 潜在的ディリクレ配分法 (LDA) 4.2.4 その他のトピック分布 4.3 ニューラルネットワークを用いたテキスト分類 4.3.1 畳み込みニューラルネットワークによる分類 4.3.2 BERTのファインチューニングによる分類 4.3.3 テキストデータの拡張方法 4.4 大規模言語モデル 4.4.1 言語モデルのファインチューニング 4.4.2 言語モデルの軽量化 4.4.3 言語モデルの説明可能性
5.まとめ 5.1 演習問題 5.2 もっと詳しく学びたい方へ
【質疑応答】