逆強化学習・模倣学習の基礎と応用
開催日 |
10:30 ~ 16:30 締めきりました |
---|---|
主催者 | 株式会社トリケップス |
キーワード | 機械学習・ディープラーニング AI(人工知能) 情報技術 |
開催エリア | 全国 |
開催場所 | お好きな場所で受講が可能 |
逆強化学習の適用例や最近の事例についてもお話しします!
セミナー講師
下坂 正倫(しもさか まさみち) 氏
東京工業大学 情報理工学院 情報工学系 准教授(博士(情報理工学))
セミナー受講料
お1人様受講の場合 51,700円[税込]/1名
1口でお申込の場合 62,700円[税込]/1口(3名まで受講可能)
受講申込ページで2~3名を同時に申し込んだ場合、自動的に1口申し込みと致します。
受講について
- 本セミナーの受講にあたっての推奨環境は「Zoom」に依存しますので、ご自分の環境が対応しているか、お申込み前にZoomのテストミーティング(http://zoom.us/test)にアクセスできることをご確認下さい。
- インターネット経由でのライブ中継ため、回線状態などにより、画像や音声が乱れる場合があります。講義の中断、さらには、再接続後の再開もありますが、予めご了承ください。
- 受講中の録音・撮影等は固くお断りいたします。
セミナープログラム
1 逆強化学習の位置づけ・機械学習の基礎
1.1 逆強化学習と機械学習・最適制御の関係
*強化学習は制御と関連が強い
*逆強化学習と強化学習(最適制御)と何が違う?
1.2 機械学習の基礎のおさらい
*生成的 / 識別的
*経験リスク最小化
*様々な損失
*2クラス分類 / 他クラス分類 / 系列ラベル分類
…構造的なデータに対しても「識別」は定義できる ⇒ 逆強化学習ではどうやって解く?
2 逆強化学習の定式化・解法
2.1 強化学習の基礎:マルコフ決定過程、ベルマン方程式
*動的システム
*マルコフ性
*マルコフ決定過程 / 報酬関数
*価値関数 / ベルマン方程式
2.2 逆強化学習の定式化とアルゴリズム
*報酬期待値の最大化
*損失関数の設定
*最大エントロピー逆強化学習
*周辺分布の獲得前向き・後ろ向き計算
2.3 逆強化学習を適用しようとすると起きる問題は??
3 逆強化学習の適用例・最近の事例
3.1 海外での適用事例、下坂研究室での事例
*(簡易版)車線変更
*経路選択
*Zone 30マルコフの加減速モデリング
3.2 連続・高次元化に向けた方向性、深層学習との融合
*関数近似の利用、離散化の工夫
*連続空間上のIRL:分配関数(積分計算)の近似がポイント
*この分野も深層NN、さらにはGANの導入が始まってきている