Vision Transformerの仕組みとBEV Perception
開催日 | 10:30 ~ 16:30 |
---|---|
主催者 | 株式会社トリケップス |
キーワード | ソフトウェア開発 機械学習・ディープラーニング AI(人工知能) |
開催エリア | 全国 |
開催場所 | Zoomを利用したオンライン講座 |
~物体検出、自己教師あり学習、BEV Perception等のコンピュータビジョン最前線~
セミナー講師
藤吉弘亘(ふじよしひろのぶ)氏中部大学 工学部 情報科学科 / 大学院 工学研究科 情報工学専攻 教授(博士(工学))
<略歴> 1997年 中部大学大学院 博士後期課程了 1997〜2000年 米国カーネギーメロン大学 ロボット工学研究所 Postdoctoral Fellow 2000年 中部大学 講師 2004年 中部大学 准教授 2005〜2006年 米国カーネギーメロン大学 ロボット工学研究所 客員研究員 2010年 中部大学 教授 2014年 名古屋大学 客員教授 現在に至る <学会> 電子情報通信学会、情報処理学会、ロボット学会、IEEE <主な受賞> ロボカップ研究賞(2005年) 情報処理学会論文誌CVIM優秀論文賞(2009年) 情報処理学会山下記念研究賞(2009年) 画像センシングシンポジウム優秀学術賞(2010, 2013, 2014年) 電子情報通信学会 情報・システムソサイエティ論文賞(2013年) <研究> 計算機視覚、動画像処理、パターン認識・理解の研究に従事
セミナー受講料
お1人様受講の場合 53,900円[税込]/1名1口でお申込の場合 66,000円[税込]/1口(3名まで受講可能)受講申込ページで2~3名を同時に申し込んだ場合、自動的に1口申し込みと致します。
受講について
- 本セミナーの受講にあたっての推奨環境は「Zoom」に依存しますので、ご自分の環境が対応しているか、お申込み前にZoomのテストミーティング(http://zoom.us/test)にアクセスできることをご確認下さい。
- インターネット経由でのライブ中継ため、回線状態などにより、画像や音声が乱れる場合があります。講義の中断、さらには、再接続後の再開もありますが、予めご了承ください。
- 受講中の録音・撮影等は固くお断りいたします。
セミナー趣旨
自己注意機構を活用したニューラルネットワークであるTransformerは、機械翻訳タスクでSoTAを達成し実用化を加速させている。このTransformerをコンピュータビジョンタスクに適用したモデルがVision Transformerであり、2019年以降、急速に応用と改良が加えられている。Vision Transformerは、CNNとは異なる新たな特徴表現獲得が可能となり、テクスチャノイズに対してロバストな認識が可能となっている。本セミナーではVision Transformerについて従来の手法と対比しながらその仕組みと特長について解説し、コンピュータビジョン応用として物体検出、セマンティックセグメンテーション、自己教師あり学習について紹介する。また、自動運転技術に欠かせないTransformerベースのBEV Perceptionの最前線についても紹介する。
セミナープログラム
1 再帰型ニューラルネットワークの仕組み 1.1 再帰型ニューラルネットワーク(RNN) 1.2 LSTM 1.3 Seq2seq、Attention Seq2seq 2 Transformerの仕組み 2.1 Transformer 2.2 大規模言語モデル 3 Vision Transformerの仕組み 3.1 特徴表現獲得の変遷 3.2 VIsion Transformer(ViT) 3.3 ViTによる画像認識 3.4 ViTによる特徴表現獲得 3.5 ViTベースの物体検出、セマンティックセグメンテーション 3.6 ViTの自己教師あり学習 4 ViTの最新動向 4.1 ViTの派生手法(Swin Transformer、ConvNeXtなど) 4.2 ViTの派生手法の傾向 5 TransformerによるBEV Perception 5.1 Bird’s-Eye-View(BEV)空間 5.2 BEVベースの3D物体検出:BEVFormer, BeVerse 5.3 BEVベースの自動運転:UniAD