
自然言語処理、大規模言語モデルの活用による専門知識・データ収集への対応と化学および材料開発への応用の可能性
自然言語処理、大規模言語モデルの活用による専門知識・データ収集への対応と化学および材料開発への応用の可能性について解説!
■本講座の注目ポイント
★材料科学分野における言語処理の応用、大規模言語モデルを活用した専門分野におけるQAシステムの開発、ゼロベースで機械学習などを社内展開するために不可欠な研究データの記録や活用について解説!
セミナー趣旨
■本セミナーの主題および状況(講師より)
★ビッグデータ、AI、機械学習などといった情報処理技術の進展によりマテリアルズインフォマティクス(MI)という形で膨大な数の実験や論文を解析して材料の製造方法を予測することで材料開発の効率を向上させる取り組みが活発化しております。
★自然言語処理や大規模言語モデル(LLM)による報告書からのデータ抽出が実用化に近づいておりますが、Excel方眼紙のような自由なフォーマットからの抽出は正確ではありません。
■注目ポイント
★自然言語処理技術の種類による活用法の違い、材料関連分野の文書の種類による言語処理技術活用の違いとは!?
★大規模言語モデルを活用した専門分野におけるQAシステムの開発とファクトチェックの仕組みを紹介!
★データ活用で先行する製薬研究を参考にゼロベースで機械学習などを社内展開するために不可欠な研究データの記録や活用について説明!
セミナープログラム
【第1講】 材料科学分野における言語処理の応用展望:マテリアルズインフォマティクスの一部として
【時間】 13:00-14:15
【講師】物質・材料研究機構/MatQ-lab(個人事業主) NIMS特別研究員 / 個人事業主 吉武 道子 氏
【講演主旨】
以下のような事柄について、概要を理解していただき、自社で展開する際の参考にしていただく。
材料科学分野で自然言語処理技術を利用してどのようなことができるのか、やりたいことを実現するのにどの種類の技術を用いればよいのか、市販ツールがどのような技術を用いているのか、市販ツールを自社カスタマイズする発注の際に言語モデル的に注意すべき点、今後どのようなことができるようになると期待されるか。
【プログラム】
1.概観
1.1 マテリアルズインフォマティクス
物性値、分子構造、結晶構造、化学構造式、物性名、数式、自然言語
1.2 対象とする文書の種類と特徴
論文、特許、書籍、安全・規制に関わる法的文書、社内文書
1.3 求められる処理の種類と特徴
文書分類、検索(目的文書の抽出)、情報の抽出(文中の特定情報の抽出)
2.言語処理の種類と活用
2.1 統計処理ベース(深層学習を含む)
・TF-IDE、N-gramなど
・単語ベクトル:Word2Vec、Doc2Vec
・BERT:pre-trainingとfine-tuning
・ChatGPTなどの大規模言語生成モデル
2.2 文法ベース
・品詞解析
・構文解析/照応解析
2.3 材料関連分野に特化したモデル
a)様々なモデル
Word2Vec系:Mat2Vec
BERT系:SciBERT、BioBERT、BatteryBERT、MatSciBERT、MatBERT、MaterialBERT
b)モデル利用時の注意点
学習データ、単語辞書、モデル計算(初めからor代入)、学習条件、検証のデータ
c)言語生成AI時代のモデル評価指標
2.4 ChatGPTなどを自社知識や業界知識と組み合わせる
a) RAG(Retrieval-Augmented Generation):検索拡張生成
b) 知識グラフの利用
3.マルチモーダル化
画像などテキストとは種類の異なるデータとテキスト(自然言語)のデータとの組み合わせ
【質疑応答】
【キーワード】
文書の種類・目的別処理、材料特化型モデル、言語生成AIの自社知識適応
【講演のポイント】
最先端の大規模言語モデルの基礎となる様々な技術には、目的によってはそれぞれの技術単体あるいは組み合わせが文書処理に有効な場合がある。時と場合に応じて、材料科学へ応用するのにどの言語処理技術を用いたらよいかがわかる。
【習得できる知識】
・自然言語処理技術の種類による活用法の違い
・材料関連分野の文書の種類による言語処理技術活用の違い
・統計処理(深層学習を含む)言語処理の特徴と活用における注意点
・文法をベースにした言語処理の特徴と活用
・言語生成AIの発展形
【第2講】 大規模言語モデルを活用した専門分野におけるQAシステムの開発とファクトチェックの仕組み(仮題)
【時間】 14:25-15:40
【講師】株式会社TDAI Lab 代表取締役社長 福馬 智生 氏
【講演主旨】
※現在、講師の先生に最新のご講演主旨をご考案いただいております。完成次第、本ページを更新いたします。
【プログラム】
はじめに
1. 背景知識
1.1 どうやって言葉を覚えた?
1.2 さらにAIは進化する
2. 専門知識・最新知識への対応
2.1 知識の外挿
2.1.1 コンテキストを用いた応答の例
3. コンテキスト長さの限界
3.1 再帰的要約(Recursive Summarization)
3.2 検索との組み合わせ
3.3 ツールの紹介
4. ファクトチェック
4.1 Hallucination
4.2 ファクトチェックの仕組み
おわりに
【質疑応答】
【第3講】 自然言語処理、大規模言語モデルによる活用可能なデータの収集に向けた課題と商用パッケージソフトを活用したインフォマティクス基盤構築
【時間】 15:50-17:05
【講師】シュレーディンガー株式会社 エンタープライズ・インフォマティクス部 / ストラテジック・デプロイメント兼ビジネス開発マネージャー 石崎 貴志 氏
【講演主旨】
材料研究では、月報や報告書への文書としての記録が中心で、活用を前提としたデータの記録や蓄積、特に失敗データの記録は少ない。近年、自然言語処理やLLMによる報告書からのデータ抽出が実用化に近づいているが、Excel方眼紙のような自由なフォーマットからの抽出は正確ではない。本講演では、データ活用で先行する製薬研究を参考に、データ記録・蓄積、データ加工、付加価値計算、幅広いユーザによる活用を可能にする仕組みについて解説する。
【プログラム】
1.マテリアルズ・インフォマティクスの現在地
1.1 MI向けソフトウェアの歴史
1.2 企業研究における一般的なMIの課題
1.3 データ駆動型研究
2.データの記録
2.1 登録システム(付番管理)
2.2 電子実験ノート/ELN
2.3 アッセイデータ管理システム
3.データの活用
3.1 研究で生じるデータの種類
3.2 Pythonなどによるデータ処理
3.3 データ計算システム
4.データ駆動型研究の実現のために
4.1 商用パッケージソフトか自社開発か
4.2 製薬研究で使うソフト
4.3 ソフトウェアベンダーの事情
【質疑応答】
【キーワード】
マテリアルズ・インフォマティクス、データ駆動型研究、電子実験ノート、機械学習、データの利活用、研究DX、社内開発
【講演のポイント】
ゼロベースで機械学習などを社内展開するために不可欠な、研究データの記録や活用について、先行する製薬会社での例を説明する。またパッケージソフトを使うメリット・デメリットについて知ることで、自社に適した手段を選択できるようになる。
【習得できる知識】
・研究データの記録のベストプラクティス
・電子実験ノートの概要
・研究データの活用方法
・パッケージソフト導入と自社開発の利点・欠点
セミナー講師
第1部 物質・材料研究機構/MatQ-lab(個人事業主)NIMS特別研究員 / 個人事業主 吉武 道子 氏
第2部 株式会社TDAI Lab 代表取締役社長 福馬 智生 氏
第3部 シュレーディンガー株式会社 エンタープライズ・インフォマティクス部 / ストラテジック・デプロイメント兼ビジネス開発マネージャー 石崎 貴志 氏
セミナー受講料
【1名の場合】49,500円(税込、テキスト費用を含む)
2名以上は一人につき、16,500円が加算されます。
受講料
49,500円(税込)/人