音声は誰かに学ぶものではなく、自然と身につきます。そして、その音声をインターフェースにしたデバイスは誰もが自然に使用できるということです。今回は、VUI(Voice User Interface)の概要を解説します。
1. VUI(Voice User Interface)とは?
機械学習は、人工知能における研究課題の一つで、人間が自然に行っている学習能力と同様の機能をコンピュータで実現しようとするものです。大量のデータを集め従来にない知見を見出すビッグデータの時代では、特にその応用に期待が集まっていますが、音声認識を利用したVUIの分野でも用いられています。
ディープラーニングは、機械学習の手法の一つで、第三次人工知能のブームの牽引車となっています。ディープラーニングの導入により音声認識の認識率が格段に上がっています。しかし、ディープラーニングは、統計学や従来の機械学習の基盤のうえに成り立つ技術であるので、ディープラーニングのみを学習・利用すれば音声認識が事足りるというものではありません。
VUIとは、ユーザーが音声コマンドでテクノロジーを操作できるようにする音声認識によるテクノロジーです。キーボードはテキスト作業には有効ですが、検索、操作性の調整、道順の確認などの簡単な作業では、人はむしろ話すことを望みます。例えば、VUIでは住所入力などの、多くのステップを省くことができますが、一方で完璧にVUIが機能しなければなりません。
ユーザーインターフェースの歴史では、コマンドレベルで命令していたキャラクターユーザーインターフェース:CUIからマウスなどをつかって直接オブジェクトを操作するグラフィカルインターフェース:GUI、そして続くのがVUI(Voice User Interface)です。
スマートフォン特にタッチパネル制御が主流になったことでさらに便利に入力する技術としてVUIを加速させさらにIoTの増加、プロセッサの小型化、またノイズキャンセル技術も追加されたことでVUIへの流れはとまらないくらいに加速し、検索の50%以上が音声によるものと推定されています。このような背景からVUIの分野へ、GAFAMはいずれも多額の投資を行っています。VUIの要となる技術は音声認識で、今やVUIは身近に体験できますので、カーナビや Google 検索で知られた技術です。iPhone には、有名な音声アシスト機能「Siri」が搭載されています。電話・スケジュール登録を音声で行う事が出来、家電も声で反応するものも増えてきました。
2.VUIの情報処理、その仕組みとは
人間が約39ビット/secの音声情報を処理することができるため、VUIは可能な限り高速に情報を処理しなければなりません。VUI設計者は情報処理のためにAIを利用しますが、時計回りやレコードをかけるなどの表現は、若年者には意味をなさないのです。また、ユーザーは、ゆっくりな話し方を要求されると焦ってしまいます。沢山の時間をかけて会話に慣れ、その結果に基づいてVUIを構築することが大切で、情報処理を効率化するために、発話、コマンドに関して豊富なライブラリを準備します。
3.VUIの活用
どんな状況でも音声操作の可能性はありますが、それでもすべてが音声操作に対応すべきとは限りません。VUIでユーザーの生活がより快適になることを検討することから、VUIの設計は始まります。例えば、屋外で一般の人が使用するデバイスでは、環境的なノイズの問題が多すぎます。また、機密情報・個人情報を扱うときには、VUIの利用は避け...