川本 真一, 下平 博, 新田 恒雄, 西本 卓也, 中村 哲, 伊藤 克亘, 森島 繁生, 四倉 達夫, 甲斐 充彦, 李晃伸, 山下 洋一, 小林 隆夫, 徳田 恵一, 広瀬 啓吉, 峯松 信明, 山田 篤, 伝 康晴, 宇津呂 武仁, 嵯峨山 茂樹
情報処理学会論文誌 43(7) 2249-2263 2002年7月15日
本論文では,擬人化音声対話エージェントを将来のヒューマンインタフェースの重要な技術要素として位置づけ,研究開発の共通プラットフォームとなりうる高いカスタマイズ可能性を備えたソフトウェアツールキットの実現を目指し,それに必要な要素とその実現技術について論じる.今後のヒューマンインタフェース技術において,コンピュータがあたかも一個の人間として振る舞い,人間の顔や姿を持ち,ユーザと音声言語で対話するようにすることは,大きな目標の1つである.このような研究開発を進めるにあたっては,多分野の協力が必要であり,研究成果を集積していくための共通プラットフォームが必要である.それには,音声認識,音声合成,画像合成,対話制御などの基本モジュールと,それらを統合制御する仕組みが必要である.さらに,個性の表現や広い応用などのためには,各モジュールは高い基本機能のみならずカスタマイズ可能性が重要である.このため,筆者らは,顔画像が容易に交換可能で,音声合成が話者適応可能で,対話制御の記述変更が容易で,さらにこれらの機能モジュール自体を別のモジュールに差し替えることが容易であるなどの特徴を持つ擬人化音声対話エージェントシステムを構想し,実装した.いくつかの簡単な対話タスクについてエージェントを試作し,必要な機能に関する達成度を確認した.This paper discusses the design and architecture of a software toolkitfor building an easily customizable anthropomorphic spoken dialogagent (ASDA). Human-like spoken dialogue agent is one of the promisingman-machine interface for the next generation. Simply combining,however, the existing software modules for speech recognition, speechsynthesis, face-animation synthesis and dialogue control do not leadto a satisfying agent system as might be expected. ASDA requires moresophisticated functions of the modules than those when the modules areused independently, as well as the integration mechanism. Anotherproblem with ASDA was that it required great customization effortfor any user-system interaction task.Therefore,developing an easy-to-customize software platform for ASDA is quitemeaningful, though it is still a great challenge in both research anddevelopment aspects. This paper discusses basic and essentialrequirements for ASDA systems, and software modules forthe system are designed to fulfill the requirements. Using this software toolkit,A prototype agent system has been developed on a UNIX-based system using thissoftware toolkit.Finally, we discuss current achievements of the toolkit.