研究者業績

堀内 靖雄

ホリウチ ヤスオ  (Yasuo Horiuchi)

基本情報

所属
千葉大学 大学院情報学研究院 准教授
学位
博士(工学)(1995年3月 東京工業大学)

J-GLOBAL ID
200901021029331583
researchmap会員ID
1000191929

主要な論文

 22

MISC

 559
  • 電子情報通信学会技術研究報告. WIT, 福祉情報工学 105(66) 57-62 2005年  
  • 電子情報通信学会技術研究報告. WIT, 福祉情報工学 105(66) 51-56 2005年  
  • 電子情報通信学会技術研究報告. WIT, 福祉情報工学 105(66) 45-50 2005年  
  • 電子情報通信学会技術研究報告. WIT, 福祉情報工学 105(67) 19-24 2005年  
  • 電子情報通信学会技術研究報告. WIT, 福祉情報工学 105(186) 1-6 2005年  
  • 西田昌史, 堀内靖雄, 市川あきら
    人工知能学会全国大会論文集(CD-ROM) 19th 3F2-04-286 2005年  
    本研究では,強化学習により環境に適応し,オンラインで適応モデルをクラスタリングする音声認識手法を提案する.本手法は,最適なモデルを選択し環境に即座に適応できる.雑音環境下における音声認識実験を行い,本手法の有効性を示す.
  • 西田 昌史, 寺師 弘将, 堀内 靖雄, 市川 熹
    情報処理学会研究報告音声言語情報処理(SLP) 2004(131) 307-312 2004年12月22日  
    本研究では、これまで我々が提案した次発話の予測情報を利用した音声認識手法に基づく音声対話システムを構築した.本システムは,予測に基づく認識と大語彙に基づく認識を並列で実行し,得られた認識尤度を比較することで予測の成否判定を行い,その結果に基づき発話状態に応じた対話制御を行う.さらに,認識尤度の比較だけでなく予測と大語彙に基づく認識結果に対する信頼度を併用することで,余計な確認応答を省いた円滑な対話制御手法を提案する.道案内を行う音声対話システムにこれらの手法を適用し評価実験を行った結果,音声認識率が92.3%,予測成否の正解率が97%と高い結果を得ることができ,発話予測を利用した音声認識手法が有効であることがわかった.また,予測成否判定と認識結果の信頼度を併用することで余計な確認応答を省き,より少ない発話ターン数でのタスク達成を実現することができた.We have already proposed a speech recognition method using prediction for spontaneous speech. In this study, we construct a spoken dialogue system based on the proposed method. The system performs the speech recognition using prediction and large vocabulary continuous speech recognition (LVCSR) and can detect whether the prediction is correct by comparing these recognition likelihoods. Furthermore, we propose a dialogue control method using the recognition likehoods and confidence measure based on the recognition results. We applied the proposed method to the spoken dialogue system and conducted experiments. As a result, a speech recognition accuracy was 92.3% and prediction accuracy was 97% by the speech recognition method using prediction. The number of user utterance decreased by the dialogue control method using prediction and confidence measure. Therefore, the proposed method was effective and the system was able to achieve the flexible dialogue.
  • 西田 昌史, 寺師 弘将, 堀内 靖雄, 市川 熹
    電子情報通信学会技術研究報告. NLC, 言語理解とコミュニケーション 104(540) 61-66 2004年12月22日  
    本研究では,これまで我々が提案した次発話の予測情報を利用した音声認識手法に基づく音声対話システムを構築した.本システムは,予測に基づく認識と大語彙に基づく認識を並列で実行し,得られた認識尤度を比較することで予測の成否判定を行い,その結果に基づき発話状態に応じた対話制御を行う.さらに,認識尤度の比較だけでなく予測と大語彙た基づく認識結果に対する信頼度を併用することで,余計な確認応答を省いた円滑な対話制御手法を提案する.道案内を行う音声対話システムにこれらの手法を適用し評価実験を行った結果,音声認識率が92.3%,予測成否の正解率が97%と高い結果を得ることができ,発話予測を利用した音声認識手法が有効であることがわかった.また.予測成否判定と認識結果の信頼度を併用することで余計な確認応答を省き,より少ない発話ターン数でのタスク達成を実現することができた.
  • 西田 昌史, 寺師 弘将, 堀内 靖雄, 市川 熹
    電子情報通信学会技術研究報告. SP, 音声 104(543) 61-66 2004年12月22日  
    本研究では,これまで我々が提案した次発話の予測情報を利用した音声認識手法に基づく音声対話システムを構築した.本システムは,予測に基づく認識と大語彙に基づく認識を並列で実行し,得られた認識尤度を比較することで予測の成否判定を行い,その結果に基づき発話状態に応じた対話制御を行う.さらに,認識尤度の比較だけでなく予測と大語彙た基づく認識結果に対する信頼度を併用することで,余計な確認応答を省いた円滑な対話制御手法を提案する.道案内を行う音声対話システムにこれらの手法を適用し評価実験を行った結果,音声認識率が92.3%,予測成否の正解率が97%と高い結果を得ることができ,発話予測を利用した音声認識手法が有効であることがわかった.また.予測成否判定と認識結果の信頼度を併用することで余計な確認応答を省き,より少ない発話ターン数でのタスク達成を実現することができた.
  • 西田昌史, 寺師弘将, 堀内靖雄, 市川あきら
    電子情報通信学会技術研究報告 104(543(SP2004 122-136)) 61-66 2004年12月15日  
  • 庵原 彩子, 堀内 靖雄, 西田 昌史
    言語・音声理解と対話処理研究会 42 13-18 2004年11月18日  
  • 時田 佳子, 堀内 靖雄, 西田 昌史
    言語・音声理解と対話処理研究会 42 39-44 2004年11月18日  
  • 庵原彩子, 堀内靖雄, 西田昌史, 市川あきら
    電子情報通信学会技術研究報告 104(445(HCS2004 22-29)) 13-18 2004年11月11日  
    人間同士の対話において,人は音声言語情報以外に視覚情報からも多くの情報を得ていると考えられる.人間同士の対話のようにコンピュータと人間が対話することができれば,それは人間にとって親しみやすく,使い易いコンピュータといえる.そのようなコンピュータを実現するためには,ジェスチャーなどのマルチモーダルな情報を利用することが必要となる.本研究では日本語の自然対話をマルチモーダルな環境で収録し,人間同士の自然対話におけるジェスチャーの中で特にうなずきについて分析を行った.うなずきは聞き手のあいづち的な機能だけではなく,話し手の発話中に多く発現していたことから,話し手のうなずきに注目し,その機能について過去の研究と比較しつつ分析を行った.結果として話し手のうなずきが話者間の情報伝達を円滑に行うためのいくつかの機能を有していることが示唆された.
  • 時田佳子, 堀内靖雄, 西田昌史, 市川あきら
    電子情報通信学会技術研究報告 104(445(HCS2004 22-29)) 39-44 2004年11月11日  
    手話は音声と同様に実時間でコミュニケーションを行なう対話型自然言語である.実時間での対話に関して,音声では談話分析などの研究が盛んであるが,手話についてはほとんど対話に関する研究が行なわれていない.そこで本研究では手話による自然対話では話者交替などの現象がどのように生じているのかを調べるため,音声対話の分析手法を参考に,音声と手話の違いを意識しながら分析を行なった.分析手順としては,(1)ネイティブスピーカーによる自然手話対話データの収録,(2)分析単位の基準となるポーズの概念を提案,(3)ポーズを基に対話を区切り,話者交替などの対話状況に関する分析を行なった.結果として,ラッチングやあいづちなどに関して,音声対話と似たような現象が観察され,対話型自然言語としての共通性が示された.また,3次元空間上で表される手話は音声のように二人の発話が重ならないことから,音声にはない特有の現象も観察出来た.
  • 寺内 美奈, 時田 佳子, 菊池 浩平, 堀内 靖雄
    電子情報通信学会技術研究報告. WIT, 福祉情報工学 104(388) 37-40 2004年10月28日  
    手指動作と表情,口形などの非手指動作によって意思や感情を伝える手話は,聴覚障害者の1つのコミュニケーション手段である.手話は対話言語であることから,話者同士がどのように話を進めていぐかを解析することは,手話の言語構造を明確にするとともに,手話学習への指針ともなりうる.そこで,著者らは手話のターンテイキング(発話交替)に着目し,日本手話における会話構造と話者交替のモデル化を試みている.そこで,ネイティブスピーカによる日本手話対話例文データを収録し,工学院大学で開発した対話映像解析支援システムMATを用いて,話者交替時での手指信号ならびに非手指信号の詳細な解析を進めている.本報告では,対話データの収集方法,対話映像の分析方法,解析の途中経過として得られた対話の特徴などについて述べる.
  • 寺内 美奈, 時田 佳子, 菊池 浩平, 堀内 靖雄
    電子情報通信学会技術研究報告. SP, 音声 104(386) 37-40 2004年10月28日  
    手指動作と表情,口形などの非手指動作によって意思や感情を伝える手話は,聴覚障害者の1つのコミュニケーション手段である.手話は対話言語であることから,話者同士がどのように話を進めていぐかを解析することは,手話の言語構造を明確にするとともに,手話学習への指針ともなりうる.そこで,著者らは手話のターンテイキング(発話交替)に着目し,日本手話における会話構造と話者交替のモデル化を試みている.そこで,ネイティブスピーカによる日本手話対話例文データを収録し,工学院大学で開発した対話映像解析支援システムMATを用いて,話者交替時での手指信号ならびに非手指信号の詳細な解析を進めている.本報告では,対話データの収集方法,対話映像の分析方法,解析の途中経過として得られた対話の特徴などについて述べる.
  • 寺内美奈, 時田佳子, 菊池浩平, 堀内靖雄
    電子情報通信学会技術研究報告 104(388(WIT2004 38-47)) 37-40 2004年10月21日  
  • 西田昌史, 堀内靖雄, 市川あきら
    日本音響学会研究発表会講演論文集 2004 105-106 2004年9月21日  
  • 大須賀智子, 西田昌史, 堀内靖雄, 市川あきら
    日本音響学会研究発表会講演論文集 2004 137-138 2004年9月21日  
  • 西田昌史, 間宮嘉誉, 堀内靖雄, 市川あきら
    情報科学技術フォーラム FIT 2004 135-137 2004年8月20日  
  • 西田 昌史, 間宮 嘉誉, 堀内 靖雄, 市川 熹
    情報科学技術レターズ 3 135-138 2004年8月20日  
  • 福田慧人, 西田昌史, 堀内靖雄, 市川あきら
    電子情報通信学会技術研究報告 104(235(WIT2004 28-37)) 25-30 2004年7月29日  
  • 福田 慧人, 西田 昌史, 堀内 靖雄, 市川 熹
    電子情報通信学会技術研究報告. WIT, 福祉情報工学 104(235) 25-30 2004年7月22日  
    視覚・聴覚の重複障碍を持つ盲聾者は外界の情報を受信・発信することが困難であり,さらに健常者とコミュニケーションをとることが困難であるため,盲聾者の情報の受信・発信を支援するシステムの開発が望まれている.本研究では,これらの問題点を解決する盲聾者支援システムとして,エディタの開発を行った.エディタの入出力には指点字を利用した装置を用い,文書の編集を盲聾者が一人で行うことができるようなインタフェースについて検討を行い,開発したシステムの評価実験を行うことでその有用性を確認した.
  • 福田 慧人, 西田 昌史, 堀内 靖雄, 市川 熹
    電子情報通信学会技術研究報告. NLC, 言語理解とコミュニケーション 104(234) 25-30 2004年7月22日  
    視覚・聴覚の重複障碍を持つ盲聾者は外界の情報を受信・発信することが困難であり,さらに健常者とコミュニケーションをとることが困難であるため,盲聾者の情報の受信・発信を支援するシステムの開発が望まれている.本研究では,これらの問題点を解決する盲聾者支援システムとして,エディタの開発を行った.エディタの入出力には指点字を利用した装置を用い,文書の編集を盲聾者が一人で行うことができるようなインタフェースについて検討を行い,開発したシステムの評価実験を行うことでその有用性を確認した.
  • 堀内 靖雄, 庵原彩子, 西田 昌史, 市川 熹
    情報処理学会研究報告音声言語情報処理(SLP) 2004(74) 93-98 2004年7月17日  
    自然対話でのマンマシンインタフェースの実現を考えたとき、人間のように自然な対話を実現するためには、音声言語情報ばかりでなく、ジェスチャーなどのマルチモーダルな情報を利用することが有効であると考えられる.本研究では日本語の自然対話をマルチモーダルな環境で収録し、人間同士の自然対話におけるジェスチャーの分析を行なった。日本語の自然対話ではとくにうなずきが多用される。収録した対話を分析した結果、うなずきにはあいづち同様の機能だけでなく、話し手の発話末でうなずきが生じるケースが非常に多いことが示され、また、発話末のうなずきに対し、聞き手がうなずきやあいづちなどの反応を返す現象が数多くみられた。一方、過去の研究から発話末の言語情報、韻律情報などが聞き手の反応と関係があることが示唆されていることを踏まえ、発話末の話し手のうなずき・言語情報・韻律的特微に対し、聞き手の反応がどのような傾向を示すか分析した。結果として、発話末のうなずきは言語情報や韻律情報以上に聞き手の反応をうながす機能があることが示唆された。People use gestures like nods for smooth communication in spontaneous speech dialogue. Usual dialogue continues exchanging interlocutor's information with each other using speech and gestures and therefore it is supposed that there is correlation between speakers' gestures and listeners' reaction. In this paper, we focused the relationship between the speaker's nods, syntactic features and prosodic features in the final part of each utterance and the listener's reaction like nods or backchannels. 4 dialogues by four pairs of good friends were recorded, where they can look at each other via two prompters. The prompter can record the interlocutor's gesture on videotape and project the partner's image through a half mirror. As a result, it was suggested that speakers' nod is caused frequently in the final part of utterances and that listeners show reaction like nods or backchannels frequently when the speaker nodded, said some typical words, or spoke with the typical intonation sin the final part of utterance.
  • 堀内 靖雄, 庵原彩子, 西田 昌史, 市川 熹
    情報処理学会研究報告ヒューマンコンピュータインタラクション(HCI) 2004(74) 93-98 2004年7月17日  
    自然対話でのマンマシンインタフェースの実現を考えたとき、人間のように自然な対話を実現するためには、音声言語情報ばかりでなく、ジェスチャーなどのマルチモーダルな情報を利用することが有効であると考えられる.本研究では日本語の自然対話をマルチモーダルな環境で収録し、人間同士の自然対話におけるジェスチャーの分析を行なった。日本語の自然対話ではとくにうなずきが多用される。収録した対話を分析した結果、うなずきにはあいづち同様の機能だけでなく、話し手の発話末でうなずきが生じるケースが非常に多いことが示され、また、発話末のうなずきに対し、聞き手がうなずきやあいづちなどの反応を返す現象が数多くみられた。一方、過去の研究から発話末の言語情報、韻律情報などが聞き手の反応と関係があることが示唆されていることを踏まえ、発話末の話し手のうなずき・言語情報・韻律的特微に対し、聞き手の反応がどのような傾向を示すか分析した。結果として、発話末のうなずきは言語情報や韻律情報以上に聞き手の反応をうながす機能があることが示唆された。People use gestures like nods for smooth communication in spontaneous speech dialogue. Usual dialogue continues exchanging interlocutor's information with each other using speech and gestures and therefore it is supposed that there is correlation between speakers' gestures and listeners' reaction. In this paper, we focused the relationship between the speaker's nods, syntactic features and prosodic features in the final part of each utterance and the listener's reaction like nods or backchannels. 4 dialogues by four pairs of good friends were recorded, where they can look at each other via two prompters. The prompter can record the interlocutor's gesture on videotape and project the partner's image through a half mirror. As a result, it was suggested that speakers' nod is caused frequently in the final part of utterances and that listeners show reaction like nods or backchannels frequently when the speaker nodded, said some typical words, or spoke with the typical intonation sin the final part of utterance.
  • 堀内靖雄, 庵原彩子, 西田昌史, 市川あきら
    情報処理学会研究報告 2004(74(HI-109 SLP-52)) 93-98 2004年7月16日  
    自然対話でのマンマシンインタフェースの実現を考えたとき、人間のように自然な対話を実現するためには、音声言語情報ばかりでなく、ジェスチャーなどのマルチモーダルな情報を利用することが有効であると考えられる。本研究では日本語の自然対話をマルチモーダルな環境で収録し、人間同士の自然対話におけるジェスチャーの分析を行なった。日本語の自然対話ではとくにうなずきが多用される。収録した対話を分析した結果、うなずきにはあいづち同様の機能だけでなく、話し手の発話末でうなずきが生じるケースが非常に多いことが示され、また、発話末のうなずきに対し、聞き手がうなずきやあいづちなどの反応を返す現象が数多くみられた。一方、過去の研究から発話末の言語情報、韻律情報などが聞き手の反応と関係があることが示唆されていることを踏まえ、発話末の話し手のうなずき・言語情報・韻律的特徴に対し、聞き手の反応がどのような傾向を示すか分析した。結果として、発話末のうなずきは言語情報や韻律情報以上に聞き手の反応をうながす機能があることが示唆された。
  • 大須賀智子, 西田昌史, 堀内靖雄, 市川あきら
    人工知能学会言語・音声理解と対話処理研究会資料 41st 39-44 2004年6月18日  
  • 大須賀 智子, 西田 昌史, 堀内 靖雄
    言語・音声理解と対話処理研究会 41 39-44 2004年6月18日  
  • 大高崇, 西田昌史, 堀内靖雄, 市川あきら
    電子情報通信学会技術研究報告 103(747(WIT2003 63-70)) 7-12 2004年3月26日  
  • 清水光男, 西田昌史, 堀内靖雄, 市川あきら
    電子情報通信学会技術研究報告 103(747(WIT2003 63-70)) 43-48 2004年3月26日  
  • 岡沢裕二, 西田昌史, 堀内靖雄, 市川あきら
    電子情報通信学会技術研究報告 103(747(WIT2003 63-70)) 13-18 2004年3月26日  
  • 大高 崇, 西田 昌史, 堀内 靖雄, 市川 熹
    電子情報通信学会技術研究報告. WIT, 福祉情報工学 103(747) 7-12 2004年3月19日  
    現状の手話CGアニメーションでは,手動作が不自然に見えてしまうという問題が指摘されている.その要因の一つに,手話を表現する時間長が文の構造や強調表現などによって変化するという点を考慮していないことが挙げられる.この問題の解決には手話の時間構造に関する詳細な検討が必要不可欠であるが,これを厳密に分析した研究はあまり行われていない.そこで本研究では,手話の時間構造に関する初期検討として,時間構造の基準となる単位(時間構造単位)について分析を行った.分析の結果,手話の時間構造は動作転換点を中心に構成され,時間構造の単位は単語以下の単位であるという点が示唆された.
  • 岡澤 裕二, 西田 昌史, 堀内 靖雄, 市川 熹
    電子情報通信学会技術研究報告. WIT, 福祉情報工学 103(747) 13-18 2004年3月19日  
    手話認識において,手話単語が文脈によって変化する現象に対応するため,手の形や手の位置のような手話構成項目ごとに認識,統合する手法が従来研究で提案されている.しかし,連続した手話を認識するためには,手話単語間の遷移動作であるわたりへの対応も必要となる.従来の研究では,すべての手話構成項目とその間のわたりを別々にモデル化して認識を行っていたため,モデル数が膨大な数になるという問題があった.そこで本研究では,手話構成項目の1つである手の動きについて,前後のわたりを組み合わせて1つの認識単位として,隠れマルコフモデルを用いた認識手法を提案する.隠れマルコフモデルは時系列パターンを統計的にモデル化できるため,手動作の時間的な変動やデータの変動に対応できるのではないかと考えた.要素数を11個として評価実験を行った結果,従来手法である要素とわたりを別々にモデル化する場合に比べて,認識精度が30%向上することを確認した.
  • 清水 光男, 西田 昌史, 堀内 靖雄, 市川 熹
    電子情報通信学会技術研究報告. WIT, 福祉情報工学 103(747) 43-48 2004年3月19日  
    視覚・聴覚の重複障碍を持つ盲聾者は外界の情報を得ることが困難であるため,盲聾者の情報収集を支援する手段の実現が望まれている.本研究では,その手段として,現在,社会で広く活用されているWWWに注目し,デジタルデータとして応用しやすい指点字を利用することによってWWWページの閲覧ができる指点字WWWブラウザの開発を行った.指点字の入出力装置である「ユビツキィ」を用い,盲聾者用のインターフェイスという観点から,WWWページの読み出しやページの移動といったブラウザの機能を実現するための手法を提案し,作成したシステムの評価実験を行うことにより,その有用性を確認した.
  • 間宮嘉誉, 西田昌史, 堀内靖雄, 市川あきら
    日本音響学会研究発表会講演論文集 2004 155-156 2004年3月17日  
  • 西田昌史, 堀内靖雄, 市川あきら, 河原達也
    日本音響学会研究発表会講演論文集 2004 109-110 2004年3月17日  
  • 堀内靖雄, 坂本圭司, 市川あきら
    情報処理学会論文誌 45(3) 690-697 2004年3月15日  
    本論文では,人間同士の合奏に見られるような,互いに相手の影響を受けながら合奏を行う状況において,人間の演奏制御を推定する手法を提案する.先行研究では相手の影響を受けずに演奏を行う計算機(テンポが固定)と人間が合奏する状況において,人間の演奏制御の推定が行われ,比較的高い推定精度が得られているが,この手法を互いに影響を与えあう人間同士の合奏に適用した場合,それほど高い推定精度が得られなかった.そこで本研究では人間同士の合奏を収録,分析することにより,お互いに相手の影響を受けながら合奏を行う状況にも対応できるよう,人間の演奏制御の新たな推定手法を提案する.推定に用いるパラメータとして従来手法のパラメータに加え,過去1小節の「両者のずれ」と「自分の演奏変化量」を用いた重回帰分析により,人間の演奏制御を推定した結果,計算機との合奏においては従来手法とほぼ同程度,人間同士の合奏においては従来手法に比べて高い推定精度を得た.また,分析の結果,人間の演奏家は直前の情報だけでなく,過去1小節程度にわたる情報も利用して演奏制御していることが示唆された.In this paper, we will estimate a model of human performance inensemble.40 performances played by 4 pairs of pianists (4 soloists and 4accompanists) were recorded.It is supposed that human performers decide their future performancein real time using two factors in the past.One is the history of the time difference between two notes which wereperformed by the soloist and the accompanist and should be performedat the same time in their scores.The other is the history of the tempo modification of the performer.The recorded data were analyzed by multiple regression analysis and itwas confirmed that the proposal model has better precision than themodel of a previous study.Furthermore, from the analysis of coefficients of the estimated model,it was suggested that human performers use not only the immediatelypreceding history but the long history.
  • Proceedings of the 8th International Conference on Spoken Language Processing (ICSLP) 2004年  
  • Proceedings of the 8th International Conference on Spoken Language Processing (ICSLP) 2004年  
  • 情報処理学会論文誌 45(3) 690-697 2004年  
  • 電子情報通信学会技術研究報告. SP, 音声 104(543) 61-66 2004年  
  • 電子情報通信学会技術研究報告. WIT, 福祉情報工学 103(747) 43-48 2004年  
  • 電子情報通信学会技術研究報告. WIT, 福祉情報工学 103(747) 13-18 2004年  
  • 電子情報通信学会技術研究報告. WIT, 福祉情報工学 103(747) 7-12 2004年  
  • 電子情報通信学会技術研究報告. WIT, 福祉情報工学 104(235) 25-30 2004年  
  • Tomoko Ohsuga, Masafumi Nishida, Yasuo Horiuchi, Akira Ichikawa
    8th International Conference on Spoken Language Processing, ICSLP 2004 3041-3044 2004年1月1日  
    In this study, we introduce a method of estimating the syntactic tree structure of Japanese speech on the basis of the F0 contour and the time duration. We introduce a method of estimating the syntactic structure including the following phrase by using the local prosodic features of the first and final part of the leading phrase. This method involves discriminant analysis which is statistical method based on a large amount of training data. We applied the method to the ATR 503 speech database, and performed discrimination experiments. The results indicated an estimation accuracy of 84% for the branching judgment of each sequence of three leaves. In addition, the accuracy of discrimination saturated when using only the features up to the head part of the second phrase. We consider this result to be fairly good for the difficult task of estimating a syntactic structure that includes a future part on the basis of using only local prosodic features in the past, and also consider prosodic information to be very effective in real-time communication with speech.
  • Masafumi Nishida, Yoshitaka Mamiya, Yasuo Horiuchi, Akira Ichikawa
    8th International Conference on Spoken Language Processing, ICSLP 2004 1985-1988 2004年1月1日  
    We propose an incremental unsupervised adaptation method based on reinforcement learning in order to achieve robust speech recognition in various noisy environments. Reinforcement learning is a training method based on rewards that represents correctness of outputs instead of supervised data. The training progresses gradually based on rewards given. Our method is able to perform environmental adaptation without priori knowledge about such things as speakers and noises in noisy environments. We conducted speech recognition experiments using a connected digit recognition database. We demonstrate that our method has higher recognition performance than the conventional adaptation method.
  • 前田真季子, 西田昌史, 堀内靖雄, 市川あきら
    人工知能学会言語・音声理解と対話処理研究会資料 39th 35-42 2003年11月6日  

共同研究・競争的資金等の研究課題

 28