研究者業績

堀内 靖雄

ホリウチ ヤスオ  (Yasuo Horiuchi)

基本情報

所属
千葉大学 大学院情報学研究院 准教授
学位
博士(工学)(1995年3月 東京工業大学)

J-GLOBAL ID
200901021029331583
researchmap会員ID
1000191929

主要な論文

 22

MISC

 559
  • 木村太郎, 堀内靖雄, 西田昌史, 黒岩眞吾, 市川熹
    日本音響学会研究発表会講演論文集(CD-ROM) 2008 ROMBUNNO.2-11-15 2008年3月10日  
  • 佐藤翔太, 木村太郎, 堀内靖雄, 西田昌史, 黒岩眞吾, 市川熹
    日本音響学会研究発表会講演論文集(CD-ROM) 2008 ROMBUNNO.3-Q-20 2008年3月10日  
  • 山崎志織, 堀内靖雄, 西田昌史, 黒岩眞吾, 市川熹
    電子情報通信学会技術研究報告 107(437(WIT2007 72-89)) 31-36 2008年1月18日  
    人間の手話動作と同程度の速度でも十分に読み取り可能な手話文CG合成システムを実現するために,モーションキャプチャにより収録した単語データを用い,わたりを自動補間する手話文CG合成システムの構築を行った.わたりに対しては時間長を移動距離から算出する手法を用い,速度を力学的モデルである躍度最小モデルによって算出した.構築したシステムによるアニメーションに関して,市販されている手話文CG合成ソフトとの比較評価を行った結果を報告する.
  • 岡本悠生, 西田昌史, 堀内靖雄, 黒岩眞吾, 市川熹
    電子情報通信学会技術研究報告 107(437(WIT2007 72-89)) 25-30 2008年1月18日  
    本研究では、手話によるコミュニケーション支援を目指して、発話予測に基づく手話対話システムを提案する。従来の手話認識では、動作要素に着目した手の動きなどによる単語の認識について検討されており、認識対象が多くなると認識精度が低下してしまう。それに対して、実際に使用される場面を想定した対話を行うことで、対話場面に応じて発話を予測することができる。つまり、場面に応じて動作要素を対応付けた予測文を用意して文単位での認識を行うことで、認識対象を抑制することが可能となる.提案手法の有効性を示すため、病院での受付場面を想定した実験を行った結果、従来の動作要素による認識では7.9%の文認識率に対して、提案手法による認識では83.8%と高い文認識率を得ることができた。
  • 岡本 悠生, 西田 昌史, 堀内 靖雄, 黒岩 眞吾, 市川 熹
    電子情報通信学会技術研究報告. TL, 思考と言語 107(433) 25-30 2008年1月18日  
    本研究では、手話によるコミュニケーション支援を目指して、発話予測に基づく手話対話システムを提案する。従来の手話認識では、動作要素に着目した手の動きなどによる単語の認識について検討されており、認識対象が多くなると認識精度が低下してしまう。それに対して、実際に使用される場面を想定した対話を行うことで、対話場面に応じて発話を予測することができる。つまり、場面に応じて動作要素を対応付けた予測文を用意して文単位での認識を行うことで、認識対象を抑制することが可能となる.提案手法の有効性を示すため、病院での受付場面を想定した実験を行った結果、従来の動作要素による認識では7.9%の文認識率に対して、提案手法による認識では83.8%と高い文認識率を得ることができた。
  • 山崎 志織, 堀内 靖雄, 西田 昌史, 黒岩 眞吾, 市川 熹
    電子情報通信学会技術研究報告. TL, 思考と言語 107(433) 31-36 2008年1月18日  
    人間の手話動作と同程度の速度でも十分に読み取り可能な手話文CG合成システムを実現するために,モーションキャプチャにより収録した単語データを用い,わたりを自動補間する手話文CG合成システムの構築を行った.わたりに対しては時間長を移動距離から算出する手法を用い,速度を力学的モデルである躍度最小モデルによって算出した.構築したシステムによるアニメーションに関して,市販されている手話文CG合成ソフトとの比較評価を行った結果を報告する.
  • 岡本 悠生, 西田 昌史, 堀内 靖雄, 黒岩 眞吾, 市川 熹
    電子情報通信学会技術研究報告. WIT, 福祉情報工学 107(437) 25-30 2008年1月18日  
    本研究では、手話によるコミュニケーション支援を目指して、発話予測に基づく手話対話システムを提案する。従来の手話認識では、動作要素に着目した手の動きなどによる単語の認識について検討されており、認識対象が多くなると認識精度が低下してしまう。それに対して、実際に使用される場面を想定した対話を行うことで、対話場面に応じて発話を予測することができる。つまり、場面に応じて動作要素を対応付けた予測文を用意して文単位での認識を行うことで、認識対象を抑制することが可能となる.提案手法の有効性を示すため、病院での受付場面を想定した実験を行った結果、従来の動作要素による認識では7.9%の文認識率に対して、提案手法による認識では83.8%と高い文認識率を得ることができた。
  • 山崎 志織, 堀内 靖雄, 西田 昌史, 黒岩 眞吾, 市川 熹
    電子情報通信学会技術研究報告. WIT, 福祉情報工学 107(437) 31-36 2008年1月18日  
    人間の手話動作と同程度の速度でも十分に読み取り可能な手話文CG合成システムを実現するために,モーションキャプチャにより収録した単語データを用い,わたりを自動補間する手話文CG合成システムの構築を行った.わたりに対しては時間長を移動距離から算出する手法を用い,速度を力学的モデルである躍度最小モデルによって算出した.構築したシステムによるアニメーションに関して,市販されている手話文CG合成ソフトとの比較評価を行った結果を報告する.
  • Saori Tanaka, Kaoru Nakazono, Masafumi Nishida, Yasuo Horiuchi, Akira Ichikaw
    人工知能学会論文誌 23(3) 117-126 2008年  
  • Saori Tanaka, Kaoru Nakazono, Masafumi Nishida, Yasuo Horiuchi, Akira Ichikawa
    Transactions of the Japanese Society for Artificial Intelligence 23(3) 117-126 2008年1月1日  
    Sign language is a visual language in which main articulators are hands, torso, head, and face. For simultaneous interpreters of Japanese sign language (JSL) and spoken Japanese, it is very important to recognize not only the hands movement but also prosody such like head, eye, posture and facial expression. This is because prosody has grammatical rules for representing the case and modification relations in JSL. The goal of this study is to introduce an examination called MPR (Measurement of Prosody Recognition) and to demonstrate that it can be an indicator for the other general skills of interpreters. For this purpose, we conducted two experiments: the first studies the relationship between the interpreter's experience and the performance score on MPR (Experiment-1), and the second investigates the specific skill that can be estimated by MPR (Experiment-2), The data in Experiment-1 came from four interpreters who had more than 1-year experience as interpreters, and more four interpreters who had less than 1-year experience. The mean accuracy of MPR in the more experienced group was higher than that in the less experienced group. The data in Experiment-2 came from three high MPR interpreters and three low MPR interpreters. Two hearing subjects and three deaf subjects evaluated their skill in terms of the speech or sign interpretation skill, the reliability of interpretation, the expeditiousness, and the subjective sense of accomplishment for the ordering pizza task. The two experiments indicated a possibility that MPR could be useful for estimating if the interpreter is sufficiently experienced to interpret from sign language to spoken Japanese, and if they can work on the interpretation expeditiously without making the deaf or the hearing clients anxious. Finally we end this paper with suggestions for conclusions and future work.
  • Haoze Lu, Haruka Okamoto, Masafumi Nishida, Yasuo Horiuchi, Shingo Kuroiwa
    International Conference on Communication Technology Proceedings, ICCT 692-695 2008年  
    In text-independent (TI) speaker identification, the variation of phonetic information strongly affects the performance of speaker identification. If this phonetic information in his/her speech data can be suppressed, a robust TI speaker identification system will be realized by using speech features having less phonetic information. In this paper, we propose a TI speaker identification method that suppresses the phonetic information by a subspace method, under the assumption that a subspace with large variance in the speech feature space is a "phoneme-dependent subspace" and a complementary subspace of it is a "phonemeindependent subspace". Principal Component Analysis (PCA) is utilized to construct these subspaces. We carried out GMM-based speaker identification experiments using both a new feature vector of the proposed method and the conventional MFCC. As a result, the proposed method reduced the identification error rate by 21 % compared with the conventional MFCC. © 2008 IEEE.
  • Shota Sato, Taro Kimura, Yasuo Horiuchi, Masafumi Nishida, Shingo Kuroiwa, Akira Ichikawa
    INTERSPEECH 2008: 9TH ANNUAL CONFERENCE OF THE INTERNATIONAL SPEECH COMMUNICATION ASSOCIATION 2008, VOLS 1-5 545-+ 2008年  
    In this paper, we describe a speech re-synthesis tool using the fundamental frequency (F0) generation model proposed by Fujisaki et al. and STRAIGHT, designed by Kawahara, which can be used for listening experiments by modifying F0 model parameters. To create the tool, we first established a method for automatically estimating F0 model parameters by using genetic algorithms. Next, we combined the proposed method and STRAIGHT. We can change the prosody of input speech by manually modifying the F0 model parameters with the tool and evaluate the relation between human perception and F0 model parameters. We confirmed the ability of this tool to make natural speech data that have various prosodic parameters.
  • Masaru Maebatake, Iori Suzuki, Masafumi Nishida, Yasuo Horiuchi, Shingo Kuroiwa
    PROCEEDINGS OF THE SECOND INTERNATIONAL SYMPOSIUM ON UNIVERSAL COMMUNICATION 478-481 2008年  
    In sign language, hand positions and movements represent meaning of words. Hence, we have been developing sign language recognition methods using both of hand positions and movements. However, in the previous studies, each feature has same weight to calculate the probability for the recognition. In this study, we propose a sign language recognition method by using a multi-stream HMM technique to show the importance of position and movement information for the sign language recognition. We conducted recognition experiments using 21,960 sign language word data. As a result, 75.6% recognition accuracy was obtained with the appropriate weight (position:movement=0.2:0.8), while 70.6% was obtained with the same weight. From the result, we can conclude that the hand movement is more important for the sign language recognition than the hand position. In addition, we conducted experiments to discuss the optimal number of the states and mixtures and the best accuracy was obtained by the 15 states and two mixtures for each word HMM.
  • 安ヶ平 雄太, 堀内 靖雄, 西田 昌史, 黒岩 眞吾
    手話学研究 17 57-68 2008年  
    Previous studies suggested that emphasis or emotion causes changes in the hand movements of people using Japanese Sign Language. There has not been enough research on the change in signing speed (lower or higher), and there has been only a little research on the duration of sign components (words, transitions, and pauses). In this study, we analyzed the arm movement variation in relationship to the signing speed. The arm movements used to sign 20 sentences were recorded at three speeds (high, normal, and low) using a motion tracking system. We analyzed the relationship between the signing speed and the size of the gestures or the speed of the arms. We found that a change in signing speed caused mainly a change in the size of the gestures and that when the gesture was constrained by the location of the arm, the arm speed changed.
  • 小川純平, 西田昌史, 堀内靖雄, 黒岩眞吾
    情報処理学会研究報告 2007(129(SLP-69)) 91-96 2007年12月20日  
    これまで我々は,討論や会議における書き起こしに発話印象を付与することを目指して,韻律情報をもとに発話印象を推定する手法について検討を行ってきた.本研究では,新たに韻律情報として F0 モデルから抽出したアクセント成分とフレーズ成分を用いて分析を行った.また,音声から推定された発話印象をどのように書き起こしに付与するかについて分析を行った.今回は,討論や会議といった音声の書き起こしを対象としているため,文字の太さ,大きさといった文字の装飾や感嘆符,疑問符などの記号の付与に着目した.対話音声の書き起こしにこれらのテキスト表現を行い,発話印象の主観評価実験を行った結果,音声から感じる発話印象とテキストから感じる発話印象の違いが明らかとなった.We have studied on estimation of utterance impression using prosody in order to index the utterance impression to transcription of debates and meetings. In this study, it estimated the utterance impression using accent and phrase elements extracted by F0 model. Moreover, it analyzed how to index the utterance impression to the transcription. We focused on thickness and size of character and sign of question and exclamation marks. We conducted subjective evaluation of the utterance impression using speech and text in dialogue speech. As a result, it demonstrated that the utterance impressions by speech and text are different.
  • 佐藤翔太, 木村太郎, 堀内靖雄, 西田昌史, 黒岩眞吾, 市川熹
    情報処理学会研究報告 2007(129(SLP-69)) 97-102 2007年12月20日  
    F0 モデルパラメータに基づいて音声の変換・再合成を行うツールを開発した.先行研究において,発話の平均モーラ長やパワー,F0 モデルパラメータなどの韻律情報から係り受け構造,話者交代/継続の予測がある程度の精度で可能であるという結果が得られていた.これらの結果を実際のシステムに反映するためには,音声の聴取による心理実験が必要である.本研究では遺伝的アルゴリズムによる A-b-S を利用して推定された F0 モデルのパラメータを変更し,STRAIGHT によって再合成を行うツールを開発し,心理実験に使用する音声を快適に作成できる GUI 環境を構築した.We have been developing F0 modification and re-synthesis tool of speech based on F0 model. In the preceding research, syntactic structure and turn-taking were able to be predicted by prosodic information such as average mora duration, power and F0 model parameters. To evaluate the effectiveness of this idea in actual applications, we need to perform psychological listening experiments. In this research, to realize the environment that can easily make speech samples used for listening experiments, we have been developing a tool which can freely change F0 model parameters which were automatically estimated by the genetic algorithm and can re-synthesize the speech data with changed F0 model parameters by using STRAIGHT technology.
  • 小川 純平, 西田 昌史, 堀内 靖雄, 黒岩 眞吾
    情報処理学会研究報告. SLP, 音声言語情報処理 69 91-96 2007年12月20日  
    これまで我々は,討論や会議における書き起こしに発話印象を付与することを目指して,韻律情報をもとに発話印象を推定する手法について検討を行ってきた.本研究では,新たに韻律情報としてF0モデルから抽出したアクセント成分とフレーズ成分を用いて分析を行った.また,音声から推定された発話印象をどのように書き起こしに付与するかについて分析を行った.今回は,討論や会議といった音声の書き起こしを対象としているため,文字の太さ,大きさといった文字の装飾や感嘆符,疑問符などの記号の付与に着目した.対話音声の書き起こしにこれらのテキスト表現を行い,発話印象の主観評価実験を行った結果,音声から感じる発話印象とテキストから感じる発話印象の違いが明らかとなった.
  • 小川 純平, 西田 昌史, 堀内 靖雄, 黒岩 眞吾
    電子情報通信学会技術研究報告. SP, 音声 107(406) 91-96 2007年12月13日  
    これまで我々は,討論や会議における書き起こしに発話印象を付与することを目指して,韻律情報をもとに発話印象を推定する手法について検討を行ってきた.本研究では,新たに韻律情報としてF0モデルから抽出したアクセント成分とフレーズ成分を用いて分析を行った.また,音声から推定された発話印象をどのように書き起こしに付与するかについて分析を行った。今回は,討論や会議といった音声の書き起こしを対象としているため,文字の太さ,大きさといった文字の装飾や感嘆符,疑問符などの記号の付与に着目した.対話音声の書き起こしにこれらのテキスト表現を行い,発話印象の主観評価実験を行った結果,音声から感じる発話印象とテキストから感じる発話印象の違いが明らかとなった.
  • 佐藤 翔太, 木村 太郎, 堀内 靖雄, 西田 昌史, 黒岩 眞吾, 市川 熹
    電子情報通信学会技術研究報告. SP, 音声 107(406) 97-102 2007年12月13日  
    F0モデルパラメータに基づいて音声の変換・再合成を行うツールを開発した.先行研究において,発話の平均モーラ長やパワー,F0モデルパラメータなどの韻律情報から係り受け構造,話者交代/継続の予測がある程度の精度で可能であるという結果が得られていた.これらの結果を実際のシステムに反映するためには,音声の聴取による心理実験が必要である.本研究では遺伝的アルゴリズムによるA-b-Sを利用して推定されたF0モデルのパラメータを変更し,STRAIGHTによって再合成を行うツールを開発し,心理実験に使用する音声を快適に作成できるGUI環境を構築した.
  • 小川 純平, 西田 昌史, 堀内 靖雄, 黒岩 眞吾
    電子情報通信学会技術研究報告. NLC, 言語理解とコミュニケーション 107(405) 91-96 2007年12月13日  
    これまで我々は,討論や会議における書き起こしに発話印象を付与することを目指して,韻律情報をもとに発話印象を推定する手法について検討を行ってきた.本研究では,新たに韻律情報としてF0モデルから抽出したアクセント成分とフレーズ成分を用いて分析を行った.また,音声から推定された発話印象をどのように書き起こしに付与するかについて分析を行った.今回は,討論や会議といった音声の書き起こしを対象としているため,文字の太さ,大きさといった文字の装飾や感嘆符,疑問符などの記号の付与に着目した.対話音声の書き起こしにこれらのテキスト表現を行い,発話印象の主観評価実験を行った結果,音声から感じる発話印象とテキストから感じる発話印象の違いが明らかとなった.
  • 佐藤 翔太, 木村 太郎, 堀内 靖雄, 西田 昌史, 黒岩 眞吾, 市川 熹
    電子情報通信学会技術研究報告. NLC, 言語理解とコミュニケーション 107(405) 97-102 2007年12月13日  
    F0モデルパラメータに基づいて音声の変換・再合成を行うツールを開発した.先行研究において,発話の平均モーラ長やパワー,F0モデルパラメータなどの韻律情報から係り受け構造,話者交代/継続の予測がある程度の精度で可能であるという結果が得られていた.これらの結果を実際のシステムに反映するためには,音声の聴取による心理実験が必要である.本研究では遺伝的アルゴリズムによるA-b-Sを利用して推定されたF0モデルのパラメータを変更し,STRAIGHTによって再合成を行うツールを開発し,心理実験に使用する音声を快適に作成できるGUI環境を構築した.
  • 長嶋 祐二, 竹内 勇剛, 木村 朝子, 岡本 明, 西山 敏樹, 椎尾 一郎, 深谷 美登里, 田中 久弥, 堀内 靖雄, 岸野 文郎, 井野 秀一, 田内 雅規, 前田 義信, 亀井 且有, 小林 真, 角 康之, 高橋 宏, 仲谷 善雄, 水口 充, 岡田 英彦, 北村 喜文, 中川 正樹, 三浦 元喜, 塩瀬 隆之, 岡田 美智男, 猪木 誠二, 渋谷 雄, 福住 伸一, 森本 一成, 黒田 知宏, 和田 親宗, 堀 雅洋, 辻野 嘉宏, 石橋 明, 亀山 研一, 葛岡 英明, 三宅 美博, 大倉 典子, 清川 清, 竹内 勇剛, 安田 晴剛, 三輪 敬之, 山下 淳, 市川 熹, 西本 一志, 小谷 賢太郎, 大須賀 美恵子, 萩原 啓, 上杉 繁, 小野 哲雄, 渡辺 富夫, 才脇 直樹, 阪田 真己子, 関根 千佳, 榊原 直樹, 古田 一雄, 村田 和義
    ヒューマンインタフェース学会誌 = Journal of Human Interface Society : human interface 9(4) 328-345 2007年11月25日  
  • 堀内靖雄
    日本人間工学会関東支部大会講演集 37th 23-24 2007年11月22日  
  • 神谷佐武郎, 西田昌史, 堀内靖雄, 市川熹
    電子情報通信学会技術研究報告 107(282(SP2007 71-85)) 19-24 2007年10月18日  
    我々は,複数の車載機器の操作を対象とした音声対話システムの構築を目指している.従来は,主に対システム発話か雑談かを判別することに主眼がおかれていた.しかしながら,対システム発話であるが受理できない発話があった場合,誤動作や対話が円滑に進まない可能性が考えられる.そこで,本研究では対システム発話を候補内,候補外に分けて,雑談を含めた3つの発話状態に対して異なる対話制御を行うことを目指して,候補内,候補外,雑談に発話を判別する手法を提案する.本手法は,N-gramによる認識結果と予測文との一致度,ドメインや機能などを表すキーワードの有無などにより決定木で判別を行う,評価実験を行った結果,従来の尤度に基づく手法に比べて,提案手法は約17%の判別精度の向上が得られ,提案手法の有効性が明らかとなった.
  • 木村太郎, 堀内靖雄, 西田昌史, 市川熹
    電子情報通信学会技術研究報告 107(282(SP2007 71-85)) 25-30 2007年10月18日  
    音声対話における話者交替と発話の韻律情報との関連性を分析する.先行研究において,発話の平均モーラ長やパワー,F0パターンなどの韻律情報からその発話後に発言権が交替するか継続するかを,ある程度の精度で予測可能であるという結果が得られていた.本研究ではF0の情報をより有効に表現するために,従来研究で使われていた直線近似から算出されたF0パラメータに代えて,F0モデルより算出されたF0パラメータを用いる.F0モデルのパラメータは遺伝的アルゴリズムによるA-b-S法を用いた自動推定により算出した.また,話者交替/継続の判別には先行研究と同じく決定木を用いた.その結果,判別精度に約2%程度の向上が見られた.
  • 西田昌史, 堀内靖雄, 市川熹
    日本音響学会研究発表会講演論文集(CD-ROM) 2007 2-3-13 2007年9月12日  
  • 原大介, 長嶋祐二, 市川熹, 神田和幸, 寺内美奈, 森本一成, 白井良明, 堀内靖雄, 中園薫
    ヒューマンインタフェースシンポジウム論文集(CD-ROM) 2007 ROMBUNNO.2122 2007年9月3日  
  • 堀内靖雄, 増田香織, 西田昌史, 市川熹
    情報処理学会研究報告 2007(81(MUS-71)) 1-6 2007年8月1日  
    従来の伴奏システムでは人間の独奏者の音響情報のみを用いて伴奏制御を行なっていたが、実際の人間の合奏ではブレスが非常に重要な役割を演じている。本研究では伴奏システムが人間の演奏者のブレスによる合図を認識し、同時に演奏を開始できる手法を提案、実装し、評価実験を行なった。ブレス検出手法は先行研究で提案したオフラインの手法をオンラインアルゴリズムに改良することにより実現した。評価実験ではブレスによる合図に対するシステムの反応と演奏者の演奏のずれに関して、人間の演奏者が許容できる時間範囲を調べた結果、-60ミリ秒~97ミリ秒程度が許容範囲であることがわかった。この結果に基いて、本提案システムの性能を評価したところ、 94.6%が人間の演奏者の許容限界値内に含まれ、十分な精度でシステムがブレスの合図により演奏を開始できることがわかった。Although accompaniment systems use only acoustic information for musical synchronization, human accompanists use breath of the soloist as musical cues in the actual performance. In this study, we will implement the accompaniment system which can use breath as musical cues and evaluate the system by human performers. In a previous study, the off-line method of detecting breath was introduced. In order to implement the breath detection algorithm into the accompaniment system, we introduce the on-line method. The system was implemented and evaluated by human performers. As a result, the performance of the implemented system for using breath as musical cues is quite well and synchronization was achieved in the tolerated range in musical situation.
  • 真柄 皓介, 西田 昌史, 堀内 靖雄, 市川 熹
    情報処理学会研究報告音声言語情報処理(SLP) 2007(75) 103-108 2007年7月21日  
    我々は、これまで車載情報機器を音声により操作するシステムの開発を目指して、発話予測に基づく音声対話に関する研究を行ってきた。こういったシステムでは、事前に予測された発話を必ずユーザがするとは限らず、予測外発話への対応が必要となる。そこで、本研究では文単位の認識と音素認識を用いて、これらの認識結果の一致度に着目した発話の予測内外判定手法を提案する。さらに、これまで我々が提案した予測文と音素認識結果のDPマッチングによる認識候補の絞込みによる認識手法も適用した。カーナビにおける目的地設定の場面をタスクとした発話の予測内外判定による実験を行った結果、話者11名の3399発話に対して音声認識率83.4%、内外判定率91.9%と高い精度が得られ、提案手法の有効性が明らかとなった。We have studied on spoken dialogue using utterance prediction aiming at development of in-vehicle information system based on dialogue. It is necessary to judge whether the utterance is out of prediction because users may not do the utterance that the system predicted beforehand. In this study, we propose an utterance prediction method based on matching rate of the recognition results obtained by performing recognitions of the prediction sentence and phoneme. Moreover, we applied a recognition method by norrowing of candidate sentence using DP matching of the phoneme recognition result that we proposed. We conducted experiments using 3399 utterances by 11 speakers in setting a destination of a car navigation system. As a result, a speech recognition accuracy was 83.4% and utterance prediction accuracy was 91.9%. Therefore, we demonstrated that the proposed method was effective in a spoken dialogue system.
  • 真柄皓介, 西田昌史, 堀内靖雄, 市川熹
    情報処理学会研究報告 2007(75(SLP-67)) 103-108 2007年7月20日  
  • 西田昌史, 野田幸志, 堀内靖雄, 市川熹, 矢嶋浩司, 里見真一, 松尾典義
    自動車技術会学術講演会前刷集 (60-07) 7-10 2007年5月23日  
  • 堀内靖雄, 亀崎紘子, 今井裕子, 西田昌史, 市川熹
    電子情報通信学会技術研究報告 107(61(WIT2007 1-15)) 63-68 2007年5月17日  
    対話型言語である日本語音声言語と日本手話言語の対話におけるうなずきを比較分析した結果、発話末のうなずきに関して、両言語間で異なる傾向が見られた。そこで、日本手話の発話末のうなずきについて詳細に分析した結果、最後の単語に同期にするうなずきと最後の単語に後続するうなずきの二種類のうなずきが観察された。それらのうなずきについて、手話熟達者に聞き取り調査を行なった結果、後続うなずきは単語と共起することなく単独で出現し、接続詞等と同等の機能を有することが示唆された。
  • 宮城愛美, 宮澤健二, 植野彰規, 西田昌史, 堀内靖雄, 市川熹, 野城真理
    電子情報通信学会技術研究報告 107(61(WIT2007 1-15)) 25-28 2007年5月17日  
    指点字は盲ろう者のコミュニケーション手段の一つで,高速かつ正確な文字伝達が可能なため支援技術に適していると考えられる.これまでの研究結果から,指点字を打つ時の時間構造と強度にプロソディ情報が含まれると予想した.本研究では表面筋電位によって計測された指点字の強度と時間構造との関係を分析した.その結果,基本文で文節末における強度の上昇と時間長の延長が見られ,協調された文節では文節末の時間長の延長と強度の上昇が確認された.この結果から,指点字の強度と時間構造に文構造と協調個所が反映されている可能性が示唆され,今後,この結果を合成出力に反映することによって指点字の理解度の向上が期待される.
  • 田中紗織, 西田昌史, 堀内靖雄, 市川熹
    ヒューマンインタフェース学会研究報告集 9(1) 13-17 2007年3月9日  
  • 西田昌史, 田口雅浩, 堀内靖雄, 市川熹
    日本音響学会研究発表会講演論文集(CD-ROM) 2007 2-8-9-346 2007年3月6日  
  • 西田昌史, 松村映子, 堀内靖雄, 市川熹
    日本音響学会研究発表会講演論文集(CD-ROM) 2007 2-8-8-344 2007年3月6日  
  • 宮城 愛美, 西田 昌史, 堀内 靖雄, 市川 熹
    電子情報通信学会論文誌. D, 情報・システム = The IEICE transactions on information and systems (Japanese edition) 90(3) 732-741 2007年3月1日  
    本研究では,視覚と聴覚に障害のある盲ろう者が,指点字を使用して参加可能な会議システムについて検討した.盲ろう者が指点字,健常者が文字を使用する会議システムを想定する際,メディアの違いに起因して,盲ろう者の発言と読取りが困難な状況が予想される.指点字による発信・受信を保証するため,発言の伝達情報量と呈示速度を制御する「発言権」という機能を導入した.指点字の入出力を模擬したインタフェースを使用して,32人の被験者によるシミュレーション実験を行い,「発言権」を評価した.提案システムにおいてグループ内の被験者で同程度の発言回数・発言文字数が達成され,機能の有効性が示された.また,盲ろう者が参加したシステム評価実験により,試作した会議システムの実現の可能性が見出せた.
  • 田中 紗織, 西田 昌史, 堀内 靖雄, 市川 熹
    ヒューマンインタフェース学会研究報告集 : human interface 9(1) 13-17 2007年2月17日  
  • Daisuke Hara, Kazuyuki Kanda, Yuji Nagashima, Akira Ichikawa, Mina Terauchi, Kazunari Morimoto, Yoshiaki Shirai, Yasuo Horiuchi, Kaoru Nakazono
    CHALLENGES FOR ASSISTIVE TECHNOLOGY 20 261-265 2007年  
    This paper discusses the blueprint on what the sign language animation generating system as assistive technology should be. We argue that the animation generating system should incorporate the linguistic knowledge and that by so doing, we can develop an efficient and error-free, and consequently user-friendly system.
  • Masafumi Nishida, Yasuo Horiuchi, Akira Ichikawa
    INTERSPEECH 2007: 8TH ANNUAL CONFERENCE OF THE INTERNATIONAL SPEECH COMMUNICATION ASSOCIATION, VOLS 1-4 2 1113-1116 2007年  
    This paper describes a novel approach based on unsupervised training of the MAP adaptation rate using Q-learning. Q-learning is a reinforcement learning technique and is a computational approach to learning whereby an agent tries to maximize the total amount of reward it receives when interacting with a complex, uncertain environment. The proposed method defines the likelihood of the adapted model as a reward and learns a weight factor that indicates the relative balance between the initial model and adaptation data without the need for supervised data. We conducted recognition experiments on a lecture using a corpus of spontaneous Japanese. We were able to estimate the optimal weight factor using Q-learning in advance. MAP adaptation using the weight factor estimated with the proposed method acquired recognition accuracy that was equivalent to MAP adaptation using a weight factor determined experimentally.
  • 河上まきほ, 西田昌史, 堀内靖雄, 市川熹
    情報処理学会研究報告 2006(136(SLP-64)) 43-48 2006年12月21日  
    これまで我々は、対話状態を予測しその状態ごとに発話内容を文単位で予測することで、認識候補数の抑制を行ってきた。しかし、予測文での認識では複合語など比較的長い単語を含む発話において、単語の一部が正しく認識されていたとしても、文全体を再度確認する処理を行っており、誤認識を繰り返すおそれがあった。そこで、本研究では、予測文に含まれる複合語などの比較的長い単語を分割した部分単語認識と予測文認識を並列処理することで、認識候補を絞り込んで認識結果を確定する手法を提案する。カーナビゲーションシステムの目的地設定の場面を想定し評価実験を行った結果、完全一致したときは確認応答を省略し、発話内容を含む部分一致のときは、正しく認識候補を絞り込んで確認応答処理ができる可能性を示した。We have proposed a method that predicts user's utterances in spoken dialogue systems by recognizing prediction sentences of each dialogue state, thereby decreasing recognition errors. However, the conventional method might repeat recognition errors because it confirms the whole sentence even if it recognizes only a part of a long word, such as a compound word, correctly. In this study, we propose a method using decoders based on prediction sentences and partial woeds obtained by dividing long words. The proposed method can confirm user's utterances by selecting a candidate to a partial matched word using recognition results of the prediction sentence and a divided partial word. We conducted experiments in setting a destination of a car navigation system. We demonstrated that it is possible to confirm user's utterances effectively using the proposed method by selecting recognition candidates.
  • 野田幸志, 西田昌史, 堀内靖雄, 市川熹
    情報処理学会研究報告 2006(136(SLP-64)) 149-154 2006年12月21日  
    我々は、対話による車載情報機器の音声インターフェースの構築を目指している。運転時においては、安全性、即時性といった観点からユーザに心的負荷をかけずにシステムとの効率的な音声対話を実現する必要がある。そこで、本研究では、カーナビゲーションシステムの飲食店検索に場面を設定し、システムが音声で提示する情報量やユーザの目的意識の違いなどに着目して、対話時における心的負荷の影響について検討を行った。音声対話は WoZ 法を用いて行い、二重課題法と NASA-TLX により対話時の負荷量について分析を行なった。その結果、音声で提示する情報量が多く、ユーザの目的意識が低い場合に対話時の負荷量が大きくなることが明らかとなった。We aim to construct a spoken dialogue system for in-vehicle information system. It is necessary to achieve an efficient spoken dialogue by controlling a mental workload from the viewpoint of safety and immediateness when a driver uses a speech interface under driving condition. In this study, we focused on user's sense of purpose and amount of output information from a system in a restaurant retrieval of a car navigation system and studied the mental workload of the spoken dialogue when a driver uses an in-vehicle information system by speech interface. We conducted spoken dialogue experiments based on the WoZ method and analyzed the mental workload by using dual-task method and NASA-TLX. As a result, it demonstrated that the mental workload increased when the amount of speech information by the system were large and user's sense of purpose were low.
  • 寺師弘将, 西田昌史, 堀内靖雄, 市川熹
    情報処理学会研究報告 2006(136(SLP-64)) 101-106 2006年12月21日  
    我々は、複数の車載情報機器の操作を対象とした音声対話システムの構築を目指している。運転時には、安全性や即時性という観点から早期にドメインならびに発話内容を特定する必要がある。これまで我々は、談話タグに基づいて対話状態を定義し状態ごとの予測文に基づく音声対話手法を提案した。しかし、マルチドメインによる音声対話では対話状態や予測文数が多くなり、ドメインならびに発話内容の特定が困難となる。そこで、本研究では従来の予測文認識と音素認識を併用した2段階の音声認識手法を提案する。本手法は、まず音素認識を行い、その結果と全ドメインの予測文候補との DP マッチングを行う。その上位候補に絞り込んだ予測文に対して音声認識を行う。複数の車載情報機器の操作を想定した評価実験を行った結果、全ドメインの予測文を対象とした認識精度が87.9%に対して、提案手法により96.3%の認識精度が得られ、提案手法が有効であることがわかった。We aim to construct a spoken dialogue system for multiple in-vehicle information system. It is necessary recognize a domain and utterance correctly from the viewpoint of safety and immediateness under driving condition. We have proposed a method that predicts user's utterances by recognizing prediction sentences of each dialogue state based on discours tags. However, it is difficult to recognize the domain and utterance in the spoken dialogue of multi-domain because there are lot of dialogue states and prediction sentences. In this study, we propose a method using the prediction sentence and phoneme recognition. The method performs the phoneme recognition and compares the recognition result with the prediction sentence all domain by DP matching and recognizes for prediction sentence candidates obtained by DP matching. We conducted experiments in multiple in-vehicle information system. As a result, recognition accuracy was 87.9% for prediction sentences all domain and was 96.3% by the proposed method. Therefore, the proposed method was effective in the spoken dialogue of multi-domain.
  • 河上 まきほ, 西田 昌史, 堀内 靖雄, 市川 熹
    電子情報通信学会技術研究報告. SP, 音声 106(443) 43-48 2006年12月14日  
    これまで我々は,対話状態を予測しその状態ごとに発話内容を文単位で予測することで,認識候補数の抑制を行ってきた.しかし,予測文での認識では複合語など比較的長い単語を含む発話において,単語の一部が正しく認識されていたとしても,文全体を再度確認する処理を行っており,誤認識を繰り返すおそれがあった.そこで,本研究では,予測文に含まれる複合語などの比較的長い単語を分割した部分単語認識と予測文認識を並列処理することで,認識候補を絞り込んで認識結果を確定する手法を提案する.カーナビゲーションシステムの目的地設定の場面を想定し評価実験を行った結果,完全一致したときは確認応答を省略し,発話内容を含む部分一致のときは,正しく認識候補を絞り込んで確認応答処理ができる可能性を示した.
  • 寺師 弘将, 西田 昌史, 堀内 靖雄, 市川 熹
    電子情報通信学会技術研究報告. SP, 音声 106(443) 101-106 2006年12月14日  
    我々は、複数の車載情報機器の操作を対象とした音声対話システムの構築を目指している。運転時には、安全性や即時性という観点から早期にドメインならびに発話内容を特定する必要がある。これまで我々は、談話タグに基づいて対話状態を定義し状態ごとの予測文に基づく音声対話手法を提案した。しかし、マルチドメインによる音声対話では対話状態や予測文数が多くなり、ドメインならびに発話内容の特定が困難となる。そこで、本研究では従来の予測文認識と音素認識を併用した2段階の音声認識手法を提案する。本手法は、まず音素認識を行い、その結果と全ドメインの予測文候補とのDPマッチングを行う。その上位候補に絞り込んだ予測文に対して音声認識を行う。複数の車載情報機器の操作を想定した評価実験を行った結果、全ドメインの予測文を対象とした認識精度が87.9%に対して、提案手法により96.3%の認識精度が得られ、提案手法が有効であることがわかった。
  • 野田 幸志, 西田 昌史, 堀内 靖雄, 市川 熹
    電子情報通信学会技術研究報告. SP, 音声 106(443) 149-154 2006年12月14日  
    我々は,対話による車載情報機器の音声インタフェースの構築を目指している.運転時においては,安全性,即時性といった観点からユーザに心的負荷をかけずにシステムとの効率的な音声対話を実現する必要がある.そこで,本研究では,カーナビゲーションシステムの飲食店検索に場面を設定し,システムが音声で提示する情報量やユーザの目的意識の違いなどに着目して,対話時における心的負荷の影響について検討を行った.音声対話はWoZ法を用いて行い,二重課題法とNASA-TLXにより対話時の負荷量について分析を行った.その結果,音声で提示する情報量が多く,ユーザの目的意識が低い場合に対話時の負荷量が大きくなることが明らかとなった.
  • 河上 まきほ, 西田 昌史, 堀内 靖雄, 市川 熹
    電子情報通信学会技術研究報告. NLC, 言語理解とコミュニケーション 106(441) 43-48 2006年12月14日  
    これまで我々は,対話状態を予測しその状態ごとに発話内容を文単位で予測することで,認識候補数の抑制を行ってきた.しかし,予測文での認識では複合語など比較的長い単語を含む発話において,単語の一部が正しく認識されていたとしても,文全体を再度確認する処理を行っており,誤認識を繰り返すおそれがあった.そこで,本研究では,予測文に含まれる複合語などの比較的長い単語を分割した部分単語認識と予測文認識を並列処理することで,認識候補を絞り込んで認識結果を確定する手法を提案する.カーナビゲーションシステムの目的地設定の場面を想定し評価実験を行った結果,完全一致したときは確認応答を省略し,発話内容を含む部分一致のときは,正しく認識候補を絞り込んで確認応答処理ができる可能性を示した.
  • 寺師 弘将, 西田 昌史, 堀内 靖雄, 市川 熹
    電子情報通信学会技術研究報告. NLC, 言語理解とコミュニケーション 106(441) 101-106 2006年12月14日  
    我々は、複数の車載情報機器の操作を対象とした音声対話システムの構築を目指している。運転時には、安全性や即時性という観点から早期にドメインならびに発話内容を特定する必要がある。これまで我々は、談話タグに基づいて対話状態を定義し状態ごとの予測文に基づく音声対話手法を提案した。しかし、マルチドメインによる音声対話では対話状態や予測文数が多くなり、ドメインならびに発話内容の特定が困難となる。そこで、本研究では従来の予測文認識と音素認識を併用した2段階の音声認識手法を提案する。本手法は、まず音素認識を行い、その結果と全ドメインの予測文候補とのDPマッチングを行う。その上位候補に絞り込んだ予測文に対して音声認識を行う。複数の車載情報機器の操作を想定した評価実験を行った結果、全ドメインの予測文を対象とした認識精度が87.9%に対して、提案手法により96.3%の認識精度が得られ、提案手法が有効であることがわかった。
  • 野田 幸志, 西田 昌史, 堀内 靖雄, 市川 熹
    電子情報通信学会技術研究報告. NLC, 言語理解とコミュニケーション 106(441) 149-154 2006年12月14日  
    我々は,対話による車載情報機器の音声インタフェースの構築を目指している.運転時においては,安全性,即時性といった観点からユーザに心的負荷をかけずにシステムとの効率的な音声対話を実現する必要がある.そこで,本研究では,カーナビゲーションシステムの飲食店検索に場面を設定し,システムが音声で提示する情報量やユーザの目的意識の違いなどに着目して,対話時における心的負荷の影響について検討を行った.音声対話はWoZ法を用いて行い,二重課題法とNASA-TLXにより対話時の負荷量について分析を行った.その結果,音声で提示する情報量が多く,ユーザの目的意識が低い場合に対話時の負荷量が大きくなることが明らかとなった.
  • 田口 雅浩, 西田 昌史, 堀内 靖雄, 市川 熹
    ヒューマンインタフェース学会研究報告集 : human interface 8(5) 125-130 2006年12月6日  

共同研究・競争的資金等の研究課題

 28