堀内靖雄

ホリウチヤスオ (Yasuo Horiuchi)

基本情報

所属: 千葉大学大学院情報学研究院准教授

学位: 博士(工学)(1995年3月東京工業大学)

J-GLOBAL ID: 200901021029331583
researchmap会員ID: 1000191929

研究分野

情報通信 / 知能情報学 /

受賞

主要な論文

Determining the base frequency of the <i>F</i><sub>0</sub> contour generation model for the diverse expression of speech

Yoshiko Arimoto, Yasuo Horiuchi, Sumio Ohno

Acoustical Science and Technology 46(1) 2025年1月査読有り
「対話のことば」に共通な機能を形成する要因の考察

市川熹, 長嶋祐二, 堀内靖雄

日本音響学会誌 80(7) 355-366 2024年7月査読有り
Constructing a Highly Accurate Japanese Sign Language Motion Database Including Dialogue

Yuji Nagashima, Keiko Watanabe, Daisuke Hara, Yasuo Horiuchi, Shinji Sako, Akira Ichikawa

Communications in Computer and Information Science 76-81 2020年6月査読有り
Discussion of a Japanese sign language database and its annotation systems with consideration for its use in various areas

Shinji Sako, Yuji Nagashima, Daisuke Hara, Yasuo Horiuchi, Keiko Watanabe, Ritsuko Kikusawa, Naoto Kato, Akira Ichikawa

Proceeding of LingCologne 2019 2019年6月6日査読有り
Construction of a Japanese Sign Language Database with Various Data Types

Keiko Watanabe, Yuji Nagashima, Daisuke Hara, Yasuo Horiuchi, Shinji Sako, Akira Ichikawa

Communications in Computer and Information Science 317-322 2019年査読有り
Constructing a Japanese Sign Language Multi-Dimensional Database

•Yuji Nagashima, Daisuke Hara, Shinji Sako, Keiko Watanabe, Yasuo Horiuchi, Ritsuko Kikusawa, Naoto Kato, Akira Ichikawa

The 7th Meeting of Signed and SpokenLanguage Linguistics (SSLL 2018) 2018年9月28日査読有り
心的負担が軽い「対話のことば」の構造

市川熹, 堀内靖雄, 長嶋祐二

ヒューマンインタフェース学会論文誌 20(2) 191-204 2018年査読有り

We had shown experimental results on prosody of languages characterized by real-time dialogue such as speech, sign language, finger braille and so on. These results were discussed along with various research results both from inside and outside Japan. Based on the results, we examined a structure that enabled real-time dialogue with a light mental burden. Furthermore, we will propose a model which makes real-time dialogue possible by elucidating information structures of various languages characterized by real-time dialogue. The model to be proposed can explain various phenomena in real-time dialogue.

もっとみる

MISC

559

F0モデルによる韻律情報の持つ話者交替機能の分析

木村太郎, 堀内靖雄, 西田昌史, 黒岩眞吾, 市川熹

日本音響学会研究発表会講演論文集(CD-ROM) 2008 ROMBUNNO.2-11-15 2008年3月10日
STRAIGHTを用いたモデルに基づく韻律パラメータの変更・再合成ツールの開発

佐藤翔太, 木村太郎, 堀内靖雄, 西田昌史, 黒岩眞吾, 市川熹

日本音響学会研究発表会講演論文集(CD-ROM) 2008 ROMBUNNO.3-Q-20 2008年3月10日
3DCGによる手話文アニメーション合成システムの構築と評価

山崎志織, 堀内靖雄, 西田昌史, 黒岩眞吾, 市川熹

電子情報通信学会技術研究報告 107(437(WIT2007 72-89)) 31-36 2008年1月18日

人間の手話動作と同程度の速度でも十分に読み取り可能な手話文CG合成システムを実現するために,モーションキャプチャにより収録した単語データを用い,わたりを自動補間する手話文CG合成システムの構築を行った.わたりに対しては時間長を移動距離から算出する手法を用い,速度を力学的モデルである躍度最小モデルによって算出した.構築したシステムによるアニメーションに関して,市販されている手話文CG合成ソフトとの比較評価を行った結果を報告する.
発話予測を利用した手話対話システムに関する検討

岡本悠生, 西田昌史, 堀内靖雄, 黒岩眞吾, 市川熹

電子情報通信学会技術研究報告 107(437(WIT2007 72-89)) 25-30 2008年1月18日

本研究では、手話によるコミュニケーション支援を目指して、発話予測に基づく手話対話システムを提案する。従来の手話認識では、動作要素に着目した手の動きなどによる単語の認識について検討されており、認識対象が多くなると認識精度が低下してしまう。それに対して、実際に使用される場面を想定した対話を行うことで、対話場面に応じて発話を予測することができる。つまり、場面に応じて動作要素を対応付けた予測文を用意して文単位での認識を行うことで、認識対象を抑制することが可能となる.提案手法の有効性を示すため、病院での受付場面を想定した実験を行った結果、従来の動作要素による認識では7.9%の文認識率に対して、提案手法による認識では83.8%と高い文認識率を得ることができた。
発話予測を利用した手話対話システムに関する検討

岡本悠生, 西田昌史, 堀内靖雄, 黒岩眞吾, 市川熹

電子情報通信学会技術研究報告. TL, 思考と言語 107(433) 25-30 2008年1月18日

本研究では、手話によるコミュニケーション支援を目指して、発話予測に基づく手話対話システムを提案する。従来の手話認識では、動作要素に着目した手の動きなどによる単語の認識について検討されており、認識対象が多くなると認識精度が低下してしまう。それに対して、実際に使用される場面を想定した対話を行うことで、対話場面に応じて発話を予測することができる。つまり、場面に応じて動作要素を対応付けた予測文を用意して文単位での認識を行うことで、認識対象を抑制することが可能となる.提案手法の有効性を示すため、病院での受付場面を想定した実験を行った結果、従来の動作要素による認識では7.9%の文認識率に対して、提案手法による認識では83.8%と高い文認識率を得ることができた。
3DCGによる手話文アニメーション合成システムの構築と評価

山崎志織, 堀内靖雄, 西田昌史, 黒岩眞吾, 市川熹

電子情報通信学会技術研究報告. TL, 思考と言語 107(433) 31-36 2008年1月18日

人間の手話動作と同程度の速度でも十分に読み取り可能な手話文CG合成システムを実現するために,モーションキャプチャにより収録した単語データを用い,わたりを自動補間する手話文CG合成システムの構築を行った.わたりに対しては時間長を移動距離から算出する手法を用い,速度を力学的モデルである躍度最小モデルによって算出した.構築したシステムによるアニメーションに関して,市販されている手話文CG合成ソフトとの比較評価を行った結果を報告する.
発話予測を利用した手話対話システムに関する検討

岡本悠生, 西田昌史, 堀内靖雄, 黒岩眞吾, 市川熹

電子情報通信学会技術研究報告. WIT, 福祉情報工学 107(437) 25-30 2008年1月18日

本研究では、手話によるコミュニケーション支援を目指して、発話予測に基づく手話対話システムを提案する。従来の手話認識では、動作要素に着目した手の動きなどによる単語の認識について検討されており、認識対象が多くなると認識精度が低下してしまう。それに対して、実際に使用される場面を想定した対話を行うことで、対話場面に応じて発話を予測することができる。つまり、場面に応じて動作要素を対応付けた予測文を用意して文単位での認識を行うことで、認識対象を抑制することが可能となる.提案手法の有効性を示すため、病院での受付場面を想定した実験を行った結果、従来の動作要素による認識では7.9%の文認識率に対して、提案手法による認識では83.8%と高い文認識率を得ることができた。
3DCGによる手話文アニメーション合成システムの構築と評価

山崎志織, 堀内靖雄, 西田昌史, 黒岩眞吾, 市川熹

電子情報通信学会技術研究報告. WIT, 福祉情報工学 107(437) 31-36 2008年1月18日

人間の手話動作と同程度の速度でも十分に読み取り可能な手話文CG合成システムを実現するために,モーションキャプチャにより収録した単語データを用い,わたりを自動補間する手話文CG合成システムの構築を行った.わたりに対しては時間長を移動距離から算出する手法を用い,速度を力学的モデルである躍度最小モデルによって算出した.構築したシステムによるアニメーションに関して,市販されている手話文CG合成ソフトとの比較評価を行った結果を報告する.
Analysis of Skill Measurement of Interpretation between Spoken Jaoanese and Japanese Sign Language

Saori Tanaka, Kaoru Nakazono, Masafumi Nishida, Yasuo Horiuchi, Akira Ichikaw

人工知能学会論文誌 23(3) 117-126 2008年
Evaluating interpreter's skill by Measurement of Prosody Recognition

Saori Tanaka, Kaoru Nakazono, Masafumi Nishida, Yasuo Horiuchi, Akira Ichikawa

Transactions of the Japanese Society for Artificial Intelligence 23(3) 117-126 2008年1月1日

Sign language is a visual language in which main articulators are hands, torso, head, and face. For simultaneous interpreters of Japanese sign language (JSL) and spoken Japanese, it is very important to recognize not only the hands movement but also prosody such like head, eye, posture and facial expression. This is because prosody has grammatical rules for representing the case and modification relations in JSL. The goal of this study is to introduce an examination called MPR (Measurement of Prosody Recognition) and to demonstrate that it can be an indicator for the other general skills of interpreters. For this purpose, we conducted two experiments: the first studies the relationship between the interpreter's experience and the performance score on MPR (Experiment-1), and the second investigates the specific skill that can be estimated by MPR (Experiment-2), The data in Experiment-1 came from four interpreters who had more than 1-year experience as interpreters, and more four interpreters who had less than 1-year experience. The mean accuracy of MPR in the more experienced group was higher than that in the less experienced group. The data in Experiment-2 came from three high MPR interpreters and three low MPR interpreters. Two hearing subjects and three deaf subjects evaluated their skill in terms of the speech or sign interpretation skill, the reliability of interpretation, the expeditiousness, and the subjective sense of accomplishment for the ordering pizza task. The two experiments indicated a possibility that MPR could be useful for estimating if the interpreter is sufficiently experienced to interpret from sign language to spoken Japanese, and if they can work on the interpretation expeditiously without making the deaf or the hearing clients anxious. Finally we end this paper with suggestions for conclusions and future work.
Text-independent speaker identification based on feature transformation to phoneme-independent subspace

Haoze Lu, Haruka Okamoto, Masafumi Nishida, Yasuo Horiuchi, Shingo Kuroiwa

International Conference on Communication Technology Proceedings, ICCT 692-695 2008年

In text-independent (TI) speaker identification, the variation of phonetic information strongly affects the performance of speaker identification. If this phonetic information in his/her speech data can be suppressed, a robust TI speaker identification system will be realized by using speech features having less phonetic information. In this paper, we propose a TI speaker identification method that suppresses the phonetic information by a subspace method, under the assumption that a subspace with large variance in the speech feature space is a "phoneme-dependent subspace" and a complementary subspace of it is a "phonemeindependent subspace". Principal Component Analysis (PCA) is utilized to construct these subspaces. We carried out GMM-based speaker identification experiments using both a new feature vector of the proposed method and the conventional MFCC. As a result, the proposed method reduced the identification error rate by 21 % compared with the conventional MFCC. © 2008 IEEE.
A Method for Automatically Estimating F0 Model Parameters and A Speech Re-Synthesis Tool Using F0 Model and STRAIGHT

Shota Sato, Taro Kimura, Yasuo Horiuchi, Masafumi Nishida, Shingo Kuroiwa, Akira Ichikawa

INTERSPEECH 2008: 9TH ANNUAL CONFERENCE OF THE INTERNATIONAL SPEECH COMMUNICATION ASSOCIATION 2008, VOLS 1-5 545-+ 2008年

In this paper, we describe a speech re-synthesis tool using the fundamental frequency (F0) generation model proposed by Fujisaki et al. and STRAIGHT, designed by Kawahara, which can be used for listening experiments by modifying F0 model parameters. To create the tool, we first established a method for automatically estimating F0 model parameters by using genetic algorithms. Next, we combined the proposed method and STRAIGHT. We can change the prosody of input speech by manually modifying the F0 model parameters with the tool and evaluate the relation between human perception and F0 model parameters. We confirmed the ability of this tool to make natural speech data that have various prosodic parameters.
Sign Language Recognition Based on Position and Movement Using Multi-Stream HMM

Masaru Maebatake, Iori Suzuki, Masafumi Nishida, Yasuo Horiuchi, Shingo Kuroiwa

PROCEEDINGS OF THE SECOND INTERNATIONAL SYMPOSIUM ON UNIVERSAL COMMUNICATION 478-481 2008年

In sign language, hand positions and movements represent meaning of words. Hence, we have been developing sign language recognition methods using both of hand positions and movements. However, in the previous studies, each feature has same weight to calculate the probability for the recognition. In this study, we propose a sign language recognition method by using a multi-stream HMM technique to show the importance of position and movement information for the sign language recognition. We conducted recognition experiments using 21,960 sign language word data. As a result, 75.6% recognition accuracy was obtained with the appropriate weight (position:movement=0.2:0.8), while 70.6% was obtained with the same weight. From the result, we can conclude that the hand movement is more important for the sign language recognition than the hand position. In addition, we conducted experiments to discuss the optimal number of the states and mixtures and the best accuracy was obtained by the 15 states and two mixtures for each word HMM.
日本手話の手話発話速度の違いによる手動作変化の分析

安ヶ平雄太, 堀内靖雄, 西田昌史, 黒岩眞吾

手話学研究 17 57-68 2008年

Previous studies suggested that emphasis or emotion causes changes in the hand movements of people using Japanese Sign Language. There has not been enough research on the change in signing speed (lower or higher), and there has been only a little research on the duration of sign components (words, transitions, and pauses). In this study, we analyzed the arm movement variation in relationship to the signing speed. The arm movements used to sign 20 sentences were recorded at three speeds (high, normal, and low) using a motion tracking system. We analyzed the relationship between the signing speed and the size of the gestures or the speed of the arms. We found that a change in signing speed caused mainly a change in the size of the gestures and that when the gesture was constrained by the location of the arm, the arm speed changed.
書き起こしへの付与を目指した発話印象の表現法に関する分析

小川純平, 西田昌史, 堀内靖雄, 黒岩眞吾

情報処理学会研究報告 2007(129(SLP-69)) 91-96 2007年12月20日

これまで我々は，討論や会議における書き起こしに発話印象を付与することを目指して，韻律情報をもとに発話印象を推定する手法について検討を行ってきた．本研究では，新たに韻律情報として F0 モデルから抽出したアクセント成分とフレーズ成分を用いて分析を行った．また，音声から推定された発話印象をどのように書き起こしに付与するかについて分析を行った．今回は，討論や会議といった音声の書き起こしを対象としているため，文字の太さ，大きさといった文字の装飾や感嘆符，疑問符などの記号の付与に着目した．対話音声の書き起こしにこれらのテキスト表現を行い，発話印象の主観評価実験を行った結果，音声から感じる発話印象とテキストから感じる発話印象の違いが明らかとなった．We have studied on estimation of utterance impression using prosody in order to index the utterance impression to transcription of debates and meetings. In this study, it estimated the utterance impression using accent and phrase elements extracted by F0 model. Moreover, it analyzed how to index the utterance impression to the transcription. We focused on thickness and size of character and sign of question and exclamation marks. We conducted subjective evaluation of the utterance impression using speech and text in dialogue speech. As a result, it demonstrated that the utterance impressions by speech and text are different.
STRAIGHTを用いたF0モデルパラメータの変換・再合成ツールの開発

佐藤翔太, 木村太郎, 堀内靖雄, 西田昌史, 黒岩眞吾, 市川熹

情報処理学会研究報告 2007(129(SLP-69)) 97-102 2007年12月20日

F0 モデルパラメータに基づいて音声の変換・再合成を行うツールを開発した．先行研究において，発話の平均モーラ長やパワー，F0 モデルパラメータなどの韻律情報から係り受け構造，話者交代/継続の予測がある程度の精度で可能であるという結果が得られていた．これらの結果を実際のシステムに反映するためには，音声の聴取による心理実験が必要である．本研究では遺伝的アルゴリズムによる A-b-S を利用して推定された F0 モデルのパラメータを変更し，STRAIGHT によって再合成を行うツールを開発し，心理実験に使用する音声を快適に作成できる GUI 環境を構築した．We have been developing F0 modification and re-synthesis tool of speech based on F0 model. In the preceding research, syntactic structure and turn-taking were able to be predicted by prosodic information such as average mora duration, power and F0 model parameters. To evaluate the effectiveness of this idea in actual applications, we need to perform psychological listening experiments. In this research, to realize the environment that can easily make speech samples used for listening experiments, we have been developing a tool which can freely change F0 model parameters which were automatically estimated by the genetic algorithm and can re-synthesize the speech data with changed F0 model parameters by using STRAIGHT technology.
書き起こしへの付与を目指した発話印象の表現法に関する分析

小川純平, 西田昌史, 堀内靖雄, 黒岩眞吾

情報処理学会研究報告. SLP, 音声言語情報処理 69 91-96 2007年12月20日

これまで我々は,討論や会議における書き起こしに発話印象を付与することを目指して,韻律情報をもとに発話印象を推定する手法について検討を行ってきた.本研究では,新たに韻律情報としてF0モデルから抽出したアクセント成分とフレーズ成分を用いて分析を行った.また,音声から推定された発話印象をどのように書き起こしに付与するかについて分析を行った.今回は,討論や会議といった音声の書き起こしを対象としているため,文字の太さ,大きさといった文字の装飾や感嘆符,疑問符などの記号の付与に着目した.対話音声の書き起こしにこれらのテキスト表現を行い,発話印象の主観評価実験を行った結果,音声から感じる発話印象とテキストから感じる発話印象の違いが明らかとなった.
書き起こしへの付与を目指した発話印象の表現法に関する分析

小川純平, 西田昌史, 堀内靖雄, 黒岩眞吾

電子情報通信学会技術研究報告. SP, 音声 107(406) 91-96 2007年12月13日

これまで我々は,討論や会議における書き起こしに発話印象を付与することを目指して,韻律情報をもとに発話印象を推定する手法について検討を行ってきた.本研究では,新たに韻律情報としてF0モデルから抽出したアクセント成分とフレーズ成分を用いて分析を行った.また,音声から推定された発話印象をどのように書き起こしに付与するかについて分析を行った。今回は,討論や会議といった音声の書き起こしを対象としているため,文字の太さ,大きさといった文字の装飾や感嘆符,疑問符などの記号の付与に着目した.対話音声の書き起こしにこれらのテキスト表現を行い,発話印象の主観評価実験を行った結果,音声から感じる発話印象とテキストから感じる発話印象の違いが明らかとなった.
STRAIGHTを用いたF0モデルパラメータの変換・再合成ツールの開発

佐藤翔太, 木村太郎, 堀内靖雄, 西田昌史, 黒岩眞吾, 市川熹

電子情報通信学会技術研究報告. SP, 音声 107(406) 97-102 2007年12月13日

F0モデルパラメータに基づいて音声の変換・再合成を行うツールを開発した.先行研究において,発話の平均モーラ長やパワー,F0モデルパラメータなどの韻律情報から係り受け構造,話者交代/継続の予測がある程度の精度で可能であるという結果が得られていた.これらの結果を実際のシステムに反映するためには,音声の聴取による心理実験が必要である.本研究では遺伝的アルゴリズムによるA-b-Sを利用して推定されたF0モデルのパラメータを変更し,STRAIGHTによって再合成を行うツールを開発し,心理実験に使用する音声を快適に作成できるGUI環境を構築した.
書き起こしへの付与を目指した発話印象の表現法に関する分析

小川純平, 西田昌史, 堀内靖雄, 黒岩眞吾

電子情報通信学会技術研究報告. NLC, 言語理解とコミュニケーション 107(405) 91-96 2007年12月13日

これまで我々は,討論や会議における書き起こしに発話印象を付与することを目指して,韻律情報をもとに発話印象を推定する手法について検討を行ってきた.本研究では,新たに韻律情報としてF0モデルから抽出したアクセント成分とフレーズ成分を用いて分析を行った.また,音声から推定された発話印象をどのように書き起こしに付与するかについて分析を行った.今回は,討論や会議といった音声の書き起こしを対象としているため,文字の太さ,大きさといった文字の装飾や感嘆符,疑問符などの記号の付与に着目した.対話音声の書き起こしにこれらのテキスト表現を行い,発話印象の主観評価実験を行った結果,音声から感じる発話印象とテキストから感じる発話印象の違いが明らかとなった.
STRAIGHTを用いたF0モデルパラメータの変換・再合成ツールの開発

佐藤翔太, 木村太郎, 堀内靖雄, 西田昌史, 黒岩眞吾, 市川熹

電子情報通信学会技術研究報告. NLC, 言語理解とコミュニケーション 107(405) 97-102 2007年12月13日

F0モデルパラメータに基づいて音声の変換・再合成を行うツールを開発した.先行研究において,発話の平均モーラ長やパワー,F0モデルパラメータなどの韻律情報から係り受け構造,話者交代/継続の予測がある程度の精度で可能であるという結果が得られていた.これらの結果を実際のシステムに反映するためには,音声の聴取による心理実験が必要である.本研究では遺伝的アルゴリズムによるA-b-Sを利用して推定されたF0モデルのパラメータを変更し,STRAIGHTによって再合成を行うツールを開発し,心理実験に使用する音声を快適に作成できるGUI環境を構築した.
ヒューマンインタフェースシンポジウム2007報告

長嶋祐二, 竹内勇剛, 木村朝子, 岡本明, 西山敏樹, 椎尾一郎, 深谷美登里, 田中久弥, 堀内靖雄, 岸野文郎, 井野秀一, 田内雅規, 前田義信, 亀井且有, 小林真, 角康之, 高橋宏, 仲谷善雄, 水口充, 岡田英彦, 北村喜文, 中川正樹, 三浦元喜, 塩瀬隆之, 岡田美智男, 猪木誠二, 渋谷雄, 福住伸一, 森本一成, 黒田知宏, 和田親宗, 堀雅洋, 辻野嘉宏, 石橋明, 亀山研一, 葛岡英明, 三宅美博, 大倉典子, 清川清, 竹内勇剛, 安田晴剛, 三輪敬之, 山下淳, 市川熹, 西本一志, 小谷賢太郎, 大須賀美恵子, 萩原啓, 上杉繁, 小野哲雄, 渡辺富夫, 才脇直樹, 阪田真己子, 関根千佳, 榊原直樹, 古田一雄, 村田和義

ヒューマンインタフェース学会誌 = Journal of Human Interface Society : human interface 9(4) 328-345 2007年11月25日
人間とコンピュータのコミュニケーション

堀内靖雄

日本人間工学会関東支部大会講演集 37th 23-24 2007年11月22日
音声対話におけるN‐gramと予測文を併用した対システム発話の判別

神谷佐武郎, 西田昌史, 堀内靖雄, 市川熹

電子情報通信学会技術研究報告 107(282(SP2007 71-85)) 19-24 2007年10月18日

我々は,複数の車載機器の操作を対象とした音声対話システムの構築を目指している.従来は,主に対システム発話か雑談かを判別することに主眼がおかれていた.しかしながら,対システム発話であるが受理できない発話があった場合,誤動作や対話が円滑に進まない可能性が考えられる.そこで,本研究では対システム発話を候補内,候補外に分けて,雑談を含めた3つの発話状態に対して異なる対話制御を行うことを目指して,候補内,候補外,雑談に発話を判別する手法を提案する.本手法は,N-gramによる認識結果と予測文との一致度,ドメインや機能などを表すキーワードの有無などにより決定木で判別を行う,評価実験を行った結果,従来の尤度に基づく手法に比べて,提案手法は約17%の判別精度の向上が得られ,提案手法の有効性が明らかとなった.
F0モデルを用いた日本語対話における韻律と話者交替の分析

木村太郎, 堀内靖雄, 西田昌史, 市川熹

電子情報通信学会技術研究報告 107(282(SP2007 71-85)) 25-30 2007年10月18日

音声対話における話者交替と発話の韻律情報との関連性を分析する.先行研究において,発話の平均モーラ長やパワー,F0パターンなどの韻律情報からその発話後に発言権が交替するか継続するかを,ある程度の精度で予測可能であるという結果が得られていた.本研究ではF0の情報をより有効に表現するために,従来研究で使われていた直線近似から算出されたF0パラメータに代えて,F0モデルより算出されたF0パラメータを用いる.F0モデルのパラメータは遺伝的アルゴリズムによるA-b-S法を用いた自動推定により算出した.また,話者交替/継続の判別には先行研究と同じく決定木を用いた.その結果,判別精度に約2%程度の向上が見られた.
大語彙連続音声認識におけるQ‐learningに基づく教師なし適応

西田昌史, 堀内靖雄, 市川熹

日本音響学会研究発表会講演論文集(CD-ROM) 2007 2-3-13 2007年9月12日
工学的応用を考慮した手話の弁別的特徴の抽出方法とその記述法

原大介, 長嶋祐二, 市川熹, 神田和幸, 寺内美奈, 森本一成, 白井良明, 堀内靖雄, 中園薫

ヒューマンインタフェースシンポジウム論文集(CD-ROM) 2007 ROMBUNNO.2122 2007年9月3日
ブレスの合図を認識する伴奏システムの実装と評価

堀内靖雄, 増田香織, 西田昌史, 市川熹

情報処理学会研究報告 2007(81(MUS-71)) 1-6 2007年8月1日

従来の伴奏システムでは人間の独奏者の音響情報のみを用いて伴奏制御を行なっていたが、実際の人間の合奏ではブレスが非常に重要な役割を演じている。本研究では伴奏システムが人間の演奏者のブレスによる合図を認識し、同時に演奏を開始できる手法を提案、実装し、評価実験を行なった。ブレス検出手法は先行研究で提案したオフラインの手法をオンラインアルゴリズムに改良することにより実現した。評価実験ではブレスによる合図に対するシステムの反応と演奏者の演奏のずれに関して、人間の演奏者が許容できる時間範囲を調べた結果、-60ミリ秒～97ミリ秒程度が許容範囲であることがわかった。この結果に基いて、本提案システムの性能を評価したところ、 94.6％が人間の演奏者の許容限界値内に含まれ、十分な精度でシステムがブレスの合図により演奏を開始できることがわかった。Although accompaniment systems use only acoustic information for musical synchronization, human accompanists use breath of the soloist as musical cues in the actual performance. In this study, we will implement the accompaniment system which can use breath as musical cues and evaluate the system by human performers. In a previous study, the off-line method of detecting breath was introduced. In order to implement the breath detection algorithm into the accompaniment system, we introduce the on-line method. The system was implemented and evaluated by human performers. As a result, the performance of the implemented system for using breath as musical cues is quite well and synchronization was achieved in the tolerated range in musical situation.
予測文と音素認識の併用による発話の予測内外判定に関する検討

真柄皓介, 西田昌史, 堀内靖雄, 市川熹

情報処理学会研究報告音声言語情報処理（SLP） 2007(75) 103-108 2007年7月21日

我々は、これまで車載情報機器を音声により操作するシステムの開発を目指して、発話予測に基づく音声対話に関する研究を行ってきた。こういったシステムでは、事前に予測された発話を必ずユーザがするとは限らず、予測外発話への対応が必要となる。そこで、本研究では文単位の認識と音素認識を用いて、これらの認識結果の一致度に着目した発話の予測内外判定手法を提案する。さらに、これまで我々が提案した予測文と音素認識結果のDPマッチングによる認識候補の絞込みによる認識手法も適用した。カーナビにおける目的地設定の場面をタスクとした発話の予測内外判定による実験を行った結果、話者11名の3399発話に対して音声認識率83.4%、内外判定率91.9%と高い精度が得られ、提案手法の有効性が明らかとなった。We have studied on spoken dialogue using utterance prediction aiming at development of in-vehicle information system based on dialogue. It is necessary to judge whether the utterance is out of prediction because users may not do the utterance that the system predicted beforehand. In this study, we propose an utterance prediction method based on matching rate of the recognition results obtained by performing recognitions of the prediction sentence and phoneme. Moreover, we applied a recognition method by norrowing of candidate sentence using DP matching of the phoneme recognition result that we proposed. We conducted experiments using 3399 utterances by 11 speakers in setting a destination of a car navigation system. As a result, a speech recognition accuracy was 83.4% and utterance prediction accuracy was 91.9%. Therefore, we demonstrated that the proposed method was effective in a spoken dialogue system.
予測文と音素認識の併用による発話の予測内外判定に関する検討

真柄皓介, 西田昌史, 堀内靖雄, 市川熹

情報処理学会研究報告 2007(75(SLP-67)) 103-108 2007年7月20日
運転時における心的負荷抑制のための音声対話戦略の分析

西田昌史, 野田幸志, 堀内靖雄, 市川熹, 矢嶋浩司, 里見真一, 松尾典義

自動車技術会学術講演会前刷集 (60-07) 7-10 2007年5月23日
日本手話の後続うなずきの機能に関する検討

堀内靖雄, 亀崎紘子, 今井裕子, 西田昌史, 市川熹

電子情報通信学会技術研究報告 107(61(WIT2007 1-15)) 63-68 2007年5月17日

対話型言語である日本語音声言語と日本手話言語の対話におけるうなずきを比較分析した結果、発話末のうなずきに関して、両言語間で異なる傾向が見られた。そこで、日本手話の発話末のうなずきについて詳細に分析した結果、最後の単語に同期にするうなずきと最後の単語に後続するうなずきの二種類のうなずきが観察された。それらのうなずきについて、手話熟達者に聞き取り調査を行なった結果、後続うなずきは単語と共起することなく単独で出現し、接続詞等と同等の機能を有することが示唆された。
指点字の強度と時間構造におけるプロソディ情報の分析

宮城愛美, 宮澤健二, 植野彰規, 西田昌史, 堀内靖雄, 市川熹, 野城真理

電子情報通信学会技術研究報告 107(61(WIT2007 1-15)) 25-28 2007年5月17日

指点字は盲ろう者のコミュニケーション手段の一つで,高速かつ正確な文字伝達が可能なため支援技術に適していると考えられる.これまでの研究結果から,指点字を打つ時の時間構造と強度にプロソディ情報が含まれると予想した.本研究では表面筋電位によって計測された指点字の強度と時間構造との関係を分析した.その結果,基本文で文節末における強度の上昇と時間長の延長が見られ,協調された文節では文節末の時間長の延長と強度の上昇が確認された.この結果から,指点字の強度と時間構造に文構造と協調個所が反映されている可能性が示唆され,今後,この結果を合成出力に反映することによって指点字の理解度の向上が期待される.
日本手話の文意と韻律

田中紗織, 西田昌史, 堀内靖雄, 市川熹

ヒューマンインタフェース学会研究報告集 9(1) 13-17 2007年3月9日
視覚障碍者のアクセシビリティを考慮したWeb作成支援ツールの提案

西田昌史, 田口雅浩, 堀内靖雄, 市川熹

日本音響学会研究発表会講演論文集(CD-ROM) 2007 2-8-9-346 2007年3月6日
意味情報を利用した視覚障碍者が連想しやすい仮名漢字変換手法

西田昌史, 松村映子, 堀内靖雄, 市川熹

日本音響学会研究発表会講演論文集(CD-ROM) 2007 2-8-8-344 2007年3月6日
発言権を考慮した指点字と文字による会議システムの構築

宮城愛美, 西田昌史, 堀内靖雄, 市川熹

電子情報通信学会論文誌. D, 情報・システム = The IEICE transactions on information and systems (Japanese edition) 90(3) 732-741 2007年3月1日

本研究では,視覚と聴覚に障害のある盲ろう者が,指点字を使用して参加可能な会議システムについて検討した.盲ろう者が指点字,健常者が文字を使用する会議システムを想定する際,メディアの違いに起因して,盲ろう者の発言と読取りが困難な状況が予想される.指点字による発信・受信を保証するため,発言の伝達情報量と呈示速度を制御する「発言権」という機能を導入した.指点字の入出力を模擬したインタフェースを使用して,32人の被験者によるシミュレーション実験を行い,「発言権」を評価した.提案システムにおいてグループ内の被験者で同程度の発言回数・発言文字数が達成され,機能の有効性が示された.また,盲ろう者が参加したシステム評価実験により,試作した会議システムの実現の可能性が見出せた.
日本手話の文意と韻律

田中紗織, 西田昌史, 堀内靖雄, 市川熹

ヒューマンインタフェース学会研究報告集 : human interface 9(1) 13-17 2007年2月17日
Collaboration between Linguistics and Engineering in Generating Animation of Japanese Sign Language: the Development of sIGNDEX Vol.3

Daisuke Hara, Kazuyuki Kanda, Yuji Nagashima, Akira Ichikawa, Mina Terauchi, Kazunari Morimoto, Yoshiaki Shirai, Yasuo Horiuchi, Kaoru Nakazono

CHALLENGES FOR ASSISTIVE TECHNOLOGY 20 261-265 2007年

This paper discusses the blueprint on what the sign language animation generating system as assistive technology should be. We argue that the animation generating system should incorporate the linguistic knowledge and that by so doing, we can develop an efficient and error-free, and consequently user-friendly system.
Unsupervised Training of Adaptation Rate Using Q-learning in Large Vocabulary Continuous Speech Recognition

Masafumi Nishida, Yasuo Horiuchi, Akira Ichikawa

INTERSPEECH 2007: 8TH ANNUAL CONFERENCE OF THE INTERNATIONAL SPEECH COMMUNICATION ASSOCIATION, VOLS 1-4 2 1113-1116 2007年

This paper describes a novel approach based on unsupervised training of the MAP adaptation rate using Q-learning. Q-learning is a reinforcement learning technique and is a computational approach to learning whereby an agent tries to maximize the total amount of reward it receives when interacting with a complex, uncertain environment. The proposed method defines the likelihood of the adapted model as a reward and learns a weight factor that indicates the relative balance between the initial model and adaptation data without the need for supervised data. We conducted recognition experiments on a lecture using a corpus of spontaneous Japanese. We were able to estimate the optimal weight factor using Q-learning in advance. MAP adaptation using the weight factor estimated with the proposed method acquired recognition accuracy that was equivalent to MAP adaptation using a weight factor determined experimentally.
予測文と部分単語認識の併用による音声対話システムの検討

河上まきほ, 西田昌史, 堀内靖雄, 市川熹

情報処理学会研究報告 2006(136(SLP-64)) 43-48 2006年12月21日

これまで我々は、対話状態を予測しその状態ごとに発話内容を文単位で予測することで、認識候補数の抑制を行ってきた。しかし、予測文での認識では複合語など比較的長い単語を含む発話において、単語の一部が正しく認識されていたとしても、文全体を再度確認する処理を行っており、誤認識を繰り返すおそれがあった。そこで、本研究では、予測文に含まれる複合語などの比較的長い単語を分割した部分単語認識と予測文認識を並列処理することで、認識候補を絞り込んで認識結果を確定する手法を提案する。カーナビゲーションシステムの目的地設定の場面を想定し評価実験を行った結果、完全一致したときは確認応答を省略し、発話内容を含む部分一致のときは、正しく認識候補を絞り込んで確認応答処理ができる可能性を示した。We have proposed a method that predicts user's utterances in spoken dialogue systems by recognizing prediction sentences of each dialogue state, thereby decreasing recognition errors. However, the conventional method might repeat recognition errors because it confirms the whole sentence even if it recognizes only a part of a long word, such as a compound word, correctly. In this study, we propose a method using decoders based on prediction sentences and partial woeds obtained by dividing long words. The proposed method can confirm user's utterances by selecting a candidate to a partial matched word using recognition results of the prediction sentence and a divided partial word. We conducted experiments in setting a destination of a car navigation system. We demonstrated that it is possible to confirm user's utterances effectively using the proposed method by selecting recognition candidates.
心的負荷状況における車載情報機器のための音声対話戦略の分析

野田幸志, 西田昌史, 堀内靖雄, 市川熹

情報処理学会研究報告 2006(136(SLP-64)) 149-154 2006年12月21日

我々は、対話による車載情報機器の音声インターフェースの構築を目指している。運転時においては、安全性、即時性といった観点からユーザに心的負荷をかけずにシステムとの効率的な音声対話を実現する必要がある。そこで、本研究では、カーナビゲーションシステムの飲食店検索に場面を設定し、システムが音声で提示する情報量やユーザの目的意識の違いなどに着目して、対話時における心的負荷の影響について検討を行った。音声対話は WoZ 法を用いて行い、二重課題法と NASA-TLX により対話時の負荷量について分析を行なった。その結果、音声で提示する情報量が多く、ユーザの目的意識が低い場合に対話時の負荷量が大きくなることが明らかとなった。We aim to construct a spoken dialogue system for in-vehicle information system. It is necessary to achieve an efficient spoken dialogue by controlling a mental workload from the viewpoint of safety and immediateness when a driver uses a speech interface under driving condition. In this study, we focused on user's sense of purpose and amount of output information from a system in a restaurant retrieval of a car navigation system and studied the mental workload of the spoken dialogue when a driver uses an in-vehicle information system by speech interface. We conducted spoken dialogue experiments based on the WoZ method and analyzed the mental workload by using dual-task method and NASA-TLX. As a result, it demonstrated that the mental workload increased when the amount of speech information by the system were large and user's sense of purpose were low.
音声対話システムにおける音素認識に基づく予測文候補の絞込み

寺師弘将, 西田昌史, 堀内靖雄, 市川熹

情報処理学会研究報告 2006(136(SLP-64)) 101-106 2006年12月21日

我々は、複数の車載情報機器の操作を対象とした音声対話システムの構築を目指している。運転時には、安全性や即時性という観点から早期にドメインならびに発話内容を特定する必要がある。これまで我々は、談話タグに基づいて対話状態を定義し状態ごとの予測文に基づく音声対話手法を提案した。しかし、マルチドメインによる音声対話では対話状態や予測文数が多くなり、ドメインならびに発話内容の特定が困難となる。そこで、本研究では従来の予測文認識と音素認識を併用した２段階の音声認識手法を提案する。本手法は、まず音素認識を行い、その結果と全ドメインの予測文候補との DP マッチングを行う。その上位候補に絞り込んだ予測文に対して音声認識を行う。複数の車載情報機器の操作を想定した評価実験を行った結果、全ドメインの予測文を対象とした認識精度が87.9％に対して、提案手法により96.3％の認識精度が得られ、提案手法が有効であることがわかった。We aim to construct a spoken dialogue system for multiple in-vehicle information system. It is necessary recognize a domain and utterance correctly from the viewpoint of safety and immediateness under driving condition. We have proposed a method that predicts user's utterances by recognizing prediction sentences of each dialogue state based on discours tags. However, it is difficult to recognize the domain and utterance in the spoken dialogue of multi-domain because there are lot of dialogue states and prediction sentences. In this study, we propose a method using the prediction sentence and phoneme recognition. The method performs the phoneme recognition and compares the recognition result with the prediction sentence all domain by DP matching and recognizes for prediction sentence candidates obtained by DP matching. We conducted experiments in multiple in-vehicle information system. As a result, recognition accuracy was 87.9% for prediction sentences all domain and was 96.3% by the proposed method. Therefore, the proposed method was effective in the spoken dialogue of multi-domain.
予測文と部分単語認識の併用による音声対話システムの検討

河上まきほ, 西田昌史, 堀内靖雄, 市川熹

電子情報通信学会技術研究報告. SP, 音声 106(443) 43-48 2006年12月14日

これまで我々は,対話状態を予測しその状態ごとに発話内容を文単位で予測することで,認識候補数の抑制を行ってきた.しかし,予測文での認識では複合語など比較的長い単語を含む発話において,単語の一部が正しく認識されていたとしても,文全体を再度確認する処理を行っており,誤認識を繰り返すおそれがあった.そこで,本研究では,予測文に含まれる複合語などの比較的長い単語を分割した部分単語認識と予測文認識を並列処理することで,認識候補を絞り込んで認識結果を確定する手法を提案する.カーナビゲーションシステムの目的地設定の場面を想定し評価実験を行った結果,完全一致したときは確認応答を省略し,発話内容を含む部分一致のときは,正しく認識候補を絞り込んで確認応答処理ができる可能性を示した.
音声対話システムにおける音素認識に基づく予測文候補の絞込み

寺師弘将, 西田昌史, 堀内靖雄, 市川熹

電子情報通信学会技術研究報告. SP, 音声 106(443) 101-106 2006年12月14日

我々は、複数の車載情報機器の操作を対象とした音声対話システムの構築を目指している。運転時には、安全性や即時性という観点から早期にドメインならびに発話内容を特定する必要がある。これまで我々は、談話タグに基づいて対話状態を定義し状態ごとの予測文に基づく音声対話手法を提案した。しかし、マルチドメインによる音声対話では対話状態や予測文数が多くなり、ドメインならびに発話内容の特定が困難となる。そこで、本研究では従来の予測文認識と音素認識を併用した2段階の音声認識手法を提案する。本手法は、まず音素認識を行い、その結果と全ドメインの予測文候補とのDPマッチングを行う。その上位候補に絞り込んだ予測文に対して音声認識を行う。複数の車載情報機器の操作を想定した評価実験を行った結果、全ドメインの予測文を対象とした認識精度が87.9%に対して、提案手法により96.3%の認識精度が得られ、提案手法が有効であることがわかった。
心的負荷状況における車載情報機器のための音声対話戦略の分析

野田幸志, 西田昌史, 堀内靖雄, 市川熹

電子情報通信学会技術研究報告. SP, 音声 106(443) 149-154 2006年12月14日

我々は,対話による車載情報機器の音声インタフェースの構築を目指している.運転時においては,安全性,即時性といった観点からユーザに心的負荷をかけずにシステムとの効率的な音声対話を実現する必要がある.そこで,本研究では,カーナビゲーションシステムの飲食店検索に場面を設定し,システムが音声で提示する情報量やユーザの目的意識の違いなどに着目して,対話時における心的負荷の影響について検討を行った.音声対話はWoZ法を用いて行い,二重課題法とNASA-TLXにより対話時の負荷量について分析を行った.その結果,音声で提示する情報量が多く,ユーザの目的意識が低い場合に対話時の負荷量が大きくなることが明らかとなった.
予測文と部分単語認識の併用による音声対話システムの検討

河上まきほ, 西田昌史, 堀内靖雄, 市川熹

電子情報通信学会技術研究報告. NLC, 言語理解とコミュニケーション 106(441) 43-48 2006年12月14日

これまで我々は,対話状態を予測しその状態ごとに発話内容を文単位で予測することで,認識候補数の抑制を行ってきた.しかし,予測文での認識では複合語など比較的長い単語を含む発話において,単語の一部が正しく認識されていたとしても,文全体を再度確認する処理を行っており,誤認識を繰り返すおそれがあった.そこで,本研究では,予測文に含まれる複合語などの比較的長い単語を分割した部分単語認識と予測文認識を並列処理することで,認識候補を絞り込んで認識結果を確定する手法を提案する.カーナビゲーションシステムの目的地設定の場面を想定し評価実験を行った結果,完全一致したときは確認応答を省略し,発話内容を含む部分一致のときは,正しく認識候補を絞り込んで確認応答処理ができる可能性を示した.
音声対話システムにおける音素認識に基づく予測文候補の絞込み

寺師弘将, 西田昌史, 堀内靖雄, 市川熹

電子情報通信学会技術研究報告. NLC, 言語理解とコミュニケーション 106(441) 101-106 2006年12月14日

我々は、複数の車載情報機器の操作を対象とした音声対話システムの構築を目指している。運転時には、安全性や即時性という観点から早期にドメインならびに発話内容を特定する必要がある。これまで我々は、談話タグに基づいて対話状態を定義し状態ごとの予測文に基づく音声対話手法を提案した。しかし、マルチドメインによる音声対話では対話状態や予測文数が多くなり、ドメインならびに発話内容の特定が困難となる。そこで、本研究では従来の予測文認識と音素認識を併用した2段階の音声認識手法を提案する。本手法は、まず音素認識を行い、その結果と全ドメインの予測文候補とのDPマッチングを行う。その上位候補に絞り込んだ予測文に対して音声認識を行う。複数の車載情報機器の操作を想定した評価実験を行った結果、全ドメインの予測文を対象とした認識精度が87.9%に対して、提案手法により96.3%の認識精度が得られ、提案手法が有効であることがわかった。
心的負荷状況における車載情報機器のための音声対話戦略の分析

野田幸志, 西田昌史, 堀内靖雄, 市川熹

電子情報通信学会技術研究報告. NLC, 言語理解とコミュニケーション 106(441) 149-154 2006年12月14日

我々は,対話による車載情報機器の音声インタフェースの構築を目指している.運転時においては,安全性,即時性といった観点からユーザに心的負荷をかけずにシステムとの効率的な音声対話を実現する必要がある.そこで,本研究では,カーナビゲーションシステムの飲食店検索に場面を設定し,システムが音声で提示する情報量やユーザの目的意識の違いなどに着目して,対話時における心的負荷の影響について検討を行った.音声対話はWoZ法を用いて行い,二重課題法とNASA-TLXにより対話時の負荷量について分析を行った.その結果,音声で提示する情報量が多く,ユーザの目的意識が低い場合に対話時の負荷量が大きくなることが明らかとなった.
視覚障害者のアクセシビリティを考慮した Web ページ作成のためのビルダの検討

田口雅浩, 西田昌史, 堀内靖雄, 市川熹

ヒューマンインタフェース学会研究報告集 : human interface 8(5) 125-130 2006年12月6日

所属学協会

Works(作品等)

もっとみる

共同研究・競争的資金等の研究課題

対話型自然言語の韻律に関する音声と手話の横断的分析

日本学術振興会科学研究費助成事業 2020年4月 - 2024年3月

堀内靖雄
多用途型日本手話言語データベース構築に関する研究

日本学術振興会科学研究費助成事業 2017年5月 - 2021年3月

長嶋祐二, 原大介, 堀内靖雄, 酒向慎司
作曲・演奏・信号の数理モデルに基づく音楽の生成と解析の研究

日本学術振興会科学研究費助成事業 2017年4月 - 2020年3月

嵯峨山茂樹, 北原鉄朗, 齋藤康之, 堀玄, 小野順貴, 中村和幸, 堀内靖雄, 齋藤大輔, 饗庭絵里子
言語聴覚士の会話技術の分析に基づく失語症者の単語思い出し支援手法

日本学術振興会科学研究費助成事業 2016年4月 - 2019年3月

黒岩眞吾, 堀内靖雄, 村西幸代, 古川大輔
モダリティが異なる対話型自然言語としての手話と音声の韻律機能の解明

日本学術振興会科学研究費助成事業 2015年4月 - 2019年3月

堀内靖雄

もっとみる

一覧へ戻る

堀内 靖雄

基本情報

研究分野

受賞

主要な論文

MISC

所属学協会

Works(作品等)

共同研究・競争的資金等の研究課題

堀内靖雄