黒岩眞吾

クロイワシンゴ (Shingo Kuroiwa)

基本情報

所属: 千葉大学大学院工学研究院教授

学位: 博士(電気通信大学大学院電気通信学研究科電子工学専攻)

研究者番号: 20333510
J-GLOBAL ID: 200901017262764603
researchmap会員ID: 1000356498

外部リンク: http://www.ailab.tj.chiba-u.jp/~kuroiwa/

研究キーワード

研究分野

経歴

2007年10月 - 現在

千葉大学大学院工学研究院教授

受賞

2017年4月

2017年電気通信大学同窓会賞, 音声認識システムの実用化，失語症の方向けのコミュニケーション支援機器の開発等で大きく社会に貢献一般社団法人目黒会

黒岩眞吾
2017年3月

千葉エリア産学官連携オープンフォーラム2016千葉大学長賞（優秀賞）ロボットやタブレットを活用した『失語症者向け言語訓練システム』千葉大学

黒岩眞吾
1997年

第５回（平成９年度）技術開発賞日本音響学会

黒岩眞吾, 中村誠, 山本誠一, 酒寄信一, 武笠貴史, 藤岡雅宣, 阿部信子
1997年

社長表彰(業務改善) 国際電信電話株式会社

黒岩眞吾, 中村誠, 山本誠一, 酒寄信一, 武笠貴史, 藤岡雅宣, 阿部信子
1997年

平８年度電子情報通信学会学術奨励賞電子情報通信学会

山本誠一, 武田一哉, 井ノ上直己, 黒岩眞吾

もっとみる

論文

136

Food Recognition Using Large-scale Pre-trained Speech Models

Satoshi Naito, Masafumi Nishimura, Masafumi Nishida, Yasuo Horiuchi, Shingo Kuroiwa

GCCE 2024 - 2024 IEEE 13th Global Conference on Consumer Electronics 119-120 2024年

Obese and overweight individuals are at high risk for chronic diseases such as sleep apnea and diabetes. Therefore, it is necessary to track eating behavior to determine the causes of obesity; however, it is time- and labor-intensive to follow the lives of specific individuals and observe their eating behavior. Thus, a method to automatically monitor eating behavior should be considered. As one approach to monitoring methods, we propose a method for convenient recognition of food category for food intake sounds recorded by microphones (below the ear microphone, throat microphone and acoustic microphone), which is less burdensome to the body and better from the viewpoint of privacy protection. Furthermore, a comparison of MFB and large-scale pre-trained speech models (wav2vec2.0, wavLM, and HuBERT) showed the effectiveness of large-scale pre-trained speech models in the food recognition task.
Text-Dependent Speaker Verification Using SSI-DNN Trained on Short Utterance

Kentaro Kameda, Satoru Tsuge, Shingo Kuroiwa, Yasuo Horiuchi, Masafumi Nishida

GCCE 2024 - 2024 IEEE 13th Global Conference on Consumer Electronics 808-810 2024年

To enhance speaker verification for short utterances, we have developed a Same Speaker Identification Deep Neural Network (SSI-DNN). This network identifies whether two utterances are uttered by the same speaker with greater accuracy by focusing on the same texts. In this paper, we extend the detection target of the SSI-DNN from monosyllabic utterances to word utterances to improve the speaker recognition performance. Experimental results showed that the SSI-DNN trained on word utterances achieved an EER of 0.1% to 2.8%. These results indicated that the SSI-DNN outperformed the x-vector-based speaker verification method, which is a representative speaker verification method.
Template-Based Speech Recognition Using Pre-trained Large Speech Models for Voice-Activated Shower Control

Takumi Uehara, Shingo Kuroiwa, Yasuo Horiuchi, Masafumi Nishida, Satoru Tsuge

GCCE 2024 - 2024 IEEE 13th Global Conference on Consumer Electronics 141-143 2024年

Hands-free control of shower settings, such as temperature, is highly desirable, enhancing user convenience when both hands are occupied or eyes are closed. In this paper, we propose a speaker-dependent, template-based isolated word recognition system using pre-trained large speech models (LSMs) to realize voice-activated shower control with a single microphone. Specifically, we examine the performance of 3 LSMs (wav2vec2.0, HuBERT, WavLM) as well as conventional MFCC as features. Additionally, we investigate speech enhancement using a Convolutional Recurrent Neural Network (CRN) to improve robustness against shower noise. Our experiments for recognizing 30 words with SNRs ranging from -5 dB to 20 dB demonstrate that HuBERT achieves the highest recognition accuracy (77.8 to 95.6%). CRN, on the other hand, improved recognition accuracy only under -5 dB conditions, but its accuracy was only 80.8%.
Emotion-Dependent Speaker Verification Based on Score Integration

Hibiki Takayama, Masafumi Nishida, Satoru Tsuge, Shingo Kuroiwa

GCCE 2024 - 2024 IEEE 13th Global Conference on Consumer Electronics 805-807 2024年

Recent advances in AI technology have brought not only many benefits but also considerable risks due to malicious use of the technology. One key example is spoofing through speech synthesis and voice conversion technologies against speaker verification system. To tackle this challenge, we proposed a two-step matching method as a robust speaker verification, in which a user specifies an emotion to a system in advance, and the user is accepted only when the user speaks with the specified emotion. This previous method reduced the false acceptance rate. However, the false rejection rate increased. To overcome this problem, we propose a novel method that integrates speaker and emotion verification scores in this work. Experiments revealed that the proposed method can reduce the equal error rate compared with that of the conventional method to assign the optimal weight to the speaker and emotional information contained in the speech.
Utterance-style-dependent Speaker Verification by Utilizing Emotions

Hibiki Takayama, Masafumi Nishida, Satoru Tsuge, Shingo Kuroiwa, Masafumi Nishimura

2023 IEEE 12th Global Conference on Consumer Electronics (GCCE) 2023年10月10日

もっとみる

MISC

588

CENSREC-3 : 実走行車内単語音声データベースと評価環境の構築

藤本雅清, 中村哲, 武田一哉, 黒岩眞吾, 山田武志, 北岡教英, 山本一公, 水町光徳, 西浦敬信, 佐宗晃, 宮島千代美, 遠藤俊樹

電子情報通信学会技術研究報告. NLC, 言語理解とコミュニケーション 104(539) 145-150 2004年12月21日

本稿では,SLP雑音下音声認識評価ワーキンググループの活動成果として,自動車内音声認識の評価用データベースCENSREC-3と,標準評価スクリプトによるベースライン評価結果について述べる.CENSREC-3は,AURORA-2Jに続く雑音下音声認識の標準評価環境であり,実走行車内での孤立単語音声認識の評価環境を提供する.音声データの収録は,接話マイクロホンと遠隔マイクロホンの2種類を用いて,3種類の走行速度と6種類の車内環境を組み合わせた16種類の環境下で行っており,これらの音声データを用いた6種類の評価環境を提供する.
実環境下音声認識の評価の標準化とその動向

中村哲, 武田一哉, 黒岩眞吾, 北岡教英, 山田武志, 山本一公, 西浦敬信, 佐宗晃, 水町光徳, 宮島千代美, 藤本雅清, 遠藤俊樹

電子情報通信学会技術研究報告. SP, 音声 104(542) 49-54 2004年12月21日

現在の音声認識は,実使用環境に存在する雑音などの外的要因により性能劣化を免れない.このため,これまで数々の研究が行われてきた.しかしながら,異なるタスク,異なる評価データが用いられてきたため性能の比較が非常に困難であった.このため,米国や欧州で種々のプロジェクトが企画された.本稿では,これらのプロジェクトと日本において著者らが進めている雑音下音声認識の評価フレームワーク構築の活動についての現状と今後の予定,狙いについて述べる.
CENSREC-3 : 実走行車内単語音声データベースと評価環境の構築

藤本雅清, 中村哲, 武田一哉, 黒岩眞吾, 山田武志, 北岡教英, 山本一公, 水町光徳, 西浦敬信, 佐宗晃, 宮島千代美, 遠藤俊樹

電子情報通信学会技術研究報告. SP, 音声 104(542) 145-150 2004年12月21日

本稿では,SLP雑音下音声認識評価ワーキンググループの活動成果として,自動車内音声認識の評価用データベースCENSREC-3と,標準評価スクリプトによるベースライン評価結果について述べる.CENSREC-3は,AURORA-2Jに続く雑音下音声認識の標準評価環境であり,実走行車内での孤立単語音声認識の評価環境を提供する.音声データの収録は,接話マイクロホンと遠隔マイクロホンの2種類を用いて,3種類の走行速度と6種類の車内環境を組み合わせた16種類の環境下で行っており,これらの音声データを用いた6種類の評価環境を提供する.
Earth Mover's Distance を用いた分散型話者認識

梅田良幸, 福田一平, 柘植覚, 任福継, 黒岩眞吾

電子情報通信学会技術研究報告. SP, 音声 104(252) 25-30 2004年8月12日

本稿では分散型話者認識において, GMMのような統計的モデルを仮定しないノンパラメトリックな話者認識手法を提案する.話者モデルと認識対象データはそれぞれ,話者登録用音声並びに認識対象音声から得られた特徴パラメータを量子化したデータの集合(ノンパラメトリックな分布)で構成される.話者認識時には,各特徴パラメータの集合間の距離を計算し,最も距離の小さい話者モデルを認識話者とする.話者認識時に必要となる距離尺度には,ある2つの分布間において,一方の分布を他方の分布に変換するための最小のコストにより距離を定義するEarth Mover's Distance を用いる.提案手法の有効性を検証するため,特徴パラメータ抽出にETSI標準DSRフロントエンドを用いて,男性話者21名によるテキスト独立型話者識別実験を行った.実験の結果. GMMを用いた話者識別に比べ識別誤り率を, 8kHzサンプリングにおいて67.7%, 16kHzサンプリングにおいて75.0%削減することができた.
複数雑音モデルを用いた風雑音除去手法

森陽司, 柘植覚, 任福継, 黒岩眞吾

電子情報通信学会技術研究報告. SP, 音声 104(252) 31-36 2004年8月12日

近年,携帯型撮影機器が広く普及し,野外撮影の機会が増加している.しかし,屋外撮影においては風雑音の影響を受け音質の劣化を招くという問題がある.現在,風雑音対策として風防が用いられているが,その雑音抑制能力は十分とは言えず,強風下において音質の劣化が生じてしまう.そこで,本稿では信号処理による風雑音除去手法に注目した.従来,信号処理による雑音除去手法として,スぺクトルサブトラクション(SS:Spectral Subtraction)法が有効な手法として知られている.SS法は定常性雑音環境に対しては,有効な手法であるが,非定常雑音環境下では雑音の推定が困難であるため,風雑音に対して十分な効果を得るのが難しい.そこで,本稿では複数の雑音モデルを用いて風雑音のスぺクトルおよびゲインを推定し,SS法を用いて雑音除去を行う手法を提案する.提案手法の有効性を評価するため,主観評価及び客観評価を行なった.
Missing Feature Theory applied to Robust Speech Recognition over IP Network (共著)

IEICE Transactions on Information and Systems E87D(5) 1119-1126 2004年5月
音声による個人認証技術の現状と展望 : 今, なすべきことは何か!

松井知子, 黒岩眞吾

電子情報通信学会誌 = THE JOURNAL OF THE INSTITUTE OF ELECTRONICS, INFOMATION AND COMMUNICATION ENGINEERS 87(4) 314-321 2004年4月1日

話者認識技術はElectronic Commerce(EC)において,身体的な特徴を利用した個人認証技術,バイオメトリックス技術の一つとして期待されている.本稿では,国内外の市場動向や標準化活動,実用化例の紹介,及び最新の話者認識技術やその研究課題及び実用化における課題についての説明を通じて,今,話者認識の研究開発において何をすべきかを考察する.
音声による個人認証技術の現状と展望, . 今，なすべきことは何か! (共著)

電子情報通信学会誌 87(4) 314-321 2004年
Speaker Recognition using a Non-parametric Speaker Model Representation and Earth Mover’s Distance (共著)

International Workshop on statistical modeling approach for speech recognition, “BEYOND HMM”, printed as the technical report of IEICE SP2004-95 104(541) 85-90 2004年
A Junior High School Science Education Support System Using Natural Language Processing Techniques (共著)

Proceedings of the third International Conference on Information 235-238 2004年
Speaker Recognition for Mobile Communication Systems (共著)

Proceedings of the third International Conference on Information 231-234 2004年
Chinese Korean Machine Translation System Using Super-Function (共著)

Proceedings of the third International Conference on Information 223-226 2004年
Natural Language Generation for Technical Analysis of Stock Market Using Extended Super-Function (共著)

Proceedings of the third International Conference on Information 219-222 2004年
An Algorithm for Measuring Human Emotions based on Context and Sentence Pattern (共著)

Proceedings of the third International Conference on Information 215-218 2004年
Histogram-based Speaker Recognition Method for Distributed Environment (共著)

Proceedings of the third International Conference on Information 211-214 2004年
Robust Distrbuted Speaker Recognition to Solve the Differences in Frequency Characteristic Problem (共著)

Proceedings of the third International Conference on Information 207-210 2004年
Robust Recognition of Expression for Individual and Generality (共著)

Proceedings of the third International Conference on Information 203-206 2004年
Evaluation of frequency characteristic normalization method with multiple reference cepstrum on the Japanese newspaper article sentences speech corpus (共著)

Proceedings of the third International Conference on Information 199-202 2004年
Super-Function based Japanese English Machine Translation Experiment and Evaluation (共著)

Proceedings of the third International Conference on Information 195-198 2004年
A Super-Function Based Japanese Chinese Machine Translation System (共著)

Proceedings of the third International Conference on Information 191-194 2004年
A method for processing Chinese “BA” sentence in Chinese Japanese machine translation system (共著)

Proceedings of the third International Conference on Information 187-190 2004年
Chinese Automatic Question Answwering System Based on Natural Language Feature and SVM (共著)

Proceedings of the third International Conference on Information 183-186 2004年
AURORA-2J: Japanese speech data collection for performance evaluation of speech recognition in noise (共著)

International Conference on Speech and Language Technology/Oriental-COCOSDA 2004 2004年
Acoustic model adaptation for coded speech using synthetic speech (共著)

8th International Conference on Spoken Language Processing (ICSLP2004) FrB1801p.9 2925-2928 2004年
Distributed Speaker Recognition using Earth Mover’s Distance (共著)

8th International Conference on Spoken Language Processing (ICSLP2004) ThC1604p.16 2389-2493 2004年
A Packet Loss Concealment Algorithm using Speech Recognition and Synthesis (共著)

The 18th International Congress on Acoustics IV 3271-3274 2004年
Internet Archive as a Source of Bilingual Dictionary (共著)

IEEE Computer Society, International Conference on Information Technology: Coding and Computing (ITCC’04) 2 298-302 2004年
Automatic Estimation of Stock Market Forecasting and Generating the Corresponding Natural Language Expression (共著)

IEEE Computer Society, International Conference on Information Technology: Coding and Computing (ITCC’04) 1 241-245 2004年
Non-negative Matrix Factorization を用いたベクトル空間情報検索モデルの次元削減手法 (共著)

柘植覚, 獅々堀正幹, 黒岩真吾, 北研二

電気学会論文誌Ｃ 124(7) 1500-1506 2004年

The Vector Space Model (VSM) is a conventional information retrieval model, which represents a document collection by a term-by-document matrix. Since term-by-document matrices are usually high-dimensional and sparse, they are susceptible to noise and are also difficult to capture the underlying semantic structure. Dimensionality reduction is a way to overcome these problems. Principal Component Analysis (PCA) and Singular Value Decomposition (SVD) are popular techniques for dimensionality reduction based on matrix decomposition, however they contain both positive and negative values in the decomposed matrices. In the work described here, we use Non-negative Matrix Factorization (NMF) for dimensionality reduction of the vector space model. Since matrices decomposed by NMF only contain non-negative values, the original data are represented by only additive, not subtractive, combinations of the basis vectors. This characteristic of parts-based representation is appealing because it reflects the intuitive notion of combining parts to form a whole. Using MEDLINE collection, we experimentally showed that NMF offers great improvement over the vector space model.
周波数特性の変動に頑健な実時間分散音声認識手法

柘植覚, 黒岩眞吾, 原一眞, 北研二

情報処理学会研究報告音声言語情報処理（SLP） 2003(124) 13-18 2003年12月18日

携帯電話やPDAなどの携帯端末の音声認識手法として分散音声認識手法（DSR: Distributed Speech Recoginition）が近年提案された。DSRでは，携帯端末とサーバ間で伝送するデータ形式等を共通化する必要があり、現在、ETSIにおいて標準化が進められている。標準化の一環として、2000年4月にはETSI標準DSRフロントエンド、2002年10月には雑音対策手法などを追加したETSI Advanced DSRフロントエンドが勧告された。携帯端末は多種多様であり、使用される入力デバイスの周波数特性には差異が生じる。この差異は特徴パラメータ圧縮時のベクトル量子化歪みを増加させ、音声認識性能劣化の要因の一つとなる。そこで、本稿では、周波数特性を正規化する手法を提案する。提案手法は、各フレーム毎に複数の参照ケプストラムと特徴パラメータを比較し、参照ケプストラムに入力ケプストラムが近づくように周波数特性を正規化する。実際には，入力音声の音素列を推定し、各音素の特徴パラメータの平均が音響モデル学習時の特徴パラメータの平均と一致するように入力特徴パラメータを平行移動させ、周波数特性を正規化する。音声認識実験結果より、提案手法はATSI Advanced DSRフロントエンドで使用されているBlind Equalization手法より高い認識性能を示した。特に、提案手法はMIRSフィルタ条件下でETSI Advanced DSRフロントエンドの単語誤り率を17.88％削減（16.67％→13.69％）することが可能であった。In this paper, we focus on the influence on recognition performance of DSR with acoustic mismatches caused by input devices. DSR employs a vector quantization (VQ) algorithm for feature compression so that VQ distortion is increased by acoustic mismatches. Large VQ distortions increase the speech recognition error rate. To overcome the problem of VQ distortion, we have proposed the Bias Removal Method (BRM) in previous work. However, this method can not be applied in real-time. Therefore, in this paper, we propose a Real-time Bias Removal Method (RBRM). This method estimates the bias using, past frames and multiple reference cepstrum vectors instead of one reference which is employed by ETSI advanced DSR front-end. Experimental results on a Japanese newspaper dictation task indicate that the proposed method showed improvement in the recognition performance for blind equalization in ETSI advanced DSR front-end under acoustic mismatched conditions.
AURORA - 2Jを用いた ETSI STQ Aurora WI008 Advanced DSR Frontendの評価

山田武志, 武田一哉, 北岡教英, 藤本雅清, 黒岩眞吾, 山本一公, 西浦敬信, 佐宗晃, 水町光徳, 遠藤俊樹, 中村哲

情報処理学会研究報告音声言語情報処理（SLP） 2003(124) 103-108 2003年12月18日

本稿では、分散型音声認識のための標準フロントエンドであるETSI ES201 (WI007)とETSI ES202 (WI008)の性能をAURORA-2Jを用いて比較評価する．その際，AURORA2やAURORA-2Jで採用している平均的な認識性能を表す評価指標に加えて，話者毎の認識性能を表す評価指標を用いる．具体的には，話者毎の単語正解精度の最大値，最小値，平均値，標準偏差，話者毎の単語正解精度のヒストグラム，単語正解精度がx％以上の話者の割合である．その結果，WI008の認識性能は，WI007を大幅に上回っていることが確認できた．その一方で，話者毎の認識性能には，さらなる改善が必要であることが分かった．This paper describes the results of comparative evaluation of ETSI ES201 (WI007) and ETSI ES202 (WI008), which are the standard frontends for distributed speech recognition. As the evaluation index, the word accuracy for each speaker is used in addition to the overall word accuracy. The experimental results using AURORA-2J confirmed that the WI008 achieves much better recognition performance than the WI007, and the WI008 still has the problem of speaker dependency.
周波数特性の変動に頑健な実時間分散音声認識手法

柘植覚, 黒岩眞吾, 原一眞, 北研二

電子情報通信学会技術研究報告. NLC, 言語理解とコミュニケーション 103(517) 13-18 2003年12月11日

携帯電話やPDAなどの携帯端末の音声認識手法として分散音声認識手法(DSR: Distributed Speech Recognition)が近年提案された。DSRでは、携帯端末とサーバ間で伝送するデータ形式等を共通化する必要があり、現在、ETSIにおいて標準化が進められている。標準化の一環として、2000年4月にはETSI標準DSRフロントエンド、.2002年10月には雑音対策手法などを追加したETSI Advanced DSRフロントエンドが勧告された。携帯端末は多種多様であり、使用される入力デバイスの周波数特性には差異が生じる。この差異は特徴パラメータ圧縮時のベクトル量子化歪みを増加させ、音声認識性能劣化の要因の一つとなる。そこで、本稿では、周波数特性を正規化する手法を提案する。提案手法は、各フレーム毎に複数の参照ケプストラムと特徴パラメータを比較し、参照ケプストラムに入力ケプストラムが近付くように周波数特性を正規化する。実際には、入力発声の音素列を推定し、各音素の特徴パラメータの平均が音響モデル学習時の特徴パラメータの平均と一致するように入力特徴パラメータを平行移動させ、周波数特性を正規化する。音声認識実験結果より、提案手法はETSI Advanced DSRフロントエンドで使用されているBlind Equalization手法より高い認識性能を示した。特に、提案手法はMIRSフィルタ条件下でETSI Advanced DSRフロントエンドの単語誤り率を17.88%削減(16.67%→13.69%)することが可能であった。
AURORA-2Jを用いたETSI STQ Aurora WI008 Advanced DSR Frontend の評価

山田武志, 武田一哉, 北岡教英, 藤本雅清, 黒岩眞吾, 山本一公, 西浦敬信, 佐宗晃, 水町光徳, 遠藤俊樹, 中村哲

電子情報通信学会技術研究報告. NLC, 言語理解とコミュニケーション 103(517) 103-108 2003年12月11日

本稿では,分散型音声認識のための標準フロントエンドであるETSI ES201(WI007)とETSI ES202(WI008)の性能をAURORA-2Jを用いて比較評価する.その際,AURORA2やAURORA-2Jで採用している平均的な認識性能を表す評価指標に加えて,話者毎の認識性能を表す評価指標を用いる.具体的には,話者毎の単語正解精度の最大値,最小値,平均値,標準偏差,話者毎の単語正解精度のヒストグラム,単語正解精度がx%以上の話者の割合である.その結果,WI008の認識性能は,WI007を大幅に上回っていることが確認できた.その一方で,話者毎の認識性能には,さらなる改善が必要であることが分かった.
周波数特性の変動に頑健な実時間分散音声認識手法

柘植覚, 黒岩眞吾, 原一眞, 北研二

電子情報通信学会技術研究報告. SP, 音声 103(519) 13-18 2003年12月11日

携帯電話やPDAなどの携帯端末の音声認識手法として分散音声認識手法(DSR: Distributed Speech Recognition)が近年提案された。DSRでは、携帯端末とサーバ間で伝送するデータ形式等を共通化する必要があり、現在、ETSIにおいて標準化が進められている。標準化の一環として、2000年4月にはETSI標準DSRフロントエンド、.2002年10月には雑音対策手法などを追加したETSI Advanced DSRフロントエンドが勧告された。携帯端末は多種多様であり、使用される入力デバイスの周波数特性には差異が生じる。この差異は特徴パラメータ圧縮時のベクトル量子化歪みを増加させ、音声認識性能劣化の要因の一つとなる。そこで、本稿では、周波数特性を正規化する手法を提案する。提案手法は、各フレーム毎に複数の参照ケプストラムと特徴パラメータを比較し、参照ケプストラムに入力ケプストラムが近付くように周波数特性を正規化する。実際には、入力発声の音素列を推定し、各音素の特徴パラメータの平均が音響モデル学習時の特徴パラメータの平均と一致するように入力特徴パラメータを平行移動させ、周波数特性を正規化する。音声認識実験結果より、提案手法はETSI Advanced DSRフロントエンドで使用されているBlind Equalization手法より高い認識性能を示した。特に、提案手法はMIRSフィルタ条件下でETSI Advanced DSRフロントエンドの単語誤り率を17.88%削減(16.67%→13.69%)することが可能であった。
AURORA-2Jを用いたETSI STQ Aurora WI008 Advanced DSR Frontend の評価

山田武志, 武田一哉, 北岡教英, 藤本雅清, 黒岩眞吾, 山本一公, 西浦敬信, 佐宗晃, 水町光徳, 遠藤俊樹, 中村哲

電子情報通信学会技術研究報告. SP, 音声 103(519) 103-108 2003年12月11日

本稿では,分散型音声認識のための標準フロントエンドであるETSI ES201(WI007)とETSI ES202(WI008)の性能をAURORA-2Jを用いて比較評価する.その際,AURORA2やAURORA-2Jで採用している平均的な認識性能を表す評価指標に加えて,話者毎の認識性能を表す評価指標を用いる.具体的には,話者毎の単語正解精度の最大値,最小値,平均値,標準偏差,話者毎の単語正解精度のヒストグラム,単語正解精度がx%以上の話者の割合である.その結果,WI008の認識性能は,WI007を大幅に上回っていることが確認できた.その一方で,話者毎の認識性能には,さらなる改善が必要であることが分かった.
雑音下音声認識のための複数の前処理手法の統合とそのAURORA - 2Jによる評価

山田武志, 岡田治郎, 武田一哉, 北岡教英, 藤本雅清, 黒岩眞吾, 山本一公, 西浦敬信, 水町光徳, 中村哲

情報処理学会研究報告音声言語情報処理（SLP） 2003(75) 95-100 2003年7月18日

様々な雑音条件下でロバストな音声認識を実現するためには，複数の雑音抑圧手法の統合が有効であると考えられる．本稿では，4つの雑音抑圧手法時間方向スムージングを用いたスペクトルサブトラクション法，時間領域SVDに基づく音声強調，GMMに基づく音声信号推定，ピッチ同期KLT）とそれらの組合せの有効性を，AURORA-2Jを用いて調べた．その結果，雑音条件によって最適な手法・組合せは異なっており，雑音条件に適したものを適宜選択することにより，認識性能を大幅に改善できることが明らかとなった．また，Multicondition trainingの場合は，雑音抑圧量を増やしても，必ずしも認識性能の改善につながらないことが分かった．To achieve high recognition performance for a wide variety of noise and for a wide range of signal-to-noise ratios, this paper presents the integration of four noise reduction algorithms: spectral subtraction with smoothing of time direction, temporal domain SVD-based speech enhancement, GMM-based speech estimation and KLT-based comb-filtering. Recognition results on the AURORA-2J task show that the effectiveness of these algorithms and their combinations strongly depends on noise conditions, and excessive noise reduction tends to degrade recognition performance in multicondition training.
AURORA - 2J/AURORA - 3Jデータベースとその評価ベースライン

山本一公, 中村哲, 武田一哉, 黒岩眞吾, 北岡教英, 山田武志, 水町光徳, 西浦敬信, 藤本雅清

情報処理学会研究報告音声言語情報処理（SLP） 2003(75) 101-106 2003年7月18日

本稿では，SLP雑音下音声認識評価ワーキンググループの活動成果として，雑音下音声認識評価用共通データベースAURORA-2Jと，その標準評価スクリプトによるベースライン評価結果について述べる．AURORA-2Jは，AURORAプロジェクトの AURORA-2データベースの日本語版として設計され，標準評価スクリプトも AURORA-2で配布されているスクリプトをベースとして開発されている．この共通評価フレームワークにより，各機関における雑音環境下音声認識手法の性能を容易に比較することが可能となり，雑音環境下音声認識手法の発展を促すことができると考えられる．また，自動車内における数字／コマンド発声データベースであるAURORA-3Jの開発進捗状況についても述べる．This paper introduces a common database, an evaluation framework, and its baseline recognition result for noisy speech recognition, AURORA-2J, as an outcome of IPSJ-SIG SLP Noisy Speech Recognition Evaluation Working Group. AURORA-2J is designed as Japanized version of the AURORA-2 database and the evaluation framework is based on the AURORA-2 baseline scripts. This common evaluation framework enables to compare various noisy speech recognition techniques on a common ground. We hope more development of noisy speech recognition techniques using this evaluation framework. We also describe about AURORA-3J, digits and speech command database in car environments.
感情計測システムについて

松本和幸, 黒岩眞吾, 任福継

電子情報通信学会技術研究報告. NLC, 言語理解とコミュニケーション 103(115) 55-60 2003年6月13日

近年,少子化や核家族化のため,高齢者が高齢者を介護しなければならない状況が現実のものとなりつつある.我々は高齢者の生活を支援し,介護を軽減させる感性を持つ福祉ロボットの研究開発を行っているが,その基礎となる研究の1つとして,人間の会話文からの感性の計測があげられる.本論文では,感性を持つ福祉ロボット構築のための会話文の感情計測アルゴリズムについて提案し,このアルゴリズムに基づくプロトタイプシステムを構築し,その妥当性を検証する.
顔特徴を用いた表情の認識

長野信男, 任福継, 黒岩眞吾

電子情報通信学会技術研究報告. NLC, 言語理解とコミュニケーション 103(115) 61-66 2003年6月13日

顔表情の認識は自然言語解析において総合的な意味解釈を行うために重要である.そこで本論文では,顔表情画像を入力とし,前処理,顔検出,特徴点抽出を経て,特徴量から表情の認識を行う.認識対象とする表情は,無表情,幸福,驚き,嫌悪,恐怖,悲しみ,怒りの7種類とする.我々は表情の認識において,一般性と個人性の両方に頑健なシステムにするため,FACSを用いて各表情毎に特徴の検出を行い,また同時に最小距離識別法を用いて顔表情辞書と照合することで総合的に判断する手法を提案する.
自然言語処理技術を用いた中学理科教授学習システム

小西優輔, 正田忠, 黒岩眞吾, 任福継

電子情報通信学会技術研究報告. NLC, 言語理解とコミュニケーション 103(115) 67-72 2003年6月13日

本稿では,自然言語処理技術を利用した中学理科教授学習システムの構築手法を提案し,現在構築中の実験システムの概要を述べる.本システムは,Super Functionを用いて学習者入力文解析,理科問題文自動生成を行なう.従来の教授学習システムでは,予め用意された提示パターンしか出さない場合が多く,また解答方式は選択式のため学習者主体の学習環境とはいえない.本システムでは解答方式は学習者の自由文入力を可能とし,間違った解答に対してはその間違いによる現実世界での現象を提示する.またシステムのインターフェースには音声認識,音声合成を用いる予定である.これにより学習者のタイピング技術に左右されず,キーボードになじめない学習者もシステムを容易に使用することが期待できる.また,本稿ではシステム構築後の評価方法の指針についても言及する.
感情計測システムについて

松本和幸, 黒岩眞吾, 任福継

電子情報通信学会技術研究報告. WIT, 福祉情報工学 103(116) 55-60 2003年6月6日

近年,少子化や核家族化のため,高齢者が高齢者を介護しなければならない状況が現実のものとなりつつある.我々は高齢者の生活を支援し, 介護を軽減させる感性を持つ福祉ロボットの研究開発を行っているが,その基礎となる研究の1つとして,人間の会話文からの感性の計測があげられる.本論文では,感性を持つ福祉ロボット構築のための会話文の感情計測アルゴリズムについて提案し,このアルゴリズムに基づくプロトタイプシステムを構築し,その妥当性を検証する.
顔特徴を用いた表情の認識

長野信男, 任福継, 黒岩眞吾

電子情報通信学会技術研究報告. WIT, 福祉情報工学 103(116) 61-66 2003年6月6日

顔表情の認識は自然言語解析において総合的な意味解釈を行うために重要である. そこで本論文では,顔表情画像を入力とし,前処理,顔検出,特徴点抽出を経て,特徴量から表情の認識を行う.認識対象とする表情は,無表情,幸福,驚き,嫌悪,恐怖,悲しみ,怒りの7種類とする.我々は表情の認識において,一般性と個人性の両方に頑健なシステムにするため, FACSを用いて各表情毎に特徴の検出を行い,また同時に最小距離識別法を用いて顔表情辞書と照合することで総合的に判断する手法を提案する.
自然言語処理技術を用いた中学理科教授学習システム

小西優輔, 正田忠, 黒岩眞吾, 任福継

電子情報通信学会技術研究報告. WIT, 福祉情報工学 103(116) 67-72 2003年6月6日

本稿では,自然言語処理技術を利用した中学理科教授学習システムの構築手法を提案し,現在構築中の実験システムの概要を述べる.本システムは, Super Functionを用いて学習者入力文解析,理科問題文自動生成を行なう.従来の教授学習システムでは,予め用意された提示パターンしか出さない場合が多く,また解答方式は選択式のため学習者主体の学習環境とはいえない.本システムでは解答方式は学習者の自由文入力を可能とし,間違った解答に対してはその間違いによる現実世界での現象を提示する.またシステムのインターフェースには音声認識,音声合成を用いる予定である.これにより学習者のタイピング技術に左右されず,キーボードになじめない学習者もシステムを容易に使用することが期待できる.また,本稿ではシステム構築後の評価方法の指針についても言及する.
感情計測システムについて

松本和幸, 黒岩眞吾, 任福継

電子情報通信学会技術研究報告. TL, 思考と言語 103(114) 55-60 2003年6月6日

近年,少子化や核家族化のため,高齢者が高齢者を介護しなければならない状況が現実のものとなりつつある.我々は高齢者の生活を支援し, 介護を軽減させる感性を持つ福祉ロボットの研究開発を行っているが,その基礎となる研究の1つとして,人間の会話文からの感性の計測があげられる.本論文では,感性を持つ福祉ロボット構築のための会話文の感情計測アルゴリズムについて提案し,このアルゴリズムに基づくプロトタイプシステムを構築し,その妥当性を検証する.
顔特徴を用いた表情の認識

長野信男, 任福継, 黒岩眞吾

電子情報通信学会技術研究報告. TL, 思考と言語 103(114) 61-66 2003年6月6日

顔表情の認識は自然言語解析において総合的な意味解釈を行うために重要である. そこで本論文では,顔表情画像を入力とし,前処理,顔検出,特徴点抽出を経て,特徴量から表情の認識を行う.認識対象とする表情は,無表情,幸福,驚き,嫌悪,恐怖,悲しみ,怒りの7種類とする.我々は表情の認識において,一般性と個人性の両方に頑健なシステムにするため, FACSを用いて各表情毎に特徴の検出を行い,また同時に最小距離識別法を用いて顔表情辞書と照合することで総合的に判断する手法を提案する.
自然言語処理技術を用いた中学理科教授学習システム

小西優輔, 正田忠, 黒岩眞吾, 任福継

電子情報通信学会技術研究報告. TL, 思考と言語 103(114) 67-72 2003年6月6日

本稿では,自然言語処理技術を利用した中学理科教授学習システムの構築手法を提案し,現在構築中の実験システムの概要を述べる.本システムは, Super Functionを用いて学習者入力文解析,理科問題文自動生成を行なう.従来の教授学習システムでは,予め用意された提示パターンしか出さない場合が多く,また解答方式は選択式のため学習者主体の学習環境とはいえない.本システムでは解答方式は学習者の自由文入力を可能とし,間違った解答に対してはその間違いによる現実世界での現象を提示する.またシステムのインターフェースには音声認識,音声合成を用いる予定である.これにより学習者のタイピング技術に左右されず,キーボードになじめない学習者もシステムを容易に使用することが期待できる.また,本稿ではシステム構築後の評価方法の指針についても言及する.
日本語音声コーパスを用いた ETSI STQ DSR Advanced Front-End の評価

柘植覚, 原一眞, 黒岩眞吾, 北研二

日本音響学会研究発表会講演論文集 2003(1) 57-58 2003年3月18日
音声認識・音声合成を用いた音声途切れ補間手法

小林邦嘉, 柘植覚, 任福継, 黒岩眞吾

日本音響学会研究発表会講演論文集 2003(1) 179-180 2003年3月18日
SLP雑音下音声認識評価のためのWG：評価データ収集について

中村哲, 武田一哉, 黒岩眞吾, 山田武志, 北岡教英, 山本一公, 西浦敬信, 藤本雅清, 水町光徳

情報処理学会研究報告音声言語情報処理（SLP） 2003(14) 51-55 2003年2月7日

本稿では，2001年10月に音声言語情報処理研究会内に設立した雑音下音声認識の評価に関するワーキンググループの活動状況の報告を行う．このワーキンググループでは，雑音下音声認識の評価のための共通のコーパスの策定、および収録、その評価法の検討を進めている．現在までに行ったデータベース収集、評価系の構築について経過報告を行う．This paper reports current status of the SLP working group establised in October 2001 on the noisy speech recognition. The working group aims to develop standards, common corpus, and noisy speech recognition system in conjunction with Europian ETSI AURORA evaluation projects. In this paper, we report current status of data collection, standard backend recognition system, snd other activities of the working grpop.
サポートベクターマシンによる適合性フィードバックを用いた情報検索

柘植覚, 獅々堀正幹, 黒岩眞吾, 北研二

情報処理学会論文誌 44(1) 59-67 2003年1月15日

近年のインターネット技術の発展により，World Wide Web（WWW）を代表とする個人で扱えるオンラインテキストデータの量が増加している．それにともない，莫大なテキストデータ中から必要な情報を検索する機会も増え，情報検索に関する研究への関心が高まっている．情報検索システムとして，検索対象文書と検索質問を多次元ベクトルで表現するベクトル空間モデル（VSM: Vector Space Model）が広く使用されている．VSMを用いた検索システムの精度を改善する手法の1つとして，適合性フィードバック手法（Relevance Feedback）が提案されている．この手法は，VSMを用いた1次検索結果に対し，利用者が適合・不適合の判断を行いその情報をシステムにフィードバックし，再検索を行うことで検索精度を向上させている．本論文では，この利用者からのフィードバック情報を検索対象文書全体の適合・不適合の判別に用いた．判別を行う識別器として，従来手法より，判別の能力が高く，汎化性に優れたサポートベクターマシン（SVM: Support Vector Machine）を用いた．このフィードバック手法をサポートベクターマシンによる適合性フィードバックとして本論文で提案する．日本語テストコレクション（BMIR-J2）を用いた類似文書検索実験において，提案手法は従来手法と比較し，利用者が判断し，システムにフィードバックされる文書数が50の場合，24.0%の検索精度改善を得ることが可能であった．With the rapid growth of online information, e.g., the World Wide Web(WWW), a large collection of full-text documents is available andopportunity for getting a useful piece of information is increased.Information Retrieval (IR) is now becoming one of the most importantissues for handling large text data.Relevance feedback is a technique that improves retrieval performancebased on relevance judgments from the user. Here, we propose therelevance feedback method using Support Vector Machine (SVM).Experiment results on Japanese test collection BMIR-J2 show that theproposed method is useful feedback method comparing to theconventional feedback method. Especially, the proposed method improvedthe performance of IR system.

講演・口頭発表等

Cross-Lingual Speaker Identification for Japanese-English Bilinguals

Ryotaro Sano, Masafumi Nishida, Satoru Tsuge, Shingo Kuroiwa, Hiroyuki Yoshimura

2023 IEEE 12th Global Conference on Consumer Electronics 2023年10月12日
Utterance-Style-Dependent Speaker Verification by Utilizing Emotions

Hibiki Takayama, Masafumi Nishida, Satoru Tsuge, Shingo Kuroiwa

2023 IEEE 12th Global Conference on Consumer Electronics 2023年10月11日
感情を想定した発話スタイル依存型話者照合

高山響, 西田昌史, 柘植覚, 黒岩眞吾, 西村雅史

日本音響学会第150回(2023年秋季)研究発表会 2023年9月27日
単語発声による同一話者判定 DNN の学習と話者照合

亀田健太郎, 黒岩眞吾, 堀内靖雄, 柘植覚, 西田昌史

日本音響学会第150回(2023年秋季)研究発表会 2023年9月27日
食行動の自動評価及び分析のためのデータベース構築

伴野司, 森野智子, 黒岩眞吾, 西田昌史, 西村雅史

情報処理学会第85回全国大会 2023年3月

もっとみる

所属学協会

Works(作品等)

ActVoice Smart (音声認識を用いた絵カード呼称訓練ソフト）

株式会社エスコアール

2017年8月 - 現在ソフトウェア
ハナセル（音声認識を用いた失語症を持つ人向け言語訓練タブレット）

株式会社イントロム

2018年6月 - 2025年3月ソフトウェア
リハログ（言語訓練プラン作成及び記録システム）

株式会社イントロム

2017年1月 - 2025年3月 Web Service
ActVoice for Pepper(会話ロボット向け呼称訓練アプリ）

株式会社ロボキュア

2017年1月 - 2018年6月ソフトウェア
CD版「そのまま使える失語症教材１」

鈴木勉, 宇野園子, 佐藤ゆう子, 朝田真理, 石戸純子, 泉谷聡子, 前川友絵*, 井堀奈美, 鶴田, 薫, 堀田牧子, 4コマ画, 阿部裕実*, 有賀恵子, 小川節子, 須田悦子, 相馬肖美, 寺田奈々, 中嶋基充, 西脇恵子, 文章読解, 統括:宇野園子, 100字, 片山芳恵, 斎藤敬子, 嶋田真砂美, 栁澤瑶貴, 高山亜希子*, 井上澄香, 上杉由美, 鈴木和子, 村西幸代, 鈴木直哉小熊真由, 木村佐知子, 相楽涼子, 治田寛之, 山本弘美, 黒岩眞吾

2018年教材