黒岩眞吾

クロイワシンゴ (Shingo Kuroiwa)

基本情報

所属: 千葉大学大学院工学研究院教授

学位: 博士(電気通信大学大学院電気通信学研究科電子工学専攻)

研究者番号: 20333510
J-GLOBAL ID: 200901017262764603
researchmap会員ID: 1000356498

外部リンク: http://www.ailab.tj.chiba-u.jp/~kuroiwa/

研究キーワード

研究分野

経歴

2007年10月 - 現在

千葉大学大学院工学研究院教授

受賞

2017年4月

2017年電気通信大学同窓会賞, 音声認識システムの実用化，失語症の方向けのコミュニケーション支援機器の開発等で大きく社会に貢献一般社団法人目黒会

黒岩眞吾
2017年3月

千葉エリア産学官連携オープンフォーラム2016千葉大学長賞（優秀賞）ロボットやタブレットを活用した『失語症者向け言語訓練システム』千葉大学

黒岩眞吾
1997年

第５回（平成９年度）技術開発賞日本音響学会

黒岩眞吾, 中村誠, 山本誠一, 酒寄信一, 武笠貴史, 藤岡雅宣, 阿部信子
1997年

社長表彰(業務改善) 国際電信電話株式会社

黒岩眞吾, 中村誠, 山本誠一, 酒寄信一, 武笠貴史, 藤岡雅宣, 阿部信子
1997年

平８年度電子情報通信学会学術奨励賞電子情報通信学会

山本誠一, 武田一哉, 井ノ上直己, 黒岩眞吾

もっとみる

論文

136

Food Recognition Using Large-scale Pre-trained Speech Models

Satoshi Naito, Masafumi Nishimura, Masafumi Nishida, Yasuo Horiuchi, Shingo Kuroiwa

GCCE 2024 - 2024 IEEE 13th Global Conference on Consumer Electronics 119-120 2024年

Obese and overweight individuals are at high risk for chronic diseases such as sleep apnea and diabetes. Therefore, it is necessary to track eating behavior to determine the causes of obesity; however, it is time- and labor-intensive to follow the lives of specific individuals and observe their eating behavior. Thus, a method to automatically monitor eating behavior should be considered. As one approach to monitoring methods, we propose a method for convenient recognition of food category for food intake sounds recorded by microphones (below the ear microphone, throat microphone and acoustic microphone), which is less burdensome to the body and better from the viewpoint of privacy protection. Furthermore, a comparison of MFB and large-scale pre-trained speech models (wav2vec2.0, wavLM, and HuBERT) showed the effectiveness of large-scale pre-trained speech models in the food recognition task.
Text-Dependent Speaker Verification Using SSI-DNN Trained on Short Utterance

Kentaro Kameda, Satoru Tsuge, Shingo Kuroiwa, Yasuo Horiuchi, Masafumi Nishida

GCCE 2024 - 2024 IEEE 13th Global Conference on Consumer Electronics 808-810 2024年

To enhance speaker verification for short utterances, we have developed a Same Speaker Identification Deep Neural Network (SSI-DNN). This network identifies whether two utterances are uttered by the same speaker with greater accuracy by focusing on the same texts. In this paper, we extend the detection target of the SSI-DNN from monosyllabic utterances to word utterances to improve the speaker recognition performance. Experimental results showed that the SSI-DNN trained on word utterances achieved an EER of 0.1% to 2.8%. These results indicated that the SSI-DNN outperformed the x-vector-based speaker verification method, which is a representative speaker verification method.
Template-Based Speech Recognition Using Pre-trained Large Speech Models for Voice-Activated Shower Control

Takumi Uehara, Shingo Kuroiwa, Yasuo Horiuchi, Masafumi Nishida, Satoru Tsuge

GCCE 2024 - 2024 IEEE 13th Global Conference on Consumer Electronics 141-143 2024年

Hands-free control of shower settings, such as temperature, is highly desirable, enhancing user convenience when both hands are occupied or eyes are closed. In this paper, we propose a speaker-dependent, template-based isolated word recognition system using pre-trained large speech models (LSMs) to realize voice-activated shower control with a single microphone. Specifically, we examine the performance of 3 LSMs (wav2vec2.0, HuBERT, WavLM) as well as conventional MFCC as features. Additionally, we investigate speech enhancement using a Convolutional Recurrent Neural Network (CRN) to improve robustness against shower noise. Our experiments for recognizing 30 words with SNRs ranging from -5 dB to 20 dB demonstrate that HuBERT achieves the highest recognition accuracy (77.8 to 95.6%). CRN, on the other hand, improved recognition accuracy only under -5 dB conditions, but its accuracy was only 80.8%.
Emotion-Dependent Speaker Verification Based on Score Integration

Hibiki Takayama, Masafumi Nishida, Satoru Tsuge, Shingo Kuroiwa

GCCE 2024 - 2024 IEEE 13th Global Conference on Consumer Electronics 805-807 2024年

Recent advances in AI technology have brought not only many benefits but also considerable risks due to malicious use of the technology. One key example is spoofing through speech synthesis and voice conversion technologies against speaker verification system. To tackle this challenge, we proposed a two-step matching method as a robust speaker verification, in which a user specifies an emotion to a system in advance, and the user is accepted only when the user speaks with the specified emotion. This previous method reduced the false acceptance rate. However, the false rejection rate increased. To overcome this problem, we propose a novel method that integrates speaker and emotion verification scores in this work. Experiments revealed that the proposed method can reduce the equal error rate compared with that of the conventional method to assign the optimal weight to the speaker and emotional information contained in the speech.
Utterance-style-dependent Speaker Verification by Utilizing Emotions

Hibiki Takayama, Masafumi Nishida, Satoru Tsuge, Shingo Kuroiwa, Masafumi Nishimura

2023 IEEE 12th Global Conference on Consumer Electronics (GCCE) 2023年10月10日

もっとみる

MISC

588

Determination of threshold for speaker verification using speaker adaptation gain in likelihood during training (共著)

Proc. ICSLP 2000 2 326-329 2000年
A realistic application of digit recognition . prank call rejection for international help desk (共著)

Proc. of Workshop on Voice Operated Telecomservices 67-70 2000年
混合分布HMMにおけるTree-based クラスタリング (共著)

電子情報通信学会論文誌(D-II) J83-D-II(11) 2128-2136 2000年
テキスト指定型話者照合における閾値設定法 (共著)

電子情報通信学会論文誌(D-II) J83-D-II(11) 2291-2299 2000年
不特定話者混合分布HMMにおける Tree - Basedクラスタリングの検討

加藤恒夫, 黒岩眞吾, 清水徹, 樋口宜男

情報処理学会研究報告音声言語情報処理（SLP） 1999(108) 37-42 1999年12月20日

Tree-basedクラスタリングは，音素コンテキストを分割条件としてトライフォンの集合に対してクラスタリングを行いHMM状態の共有化を図る有効な手法である．従来の報告では，計算量の点から対象が単一分布HMMに限られていた．しかし，単一分布HMMでは不特定話者の音響的特徴を表現するのに不十分であるため，必ずしも適切なトポロジ（HMM状態の共有関係）が得られていないと考えられる．また所望の混合分布トライフォンを得るためには，tree-basedクラスタリングの後，混合数を倍増する操作と学習を繰り返すため膨大な時間を要する．そこで，本稿では混合分布トライフォンに対して分布のクラスタリングを行いながらtree-basedクラスタリングを行う手法を提案する．本手法により学習時間が1/3程度に短縮され，認識実験では1&sim;2%の音素正解精度の改善を確認した．Tree-based clustering is an effective method to share HMM states by clustering triphones based on phonetic questions. Previous researches on this method have been made on HMMs of single Gaussian output distributions due to computational restrictions. However, single Gaussian HMMs may not be sufficient to create appropriate topology (i. e. HMM state sharing). Furthermore, a significant amount of time is required to obtain Gaussian mixture HMMs for repetitive distribution splitting and embedded training. In this paper, we propose a tree-based clustering for Gaussian mixture HMMs based on distribution clustering. This method achieved 67% reduction on training time and 1-2% improvement in phoneme accuracy.
不特定話者混合分布HMMにおける Tree-Based クラスタリングの検討

加藤恒夫, 黒岩眞吾, 清水徹, 樋口宜男

電子情報通信学会技術研究報告. NLC, 言語理解とコミュニケーション 99(523) 37-42 1999年12月20日

Tree-basedクラスタリングは,音素コンテキストを分割条件としてトライフォンの集合に対してクラスタリングを行いHMM状態の共有化を図る有効な手法である.従来の報告では,計算量の点から対象が単一分布HMMに限られていた.しかし,単一分布HMMでは不特定話者の音響的特徴を表現するのに不十分であるため,必ずしも適切なトポロジ(HMM状態の共有関係)が得られていないと考えられる.また所望の混合分布トライフォンを得るためには,tree-basedクラスタリングの後,混合数を倍増する操作と学習を繰り返すため膨大な時間を要する.そこで,本稿では混合分布トライフォンに対して分布のクラスタリングを行いながらtree-basedクラスタリングを行う手法を提案する.本手法により学習時間が1/3程度に短縮され,認識実験では1〜2%の音素正解精度の改善を確認した.
不特定話者混合分布HMMにおける Tree-Based クラスタリングの検討

加藤恒夫, 黒岩眞吾, 清水徹, 樋口宜男

電子情報通信学会技術研究報告. SP, 音声 99(525) 37-42 1999年12月20日

Tree-basedクラスタリングは,音素コンテキストを分割条件としてトライフォンの集合に対してクラスタリングを行いHMM状態の共有化を図る有効な手法である.従来の報告では,計算量の点から対象が単一分布HMMに限られていた.しかし,単一分布HMMでは不特定話者の音響的特徴を表現するのに不十分であるため,必ずしも適切なトポロジ(HMM状態の共有関係)が得られていないと考えられる.また所望の混合分布トライフォンを得るためには,tree-basedクラスタリングの後,混合数を倍増する操作と学習を繰り返すため膨大な時間を要する.そこで,本稿では混合分布トライフォンに対して分布のクラスタリングを行いながらtree-basedクラスタリングを行う手法を提案する.本手法により学習時間が1/3程度に短縮され,認識実験では1〜2%の音素正解精度の改善を確認した.
不特定話者混合分布HMMにおけるTree-Basedクラスタリングの検討

加藤恒夫, 黒岩眞吾, 清水徹, 樋口宜男

日本音響学会研究発表会講演論文集 1999(2) 21-22 1999年9月1日
複数N-gramの利用による音声認識性能改善効果

清水徹, 黒岩眞吾, 樋口宜男

日本音響学会研究発表会講演論文集 1999(2) 81-82 1999年9月1日
音声信号の途切れ・オーバーフローへのMissing Feature Theoryの適用

黒岩眞吾, 加藤恒夫, 清水徹, 樋口宜男

日本音響学会研究発表会講演論文集 1999(2) 149-150 1999年9月1日
話者モデル学習時の尤度上昇幅を用いた話者照合閾値設定法

内部利明, 黒岩眞吾, 樋口宜男

日本音響学会研究発表会講演論文集 1999(2) 153-154 1999年9月1日
話者モデル学習時の尤度上昇幅を用いた話者照合閾値設定法

内部利明, 黒岩眞吾, 樋口宜男

電子情報通信学会技術研究報告. SP, 音声 99(256) 9-14 1999年8月6日

話者照合を行う場合、本人か否かを判断するための閾値を事前に設定する必要がある。しかし話者により照合時の尤度がばらついてしまうため、最適な閾値を設定するのは困難であった。本稿ではこの尤度がばらつく原因として、話者モデルを学習する際に話者に適応する度合いが各話者により異なることに着目し、話者に適応する度合いに応じて話者毎に閾値を設定する方法を提案する。具体的には、隠れマルコフモデル(Hidden Markov Model;HMM)による話者照合において、不特定話者モデルからの適応学習時に、適応前と比較して上昇する尤度の幅(尤度上昇幅)を話者に適応する度合いとして用い、閾値を尤度上昇幅の一次関数として表すことで事前に閾値を設定する。評価実験の結果、尤度上昇幅と閾値の関係が話者集合や学習データ数によらず安定しており、適切な閾値を事前に設定できることが確認された。
通信サービスにどう応用できるか?(KDD) (特集応用製品も登場、いよいよ実用化時代へ 99音声認識探検隊) -- (応用事例)

黒岩眞吾

エレクトロニクス 44(8) 59-62 1999年8月
最ゆう状態系列を用いた実時間ケプストラム平均値正規化の検討

黒岩眞吾, 加藤恒夫, 樋口宜男

電子情報通信学会論文誌. D-2, 情報・システム 2-情報処理 82(3) 332-339 1999年3月25日

電話網経由での音声認識では, ハンドセットや回線の違いによる周波数特性の差異が認識率を下げる大きな原因の一つとなっている. この周波数特性の差異を正規化する手法として, ケプストラム平均値正規化(CMS)が提案されており, その効果が多くの研究機関によって確認されている. しかし, 同手法は一般的には入力音声全体のケプストラム平均値を用いて正規化を行うため, リアルタイムシステムへの適用は困難であった. そこで本論文では, まず, 短い音声からでもその発声内容を手掛りに長時間音声のケプストラム平均値を推定できる手法について述べる. 更に, この推定手法を用い,認識処理の過程で得られる当該時刻までの最ゆう状態系列に基づき, フレーム同期で長時間音声のケプストラム平均値を推定しつつ正規化を行う手法を提案する. 最後に, 「時差エリアコード案内システム」により収集したフィールドデータを用い, 提案手法が従来のCMSと同等以上の認識性能をリアルタイムで達成できることを示す.
リジェクションを用いた音声始端検出法の改良

黒岩眞吾, 加藤恒夫, 清水徹, 樋口宜男

日本音響学会研究発表会講演論文集 1999(1) 135-136 1999年3月1日
Robust speech detection method for telephone speech recognition system (共著)

Speech Communication 27(2) 135-148 1999年3月
「音声認識のための精密かつ頑健な音響モデル(中村篤)」講演報告

AVIRG 会報 33(3) 1999年
99 音声認識探検隊. 通信サービスにどう応用できるか？(KDD)

エレクトロニクス 543 59-62 1999年
Q&A コーナー

日本音響学会誌 55(3) 239-240 1999年
Conversational Speech Recognition Using Sentence Style Related Multi N-grams (共著)

SHIMIZU T.

Proc. of IEEEWorkshop on Automatic Speech Recognition and Understanding 245-248 1999年
最ゆう状態系列を用いた実時間ケプストラム平均値正規化の検討 (共著)

電子情報通信学会論文誌(D-II) J82-D-II(3) 332-339 1999年
文クラスタ混合分布N - gramの検討

清水徹, 大野晃生, 黒岩眞吾, 樋口宜男

情報処理学会研究報告音声言語情報処理（SLP） 1998(114) 41-48 1998年12月10日

本論文では，十分な学習データ量が確保できない場合のN-gramモデルの構築法として，文レベルの混合分布N-gramと類似タスクのデータを加えて学習する方法を組み合わせた手法を提案する．本手法は，ターゲットトピックのデータと類似タスクのデータを足しあわせて文をクラスタリングし，各クラスタのN-gramから混合分布N-gramを構成するステップと，ターゲットトピックのデータだけを用いて混合分布N-gramの混合比を学習するステップからなる．本手法のメリットは，類似タスクを用いた学習データ量の確保と，N-gramの混合比の学習による不要な学習データの除去にある．実験の結果，提案法はターゲットトピックのデータだけから学習したtrigramよりもクロスエントロピーが低下することが確認された．This paper proposes a new method for developing statistical N-gram language models which integrate sentence-level mixture N-grams and selective use of similar task data. In this method, component N-gram parameters are estimated using both target topic data and similar task data, then the sentence-level mixture N-gram model is adapted by using only target topic data. This approach has the advantage that it can use more data for training and remove useless clusters, which are far from target topic data. The experiment results show that this method achieves the cross-entropy reduction compared with the standard trigram.
文クラスタ混合分布 N-gram の検討

清水徹, 大野晃生, 黒岩眞吾, 樋口宜男

電子情報通信学会技術研究報告. NLC, 言語理解とコミュニケーション 98(460) 41-48 1998年12月10日

本論文では, 十分な学習データ量が確保できない場合のN-gramモデルの構築法として, 文レベルの混合分布N-gramと類似タスクのデータを加えて学習する方法を組み合わせた手法を提案する.本手法は, ターゲットトピックのデータと類似タスクのデータを足しあわせて文をクラスタリングし, 各クラスタのN-gramから混合分布N-gramを構成するステップと, ターゲットトピックのデータだけを用いて混合分布N-gramの混合比を学習するステップからなる.本手法のメリットは, 類似タスクを用いた学習データ量の確保と, N-gramの混合比の学習による不要な学習データの除去にある.実験の結果, 提案法はターゲットトピックのデータだけから学習したtrigramよりもクロスエントロピーが低下することが確認された.
文クラスタ混合分布 N-gram の検討

清水徹, 大野晃生, 黒岩眞吾, 樋口宜男

電子情報通信学会技術研究報告. SP, 音声 98(462) 41-48 1998年12月10日

本論文では, 十分な学習データ量が確保できない場合のN-gramモデルの構築法として, 文レベルの混合分布N-gramと類似タスクのデータを加えて学習する方法を組み合わせた手法を提案する.本手法は, ターゲットトピックのデータと類似タスクのデータを足しあわせて文をクラスタリングし, 各クラスタのN-gramから混合分布N-gramを構成するステップと、ターゲットトピックのデータだけを用いて混合分布N-gramの混合比を学習するステップからなる.本手法のメリットは, 類似タスクを用いた学習データ量の確保と, N-gramの混合比の学習による不要な学習データの除去にある.実験の結果, 提案法はターゲットトピックのデータだけから学習したtrigramよりもクロスエントロピーが低下することが確認された.
数字を用いた話者照合方式の検討

内部利明, 黒岩眞吾, 樋口宜男

電子情報通信学会技術研究報告. SP, 音声 98(317) 1-8 1998年10月15日

数字による個人の識別や確認の手法は、クレジット番号や暗証番号等、広く普及しており、音声を用いた話者照合においても数字を用いることは利用者にとっても自然であると考えられる。本稿では、電話回線経由で収集した連続数字発声を用い、隠れマルコフモデル(Hidden Markov Model ; HMM)による話者照合方式の検討を行う。まず話者モデルを学習する方法について検討し、各話者の数字モデルの学習方法を提案する。更に、この数字モデルを用いた話者照合方式を検討し、テキスト指定型およびテキスト依存型において話者照合性能を評価するとともに、音素モデルを用いた場合との性能比較を行う。
数字を用いた話者照合方式の検討

内部利明, 黒岩真吾, 樋口宜男

言語・音声理解と対話処理研究会 (23) 1-8 1998年10月
電話音声認識におけるケプストラム平均値算出法の改良

加藤恒夫, 黒岩眞吾, 清水徹, 樋口宜男

日本音響学会研究発表会講演論文集 1998(2) 57-58 1998年9月1日
数字を用いた話者照合方式の検討

内部利明, 黒岩眞吾, 樋口宜男

日本音響学会研究発表会講演論文集 1998(2) 113-114 1998年9月1日
音声認識を用いたKDDジャパンダイレクト向けいたずら電話自動排除システム

黒岩真吾, 酒寄信一, 中村誠

国際通信の研究 (159) 25-32 1998年3月
最尤状態系列を用いた実時間ケプストラム平均値正規化の検討

黒岩眞吾, 加藤恒夫, 樋口宜男

電子情報通信学会技術研究報告. SP, 音声 97(505) 9-16 1998年1月23日

電話網経由での音声認識では, ハンドセットや回線の違いによる周波数特性の差異が認識率を下げる大きな原因の一つとなっている. この周波数特性の差異を正規化する手法として, ケプストラム平均値正規化が提案されており, その効果が多くの研究機関によって確認されている. しかし, 同手法は一般的には入力音声全体のケプストラム平均値を用いて正規化を行うため, リアルタイムシステムへの適用は困難であった. そこで本稿では, 認識処理の過程で得られる最尤状態系列に基づき, フレーム同期で長時間音声のケプストラム平均値を推定しつつ正規化を行う手法を提案する. さらに,「時差エリアコード案内システム」により収集したフィールドデータによる同手法の評価を行った結果について報告する.
音声認識を用いたＫＤＤジャパンダイレクト向けいたずら電話自動排除システム (共著)

黒岩真吾, 酒寄信一, 中村誠

国際通信の研究 159(159) 25-32 1998年
Area code, country code, and time difference information system and Its field trial (共著)

Proc. of IVTTA’98 5-10 1998年
部分文仮説のゆう度を用いた連続音声認識のための音声区間検出法

内藤正樹, 黒岩眞吾, 山本誠一, 武田一哉

電子情報通信学会論文誌. D-2, 情報・システム 2-情報処理 80(11) 2895-2903 1997年11月25日

連続音声認識における認識性能低下の原因となる音声区間検出誤りを削減するため, 音声認識時に得られる部分文仮説のゆう度を用いた音声区間検出法を提案する. この手法では, 認識処理に先立ち認識処理と独立に音声区間検出を行うのではなく, 認識時に得られる各部分文仮説のゆう度に基づき音声区間の終端を検出する. 加えて部分文仮説のゆう度に基づく音声区間検出法と音節認識のゆう度を用いたリジェクション手法を組み合わせ, 検出された無音区間以前の入力が受理すべき音声の一部であるか否かを判断する音声区間始端検出法を提案する. ノイズレベルの異なる音声データを用い, 連続音声認識実験により提案手法の評価を行った結果, パワーを用いて音声区間検出を行う場合と比較して音声区間検出誤りを原因とする誤認識が約90%減少した. また, リジェクション手法による音声区間始端の検出を行うことで, 音声の前に非定常雑音が付加された場合に生ずる誤認識の約64%が削減された.
話者照合におけるVQ歪みを用いたDP距離正規化法

内部利明, 黒岩眞吾, 谷戸文廣

日本音響学会研究発表会講演論文集 1997(2) 35-36 1997年9月1日
発声内容を考慮した実時間ケプストラム平均値正規化の検討

黒岩眞吾, TRAN Dieu, 加藤恒夫, 谷戸文廣

日本音響学会研究発表会講演論文集 1997(2) 159-160 1997年9月1日
時差・エリアコード案内システムの試作

加藤恒夫, 大野晃生, 黒岩眞吾, 谷戸文廣

日本音響学会研究発表会講演論文集 1997(2) 177-178 1997年9月1日
特徴ベクトル間の交角を用いた話者照合方式

内部利明, 黒岩眞吾, 山本誠一

電子情報通信学会総合大会講演論文集 1997(1) 249-249 1997年3月6日

システムが話者照合を行なう場合に2つの音声の類似度を示す尺度としてLPCケプストラム等の特徴ベクトル間のユークリッド距離を用いることが一般的である。本稿では、ユークリッド距離とは別に音声を表わす2つの特徴ベクトル間の交角を話者照合における類似尺度として用いることを提案するとともに、電話音声を用いた実験によりその有効性を示す。
ホームカントリーダイレクトサービスのための悪戯呼排除システムの評価

黒岩眞吾, 中村誠, 酒寄信一, 山本誠一, 藤岡雅宣

日本音響学会研究発表会講演論文集 1997(1) 173-174 1997年3月1日
発声内容を考慮した実時間ケプストラム平均値正規化の検討

黒岩

音講論集 2 1997年
Robust speech detection method for speech recognition system for telecommunication networks (共著)

Proc. of EUROSPEECH’97 3 1535-1538 1997年
部分仮説のゆう度を用いた連続音声認識のための音声区間検出法 (共著)

電子情報通信学会論文誌(D-II) J80-D-II(11) 2895-2903 1997年
Nベスト意味探索と再評価法を用いた大規模内線受付装置の試作

黒岩真吾, 内藤正樹, 武田一哉, 谷戸文広, 山本誠一

電子情報通信学会論文誌. D-2, 情報・システム 2-情報処理 79(12) 2132-2138 1996年12月25日

5000人規模の組織の内線電話受付業務を実時間で行うことが可能な大規模内線受付装置を試作した.本装置では粗いモデルである音素環境非依存のHMMによる探索の結果得られる複数(N-BEST)候補を,より詳細なモデルである音素環境依存のHMMで再評価することで高速・高性能な連続音声認識を実現している.1段目の粗いモデルでの探索では少ない候補数で正解が得られるように,意味内容が同一となるものを探索時にマージするN-BEST意味探索手法を用いた.同手法では終端記号から書き換えられるすべての非終端記号が意味的なカテゴリーに対応するように作成した文法を用い,非終端記号のN-BEST系列を探索することで同一意味候補のマージを実現している.同手法を用いることで,先に筆者らが試作した200人規模の内線受付装置で収集した実環境音声データに対し,音声入力時間の10分の1(0.3秒)程度の再評価時間で誤り率を3分の1にすることが確認された.装置はDSPとRISC-CPUのマルチプロセッサ構成を採用している.1623人の組織でのフィールドテスト行った結果,実環境において1位で87%,3位までで90%の認識性能が得られた.
非音声のリジェクションによる音声区間始端検出誤りの削減

内藤正樹, 黒岩眞吾, 山本誠一

日本音響学会研究発表会講演論文集 1996(1) 61-62 1996年3月1日
ホームカントリーダイレクトサービスのための悪戯呼排除システム

黒岩眞吾, 酒寄信一, 山本誠一, 藤岡雅宣

電子情報通信学会総合大会講演論文集 1995(2) 135-138 1996年

KDDでは海外から日本のオペレータを直接呼びだし,国際オペレータ通話が可能な「KDDジャパンダイレクト^<SM>」という国際電話サービスを提供し,多くの日本人旅行者等の利用を得ている.しかし,特定の国からの呼については,現地の子供達等によるイタズラ電話が多く様々なトラブルを引き起こしている.そこで,オペレータに呼を接続する前に音声応答装置により対応しイタズラ呼の接続を排除するシステムを開発した.
ホームカントリーダイレクトサービスのための悪戯呼排除システム

黒岩眞吾, 酒寄信一, 山本誠一, 藤岡雅宣

電子情報通信学会ソサイエティ大会講演論文集 1996 135-138 1996年

KDDでは海外から日本のオペレータを直接呼びだし,国際オペレータ通話が可能な「KDDジャパンダイレクト^<SM>」という国際電話サービスを提供し,多くの日本人旅行者等の利用を得ている.しかし,特定の国からの呼については,現地の子供達等によるイタズラ電話が多く様々なトラブルを引き起こしている.そこで,オペレータに呼を接続する前に音声応答装置により対応しイタズラ呼の接続を排除するシステムを開発した.
KDD の内線電話受付システム

RWCP 音声自然言語理解ワークショップ「音声自然言語システムの現状と将来」 1996年
Prank call rejection system for home country direct service (共著)

Proc. of IVTTA96 135-138 1996年
Ｎベスト意味探索と再評価法を用いた大規模内線受付装置の試作 (共著)

黒岩真吾, 内藤正樹, 武田一哉, 谷戸文広, 山本誠一

電子情報通信学会論文誌(D-II) J79-D-II(12) 2132-2138 1996年

5000人規模の組織の内線電話受付業務を実時間で行うことが可能な大規模内線受付装置を試作した.本装置では粗いモデルである音素環境非依存のHMMによる探索の結果得られる複数(N-BEST)候補を,より詳細なモデルである音素環境依存のHMMで再評価することで高速・高性能な連続音声認識を実現している.1段目の粗いモデルでの探索では少ない候補数で正解が得られるように,意味内容が同一となるものを探索時にマージするN-BEST意味探索手法を用いた.同手法では終端記号から書き換えられるすべての非終端記号が意味的なカテゴリーに対応するように作成した文法を用い,非終端記号のN-BEST系列を探索することで同一意味候補のマージを実現している.同手法を用いることで,先に筆者らが試作した200人規模の内線受付装置で収集した実環境音声データに対し,音声入力時間の10分の1(0.3秒)程度の再評価時間で誤り率を3分の1にすることが確認された.装置はDSPとRISC-CPUのマルチプロセッサ構成を採用している.1623人の組織でのフィールドテスト行った結果,実環境において1位で87%,3位までで90%の認識性能が得られた.
ケプストラム移動平均値正規化を用いた電話音声の認識

黒岩眞吾, 内藤正樹, 山本誠一

日本音響学会研究発表会講演論文集 1995(2) 5-6 1995年9月1日
音声認識システム利用者の発話の特徴

内藤正樹, 黒岩眞吾, 山本誠一, 谷戸文廣

日本音響学会研究発表会講演論文集 1995(2) 191-192 1995年9月1日

講演・口頭発表等

Cross-Lingual Speaker Identification for Japanese-English Bilinguals

Ryotaro Sano, Masafumi Nishida, Satoru Tsuge, Shingo Kuroiwa, Hiroyuki Yoshimura

2023 IEEE 12th Global Conference on Consumer Electronics 2023年10月12日
Utterance-Style-Dependent Speaker Verification by Utilizing Emotions

Hibiki Takayama, Masafumi Nishida, Satoru Tsuge, Shingo Kuroiwa

2023 IEEE 12th Global Conference on Consumer Electronics 2023年10月11日
感情を想定した発話スタイル依存型話者照合

高山響, 西田昌史, 柘植覚, 黒岩眞吾, 西村雅史

日本音響学会第150回(2023年秋季)研究発表会 2023年9月27日
単語発声による同一話者判定 DNN の学習と話者照合

亀田健太郎, 黒岩眞吾, 堀内靖雄, 柘植覚, 西田昌史

日本音響学会第150回(2023年秋季)研究発表会 2023年9月27日
食行動の自動評価及び分析のためのデータベース構築

伴野司, 森野智子, 黒岩眞吾, 西田昌史, 西村雅史

情報処理学会第85回全国大会 2023年3月

もっとみる

所属学協会

Works(作品等)

ActVoice Smart (音声認識を用いた絵カード呼称訓練ソフト）

株式会社エスコアール

2017年8月 - 現在ソフトウェア
ハナセル（音声認識を用いた失語症を持つ人向け言語訓練タブレット）

株式会社イントロム

2018年6月 - 2025年3月ソフトウェア
リハログ（言語訓練プラン作成及び記録システム）

株式会社イントロム

2017年1月 - 2025年3月 Web Service
ActVoice for Pepper(会話ロボット向け呼称訓練アプリ）

株式会社ロボキュア

2017年1月 - 2018年6月ソフトウェア
CD版「そのまま使える失語症教材１」

鈴木勉, 宇野園子, 佐藤ゆう子, 朝田真理, 石戸純子, 泉谷聡子, 前川友絵*, 井堀奈美, 鶴田, 薫, 堀田牧子, 4コマ画, 阿部裕実*, 有賀恵子, 小川節子, 須田悦子, 相馬肖美, 寺田奈々, 中嶋基充, 西脇恵子, 文章読解, 統括:宇野園子, 100字, 片山芳恵, 斎藤敬子, 嶋田真砂美, 栁澤瑶貴, 高山亜希子*, 井上澄香, 上杉由美, 鈴木和子, 村西幸代, 鈴木直哉小熊真由, 木村佐知子, 相楽涼子, 治田寛之, 山本弘美, 黒岩眞吾

2018年教材