研究者業績

黒岩 眞吾

クロイワ シンゴ  (Shingo Kuroiwa)

基本情報

所属
千葉大学 大学院工学研究院 教授
学位
博士(電気通信大学大学院電気通信学研究科電子工学専攻)

研究者番号
20333510
J-GLOBAL ID
200901017262764603
researchmap会員ID
1000356498

外部リンク

経歴

 1

論文

 125

MISC

 590
  • 加藤 恒夫, 黒岩 眞吾, 河井 恒, 清水 徹, 樋口 宜男
    日本音響学会研究発表会講演論文集 2000(1) 107-108 2000年3月1日  
  • 井ノ上直己, 黒岩 眞吾, 橋本 和夫, 樋口 宜男
    2000信学全大 193-193 2000年  
  • Proc. of Workshop on Voice Operated Telecomservices 67-70 2000年  
  • 電子情報通信学会論文誌(D-II) J83-D-II(11) 2128-2136 2000年  
  • 電子情報通信学会論文誌(D-II) J83-D-II(11) 2291-2299 2000年  
  • 加藤 恒夫, 黒岩 眞吾, 清水 徹, 樋口 宜男
    情報処理学会研究報告音声言語情報処理(SLP) 1999(108) 37-42 1999年12月20日  
    Tree-basedクラスタリングは,音素コンテキストを分割条件としてトライフォンの集合に対してクラスタリングを行いHMM状態の共有化を図る有効な手法である.従来の報告では,計算量の点から対象が単一分布HMMに限られていた.しかし,単一分布HMMでは不特定話者の音響的特徴を表現するのに不十分であるため,必ずしも適切なトポロジ(HMM状態の共有関係)が得られていないと考えられる.また所望の混合分布トライフォンを得るためには,tree-basedクラスタリングの後,混合数を倍増する操作と学習を繰り返すため膨大な時間を要する.そこで,本稿では混合分布トライフォンに対して分布のクラスタリングを行いながらtree-basedクラスタリングを行う手法を提案する.本手法により学習時間が1/3程度に短縮され,認識実験では1∼2%の音素正解精度の改善を確認した.Tree-based clustering is an effective method to share HMM states by clustering triphones based on phonetic questions. Previous researches on this method have been made on HMMs of single Gaussian output distributions due to computational restrictions. However, single Gaussian HMMs may not be sufficient to create appropriate topology (i. e. HMM state sharing). Furthermore, a significant amount of time is required to obtain Gaussian mixture HMMs for repetitive distribution splitting and embedded training. In this paper, we propose a tree-based clustering for Gaussian mixture HMMs based on distribution clustering. This method achieved 67% reduction on training time and 1-2% improvement in phoneme accuracy.
  • 加藤 恒夫, 黒岩 眞吾, 清水 徹, 樋口 宜男
    電子情報通信学会技術研究報告. NLC, 言語理解とコミュニケーション 99(523) 37-42 1999年12月20日  
    Tree-basedクラスタリングは,音素コンテキストを分割条件としてトライフォンの集合に対してクラスタリングを行いHMM状態の共有化を図る有効な手法である.従来の報告では,計算量の点から対象が単一分布HMMに限られていた.しかし,単一分布HMMでは不特定話者の音響的特徴を表現するのに不十分であるため,必ずしも適切なトポロジ(HMM状態の共有関係)が得られていないと考えられる.また所望の混合分布トライフォンを得るためには,tree-basedクラスタリングの後,混合数を倍増する操作と学習を繰り返すため膨大な時間を要する.そこで,本稿では混合分布トライフォンに対して分布のクラスタリングを行いながらtree-basedクラスタリングを行う手法を提案する.本手法により学習時間が1/3程度に短縮され,認識実験では1〜2%の音素正解精度の改善を確認した.
  • 加藤 恒夫, 黒岩 眞吾, 清水 徹, 樋口 宜男
    電子情報通信学会技術研究報告. SP, 音声 99(525) 37-42 1999年12月20日  
    Tree-basedクラスタリングは,音素コンテキストを分割条件としてトライフォンの集合に対してクラスタリングを行いHMM状態の共有化を図る有効な手法である.従来の報告では,計算量の点から対象が単一分布HMMに限られていた.しかし,単一分布HMMでは不特定話者の音響的特徴を表現するのに不十分であるため,必ずしも適切なトポロジ(HMM状態の共有関係)が得られていないと考えられる.また所望の混合分布トライフォンを得るためには,tree-basedクラスタリングの後,混合数を倍増する操作と学習を繰り返すため膨大な時間を要する.そこで,本稿では混合分布トライフォンに対して分布のクラスタリングを行いながらtree-basedクラスタリングを行う手法を提案する.本手法により学習時間が1/3程度に短縮され,認識実験では1〜2%の音素正解精度の改善を確認した.
  • 加藤 恒夫, 黒岩 眞吾, 清水 徹, 樋口 宜男
    日本音響学会研究発表会講演論文集 1999(2) 21-22 1999年9月1日  
  • 清水 徹, 黒岩 眞吾, 樋口 宜男
    日本音響学会研究発表会講演論文集 1999(2) 81-82 1999年9月1日  
  • 黒岩 眞吾, 加藤 恒夫, 清水 徹, 樋口 宜男
    日本音響学会研究発表会講演論文集 1999(2) 149-150 1999年9月1日  
  • 内部 利明, 黒岩 眞吾, 樋口 宜男
    日本音響学会研究発表会講演論文集 1999(2) 153-154 1999年9月1日  
  • 内部 利明, 黒岩 眞吾, 樋口 宜男
    電子情報通信学会技術研究報告. SP, 音声 99(256) 9-14 1999年8月6日  
    話者照合を行う場合、本人か否かを判断するための閾値を事前に設定する必要がある。しかし話者により照合時の尤度がばらついてしまうため、最適な閾値を設定するのは困難であった。本稿ではこの尤度がばらつく原因として、話者モデルを学習する際に話者に適応する度合いが各話者により異なることに着目し、話者に適応する度合いに応じて話者毎に閾値を設定する方法を提案する。具体的には、隠れマルコフモデル(Hidden Markov Model;HMM)による話者照合において、不特定話者モデルからの適応学習時に、適応前と比較して上昇する尤度の幅(尤度上昇幅)を話者に適応する度合いとして用い、閾値を尤度上昇幅の一次関数として表すことで事前に閾値を設定する。評価実験の結果、尤度上昇幅と閾値の関係が話者集合や学習データ数によらず安定しており、適切な閾値を事前に設定できることが確認された。
  • 黒岩 眞吾, 加藤 恒夫, 樋口 宜男
    電子情報通信学会論文誌. D-2, 情報・システム 2-情報処理 82(3) 332-339 1999年3月25日  
    電話網経由での音声認識では, ハンドセットや回線の違いによる周波数特性の差異が認識率を下げる大きな原因の一つとなっている. この周波数特性の差異を正規化する手法として, ケプストラム平均値正規化(CMS)が提案されており, その効果が多くの研究機関によって確認されている. しかし, 同手法は一般的には入力音声全体のケプストラム平均値を用いて正規化を行うため, リアルタイムシステムへの適用は困難であった. そこで本論文では, まず, 短い音声からでもその発声内容を手掛りに長時間音声のケプストラム平均値を推定できる手法について述べる. 更に, この推定手法を用い,認識処理の過程で得られる当該時刻までの最ゆう状態系列に基づき, フレーム同期で長時間音声のケプストラム平均値を推定しつつ正規化を行う手法を提案する. 最後に, 「時差エリアコード案内システム」により収集したフィールドデータを用い, 提案手法が従来のCMSと同等以上の認識性能をリアルタイムで達成できることを示す.
  • 黒岩 眞吾, 加藤 恒夫, 清水 徹, 樋口 宜男
    日本音響学会研究発表会講演論文集 1999(1) 135-136 1999年3月1日  
  • Speech Communication 27(2) 135-148 1999年3月  
  • 日本音響学会誌 55(3) 239-240 1999年  
  • SHIMIZU T.
    Proc. of IEEEWorkshop on Automatic Speech Recognition and Understanding 245-248 1999年  
  • 電子情報通信学会論文誌(D-II) J82-D-II(3) 332-339 1999年  
  • 清水 徹, 大野晃生, 黒岩 眞吾, 樋口 宜男
    情報処理学会研究報告音声言語情報処理(SLP) 1998(114) 41-48 1998年12月10日  
    本論文では,十分な学習データ量が確保できない場合のN-gramモデルの構築法として,文レベルの混合分布N-gramと類似タスクのデータを加えて学習する方法を組み合わせた手法を提案する.本手法は,ターゲットトピックのデータと類似タスクのデータを足しあわせて文をクラスタリングし,各クラスタのN-gramから混合分布N-gramを構成するステップと,ターゲットトピックのデータだけを用いて混合分布N-gramの混合比を学習するステップからなる.本手法のメリットは,類似タスクを用いた学習データ量の確保と,N-gramの混合比の学習による不要な学習データの除去にある.実験の結果,提案法はターゲットトピックのデータだけから学習したtrigramよりもクロスエントロピーが低下することが確認された.This paper proposes a new method for developing statistical N-gram language models which integrate sentence-level mixture N-grams and selective use of similar task data. In this method, component N-gram parameters are estimated using both target topic data and similar task data, then the sentence-level mixture N-gram model is adapted by using only target topic data. This approach has the advantage that it can use more data for training and remove useless clusters, which are far from target topic data. The experiment results show that this method achieves the cross-entropy reduction compared with the standard trigram.
  • 清水 徹, 大野 晃生, 黒岩 眞吾, 樋口 宜男
    電子情報通信学会技術研究報告. NLC, 言語理解とコミュニケーション 98(460) 41-48 1998年12月10日  
    本論文では, 十分な学習データ量が確保できない場合のN-gramモデルの構築法として, 文レベルの混合分布N-gramと類似タスクのデータを加えて学習する方法を組み合わせた手法を提案する.本手法は, ターゲットトピックのデータと類似タスクのデータを足しあわせて文をクラスタリングし, 各クラスタのN-gramから混合分布N-gramを構成するステップと, ターゲットトピックのデータだけを用いて混合分布N-gramの混合比を学習するステップからなる.本手法のメリットは, 類似タスクを用いた学習データ量の確保と, N-gramの混合比の学習による不要な学習データの除去にある.実験の結果, 提案法はターゲットトピックのデータだけから学習したtrigramよりもクロスエントロピーが低下することが確認された.
  • 清水 徹, 大野 晃生, 黒岩 眞吾, 樋口 宜男
    電子情報通信学会技術研究報告. SP, 音声 98(462) 41-48 1998年12月10日  
    本論文では, 十分な学習データ量が確保できない場合のN-gramモデルの構築法として, 文レベルの混合分布N-gramと類似タスクのデータを加えて学習する方法を組み合わせた手法を提案する.本手法は, ターゲットトピックのデータと類似タスクのデータを足しあわせて文をクラスタリングし, 各クラスタのN-gramから混合分布N-gramを構成するステップと、ターゲットトピックのデータだけを用いて混合分布N-gramの混合比を学習するステップからなる.本手法のメリットは, 類似タスクを用いた学習データ量の確保と, N-gramの混合比の学習による不要な学習データの除去にある.実験の結果, 提案法はターゲットトピックのデータだけから学習したtrigramよりもクロスエントロピーが低下することが確認された.
  • 内部 利明, 黒岩 眞吾, 樋口 宜男
    電子情報通信学会技術研究報告. SP, 音声 98(317) 1-8 1998年10月15日  
    数字による個人の識別や確認の手法は、クレジット番号や暗証番号等、広く普及しており、音声を用いた話者照合においても数字を用いることは利用者にとっても自然であると考えられる。本稿では、電話回線経由で収集した連続数字発声を用い、隠れマルコフモデル(Hidden Markov Model ; HMM)による話者照合方式の検討を行う。まず話者モデルを学習する方法について検討し、各話者の数字モデルの学習方法を提案する。更に、この数字モデルを用いた話者照合方式を検討し、テキスト指定型およびテキスト依存型において話者照合性能を評価するとともに、音素モデルを用いた場合との性能比較を行う。
  • 内部 利明, 黒岩 真吾, 樋口 宜男
    言語・音声理解と対話処理研究会 (23) 1-8 1998年10月  
  • 加藤 恒夫, 黒岩 眞吾, 清水 徹, 樋口 宜男
    日本音響学会研究発表会講演論文集 1998(2) 57-58 1998年9月1日  
  • 内部 利明, 黒岩 眞吾, 樋口 宜男
    日本音響学会研究発表会講演論文集 1998(2) 113-114 1998年9月1日  
  • 黒岩 真吾, 酒寄 信一, 中村 誠
    国際通信の研究 (159) 25-32 1998年3月  
  • 黒岩 眞吾, 加藤 恒夫, 樋口 宜男
    電子情報通信学会技術研究報告. SP, 音声 97(505) 9-16 1998年1月23日  
    電話網経由での音声認識では, ハンドセットや回線の違いによる周波数特性の差異が認識率を下げる大きな原因の一つとなっている. この周波数特性の差異を正規化する手法として, ケプストラム平均値正規化が提案されており, その効果が多くの研究機関によって確認されている. しかし, 同手法は一般的には入力音声全体のケプストラム平均値を用いて正規化を行うため, リアルタイムシステムへの適用は困難であった. そこで本稿では, 認識処理の過程で得られる最尤状態系列に基づき, フレーム同期で長時間音声のケプストラム平均値を推定しつつ正規化を行う手法を提案する. さらに,「時差エリアコード案内システム」により収集したフィールドデータによる同手法の評価を行った結果について報告する.
  • 黒岩 真吾, 酒寄 信一, 中村 誠
    国際通信の研究 159(159) 25-32 1998年  
  • 内藤 正樹, 黒岩 眞吾, 山本 誠一, 武田 一哉
    電子情報通信学会論文誌. D-2, 情報・システム 2-情報処理 80(11) 2895-2903 1997年11月25日  
    連続音声認識における認識性能低下の原因となる音声区間検出誤りを削減するため, 音声認識時に得られる部分文仮説のゆう度を用いた音声区間検出法を提案する. この手法では, 認識処理に先立ち認識処理と独立に音声区間検出を行うのではなく, 認識時に得られる各部分文仮説のゆう度に基づき音声区間の終端を検出する. 加えて部分文仮説のゆう度に基づく音声区間検出法と音節認識のゆう度を用いたリジェクション手法を組み合わせ, 検出された無音区間以前の入力が受理すべき音声の一部であるか否かを判断する音声区間始端検出法を提案する. ノイズレベルの異なる音声データを用い, 連続音声認識実験により提案手法の評価を行った結果, パワーを用いて音声区間検出を行う場合と比較して音声区間検出誤りを原因とする誤認識が約90%減少した. また, リジェクション手法による音声区間始端の検出を行うことで, 音声の前に非定常雑音が付加された場合に生ずる誤認識の約64%が削減された.
  • 内部 利明, 黒岩 眞吾, 谷戸 文廣
    日本音響学会研究発表会講演論文集 1997(2) 35-36 1997年9月1日  
  • 黒岩 眞吾, TRAN Dieu, 加藤 恒夫, 谷戸 文廣
    日本音響学会研究発表会講演論文集 1997(2) 159-160 1997年9月1日  
  • 加藤 恒夫, 大野 晃生, 黒岩 眞吾, 谷戸 文廣
    日本音響学会研究発表会講演論文集 1997(2) 177-178 1997年9月1日  
  • 内部 利明, 黒岩 眞吾, 山本 誠一
    電子情報通信学会総合大会講演論文集 1997(1) 249-249 1997年3月6日  
    システムが話者照合を行なう場合に2つの音声の類似度を示す尺度としてLPCケプストラム等の特徴ベクトル間のユークリッド距離を用いることが一般的である。本稿では、ユークリッド距離とは別に音声を表わす2つの特徴ベクトル間の交角を話者照合における類似尺度として用いることを提案するとともに、電話音声を用いた実験によりその有効性を示す。
  • 黒岩 眞吾, 中村 誠, 酒寄 信一, 山本 誠一, 藤岡 雅宣
    日本音響学会研究発表会講演論文集 1997(1) 173-174 1997年3月1日  
  • 電子情報通信学会論文誌(D-II) J80-D-II(11) 2895-2903 1997年  
  • 黒岩 真吾, 内藤 正樹, 武田 一哉, 谷戸 文広, 山本 誠一
    電子情報通信学会論文誌. D-2, 情報・システム 2-情報処理 79(12) 2132-2138 1996年12月25日  
    5000人規模の組織の内線電話受付業務を実時間で行うことが可能な大規模内線受付装置を試作した.本装置では粗いモデルである音素環境非依存のHMMによる探索の結果得られる複数(N-BEST)候補を,より詳細なモデルである音素環境依存のHMMで再評価することで高速・高性能な連続音声認識を実現している.1段目の粗いモデルでの探索では少ない候補数で正解が得られるように,意味内容が同一となるものを探索時にマージするN-BEST意味探索手法を用いた.同手法では終端記号から書き換えられるすべての非終端記号が意味的なカテゴリーに対応するように作成した文法を用い,非終端記号のN-BEST系列を探索することで同一意味候補のマージを実現している.同手法を用いることで,先に筆者らが試作した200人規模の内線受付装置で収集した実環境音声データに対し,音声入力時間の10分の1(0.3秒)程度の再評価時間で誤り率を3分の1にすることが確認された.装置はDSPとRISC-CPUのマルチプロセッサ構成を採用している.1623人の組織でのフィールドテスト行った結果,実環境において1位で87%,3位までで90%の認識性能が得られた.
  • 内藤 正樹, 黒岩 眞吾, 山本 誠一
    日本音響学会研究発表会講演論文集 1996(1) 61-62 1996年3月1日  
  • 黒岩 眞吾, 酒寄 信一, 山本 誠一, 藤岡 雅宣
    電子情報通信学会総合大会講演論文集 1995(2) 135-138 1996年  
    KDDでは海外から日本のオペレータを直接呼びだし,国際オペレータ通話が可能な「KDDジャパンダイレクト^<SM>」という国際電話サービスを提供し,多くの日本人旅行者等の利用を得ている.しかし,特定の国からの呼については,現地の子供達等によるイタズラ電話が多く様々なトラブルを引き起こしている.そこで,オペレータに呼を接続する前に音声応答装置により対応しイタズラ呼の接続を排除するシステムを開発した.
  • 黒岩 眞吾, 酒寄 信一, 山本 誠一, 藤岡 雅宣
    電子情報通信学会ソサイエティ大会講演論文集 1996 135-138 1996年  
    KDDでは海外から日本のオペレータを直接呼びだし,国際オペレータ通話が可能な「KDDジャパンダイレクト^<SM>」という国際電話サービスを提供し,多くの日本人旅行者等の利用を得ている.しかし,特定の国からの呼については,現地の子供達等によるイタズラ電話が多く様々なトラブルを引き起こしている.そこで,オペレータに呼を接続する前に音声応答装置により対応しイタズラ呼の接続を排除するシステムを開発した.
  • RWCP 音声自然言語理解ワークショップ「音声自然言語システムの現状と将来」 1996年  
  • 黒岩 真吾, 内藤 正樹, 武田 一哉, 谷戸 文広, 山本 誠一
    電子情報通信学会論文誌(D-II) J79-D-II(12) 2132-2138 1996年  
    5000人規模の組織の内線電話受付業務を実時間で行うことが可能な大規模内線受付装置を試作した.本装置では粗いモデルである音素環境非依存のHMMによる探索の結果得られる複数(N-BEST)候補を,より詳細なモデルである音素環境依存のHMMで再評価することで高速・高性能な連続音声認識を実現している.1段目の粗いモデルでの探索では少ない候補数で正解が得られるように,意味内容が同一となるものを探索時にマージするN-BEST意味探索手法を用いた.同手法では終端記号から書き換えられるすべての非終端記号が意味的なカテゴリーに対応するように作成した文法を用い,非終端記号のN-BEST系列を探索することで同一意味候補のマージを実現している.同手法を用いることで,先に筆者らが試作した200人規模の内線受付装置で収集した実環境音声データに対し,音声入力時間の10分の1(0.3秒)程度の再評価時間で誤り率を3分の1にすることが確認された.装置はDSPとRISC-CPUのマルチプロセッサ構成を採用している.1623人の組織でのフィールドテスト行った結果,実環境において1位で87%,3位までで90%の認識性能が得られた.

講演・口頭発表等

 30

Works(作品等)

 5

共同研究・競争的資金等の研究課題

 17