研究者業績

黒岩 眞吾

クロイワ シンゴ  (Shingo Kuroiwa)

基本情報

所属
千葉大学 大学院工学研究院 教授
学位
博士(電気通信大学大学院電気通信学研究科電子工学専攻)

研究者番号
20333510
J-GLOBAL ID
200901017262764603
researchmap会員ID
1000356498

外部リンク

経歴

 1

論文

 132

MISC

 591
  • Electronic Notes in Theoretical Computer Science 225(C) 51-65 2009年1月2日  
  • 西田 昌史, 前畠 大, 鈴木 いおり, 堀内 靖雄, 黒岩 眞吾
    電気学会論文誌. C, 電子・情報・システム部門誌 = The transactions of the Institute of Electrical Engineers of Japan. C, A publication of Electronics, Information and System Society 129(10) 1902-1907 2009年  
    To establish a universal communication environment, computer systems should recognize various modal communication languages. In conventional sign language recognition, recognition is performed by the word unit using gesture information of hand shape and movement. In the conventional studies, each feature has same weight to calculate the probability for the recognition. We think hand position is very important for sign language recognition, since the implication of word differs according to hand position. In this study, we propose a sign language recognition method by using a multi-stream HMM technique to show the importance of position and movement information for the sign language recognition. We conducted recognition experiments using 28,200 sign language word data. As a result, 82.1 % recognition accuracy was obtained with the appropriate weight (position:movement=0.2:0.8), while 77.8 % was obtained with the same weight. As a result, we demonstrated that it is necessary to put weight on movement than position in sign language recognition.
  • 情報処理学会論文誌, 「音声ドキュメント処理」特集号 50(2) 460-468 2009年  
  • 北岡 教英, 山田 武志, 滝口 哲也, 柘植 覚, 山本 一公, 宮島 千代美, 西浦 敬信, 中山 雅人, 傳田遊亀, 藤本 雅清, 田村 哲嗣, 松田 繁樹, 小川 哲司, 黒岩 眞吾, 武田 一哉, 中村哲
    情報処理学会研究報告音声言語情報処理(SLP) 2008(102) 41-46 2008年10月17日  
    我々雑音下音声認識評価ワーキンググループは,2001 年 10 月から情報処理学会音声言語情報処理研究会の下に組織され,数多く研究されている雑音下の音声認識手法を容易に評価・比較可能な標準評価基盤 CENSREC シリーズの開発・配布を行ってきた.本稿ではその CENSREC シリーズを概観し,また主な音声認識研究の発表の場である日本音響学会全国大会および IEEE ICASSP の発表件数調査を踏まえて,その位置づけを確認する.最後に,今後の展望について述べる.We organized a working group under Special Interest Group of Spoken Language Processing in Information Processing Society of Japan have developed evaluation frameworks of noisy speech recognition (CENSREC series) with which one can evaluate his/her own noise-robust speech recognition method and compare it with the others. In this report, we introduce the series and then review the history of the noisy speech recognition researches in ASJ and ICASSP and view the roles of our works in the history. Finally we discuss the future directions.
  • 魏 秀欽, 笠置 泰史, 下山 一郎, 中澤 健, 山下 弘毅, 井川 信子, 黒岩 眞吾
    臨床神経生理学 36(5) 528-528 2008年10月  
  • 真柄皓介, 西田昌史, 堀内靖雄, 黒岩眞吾
    日本音響学会研究発表会講演論文集(CD-ROM) 2008 ROMBUNNO.3-Q-26 2008年9月3日  
  • 篠山 学, 黒岩 眞吾, 任 福継
    電気学会論文誌C 128(8) 1342-1350 2008年8月1日  
    Super-Function Based Machine Translation(SFBMT) which is a type of Example-Based Machine Translation has a feature which makes it possible to expand the coverage of examples by changing nouns into variables, however, there were problems extracting entire date/time expressions containing parts-of-speech other than nouns, because only nouns/numbers were changed into variables. We describe a method for extracting date/time expressions for SFBMT. SFBMT uses noun determination rules to extract nouns and a bilingual dictionary to obtain correspondence of the extracted nouns between the source and the target languages. In this method, we add a rule to extract date/time expressions and then extract date/time expressions from a Japanese-English bilingual corpus. The evaluation results shows that the precision of this method for Japanese sentences is 96.7%, with a recall of 98.2% and the precision for English sentences is 94.7%, with a recall of 92.7%.
  • International Journal of Innovative Computing, Information and Control 4(8) 1931-1941 2008年8月  
  • 大瀧 万希子, 堀内 靖雄, 西田 昌史, 黒岩 眞吾
    電子情報通信学会技術研究報告. WIT, 福祉情報工学 108(170) 39-44 2008年7月20日  
    大量の情報を有する大規模なWebサイトでは目的の情報へのアクセス保証・効率的な情報探索の観点からアクセシビリティ・ユーザビリティに配慮した情報の構造化が必要である.本研究では大規模Webサイトにおいて情報がどのように構造化されているのかについて,既存のWebサイトを木構造による構造化の観点から分析した.その結果,情報のほとんどは5階層程度までに存在していることが確認されたが上位2階層ではリンク数が非常に多くアクセシビリティの観点からは問題があることがわかった.また,木構造から逸脱するリンク(冗長リンク)が大量に存在することも明らかとなった.それらにはナビゲーションを補助するものや複数の探索経路を示すものがあり,それらを視覚障碍者が音声ブラウザで理解しやすくするための提案を行った.
  • 前畠 大, 西田 昌史, 堀内 靖雄, 黒岩 眞吾
    電子情報通信学会技術研究報告 108(93) 7-12 2008年6月19日  
    手話においては,手の位置によって単語の意味合いが異なることから,本研究では手の位置と動きに着目して,これらを統合した手話単語の認識手法について検討を行った.手の位置は発話単位で正規化を行い,位置座標のフレーム差分を動きとして特徴量に加えてHMMにより単語ごとにモデル化を行った.また,単語によって手の位置と動きの重要度が異なると考え,それらを分析するためにマルチストリームHMMによる認識も行った.その結果,位置座標のみでは67.1%の認識精度に対して動きを加えることで79.9%の認識精度が得られた.さらに,マルチストリームHMMによる重みを変動させたところ,位置よりも動きの重要性が大きいことが明らかになった.
  • 前畠 大, 西田 昌史, 堀内 靖雄, 黒岩 眞吾
    電子情報通信学会技術研究報告 108(94) 7-12 2008年6月19日  
    手話においては,手の位置によって単語の意味合いが異なることから,本研究では手の位置と動きに着目して,これらを統合した手話単語の認識手法について検討を行った.手の位置は発話単位で正規化を行い,位置座標のフレーム差分を動きとして特徴量に加えてHMMにより単語ごとにモデル化を行った.また,単語によって手の位置と動きの重要度が異なると考え,それらを分析するためにマルチストリームHMMによる認識も行った.その結果,位置座標のみでは67.1%の認識精度に対して動きを加えることで79.9%の認識精度が得られた.さらに,マルチストリームHMMによる重みを変動させたところ,位置よりも動きの重要性が大きいことが明らかになった.
  • 前畠 大, 西田 昌史, 堀内 靖雄, 黒岩 眞吾
    電子情報通信学会技術研究報告. DE, データ工学 108(93) 7-12 2008年6月12日  
  • 前畠 大, 西田 昌史, 堀内 靖雄, 黒岩 眞吾
    電子情報通信学会技術研究報告. PRMU, パターン認識・メディア理解 108(94) 7-12 2008年6月12日  
  • International Journal of Innovative Computing, Information and Control 4(6) 1371-1381 2008年6月  
  • 安ヶ平 雄太, 堀内 靖雄, 西田 昌史, 黒岩 眞吾
    電子情報通信学会技術研究報告. WIT, 福祉情報工学 108(67) 85-90 2008年5月29日  
    手話を用いた情報伝達システムの実現のため,手話CGアニメーション合成の研究・開発が行われている.その手法の一つであるモーションキャプチャを用いた手話CGアニメーションの合成の問題点として,単語の表現が収録時の表現に限られる点が挙げられる.本研究ではこの問題点解決のため,表現速度の違う手話文の腕の動作を分析し,表現速度の変化と腕の動作変化との関係を明らかにすることを目的とする.分析の結果,手話の表現速度を変化させる場合には主に軌跡の長さを変化させ,動作に制約がかかる場合や前後の動作の影響によっては,軌跡の長さはあまり変化せず腕の運動速度を変化させることが示唆された.
  • 堀内 靖雄, 亀崎 紘子, 西田 昌史, 黒岩 眞吾, 市川 熹
    電子情報通信学会技術研究報告. WIT, 福祉情報工学 108(67) 91-96 2008年5月29日  
    本研究では日本手話対話における後続うなずきと接続詞の分析を行なった.結果として,日本手話の話し手の後続うなずきは,うなずき単独で「話題化」「順接」「条件」「ロールシフトを抜ける」という接続詞と類似した機能を果たしていることが示唆された.接続詞とうなずきの共起関係を分析したところ,前後を接続する接続詞が手指で単語として表現された場合,その単語と同期してうなずきが生じやすいが,否定的な単語に関してはうなずきが共起しないことが示された.
  • 安ヶ平 雄太, 堀内 靖雄, 西田 昌史, 黒岩 眞吾
    電子情報通信学会技術研究報告. SP, 音声 108(66) 85-90 2008年5月29日  
    手話を用いた情報伝達システムの実現のため,手話CGアニメーション合成の研究・開発が行われている.その手法の一つであるモーションキャプチャを用いた手話CGアニメーションの合成の問題点として,単語の表現が収録時の表現に限られる点が挙げられる.本研究ではこの問題点解決のため,表現速度の違う手話文の腕の動作を分析し,表現速度の変化と腕の動作変化との関係を明らかにすることを目的とする.分析の結果,手話の表現速度を変化させる場合には主に軌跡の長さを変化させ,動作に制約がかかる場合や前後の動作の影響によっては,軌跡の長さはあまり変化せず腕の運動速度を変化させることが示唆された.
  • 堀内 靖雄, 亀崎 紘子, 西田 昌史, 黒岩 眞吾, 市川 熹
    電子情報通信学会技術研究報告. SP, 音声 108(66) 91-96 2008年5月29日  
    本研究では日本手話対話における後続うなずきと接続詞の分析を行なった.結果として,日本手話の話し手の後続うなずきは,うなずき単独で「話題化」「順接」「条件」「ロールシフトを抜ける」という接続詞と類似した機能を果たしていることが示唆された.接続詞とうなずきの共起関係を分析したところ,前後を接続する接続詞が手指で単語として表現された場合,その単語と同期してうなずきが生じやすいが,否定的な単語に関してはうなずきが共起しないことが示された.
  • 西田昌史, 神谷佐武郎, 堀内靖雄, 黒岩眞吾
    日本音響学会研究発表会講演論文集(CD-ROM) 2008 ROMBUNNO.1-Q-30 2008年3月10日  
  • 木村太郎, 堀内靖雄, 西田昌史, 黒岩眞吾, 市川熹
    日本音響学会研究発表会講演論文集(CD-ROM) 2008 ROMBUNNO.2-11-15 2008年3月10日  
  • 佐藤翔太, 木村太郎, 堀内靖雄, 西田昌史, 黒岩眞吾, 市川熹
    日本音響学会研究発表会講演論文集(CD-ROM) 2008 ROMBUNNO.3-Q-20 2008年3月10日  
  • 岡本 悠生, 西田 昌史, 堀内 靖雄, 黒岩 眞吾, 市川 熹
    電子情報通信学会技術研究報告. TL, 思考と言語 107(433) 25-30 2008年1月18日  
    本研究では、手話によるコミュニケーション支援を目指して、発話予測に基づく手話対話システムを提案する。従来の手話認識では、動作要素に着目した手の動きなどによる単語の認識について検討されており、認識対象が多くなると認識精度が低下してしまう。それに対して、実際に使用される場面を想定した対話を行うことで、対話場面に応じて発話を予測することができる。つまり、場面に応じて動作要素を対応付けた予測文を用意して文単位での認識を行うことで、認識対象を抑制することが可能となる.提案手法の有効性を示すため、病院での受付場面を想定した実験を行った結果、従来の動作要素による認識では7.9%の文認識率に対して、提案手法による認識では83.8%と高い文認識率を得ることができた。
  • 山崎 志織, 堀内 靖雄, 西田 昌史, 黒岩 眞吾, 市川 熹
    電子情報通信学会技術研究報告. TL, 思考と言語 107(433) 31-36 2008年1月18日  
    人間の手話動作と同程度の速度でも十分に読み取り可能な手話文CG合成システムを実現するために,モーションキャプチャにより収録した単語データを用い,わたりを自動補間する手話文CG合成システムの構築を行った.わたりに対しては時間長を移動距離から算出する手法を用い,速度を力学的モデルである躍度最小モデルによって算出した.構築したシステムによるアニメーションに関して,市販されている手話文CG合成ソフトとの比較評価を行った結果を報告する.
  • 岡本 悠生, 西田 昌史, 堀内 靖雄, 黒岩 眞吾, 市川 熹
    電子情報通信学会技術研究報告. WIT, 福祉情報工学 107(437) 25-30 2008年1月18日  
    本研究では、手話によるコミュニケーション支援を目指して、発話予測に基づく手話対話システムを提案する。従来の手話認識では、動作要素に着目した手の動きなどによる単語の認識について検討されており、認識対象が多くなると認識精度が低下してしまう。それに対して、実際に使用される場面を想定した対話を行うことで、対話場面に応じて発話を予測することができる。つまり、場面に応じて動作要素を対応付けた予測文を用意して文単位での認識を行うことで、認識対象を抑制することが可能となる.提案手法の有効性を示すため、病院での受付場面を想定した実験を行った結果、従来の動作要素による認識では7.9%の文認識率に対して、提案手法による認識では83.8%と高い文認識率を得ることができた。
  • 山崎 志織, 堀内 靖雄, 西田 昌史, 黒岩 眞吾, 市川 熹
    電子情報通信学会技術研究報告. WIT, 福祉情報工学 107(437) 31-36 2008年1月18日  
    人間の手話動作と同程度の速度でも十分に読み取り可能な手話文CG合成システムを実現するために,モーションキャプチャにより収録した単語データを用い,わたりを自動補間する手話文CG合成システムの構築を行った.わたりに対しては時間長を移動距離から算出する手法を用い,速度を力学的モデルである躍度最小モデルによって算出した.構築したシステムによるアニメーションに関して,市販されている手話文CG合成ソフトとの比較評価を行った結果を報告する.
  • 岡本 悠生, 西田 昌史, 堀内 靖雄, 黒岩 眞吾, 市川 熹
    電子情報通信学会技術研究報告. SP, 音声 107(435) 25-30 2008年1月18日  
    本研究では、手話によるコミュニケーション支援を目指して、発話予測に基づく手話対話システムを提案する。従来の手話認識では、動作要素に着目した手の動きなどによる単語の認識について検討されており、認識対象が多くなると認識精度が低下してしまう。それに対して、実際に使用される場面を想定した対話を行うことで、対話場面に応じて発話を予測することができる。つまり、場面に応じて動作要素を対応付けた予測文を用意して文単位での認識を行うことで、認識対象を抑制することが可能となる.提案手法の有効性を示すため、病院での受付場面を想定した実験を行った結果、従来の動作要素による認識では7.9%の文認識率に対して、提案手法による認識では83.8%と高い文認識率を得ることができた。
  • 山崎 志織, 堀内 靖雄, 西田 昌史, 黒岩 眞吾, 市川 熹
    電子情報通信学会技術研究報告. SP, 音声 107(435) 31-36 2008年1月18日  
    人間の手話動作と同程度の速度でも十分に読み取り可能な手話文CG合成システムを実現するために,モーションキャプチャにより収録した単語データを用い,わたりを自動補間する手話文CG合成システムの構築を行った.わたりに対しては時間長を移動距離から算出する手法を用い,速度を力学的モデルである躍度最小モデルによって算出した.構築したシステムによるアニメーションに関して,市販されている手話文CG合成ソフトとの比較評価を行った結果を報告する.
  • Haoze Lu, Haruka Okamoto, Masafumi Nishida, Yasuo Horiuchi, Shingo Kuroiwa
    International Conference on Communication Technology Proceedings, ICCT 692-695 2008年  
    In text-independent (TI) speaker identification, the variation of phonetic information strongly affects the performance of speaker identification. If this phonetic information in his/her speech data can be suppressed, a robust TI speaker identification system will be realized by using speech features having less phonetic information. In this paper, we propose a TI speaker identification method that suppresses the phonetic information by a subspace method, under the assumption that a subspace with large variance in the speech feature space is a "phoneme-dependent subspace" and a complementary subspace of it is a "phonemeindependent subspace". Principal Component Analysis (PCA) is utilized to construct these subspaces. We carried out GMM-based speaker identification experiments using both a new feature vector of the proposed method and the conventional MFCC. As a result, the proposed method reduced the identification error rate by 21 % compared with the conventional MFCC. © 2008 IEEE.
  • Song Li, Caizhu Wang, Yeqiu Li, Ling Wang, Shiro Sakata, Hiroo Sekiya, Shingo Kuroiwa
    International Conference on Communication Technology Proceedings, ICCT 684-687 2008年  
    In recent years, fuzzy set theory has beeh successfully used in various applications. A typical application area for using fuzzy techniques is to restore images corrupted by impulse noise. In this paper, we present a new framework of removing impulse noise. The most important points is that the types of images are estimated by using the FINDRM and the Efficient Detail Preserving Approach (EDPA). When it is estimated that an image has many white and black pixels, the detected noise pixels from the FINDRM are re-checked by using alpha-trimmed means. Oppositely, when it is estimated that an image has a few white and black pixels, the detection results from the FINDRM are used directly. Experimental results show that the proposed algorithm provides significant improvement of PSNR compared with the conventional techniques, and the results are visually very impressive © 2008 IEEE.
  • International Journal of Biomedical Soft Computing and Human Sciences 14(1) 3-9 2008年  
  • Engineering Letters 16(1) 166-171 2008年  
  • 遠藤 俊樹, 黒岩 眞吾, 清水 徹, 笹瀬 巌
    日本音響学会誌 64(1) 8-15 2008年  
    本論文では,音声インタフェース装置の利用で問題となる環境雑音の特徴分析を行うために構築した,実環境雑音データベース(ATR実環境雑音DB: ATRANS)に関して述べる。本DBでは,音声インタフェース装置の利用が予想される広範囲の雑音環境で長時間の連続収録をしている。また,雑音の対数エネルギーの分散,歪度,尖度,エントロピーといった統計的特徴量と雑音モデルの長時間分析から,雑音の発生頻度,発生状況の変化により,時間的に変動する雑音種別があることを示す。雑音モデル分析では,雑音種別ごとに分布の表現に必要な混合分布数と雑音モデルの学習に必要な雑音データ長を示す。その結果,雑音の特徴分析には数十分単位の長時間のデータが必要であることを示す。
  • 安ヶ平 雄太, 堀内 靖雄, 西田 昌史, 黒岩 眞吾
    手話学研究 17 57-68 2008年  
    Previous studies suggested that emphasis or emotion causes changes in the hand movements of people using Japanese Sign Language. There has not been enough research on the change in signing speed (lower or higher), and there has been only a little research on the duration of sign components (words, transitions, and pauses). In this study, we analyzed the arm movement variation in relationship to the signing speed. The arm movements used to sign 20 sentences were recorded at three speeds (high, normal, and low) using a motion tracking system. We analyzed the relationship between the signing speed and the size of the gestures or the speed of the arms. We found that a change in signing speed caused mainly a change in the size of the gestures and that when the gesture was constrained by the location of the arm, the arm speed changed.
  • 北岡 教英, 山田 武志, 滝口 哲也, 柘植 覚, 山本 一公, 宮島 千代美, 西浦 敬信, 中山 雅人, 傳田遊亀, 藤本 雅清, 田村 哲嗣, 松田 繁樹, 小川 哲司, 黒岩 眞吾, 武田 一哉, 中村哲
    情報処理学会研究報告音声言語情報処理(SLP) 2007(129) 1-6 2007年12月20日  
    音声認識実用化において,雑音下の音声認識の性能向上が叫ばれている.現在も多くの研究が行われているが,これらの手法を客観的に比較評価する標準評価基盤が必要と考えられる.我々は 2001 年 10 月から情報処理学会音声言語情報処理研究会の下で雑音下音声認識評価ワーキンググループとして活動し,標準評価基盤 CENSREC シリーズを構築・配布している.これまでの CENSREC シリーズを概観し,さらに今年度新たに配付する残響下音声認識評価基盤 CENSREC-4 の概要を述べる.そして,ワーキンググループ最終年度に向けて,今後どのような方針で評価基盤を設計・構築・配付していくのかを述べる.Performance improvement of noisy speech recognition is urgent for practical use of speech recognition and methods for this purpose should be compared on common evaluation frameworks. We organized a working group under Special Interest Group of Spoken Language Processing in Information Processing Society of Japan, to develop evaluation frameworks of noisy speech recognition to compare many methods for processing of noisy speech. In this paper, we review the series of CENSREC series and then introduce the reverberant speech recognition evaluation framework CENSREC-4, the newest CENSREC. Finally we describe the road-maps of future CENSRECs.
  • 小川 純平, 西田 昌史, 堀内 靖雄, 黒岩 眞吾
    情報処理学会研究報告. SLP, 音声言語情報処理 69(129) 91-96 2007年12月20日  
    これまで我々は,討論や会議における書き起こしに発話印象を付与することを目指して,韻律情報をもとに発話印象を推定する手法について検討を行ってきた.本研究では,新たに韻律情報としてF0モデルから抽出したアクセント成分とフレーズ成分を用いて分析を行った.また,音声から推定された発話印象をどのように書き起こしに付与するかについて分析を行った.今回は,討論や会議といった音声の書き起こしを対象としているため,文字の太さ,大きさといった文字の装飾や感嘆符,疑問符などの記号の付与に着目した.対話音声の書き起こしにこれらのテキスト表現を行い,発話印象の主観評価実験を行った結果,音声から感じる発話印象とテキストから感じる発話印象の違いが明らかとなった.
  • 佐藤翔太, 木村 太郎, 堀内 晴雄, 西田 昌史, 黒岩 眞吾, 市川 熹
    情報処理学会研究報告音声言語情報処理(SLP) 2007(129) 97-102 2007年12月20日  
    F0 モデルパラメータに基づいて音声の変換・再合成を行うツールを開発した.先行研究において,発話の平均モーラ長やパワー,F0 モデルパラメータなどの韻律情報から係り受け構造,話者交代/継続の予測がある程度の精度で可能であるという結果が得られていた.これらの結果を実際のシステムに反映するためには,音声の聴取による心理実験が必要である.本研究では遺伝的アルゴリズムによる A-b-S を利用して推定された F0 モデルのパラメータを変更し,STRAIGHT によって再合成を行うツールを開発し,心理実験に使用する音声を快適に作成できる GUI 環境を構築した.We have been developing F0 modification and re-synthesis tool of speech based on F0 model. In the preceding research, syntactic structure and turn-taking were able to be predicted by prosodic information such as average mora duration, power and F0 model parameters. To evaluate the effectiveness of this idea in actual applications, we need to perform psychological listening experiments. In this research, to realize the environment that can easily make speech samples used for listening experiments, we have been developing a tool which can freely change F0 model parameters which were automatically estimated by the genetic algorithm and can re-synthesize the speech data with changed F0 model parameters by using STRAIGHT technology.
  • 喜多 雅彦, 黒岩 眞吾, 柘植 覚, 蒔苗 久則, 長内 隆, 鎌田 敏明, 谷本 益巳, 土屋 誠司, 福見 稔, 任福継
    情報処理学会研究報告音声言語情報処理(SLP) 2007(129) 183-188 2007年12月20日  
    本稿では,科学警察研究所によって構築された大規模話者骨導音声データベースを用いた話者照合実験を行った結果を報告する.実験には,664名(男性 336名,女性 328名)のコンデンサマイクで収録された音声(気導音),骨導マイクで収録された音声(骨導音)を用いた.実験では,以前我々が提案した複数話者モデルの順位情報を用いた話者照合手法を評価した.また,話者モデルとして GMM とベクトル量子化 (VQ) セントロイドの比較,発声時期の違いによる照合精度の比較を行った.実験結果より,提案手法は従来の T-Norm を用いた話者照合手法より高い照合精度を示すことが観測された.さらに,話者モデルの違いによる照合精度の比較結果より,気導音では VQ セントロイドを用いた方が照合精度が高く,骨導音では GMM を用いた方が高いことが観測された.また,骨導音による照合精度は気導音より低く,さらに骨導音は時期差が生じた場合,照合精度低下が著しいことが観測された.In this paper, we conducted a speaker verification experiment using large-scale speech database maintained by National Research Institute of Police Science, Japan. In this exepriment, we used speech data of 664 people collected by a capacitor microphone and a bone-conducted microphone. From experimental results, we confirmed that our proposed method that uses rank information obtained by multiple speaker model in previous work improved verification performance than a conventional method using T-norm score. In addition, we compared the speaker model based on GMMs and that based on VQ centroids. From this comparison, we can see that the speaker model based on VQ centroids is higher performance than that based on GMMs under the condition of the capacitor microphone speech. However, VQ centroids degraded the performance of that based on GMMs under the condition of the bone-conducted speech. Moreover, the performances of the bone-conducted speech significant degraded performance if there were difference of the speaking session between the registration and the testing.
  • 小川 純平, 西田 昌史, 堀内 靖雄, 黒岩 眞吾
    情報処理学会研究報告音声言語情報処理(SLP) 2007(129) 91-96 2007年12月20日  
    これまで我々は,討論や会議における書き起こしに発話印象を付与することを目指して,韻律情報をもとに発話印象を推定する手法について検討を行ってきた.本研究では,新たに韻律情報として F0 モデルから抽出したアクセント成分とフレーズ成分を用いて分析を行った.また,音声から推定された発話印象をどのように書き起こしに付与するかについて分析を行った.今回は,討論や会議といった音声の書き起こしを対象としているため,文字の太さ,大きさといった文字の装飾や感嘆符,疑問符などの記号の付与に着目した.対話音声の書き起こしにこれらのテキスト表現を行い,発話印象の主観評価実験を行った結果,音声から感じる発話印象とテキストから感じる発話印象の違いが明らかとなった.We have studied on estimation of utterance impression using prosody in order to index the utterance impression to transcription of debates and meetings. In this study, it estimated the utterance impression using accent and phrase elements extracted by F0 model. Moreover, it analyzed how to index the utterance impression to the transcription. We focused on thickness and size of character and sign of question and exclamation marks. We conducted subjective evaluation of the utterance impression using speech and text in dialogue speech. As a result, it demonstrated that the utterance impressions by speech and text are different.
  • 北岡 教英, 山田 武志, 滝口 哲也, 柘植 覚, 山本 一公, 宮島 千代美, 西浦 敬信, 中山 雅人, 傳田 遊亀, 藤本 雅清, 田村 哲嗣, 松田 繁樹, 小川 哲司, 黒岩 眞吾, 武田 一哉, 中村 哲
    電子情報通信学会技術研究報告. SP, 音声 107(406) 1-6 2007年12月13日  
    音声認識実用化において,雑音下の音声認識の性能向上が叫ばれている.現在も多くの研究が行われているが,これらの手法を客観的に比較評価する標準評価基盤が必要と考えられる.我々は2001年10月から情報処理学会音声言語情報処理研究会の下で雑音下音声認識評価ワーキンググループとして活動し,標準評価基盤CENSRECシリーズを構築・配布している.これまでのCENSRECシリーズを概観し,さらに今年度新たに配付する残響下音声認識評価基盤CENSREC-4の概要を述べる.そして,ワーキンググループ最終年度に向けて,今後どのような方針で評価基盤を設計・構築・配付していくのかを述べる.
  • 小川 純平, 西田 昌史, 堀内 靖雄, 黒岩 眞吾
    電子情報通信学会技術研究報告. SP, 音声 107(406) 91-96 2007年12月13日  
    これまで我々は,討論や会議における書き起こしに発話印象を付与することを目指して,韻律情報をもとに発話印象を推定する手法について検討を行ってきた.本研究では,新たに韻律情報としてF0モデルから抽出したアクセント成分とフレーズ成分を用いて分析を行った.また,音声から推定された発話印象をどのように書き起こしに付与するかについて分析を行った。今回は,討論や会議といった音声の書き起こしを対象としているため,文字の太さ,大きさといった文字の装飾や感嘆符,疑問符などの記号の付与に着目した.対話音声の書き起こしにこれらのテキスト表現を行い,発話印象の主観評価実験を行った結果,音声から感じる発話印象とテキストから感じる発話印象の違いが明らかとなった.
  • 佐藤 翔太, 木村 太郎, 堀内 靖雄, 西田 昌史, 黒岩 眞吾, 市川 熹
    電子情報通信学会技術研究報告. SP, 音声 107(406) 97-102 2007年12月13日  
    F0モデルパラメータに基づいて音声の変換・再合成を行うツールを開発した.先行研究において,発話の平均モーラ長やパワー,F0モデルパラメータなどの韻律情報から係り受け構造,話者交代/継続の予測がある程度の精度で可能であるという結果が得られていた.これらの結果を実際のシステムに反映するためには,音声の聴取による心理実験が必要である.本研究では遺伝的アルゴリズムによるA-b-Sを利用して推定されたF0モデルのパラメータを変更し,STRAIGHTによって再合成を行うツールを開発し,心理実験に使用する音声を快適に作成できるGUI環境を構築した.
  • 喜多 雅彦, 黒岩 眞吾, 柘植 覚, 蒔苗 久則, 長内 隆, 鎌田 敏明, 谷本 益巳, 土屋 誠司, 福見 稔, 任 福継
    電子情報通信学会技術研究報告. SP, 音声 107(406) 183-188 2007年12月13日  
    本稿では,科学警察研究所によって構築された大規模話者骨導音声データベースを用いた話者照合実験を行った結果を報告する.実験には,664名(男性336名,女性328名)のコンデンサマイクで収録された音声(気導音),骨導マイクで収録された音声(骨導音)を用いた.実験では,以前我々が提案した複数話者モデルの順位情報を用いた話者照合手法を評価した.また,話者モデルとしてGMMとベクトル量子化(VQ)セントロイドの比較,発声時期の違いによる照合精度の比較を行った.実験結果より,提案手法は従来のT-Normを用いた話者照合手法より高い照合精度を示すことが観測された.さらに,話者モデルの違いによる照合精度の比較結果より,気導音ではVQセントロイドを用いた方が照合精度が高く,骨導音ではGMMを用いた方が高いことが観測された.また,骨導音による照合精度は気導音より低く,さらに骨導音は時期差が生じた場合,照合精度低下が著しいことが観測された.
  • 北岡 教英, 山田 武志, 滝口 哲也, 柘植 覚, 山本 一公, 宮島 千代美, 西浦 敬信, 中山 雅人, 傳田 遊亀, 藤本 雅清, 田村 哲嗣, 松田 繁樹, 小川 哲司, 黒岩 眞吾, 武田 一哉, 中村 哲
    電子情報通信学会技術研究報告. NLC, 言語理解とコミュニケーション 107(405) 1-6 2007年12月13日  
    音声認識実用化において,雑音下の音声認識の性能向上が叫ばれている.現在も多くの研究が行われているが,これらの手法を客観的に比較評価する標準評価基盤が必要と考えられる.我々は2001年10月から情報処理学会音声言語情報処理研究会の下で雑音下音声認識評価ワーキンググループとして活動し,標準評価基盤CENSRECシリーズを構築・配布している.これまでのCENSRECシリーズを概観し,さらに今年度新たに配付する残響下音声認識評価基盤CENSREC-4の概要を述べる.そして,ワーキンググループ最終年度に向けて,今後どのような方針で評価基盤を設計・構築・配付していくのかを述べる.
  • 小川 純平, 西田 昌史, 堀内 靖雄, 黒岩 眞吾
    電子情報通信学会技術研究報告. NLC, 言語理解とコミュニケーション 107(405) 91-96 2007年12月13日  
    これまで我々は,討論や会議における書き起こしに発話印象を付与することを目指して,韻律情報をもとに発話印象を推定する手法について検討を行ってきた.本研究では,新たに韻律情報としてF0モデルから抽出したアクセント成分とフレーズ成分を用いて分析を行った.また,音声から推定された発話印象をどのように書き起こしに付与するかについて分析を行った.今回は,討論や会議といった音声の書き起こしを対象としているため,文字の太さ,大きさといった文字の装飾や感嘆符,疑問符などの記号の付与に着目した.対話音声の書き起こしにこれらのテキスト表現を行い,発話印象の主観評価実験を行った結果,音声から感じる発話印象とテキストから感じる発話印象の違いが明らかとなった.
  • 佐藤 翔太, 木村 太郎, 堀内 靖雄, 西田 昌史, 黒岩 眞吾, 市川 熹
    電子情報通信学会技術研究報告. NLC, 言語理解とコミュニケーション 107(405) 97-102 2007年12月13日  
    F0モデルパラメータに基づいて音声の変換・再合成を行うツールを開発した.先行研究において,発話の平均モーラ長やパワー,F0モデルパラメータなどの韻律情報から係り受け構造,話者交代/継続の予測がある程度の精度で可能であるという結果が得られていた.これらの結果を実際のシステムに反映するためには,音声の聴取による心理実験が必要である.本研究では遺伝的アルゴリズムによるA-b-Sを利用して推定されたF0モデルのパラメータを変更し,STRAIGHTによって再合成を行うツールを開発し,心理実験に使用する音声を快適に作成できるGUI環境を構築した.
  • 喜多 雅彦, 黒岩 眞吾, 柘植 覚, 蒔苗 久則, 長内 隆, 鎌田 敏明, 谷本 益巳, 土屋 誠司, 福見 稔, 任 福継
    電子情報通信学会技術研究報告. NLC, 言語理解とコミュニケーション 107(405) 183-188 2007年12月13日  
    本稿では,科学警察研究所によって構築された大規模話者骨導音声データベースを用いた話者照合実験を行った結果を報告する.実験には,664名(男性336名,女性328名)のコンデンサマイクで収録された音声(気導音),骨導マイクで収録された音声(骨導音)を用いた.実験では,以前我々が提案した複数話者モデルの順位情報を用いた話者照合手法を評価した.また,話者モデルとしてGMMとベクトル量子化(VQ)セントロイドの比較,発声時期の違いによる照合精度の比較を行った.実験結果より,提案手法は従来のT-Normを用いた話者照合手法より高い照合精度を示すことが観測された.さらに,話者モデルの違いによる照合精度の比較結果より,気導音ではVQセントロイドを用いた方が照合精度が高く,骨導音ではGMMを用いた方が高いことが観測された.また,骨導音による照合精度は気導音より低く,さらに骨導音は時期差が生じた場合,照合精度低下が著しいことが観測された.
  • Computer Speech and Language 21(4) 594-608 2007年10月  

講演・口頭発表等

 30

Works(作品等)

 5

共同研究・競争的資金等の研究課題

 17