現在の音声認識は.実使用環境に依存する雑音などの外的要因により性能劣化を免れない.このため,これまで数々の研究が行われてきた.しかしながら,異なるタスク,異なる評価データが用いられてきたため性能の比較が非常に困難であった.このため,米国や欧州で種々のプロジェクトが企画された.本稿では,これらのプロジェクトと日本において著者らが進めている雑音下音声認識の評価フレームワーク構築の活動についての現状と今後の予定,狙いについて述べる.Performance degradation by environmental interference such as noise and reverberation is inevitable for the current state of the art speech recognition. So far there have been many researches to overcome this problem. However, it has been very difficult to know actual improvements and compare those methods since those methods were developed for individual tasks and on different corpus. Recently, two projects have been organized in USA and Europe. This paper introduces those projects briefly, and also introduces current activities and a future road-map of a common standardized framework for noisy speech recognition organized by the authors.
本稿では,SLP雑音下音声認識評価ワーキンググループの活動成果として,自動車内音声認識の評価用データベースCENSREC-3と,標準評価スクリプトによるベースライン評価結果について述べる.CENSREC-3は,AURORA-2Jに続く雑音下音声認識の標準評価環境であり,実走行車内での孤立単語音声認識の評価環境を提供する.音声データの収録は,説話マイクロホンと遠隔マイクロホンの2種類を用いて,3種類の走行速度と6種類の車内環境を組み合わせた16種類の環境下で行っており,これらの音声データを用いた6種類の評価環境を提供する.This paper introduces a common database, an evaluation framework, and its baseline recognition results for in-car speech recognition, CENSREC-3, as an outcome of IPSJ-SIG SLP Noisy Speech Recognition Evaluation Working Group. CENSREC-3 which is a sequel of AURORA-2J is designed as the evaluation framework of isolated word recognition in real driving car environments. Speech data was collected using 2 microphones, a close-talking microphone and a hands-free microphone, under carefully controlled 16 different driving conditions, i.e., combinations of 3 car speeds and 5 car conditions. CENSREC-3 provides 6 evaluation environments which are designed using speech data collected in these car conditions.
International Workshop on statistical modeling approach for speech recognition, “BEYOND HMM”, printed as the technical report of IEICE SP2004-95 104(541) 85-90 2004年
The Vector Space Model (VSM) is a conventional information retrieval model, which represents a document collection by a term-by-document matrix. Since term-by-document matrices are usually high-dimensional and sparse, they are susceptible to noise and are also difficult to capture the underlying semantic structure. Dimensionality reduction is a way to overcome these problems. Principal Component Analysis (PCA) and Singular Value Decomposition (SVD) are popular techniques for dimensionality reduction based on matrix decomposition, however they contain both positive and negative values in the decomposed matrices. In the work described here, we use Non-negative Matrix Factorization (NMF) for dimensionality reduction of the vector space model. Since matrices decomposed by NMF only contain non-negative values, the original data are represented by only additive, not subtractive, combinations of the basis vectors. This characteristic of parts-based representation is appealing because it reflects the intuitive notion of combining parts to form a whole. Using MEDLINE collection, we experimentally showed that NMF offers great improvement over the vector space model.
携帯電話やPDAなどの携帯端末の音声認識手法として分散音声認識手法(DSR: Distributed Speech Recoginition)が近年提案された。DSRでは,携帯端末とサーバ間で伝送するデータ形式等を共通化する必要があり、現在、ETSIにおいて標準化が進められている。標準化の一環として、2000年4月にはETSI標準DSRフロントエンド、2002年10月には雑音対策手法などを追加したETSI Advanced DSRフロントエンドが勧告された。携帯端末は多種多様であり、使用される入力デバイスの周波数特性には差異が生じる。この差異は特徴パラメータ圧縮時のベクトル量子化歪みを増加させ、音声認識性能劣化の要因の一つとなる。そこで、本稿では、周波数特性を正規化する手法を提案する。提案手法は、各フレーム毎に複数の参照ケプストラムと特徴パラメータを比較し、参照ケプストラムに入力ケプストラムが近づくように周波数特性を正規化する。実際には,入力音声の音素列を推定し、各音素の特徴パラメータの平均が音響モデル学習時の特徴パラメータの平均と一致するように入力特徴パラメータを平行移動させ、周波数特性を正規化する。音声認識実験結果より、提案手法はATSI Advanced DSRフロントエンドで使用されているBlind Equalization手法より高い認識性能を示した。特に、提案手法はMIRSフィルタ条件下でETSI Advanced DSRフロントエンドの単語誤り率を17.88%削減(16.67%→13.69%)することが可能であった。In this paper, we focus on the influence on recognition performance of DSR with acoustic mismatches caused by input devices. DSR employs a vector quantization (VQ) algorithm for feature compression so that VQ distortion is increased by acoustic mismatches. Large VQ distortions increase the speech recognition error rate. To overcome the problem of VQ distortion, we have proposed the Bias Removal Method (BRM) in previous work. However, this method can not be applied in real-time. Therefore, in this paper, we propose a Real-time Bias Removal Method (RBRM). This method estimates the bias using, past frames and multiple reference cepstrum vectors instead of one reference which is employed by ETSI advanced DSR front-end. Experimental results on a Japanese newspaper dictation task indicate that the proposed method showed improvement in the recognition performance for blind equalization in ETSI advanced DSR front-end under acoustic mismatched conditions.
本稿では、分散型音声認識のための標準フロントエンドであるETSI ES201 (WI007)とETSI ES202 (WI008)の性能をAURORA-2Jを用いて比較評価する.その際,AURORA2やAURORA-2Jで採用している平均的な認識性能を表す評価指標に加えて,話者毎の認識性能を表す評価指標を用いる.具体的には,話者毎の単語正解精度の最大値,最小値,平均値,標準偏差,話者毎の単語正解精度のヒストグラム,単語正解精度がx%以上の話者の割合である.その結果,WI008の認識性能は,WI007を大幅に上回っていることが確認できた.その一方で,話者毎の認識性能には,さらなる改善が必要であることが分かった.This paper describes the results of comparative evaluation of ETSI ES201 (WI007) and ETSI ES202 (WI008), which are the standard frontends for distributed speech recognition. As the evaluation index, the word accuracy for each speaker is used in addition to the overall word accuracy. The experimental results using AURORA-2J confirmed that the WI008 achieves much better recognition performance than the WI007, and the WI008 still has the problem of speaker dependency.
様々な雑音条件下でロバストな音声認識を実現するためには,複数の雑音抑圧手法の統合が有効であると考えられる.本稿では,4つの雑音抑圧手法時間方向スムージングを用いたスペクトルサブトラクション法,時間領域SVDに基づく音声強調,GMMに基づく音声信号推定,ピッチ同期KLT)とそれらの組合せの有効性を,AURORA-2Jを用いて調べた.その結果,雑音条件によって最適な手法・組合せは異なっており,雑音条件に適したものを適宜選択することにより,認識性能を大幅に改善できることが明らかとなった.また,Multicondition trainingの場合は,雑音抑圧量を増やしても,必ずしも認識性能の改善につながらないことが分かった.To achieve high recognition performance for a wide variety of noise and for a wide range of signal-to-noise ratios, this paper presents the integration of four noise reduction algorithms: spectral subtraction with smoothing of time direction, temporal domain SVD-based speech enhancement, GMM-based speech estimation and KLT-based comb-filtering. Recognition results on the AURORA-2J task show that the effectiveness of these algorithms and their combinations strongly depends on noise conditions, and excessive noise reduction tends to degrade recognition performance in multicondition training.
本稿では,SLP雑音下音声認識評価ワーキンググループの活動成果として,雑音 下音声認識評価用共通データベースAURORA-2Jと,その標準評価スクリプトによるベースライン評価結果について述べる.AURORA-2Jは,AURORAプロジェクトの AURORA-2データベースの日本語版として設計され,標準評価スクリプトも AURORA-2で配布されているスクリプトをベースとして開発されている.この共通 評価フレームワークにより,各機関における雑音環境下音声認識手法の性能を容 易に比較することが可能となり,雑音環境下音声認識手法の発展を促すことがで きると考えられる.また,自動車内における数字/コマンド発声データベースで あるAURORA-3Jの開発進捗状況についても述べる.This paper introduces a common database, an evaluation framework, and its baseline recognition result for noisy speech recognition, AURORA-2J, as an outcome of IPSJ-SIG SLP Noisy Speech Recognition Evaluation Working Group. AURORA-2J is designed as Japanized version of the AURORA-2 database and the evaluation framework is based on the AURORA-2 baseline scripts. This common evaluation framework enables to compare various noisy speech recognition techniques on a common ground. We hope more development of noisy speech recognition techniques using this evaluation framework. We also describe about AURORA-3J, digits and speech command database in car environments.
本稿では,自然言語処理技術を利用した中学理科教授学習システムの構築手法を提案し,現在構築中の実験システムの概要を述べる.本システムは, Super Functionを用いて学習者入力文解析,理科問題文自動生成を行なう.従来の教授学習システムでは,予め用意された提示パターンしか出さない場合が多く,また解答方式は選択式のため学習者主体の学習環境とはいえない.本システムでは解答方式は学習者の自由文入力を可能とし,間違った解答に対してはその間違いによる現実世界での現象を提示する.またシステムのインターフェースには音声認識,音声合成を用いる予定である.これにより学習者のタイピング技術に左右されず,キーボードになじめない学習者もシステムを容易に使用することが期待できる.また,本稿ではシステム構築後の評価方法の指針についても言及する.
本稿では,自然言語処理技術を利用した中学理科教授学習システムの構築手法を提案し,現在構築中の実験システムの概要を述べる.本システムは, Super Functionを用いて学習者入力文解析,理科問題文自動生成を行なう.従来の教授学習システムでは,予め用意された提示パターンしか出さない場合が多く,また解答方式は選択式のため学習者主体の学習環境とはいえない.本システムでは解答方式は学習者の自由文入力を可能とし,間違った解答に対してはその間違いによる現実世界での現象を提示する.またシステムのインターフェースには音声認識,音声合成を用いる予定である.これにより学習者のタイピング技術に左右されず,キーボードになじめない学習者もシステムを容易に使用することが期待できる.また,本稿ではシステム構築後の評価方法の指針についても言及する.