GCCE 2024 - 2024 IEEE 13th Global Conference on Consumer Electronics 119-120 2024年
Obese and overweight individuals are at high risk for chronic diseases such as sleep apnea and diabetes. Therefore, it is necessary to track eating behavior to determine the causes of obesity; however, it is time- and labor-intensive to follow the lives of specific individuals and observe their eating behavior. Thus, a method to automatically monitor eating behavior should be considered. As one approach to monitoring methods, we propose a method for convenient recognition of food category for food intake sounds recorded by microphones (below the ear microphone, throat microphone and acoustic microphone), which is less burdensome to the body and better from the viewpoint of privacy protection. Furthermore, a comparison of MFB and large-scale pre-trained speech models (wav2vec2.0, wavLM, and HuBERT) showed the effectiveness of large-scale pre-trained speech models in the food recognition task.
GCCE 2024 - 2024 IEEE 13th Global Conference on Consumer Electronics 808-810 2024年
To enhance speaker verification for short utterances, we have developed a Same Speaker Identification Deep Neural Network (SSI-DNN). This network identifies whether two utterances are uttered by the same speaker with greater accuracy by focusing on the same texts. In this paper, we extend the detection target of the SSI-DNN from monosyllabic utterances to word utterances to improve the speaker recognition performance. Experimental results showed that the SSI-DNN trained on word utterances achieved an EER of 0.1% to 2.8%. These results indicated that the SSI-DNN outperformed the x-vector-based speaker verification method, which is a representative speaker verification method.
GCCE 2024 - 2024 IEEE 13th Global Conference on Consumer Electronics 141-143 2024年
Hands-free control of shower settings, such as temperature, is highly desirable, enhancing user convenience when both hands are occupied or eyes are closed. In this paper, we propose a speaker-dependent, template-based isolated word recognition system using pre-trained large speech models (LSMs) to realize voice-activated shower control with a single microphone. Specifically, we examine the performance of 3 LSMs (wav2vec2.0, HuBERT, WavLM) as well as conventional MFCC as features. Additionally, we investigate speech enhancement using a Convolutional Recurrent Neural Network (CRN) to improve robustness against shower noise. Our experiments for recognizing 30 words with SNRs ranging from -5 dB to 20 dB demonstrate that HuBERT achieves the highest recognition accuracy (77.8 to 95.6%). CRN, on the other hand, improved recognition accuracy only under -5 dB conditions, but its accuracy was only 80.8%.
GCCE 2024 - 2024 IEEE 13th Global Conference on Consumer Electronics 805-807 2024年
Recent advances in AI technology have brought not only many benefits but also considerable risks due to malicious use of the technology. One key example is spoofing through speech synthesis and voice conversion technologies against speaker verification system. To tackle this challenge, we proposed a two-step matching method as a robust speaker verification, in which a user specifies an emotion to a system in advance, and the user is accepted only when the user speaks with the specified emotion. This previous method reduced the false acceptance rate. However, the false rejection rate increased. To overcome this problem, we propose a novel method that integrates speaker and emotion verification scores in this work. Experiments revealed that the proposed method can reduce the equal error rate compared with that of the conventional method to assign the optimal weight to the speaker and emotional information contained in the speech.
International Workshop on statistical modeling approach for speech recognition, “BEYOND HMM”, printed as the technical report of IEICE SP2004-95 104(541) 85-90 2004年
The Vector Space Model (VSM) is a conventional information retrieval model, which represents a document collection by a term-by-document matrix. Since term-by-document matrices are usually high-dimensional and sparse, they are susceptible to noise and are also difficult to capture the underlying semantic structure. Dimensionality reduction is a way to overcome these problems. Principal Component Analysis (PCA) and Singular Value Decomposition (SVD) are popular techniques for dimensionality reduction based on matrix decomposition, however they contain both positive and negative values in the decomposed matrices. In the work described here, we use Non-negative Matrix Factorization (NMF) for dimensionality reduction of the vector space model. Since matrices decomposed by NMF only contain non-negative values, the original data are represented by only additive, not subtractive, combinations of the basis vectors. This characteristic of parts-based representation is appealing because it reflects the intuitive notion of combining parts to form a whole. Using MEDLINE collection, we experimentally showed that NMF offers great improvement over the vector space model.
携帯電話やPDAなどの携帯端末の音声認識手法として分散音声認識手法(DSR: Distributed Speech Recoginition)が近年提案された。DSRでは,携帯端末とサーバ間で伝送するデータ形式等を共通化する必要があり、現在、ETSIにおいて標準化が進められている。標準化の一環として、2000年4月にはETSI標準DSRフロントエンド、2002年10月には雑音対策手法などを追加したETSI Advanced DSRフロントエンドが勧告された。携帯端末は多種多様であり、使用される入力デバイスの周波数特性には差異が生じる。この差異は特徴パラメータ圧縮時のベクトル量子化歪みを増加させ、音声認識性能劣化の要因の一つとなる。そこで、本稿では、周波数特性を正規化する手法を提案する。提案手法は、各フレーム毎に複数の参照ケプストラムと特徴パラメータを比較し、参照ケプストラムに入力ケプストラムが近づくように周波数特性を正規化する。実際には,入力音声の音素列を推定し、各音素の特徴パラメータの平均が音響モデル学習時の特徴パラメータの平均と一致するように入力特徴パラメータを平行移動させ、周波数特性を正規化する。音声認識実験結果より、提案手法はATSI Advanced DSRフロントエンドで使用されているBlind Equalization手法より高い認識性能を示した。特に、提案手法はMIRSフィルタ条件下でETSI Advanced DSRフロントエンドの単語誤り率を17.88%削減(16.67%→13.69%)することが可能であった。In this paper, we focus on the influence on recognition performance of DSR with acoustic mismatches caused by input devices. DSR employs a vector quantization (VQ) algorithm for feature compression so that VQ distortion is increased by acoustic mismatches. Large VQ distortions increase the speech recognition error rate. To overcome the problem of VQ distortion, we have proposed the Bias Removal Method (BRM) in previous work. However, this method can not be applied in real-time. Therefore, in this paper, we propose a Real-time Bias Removal Method (RBRM). This method estimates the bias using, past frames and multiple reference cepstrum vectors instead of one reference which is employed by ETSI advanced DSR front-end. Experimental results on a Japanese newspaper dictation task indicate that the proposed method showed improvement in the recognition performance for blind equalization in ETSI advanced DSR front-end under acoustic mismatched conditions.
本稿では、分散型音声認識のための標準フロントエンドであるETSI ES201 (WI007)とETSI ES202 (WI008)の性能をAURORA-2Jを用いて比較評価する.その際,AURORA2やAURORA-2Jで採用している平均的な認識性能を表す評価指標に加えて,話者毎の認識性能を表す評価指標を用いる.具体的には,話者毎の単語正解精度の最大値,最小値,平均値,標準偏差,話者毎の単語正解精度のヒストグラム,単語正解精度がx%以上の話者の割合である.その結果,WI008の認識性能は,WI007を大幅に上回っていることが確認できた.その一方で,話者毎の認識性能には,さらなる改善が必要であることが分かった.This paper describes the results of comparative evaluation of ETSI ES201 (WI007) and ETSI ES202 (WI008), which are the standard frontends for distributed speech recognition. As the evaluation index, the word accuracy for each speaker is used in addition to the overall word accuracy. The experimental results using AURORA-2J confirmed that the WI008 achieves much better recognition performance than the WI007, and the WI008 still has the problem of speaker dependency.
様々な雑音条件下でロバストな音声認識を実現するためには,複数の雑音抑圧手法の統合が有効であると考えられる.本稿では,4つの雑音抑圧手法時間方向スムージングを用いたスペクトルサブトラクション法,時間領域SVDに基づく音声強調,GMMに基づく音声信号推定,ピッチ同期KLT)とそれらの組合せの有効性を,AURORA-2Jを用いて調べた.その結果,雑音条件によって最適な手法・組合せは異なっており,雑音条件に適したものを適宜選択することにより,認識性能を大幅に改善できることが明らかとなった.また,Multicondition trainingの場合は,雑音抑圧量を増やしても,必ずしも認識性能の改善につながらないことが分かった.To achieve high recognition performance for a wide variety of noise and for a wide range of signal-to-noise ratios, this paper presents the integration of four noise reduction algorithms: spectral subtraction with smoothing of time direction, temporal domain SVD-based speech enhancement, GMM-based speech estimation and KLT-based comb-filtering. Recognition results on the AURORA-2J task show that the effectiveness of these algorithms and their combinations strongly depends on noise conditions, and excessive noise reduction tends to degrade recognition performance in multicondition training.
本稿では,SLP雑音下音声認識評価ワーキンググループの活動成果として,雑音 下音声認識評価用共通データベースAURORA-2Jと,その標準評価スクリプトによるベースライン評価結果について述べる.AURORA-2Jは,AURORAプロジェクトの AURORA-2データベースの日本語版として設計され,標準評価スクリプトも AURORA-2で配布されているスクリプトをベースとして開発されている.この共通 評価フレームワークにより,各機関における雑音環境下音声認識手法の性能を容 易に比較することが可能となり,雑音環境下音声認識手法の発展を促すことがで きると考えられる.また,自動車内における数字/コマンド発声データベースで あるAURORA-3Jの開発進捗状況についても述べる.This paper introduces a common database, an evaluation framework, and its baseline recognition result for noisy speech recognition, AURORA-2J, as an outcome of IPSJ-SIG SLP Noisy Speech Recognition Evaluation Working Group. AURORA-2J is designed as Japanized version of the AURORA-2 database and the evaluation framework is based on the AURORA-2 baseline scripts. This common evaluation framework enables to compare various noisy speech recognition techniques on a common ground. We hope more development of noisy speech recognition techniques using this evaluation framework. We also describe about AURORA-3J, digits and speech command database in car environments.
本稿では,自然言語処理技術を利用した中学理科教授学習システムの構築手法を提案し,現在構築中の実験システムの概要を述べる.本システムは, Super Functionを用いて学習者入力文解析,理科問題文自動生成を行なう.従来の教授学習システムでは,予め用意された提示パターンしか出さない場合が多く,また解答方式は選択式のため学習者主体の学習環境とはいえない.本システムでは解答方式は学習者の自由文入力を可能とし,間違った解答に対してはその間違いによる現実世界での現象を提示する.またシステムのインターフェースには音声認識,音声合成を用いる予定である.これにより学習者のタイピング技術に左右されず,キーボードになじめない学習者もシステムを容易に使用することが期待できる.また,本稿ではシステム構築後の評価方法の指針についても言及する.
本稿では,自然言語処理技術を利用した中学理科教授学習システムの構築手法を提案し,現在構築中の実験システムの概要を述べる.本システムは, Super Functionを用いて学習者入力文解析,理科問題文自動生成を行なう.従来の教授学習システムでは,予め用意された提示パターンしか出さない場合が多く,また解答方式は選択式のため学習者主体の学習環境とはいえない.本システムでは解答方式は学習者の自由文入力を可能とし,間違った解答に対してはその間違いによる現実世界での現象を提示する.またシステムのインターフェースには音声認識,音声合成を用いる予定である.これにより学習者のタイピング技術に左右されず,キーボードになじめない学習者もシステムを容易に使用することが期待できる.また,本稿ではシステム構築後の評価方法の指針についても言及する.
本稿では,2001年10月に音声言語情報処理研究会内に設立した雑音下音声認識の評価に関するワーキンググループの活動状況の報告を行う.このワーキンググループでは,雑音下音声認識の評価のための共通のコーパスの策定、および収録、その評価法の検討を進めている.現在までに行ったデータベース収集、評価系の構築について経過報告を行う.This paper reports current status of the SLP working group establised in October 2001 on the noisy speech recognition. The working group aims to develop standards, common corpus, and noisy speech recognition system in conjunction with Europian ETSI AURORA evaluation projects. In this paper, we report current status of data collection, standard backend recognition system, snd other activities of the working grpop.
近年のインターネット技術の発展により,World Wide Web(WWW)を代表とする個人で扱えるオンラインテキストデータの量が増加している.それにともない,莫大なテキストデータ中から必要な情報を検索する機会も増え,情報検索に関する研究への関心が高まっている.情報検索システムとして,検索対象文書と検索質問を多次元ベクトルで表現するベクトル空間モデル(VSM: Vector Space Model)が広く使用されている.VSMを用いた検索システムの精度を改善する手法の1つとして,適合性フィードバック手法(Relevance Feedback)が提案されている.この手法は,VSMを用いた1次検索結果に対し,利用者が適合・不適合の判断を行いその情報をシステムにフィードバックし,再検索を行うことで検索精度を向上させている.本論文では,この利用者からのフィードバック情報を検索対象文書全体の適合・不適合の判別に用いた.判別を行う識別器として,従来手法より,判別の能力が高く,汎化性に優れたサポートベクターマシン(SVM: Support Vector Machine)を用いた.このフィードバック手法をサポートベクターマシンによる適合性フィードバックとして本論文で提案する.日本語テストコレクション(BMIR-J2)を用いた類似文書検索実験において,提案手法は従来手法と比較し,利用者が判断し,システムにフィードバックされる文書数が50の場合,24.0%の検索精度改善を得ることが可能であった.With the rapid growth of online information, e.g., the World Wide Web(WWW), a large collection of full-text documents is available andopportunity for getting a useful piece of information is increased.Information Retrieval (IR) is now becoming one of the most importantissues for handling large text data.Relevance feedback is a technique that improves retrieval performancebased on relevance judgments from the user. Here, we propose therelevance feedback method using Support Vector Machine (SVM).Experiment results on Japanese test collection BMIR-J2 show that theproposed method is useful feedback method comparing to theconventional feedback method. Especially, the proposed method improvedthe performance of IR system.