Tree-basedクラスタリングは,音素コンテキストを分割条件としてトライフォンの集合に対してクラスタリングを行いHMM状態の共有化を図る有効な手法である.従来の報告では,計算量の点から対象が単一分布HMMに限られていた.しかし,単一分布HMMでは不特定話者の音響的特徴を表現するのに不十分であるため,必ずしも適切なトポロジ(HMM状態の共有関係)が得られていないと考えられる.また所望の混合分布トライフォンを得るためには,tree-basedクラスタリングの後,混合数を倍増する操作と学習を繰り返すため膨大な時間を要する.そこで,本稿では混合分布トライフォンに対して分布のクラスタリングを行いながらtree-basedクラスタリングを行う手法を提案する.本手法により学習時間が1/3程度に短縮され,認識実験では1∼2%の音素正解精度の改善を確認した.Tree-based clustering is an effective method to share HMM states by clustering triphones based on phonetic questions. Previous researches on this method have been made on HMMs of single Gaussian output distributions due to computational restrictions. However, single Gaussian HMMs may not be sufficient to create appropriate topology (i. e. HMM state sharing). Furthermore, a significant amount of time is required to obtain Gaussian mixture HMMs for repetitive distribution splitting and embedded training. In this paper, we propose a tree-based clustering for Gaussian mixture HMMs based on distribution clustering. This method achieved 67% reduction on training time and 1-2% improvement in phoneme accuracy.
本論文では,十分な学習データ量が確保できない場合のN-gramモデルの構築法として,文レベルの混合分布N-gramと類似タスクのデータを加えて学習する方法を組み合わせた手法を提案する.本手法は,ターゲットトピックのデータと類似タスクのデータを足しあわせて文をクラスタリングし,各クラスタのN-gramから混合分布N-gramを構成するステップと,ターゲットトピックのデータだけを用いて混合分布N-gramの混合比を学習するステップからなる.本手法のメリットは,類似タスクを用いた学習データ量の確保と,N-gramの混合比の学習による不要な学習データの除去にある.実験の結果,提案法はターゲットトピックのデータだけから学習したtrigramよりもクロスエントロピーが低下することが確認された.This paper proposes a new method for developing statistical N-gram language models which integrate sentence-level mixture N-grams and selective use of similar task data. In this method, component N-gram parameters are estimated using both target topic data and similar task data, then the sentence-level mixture N-gram model is adapted by using only target topic data. This approach has the advantage that it can use more data for training and remove useless clusters, which are far from target topic data. The experiment results show that this method achieves the cross-entropy reduction compared with the standard trigram.
数字による個人の識別や確認の手法は、クレジット番号や暗証番号等、広く普及しており、音声を用いた話者照合においても数字を用いることは利用者にとっても自然であると考えられる。本稿では、電話回線経由で収集した連続数字発声を用い、隠れマルコフモデル(Hidden Markov Model ; HMM)による話者照合方式の検討を行う。まず話者モデルを学習する方法について検討し、各話者の数字モデルの学習方法を提案する。更に、この数字モデルを用いた話者照合方式を検討し、テキスト指定型およびテキスト依存型において話者照合性能を評価するとともに、音素モデルを用いた場合との性能比較を行う。