研究者業績

堀内 靖雄

ホリウチ ヤスオ  (Yasuo Horiuchi)

基本情報

所属
千葉大学 大学院情報学研究院 准教授
学位
博士(工学)(1995年3月 東京工業大学)

J-GLOBAL ID
200901021029331583
researchmap会員ID
1000191929

主要な論文

 22

MISC

 559
  • FANG F, 篠崎隆宏, 堀内靖雄, 黒岩眞吾, 古井貞煕, 武者利光
    知能システムシンポジウム資料 39th 293-298 2012年3月15日  
  • 米田崇明, 篠崎隆宏, 堀内靖雄, 黒岩眞吾
    言語処理学会年次大会発表論文集 18th (CD-ROM) ROMBUNNO.P2-32 2012年3月13日  
  • 森下崇弘, 米田崇明, 篠崎隆宏, 堀内靖雄, 黒岩眞吾
    言語処理学会年次大会発表論文集 18th (CD-ROM) ROMBUNNO.P3-37 2012年3月13日  
  • 黒岩眞吾, 柘植覚, ZHANG Wenbin, 篠崎隆宏, 堀内靖雄
    日本音響学会研究発表会講演論文集(CD-ROM) 2012 ROMBUNNO.3-7-2 2012年3月6日  
  • 村手宏輔, 黒岩眞吾, 堀内靖雄, 篠崎隆宏
    情報処理学会全国大会講演論文集 74th(2) 2.535-2.536-536 2012年3月6日  
    情報推薦に用いられるコンテンツベースベース技術に関して、あらすじが書かれた文書などストーリー性のあるコンテンツに対する類似度計算方法を提案する.ストーリーとは映画や小説などに含まれる話の筋のことであり、それらを説明する文書の中では人物の行動の経緯など要素の連続によって表現されていることが多い.しかし、従来の文書間類似度を計算する際に用いられるベクトル空間モデルでは、出現順序によって意味合いが変るストーリーを比較することは難しい.本研究ではストーリー性を考慮した文書の比較を行うことを目標とし、映画のあらすじ文書を対象に要素の並びを利用した類似度計算方法を検討した.
  • 篠崎隆宏, 堀内靖雄, 黒岩眞吾
    日本音響学会研究発表会講演論文集(CD-ROM) 2012 ROMBUNNO.3-7-7 2012年3月6日  
  • 村手宏輔, 黒岩眞吾, 堀内靖雄, 篠崎隆宏
    全国大会講演論文集 2012(1) 535-537 2012年3月6日  
    情報推薦に用いられるコンテンツベースベース技術に関して、あらすじが書かれた文書などストーリー性のあるコンテンツに対する類似度計算方法を提案する.ストーリーとは映画や小説などに含まれる話の筋のことであり、それらを説明する文書の中では人物の行動の経緯など要素の連続によって表現されていることが多い.しかし、従来の文書間類似度を計算する際に用いられるベクトル空間モデルでは、出現順序によって意味合いが変るストーリーを比較することは難しい.本研究ではストーリー性を考慮した文書の比較を行うことを目標とし、映画のあらすじ文書を対象に要素の並びを利用した類似度計算方法を検討した.
  • 房 福明, 篠崎 隆宏, 堀内 靖雄, 黒岩 眞吾, 古井 貞熙, 武者 利光
    電子情報通信学会技術研究報告 : 信学技報 111(431) 97-102 2012年2月9日  
    身体的なハンディキャップにより意思疎通が難しい者,特に筋萎縮性側索硬化症(ALS)の患者に対し,代替となる効率的なコミュニケーション手段を提供することを目的として,眼電位を入力とした音声合成インタフェースを提案する.眼電位は眼球が弱い電池であることに起因し,目の周囲に生体電極を配置することで検出できる.提案システムでは,音声認識を応用した認識器を用いて連続した眼球動作を眼電位信号から認識し,その結果をもとに実時間で音声合成を行う.本論文では,このうち認識部について評価を行う.認識器の動作には,予め眼球動作と眼電位の関係を学習した隠れマルコフモデルを用いる.実験では,ユーザ自身から収録したデータを元にモデルを作成することで,平均して95.7%の高い認識精度が得られることを示す.この方法で作成した眼電位のモデルは,基本的にそのユーザ専用となる.しかし実用の観点からは,不特定のユーザに対して動作することが望ましい.そこで,眼電位モデルの個人差による認識性能への影響や,その影響を低減するための適応化手法についても検討を行った.音声認識における話者適応化手法を応用することで,眼電位の認識精度が向上することを示す.
  • 西村 洋介, 今村 大輔, 堀内 靖雄, 川本 一彦, 篠崎 隆宏, 黒岩 眞吾
    電子情報通信学会技術研究報告 : 信学技報 111(431) 161-166 2012年2月9日  
    本論文ではKinectによる手話認識手法を提案する.Kinectにより得られたRGB画像と距離情報を統合し,パーティクルフィルタにより,3次元空間上での手の位置座標を推定して,HMMにより連続手話認識を行った.その結果,従来手法であるRGB画像のみを用いたものと比較して認識精度を76.2%から86.0%に向上させることができた.また,磁気センサを用いた場合に比べ,認識精度の低下を1%以下に抑えることができた.実用的な応用を考慮した場合,磁気センサは高価で,装着するのも面倒であるが,提案手法は一般のユーザでも容易に入手可能なKinectのみを使用するため,実用的であるということが言える.
  • 西村 祥介, 今村 大輔, 堀内 靖雄, 川本 一彦, 篠崎 隆宏, 黒岩 眞吾
    電子情報通信学会技術研究報告. PRMU, パターン認識・メディア理解 111(430) 161-166 2012年2月2日  
    本論文ではKinectによる手話認識手法を提案する.Kinectにより得られたRGB画像と距離情報を統合し,パーティクルフィルタにより,3次元空間上での手の位置座標を推定して,HMMにより連続手話認識を行った.その結果,従来手法であるRGB画像のみを用いたものと比較して認識精度を76.2%から86.0%に向上させることができた.また,磁気センサを用いた場合に比べ,認識精度の低下を1%以下に抑えることができた.実用的な応用を考慮した場合,磁気センサは高価で,装着するのも面倒であるが,提案手法は一般のユーザでも容易に入手可能なKinectのみを使用するため,実用的であるということが言える.
  • FANG Fuming, 篠崎隆宏, 堀内靖雄, 黒岩眞吾, 古井貞煕, 武者利光
    電子情報通信学会技術研究報告 111(430(PRMU2011 186-239)) 97-102 2012年2月2日  
    身体的なハンディキャップにより意思疎通が難しい者,特に筋萎縮性側索硬化症(ALS)の患者に対し,代替となる効率的なコミュニケーション手段を提供することを目的として,眼電位を入力とした音声合成インタフェースを提案する.眼電位は眼球が弱い電池であることに起因し,目の周囲に生体電極を配置することで検出できる.提案システムでは,音声認識を応用した認識器を用いて連続した眼球動作を眼電位信号から認識し,その結果をもとに実時間で音声合成を行う.本論文では,このうち認識部について評価を行う.認識器の動作には,予め眼球動作と眼電位の関係を学習した隠れマルコフモデルを用いる.実験では,ユーザ自身から収録したデータを元にモデルを作成することで,平均して95.7%の高い認識精度が得られることを示す.この方法で作成した眼電位のモデルは,基本的にそのユーザ専用となる.しかし実用の観点からは,不特定のユーザに対して動作することが望ましい.そこで,眼電位モデルの個人差による認識性能への影響や,その影響を低減するための適応化手法についても検討を行った.音声認識における話者適応化手法を応用することで,眼電位の認識精度が向上することを示す.
  • 房 福明, 篠崎 隆宏, 堀内 靖雄, 黒岩 眞吾, 古井 貞煕, 武者 利光
    電子情報通信学会技術研究報告. SP, 音声 111(431) 97-102 2012年2月2日  
    身体的なハンディキャップにより意思疎通が難しい者,特に筋萎縮性側索硬化症(ALS)の患者に対し,代替となる効率的なコミュニケーション手段を提供することを目的として,眼電位を入力とした音声合成インタフェースを提案する.眼電位は眼球が弱い電池であることに起因し,目の周囲に生体電極を配置することで検出できる.提案システムでは,音声認識を応用した認識器を用いて連続した眼球動作を眼電位信号から認識し,その結果をもとに実時間で音声合成を行う.本論文では,このうち認識部について評価を行う.認識器の動作には,予め眼球動作と眼電位の関係を学習した隠れマルコフモデルを用いる.実験では,ユーザ自身から収録したデータを元にモデルを作成することで,平均して95.7%の高い認識精度が得られることを示す.この方法で作成した眼電位のモデルは,基本的にそのユーザ専用となる.しかし実用の観点からは,不特定のユーザに対して動作することが望ましい.そこで,眼電位モデルの個人差による認識性能への影響や,その影響を低減するための適応化手法についても検討を行った.音声認識における話者適応化手法を応用することで,眼電位の認識精度が向上することを示す.
  • 西村 祥介, 今村 大輔, 堀内 靖雄, 川本 一彦, 篠崎 隆宏, 黒岩 眞吾
    電子情報通信学会技術研究報告. PRMU, パターン認識・メディア理解 111(430) 161-166 2012年2月2日  
    本論文ではKinectによる手話認識手法を提案する.Kinectにより得られたRGB画像と距離情報を統合し,パーティクルフィルタにより,3次元空間上での手の位置座標を推定して,HMMにより連続手話認識を行った.その結果,従来手法であるRGB画像のみを用いたものと比較して認識精度を76.2%から86.0%に向上させることができた.また,磁気センサを用いた場合に比べ,認識精度の低下を1%以下に抑えることができた.実用的な応用を考慮した場合,磁気センサは高価で,装着するのも面倒であるが,提案手法は一般のユーザでも容易に入手可能なKinectのみを使用するため,実用的であるということが言える.
  • 村瀬 優美, 堀内 靖雄, 篠崎 隆宏, 黒岩 眞吾
    電子情報通信学会技術研究報告 : 信学技報 111(424) 7-12 2012年1月27日  
    本稿では自発的対話における話者交替現象について,Sacksらの話者交替規則に基づいて,日本手話対話と日本語音声対話を比較分析した.日本手話の母語話者6名による3対話と日本語音声母語話者6名による3対話(各対話は約5分)を分析した結果,どちらもSacksらの話者交替規則を指向しているが,オーバーラップの時間長は手話の方が音声よりも長いことが示された.その理由として,(1)オーバーラップが生じた場合,音声は発話の途中で言いやめる場合が多いが,手話では発話の最後まで言い切る現象が多い,(2)日本手話の特徴として,自発話のTRP後に繰り返しや言換えをすることが多く,その場合,相手話者が発話を開始しても最後まで言い換え/繰返しを行うことにより話者重複が生じる,という二つの現象が明らかになった.ただし,(2)のような現象においても,繰返し/言い換えの際には非手指信号(NMS;手動作以外の表現)が消失したり,弱化したりすることにより,発話権の譲渡が明示される現象が多く見られた.これらの分析結果から,視覚言語と聴覚言語の違いが話者交替に与える影響が明らかになった.
  • 村瀬優美, 堀内靖雄, 篠崎隆宏, 黒岩眞吾
    電子情報通信学会技術研究報告 111(424(WIT2011 51-69)) 7-12 2012年1月20日  
  • Amira Abdelwahab, Hiroo Sekiya, Ikuo Matsuba, Yasuo Horiuchi, Shingo Kuroiwa
    Int. J. Inf. Technol. Decis. Mak. 11(1) 33-53 2012年  
    Collaborative filtering (CF) is one of the most prevalent recommendation techniques, providing personalized recommendations to users based on their previously expressed preferences and those of other similar users. Although CF has been widely applied in various applications, its applicability is restricted due to the data sparsity, the data inadequateness of new users and new items (cold start problem), and the growth of both the number of users and items in the database (scalability problem). In this paper, we propose an efficient iterative clustered prediction technique to transform user-item sparse matrix to a dense one and overcome the scalability problem. In this technique, spectral clustering algorithm is utilized to optimize the neighborhood selection and group the data into users' and items' clusters. Then, both clustered user-based and clustered item-based approaches are aggregated to efficiently predict the unknown ratings. Our experiments on MovieLens and book-crossing data sets indicate substantial and consistent improvements in recommendations accuracy compared to the hybrid user-based and item-based approach without clustering, hybrid approach with k-means and singular value decomposition (SVD)-based CF. Furthermore, we demonstrated the effectiveness of the proposed iterative technique and proved its performance through a varying number of iterations.
  • Amira Abdelwahab, Hiroo Sekiya, Ikuo Matsuba, Yasuo Horiuchi, Shingo Kuroiwa
    Journal of Computational Information Systems 8(1) 435-450 2012年1月  
    Collaborative filtering (CF) is currently one of the most popular and widely used recommendation techniques. It generates personalized predictions based on the assumption that users with similar tastes prefer similar items. It assumes that all features (users or items) have an equal importance in prediction formulation. However, if the importance of features is different, the later assumption will lead to inaccurate predictions. In this paper, a feature weighting method for cluster-based CF recommender systems is proposed. In this method, the particle swarm optimization (PSO) algorithm is utilized to estimate the features importance and allocate their weights accordingly. A prediction model, utilizing the spectral clustering technique in both user-based and item-based CF, is used to evaluate these weights and to predict the unknown ratings. In this work, the suggested prediction model utilizes the features weights to enhance the similarity measure and cluster formulation. The results of experiments demonstrate that the proposed method can effectively improve the quality of recommendation and eliminating main CF limitations. © 2012 Binary Information Press January 2012.
  • Takahiro Shinozaki, Yasuo Horiuchi, Shingo Kuroiwa
    2012 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP) 5029-5032 2012年  
    Direct likelihood maximization selection (DLMS) selects a subset of language model training data so that likelihood of in-domain development data is maximized. By using recognition hypothesis instead of the in-domain development data, it can be used for unsupervised adaptation. We apply DLMS to iterative unsupervised adaptation for presentation speech recognition. A problem of the iterative unsupervised adaptation is that adapted models are estimated including recognition errors and it limits the adaptation performance. To solve the problem, we introduce the framework of unsupervised cross-validation (CV) adaptation that has originally been proposed for acoustic model adaptation. Large vocabulary speech recognition experiments show that the CV approach is effective for DLMS based adaptation reducing 19.3% of error rate by an initial model to 18.0%.
  • Takahiro Shinozaki, Sadaoki Furui, Yasuo Horiuchi, Shingo Kuroiwa
    2012 ASIA-PACIFIC SIGNAL AND INFORMATION PROCESSING ASSOCIATION ANNUAL SUMMIT AND CONFERENCE (APSIPA ASC) 1-4 2012年  
    For large vocabulary continuous speech recognition, speech decoders treat time sequence with context information using large probabilistic models. The software of such speech decoders tend to be large and complex since it has to handle both relationships of its component functions and timing of computation at the same time. In the traditional signal processing area such as measurement and system control, block diagram based implementations are common where systems are designed by connecting blocks of components. The connections describe flow of signals and this framework greatly helps to understand and design complex systems. In this research, we show that speech decoders can be effectively decomposed to diagrams or pipelines. Once they are decomposed to pipelines, they can be easily implemented in a highly abstracted manner using a pure functional programming language with delayed evaluation. Based on this perspective, we have re-designed our pure-functional decoder Husky proposing a new design paradigm for speech recognition systems. In the evaluation experiments, it is shown that it efficiently works for a large vocabulary continuous speech recognition task.
  • Fuming Fang, Takahiro Shinozaki, Yasuo Horiuchi, Shingo Kuroiwa, Sadaoki Furui, Toshimitsu Musha
    13TH ANNUAL CONFERENCE OF THE INTERNATIONAL SPEECH COMMUNICATION ASSOCIATION 2012 (INTERSPEECH 2012), VOLS 1-3 1 735-738 2012年  
    To provide an efficient means of communication for those who cannot move muscles of the whole body except eyes due to amyotrophic lateral sclerosis (ALS), we are developing a speech synthesis interface that is based on electrooculogram (BOG) input. BOG is an electrical signal that is observed through electrodes attached on the skin around eyes and reflects eye position. A key component of the system is a continuous recognizer for the BOG signal. In this paper, we propose and investigate a hidden Markov model (HMM) based BOG recogmizer applying continuous speech recognition techniques. In the experiments, we evaluate the recognition system both in user dependent and independent conditions. It is shown that 96.1% of recognition accuracy is obtained for five classes of eye actions by a user dependent system using six channels. While it is difficult to obtain good performance by a user independent system, it is shown that maximum likelihood linear regression (MLLR) adaptation helps for BOG recognition.
  • Yutaka Ono, Misuzu Otake, Takahiro Shinozaki, Ryuichi Nisimura, Takeshi Yamada, Kenkichi Ishizuka, Yasuo Horiuchi, Shingo Kuroiwa, Shingo Imai
    2012 ASIA-PACIFIC SIGNAL AND INFORMATION PROCESSING ASSOCIATION ANNUAL SUMMIT AND CONFERENCE (APSIPA ASC) 1-4 2012年  
    We are developing S-CAT computer test system that will be the first automated adaptive speaking test for Japanese. The speaking ability of examinees is scored using speech processing techniques without human raters. By using computers for the scoring, it is possible to largely reduce the scoring cost and provide a convenient means for language learners to evaluate their learning status. While the S-CAT test has several categories of question items, open answer question is technically the most challenging one since examinees freely talk about a given topic or argue something for a given material. For this problem, we proposed to use support vector regression (SVR) with various features. Some of the features rely on speech recognition hypothesis and others do not. SVR is more robust than multiple regression and the best result was obtained when 390 dimensional features that combine everything were used. The correlation coefficients between human rated and SVR estimated scores were 0.878, 0.847, 0.853, and 0.872 for fluency, accuracy, content, and richness measures, respectively.
  • 紺野遼輔, 篠崎隆宏, 堀内靖雄, 黒岩眞吾
    日本音響学会研究発表会講演論文集(CD-ROM) 2011 ROMBUNNO.3-P-3 2011年9月13日  
  • 岡本 悠, 柘植 覚, 堀内 靖雄, 黒岩 眞吾
    電子情報通信学会論文誌. D, 情報・システム = The IEICE transactions on information and systems (Japanese edition) 94(9) 1551-1560 2011年9月1日  
    本論文では,順位統計量を用いた話者照合手法を提案する.順位統計量は,入力音声に対する申告話者,多数の背景話者モデル(GMMs)とのゆう度の比較で得られる順位そのものを指す.我々はこの順位統計量に対して,しきい値処理を行い照合する.提案手法ではT-normと同様に背景話者モデル数に比例して計算コストが増える.そこで提案手法の照合コストを下げるためにコホート話者を利用した手法も併せて提案する.評価のために,科学警察研究所が構築した『大規模話者骨導音声データベース』に収録されている男性283名の気導音声を用いて実験を行った.T-normを用いた場合のEER2.24%に対して,提案手法のEERは2.17%だった.また,コホート話者を用いた場合は282名から約80%の人数を削減した平均57名分の順位統計量の計算で,282名の話者を用いた場合と同等の性能を達成した.
  • 松田恵理菜, 松田恵理菜, 堀内靖雄, 黒岩眞吾
    情報処理学会研究報告(CD-ROM) 2011(1) ROMBUNNO.CLE-4,NO.6 2011年6月15日  
  • 松田 恵理菜, 堀内 靖雄, 黒岩 眞吾
    研究報告教育学習支援情報システム(CLE) 2011(6) 1-8 2011年5月6日  
  • 磯部 洋平, 堀内 靖雄, 船越 孝太郎
    言語・音声理解と対話処理研究会 61 1-6 2011年3月25日  
  • 磯部洋平, 堀内靖雄, 船越孝太郎, 中野幹生, 黒岩眞吾
    人工知能学会言語・音声理解と対話処理研究会資料 61st 1-6 2011年3月15日  
  • 木本怜志, 泰羅一雅, 堀内靖雄, 黒岩眞吾
    日本音響学会研究発表会講演論文集(CD-ROM) 2011 ROMBUNNO.2-P-24(B) 2011年3月2日  
  • 青木翔, 黒岩眞吾, 堀内靖雄
    日本音響学会研究発表会講演論文集(CD-ROM) 2011 ROMBUNNO.2-P-47(A) 2011年3月2日  
  • 鈴木いおり, 西村洋介, 堀内靖雄, 黒岩眞吾
    電子情報通信学会技術研究報告 110(384(WIT2010 57-66)) 25-30 2011年1月15日  
    本論文ではビデオカメラによる手話認識手法を提案する.まずパーティクルフィルタにより腕の位置を検出し,次にHMMを用いて手話文を認識する.両手に磁気センサを装着する先行研究の手法では認識精度は91.7%であったのに対し,ビデオだけしか利用しない本研究の提案手法では90.0%となった.実用的な応用を考慮した場合,磁気センサは高価で,装着するのも面倒であるが,提案手法は一台のビデオカメラだけしか必要としないため,本手法は有用であると考えられる.
  • Shiori Takenaka, Takahiro Shinozaki, Yasuo Horiuchi, Shingo Kuroiwa
    NLP-KE 2011 - Proceedings of the 7th International Conference on Natural Language Processing and Knowledge Engineering 265-268 2011年  
    A novel speaker verification method is proposed that utilizes pseudo speaker models in the speaker ranking selection (SRS) method. SRS is a recently proposed method that has been shown to give higher performance than the traditional T-norm method. However, the superior performance of SRS is based on utilizing a large number of background speaker models. When enough number of speakers is not available for the background models, the performance of SRS significantly degrades. To achieve higher performance with SRS even when only a small number of speakers are available, we propose to augment the set of background models by adding pseudo speaker models (PSMs). Text-independent speaker verification experiments are performed using a large scale corpus designed for speaker recognition constructed by National Research Institute of Police Science (NRIPS) in Japan. It is shown that the proposed SRS based system with PSMs gives 0.29% equal error rate, which is lower than 0.46% by the original SRS. The minimum DCF scores by the proposed and the original methods are 0.14 and 0.63, respectively. © 2011 IEEE.
  • 黒田大崇, 堀内靖雄, 黒岩眞吾
    ヒューマンインタフェース学会研究報告集(CD-ROM) 13 VOL.13NO.2,1-6 2011年  
  • 堀内 靖雄
    日本音響学会誌 67(10) 497-497 2011年  
  • 斉藤 涼子, 堀内 靖雄, 黒岩 眞吾
    言語・音声理解と対話処理研究会 59 13-18 2010年7月22日  
  • 斉藤涼子, 堀内靖雄, 黒岩眞吾
    人工知能学会言語・音声理解と対話処理研究会資料 59th 13-18 2010年7月15日  
  • 中原悠佑, 堀内靖雄, 松田繁樹, TSAO Yu, 磯谷亮輔, 黒岩眞吾
    日本音響学会研究発表会講演論文集(CD-ROM) 2010 ROMBUNNO.2-6-14 2010年3月1日  
  • 岡本悠, 柘植覚, 堀内靖雄, 黒岩眞吾
    日本音響学会研究発表会講演論文集(CD-ROM) 2010 ROMBUNNO.2-6-12 2010年3月1日  
  • 磯部 洋平, 堀内 靖雄, 船越 孝太郎
    言語・音声理解と対話処理研究会 58 1-6 2010年2月12日  
  • 町田 絵久子, 堀内 靖雄, 黒岩 眞吾
    言語・音声理解と対話処理研究会 58 31-36 2010年2月12日  
  • 松井 彩佳, 堀内 靖雄, 黒岩 眞吾
    言語・音声理解と対話処理研究会 58 37-42 2010年2月12日  
  • 松井彩佳, 堀内靖雄, 黒岩眞吾
    人工知能学会言語・音声理解と対話処理研究会資料 58th 37-42 2010年2月5日  
  • 町田絵久子, 堀内靖雄, 黒岩眞吾
    人工知能学会言語・音声理解と対話処理研究会資料 58th 31-36 2010年2月5日  
  • 磯部洋平, 堀内靖雄, 船越孝太郎, 中野幹生, 黒岩眞吾
    人工知能学会言語・音声理解と対話処理研究会資料 58th 01-06 2010年2月5日  
  • H. Oohashi, T. Ohsuga, Y. Horiuchi, H. Kikuchi, A. Ichikawa
    Speech Prosody 2010 (P2b-07) 2010年  
  • Haoze Lu, Masafumi Nishida, Yasuo Horiuchi, Shingo Kuroiwa
    Int. J. Biom. 2(4) 379-390 2010年  
    In this paper we proposed a text-independent (TI) speaker identification method that suppresses the phonetic information by a subspace method, under the assumption that a subspace with large variance in the speech feature space is a 'phoneme-dependent subspace' and a complementary subspace of it is a 'phoneme-independent subspace'. Principal Comonet Analysis (PCA) is employed to construct these subspaces. Gaussian Mixture Model (GMM)-based speaker identification experiments using both the phonetic information suppressed feature and the conventional Mel-Frequency Ceptrum Coefficient (MFCC) were carried out. As a result, the proposed method has been proven to be effective for decreasing the identification error rates. Copyright © 2010 Inderscience Enterprises Ltd.
  • Masafumi Nishida, Yasuo Horiuchi, Shingo Kuroiwa, Akira Ichikawa
    TEXT, SPEECH AND DIALOGUE 6231 539-546 2010年  
    The purpose of our study is to develop a spoken dialogue system for in-vehicle appliances. Such a multi-domain dialogue system should be capable of reacting to a change of the topic, recognizing fast and accurately separating words as well as whole sentences. We propose a novel recognition method by integrating a sentence, partial words, and phonemes. The degree of confidence is determined by the degree to which recognition results match on these three levels. We conducted speech recognition experiments for in-vehicle appliances. In the case of sentence units, the recognition accuracy was 96.2% by the proposed method and 92.9% by the conventional word bigram. As for word units, recognition accuracy of the proposed method was 86.2% while that of whole word recognition was 75.1%. Therefore, we concluded that our method can be effectively applied in spoken dialogue systems for in-vehicle appliances.
  • 畑 昇吾, 西田 昌史, 堀内 靖雄, 黒岩 眞吾
    電子情報通信学会技術研究報告 109(355) 111-116 2009年12月21日  
  • 岡本 悠, 柘植 覚, 堀内 靖雄, 黒岩 眞吾
    電子情報通信学会技術研究報告 109(355) 153-158 2009年12月21日  
  • 畑 昇吾, 西田 昌史, 堀内 靖雄
    電子情報通信学会技術研究報告 109(356) 111-116 2009年12月21日  

共同研究・競争的資金等の研究課題

 28