研究者業績

黒岩 眞吾

クロイワ シンゴ  (Shingo Kuroiwa)

基本情報

所属
千葉大学 大学院工学研究院 教授
学位
博士(電気通信大学大学院電気通信学研究科電子工学専攻)

研究者番号
20333510
J-GLOBAL ID
200901017262764603
researchmap会員ID
1000356498

外部リンク

経歴

 1

論文

 132

MISC

 591
  • 村手宏輔, 黒岩眞吾, 堀内靖雄, 篠崎隆宏
    第74回全国大会講演論文集 2012(1) 535-536 2012年3月6日  
    情報推薦に用いられるコンテンツベースベース技術に関して、あらすじが書かれた文書などストーリー性のあるコンテンツに対する類似度計算方法を提案する.ストーリーとは映画や小説などに含まれる話の筋のことであり、それらを説明する文書の中では人物の行動の経緯など要素の連続によって表現されていることが多い.しかし、従来の文書間類似度を計算する際に用いられるベクトル空間モデルでは、出現順序によって意味合いが変るストーリーを比較することは難しい.本研究ではストーリー性を考慮した文書の比較を行うことを目標とし、映画のあらすじ文書を対象に要素の並びを利用した類似度計算方法を検討した.
  • 黒岩眞吾, 柘植覚, ZHANG Wenbin, 篠崎隆宏, 堀内靖雄
    日本音響学会研究発表会講演論文集(CD-ROM) 2012 ROMBUNNO.3-7-2-86 2012年3月6日  
  • 篠崎隆宏, 堀内靖雄, 黒岩眞吾
    日本音響学会研究発表会講演論文集(CD-ROM) 2012 ROMBUNNO.3-7-7 2012年3月6日  
  • 房 福明, 篠崎 隆宏, 堀内 靖雄, 黒岩 眞吾, 古井 貞熙, 武者 利光
    電子情報通信学会技術研究報告 : 信学技報 111(431) 97-102 2012年2月9日  
    身体的なハンディキャップにより意思疎通が難しい者,特に筋萎縮性側索硬化症(ALS)の患者に対し,代替となる効率的なコミュニケーション手段を提供することを目的として,眼電位を入力とした音声合成インタフェースを提案する.眼電位は眼球が弱い電池であることに起因し,目の周囲に生体電極を配置することで検出できる.提案システムでは,音声認識を応用した認識器を用いて連続した眼球動作を眼電位信号から認識し,その結果をもとに実時間で音声合成を行う.本論文では,このうち認識部について評価を行う.認識器の動作には,予め眼球動作と眼電位の関係を学習した隠れマルコフモデルを用いる.実験では,ユーザ自身から収録したデータを元にモデルを作成することで,平均して95.7%の高い認識精度が得られることを示す.この方法で作成した眼電位のモデルは,基本的にそのユーザ専用となる.しかし実用の観点からは,不特定のユーザに対して動作することが望ましい.そこで,眼電位モデルの個人差による認識性能への影響や,その影響を低減するための適応化手法についても検討を行った.音声認識における話者適応化手法を応用することで,眼電位の認識精度が向上することを示す.
  • 西村 洋介, 今村 大輔, 堀内 靖雄, 川本 一彦, 篠崎 隆宏, 黒岩 眞吾
    電子情報通信学会技術研究報告 : 信学技報 111(431) 161-166 2012年2月9日  
    本論文ではKinectによる手話認識手法を提案する.Kinectにより得られたRGB画像と距離情報を統合し,パーティクルフィルタにより,3次元空間上での手の位置座標を推定して,HMMにより連続手話認識を行った.その結果,従来手法であるRGB画像のみを用いたものと比較して認識精度を76.2%から86.0%に向上させることができた.また,磁気センサを用いた場合に比べ,認識精度の低下を1%以下に抑えることができた.実用的な応用を考慮した場合,磁気センサは高価で,装着するのも面倒であるが,提案手法は一般のユーザでも容易に入手可能なKinectのみを使用するため,実用的であるということが言える.
  • 房 福明, 篠崎 隆宏, 堀内 靖雄, 黒岩 眞吾, 古井 貞煕, 武者 利光
    電子情報通信学会技術研究報告. SP, 音声 111(431) 97-102 2012年2月2日  
    身体的なハンディキャップにより意思疎通が難しい者,特に筋萎縮性側索硬化症(ALS)の患者に対し,代替となる効率的なコミュニケーション手段を提供することを目的として,眼電位を入力とした音声合成インタフェースを提案する.眼電位は眼球が弱い電池であることに起因し,目の周囲に生体電極を配置することで検出できる.提案システムでは,音声認識を応用した認識器を用いて連続した眼球動作を眼電位信号から認識し,その結果をもとに実時間で音声合成を行う.本論文では,このうち認識部について評価を行う.認識器の動作には,予め眼球動作と眼電位の関係を学習した隠れマルコフモデルを用いる.実験では,ユーザ自身から収録したデータを元にモデルを作成することで,平均して95.7%の高い認識精度が得られることを示す.この方法で作成した眼電位のモデルは,基本的にそのユーザ専用となる.しかし実用の観点からは,不特定のユーザに対して動作することが望ましい.そこで,眼電位モデルの個人差による認識性能への影響や,その影響を低減するための適応化手法についても検討を行った.音声認識における話者適応化手法を応用することで,眼電位の認識精度が向上することを示す.
  • 西村 祥介, 今村 大輔, 堀内 靖雄, 川本 一彦, 篠崎 隆宏, 黒岩 眞吾
    電子情報通信学会技術研究報告. PRMU, パターン認識・メディア理解 111(430) 161-166 2012年2月2日  
    本論文ではKinectによる手話認識手法を提案する.Kinectにより得られたRGB画像と距離情報を統合し,パーティクルフィルタにより,3次元空間上での手の位置座標を推定して,HMMにより連続手話認識を行った.その結果,従来手法であるRGB画像のみを用いたものと比較して認識精度を76.2%から86.0%に向上させることができた.また,磁気センサを用いた場合に比べ,認識精度の低下を1%以下に抑えることができた.実用的な応用を考慮した場合,磁気センサは高価で,装着するのも面倒であるが,提案手法は一般のユーザでも容易に入手可能なKinectのみを使用するため,実用的であるということが言える.
  • 房 福明, 篠崎 隆宏, 堀内 靖雄, 黒岩 眞吾, 古井 貞煕, 武者 利光
    電子情報通信学会技術研究報告. PRMU, パターン認識・メディア理解 111(430) 97-102 2012年2月2日  
    身体的なハンディキャップにより意思疎通が難しい者,特に筋萎縮性側索硬化症(ALS)の患者に対し,代替となる効率的なコミュニケーション手段を提供することを目的として,眼電位を入力とした音声合成インタフェースを提案する.眼電位は眼球が弱い電池であることに起因し,目の周囲に生体電極を配置することで検出できる.提案システムでは,音声認識を応用した認識器を用いて連続した眼球動作を眼電位信号から認識し,その結果をもとに実時間で音声合成を行う.本論文では,このうち認識部について評価を行う.認識器の動作には,予め眼球動作と眼電位の関係を学習した隠れマルコフモデルを用いる.実験では,ユーザ自身から収録したデータを元にモデルを作成することで,平均して95.7%の高い認識精度が得られることを示す.この方法で作成した眼電位のモデルは,基本的にそのユーザ専用となる.しかし実用の観点からは,不特定のユーザに対して動作することが望ましい.そこで,眼電位モデルの個人差による認識性能への影響や,その影響を低減するための適応化手法についても検討を行った.音声認識における話者適応化手法を応用することで,眼電位の認識精度が向上することを示す.
  • 西村 祥介, 今村 大輔, 堀内 靖雄, 川本 一彦, 篠崎 隆宏, 黒岩 眞吾
    電子情報通信学会技術研究報告. PRMU, パターン認識・メディア理解 111(430) 161-166 2012年2月2日  
    本論文ではKinectによる手話認識手法を提案する.Kinectにより得られたRGB画像と距離情報を統合し,パーティクルフィルタにより,3次元空間上での手の位置座標を推定して,HMMにより連続手話認識を行った.その結果,従来手法であるRGB画像のみを用いたものと比較して認識精度を76.2%から86.0%に向上させることができた.また,磁気センサを用いた場合に比べ,認識精度の低下を1%以下に抑えることができた.実用的な応用を考慮した場合,磁気センサは高価で,装着するのも面倒であるが,提案手法は一般のユーザでも容易に入手可能なKinectのみを使用するため,実用的であるということが言える.
  • 村瀬 優美, 堀内 靖雄, 篠崎 隆宏, 黒岩 眞吾
    電子情報通信学会技術研究報告 : 信学技報 111(424) 7-12 2012年1月27日  
    本稿では自発的対話における話者交替現象について,Sacksらの話者交替規則に基づいて,日本手話対話と日本語音声対話を比較分析した.日本手話の母語話者6名による3対話と日本語音声母語話者6名による3対話(各対話は約5分)を分析した結果,どちらもSacksらの話者交替規則を指向しているが,オーバーラップの時間長は手話の方が音声よりも長いことが示された.その理由として,(1)オーバーラップが生じた場合,音声は発話の途中で言いやめる場合が多いが,手話では発話の最後まで言い切る現象が多い,(2)日本手話の特徴として,自発話のTRP後に繰り返しや言換えをすることが多く,その場合,相手話者が発話を開始しても最後まで言い換え/繰返しを行うことにより話者重複が生じる,という二つの現象が明らかになった.ただし,(2)のような現象においても,繰返し/言い換えの際には非手指信号(NMS;手動作以外の表現)が消失したり,弱化したりすることにより,発話権の譲渡が明示される現象が多く見られた.これらの分析結果から,視覚言語と聴覚言語の違いが話者交替に与える影響が明らかになった.
  • 村瀬 優美, 堀内 靖雄, 篠崎 隆宏, 黒岩 眞吾
    電子情報通信学会技術研究報告. WIT, 福祉情報工学 111(424) 7-12 2012年1月20日  
  • Amira Abdelwahab, Hiroo Sekiya, Ikuo Matsuba, Yasuo Horiuchi, Shingo Kuroiwa
    Journal of Computational Information Systems 8(1) 435-450 2012年  査読有り
    Collaborative filtering (CF) is currently one of the most popular and widely used recommendation techniques. It generates personalized predictions based on the assumption that users with similar tastes prefer similar items. It assumes that all features (users or items) have an equal importance in prediction formulation. However, if the importance of features is different, the later assumption will lead to inaccurate predictions. In this paper, a feature weighting method for cluster-based CF recommender systems is proposed. In this method, the particle swarm optimization (PSO) algorithm is utilized to estimate the features importance and allocate their weights accordingly. A prediction model, utilizing the spectral clustering technique in both user-based and item-based CF, is used to evaluate these weights and to predict the unknown ratings. In this work, the suggested prediction model utilizes the features weights to enhance the similarity measure and cluster formulation. The results of experiments demonstrate that the proposed method can effectively improve the quality of recommendation and eliminating main CF limitations. © 2012 Binary Information Press January 2012.
  • 紺野遼輔, 篠崎隆宏, 堀内靖雄, 黒岩眞吾
    日本音響学会研究発表会講演論文集(CD-ROM) 2011 ROMBUNNO.3-P-3 2011年9月13日  
  • 岡本 悠, 柘植 覚, 堀内 靖雄, 黒岩 眞吾
    電子情報通信学会論文誌. D, 情報・システム = The IEICE transactions on information and systems (Japanese edition) 94(9) 1551-1560 2011年9月1日  
    本論文では,順位統計量を用いた話者照合手法を提案する.順位統計量は,入力音声に対する申告話者,多数の背景話者モデル(GMMs)とのゆう度の比較で得られる順位そのものを指す.我々はこの順位統計量に対して,しきい値処理を行い照合する.提案手法ではT-normと同様に背景話者モデル数に比例して計算コストが増える.そこで提案手法の照合コストを下げるためにコホート話者を利用した手法も併せて提案する.評価のために,科学警察研究所が構築した『大規模話者骨導音声データベース』に収録されている男性283名の気導音声を用いて実験を行った.T-normを用いた場合のEER2.24%に対して,提案手法のEERは2.17%だった.また,コホート話者を用いた場合は282名から約80%の人数を削減した平均57名分の順位統計量の計算で,282名の話者を用いた場合と同等の性能を達成した.
  • Wei Xiuqin, Sekiya Hiroo, Kuroiwa Shingo
    回路とシステムワークショップ論文集 Workshop on Circuits and Systems 24 254-259 2011年8月1日  
  • 魏 秀欽, 永島 和治, 黒岩 眞吾, 関屋 大雄
    電子情報通信学会技術研究報告. NLP, 非線形問題 111(106) 165-170 2011年6月23日  
    高周波数で高効率な回路であるE級増幅器に,プッシュプルの動作を適用した対称型E級増幅器は,出力電力を増加し,高調波歪み率(THD)を低減することができる.しかし,この対称型E級増幅器では,スイッチ電流波形にジャンプが生じ,それが回路のコスト削減のボトルネックとなっている.本研究では,新たなタイプの対称型E級増幅器回路を提案する.提案する対称型E級増幅器では,対称型E級増幅器に高調波電流を注入するための補助回路を追加することにより,連続したスイッチ電圧波形とスイッチ電流波形を達成し,高効率動作を実現する.さらに,補助回路の追加により,より高電力な出力を達成することができる.この回路は,E_M級増幅器にプッシュプル動作を適用した回路とみることもできる.提案する増幅器は従来の対称型E級増幅器と比較して,スイッチがオンからオフへ切り替わるまでの時間が長いスイッチング素子でも高効率な動作を維持することができ,コストの削減が期待できる.本稿では対称型E_M級増幅器の設計曲線を導出し,PSpiceシミュレーションから回路の有効性と設計曲線の妥当性を確認する.提案する増幅器は対称型E級電力増幅器の高調波歪み率はほぼ一致することから,対称型E_M級電力増幅器は低高調波歪み成分,高出力,高電力変換効率を低コストで達成できるといえる.
  • 松田 恵理菜, 堀内 靖雄, 黒岩 眞吾
    研究報告教育学習支援情報システム(CLE) 2011(6) 1-8 2011年5月6日  
  • 磯部洋平, 堀内靖雄, 船越孝太郎, 中野幹生, 黒岩眞吾
    人工知能学会言語・音声理解と対話処理研究会資料 61st 1-6 2011年3月15日  
  • 木本怜志, 泰羅一雅, 堀内靖雄, 黒岩眞吾
    日本音響学会研究発表会講演論文集(CD-ROM) 2011 ROMBUNNO.2-P-24(B) 2011年3月2日  
  • 青木翔, 黒岩眞吾, 堀内靖雄
    日本音響学会研究発表会講演論文集(CD-ROM) 2011 ROMBUNNO.2-P-47(A) 2011年3月2日  
  • 鈴木 いおり, 西村 洋介, 堀内 靖雄, 黒岩 眞吾
    電子情報通信学会技術研究報告. WIT, 福祉情報工学 110(384) 25-30 2011年1月15日  
    本論文ではビデオカメラによる手話認識手法を提案する.まずパーティクルフィルタにより腕の位置を検出し,次にHMMを用いて手話文を認識する.両手に磁気センサを装着する先行研究の手法では認識精度は91.7%であったのに対し,ビデオだけしか利用しない本研究の提案手法では90.0%となった.実用的な応用を考慮した場合,磁気センサは高価で,装着するのも面倒であるが,提案手法は一台のビデオカメラだけしか必要としないため,本手法は有用であると考えられる.
  • 黒田大崇, 堀内靖雄, 黒岩眞吾
    ヒューマンインタフェース学会研究報告集(CD-ROM) 13 VOL.13NO.2,1-6-6 2011年  
  • Xiuqin Wei, Tomoharu Nagashima, Shingo Kuroiwa, Hiroo Sekiya
    IECON 2011: 37TH ANNUAL CONFERENCE ON IEEE INDUSTRIAL ELECTRONICS SOCIETY 1300-1305 2011年  
    This paper presents a novel class-E-M power amplifier for low harmonic contents and high output power. In the proposed class-E-M power amplifier, the symmetric configuration is applied to the class-E-M power amplifier. By applying the symmetric configuration, the proposed class-E-M power amplifier obtains the extremely low total harmonic distortion and four times higher output power than the conventional single class-E-M power amplifier. For achieving the class-E(M)ZVS/ZDVS/ZCS/ZDCS conditions, the MOSFET drain-to-source nonlinear parasitic capacitances, finite dc-feed inductance, equivalent series resistances of inductors, and switch-on resistances are considered in the circuit designs. A design example is presented along with the PSpice-simulation and experimental waveforms at 3.5 MHz operating frequency. The waveforms from the PSpice-simulations and circuit experiments agreed with the numerical predictions quantitatively, which validates the effectiveness of the proposed class-E-M power amplifier in this paper.
  • 斉藤 涼子, 堀内 靖雄, 黒岩 眞吾
    言語・音声理解と対話処理研究会 59 13-18 2010年7月22日  
  • 田村 哲嗣, 宮島 千代美, 北岡 教英, 武田 一哉, 山田 武志, 滝口 哲也, 柘植 覚, 山本 一公, 西浦 敬信, 中山 雅人, 傳田 遊亀, 藤本 雅清, 松田 繁樹, 小川 哲司, 黒岩 眞吾, 中村 哲
    研究報告音声言語情報処理(SLP) 2010(7) 1-6 2010年7月15日  
    本稿では,音声と画像を用いたマルチモーダル音声認識の共通評価基盤 CENSREC-1-AV について紹介する.CENSREC-1-AV では,音声・画像データベースおよびベースラインシステムを提供する.音声は学習用クリーンデータのほか,乗用車走行雑音を付与したものを収録した.画像はカラー映像と近赤外線映像を収録し,ガンマ補正を用いて乗用車走行シミュレーション画像をテストデータとした.ベースラインシステムでは,MFCC と,固有顔ないしはオプティカルフローを特徴量として,マルチストリーム HMM により認識を行った.This paper introduces an evaluation framework for multimodal speech recognition: CENSREC-1-AV. The corpus CENSREC-1-AV provides an audiovisual speech database and a baseline system of multimodal speech recognition. Speech signals were recorded in clean condition for training and in-car noises were overlapped for testing. Color and infrared pictures were captured as training data, and image corruption was conducted for testing using the gamma correction technique. In the baseline system, acoustic MFCC as well as eigenface or optical-flow information are adopted as audio and visual features respectively, then multi-stream HMMs are used as a recognition model.
  • 中原悠佑, 堀内靖雄, 松田繁樹, TSAO Yu, 磯谷亮輔, 黒岩眞吾
    日本音響学会研究発表会講演論文集(CD-ROM) 2010 ROMBUNNO.2-6-14 2010年3月1日  
  • 岡本悠, 柘植覚, 堀内靖雄, 黒岩眞吾
    日本音響学会研究発表会講演論文集(CD-ROM) 2010 ROMBUNNO.2-6-12 2010年3月1日  
  • 町田 絵久子, 堀内 靖雄, 黒岩 眞吾
    言語・音声理解と対話処理研究会 58 31-36 2010年2月12日  
  • 松井 彩佳, 堀内 靖雄, 黒岩 眞吾
    言語・音声理解と対話処理研究会 58 37-42 2010年2月12日  
  • 磯部洋平, 堀内靖雄, 船越孝太郎, 中野幹生, 黒岩眞吾
    人工知能学会言語・音声理解と対話処理研究会資料 58th 01-06 2010年2月5日  
  • 李 ショウ, 黒岩 眞吾, 関屋 大雄, 李 叶秋, 王 彩珠, 阪田 史郎
    電気学会論文誌. C, 電子・情報・システム部門誌 = The transactions of the Institute of Electrical Engineers of Japan. C, A publication of Electronics, Information and System Society 130(5) 863-872 2010年  
    In this paper, a new framework for removing mixed noise composed of the impulse and Gaussian noises from images is presented in which the FINDRM with the directional difference and the Bivariate Shrinkage Function (BSF) in the Dual-Tree Complex Wavelet Transform (DT-CWT) domain are used. First, the noise detection phase of the Fuzzy Impulse Noise Detection and Reduction Method (FINDRM) is used to determine whether a pixel is an impulse or not. When the pixel is determined as an impulse noise, the FINDRM with the directional difference is used to restore the impulse noise. Second, Gaussian noise is removed by using the BSF, which considers the relationships between wavelet coefficients in the DT-CWT domain. Applying the proposed framework to an image corrupted by mixed noise, a clean image can be obtained.
  • 畑 昇吾, 西田 昌史, 堀内 靖雄, 黒岩 眞吾
    電子情報通信学会技術研究報告 109(355) 111-116 2009年12月21日  
  • 岡本 悠, 柘植 覚, 堀内 靖雄, 黒岩 眞吾
    電子情報通信学会技術研究報告 109(355) 153-158 2009年12月21日  
  • 畑 昇吾, 西田 昌史, 堀内 靖雄, 黒岩 眞吾
    音声言語情報処理(SLP) 2009(20) 1-6 2009年12月14日  
    自然言語処理では処理単位として文などの意味的なまとまりがある単位を用いるため,音声認識結果に対して文境界を示す必要がある.本研究では,まず SVM を用いた文境界検出において文境界直前における語の出現しやすさを考慮することによって文境界検出に適した特徴空間の作成方法を提案する.さらに,音声認識時に認識結果と共に出力される単語信頼度を素性として文境界検出に利用することを検討する.文境界検出においては 『日本語話し言葉コーパス (CSJ)』 を対象として SVM を用いて評価実験を行った.Since the units of processing for Natural Language Processing(NLP) are based on syntactic structure, for example sentence, it is necessary to detect the sentence boundary for the Automatic Speech Recognition(ASR) outputs. In this paper, at first, we propose the feature space that is applied to detecting sentence boundary with Support Vector Machine(SVM) by considering the frequency of the word immediately before sentence boundary. At second, we examine using confidence measure of ASR outputs for sentence boundary detection with SVM. We evaluated our methods on the Corpus of Spontaneous Japanese(CSJ).
  • 岡本 悠, 柘植 覚, 堀内 靖雄, 黒岩 眞吾
    音声言語情報処理(SLP) 2009(27) 1-6 2009年12月14日  
    本論文では,順位統計量を用いた話者照合手法を紹介する.さらに,順位統計量を用いた話者照合手法における照合コストを下げるためのコホート話者の選択方法について提案する.コホート話者は申告者の音声に対してシステムに登録された不特定多数の話者モデル (GMM) との尤度の順位を基準に作成する.評価実験として,科学警察研究所が構築した大規模話者骨導音声データベースに収録されている男性 283 名の気導音声を用いて実験を行った.従来手法では,全話者 283 名による順位統計量で算出した minDCF が 0.0092 に対して,提案手法では平均 57 名の順位統計量で 0.0098,101 名の順位統計量で 0.0094 という同等の性能を達成した.また,照合スコアとして T-norm を用いた場合の minDCF が 0.0154 だった.In this paper, we introduce a novel speaker verification method which determines whether a claimer is accepted or rejected by the rank of the claimer in a large number of speaker models instead of score normalization, such as T-norm and Z-norm. The method has advantages over the standard T-norm in speaker verification accuracy. However, it needs much computation time as well as T-norm that needs calculating likelihoods for many cohort models. Hence, we also discuss the speed-up the method that selects cohort speakers for each target speaker in the training stage. This data driven approach can significantly reduce computation time resulting in faster speaker verification decision. We conducted text-independent speaker verification experiments using large-scale Japanese speaker recognition evaluation corpus constructed by National Research Institute of Police Science. From the corpus, we used utterances collected from 283 Japanese males. As results, the proposed method whose the number of cohort speaker is 57 achieved an minDCF of 0.0098, while using 282 speakers as cohort speaker obtained 0.0092 and T-norm obtained 0.0154.
  • 小宮 菜月, 西田 昌史, 堀内 靖雄, 黒岩 眞吾
    電子情報通信学会技術研究報告. WIT, 福祉情報工学 109(260) 69-74 2009年10月22日  
    我々は視覚障害者のための仮名漢字変換手法として,意味情報を用いた手法を検討してきている.説明語には主に類義語を利用するが,複数ある類義語からどの単語を説明語として選択するかの基準は存在しない.本研究において,変換語とその同義語の意味的近さを主観評価実験により調査した結果,単語親密度が高いほど意味的に近いと評定された.この結果より単語親密度に基づく選択手法が妥当であることが示された.
  • 小宮 菜月, 西田 昌史, 堀内 靖雄, 黒岩 眞吾
    電子情報通信学会技術研究報告. SP, 音声 109(259) 69-74 2009年10月22日  
    我々は視覚障害者のための仮名漢字変換手法として,意味情報を用いた手法を検討してきている.説明語には主に類義語を利用するが,複数ある類義語からどの単語を説明語として選択するかの基準は存在しない.本研究において,変換語とその同義語の意味的近さを主観評価実験により調査した結果,単語親密度が高いほど意味的に近いと評定された.この結果より単語親密度に基づく選択手法が妥当であることが示された.
  • 新谷秀和, 西田昌史, 堀内靖雄, 黒岩眞吾
    電気学会電子・情報・システム部門大会講演論文集(CD-ROM) 2009 ROMBUNNO.MC4-2 2009年9月3日  
  • 大三川晴香, 堀内靖雄, 西田昌史, 黒岩眞吾
    情報処理学会研究報告(CD-ROM) 2009(2) ROMBUNNO.MUS-NO.81(26) 2009年8月15日  
  • 大三川 晴香, 堀内 靖雄, 西田 昌史, 黒岩 眞吾
    研究報告音楽情報科学(MUS) 2009(26) 1-6 2009年7月22日  
    我々は独奏者のブレスによる合図を伴奏制御のインタフェースとして利用可能な伴奏システムを開発してきており,以前の研究では曲の冒頭部においてブレスの合図を利用できるシステムを提案した.本研究では曲の冒頭だけでなく,曲中でもブレスによる合図を利用可能な手法を提案する.システムを実装し,人間の演奏者による評価実験を行った結果,ブレスによる合図を用いた方がずれが減少し、演奏者による主観評価も高いことが示された.We are developing the accompaniment system using musical cues by the soloist's breath. In our previous study, we introduced the method of using breath cues at the beginning of musical piece. In this study, we introduced the method using breath cues not only at the beginning but also during a piece and performed the evaluation experiment by human soloists. As a result, it was suggested that the new system achieved better synchronization between the soloist and the system than the previous system and the performers who used the system preferred the new system better than the previous system.
  • 斉藤 涼子, 堀内 靖雄, 西田 昌史, 黒岩 眞吾
    ヒューマンインタフェース学会研究報告集 : human interface 11(2) 195-200 2009年5月14日  
  • 斉藤 涼子, 堀内 靖雄, 西田 昌史, 黒岩 眞吾
    電子情報通信学会技術研究報告. WIT, 福祉情報工学 109(29) 195-200 2009年5月7日  
    In this research, we analyzed the overlap phenomena at turn-taking points in Japanese Sign Language Dialogue. The spontaneous dialogue data were recorded in the environment where they can look at each other via prompters and three dialogue data by six native signers were used for the analysis. First, it was shown that the overlaps at turn-taking point occurred with very high frequency (75%). Secondly, we analyzed these phenomena based on "turn-taking system for conversation" by H. Sacks, E.A. Schegloff and G. Jefferson and found the situations where the speaker (signer) continued his/her utterance after TRP (transition-relevance place) and the next speaker started his/her turn by recognizing or projecting the TRP, therefore the overlap occurred. We consider these types of overlap as the normal turn-taking. Finally, there were a few case (18%) where the turn-taking rule was broken and the other cases follow the rule.
  • 斉藤 涼子, 堀内 靖雄, 西田 昌史, 黒岩 眞吾
    電子情報通信学会技術研究報告. HCS, ヒューマンコミュニケーション基礎 109(27) 195-200 2009年5月7日  
    In this research, we analyzed the overlap phenomena at turn-taking points in Japanese Sign Language Dialogue. The spontaneous dialogue data were recorded in the environment where they can look at each other via prompters and three dialogue data by six native signers were used for the analysis. First, it was shown that the overlaps at turn-taking point occurred with very high frequency (75%). Secondly, we analyzed these phenomena based on "turn-taking system for conversation" by H. Sacks, E.A. Schegloff and G. Jefferson and found the situations where the speaker (signer) continued his/her utterance after TRP (transition-relevance place) and the next speaker started his/her turn by recognizing or projecting the TRP, therefore the overlap occurred. We consider these types of overlap as the normal turn-taking. Finally, there were a few case (18%) where the turn-taking rule was broken and the other cases follow the rule.
  • 斉藤 涼子, 堀内 靖雄, 西田 昌史, 黒岩 眞吾
    電子情報通信学会技術研究報告. HIP, ヒューマン情報処理 109(28) 195-200 2009年5月7日  
    In this research, we analyzed the overlap phenomena at turn-taking points in Japanese Sign Language Dialogue. The spontaneous dialogue data were recorded in the environment where they can look at each other via prompters and three dialogue data by six native signers were used for the analysis. First, it was shown that the overlaps at turn-taking point occurred with very high frequency (75%). Secondly, we analyzed these phenomena based on "turn-taking system for conversation" by H. Sacks, E.A. Schegloff and G. Jefferson and found the situations where the speaker (signer) continued his/her utterance after TRP (transition-relevance place) and the next speaker started his/her turn by recognizing or projecting the TRP, therefore the overlap occurred. We consider these types of overlap as the normal turn-taking. Finally, there were a few case (18%) where the turn-taking rule was broken and the other cases follow the rule.
  • LU Haoze, 西田昌史, 堀内靖雄, 黒岩眞吾
    日本音響学会研究発表会講演論文集(CD-ROM) 2009 ROMBUNNO.3-Q-1 2009年3月10日  
  • 西田 昌史, 堀内 靖雄, 黒岩 眞吾, 市川 熹
    情報処理学会論文誌 50(2) 460-468 2009年2月15日  
    近年,音声から書き起こしを自動的に作成するシステムに関する研究がさかんに行われている.これまでは,音声を正確に書き起こすことに重点をおいて研究されてきているが,見た者にとって議論の内容をより理解しやすい書き起こしの作成が重要であると考えられる.議論の内容を正確に伝えるには言語情報だけでは不十分であり,議論の場面や発話意図,感情といった情報も必要であると考えられる.そこで,本研究では会議や討論などの書き起こしに発話意図を付与することを目指し,テキストと音声の両方から発話印象について分析することを目的とした.まず,文字の太さや大きさの変化といった文字の装飾や,「!」,「?」などの記号に着目し,そのようなテキストの変化を書き起こしに付与する形で主観評価実験を行うことにより「疑問」,「驚き」などの発話印象がどの程度感じられるのかを調べた.また,音声についても同様に主観評価実験を行い,その結果と「F0」や「パワー」などの韻律パラメータを使って重回帰分析を行い,韻律パラメータと発話印象の関係を分析した.その結果,各テキスト変化,韻律パラメータとそれぞれの発話印象との関係が明らかになった.さらにそれらを総合的に分析することで,テキストと音声では発話印象の受け方が異なるものと,同じ傾向のものがあることが明らかになった.In recent years, a great amount of research has been done on systems that transcribe utterances through automatic speech recognition. This research has generally been focused on transcribing utterances correctly. What is presently required, however, is a transcription method that enables the overall content of a given discourse to be more easily understood by readers. It is generally considered that linguistic information by itself is insufficient for this purpose, and that a way of showing speaker's intentions and emotions is also required. In this study, we analyzed user's impressions of utterances from both text and speech, with the aim of at indexing the impressions to the transcriptions of discourse forums such as meetings and discussions. We investigated how impressions such as “doubt” and “surprise” are felt by changing the size of written characters and indexing signs such as question marks and exclamation marks in the text. The relation between prosody parameters and utterance impressions was analyzed by using multiple linear regression. As a result, we were able to clarify the relationship between variations of text, prosody parameters, and utterance impressions.
  • 西田 昌史, 堀内 靖雄, 黒岩 眞吾
    情報処理学会論文誌 論文誌ジャーナル 50(2) 460-468 2009年2月  
  • Electronic Notes in Theoretical Computer Science 225(C) 457-468 2009年1月2日  
  • Electronic Notes in Theoretical Computer Science 225(C) 329-340 2009年1月2日  

講演・口頭発表等

 30

Works(作品等)

 5

共同研究・競争的資金等の研究課題

 17