瀬川 雄太, 川本 一彦, 岡本 一志
情報処理学会研究報告. CVIM, [コンピュータビジョンとイメージメディア] 2015(13) 1-6 2015年5月11日
文書領域検出のための教師あり学習に関して,完全に人工生成した文書領域画像データを学習用サンプルとして用いる方法を提案し,一人称視点映像中の文書領域の検出に応用する.一般に教師あり学習では,学習用サンプルを大量に収集することが必要になるが,文書画像の電子的な収集や蓄積は著作権等の制度的な問題を抱えている.そこで本研究では,文字列,文字濃度,文字間隔,行間隔といった要素を文書領域生成のために決定し,回転,輝度変化,ノイズによる加工を行って学習用サンプルとなる文書領域画像を人工生成する.評価実験では,読書行為を含む一人称視点映像に対して,二つの識別器を用いて検出率を評価した.一つは文書領域検出によく利用されるガボール特徴を用いた最近傍識別器で,もう一つは深層畳み込みニューラルネットワークを用いた特徴学習および識別である.10 種類の読書シーンに対して平均識別精度を評価した結果,前者の識別における誤検出率は 5.4%,未検出率は 29.0%であり,後者の識別においてはそれぞれ 3.7%,19.5% であった.