阿座上剛明, 計良宥志, 川本一彦
人工知能学会全国大会論文集 JSAI2023 4Xin159-4Xin159 2023年6月
深層強化学習による歩行ロボット制御では,ロボット体型への敵対的攻撃に対する脆弱性がある.本研究では,敵対的体型を用いた敵対的訓練が,歩行ロボット体型に対する敵対的攻撃だけでなくランダムノイズに対しても頑健になることを実験的に明らかにする.実験では,MuJoCo環境で,四脚ロボットのUnitree A1を用いて,敵対的体型やランダム体型に対する頑健性を報酬の観点から評価する.敵対的体型は,差分進化法を用いて,各脚パーツの長さを微小に変化させながら探索し,最低報酬値になった体型として求める.ランダム体型は,通常体型に一様なランダムノイズを加えて作成する.通常体型,ランダム体型,敵対的体型を用いて,それぞれ方策ネットワークを訓練し,テスト評価する.実験結果は,敵対的訓練は通常体型,敵対的体型だけでなくランダム体型に対しても頑健になることを示した.深層学習による画像分類でも同様な結果が知られており,本研究により,深層強化学習のロボット制御でも,敵対的訓練の頑健性に関する有効性が明らかになった.