STAIR Actions キャプションデータセットを公開しました "STAIR Actions captions dataset", publicly released!

thumb image

ディープラーニングの長足の発展により様々な産業分野で人工知能の応用が行われるようになってきました。少子高齢化が進展する社会においては育児や介護など人を対象とした人工知能活用が大いに期待されています。そのためには人の動作の認識、認識した内容の言語化などの能力が必要になります。
 
ステアラボと国立研究開発法人 産業技術総合研究所(産総研)と国立研究開発法人 新エネルギー・産業技術総合開発機構(NEDO)は2016年より人の動作のきめ細かい認識の研究プロジェクトに取り組んで来ました(NEDO事業名:次世代人工知能・ロボット中核技術開発/次世代人工知能技術分野「きめ細かい動作認識の研究開発」)。ディープラーニングによってきめ細かい動作認識を実現するためには人の動作を収録した動画やその動画を日本語で記述したデータが大量に必要ですが、本プロジェクトではディープラーニングによる動作認識モデル構築のための日常シーンをおさめた動作動画10万本からなるデータセット STAIR Actions(日常生活シーン約100,000本の動画データセット: 100種類の動作おのおのにつき約1,000本の動画を収納)を構築し、昨年7月公開しました。

今回STAIR Actionsに含まれる動画79,822本の動画に対して日本語で内容を記述した399,233個のキャプションデータセットを構築し、3月12日にインターネットで公開しました。人の動作動画キャプションデータセットとしてはマイクロソフト社の26万件を超えて世界最大規模のデータセットとなります。また日本語では初の大規模データセットとなります。

今までの不足していた日本語キャプションデータを補うことで、日本語に基づく動画と言語をつなぐマルチモーダル研究の加速に貢献できれば幸いです。

なお、本データセットについての詳細を3月12日より名古屋大学で開催される言語処理学会第25回年次大会で発表致します。

技術の詳細

1 データセットの特徴

  • 動画は昨年7月公開したSTAIR Actions所蔵の10万本に含まれる79,822本
  • 一本の動画あたり平均5つの日本語キャプション
  • キャプション総数:399,233個
  • キャプションは動画の内容を日本語で記述しており、記述は「誰が」「どこで」「何をしている」の3つの要素から構成されている
  • 日常生活シーンが中心

  • 2 公開情報

  • 公開日 2019年3月12日
  • URL http://sa-captions.stair.center
  • 学会発表:言語処理学会第25回年次大会 (NLP2019) 2019年3月12日~15日 会場: 名古屋大学
  • 利用範囲:人工知能研究目的に限る
  • 費用:無償
  • Writer

    Members