Projects きめ細かな動作の認識 Fine-grained Action Recognition

このプロジェクトは、人間の日常的な動作をきめ細かく認識・理解する人工知能の開発に取り組んでいます。

家庭に置かれたロボットが家族の一人一人が家のどこで何をしているかを観察して記録し、「お母さんはどこ？」と聞くと「キッチンで料理しています」と答えることができるようなそういう人工知能をイメージしています。

こういう技術ができると、保育・介護・保護等のサービスにおいて現在人間が行なっている業務の一定部分を代替することが可能となり、サービススタッフの業務をより高度なサービスに振り向けることができ、総合的なサービス品質向上に寄与することが期待できます。

このプロジェクトは2016年度より国立研究開発法人新エネルギー・産業技術総合開発機構（ＮＥＤＯ）の支援を受け、産業技術総合研究所AI研究センターと協力して実施しています。2019年度までの大まかな研究ロードマップは、(1) 動画を見て動作を認識する基本的な認識エンジンの研究開発、(2) 動画を見てその内容説明するテキストを生成するエンジンの研究開発、(3) 動画を見てその内容に関する質問応答を行うシステムの研究開発、という流れです。

2016年度は深層学習に基づく動作認識エンジンの開発とそのエンジンの訓練用のデータセット “STAIR Actions Videos” の開発を行いました。データセットは日常的な100種類の動作それぞれについて1000本の動画からなる合計100,000本の動画データセットです。

以下に100種類の動画ラベルといくつかの動画のサムネイルを示します。

詳しくはこちらの論文をご覧ください。
STAIR Actions Videosは公開しています。詳しい情報は末尾の案内を御覧ください。

2017年度は動画のキャプション生成エンジンの開発とそのエンジンの訓練用のデータセット “STAIR Actions Captions” の開発を行いました。データセットは 80,000万個の動画にそれぞれ5つの日本語キャプションを付けたものからなり合計400,000キャプションです。これは日本語では初、英語も含めて世界最大の動画キャプションデータセットです。

このエンジンで生成されたキャプション例を以下に示します。（動画は都合によりサムネイルだけを表示しています）

STAIR Actions Captionsは公開しています。詳しく情報は末尾の案内を御覧ください。

2018-2019年度は動画を見てその内容に関する質問応答を行うシステムの研究開発を行いました。STAIR Actions Videosに含まれるような短い動画の質問応答であればだいたい7割程度の正解率が達成できています。難しいのはもっと長い動画についての質問応答です。この研究のために10個の家族の3日間の生活記録動画データセットを構築しました。これを使って、三日間の出来事であればいろんな質問に答えられるAIを研究開発しています。動画データセットの概要をいかに示します。

ご紹介したデータセット STAIR Actions Videos と STAIR Actions Captions はインターネットで公開しており、ダウンロードして研究に利用していただくことができます。

https://actions.stair.center
皆様の研究に役立てていただければ幸いです。

2017.07.15

deep learning machine learning action recognition video recognition

Projects きめ細かな動作の認識 Fine-grained Action Recognition

Members

関連記事Related Articles

家庭やオフィス内の動作認識用大規模動画データセットの構築 (JSAI2017) Constructing a Large-Scale Video Dataset for Human Action Recognition at Home and Office (JSAI2017)

STAIR Actions v1.1を公開しました！ STAIR Actions v1.1 is released!

STAIR Actions キャプションデータセットを公開しました "STAIR Actions captions dataset", publicly released!

大規模日常動作認識データセット「STAIR Actions」公開！ A large-scale video dataset of everyday human actions, "STAIR Actions", is out!

CEATEC JAPAN 2018 に出展しました We showed our demo at CEATEC Japan 2018 Exhibition

STAIR Actions caption dataset: A Large Scale Japanese Caption Dataset for Video STAIR Actions caption dataset: A Large Scale Japanese Caption Dataset for Video

STAIR Actions: A Large-Scale Video Dataset of Everyday Human Actions STAIR Actions: A Large-Scale Video Dataset of Everyday Human Actions

STAIR Actions: A Video Dataset of Everyday Home Actions STAIR Actions: A Video Dataset of Everyday Home Actions

Video Caption Dataset for Describing Human Actions in Japanese Video Caption Dataset for Describing Human Actions in Japanese