CVPR2017 備忘録 — Action Recognitionを中心に — - STAIR: Software Technology and Artificial Intelligence Research Laboratory

CVPR17＠HAWAIIに参加しました。メインコンファレンス4日間、前後に1日ずつワークショップとチュートリアルの全6日間のリッチな日程です。

数的な概要は以下の通りです。

参加登録者 4950 前年比37%up
論文投稿数 2670
採択数 783 採択率 30%
うちオーラルは215
今年はスポンサーが激増で 127社から859kドル集まったと！
ディープラーニングアプローチの発表多数です。

以下は、Action Recognition関連の発表についてのヒヤリングやポスターについての備忘録的メモです。不正確な部分も多々あるかと思うので詳しくは論文を参照してください。

Action Recognition

Two stream commonly used
RGBとOptical Flowの二つのストリームを使うのは常套手段になったようです。
中には三つ目のストリームとしてオーディオを使う例もありました。とにかくいろんな情報を並列に使った方が良さそうです。
RGBストリームの役割は背景情報を抽出する(野球場とかゴルフコースとk）ことのようだという認識が広がってます。
New datasets
UCF101とHMDB51がよく使われるデータセットでしたが、ActivityNetもだいぶ認知度が上がって来ました。また最近発表されたばかりの DeepMindのKineticsもpretrainingで使われ始めています。
Action proposal/localization/detection
用語の整理です。ビデオの中で特定の動作をある場所を出力するのがaction proposal。proposalに加えて画面の中にバウンディングボックスを描画することまでやるのが action localization。さらにactionの分類までやるものを action detectionといいます。これらでよく使われるデータセットが charadesとかthumosです。
detection/localizationはrecognition/classificationよりは格段に難しいです。predictionとしてactionのstart timeとend timeを出力しますが、ground truthとミリ秒単位の誤差で合致させるのは困難です。そもそもground truthとの比較で誤差何msまでを正解とするかまだコンセンサスができていない状況です。
GoogleのAVA
AVAはAtomic Visual Actionの略。
個々の動画は短い（3秒？）。動画にはバウンディングボックス付きでオブジェクトや動作などの複数のラベルが付いている。動作については日常的な（おそらくインドア）85のカテゴリーを持つ。
動画のdense labelingのデータセットという位置付けでしょうか。静止画のデータセットのトレンドが Visual GenomeのようなDense labelingになっていますが、avaはその動画版と理解しています。動画中のactionを<動作、動作主、動作対象>などのrelation labelとして表現するようです。すでにダウンロードも可能なようなので要チェック。

わかる人はわかると思いますが、このスライド中の素敵なロボットは映画 EX MACHINA (エクス・マキナ)に登場したAVAです。
Caption => Dense labeling
caption生成が今までなんとなく（予想以上に？）うまくいっていましたが、文が自然かどうかより、意味を正確に捉えているかどうかをきちんと検証する方向へ進んでいくのではないかと思います。その際に使用すべきデータセットは画像中の多数のオブジェクトやそれらの関係をグラフで表現したものになるのかなと。意味グラフから文生成をするのは難しくないので、これかららの end2endの学習では意味グラフの予測が主題になると思ってます。

ActivityNet workshop

今回の参加目的の一つはこのワークショップに参加することでした。

人の入りはまあまあ。写真は部屋の前半分です。全体で40人くらいでしょうか。遠くで演台に立っているのがオーガナイザの一人 Bernard Ghanem氏（King Abdullah University of Science and Technologyの准教授）です。

ワークショップは招待講演二つとコンペの結果発表という二部構成。招待講演はDeepMindのJoao CarreiraによるKineticsの話とGoogle/BerkeleyのJitendra MalikによるAVAの話。
先に書きましたがAVAの話は面白かったです。

コンペティションは以下の５つの部門からなります。カッコ内は対象データセットです。

Untrimmed Video Classification (ActivityNet)
Trimmed Action Recognition (Kinetics)
Temporal Action Proposals (ActivityNet)
Temporal Action Localization (ActivityNet)
Dense-Captioning Events in Video (ActivityNet)

結果はリーダーボードにあります。
ProposalやLocalizationの精度はまだ改善の余地がたくさんありそうです。

以下はオーラル発表やポスターを見て気になったもののリストです。

Action Recognition Posters
Action Recognitionのいくつかのポスターを紹介します。

Generalized Rank Pooling for Activity Recognition
(Posterに書いてあった性能）UCF101 92.3%, HMDB51 72.1%
Grassmannian manifold上のoptimization
論文では UCF101 91.9, HBDB51 65.4
この論文中の比較対象の中では Spatio-Temporal ResNet(NIPS2016 Feichtenhofer) が最高 UCF101 94.6, HMDB51 70.3
Spatio-Temporal Vector of Locally Max Pooled Features for Action Recognition in Videos
UCF101 94.3, HMDB51 73.1
古典的なPRアプローチ。ローカルな特徴抽出だけはCNNを使うが、あとは特徴ベクトルをアドホックな方法でエンコードする。
frame内の特徴はあらかじめ定義したvisual wordの最も近いものにマップ
spacial, temporal, space-temporalの 3 streams
トレント大、ブカレスト工大、東大
ActionVLAD: Learning spatio-temporal aggregation for action classification
UCF101 93.6, HMDB51 69.8
two stream (spatial, temporal)
end-to-end trainable
pooling across space and time
Vlad = attention
spatial, temporalそれぞれのCNN descriptorをうまく組み合わせる
Procedural Generation of Video to Train Deep Action Recognition Networks
UCF101 94.2, HMDB51 69.5
Predictive-Corrective Networks for Action Detection
Deep representation learning for human motion prediction and classification
skelton model
Weakly supervised action learning with RNN based fine-to-coarse modeling

Zero Shot (ハナノナ向けにも）
[action recognition]
– Zero shot action recognition with Error-Correcting Output Codes

[image]
– Semantically Consistent regularization for zero shot recognition
– Fine-grained recognition of thousands of object categories with single-example training
– Semantic auto encoder for zero-shot learning
– Zero shot learning via multi-scale manifold regularization

VQA

– Toward Spatio-Temporal Reasoning in Visual Question Answering
– Counting everyday objects in everyday scenes
– Multi-level attention networks for visual question answering

Action Detection and Segmentation
– Temporal Convoutional Networks for Action Segmentation and Detection
– SCC: Semantic context cascade for efficient action detection

Caption

– Unsupervised visual-linguistic reference resolution in instructional videos
tutorial videoから手順をテキストスクリプト化する
Li Fei Feiが共著者
– Video captioning with transferred semantic attributes

[image]
– The more you know: Using knowledge graphs for image classification
– Deep variation-structured reinforcement learning for visual relationship and attribute detection

Classification
[2d image]
– Densely connected Convolutional Neural Networks (Best Paper AWARDS)
DenseNet, Githubにtorch版のコードあり　→　ハナノナ
– Look closer to see better: recurrent attention convolutional neural networks for fine-grained image recognition
MSR Asia, Microsoft Flower

[3d data]
– PointNet: Deep learning of point sets for 3d classification and segmentation
– Learning and refining of privileged information-based RNNs for action recognition from depth sequences

SLAM
– Semi-suerpervised deep learning for monocular depth map prediction
– ScanNet: Richly-annotated 3D reconstructions of Indoor scenes

Theory
– Global Optimality in neural network training

Dataset creation
– Learning from synthetic humans
motion captureされた動作をCGにインポートして動作動画のデータを大量に合成

CVPR2017 備忘録 — Action Recognitionを中心に — Memo on CVPR17

Writer