ICLR 2017 の Best paper 読みました

この記事では, 先日開催された International Conference on Learning Representation (ICLR) に採択され, best paper awards を受賞した論文の紹介を行います.

ICLR は, 機械学習の国際会議で, 字義どおり表現学習に焦点を当てています. 2013年に開催されて以来毎年開催されており, まだ5回目の開催ですが, 多くの研究者が注目している会議の一つです.

今年の ICLR において, best paper awards を受賞したのは以下の3本です:

Understanding deep learning requires rethinking generalization
- Chiyuan Zhang, Samy Bengio, Moritz Hardt, Benjamin Recht, Oriol Vinyals
Making neural programming architectures via recursion
- Jonathon Cai, Richard Shin, Dawn Song
Semi-supervised knowledge transfer for deep learning from private training data
- Nicolas Papernot, Martín Abadi, Úlfar Erlingsson, Ian Goodfellow, Kunal Talwar

Understanding deep learning requires rethinking generalization

前提として, この論文では, generalization error = training error と test error の差と定義しています.
この論文の主題は, generalization error が小さい NN と大きい NN を考えることができるが, その違いは何か, です. この違いが解明できると, 適切な構造の NN を設計することができる, と主張しています.
結果を先に述べると, この違いを解明することは出来ませんでしたが, 興味深いいくつかの結果を報告しています.

Randomization test

詳しくは, 2.1節の最初に書いてありますが, データにランダムなノイズ?を加えて実験を行っています.
実験は大きく分けると3種類あります.

ラベルをランダムに変更する
各事例のラベルを, ランダムなクラスに変更しています.
画像の画素を入れ替える
全ての画像において, 同じ画素の入れ替え方を行った場合と
画素の入れ替え方を画像ごとに決めた場合
画像にノイズを加える
pixel を標準分布から生成した場合.
画像にランダムな画像 (ガウスノイズ) にした場合 (ラベルはまともなもの).
ガウスノイズの度合いを0から100にした場合,
度合いを大きくするとともに, 一般誤差が大きくなった.
これは, NN が画像に含まれる, なんらかのパターンを学習していることを意味している.
同時に, ノイズに簡単にフィットすることができる.

特に強調している点として, 上記した全ての実験において (どのようなランダム性を導入しても),
ニューラルネットは経験誤差を0とすることができる, があります (論文中 Fig. 1 (a))^[1].
また, 興味深い観測として,
(a) 学習率を変更していないこと,
(b) 一度学習が始まると, すぐに収束すること,
(c) 学習データに完全にフィットすること,
を報告しています.

Partially corrupted labels (2.2節の直前) の段落において, ラベルをランダムに変更する割合を変えた場合についても言及しています (結果は Fig. 1 の b と c).

2.2節では, この実験結果から, Rademacher complexity が, NN において有用ではないことを主張しています.
具体的には,
1. ランダムラベルを用いても, NN は訓練誤差を0にできる
2. 結果として, NN の complexity は1となることが期待できる
3. complexity がとり得る最大値は1
これらの結果から, NN において Rademacher complexity を generalization error の上界に用いることは有用でないと報告しています^[2].

The role of explicit reguliarization

3節では, NN においては, 正則化 (data augmentation, weight decay, dropout) に
– 過学習を抑制するような働きはない
– generalized error を小さくする効果がある
ことを報告しています.
また, Batch normalization は, 精度にはあまり影響を与えないが, 学習の安定に寄与している (Fig. 2a, Table 1) と主張

The role of implicit regularization

5節では, 線形モデルを考えた場合, SGD で獲得されたパラメータのノルムが小さくなることを示しています. ただし, ノルムが小さくなること自体は generalization error を予測する指標にはならないことを最後に付け加えています.

Making neural programming architectures via recursion

この論文では, programming task において, 学習したモデルが一般的な計算能力を獲得するために, 再帰が重要であることを主張しています.

このタスクの評価としては, 学習したモデルがどのぐらい一般的な計算能力を持っているかどうかを評価します.
例えば, 加算を計算する問題設定 (1 + 1 が入力され, 2を出力するような問題設定) では, 学習データとして桁数が小さい計算のみが与えられ, 評価時には桁数が大きい計算を行う.
これによって, 学習したモデルがどれだけ, 一般的な計算能力を持っているかを評価します.
実際経験的に, 既存の手法では, 入力が大きくなると計算に間違いが多くなることが報告されています.

具体的には, 既に提案されている neural programmer interpreter (NPI) が再帰を取り扱えることを指摘し, NPI が再帰を学習するように拡張する方法を提案しました.

実験では, 再帰の有無を比較しています. 再帰無しでは, 入力が複雑になるにつれて, 計算を失敗するのに比べて, 再帰有りは, 複雑な入力に対しても計算が完璧に行えることを示しています.

Semi-supervised knowledge transfer for deep learning from private training data

医療データなどの個人情報が含まれているデータを学習に用いる場合, それら学習データを保護する必要があります.

これを実現するために, これまでに ensembles of teachers が提案されています.
ensembles of teachers は, 次のステップから成り立っています.
1. 学習データを重複無くn個のデータに分割する
2. 分割したn個のデータそれぞれでn種類の分類器 (teacher) を学習する
3. n個の分類器の出力から, 最終的な予測結果を出力する分類器 (student) を学習する
この論文では, この ensembles of teachers の改善を提案しています.

学習手法的な貢献は, 以下の通りです.

PATE: ノイズを加えたアンサンブル学習
PATE-G: Ganerative adversarial networks の枠組みを用いることによる半教師あり学習

雑談

ICLR の面白いところは, 投稿された論文をすべてみることが出来る点です (link).

これを見ると,
Yoshua Bengio (Université de Motreal) が共著に入っている論文は全部で16本投稿されており, その内の12本が採択されていることがわかります.

また, review awards があり, 受賞した査読者のレヴューコメントを見ることができ (匿名化されている), 査読能力向上に貢献しようとしているようです.

この記事を読み進めると, 露骨に私のモチベーションが下がっていることがわかりますね.

ImageNet では, top-1 accuracy 95.20%.↩
何も抑えれていないので.↩

Writer

重藤優太郎 Yutaro Shigeto

Members

重藤優太郎 Yutaro Shigeto

ICLR 2017 の Best paper 読みました Paper review: Best paper awards @ ICLR 2017

Writer

Members