日本語画像キャプションデータセット「STAIR Captions」公開 STAIR Captions: a new large-scale Japanese image caption dataset

thumb image

STAIR Labで作成した日本語画像キャプションデータセット 「STAIR Captions」 を公開しました。

最近、画像に写っている事象の説明を人工知能(機械学習)によって自動的に行う「画像キャプション生成」の研究が盛んに行われています。画像キャプション生成は、ニューラルネットワークによって画像からその画像の説明文への変換を行うことで実現されています。
この際に用いられるニューラルネットワークは、10億以上のパラメータから構成され、適切な説明文を生成するためには、これらのパラメータを学習できるような大量のデータが必要となります。

画像キャプション生成の研究では、これまでマイクロソフトが公開しているMS-COCOや、イリノイ大学が公開しているflickr8k, flickr30kなどの画像キャプションデータセットが使われてきました。
これらのデータセットは、画像に対して英語の説明文が付与されているため、日本語での説明文を生成することは(直接的には)できません。
また、2016年には、Yahoo!Japan研究所から日本語の画像キャプションデータセットが公開されましたが、こちらはMS-COCOと比較して説明文の数が約1/5であり、データ量という観点で改善の余地がありました。

そこで、STAIR Labでは、MS-COCOで提供されている画像約16万枚全てに対して日本語の説明文を付与し、誰でもこのデータセットが使えるように公開しました。それが、STAIR Captionsです。
STAIR Captionsでは、各画像に対して5つの日本語説明文が付与されています。これは、MS-COCOで提供されている英語説明文と同じ量です。
したがって、STAIR Captionsをニューラルネットの学習に用いることで、英語の場合と同程度の性能を持つ画像キャプション生成が行えるということになります。

STAIR Captionsについて書いた論文は、自然言語処理のトップ国際会議であるACL2017に採択されました(詳細)。
その論文は8月に公開される予定ですが、日本語版の論文を言語処理学会第23回年次大会(NLP2017)にて発表済みですので、こちらも合わせてご参照ください。

以下のボタンから、データセットのダウンロードができるページにいけます。
ぜひ、STAIR Captionsをご活用ください。

Writer

Members