STAIR Captions Demo: キャプション生成と画像検索 STAIR Captions Demos: Japanese caption generation and caption-image retrieval

thumb image

STAIR Captions のウェブサイトに2種類のデモを設置しました。

Two demos are now available on STAIR Captions website.

  • 画像のキャプション生成: 画像を入力すると、入力された画像の日本語キャプション (説明文) を生成します。
  • Caption generation: the demo generates a caption of the given image.
  • 画像検索: 文を入力すると、入力された文と関係のある画像を検索します。
  • Image retrieval: the demo retrieves images that are relevant to an input text.

The both systems are trained with STAIR Captions dataset.


Caption generation
Caption generation receives an image as an input and outputs a description of the image.
The procedures of this demonstration are as follows:

  • 入力された画像を特徴ベクトルに変換
  • Extract visual features from an image
  • 変換された特徴ベクトルからキャプションを生成
  • Generate a caption from extracted features

画像は Resnet を用いて特徴ベクトルに変換しており、キャプション生成には GRU を使っています。

We use Resnet as the feature extractor and GRU for the caption generator.


Image retrieval
The image retrieval system receives a sentence as an input and outputs an image related to the sentence.
The procedures of this system are as follows:

  • 画像とキャプションをそれぞれ特徴ベクトルに変換
  • Extract features from text and images respectively
  • 画像とキャプションを同じ特徴ベクトル空間に写像
  • Project extracted text and image features into a common feature space
  • 写像された文ベクトルをクエリとして近傍検索
  • Calculate distances between text and images in the space, and find the closet image

画像の特徴ベクトルは、キャプション生成と同様に Resnet を使って変換しており、

STAIR Captions Demo