STAIR Captions のウェブサイトに2種類のデモを設置しました。
Two demos are now available on STAIR Captions website.
- 画像のキャプション生成: 画像を入力すると、入力された画像の日本語キャプション (説明文) を生成します。
- Caption generation: the demo generates a caption of the given image.
- 画像検索: 文を入力すると、入力された文と関係のある画像を検索します。
- Image retrieval: the demo retrieves images that are relevant to an input text.
The both systems are trained with STAIR Captions dataset.
キャプション生成
キャプション生成は、入力として画像を受け取り、その画像の説明文を出力するものです。
このデモの具体的な処理の流れは以下となります:
Caption generation
Caption generation receives an image as an input and outputs a description of the image.
The procedures of this demonstration are as follows:
- 入力された画像を特徴ベクトルに変換
- Extract visual features from an image
- 変換された特徴ベクトルからキャプションを生成
- Generate a caption from extracted features
画像は Resnet を用いて特徴ベクトルに変換しており、キャプション生成には GRU を使っています。
We use Resnet as the feature extractor and GRU for the caption generator.
画像検索
画像検索デモは、入力として文を受け取り、その文に関係のある画像を出力します。
このデモはの処理の流れは以下の通りです:
Image retrieval
The image retrieval system receives a sentence as an input and outputs an image related to the sentence.
The procedures of this system are as follows:
- 画像とキャプションをそれぞれ特徴ベクトルに変換
- Extract features from text and images respectively
- 画像とキャプションを同じ特徴ベクトル空間に写像
- Project extracted text and image features into a common feature space
- 写像された文ベクトルをクエリとして近傍検索
- Calculate distances between text and images in the space, and find the closet image
画像の特徴ベクトルは、キャプション生成と同様に Resnet を使って変換しており、
文の特徴ベクトルは文に存在する単語ベクトルの平均を使っています。