RegionCLIP: Region-based Language-Image Pretraining 要約

論文

・ Year ： 2023
・リンク
・ github

１．どんなものか

大規模モデルであるCLIPは画像全体とテキストを照合するように訓練されているため，物体の位置情報のような画像の一部領域とテキストの一部との対応関係については学習していない．これに対してCLIPを拡張し，領域レベルの視覚表現を学習させたregionCLIPでこの問題を解決した．具体的には，事前学習で画像領域とテンプレートキャプションが一致するように学習させている．実験ではCOCOとLVISでベンチマーク．

２．先行研究との差分

OVRは語彙オブジェクト検出を合成することによって、新しいカテゴリのローカライズ性能を向上させることを探求．
ViLDは事前学習済みCLIPモデルから視覚的特徴を抽出し，物体検出について学習しているが物体ラベルとBBが必要．
OVRとの相違点；regionCLIPは事前学習されたCLIPによって生成された’疑似’局所テキストペアを用いる．
ViLDとの相違点；本手法は局所的な情報を学習するための事前学習に注力しているため，ゼロショットで他のタスクに単葉する場合，そのサポートが可能．

３．技術や研究のキモ

視覚意味空間rから抽出した視覚領域表現V(l,r)とテキスト表現L(t)をマッチングさせることを目的としている． Vがビジョンエンコーダを意味し，Lが言語エンコーダを意味する.

視覚的な領域表現

既存研究の人間が注釈したオブジェクトのバウンディングボックスで事前学習したRPNを用いて画像領域$\{r_i\}_{i=1,2,...,N}$を取得する．この&r&の中から代表領域$v_i$を既存研究のRoIAlignのような特徴プーリング法を用いて抽出．

意味領域表現

一つの画像に対してセマンティックな町域は複数存在しており，すべてにカテゴリ付けするコストはない．これに対して局所概念を網羅的にカバーするような大規模概念プールを構築．このプールを用いて局所情報は以下の２津の手順で作成される． (1) 各概念の短い文章をプロンプトテンプレート（CLIP [37]のプロンプトなど）に埋めて作成する。例えば、「凧」という概念は「凧の写真」に変換
(2) 得られたテキスト記述は、さらに事前学習済みの言語エンコーダLを用いて意味表現に符号化

領域とテキストのペアのアライメント

テキストと画像埋め込みのcos類似度を測定，スコアとして用いる．また局所的な視覚特徴とテキストに対して以下の損失，予測確率を用いている．また，ある原画像の特定領域を表している画像と原画像どうしはcontrastive loss的にはノイズ扱いになるが完全に異なる画像ではないため，KLlossを導入している．

４．有効性の証明

事前学習にはむConceptual Caption dataset (CC3M)を使用する．またAblation StudyではCOCO Captionを使用．zero-shotの性能評価に COCO検出データセットとLVISデータセットを用いる．事前訓練で使用したRPNは、LVISデータセットの基本カテゴリで訓練されている．また，デフォルトの生徒モデルと教師モデルは、事前学習済みのCLIPからResNet50である．また，オブジェクト毎のCOCOにおけるZero-shot推論結果は以下の通り．表は事前学習の結果を表し，領域とテキストのペアを使用することで、妥当な性能が得られることが確認．

５．議論

CLIPのvision Encoderは更新しているが，test Encoderは更新していない．そこについては改良のよりがあるかも
またCC3M等データセット固有のバイアスについては，fine-tuningの際に好ましくない物を引き継ぐ可能性があるので注意

感想

CLIPを用いた人間の注釈を用いずに領域テキストペアを関連付けるスケーラブルなアプローチではあるものの， CLIPが持ち合わせないドメインにおいてはそのまま活用することはできない．