ReCLIP: A Strong Zero-Shot Baseline for Referring Expression Comprehension 要約

論文

・ Year ： 2023
・リンク
・ github

１．どんなものか

ビジュアルドメインの参照表現理解(ReC)をモデルに学習させるには

ドメイン内の画像の参照表現
画像に対応するバウンディングボックス

が必要である．大規模モデルはReCにおいてゼロショットで有用であるかはいまだ判明していない．そこでReCLIPを提案，これは対比的な事前学習目的との密接な関係とCLIPはそのままでは空間推論を行うことができない性質に対して動機付けられている．

切り抜きとぼかしによってオブジェクト提案を分離し、CLIPに渡す領域スコアリング方法
いくつかのタイプの空間関係を扱う空間関係リゾルバ

CLIPが汎化できない領域

CLIPを用いたVQAのための素直なゼロショットアプローチの性能が低い.また，ReCに特化すると、Yaoら（2021）は、オブジェクト提案に色を付け、テキストプロンプトの色を参照して提案をスコアリングするColorful Prompt Tuning（CPT）によるゼロショットアプローチを紹介しているが、これは低精度である.
これらの結果から，ゼロショットでは空間的推論ができない．

２．先行研究との差分

Colorful Prompt Tuning（CPT）...対象物体に異なる色で陰影付けを行う，それに対してテキスト側に[参照表現　in MASK color]とプロンプト語を記述することで参照表現とする．ここではマスクする言語モデルとして事前学習済みマスク言語モデル(MLM)から最も予測確率の高い色が選ばれる．これをCLIPのようなMLMを持たないモデルに対応させるために，入力テキストは"参照表現　は赤色で表されます"のようにテンプレを作成する．

３．技術や研究のキモ

ReCLIPは二つの要素からなる．

領域スコアリング手法(既存研究のGradCAM，CPTとは異なる)
ルールーベースの関係解決器

Isolated Proposal Scoring (IPS：孤立提案スコアリング)

ReCはCLIPのような事前対照学習タスクに似ているという観察に基づく．ただし，ここで与えられたテキストに対して複数の画像から一致する画像を一つ選ぶのではなく，複数の画像領域から一つ選ぶ必要がある．
ここで提案箇所だけ切り抜く方法と提案化障害をぼかす手法を提案している，

Spatial Relation Resolver (空間関係リゾルバ)

CLIPは空間的な関係に対する感度が低い問題がある．これに対して複雑な表現をより原始的なものに分解することを提案している．

述語：参照元が満たすべきテキストのことを意味する．例えば「ネコ」や「赤い飛行機」は述語． Pをオブジェクトに対するカテゴリ分布としてモデル化し，IPSを用いて事前学習済みモデルでp(i)=Pr[P(i)]を推定
ここ何のことかわからん
関係性：ReCタスクにおいて、「犬の左に猫がいる」というような二項対立の空間関係は重要．ここで，左、右、上、下、大きい、小さい、内という7つの空間関係を考える．R(i,j)は、物体iとjの間に関係Rが成立することを意味し、確率r(i,j) = Pr[R(i,j)] をヒューリスティクスで決定しています。例えば、左については、箱 i の中心点が箱 j の中心点より左にある場合に r(i, j) = 1、それ以外の場合に r(i, j) = 0 とする
超越関係：「一番左の犬」のように、同じ述語を満たす他のすべてのオブジェクトと何らかの関係を持つオブジェクトを指す．

４．有効性の証明

RefCOCOg，RefCOCO、RefCOCO+，RefGTAに対するゼロショット性能で実験を行った． ReCLIPには事前学習済みのCLIP(Resnet50x16，vit_b_16)を使用比較対象はGradCAM．

５．議論

CLIPはやはり空間的情報については学習していないと思われる．オブジェクトを示す言葉にのみ注目しがちであるため，このような空間情報を表すキャプションを付けた画像で事前学習or VQAのような物事の関係性について直接学習させるモデルの使用で解決できそう．

感想

3章が読みにくい．