Implicit and Explicit Commonsense for Multi-sentence Video Captioning 要約

論文

・ Year ： ICLR2023
・リンク
・ github

１．どんなものか

既存のビデオキャプションアプローチはビデオの全体的な表現に依存．これらの学習法では自称の因果関係や特定のオブジェクトの機能等を推論するのに必要な世界に関する常識的な知識が根本的にかけている．これに対してこの論文では

暗黙的な常識知...視覚言語的、純粋言語的な要素
明示的な常識知識...知識ベースな要素

の両者について考慮した，transforerベースのビデオキャプションモデルを提案している．
また模倣学習からヒントを得て，「命令生成タスク」という新しい拓くを提案している．常識を知識として活用することで既存のビデオキャプションアプローチが既存研究に対して大幅な改善をもたらした．

２．先行研究との差分

過去の研究例では，階層型デコーダや記憶増強型ネットワークを用いて学習がなされている．しかしこれらはすべてビデオとキャプションから直接学習されており，既存の大規模モデルからもたらされるような常識，因果関係についての概念がない．

コモセンス推論

コモセンス推論と言語モデリングはNLPタスクで広く使用される．

ConceptNet...分類学的・語彙的知識(related to, synonym, is -Aなど)と物理的コモセンス知識(made of, part of)に焦点を当てている．
ATOMIC...ATOMICの知識グラフはxIntent,xWant,oWantなどをカバーする9つの関係にわたり，1.33Mのタプルを含んでいる．

しかしこれらは未知のデータに対して常識的知識を絡めた推論ができない．そのため結果としては未知データに汎化できない．
これに対してCOMETはKBsと呼ばれる言語モデルをfine-tuningすることで未知データに対する常識に関係した推論を生成可能．この研究では，複数文の生成においてＣＯＭＥＴを明示的な常識事前知識として用いている．

３．技術や研究のキモ

※事前知識：動画に対してキャプション付け：ビデオの長さ，キャプション付けを行うビデオセグメントの決定が必要．
明示的，暗黙的の２種類の常識知識をモデルに統合する．

明示的知識の抽出

必要なのはスニペットとその前後のスニペットとの対応関係．BARTを用いたCOMETを使用して明示的知識を基盤モデルから抽出．これをSBERTによってエンコードする，すべて事前学習済み．

暗黙的知識の抽出

The Pileデータセットで事前学習されたGPT-Neoを使用．GPTの出力を暗黙的事前知識として，入力に対して出力された行動予測文章を SBERTによりエンコード

アクション-オブジェクト予測器

動画のスニペットは前後で強い関係性を持つはずである．そこで行動・物体予測器$fa$を用いる．$fa$では動画中のオブジェクトに対して CLIPで検出．データセットに対して行動が与えられていることが前提．前のスニペットとの情報量に対してはMultiHeadAttensionを行うことで解消．以下のように定式化可能．ただしnを2値のスニペットを表すとする． $$ V_i = V \oplus \bm{n}_i $$ $$ \bm{a}_i = f_a{concat(V_i,\bm{m}_{i-1},\bm{g}_{i-1},\bm{h}_{i-1})} $$ $$ L_{actobj} = L_{} $$ $$ V_e^{n} = V_e^{(n-1)} + MultiHead(V_e^{(n-1)},V_e^{(n-1)},V_e^{(n-1)}) $$

４．有効性の証明

Alfred,ActivityNet Captionsを用いて実験．また，動画の種類について定義．

ParagraphLevel：スニペットの推定や監視を行わない（潜在的なまま）設定
Sentence-Level: スニペットを推定し、密なビデオキャプションと同様にキャプションに活用することを学習するもの

ALFREDデータセットは、行動、振る舞い、物体を人間の言語と結びつけるためのベンチマーク. このデータセットはAI2-THOR 2.0上の対話型視覚環境で構築されている．
ActivityNet Captions Datasetは各動画は時間的に注釈された一連の文章を持ち、各文章は発生したイベントを記述する動画のセグメントに対応する．
生成した命令文について実験，評価手法には，BLEU, METEOR,CIDErを用いて評価．Alfredに結果は以下の通り．

密なビデオキャプションにおける実験結果

一般性を説明するために、我々はまた、密なビデオキャプション問題の設定において、ActivityNet Captionsデータセットで提案手法の方法の性能を実証した。以下に定性的な実験結果，生成された命令文の評価実験結果を示す

常識知識に関するユーザー実験

常識知識の改善を定量化することを目的とする実験．密なビデオキャプションの設定において文章AかBのどちらがいいか，それとも両者ともいい，もしくは悪いかについて答えてもらった．指示生成では10件、密なビデオキャプションでは12件の回答を収集．インストラクション生成では82.6%、 dense video captioningでは54.5%の文章が、常識知識を加えたモデルの文章と同等かそれ以上であると判定された．

５．議論

特になし

感想

暗黙的，明示的知識を事前学習済モデルから抽出して，キャプション付けに対して汎化できた例． CLIPが対応していないようなドメインの画像についてはCLIPのfinu-tuningで対処可能なのかはたまた別のアプローチが必要なのかについては気になるところ．