Uni-Perceiver-MoE: Learning Sparse Generalist Models with Conditional MoEs 要約

論文

・ Year ： NeurIPS2022
・リンク
・ github

１．どんなものか

さまざまなタスクを１つの重みで共有するジェネラルモデルは以前から研究が進んでいた．しかし，タスク間でパラメータに干渉する問題があった．
この問題に対して勾配の観点から問題を定量化，評価を行った．また下流タスクにおいて計算コストを削減しつつこれを実現．

２．先行研究との差分

タスク干渉問題を勾配方向の観点から分析

３．技術や研究のキモ

タスク間損失

タスク間でパラメータ干渉が起きているかの指標． i番目のタスクに対してパラメータ更新を行った場合にj番目のタスクの損失の変化量を示す．また，これを用いてタスク間の干渉を表したものが二つ目の式

この評価指標を用いてvision transformerの異なる層のFFNにおけるタスク間の干渉について調べた結果が以下の通り．

Conditional Mixture-of-Experts

入力シーケンスから得られるトークン$x_i$をE個のLinear層のどれを通すのかについて決定する．(routing)
そして最終的な出力は加重和として次のように表される．ここで$\bm{W}_g$ はroutingに用いられる学習可能な重み． $\bm{W}_e$は選択されたlinear層の重みである．

Routing Strategy

Token level

先行研究のバニラMoEと同様にトークン表現を直接使用

Context level

類似した表現を持つトークンはタスク間でも出現する可能性あり．これに対してExpartの判断はタスクの干渉を緩和するために異なるはずである． gatingの信頼性の高い判断のために，グローバルコンテキストとローカルトークン表現の組合せを探索する．ここでattnpoolはattension poolingを意味する．