論文

・ Year : 2021
リンク
github

1.どんなものか

半教師あり学習の枠組みにおいてデータ不均衡はあまり議論されておらず,標準的な半教師あり学習では性能が低下する場合がある.
本論文では,ラベルあり,なしデータの両方がクラスごとに不均衡であるようなデータセットに対して研究. それに対して特徴抽出器と分類器の学習を切り分けて作成した枠組みCoSSLを提案.また,テールクラスに対する特徴量拡張(TFE)についても考察.
やりたい方面とは少しずれてる.

2.先行研究との差分

特徴抽出器と分類器を切り離して別個に学習する点は以前の研究に倣っているが,共有エンコーダと疑似ラベル生成に2つの面で接続されている点についてはオリジナル.
それにより,互いに勾配更新は行わないが両者は互いに自身をブーストラップ可能.
また,分類器について既存研究の分類器の学習時点ではラベルなしデータを活用できないという点についても差分.従来は2段階学習のせいで疑似ラベルの精度が低かったが,それについても本手法では改善.

3.技術や研究のキモ

分離と統合

既存の研究で特徴抽出器と分類器を分ける問戦略は不均衡データに対する対策として広く用いられているが, その後,共通の損失の逆伝播なしで両者を結合して共同モジュール間の相互作用を活用する. 3つのモジュールから構成されている全体像は以下の通り.

テールクラス特徴拡張(TFE)

既存手法であるcRTに触発され,分類器学習モジュールを用いて分類器を学習させ,更にラベルなしデータを用いて分類器の精度向上を目指す. 具体的にはmix match.式は以下の通り.

4.有効性の証明

cifar10-LT,cifar100-LT,FOOD101で実験を行い評価,ラベルありデータ,ラベルなしデータはcifar10ではそれぞれ1500:3000,cifar100では150,300.

5.議論

データ分布が既知,未知の場合についての比較に関するあプレーションスタディあり.最後の方は正直よめてない