論文

・ Year : ICLR2020
リンク
github

1.どんなものか

半教師あり学習を用いたノイジーラベルに対する学習フレームワーク. 学習データをクリーン,ノイジーに分割し,その双方を用いて半教師あり学習を行う. また,ネットワークは2つ用い,各ネットワークは他方のネットワークからのデータセット分割 に従い学習する.

2.先行研究との差分

既存の研究である,半教師あり学習,Mixup,Co-teaching等の技術をまとめた. また,MixMatchと呼ばれるラベルなしデータに対してMixupoを拡張した手法を提案.

3.技術や研究のキモ

2つのネットワークを同時に学習させる枠組み. DNNがノイズの多いデータよりもクリーンなサンプルを早く学習することに注目. ウォームアップさせた2モデルを用いて,一方のネットワーク出力を用いてGMMでラベルありデータ,なしデータを区別.
区別方法はGMMに対して平均値の小さい成分に属するデータに対してクリーンデータと判断する予測確率の閾値 を定めることで区別している.

co-devide

上記のような学習法では,クリーンと誤って判断されたノイズデータは容易にモデルにオーバーフィッティング してしまう.これに対して,これを防ぐために異なる,パラメータ初期化,学習データで学習 下2津のモデルを用いることで,互いの異なるフィルタリング能力によりノイズに対してロバストなモデルになる.
ウォームアップ注に関してCrossEntropy Lossは対象ノイズに対しては強いが非対称ノイズに対してはすぐに過適合してしまう. そのため,CrossEntropy Lossに対して以下のモデルの予測確率に関するペナルティ項Hを追加. $$ CE(l) = \{l_i\}^N_{i=1} = \{ -\sum^C_{c=1} y^c_i log(p^c_model(x_i;\theta))\}^N_{i=1} $$ $$ H = -\sum_c p^c_{model}(x;\theta) log(p^c_model(x;\theta)) $$

半教師あり学習

ラベルありデータに関しては他方のモデルによって生成されたクリーンデータである確率$w_b$を用いて モデルの予測確率p_bとラベルy_bに関して以下のようにラベルを共同洗練. $$ \overline{y_b} = w_by_b + (1 - w_b)p_b $$ その後温度パラメータTを用いて処理. $$ \hat{y_b} = Sharpen(\overline{y_b},T) $$
ラベルなしデータに関しては,両ネットワークを用いて共同で推測する. 以下の要に両ネットワークからの予測確率を平均 $$ \overline{q_b} = \frac{1}{2M}\sum_m \{ p_{model}(\hat{u}_{b,m};\theta^{(1)}) + \}p_{model}(\hat{u}_{b,m};\theta^{(2)}) $$ そのあとはラベルありデータと同様に温度パラメータを用いて処理.
この精錬した予測確率と画像のペアをミニバッチとして学習させる.

損失関数

ラベルありデータ,なしデータ,正則化項の3つから成る.

$$ L_X = -\frac{1}{|X^{\prime}|} \sum_{x,p \in X^{\prime}} \sum_c p_clog(p^c_{model}(x;\theta)) $$ $$ L_U = -\frac{1}{|U^{\prime}|} \sum_{x,p \in U^{\prime}} ||p-p_{model}(x;\theta)||^2_2 $$ $$ L_{reg} = \sum_c \pi_c log(\frac{\pi_c}{ \frac{1}{|X^{\prime}|+|U^{\prime}|} \sum_{x \in X^{\prime}+U^{\prime}} p_{model}^c(x;\theta)}) $$
最後にまとめて以下の通り $$ L = L_X + \lambda_u L_U + \lambda_r L_{reg} $$

4.有効性の証明

cifar10,cifar100,Clothing1M,Webvisionに対して実験. cifarに関しては異なるノイズ律,及び対象ノイズ,非対称ノイズに対しても実験している. cifarに実験は上から順に対象ノイズと40%の非対称ノイズに対する実験結果を示している.




5.議論

・学習モデルを変更させた場合の結果
・ノイズ率に対する損失関数のパラメータの説明
・データセットの定性的評価
・学習にかかる時間
の大きく4項目について記述あり