論文

・ Year : NeurIPS2021
リンク
github

1.どんなものか

ラベルノイズを検出するために従来のヒューリスティックに頼らない手法を提案. 空くデータ点の潜在的表減のダイナミクスに注目して,特徴量のデータグラム行列を固有値分解し, 潜在的分布と各表現の整合性を測定している.

2.先行研究との差分

ヒューリスティックな指標に頼ることなく,理論的に保証された高次トポロジー空間に対する 教師なしクラスタリングアルゴリズムに基づくノイズデータ検出法を提案.

3.技術や研究のキモ

アラインメントの定義

クラスとラベル付けされたデータxm入力$\sum_x$を持つ特徴抽出器の出力zとする. ここでデータセットD中のクラスkとラベル付けされたデータの特徴量のグラム行列は以下の通り. $$ \sum_k = \sum_{z \in \{class=k\}zz^T} $$ これを用いてデータのアラインメント$(u_1,z_i)^2$を推定する. ここで$u_1$とは$\sum_k$の固有値分解から得られた$U_k$の最初の列. つまり固有値が降順であるとき以下の通り. $$ \sum_k = U_k A_k U_k^T $$ 主成分分析でいうと,一番分散の大きい情報量が多い特徴量について アラインメントを導出している事と等しい.このアラインメントをGMM にあてはめてノイズかクリーン化を判定する.

ノイズラベル検知に対するアラインメントの分析

過去の研究から,ランダムなラベルの付いたデータを学習するとモデルの分類器が劣化することが知られている. ロバストな分類器を構築するために,この論文では潜在的な特徴の主成分を用いてGMMによるノイズの分離を目的としている.
しかし,当然のノイズ,クリーンデータの持つ分布に対してアクセスできないため,最もノイズとクリーンが分離できている 最適なGMMモデルの推定は不可能である.そこでクリーンデータの整列値を最大化するようにクリーンデータの固有ベクトル を近似することを試みる.

4.有効性の証明

cifar10,cifar100,Clothing1M,Webvisionに対して実験. cifarに関しては異なるノイズ律,及び対象ノイズ,非対称ノイズに対しても実験している. cifarに実験は上から順に対象ノイズと40%の非対称ノイズに対する実験結果を示している.




5.議論

・学習モデルを変更させた場合の結果
・ノイズ率に対する損失関数のパラメータの説明
・データセットの定性的評価
・学習にかかる時間
の大きく4項目について記述あり