用特別設(shè)計的損失處理非均衡數(shù)據(jù)

本文作者： skura

2019-09-22 08:47

導語：CVPR 2019論文點評

本文是對 CVPR 2019 論文「Class-Balanced Loss Based on Effective Number of Samples」的一篇點評，全文如下：

這篇論文針對最常用的損耗（softmax 交叉熵、focal loss 等）提出了一種按類重新加權(quán)的方案，以快速提高精度，特別是在處理類高度不平衡的數(shù)據(jù)時尤其有用。

本文的實現(xiàn)方法（PyTorch）的 github 地址為：https://github.com/vandit15/Class-balanced-loss-pytorch

有效樣本數(shù)

在處理長尾數(shù)據(jù)集（一個數(shù)據(jù)集的大多數(shù)樣本屬于少數(shù)類，而其它許多類的數(shù)據(jù)很少）時，決定如何權(quán)衡不同類的損失是很棘手的。通常，權(quán)重設(shè)置為類支持的逆或類支持的平方根的逆。

用特別設(shè)計的損失處理非均衡數(shù)據(jù)

傳統(tǒng)重加權(quán)與這里提到的重加權(quán)

然而，如上圖所示，這種現(xiàn)象是因為隨著樣本數(shù)的增加，新數(shù)據(jù)點帶來的額外好處減少了。在訓練神經(jīng)網(wǎng)絡(luò)時使用重數(shù)據(jù)增強（如重縮放、隨機裁剪、翻轉(zhuǎn)等）時，新添加的樣本很可能是現(xiàn)有樣本的近似副本。用有效樣本數(shù)重新加權(quán)得到了較好的結(jié)果。

有效樣本數(shù)可以想象為 n 個樣本覆蓋的實際體積，其中總體積 N 由總樣本數(shù)表示。

用特別設(shè)計的損失處理非均衡數(shù)據(jù)

有效樣本數(shù)

我們寫出其公式：

用特別設(shè)計的損失處理非均衡數(shù)據(jù)

有效樣本數(shù)

這里，我們假設(shè)一個新的樣本將只以兩種方式與先前采樣的數(shù)據(jù)交互：完全覆蓋或完全沒有交集（如上圖所示）。在這種假設(shè)下，用歸納法可以很容易地證明上述表達式（請參閱本文的證明）。

我們也可以像下面這樣寫：

用特別設(shè)計的損失處理非均衡數(shù)據(jù)

每個樣本的貢獻

這意味著第 j 個樣本對有效樣本數(shù)貢獻為 β^（j-1）。

上述方程的另一個含義是，如果 β=0，則 En=1。同時，En=n 則 β=1。后者可以很容易地用 L'Hopital's 法則證明。這意味著當 N 很大時，有效樣本數(shù)與樣本數(shù)相同。在這種情況下，唯一原型數(shù) N 很大，每個樣本都是唯一的。然而，如果 N=1，這意味著所有數(shù)據(jù)都可以用一個原型表示。

類平衡損失

如果沒有額外的信息，我們不能為每個類設(shè)置單獨的 β 值，因此，使用整個數(shù)據(jù)，我們會將其設(shè)置為特定值（通常設(shè)置為0.9、0.99、0.999、0.9999 之一的數(shù)值）。

因此，類平衡損失可以寫成：

用特別設(shè)計的損失處理非均衡數(shù)據(jù)

CB 損失

這里，L(p,y) 可以是任何損失函數(shù)。

類平衡 focal loss

用特別設(shè)計的損失處理非均衡數(shù)據(jù)

類平衡 focal loss

原始版本的 focal loss 有一個 alpha 平衡變量。相反，我們將使用每個類的有效樣本數(shù)對其重新加權(quán)。

類似地，這種重新加權(quán)項也可以應(yīng)用于其他著名的損失（sigmoid 交叉熵、softmax 交叉熵等）。

應(yīng)用

在開始應(yīng)用之前，在使用基于 sigmoid 的損耗進行訓練時要注意一點：用 b=-log（c-1）初始化最后一層的偏差，其中類的數(shù)量是 c，而不是 0。這是因為設(shè)置 b=0 在訓練開始時會導致巨大的損失——每個類的輸出概率接近 0.5。因此，我們可以假設(shè)類 prior 是 1/c，并相應(yīng)地設(shè)置值 b。

類的權(quán)重計算

用特別設(shè)計的損失處理非均衡數(shù)據(jù)

計算標準化權(quán)重

上面的代碼行是一個簡單的實現(xiàn)，獲取權(quán)重并將其標準化。

用特別設(shè)計的損失處理非均衡數(shù)據(jù)

獲取 one-hot 標簽的 PyTorch 張量

在這里，我們得到權(quán)重的 one hot 值，這樣它們就可以分別與每個類的損失值相乘。

實驗

用特別設(shè)計的損失處理非均衡數(shù)據(jù)

類平衡提供了顯著的優(yōu)勢，特別是當數(shù)據(jù)集高度不平衡時（不平衡=200100）。

結(jié)論

利用有效樣本數(shù)的概念，可以解決數(shù)據(jù)重合的問題。由于我們沒有對數(shù)據(jù)集本身做任何假設(shè)，因此重新加權(quán)項通常適用于多個數(shù)據(jù)集和多個損失函數(shù)。因此，類不平衡的問題可以用一個更合適的結(jié)構(gòu)來解決，這一點很重要，因為現(xiàn)實世界中的大多數(shù)數(shù)據(jù)集都存在大量的數(shù)據(jù)不平衡。

參考

[1] Class-Balanced Loss Based on Effective Number of Samples: https://arxiv.org/abs/1901.05555

via：https://towardsdatascience.com/handling-class-imbalanced-data-using-a-loss-specifically-made-for-it-6e58fd65ffab

雷鋒網(wǎng)雷鋒網(wǎng)雷鋒網(wǎng)

雷峰網(wǎng)版權(quán)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

4人收藏

skura

編輯

發(fā)私信

當月熱門文章