ICCV 2021 | 半監(jiān)督二維人體姿態(tài)估計(jì)中的模型坍塌問題研究（代碼已開源）

本文作者：我在思考中

2021-09-22 10:18

導(dǎo)語：該論文由北京大學(xué)王亦洲課題組與微軟亞洲研究院合作完成，研究了一致性學(xué)習(xí)算法在二維人體姿態(tài)估計(jì)中的模型坍塌問題，并提出了構(gòu)建預(yù)測難度存在差異的樣本對(duì)來解決該問題。

AI科技評(píng)論報(bào)道

本文是計(jì)算機(jī)視覺領(lǐng)域頂級(jí)會(huì)議ICCV2021入選論文《An Empirical Study of the Collapsing Problem in Semi-Supervised 2D Human Pose Estimation（半監(jiān)督二維人體姿態(tài)估計(jì)中的模型坍塌問題研究）》的解讀。該論文由北京大學(xué)王亦洲課題組與微軟亞洲研究院合作完成，研究了一致性學(xué)習(xí)算法在二維人體姿態(tài)估計(jì)中的模型坍塌問題，并提出了構(gòu)建預(yù)測難度存在差異的樣本對(duì)來解決該問題。本文提出的算法可以有效地利用無標(biāo)記數(shù)據(jù)中的信息，顯著提高了姿態(tài)估計(jì)模型的泛化能力。

ICCV 2021 | 半監(jiān)督二維人體姿態(tài)估計(jì)中的模型坍塌問題研究（代碼已開源）

論文地址：https://arxiv.org/abs/2011.12498

代碼鏈接：https://github.com/xierc/Semi_Human_Pose

研究背景

二維人體姿態(tài)估計(jì)在公開數(shù)據(jù)集上的精度不斷獲得提升，但因?yàn)椴渴饒鼍昂陀?xùn)練數(shù)據(jù)的差異，絕大多數(shù)模型在實(shí)際使用時(shí)都會(huì)面臨泛化性能降低這一挑戰(zhàn)。半監(jiān)督學(xué)習(xí)為解決這一問題提供了可能，它利用少量標(biāo)注數(shù)據(jù)和大量無標(biāo)注數(shù)據(jù)（比如來自實(shí)際部署場景）進(jìn)行共同訓(xùn)練，期望提升模型在目標(biāo)場景下的泛化能力。

目前半監(jiān)督學(xué)習(xí)的方法中，結(jié)果最好的方法大多基于一致性訓(xùn)練（Consistency-based）[1][2]。也就是要求模型在一張圖像的不同擾動(dòng)（Perturbation）上產(chǎn)生一致的輸出，從而去探索無標(biāo)簽圖像中存在的特征。一致性損失如公式所示， $f()$ 代表模型輸出， $\eta$ 表示擾動(dòng)參數(shù)。但是，目前絕大多數(shù)工作都只在分類任務(wù)上進(jìn)行了算法有效性的驗(yàn)證。

ICCV 2021 | 半監(jiān)督二維人體姿態(tài)估計(jì)中的模型坍塌問題研究（代碼已開源）

但當(dāng)我們把這些方法應(yīng)用到二維人體姿態(tài)估計(jì)時(shí)，我們發(fā)現(xiàn)大部分的一致性訓(xùn)練方法都遇到了模型坍塌的問題（Model Collapsing）—— 模型在有標(biāo)注的圖像上能夠預(yù)測出正確的heatmap，但在無標(biāo)注的圖像上對(duì)每個(gè)像素的預(yù)測都是0。注意在這種情況下，雖然一致性損失是最小的，但模型在無標(biāo)簽數(shù)據(jù)上卻沒有學(xué)到任何有意義的信息。

圖1. 經(jīng)典的一致性訓(xùn)練方法在二維人體姿態(tài)估計(jì)任務(wù)上的表現(xiàn)。(a) 預(yù)測 Heatmap 響應(yīng)的變化。(b) 平均精確率的變化。

具體情況如圖1 (a) 所示，隨著訓(xùn)練次數(shù)的增加，模型在無標(biāo)注數(shù)據(jù)上產(chǎn)生退化的輸出（整張圖像被預(yù)測成背景）。有意思的是模型在標(biāo)注數(shù)據(jù)上依然能夠產(chǎn)生正確的輸出，這個(gè)觀察意味著網(wǎng)絡(luò)能夠區(qū)分訓(xùn)練圖像來自于無標(biāo)注/有標(biāo)注數(shù)據(jù)集。在圖1 (b) 中，模型在驗(yàn)證數(shù)據(jù)集上的精度逐漸接近于0，可確認(rèn)此時(shí)發(fā)生了退化。

問題分析

????????????在文章里，我們通過實(shí)驗(yàn)對(duì)這個(gè)現(xiàn)象進(jìn)行了深入分析，發(fā)現(xiàn)可能是類別不均衡問題導(dǎo)致的。在人體姿態(tài)估計(jì)任務(wù)中，一張圖像中絕大部分像素屬于背景，只有一小部分屬于前景（對(duì)應(yīng)關(guān)節(jié)點(diǎn)附近的高斯區(qū)域）。因此該任務(wù)中存在非常嚴(yán)重的類別不均衡問題。

當(dāng)模型針對(duì)兩個(gè)對(duì)應(yīng)的像素（來自于兩個(gè) Perturbations）產(chǎn)生不一致的預(yù)測時(shí)，比如一個(gè)預(yù)測為1（前景），一個(gè)預(yù)測為0（背景）。經(jīng)典的一致性訓(xùn)練方法中，試圖同時(shí)更新兩個(gè)預(yù)測值，從而移動(dòng)決策邊界，使得兩者位于邊界的同一側(cè)。而因?yàn)轭悇e不均衡問題的存在，決策邊界傾向于移動(dòng)到全局來看樣本數(shù)目更稀疏的少數(shù)類別區(qū)域（也就是前景）。因此，隨著訓(xùn)練的進(jìn)行，我們發(fā)現(xiàn)越來越多的像素被預(yù)測成背景。圖示分析可見圖2。

圖2. (A) 進(jìn)行無監(jiān)督訓(xùn)練前的決策邊界。(B) 經(jīng)典的一致性訓(xùn)練方法試圖讓同一圖像在不同擾動(dòng)下的預(yù)測保持一致，因此該損失函數(shù)傾向于驅(qū)動(dòng)決策平面移動(dòng)到樣本數(shù)量較少的前景區(qū)域，從而導(dǎo)致越來越多的像素被預(yù)測成背景。(C) 本文提出的方法，具體介紹見下文。

本文方法

上面的分析促使我們在計(jì)算一致性損失的時(shí)候，應(yīng)該考慮兩個(gè)輸出的準(zhǔn)確性，從而用相對(duì)準(zhǔn)確的預(yù)測去監(jiān)督另外一個(gè)預(yù)測。我們在統(tǒng)計(jì)中發(fā)現(xiàn)，對(duì)圖像進(jìn)行簡單的圖像增強(qiáng)后得到的結(jié)果要比進(jìn)行困難的圖像增強(qiáng)更準(zhǔn)確。基于此，我們提出了一個(gè)非常簡單的訓(xùn)練方式。

圖3. 本文提出的 Easy-Hard 數(shù)據(jù)增強(qiáng)方法

如上圖所示，針對(duì)一張無標(biāo)簽圖像，我們分別進(jìn)行一次“Easy”和“Hard”的圖像增強(qiáng)，并將其分別輸入姿態(tài)估計(jì)模型預(yù)測 Heatmap。當(dāng)網(wǎng)絡(luò)接收來自于簡單增強(qiáng)的圖像時(shí)，得到的預(yù)測值被當(dāng)作 Teacher，用于監(jiān)督對(duì)應(yīng)的接收困難增強(qiáng)的圖像的預(yù)測。

值得注意的是，這里的梯度傳播是單向的，也就是說困難增強(qiáng)的圖像的結(jié)果并不會(huì)去指導(dǎo)對(duì)應(yīng)的簡單增強(qiáng)的圖像，從而盡可能降低因?yàn)殄e(cuò)誤的監(jiān)督而導(dǎo)致模型退化的可能性。這種方法可以成功避免退化的問題，其訓(xùn)練過程和結(jié)果可參考圖4。

圖4. 本文方法成功解決了模型退化的問題

雙重網(wǎng)絡(luò)

在 Easy-Hard 增強(qiáng)方法解決了模型退化問題的基礎(chǔ)上，本文中進(jìn)一步提出了雙重網(wǎng)絡(luò)的訓(xùn)練方式。雙重網(wǎng)絡(luò)通過增加 Teacher 和 Student 預(yù)測間的差異，來避免一致性訓(xùn)練過早收斂，從而提高了半監(jiān)督學(xué)習(xí)的效果。

如圖5所示，該方法同時(shí)訓(xùn)練兩個(gè)參數(shù)獨(dú)立且初始化不同的網(wǎng)絡(luò)，并且在它們之間通過無標(biāo)記樣本來交換信息。該方法同樣使用了 Easy-Hard 增強(qiáng)方法來避免模型退化。具體來說，模型一在簡單樣本下得到的預(yù)測，將用于監(jiān)督模型二在困難樣本下的預(yù)測。反之亦然，模型二的預(yù)測值也同樣用于指導(dǎo)模型一的訓(xùn)練，兩者互為教師和學(xué)生模型。

圖5. 本文提出的雙重網(wǎng)絡(luò)模型

實(shí)驗(yàn)結(jié)果

我們在多個(gè)數(shù)據(jù)集和多個(gè)基線方法上進(jìn)行了大量的實(shí)驗(yàn)，驗(yàn)證了本文提出的訓(xùn)練方式可以取得非常好的效果。

表1. COCO 數(shù)據(jù)集中半監(jiān)督學(xué)習(xí)設(shè)置下的結(jié)果

表2. COCO 數(shù)據(jù)集中使用全量標(biāo)記樣本，在驗(yàn)證集的結(jié)果

表3. COCO 數(shù)據(jù)集中使用全量標(biāo)記樣本，在測試集的結(jié)果

在 COCO 數(shù)據(jù)集上，當(dāng)只使用少量標(biāo)簽數(shù)據(jù)時(shí)（表1），本文的方法大約能提升8%-13%的平均精確率。如表2、表3所示，在使用訓(xùn)練集的全量數(shù)據(jù)時(shí)，本文方法仍然能夠增加2%-3%的平均精確率。這些結(jié)果都驗(yàn)證了本文方法的有效性和實(shí)用性。此外，論文中還匯報(bào)了本文方法在領(lǐng)域自適應(yīng)，模型預(yù)訓(xùn)練等任務(wù)中的應(yīng)用結(jié)果，也取得了較顯著的改善。

參考文獻(xiàn)

[1] Kihyuk Sohn, David Berthelot, Chun-Liang Li, Zizhao Zhang, Nicholas Carlini, Ekin D Cubuk, Alex Kurakin, Han Zhang, and Colin Raffel. Fixmatch: Simplifying semisupervised learning with consistency and confidence. In Advances in Neural Information Processing Systems, 2020.

[2] David Berthelot, Nicholas Carlini, Ian Goodfellow, Nicolas Papernot, Avital Oliver, and Colin A Raffel. Mixmatch: A holistic approach to semi-supervised learning. In Advances in Neural Information Processing Systems, pages 5049–5059, 2019.

ICCV 2021 | 半監(jiān)督二維人體姿態(tài)估計(jì)中的模型坍塌問題研究（代碼已開源）

雷鋒網(wǎng)雷鋒網(wǎng)雷鋒網(wǎng)

雷峰網(wǎng)版權(quán)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

0人收藏

相關(guān)文章

我在思考中

運(yùn)營

發(fā)私信

當(dāng)月熱門文章