AI科技評論報(bào)道
本文是計(jì)算機(jī)視覺領(lǐng)域頂級會(huì)議ICCV2021入選論文《An Empirical Study of the Collapsing Problem in Semi-Supervised 2D Human Pose Estimation(半監(jiān)督二維人體姿態(tài)估計(jì)中的模型坍塌問題研究)》的解讀。 該論文由北京大學(xué)王亦洲課題組與微軟亞洲研究院合作完成,研究了一致性學(xué)習(xí)算法在二維人體姿態(tài)估計(jì)中的模型坍塌問題,并提出了構(gòu)建預(yù)測難度存在差異的樣本對來解決該問題。本文提出的算法可以有效地利用無標(biāo)記數(shù)據(jù)中的信息,顯著提高了姿態(tài)估計(jì)模型的泛化能力。
論文地址:https://arxiv.org/abs/2011.12498
代碼鏈接:https://github.com/xierc/Semi_Human_Pose 二維人體姿態(tài)估計(jì)在公開數(shù)據(jù)集上的精度不斷獲得提升,但因?yàn)椴渴饒鼍昂陀?xùn)練數(shù)據(jù)的差異,絕大多數(shù)模型在實(shí)際使用時(shí)都會(huì)面臨泛化性能降低這一挑戰(zhàn)。半監(jiān)督學(xué)習(xí)為解決這一問題提供了可能,它利用少量標(biāo)注數(shù)據(jù)和大量無標(biāo)注數(shù)據(jù)(比如來自實(shí)際部署場景)進(jìn)行共同訓(xùn)練,期望提升模型在目標(biāo)場景下的泛化能力。
目前半監(jiān)督學(xué)習(xí)的方法中,結(jié)果最好的方法大多基于一致性訓(xùn)練(Consistency-based)[1][2]。也就是要求模型在一張圖像的不同擾動(dòng)(Perturbation)上產(chǎn)生一致的輸出,從而去探索無標(biāo)簽圖像中存在的特征。一致性損失如公式所示, 代表模型輸出, 表示擾動(dòng)參數(shù)。但是,目前絕大多數(shù)工作都只在分類任務(wù)上進(jìn)行了算法有效性的驗(yàn)證。
但當(dāng)我們把這些方法應(yīng)用到二維人體姿態(tài)估計(jì)時(shí),我們發(fā)現(xiàn)大部分的一致性訓(xùn)練方法都遇到了模型坍塌的問題(Model Collapsing)—— 模型在有標(biāo)注的圖像上能夠預(yù)測出正確的heatmap,但在無標(biāo)注的圖像上對每個(gè)像素的預(yù)測都是0。 注意在這種情況下,雖然一致性損失是最小的,但模型在無標(biāo)簽數(shù)據(jù)上卻沒有學(xué)到任何有意義的信息。
圖1. 經(jīng)典的一致性訓(xùn)練方法在二維人體姿態(tài)估計(jì)任務(wù)上的表現(xiàn)。(a) 預(yù)測 Heatmap 響應(yīng)的變化。(b) 平均精確率的變化。
具體情況如圖1 (a) 所示,隨著訓(xùn)練次數(shù)的增加,模型在無標(biāo)注數(shù)據(jù)上產(chǎn)生退化的輸出(整張圖像被預(yù)測成背景)。有意思的是模型在標(biāo)注數(shù)據(jù)上依然能夠產(chǎn)生正確的輸出,這個(gè)觀察意味著網(wǎng)絡(luò)能夠區(qū)分訓(xùn)練圖像來自于無標(biāo)注/有標(biāo)注數(shù)據(jù)集。在圖1 (b) 中,模型在驗(yàn)證數(shù)據(jù)集上的精度逐漸接近于0,可確認(rèn)此時(shí)發(fā)生了退化。
? ? ? ? ? ? ? ? ? ? ? ? 在文章里,我們通過實(shí)驗(yàn)對這個(gè)現(xiàn)象進(jìn)行了深入分析,發(fā)現(xiàn)可能是類別不均衡問題導(dǎo)致的。在人體姿態(tài)估計(jì)任務(wù)中,一張圖像中絕大部分像素屬于背景,只有一小部分屬于前景(對應(yīng)關(guān)節(jié)點(diǎn)附近的高斯區(qū)域)。因此該任務(wù)中存在非常嚴(yán)重的類別不均衡問題。
當(dāng)模型針對兩個(gè) 對應(yīng) 的像素(來自于兩個(gè) Perturbations)產(chǎn)生不一致的預(yù)測時(shí) ,比如一個(gè)預(yù)測為1(前 景),一個(gè)預(yù)測為0(背景)。 經(jīng)典的一致性訓(xùn)練方法中,試圖 同時(shí)更新兩個(gè)預(yù)測值 ,從而移動(dòng)決策邊界,使得兩者位于邊界的同一側(cè)。 而因?yàn)轭悇e不均衡問題的存在,決策邊界傾向于移動(dòng)到全局來看樣本數(shù)目更稀疏的少數(shù)類別區(qū)域(也就是前景)。 因此,隨著訓(xùn)練的進(jìn)行,我們發(fā)現(xiàn)越來越多的像素被預(yù)測成背景。 圖示分析可見圖2。
圖2. (A) 進(jìn)行無監(jiān)督訓(xùn)練前的決策邊界。(B) 經(jīng)典的一致性訓(xùn)練方法試圖讓同一圖像在不同擾動(dòng)下的預(yù)測保持一致,因此該損失函數(shù)傾向于驅(qū)動(dòng)決策平面移動(dòng)到樣本數(shù)量較少的前景區(qū)域,從而導(dǎo)致越來越多的像素被預(yù)測成背景。(C) 本文提出的方法,具體介紹見下文。? ? ? ? ? ? ? ? ? ? ? ?
上 面的分析促使我們在計(jì)算一致性損失的時(shí)候,應(yīng)該考慮兩個(gè)輸出的準(zhǔn)確性,從而用 相對準(zhǔn)確的預(yù)測去監(jiān)督另外一個(gè)預(yù)測 。 我們在統(tǒng)計(jì)中發(fā)現(xiàn),對圖像進(jìn)行簡單的圖像增強(qiáng)后得到的結(jié)果要比進(jìn)行困難的圖像增強(qiáng)更準(zhǔn)確。 基于此,我們提出了一個(gè)非常簡單的訓(xùn)練方式。 圖3. 本文提出的 Easy-Hard 數(shù)據(jù)增強(qiáng)方法 如上圖所示,針對一張無標(biāo)簽圖像,我們分別進(jìn)行一次“Easy”和“Hard”的圖像增強(qiáng),并將其分別輸入姿態(tài)估計(jì)模型預(yù)測 Heatmap。當(dāng)網(wǎng)絡(luò)接收來自于簡單增強(qiáng)的圖像時(shí),得到的預(yù)測值被當(dāng)作 Teacher,用于監(jiān)督對應(yīng)的接收困難增強(qiáng)的圖像的預(yù)測。 值得注意的是,這里的梯度傳播是單向的 ,也就是說困難增強(qiáng)的圖像的結(jié)果并不會(huì)去指導(dǎo)對應(yīng)的簡單增強(qiáng)的圖像,從而盡可能降低因?yàn)殄e(cuò)誤的監(jiān)督而導(dǎo)致模型退化的可能性。這種方法可以成功避免退化的問題,其訓(xùn)練過程和結(jié)果可參考圖4。 在 Easy-Hard 增強(qiáng)方法解決了模型退化問題的基礎(chǔ)上,本文中進(jìn)一步提出了雙重網(wǎng)絡(luò)的訓(xùn)練方式。雙重網(wǎng)絡(luò)通過增加 Teacher 和 Student 預(yù)測間的差異,來避免一致性訓(xùn)練過早收斂,從而提高了半監(jiān)督學(xué)習(xí)的效果。 如圖5所示,該方法同時(shí)訓(xùn)練兩個(gè)參數(shù)獨(dú)立且初始化不同的網(wǎng)絡(luò),并且在它們之間通過無標(biāo)記樣本來交換信息。該方法同樣使用了 Easy-Hard 增強(qiáng)方法來避免模型退化。具體來說,模型一在簡單樣本下得到的預(yù)測,將用于監(jiān)督模型二在困難樣本下的預(yù)測。反之亦然,模型二的預(yù)測值也同樣用于指導(dǎo)模型一的訓(xùn)練,兩者互為教師和學(xué)生模型。 圖5. 本文提出的雙重網(wǎng)絡(luò)模型 我們在多個(gè)數(shù)據(jù)集和多個(gè)基線方法上進(jìn)行了大量的實(shí)驗(yàn),驗(yàn)證了本文提出的訓(xùn)練方式可以取得非常好的效果。 表1. COCO 數(shù)據(jù)集中半監(jiān)督學(xué)習(xí)設(shè)置下的結(jié)果 表2. COCO 數(shù)據(jù)集中使用全量標(biāo)記樣本,在驗(yàn)證集的結(jié)果 表3. COCO 數(shù)據(jù)集中使用全量標(biāo)記樣本,在測試集的結(jié)果 在 COCO 數(shù)據(jù)集上,當(dāng)只使用少量標(biāo)簽數(shù)據(jù)時(shí)(表1),本文的方法大約能提升8%-13%的平均精確率。如表2、表3所示,在使用訓(xùn)練集的全量數(shù)據(jù)時(shí),本文方法仍然能夠增加2%-3%的平均精確率。這些結(jié)果都驗(yàn)證了本文方法的有效性和實(shí)用性。此外,論文中還匯報(bào)了本文方法在領(lǐng)域自適應(yīng),模型預(yù)訓(xùn)練等任務(wù)中的應(yīng)用結(jié)果,也取得了較顯著的改善。 參考文獻(xiàn)
[1] Kihyuk Sohn, David Berthelot, Chun-Liang Li, Zizhao Zhang, Nicholas Carlini, Ekin D Cubuk, Alex Kurakin, Han Zhang, and Colin Raffel. Fixmatch: Simplifying semisupervised learning with consistency and confidence. In Advances in Neural Information Processing Systems, 2020.
[2] David Berthelot, Nicholas Carlini, Ian Goodfellow, Nicolas Papernot, Avital Oliver, and Colin A Raffel. Mixmatch: A holistic approach to semi-supervised learning. In Advances in Neural Information Processing Systems, pages 5049–5059, 2019.
雷鋒網(wǎng)雷鋒網(wǎng)雷鋒網(wǎng)
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知 。