丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預覽,將在時失效
人工智能學術 正文
發(fā)私信給我在思考中
發(fā)送

0

ICCV 2021 | 半監(jiān)督二維人體姿態(tài)估計中的模型坍塌問題研究(代碼已開源)

本文作者: 我在思考中 2021-09-22 10:18
導語:該論文由北京大學王亦洲課題組與微軟亞洲研究院合作完成,研究了一致性學習算法在二維人體姿態(tài)估計中的模型坍塌問題,并提出了構(gòu)建預測難度存在差異的樣本對來解決該問題。

ICCV 2021 | 半監(jiān)督二維人體姿態(tài)估計中的模型坍塌問題研究(代碼已開源)

AI科技評論報道

本文是計算機視覺領域頂級會議ICCV2021入選論文《An Empirical Study of the Collapsing Problem in Semi-Supervised 2D Human Pose Estimation(半監(jiān)督二維人體姿態(tài)估計中的模型坍塌問題研究)》的解讀。該論文由北京大學王亦洲課題組與微軟亞洲研究院合作完成,研究了一致性學習算法在二維人體姿態(tài)估計中的模型坍塌問題,并提出了構(gòu)建預測難度存在差異的樣本對來解決該問題。本文提出的算法可以有效地利用無標記數(shù)據(jù)中的信息,顯著提高了姿態(tài)估計模型的泛化能力。

ICCV 2021 | 半監(jiān)督二維人體姿態(tài)估計中的模型坍塌問題研究(代碼已開源)

論文地址:https://arxiv.org/abs/2011.12498

代碼鏈接:https://github.com/xierc/Semi_Human_Pose

1

研究背景

二維人體姿態(tài)估計在公開數(shù)據(jù)集上的精度不斷獲得提升,但因為部署場景和訓練數(shù)據(jù)的差異,絕大多數(shù)模型在實際使用時都會面臨泛化性能降低這一挑戰(zhàn)。半監(jiān)督學習為解決這一問題提供了可能,它利用少量標注數(shù)據(jù)和大量無標注數(shù)據(jù)(比如來自實際部署場景)進行共同訓練,期望提升模型在目標場景下的泛化能力。


目前半監(jiān)督學習的方法中,結(jié)果最好的方法大多基于一致性訓練(Consistency-based)[1][2]。也就是要求模型在一張圖像的不同擾動(Perturbation)上產(chǎn)生一致的輸出,從而去探索無標簽圖像中存在的特征。一致性損失如公式所示,  代表模型輸出,  表示擾動參數(shù)。但是,目前絕大多數(shù)工作都只在分類任務上進行了算法有效性的驗證。

ICCV 2021 | 半監(jiān)督二維人體姿態(tài)估計中的模型坍塌問題研究(代碼已開源)

但當我們把這些方法應用到二維人體姿態(tài)估計時,我們發(fā)現(xiàn)大部分的一致性訓練方法都遇到了模型坍塌的問題(Model Collapsing)—— 模型在有標注的圖像上能夠預測出正確的heatmap,但在無標注的圖像上對每個像素的預測都是0。注意在這種情況下,雖然一致性損失是最小的,但模型在無標簽數(shù)據(jù)上卻沒有學到任何有意義的信息。

ICCV 2021 | 半監(jiān)督二維人體姿態(tài)估計中的模型坍塌問題研究(代碼已開源)

圖1. 經(jīng)典的一致性訓練方法在二維人體姿態(tài)估計任務上的表現(xiàn)。(a) 預測 Heatmap 響應的變化。(b) 平均精確率的變化。


具體情況如圖1 (a) 所示,隨著訓練次數(shù)的增加,模型在無標注數(shù)據(jù)上產(chǎn)生退化的輸出(整張圖像被預測成背景)。有意思的是模型在標注數(shù)據(jù)上依然能夠產(chǎn)生正確的輸出,這個觀察意味著網(wǎng)絡能夠區(qū)分訓練圖像來自于無標注/有標注數(shù)據(jù)集。在圖1 (b) 中,模型在驗證數(shù)據(jù)集上的精度逐漸接近于0,可確認此時發(fā)生了退化。


2

問題分析

????????????在文章里,我們通過實驗對這個現(xiàn)象進行了深入分析,發(fā)現(xiàn)可能是類別不均衡問題導致的。在人體姿態(tài)估計任務中,一張圖像中絕大部分像素屬于背景,只有一小部分屬于前景(對應關節(jié)點附近的高斯區(qū)域)。因此該任務中存在非常嚴重的類別不均衡問題。

當模型針對兩個對應的像素(來自于兩個 Perturbations)產(chǎn)生不一致的預測時,比如一個預測為1(前景),一個預測為0(背景)。經(jīng)典的一致性訓練方法中,試圖同時更新兩個預測值,從而移動決策邊界,使得兩者位于邊界的同一側(cè)。而因為類別不均衡問題的存在,決策邊界傾向于移動到全局來看樣本數(shù)目更稀疏的少數(shù)類別區(qū)域(也就是前景)。因此,隨著訓練的進行,我們發(fā)現(xiàn)越來越多的像素被預測成背景。圖示分析可見圖2。

ICCV 2021 | 半監(jiān)督二維人體姿態(tài)估計中的模型坍塌問題研究(代碼已開源)
圖2.  (A) 進行無監(jiān)督訓練前的決策邊界。(B) 經(jīng)典的一致性訓練方法試圖讓同一圖像在不同擾動下的預測保持一致,因此該損失函數(shù)傾向于驅(qū)動決策平面移動到樣本數(shù)量較少的前景區(qū)域,從而導致越來越多的像素被預測成背景。(C) 本文提出的方法,具體介紹見下文。????????????



3

本文方法
面的分析促使我們在計算一致性損失的時候,應該考慮兩個輸出的準確性,從而用相對準確的預測去監(jiān)督另外一個預測。我們在統(tǒng)計中發(fā)現(xiàn),對圖像進行簡單的圖像增強后得到的結(jié)果要比進行困難的圖像增強更準確。基于此,我們提出了一個非常簡單的訓練方式。
ICCV 2021 | 半監(jiān)督二維人體姿態(tài)估計中的模型坍塌問題研究(代碼已開源)
圖3. 本文提出的 Easy-Hard 數(shù)據(jù)增強方法
如上圖所示,針對一張無標簽圖像,我們分別進行一次“Easy”和“Hard”的圖像增強,并將其分別輸入姿態(tài)估計模型預測 Heatmap。當網(wǎng)絡接收來自于簡單增強的圖像時,得到的預測值被當作 Teacher,用于監(jiān)督對應的接收困難增強的圖像的預測。
值得注意的是,這里的梯度傳播是單向的,也就是說困難增強的圖像的結(jié)果并不會去指導對應的簡單增強的圖像,從而盡可能降低因為錯誤的監(jiān)督而導致模型退化的可能性。這種方法可以成功避免退化的問題,其訓練過程和結(jié)果可參考圖4。
ICCV 2021 | 半監(jiān)督二維人體姿態(tài)估計中的模型坍塌問題研究(代碼已開源)
圖4. 本文方法成功解決了模型退化的問題
雙重網(wǎng)絡
在 Easy-Hard 增強方法解決了模型退化問題的基礎上,本文中進一步提出了雙重網(wǎng)絡的訓練方式。雙重網(wǎng)絡通過增加 Teacher 和 Student 預測間的差異,來避免一致性訓練過早收斂,從而提高了半監(jiān)督學習的效果。
如圖5所示,該方法同時訓練兩個參數(shù)獨立且初始化不同的網(wǎng)絡,并且在它們之間通過無標記樣本來交換信息。該方法同樣使用了 Easy-Hard 增強方法來避免模型退化。具體來說,模型一在簡單樣本下得到的預測,將用于監(jiān)督模型二在困難樣本下的預測。反之亦然,模型二的預測值也同樣用于指導模型一的訓練,兩者互為教師和學生模型。
ICCV 2021 | 半監(jiān)督二維人體姿態(tài)估計中的模型坍塌問題研究(代碼已開源)
圖5. 本文提出的雙重網(wǎng)絡模型

4

實驗結(jié)果
我們在多個數(shù)據(jù)集和多個基線方法上進行了大量的實驗,驗證了本文提出的訓練方式可以取得非常好的效果。
ICCV 2021 | 半監(jiān)督二維人體姿態(tài)估計中的模型坍塌問題研究(代碼已開源)
表1. COCO 數(shù)據(jù)集中半監(jiān)督學習設置下的結(jié)果
ICCV 2021 | 半監(jiān)督二維人體姿態(tài)估計中的模型坍塌問題研究(代碼已開源)
表2. COCO 數(shù)據(jù)集中使用全量標記樣本,在驗證集的結(jié)果
ICCV 2021 | 半監(jiān)督二維人體姿態(tài)估計中的模型坍塌問題研究(代碼已開源)
表3. COCO 數(shù)據(jù)集中使用全量標記樣本,在測試集的結(jié)果
在 COCO 數(shù)據(jù)集上,當只使用少量標簽數(shù)據(jù)時(表1),本文的方法大約能提升8%-13%的平均精確率。如表2、表3所示,在使用訓練集的全量數(shù)據(jù)時,本文方法仍然能夠增加2%-3%的平均精確率。這些結(jié)果都驗證了本文方法的有效性和實用性。此外,論文中還匯報了本文方法在領域自適應,模型預訓練等任務中的應用結(jié)果,也取得了較顯著的改善。

參考文獻

[1] Kihyuk Sohn, David Berthelot, Chun-Liang Li, Zizhao Zhang, Nicholas Carlini, Ekin D Cubuk, Alex Kurakin, Han Zhang, and Colin Raffel. Fixmatch: Simplifying semisupervised learning with consistency and confidence. In Advances in Neural Information Processing Systems, 2020.

[2] David Berthelot, Nicholas Carlini, Ian Goodfellow, Nicolas Papernot, Avital Oliver, and Colin A Raffel. Mixmatch: A holistic approach to semi-supervised learning. In Advances in Neural Information Processing Systems, pages 5049–5059, 2019.

ICCV 2021 | 半監(jiān)督二維人體姿態(tài)估計中的模型坍塌問題研究(代碼已開源)

雷鋒網(wǎng)雷鋒網(wǎng)雷鋒網(wǎng)


雷峰網(wǎng)版權文章,未經(jīng)授權禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知

ICCV 2021 | 半監(jiān)督二維人體姿態(tài)估計中的模型坍塌問題研究(代碼已開源)

分享:
相關文章
當月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設置密碼以方便用郵箱登錄
立即設置 以后再說