丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預覽,將在時失效
人工智能學術 正文
發(fā)私信給我在思考中
發(fā)送

0

OpenAI 研究員:數(shù)據(jù)不足時,如何實現(xiàn)監(jiān)督學習

本文作者: 我在思考中 2022-07-14 14:07
導語:本文將全面介紹半監(jiān)督學習這一方法。

OpenAI 研究員:數(shù)據(jù)不足時,如何實現(xiàn)監(jiān)督學習

作者丨Lilian Weng
編譯丨叢末

編輯丨陳彩嫻

現(xiàn)實應用中,數(shù)據(jù)易得,而有標簽的數(shù)據(jù)少有。
一般而言,當監(jiān)督學習任務面臨標簽數(shù)據(jù)不足問題時,可以考慮以下四種解決辦法:
1.預訓練+微調:首先在一個大規(guī)模無監(jiān)督數(shù)據(jù)語料庫上對一個強大的任務無關模型進行預訓練(例如通過自監(jiān)督學習在自由文本上對語言模型進行預訓練,或者在無標簽圖像上對視覺模型進行預訓練),之后再使用一小組標簽樣本在下游任務上對該模型進行微調。
2.半監(jiān)督學習:同時從標簽樣本和無標簽樣本中學習,研究者使用該方法在視覺任務上進行了大量研究。
3.主動學習:標注成本高,即便成本預算有限,也希望盡可能收集更多的標簽數(shù)據(jù)。主動學習學習選擇最有價值的無標簽樣本,并在接下來的收集過程中收集此類數(shù)據(jù),在預算有限的情況下,幫助模型盡可能達到預期效果。
4.預訓練+數(shù)據(jù)集自動生成:給定一個功能強大的預訓練模型,可以利用該模型來自動生成更多得多的標簽樣本。受小樣本學習大獲成功的驅動,該方法在語言領域的應用尤其普遍。
本文全面介紹半監(jiān)督學習這一方法,作者為OpenAI研究員Lilian Weng,博客地址:https://lilianweng.github.io/



1

什么是半監(jiān)督學習?

半監(jiān)督學習同時使用標簽數(shù)據(jù)和無標簽數(shù)據(jù)來訓練模型。
有趣的是,現(xiàn)有關于半監(jiān)督學習的文獻大多集中在視覺任務上。而預訓練+微調方法才是語言任務中更常見的范式。
本文所提到的所有方法的損失,都由兩部分構成:OpenAI 研究員:數(shù)據(jù)不足時,如何實現(xiàn)監(jiān)督學習。其中監(jiān)督損失OpenAI 研究員:數(shù)據(jù)不足時,如何實現(xiàn)監(jiān)督學習
在樣本全部為標簽樣本的情況下非常容易計算出來。我們需要重點關注如何設計無監(jiān)督損失OpenAI 研究員:數(shù)據(jù)不足時,如何實現(xiàn)監(jiān)督學習。加權項OpenAI 研究員:數(shù)據(jù)不足時,如何實現(xiàn)監(jiān)督學習通常選擇使用斜坡函數(shù),其中t是訓練步數(shù),隨著訓練次數(shù)的增加,OpenAI 研究員:數(shù)據(jù)不足時,如何實現(xiàn)監(jiān)督學習的占比提升。
聲明:此文并不覆蓋所有半監(jiān)督方法,僅聚焦于模型架構調優(yōu)方面的。關于在半監(jiān)督學習中,如何使用生成模型和基于圖的方法,可以參考《深度半監(jiān)督學習全覽》(An Overview of Deep Semi-Supervised Learning)這篇論文。



2

符號說明表

符號
含義
OpenAI 研究員:數(shù)據(jù)不足時,如何實現(xiàn)監(jiān)督學習
唯一標簽的數(shù)量。
OpenAI 研究員:數(shù)據(jù)不足時,如何實現(xiàn)監(jiān)督學習
標簽數(shù)據(jù)集,其中OpenAI 研究員:數(shù)據(jù)不足時,如何實現(xiàn)監(jiān)督學習是真實標簽的獨熱表示。
OpenAI 研究員:數(shù)據(jù)不足時,如何實現(xiàn)監(jiān)督學習
無標簽數(shù)據(jù)集。
OpenAI 研究員:數(shù)據(jù)不足時,如何實現(xiàn)監(jiān)督學習
整個數(shù)據(jù)集,包括標簽樣本和無標簽樣本。
OpenAI 研究員:數(shù)據(jù)不足時,如何實現(xiàn)監(jiān)督學習
可以表示無標簽樣本, 也可以表示標簽樣本。
OpenAI 研究員:數(shù)據(jù)不足時,如何實現(xiàn)監(jiān)督學習
經(jīng)過增強處理的無標簽樣本或標簽樣本。
OpenAI 研究員:數(shù)據(jù)不足時,如何實現(xiàn)監(jiān)督學習
第i個樣本。
OpenAI 研究員:數(shù)據(jù)不足時,如何實現(xiàn)監(jiān)督學習
分別表示損失,監(jiān)督損失,無監(jiān)督損失
OpenAI 研究員:數(shù)據(jù)不足時,如何實現(xiàn)監(jiān)督學習
無監(jiān)督損失權重,隨著訓練步數(shù)增加而增加。
OpenAI 研究員:數(shù)據(jù)不足時,如何實現(xiàn)監(jiān)督學習
給定輸入情況下,標簽數(shù)據(jù)集的條件概率。
OpenAI 研究員:數(shù)據(jù)不足時,如何實現(xiàn)監(jiān)督學習
使用加權θ生成的神經(jīng)網(wǎng)絡,即期望訓練出的模型。
OpenAI 研究員:數(shù)據(jù)不足時,如何實現(xiàn)監(jiān)督學習
邏輯函數(shù)f的輸出值的向量。
OpenAI 研究員:數(shù)據(jù)不足時,如何實現(xiàn)監(jiān)督學習
預測的標簽分布。
OpenAI 研究員:數(shù)據(jù)不足時,如何實現(xiàn)監(jiān)督學習
兩個分布間的距離函數(shù),例如均方誤差、交叉熵、KL散度等。
OpenAI 研究員:數(shù)據(jù)不足時,如何實現(xiàn)監(jiān)督學習
Teacher 模型權重的移動平均線加權超參數(shù)。
OpenAI 研究員:數(shù)據(jù)不足時,如何實現(xiàn)監(jiān)督學習
α為混合樣本的系數(shù) ,OpenAI 研究員:數(shù)據(jù)不足時,如何實現(xiàn)監(jiān)督學習
OpenAI 研究員:數(shù)據(jù)不足時,如何實現(xiàn)監(jiān)督學習
銳化預測分布的溫度。
OpenAI 研究員:數(shù)據(jù)不足時,如何實現(xiàn)監(jiān)督學習
選擇合格的預測結果的置信度閾值。




3

假設

在已有研究文獻中,討論了以下幾種假設來支撐對半監(jiān)督學習方法中的某些設計進行決策。
假設1:平滑度假設(Smoothness Assumptions)
如果兩個數(shù)據(jù)樣本在特征空間的高密度區(qū)域接近,它們的標簽應該會相同或非常相似。
假設2:聚類假設(Cluster Assumptions)
特征空間既有密集區(qū)域,也有稀疏區(qū)域。密集分組的數(shù)據(jù)點很自然地形成聚類。同一聚類中的樣本應具有相同的標簽。這是對假設1的一個小擴展。
假設3:低密度分離假設(Low-density Separation Assumptions)
類之間的決策邊界往往位于稀疏的低密度區(qū)域,因為如果不這樣的話,決策邊界就會將高密度聚類分割為分別對應兩個聚類的兩個類,這就會導致假設1和假設2都失效。
假設4:流形假設(Manifold Assumptions)

高維數(shù)據(jù)往往位于低維流形上。盡管現(xiàn)實世界的數(shù)據(jù)可能是在非常高的維度上被觀察到的(例如,真實世界的物體/場景的圖像),但它們實際上可以被更低維的流形捕獲,這種低維流形上會捕獲數(shù)據(jù)的某些屬性,并將一些相似的數(shù)據(jù)點進行緊密組合(例如真實世界的物體/場景的圖像,并不是源自于所有像素組合的均勻分布)。這就使得模型能夠學習一種更有效的表征方法去發(fā)現(xiàn)和評估無標簽數(shù)據(jù)點之間的相似性。這也是表征學習的基礎。關于此假設,更詳細的闡述可參考《如何理解半監(jiān)督學習中的流行假設》這篇文章。

鏈接:https://stats.stackexchange.com/questions/66939/what-is-the-manifold-assumption-in-semi-supervised-learning



4

一致性正則化(Consistency Regularization)

一致性正則化,也叫一致性訓練,假設給定相同輸入,神經(jīng)網(wǎng)絡中的隨機性(例如使用 Dropout算法)或數(shù)據(jù)增強轉換不會更改模型預測。本節(jié)中的每個方法都有一個一致性正則化損失:OpenAI 研究員:數(shù)據(jù)不足時,如何實現(xiàn)監(jiān)督學習。
SimCLR、BYOL、SimCSE 等多個自監(jiān)督學習方法都采用了這一思想。相同樣本的不同增強版本,產(chǎn)生的表征都相同。語言建模中的交叉視圖訓練(Cross-view training )和自監(jiān)督學習中的多視圖學習(Multi-view learning)的研究動機相同。

1.Π模型

OpenAI 研究員:數(shù)據(jù)不足時,如何實現(xiàn)監(jiān)督學習

圖1:Π-模型概覽。同一個輸入經(jīng)過不同的隨機增強和 dropout掩膜的擾動產(chǎn)生兩個版本,通過網(wǎng)絡得到兩個輸出,Π-模型預測這兩個輸出是一致的。(圖片來源:Laine 、 Aila  2017發(fā)表的論文《半監(jiān)督學習的時序集成》 )

Sajjadi 等人在2016年發(fā)表的論文《深度半監(jiān)督學習的隨機變換和擾動正則化》(Regularization With Stochastic Transformations and Perturbations for Deep Semi-Supervised Learning)中,提出了一種無監(jiān)督學習損失,它能夠將同一數(shù)據(jù)點經(jīng)過隨機變換(例如dropout、隨機最大池化)產(chǎn)生兩個版本,并在通過網(wǎng)絡后輸出的兩個結果之間的差異最小化。由于其標簽沒有被明確使用,所以該損失可以應用到無標簽數(shù)據(jù)集。Laine 、Aila 后來在2017年發(fā)表的論文《半監(jiān)督學習的時序集成》(Temporal Ensembling for Semi-Supervised Learning)中,為這種處理方式取了一個名字,叫做 Π模型。
OpenAI 研究員:數(shù)據(jù)不足時,如何實現(xiàn)監(jiān)督學習
其中,OpenAI 研究員:數(shù)據(jù)不足時,如何實現(xiàn)監(jiān)督學習指同一個神經(jīng)網(wǎng)絡應用不同的隨機增強或dropout掩膜的取值。該損失使用整個數(shù)據(jù)集。

2.時序集成(Temporal ensembling)

OpenAI 研究員:數(shù)據(jù)不足時,如何實現(xiàn)監(jiān)督學習

圖2:時序集成概覽。其學習目標是對每個樣本的指數(shù)移動平均值( EMA)做出標簽預測。(圖片來源:Laine 、 Aila  2017發(fā)表的論文《半監(jiān)督學習的時序集成》)
Π模型需要每個樣本通過神經(jīng)網(wǎng)絡兩次,這就使得計算成本增加一倍。為了減少成本,時序集成模型持續(xù)將每個訓練樣本OpenAI 研究員:數(shù)據(jù)不足時,如何實現(xiàn)監(jiān)督學習的實時模型預測的指數(shù)移動平均值(EMA)作為學習目標,EMA 在每輪迭代中僅需計算和更新一次。由于時序集成模型的輸出OpenAI 研究員:數(shù)據(jù)不足時,如何實現(xiàn)監(jiān)督學習被初始化為0,因而除以OpenAI 研究員:數(shù)據(jù)不足時,如何實現(xiàn)監(jiān)督學習進行歸一化來糾正這一啟動偏差。出于同一原因,Adam 優(yōu)化器也有這樣的偏差糾正項。
OpenAI 研究員:數(shù)據(jù)不足時,如何實現(xiàn)監(jiān)督學習
其中OpenAI 研究員:數(shù)據(jù)不足時,如何實現(xiàn)監(jiān)督學習是在第t輪迭代中的集成預測,OpenAI 研究員:數(shù)據(jù)不足時,如何實現(xiàn)監(jiān)督學習是在當前回合的模型預測。需要注意的是,由于OpenAI 研究員:數(shù)據(jù)不足時,如何實現(xiàn)監(jiān)督學習=0,進行偏差糾正后,OpenAI 研究員:數(shù)據(jù)不足時,如何實現(xiàn)監(jiān)督學習就完全等于在第1輪迭代中的模型預測值OpenAI 研究員:數(shù)據(jù)不足時,如何實現(xiàn)監(jiān)督學習。

3.均值教師(Mean teachers)

OpenAI 研究員:數(shù)據(jù)不足時,如何實現(xiàn)監(jiān)督學習

圖3:Mean Teacher 框架概覽(圖片來源:Tarvaninen、 Valpola在2017年發(fā)表的論文《均值教師模型是表現(xiàn)更好的模范模型:加權平均一致性目標優(yōu)化半監(jiān)督深度學習結果》)
時序集成模型將追蹤每一個訓練樣本的標簽預測的指數(shù)移動平均值作為學習目標。然而,這種標簽預測僅在每一次迭代中發(fā)生變化,當訓練數(shù)據(jù)集很大時,這種方法就顯得冗雜。
為了克服目標更新速度慢的問題,Tarvaninen、 Valpola在2017年發(fā)表的論文《均值教師模型是表現(xiàn)更好的模范模型:加權平均一致性目標優(yōu)化半監(jiān)督深度學習結果》(Mean teachers are better role models: Weight-averaged consistency targets improve semi-supervised deep learning results)中,提出了Mean Teacher算法,該算法通過跟蹤模型權值的移動平均值而不是模型輸出來更新目標。權重為θ的原始模型叫做Student模型,將權重為連續(xù)多個Student模型的移動平均權重θ′的模型,稱為Mean Teacher模型:OpenAI 研究員:數(shù)據(jù)不足時,如何實現(xiàn)監(jiān)督學習
一致性正則化損失是Student模型和Teacher 模型的預測之間的距離,并且該差距應該最小化。Mean Teacher 模型能夠提供比Student模型更準確的預測。該結論在實證實驗中得到了證實,如圖 4 所示。

OpenAI 研究員:數(shù)據(jù)不足時,如何實現(xiàn)監(jiān)督學習

圖4:Π 模型和 Mean Teacher模型在 SVHN 數(shù)據(jù)集上的分類誤差。Mean Teacher模型(用橙線表示)比Student模型(用藍線表示)的表現(xiàn)更好。(圖片來源:Tarvaninen、 Valpola在2017年發(fā)表的論文《均值教師模型是表現(xiàn)更好的模范模型:加權平均一致性目標優(yōu)化半監(jiān)督深度學習結果》)
根據(jù)其消融研究:
  • 輸入增強方法(例如,輸入圖像的隨機翻轉、高斯噪聲)或對Student模型進行dropout處理對于模型實現(xiàn)良好的性能是必要的。Teacher模式不需要進行dropout處理。
  • 性能對指數(shù)移動平均值的衰減超參數(shù)β敏感。一個比較好的策略是在增長階段使用較小的β=0.99,在后期Student模型改進放緩時使用較大的β=0.999。
  • 結果發(fā)現(xiàn),一致性成本函數(shù)的均方誤差(MSE)比KL發(fā)散等其他成本函數(shù)的表現(xiàn)更好。

4.將噪聲樣本作為學習目標

最近的幾種一致性訓練方法學習將原始的無標簽樣本與其相應的增強版本之間的預測差異最小化。這種思路與 Π 模型非常相似,但其一致性正則化損失僅適用于無標簽數(shù)據(jù)。

OpenAI 研究員:數(shù)據(jù)不足時,如何實現(xiàn)監(jiān)督學習

圖5:使用噪聲樣本的一致性訓練
在Goodfellow等人于2014年發(fā)表的論文《解釋和利用對抗性樣本》(Explaining and Harnessing Adversarial Examples)中,對抗性訓練(Adversarial Training)將對抗性噪聲應用到輸入上,并訓練模型使其對此類對抗性攻擊具有魯棒性。該方法在監(jiān)督學習的應用公式如下:
OpenAI 研究員:數(shù)據(jù)不足時,如何實現(xiàn)監(jiān)督學習
其中OpenAI 研究員:數(shù)據(jù)不足時,如何實現(xiàn)監(jiān)督學習是真實分布,近似于真值標簽的獨熱編碼,OpenAI 研究員:數(shù)據(jù)不足時,如何實現(xiàn)監(jiān)督學習是模型預測,OpenAI 研究員:數(shù)據(jù)不足時,如何實現(xiàn)監(jiān)督學習是計算兩個分布之間差異的距離函數(shù)。
Miyato 等人在2018年發(fā)表的論文《虛擬對抗性訓練:對監(jiān)督和半監(jiān)督方法都適用的正則化方法》(Virtual Adversarial Training: A Regularization Method for Supervised and Semi-Supervised Learning)中提出虛擬對抗性訓練(Virtual Adversarial Training,VAT),該方法是對抗性訓練思想在半監(jiān)督學習領域的一個延伸。由于OpenAI 研究員:數(shù)據(jù)不足時,如何實現(xiàn)監(jiān)督學習是未知的,VAT 將該未知項替換為當前權重設定為OpenAI 研究員:數(shù)據(jù)不足時,如何實現(xiàn)監(jiān)督學習時,當前模型對原始輸入的預測。需要注意的是,OpenAI 研究員:數(shù)據(jù)不足時,如何實現(xiàn)監(jiān)督學習是模型權重的的固定值,因而在OpenAI 研究員:數(shù)據(jù)不足時,如何實現(xiàn)監(jiān)督學習上不會進行梯度更新。
OpenAI 研究員:數(shù)據(jù)不足時,如何實現(xiàn)監(jiān)督學習
VAT 損失既適用于標簽樣本,也適用于無標簽樣本。它計算的是當前模型在每個數(shù)據(jù)點的預測流形的負平滑度。對這種損失進行優(yōu)化能夠讓預測流形更加平滑。
Verma等人在2019年論文《半監(jiān)督學習的插值一致性訓練》(Interpolation Consistency Training for Semi-Supervised Learning)中提出插值一致性訓練(Interpolation Consistency Training,ICT),通過添加更多數(shù)據(jù)點的插值來強化數(shù)據(jù)集,讓模型預測和對應標簽的插值盡可能一致。Hongyi Zhang等人在2018年的論文《Mixup:超越經(jīng)驗風險最小化》(Mixup: Beyond Empirical Risk Minimization)中提出MixUp方法,即通過簡單的加權和來將兩個圖像進行混合處理。插值一致性訓練即根據(jù)這一思路,讓預測模型為一個混合樣本生成標簽,來匹配對應輸入的預測插值:
OpenAI 研究員:數(shù)據(jù)不足時,如何實現(xiàn)監(jiān)督學習
其中OpenAI 研究員:數(shù)據(jù)不足時,如何實現(xiàn)監(jiān)督學習表示Mean Teacher 模型的θ的移動平均值。

OpenAI 研究員:數(shù)據(jù)不足時,如何實現(xiàn)監(jiān)督學習

圖6:插值一致性訓練概覽。使用MixUp方法生成更多以插值標簽作為學習目標的插值樣本。(圖片來源:Verma等人在2019年論文《半監(jiān)督學習的插值一致性訓練》)
由于兩個隨機選擇的無標簽樣本屬于不同類別的概率很高(例如ImageNet中就有1000個目標類別),因此在兩個隨機無標簽樣本之間應用Mixup方法,就很可能生成在決策邊界附近的插值。根據(jù)低密度分離(Low-density Separation)假設,決策邊界往往位于低密度區(qū)域。
OpenAI 研究員:數(shù)據(jù)不足時,如何實現(xiàn)監(jiān)督學習
其中OpenAI 研究員:數(shù)據(jù)不足時,如何實現(xiàn)監(jiān)督學習表示θ的移動平均值。
與VAT類似,Xie 等人在2020年的論文《一致性訓練的無監(jiān)督數(shù)據(jù)增強》(Unsupervised Data Augmentation for Consistency Training)中提出的無監(jiān)督數(shù)據(jù)增強(Unsupervised Data Augmentation,UDA),學習給無標簽樣本和增強樣本預測相同的輸出。UDA特別聚焦于研究噪聲的“質量”如何通過一致性訓練來影響半監(jiān)督學習的性能。要想生成有意義和有效的噪聲樣本,使用先進的數(shù)據(jù)增強方法至關重要。良好的數(shù)據(jù)增強方法應該能夠產(chǎn)生有效的(即不改變標簽)和多樣的噪聲,并帶有有針對性的歸納偏置(Inductive Biases)。
針對圖像領域,UDA 采用的是RandAugment方法,該方法由Cubuk 等人在2019年的論文《RandAugment: 減少搜索空間的實用型自動數(shù)據(jù)增強方法》(RandAugment: Practical automated data augmentation with a reduced search space)中提出。它對Python圖像處理庫PIL中可用的增強操作進行統(tǒng)一采樣,無需學習或優(yōu)化,因此比使用AutoAugment方法,成本要便宜得多。

OpenAI 研究員:數(shù)據(jù)不足時,如何實現(xiàn)監(jiān)督學習

圖7:CIFAR-10分類中各種半監(jiān)督學習方法的比較。在未經(jīng)過RandAugment處理的50000個樣本進行訓練時,Wide-ResNet-28-2和PyramidNet+ShakeDrop 在完全監(jiān)督下,錯誤率分別為**5.4**和**2.7**。
針對語言領域,UDA結合使用回譯( back-translation)和基于TF-IDF的詞替換(word replacement)兩種方法?;刈g保留了高層次意義,但是不保留某些詞本身,而基于TF-IDF的詞替換則去掉TF-IDF分數(shù)較低的無信息性詞。在語言任務的實驗中,研究者發(fā)現(xiàn)發(fā)現(xiàn)UDA與遷移學習和表征學習是互補的;例如,在域內無標簽數(shù)據(jù)上對BERT模型進行微調(即圖8中的OpenAI 研究員:數(shù)據(jù)不足時,如何實現(xiàn)監(jiān)督學習),能進一步提升性能。

OpenAI 研究員:數(shù)據(jù)不足時,如何實現(xiàn)監(jiān)督學習

圖8:不同文本分類任務上,無監(jiān)督數(shù)據(jù)增強方法采用不同初始化設置的比較。(圖片來源:Xie 等人在2020年的論文《一致性訓練的無監(jiān)督數(shù)據(jù)增強》)
在計算 OpenAI 研究員:數(shù)據(jù)不足時,如何實現(xiàn)監(jiān)督學習 時,UDA可以通過使用以下三種訓練技巧來優(yōu)化結果:
  • 低置信度掩膜(Low confidence masking):如果樣本的預測置信度低于閾值OpenAI 研究員:數(shù)據(jù)不足時,如何實現(xiàn)監(jiān)督學習,則對其進行掩膜處理。
  • 銳化預測分布(Sharpening Prediction Distribution):在Softmax中使用低溫OpenAI 研究員:數(shù)據(jù)不足時,如何實現(xiàn)監(jiān)督學習來對預測概率分布進行銳化。
  • 域內數(shù)據(jù)過濾(In-Domain Data Filtration):為了從大的域外數(shù)據(jù)集中提取更多的域內數(shù)據(jù) ,研究人員訓練一個分類器來預測域內標簽,然后保留具有高置信度預測的樣本作為域內候選樣本。
OpenAI 研究員:數(shù)據(jù)不足時,如何實現(xiàn)監(jiān)督學習
其中,OpenAI 研究員:數(shù)據(jù)不足時,如何實現(xiàn)監(jiān)督學習是模型權重的固定值,與VAT中的OpenAI 研究員:數(shù)據(jù)不足時,如何實現(xiàn)監(jiān)督學習一樣,因而沒有梯度更新,OpenAI 研究員:數(shù)據(jù)不足時,如何實現(xiàn)監(jiān)督學習是經(jīng)過增強的數(shù)據(jù)點,OpenAI 研究員:數(shù)據(jù)不足時,如何實現(xiàn)監(jiān)督學習是預測置信度閾值,OpenAI 研究員:數(shù)據(jù)不足時,如何實現(xiàn)監(jiān)督學習是分布銳化溫度。



5

偽標簽(Pseudo Labeling)

Lee等人在2013年的論文《偽標簽:深度神經(jīng)網(wǎng)絡的簡單而高效的半監(jiān)督學習方法》(Pseudo-Label : The Simple and Efficient Semi-Supervised Learning Method for Deep Neural Networks)中提出偽標簽,它基于當前模型預測的最大的softmax概率,將偽標簽分配給無標簽樣本,然后在完全監(jiān)督設置下,同時在標簽樣本和無標簽樣本上訓練模型。
為什么偽標簽能起作用?偽標簽實際上相當于熵正則化,它將無標簽數(shù)據(jù)的類概率的條件熵( conditional entropy )最小化,從而實現(xiàn)類之間的低密度分離。換句話說,預測的類概率實際上是計算類重疊,最小化熵相當于減少類重疊,從而降低密度分離。

OpenAI 研究員:數(shù)據(jù)不足時,如何實現(xiàn)監(jiān)督學習

圖9:(a )表示僅使用600 個標簽數(shù)據(jù)對模型訓練后,在MINIST 測試集上進行測試輸出的t-SNE可視化結果,(b)表示使用600 個標簽數(shù)據(jù)以及60000 個無標簽數(shù)據(jù)的偽標簽對模型進行訓練后,在MINIST 測試集上進行測試輸出的t-SNE可視化結果。偽標簽能夠使學到的嵌入空間實現(xiàn)更好的分離效果。(圖片來源:Lee等人在2013年的論文《偽標簽:深度神經(jīng)網(wǎng)絡的簡單而高效的半監(jiān)督學習方法》)
使用偽標簽進行訓練自然是一個迭代過程。這里將生成偽標簽的模型叫做Teacher 模型,將使用偽標簽學習的模型稱作Student 模型。

1.標簽傳播(Label propagation)

Iscen等人在2019年發(fā)表的論文《深度半監(jiān)督學習的標簽傳播》(Label Propagation for Deep Semi-supervised Learning)中提出標簽傳播概念,是一種基于特征嵌入在樣本之間構建相似圖的思想。接著將偽標簽從已知樣本“擴散”到傳播權重與圖中成對相似性得分成正比的無標簽樣本。從概念上來看,它類似于k-NN分類器,兩者都存在無法很好地擴展到大型數(shù)據(jù)集上的問題。

OpenAI 研究員:數(shù)據(jù)不足時,如何實現(xiàn)監(jiān)督學習

圖10:標簽傳播工作原理示意圖。(圖片來源:Iscen等人在2019年發(fā)表的論文《深度半監(jiān)督學習的標簽傳播》)

2.自訓練(Self-Training)

自訓練不是一個新概念,Scudder等人在1965年發(fā)表的論文《自適應模式識別機器的錯誤概率》(Probability of error of some adaptive pattern-recognition machines)、 Nigram & Ghani等人在CIKM 2000 上發(fā)表的論文《分析協(xié)同訓練的有效性和適用性》(Analyzing the Effectiveness and Applicability of Co-trainin)都涉及到這個概念。它是一種迭代算法,輪番進行以下兩步操作,直到每個無標簽樣本都匹配到一個標簽:
  • 首先,它在標簽數(shù)據(jù)上構建分類器。
  • 接著,它使用該分類器預測無標簽數(shù)據(jù)的標簽,并將置信度最高的標簽轉換為標簽樣本。
Xie 等人在2020年發(fā)表的論文《使用噪聲學生進行自訓練來優(yōu)化 ImageNet 分類》(Self-training with Noisy Student improves ImageNet classification)中,將自訓練應用于深度學習,并取得了巨大成果。在ImageNet分類任務中,研究者首先訓練了一個EfficientNet模型作為Teacher模型,為3億張無標簽圖像生成偽標簽,然后訓練了一個更大的EfficientNet模型作為Student 模型,以學習真實標簽圖像和偽標簽圖像。在他們的實驗設置中,一個關鍵的元素是在Student模型訓練期間加入噪聲,而Teacher模型生成偽標簽過程則不加入噪聲來。因此,他們的方法被稱為“噪聲學生(Noisy Student )”,即使用隨機深度、dropout和RandAugment方法給Student 模型加入噪聲。Student 模型表現(xiàn)得比Teacher 模型更好,很大程度上就是加入噪聲帶來的好處。添加的噪聲具有復合效應,可以促使模型在標簽數(shù)據(jù)和無標簽數(shù)據(jù)上產(chǎn)生的決策邊界變得平滑。
Student 模型自訓練還有其他幾個重要的技術設置,包括:
  • Student 模型加應該足夠大(即比Teacher 模型大),以適用于更多數(shù)據(jù)。
  • 加入噪聲的Student 模型應該結合數(shù)據(jù)平衡方法,這對于平衡每個類重的偽標簽圖像的數(shù)量尤其重要。
  • 軟偽標簽比硬標簽效果更好。
加入噪聲的Student 模型還提高了防御 FGSM(快速梯度符號攻擊,其使用輸入數(shù)據(jù)的損失梯度,并調整輸入數(shù)據(jù)從而最大化損失)的對抗魯棒性,即便該模型未針對對抗魯棒性進行優(yōu)化。
Du 等人在2020年的論文《自訓練優(yōu)化自然語言理解的預訓練》(Self-training Improves Pre-training for Natural Language Understanding)中提出SentAugment 方法,旨在解決語言領域進行自訓練時,域內無標簽數(shù)據(jù)不足的問題。它依靠句向量從大型語料庫中找到無標簽的域內樣本,并使用檢索到的句子進行自訓練。

3.減小確認偏誤(Confirmation Bias)

確認偏誤是由于Teacher模型還不夠成熟導致提供錯誤的偽標簽的問題。對錯誤標簽進行過擬合可能并不會產(chǎn)生更好的Student模型。
為了減小確認偏誤,Eric Arazo等人在論文《深度半監(jiān)督學習中的偽標簽和確認偏誤》(Pseudo-Labeling and Confirmation Bias in Deep Semi-Supervised Learning)中提出了兩種新方法。
一種是采用軟標簽的Mixup方法,給定OpenAI 研究員:數(shù)據(jù)不足時,如何實現(xiàn)監(jiān)督學習兩個樣本和它們對應的真標簽和偽標簽OpenAI 研究員:數(shù)據(jù)不足時,如何實現(xiàn)監(jiān)督學習,插值標簽方程可以轉化為softmax輸出的交叉熵損失:
OpenAI 研究員:數(shù)據(jù)不足時,如何實現(xiàn)監(jiān)督學習
如果標簽樣本太少,使用Mixup方法還不夠。因此論文作者通過對標簽樣本進行過采樣,從而對每個小批量中的標簽樣本設置最小數(shù)量。這比對標簽樣本進行權重補償效果更好,因為它會更頻繁地更新,而不是頻次少的更大幅度的更新——這種更新其實更不穩(wěn)定。
與一致性正則化一樣,數(shù)據(jù)增強和dropout方法對于發(fā)揮偽標簽的作用,也很重要。
Hieu Pham等人在2021年論文《元偽標簽》(Meta Pseudo Labels)中提出元偽標簽,根據(jù)Student模型對在標簽數(shù)據(jù)集上表現(xiàn)的反饋,不斷調整Teacher模型。Teacher模型和Student模型同步進行訓練,Teacher模型學習生成更好的偽標簽,Student模型從偽標簽中學習。
將Teacher模型和Student模型的權重分別設為OpenAI 研究員:數(shù)據(jù)不足時,如何實現(xiàn)監(jiān)督學習OpenAI 研究員:數(shù)據(jù)不足時,如何實現(xiàn)監(jiān)督學習,Student模型在標簽樣本上的損失定義為OpenAI 研究員:數(shù)據(jù)不足時,如何實現(xiàn)監(jiān)督學習的函數(shù)OpenAI 研究員:數(shù)據(jù)不足時,如何實現(xiàn)監(jiān)督學習,并傾向于通過優(yōu)化Teacher模型來相應地最小化這一損失。
OpenAI 研究員:數(shù)據(jù)不足時,如何實現(xiàn)監(jiān)督學習
然而,優(yōu)化上述方程并非易事。借用MAML (模型無關的元學習, Model-Agnostic Meta-Learnin)的思路,它近似于在進行多步OpenAI 研究員:數(shù)據(jù)不足時,如何實現(xiàn)監(jiān)督學習OpenAI 研究員:數(shù)據(jù)不足時,如何實現(xiàn)監(jiān)督學習計算的同時,對OpenAI 研究員:數(shù)據(jù)不足時,如何實現(xiàn)監(jiān)督學習進行一步梯度更新。
OpenAI 研究員:數(shù)據(jù)不足時,如何實現(xiàn)監(jiān)督學習
由于使用的是軟偽標簽,上述目標函數(shù)是可微函數(shù)。但是如果使用硬偽標簽,則是不可微函數(shù),因此需要用到REINFORCE等強化學習方法。
優(yōu)化過程是在兩個模型之間的交替進行的:
  • Student模型更新:給定一批無標簽樣本OpenAI 研究員:數(shù)據(jù)不足時,如何實現(xiàn)監(jiān)督學習,我們可以通過函數(shù)OpenAI 研究員:數(shù)據(jù)不足時,如何實現(xiàn)監(jiān)督學習生成偽標簽,并使用一步隨機梯度下降優(yōu)化OpenAI 研究員:數(shù)據(jù)不足時,如何實現(xiàn)監(jiān)督學習OpenAI 研究員:數(shù)據(jù)不足時,如何實現(xiàn)監(jiān)督學習。
  • Teacher模型更新:給定一批標簽樣本OpenAI 研究員:數(shù)據(jù)不足時,如何實現(xiàn)監(jiān)督學習,我們重復使用Student模型的更新來優(yōu)化OpenAI 研究員:數(shù)據(jù)不足時,如何實現(xiàn)監(jiān)督學習OpenAI 研究員:數(shù)據(jù)不足時,如何實現(xiàn)監(jiān)督學習。此外,還將UDA對象應用于Teacher模型以兼并一致性正則化。

OpenAI 研究員:數(shù)據(jù)不足時,如何實現(xiàn)監(jiān)督學習

圖11:元偽標簽與其他半監(jiān)督或自監(jiān)督學習方法在圖像分類任務中的性能比較。(圖片來源:Hieu Pham等人在2021年論文《元偽標簽》)



6

一致性正則化+偽標簽

可以將一致性正則化、偽標簽兩種方法結合起來,應用到半監(jiān)督學習。 

1.MixMatch

Berthelot等人在2019年的論文《MixMatch: 一種面向半監(jiān)督學習的整體性方法》(MixMatch: A Holistic Approach to Semi-Supervised Learning)中提出的MixMatch 方法,是一種應用于半監(jiān)督學習的整體性方法,它通過整合以下方法來使用無標簽數(shù)據(jù):
  • 一致性正則化(Consistency regularization):讓模型對受到擾動的無標簽樣本輸出相同的預測。
  • 熵最小化(Entropy minimization):讓模型對無標簽數(shù)據(jù)輸出置信預測。
  • MixUp 增強:讓模型在樣本之間進行線性行為。
給定一批標簽數(shù)據(jù)OpenAI 研究員:數(shù)據(jù)不足時,如何實現(xiàn)監(jiān)督學習和無標簽數(shù)據(jù)OpenAI 研究員:數(shù)據(jù)不足時,如何實現(xiàn)監(jiān)督學習,通過OpenAI 研究員:數(shù)據(jù)不足時,如何實現(xiàn)監(jiān)督學習運算得到其增強版本,OpenAI 研究員:數(shù)據(jù)不足時,如何實現(xiàn)監(jiān)督學習OpenAI 研究員:數(shù)據(jù)不足時,如何實現(xiàn)監(jiān)督學習分別表示增強樣本和給無標簽樣本預測到的標簽。
 OpenAI 研究員:數(shù)據(jù)不足時,如何實現(xiàn)監(jiān)督學習
其中OpenAI 研究員:數(shù)據(jù)不足時,如何實現(xiàn)監(jiān)督學習是銳化溫度,用來減少猜測到的標簽重疊;K 是每一個無標簽樣本生成的增強版本個數(shù);OpenAI 研究員:數(shù)據(jù)不足時,如何實現(xiàn)監(jiān)督學習是MixMatch 函數(shù)中的參數(shù)。
對于每一個OpenAI 研究員:數(shù)據(jù)不足時,如何實現(xiàn)監(jiān)督學習,MixMatch都會生成K個增強版本,OpenAI 研究員:數(shù)據(jù)不足時,如何實現(xiàn)監(jiān)督學習等于k分別為1,....,K的OpenAI 研究員:數(shù)據(jù)不足時,如何實現(xiàn)監(jiān)督學習的增強版本,模型基于平均值OpenAI 研究員:數(shù)據(jù)不足時,如何實現(xiàn)監(jiān)督學習來猜測偽標簽。

OpenAI 研究員:數(shù)據(jù)不足時,如何實現(xiàn)監(jiān)督學習

圖12:MixMatch中的“標簽猜測”過程:K 個增強無標簽樣本的平均值,修正預測的邊際分布,最終使分布銳化銳。(圖片來源:Berthelot等人在2019年的論文《MixMatch: 一種面向半監(jiān)督學習的整體性方法》)
根據(jù)該論文的消融研究,對無標簽數(shù)據(jù)進行 MixUp增強尤其重要。去除偽標簽分布上的溫度銳化會嚴重影響性能。對于標簽猜測,計算無標簽數(shù)據(jù)多個增強版本的平均值也是必不可少的。
Berthelot等人在2020年的論文《ReMixMatch:使用分布對齊和增強錨定進行半監(jiān)督學習》(ReMixMatch: Semi-Supervised Learning with Distribution Alignment and Augmentation Anchoring)中,進一步提出ReMixMatch方法,通過引入以下兩種新機制來改進MixMatch方法:

OpenAI 研究員:數(shù)據(jù)不足時,如何實現(xiàn)監(jiān)督學習

圖13:ReMixMatch 方法對MixMatch方法的兩項改進的圖示。(圖片來源:
Berthelot等人在2020年的論文《ReMixMatch:使用分布對齊和增強錨定進行半監(jiān)督學習》)
1.分布對齊(Distribution alignment)。該方法讓邊緣分布OpenAI 研究員:數(shù)據(jù)不足時,如何實現(xiàn)監(jiān)督學習與真值標簽的邊緣分布相近。設定OpenAI 研究員:數(shù)據(jù)不足時,如何實現(xiàn)監(jiān)督學習為真值標簽的類分布,OpenAI 研究員:數(shù)據(jù)不足時,如何實現(xiàn)監(jiān)督學習是無標簽數(shù)據(jù)上的預測類分布的移動平均。模型對無標簽樣本的預測OpenAI 研究員:數(shù)據(jù)不足時,如何實現(xiàn)監(jiān)督學習經(jīng)過歸一化處理為OpenAI 研究員:數(shù)據(jù)不足時,如何實現(xiàn)監(jiān)督學習以匹配真實邊緣分布。
需要注意的是,如果邊際分布不一致,熵最小化則不是一個有用的目標。并且,有標簽和無標簽數(shù)據(jù)上的類分布相互匹配的假設確實太絕對了,在現(xiàn)實環(huán)境中不一定是正確的。
2.增強錨定(Augmentation Anchoring)。給定一個無標簽樣本,首先會生成一個弱增強的“錨定”版本,接著使用 CTAugment (控制理論增強,Control Theory Augment)方法對K個強增強版本計算平均值。CTAugment僅僅對講模型預測保持在網(wǎng)絡容差范圍內的增強版本進行采樣。
ReMixMatch損失由以下幾個項組成:
  • 應用了數(shù)據(jù)增強和Mixup方法的監(jiān)督損失
  • 應用了數(shù)據(jù)增強和Mixup方法卻使用偽標簽作為目標的無監(jiān)督損失
  • 不使用Mixup方法情況下,單個強增強的無標簽圖像的交叉熵損失
  • 自監(jiān)督學習中的旋轉損失( rotation loss)。

2.DivideMix

Junnan Li 等人在2020年論文《DivideMix:使用噪聲標簽學習來實現(xiàn)半監(jiān)督學習》(DivideMix: Learning with Noisy Labels as Semi-supervised Learning)中提出DivideMix方法,它將半監(jiān)督學習與使用噪聲標簽的學習(Learning with noisy labels,LNL)相結合。它通過高斯混合模型(GMM)對每個樣本損失分布進行建模,將訓練數(shù)據(jù)動態(tài)劃分為含有干凈樣本的標簽數(shù)據(jù)集和含有噪聲樣本的無標簽數(shù)據(jù)集。
按照Arazo等人在2019年論文《無監(jiān)督標簽噪聲建模和損失修正》(Unsupervised Label Noise Modeling and Loss Correction)中提出的想法,他們在每個樣本交叉熵損失上擬合了一個二元高斯混合模型。干凈樣本期望比噪聲樣本更快得到更低的損失。更小均值的高斯混合模型對應干凈標簽的聚類,這里將其表示為c。如果高斯混合模型的后驗概率OpenAI 研究員:數(shù)據(jù)不足時,如何實現(xiàn)監(jiān)督學習(即樣本屬于干凈樣本集的概率)大于閾值,則該樣本被視為干凈樣本,否則被視為噪聲樣本。
數(shù)據(jù)進行聚類的過程叫做協(xié)同劃分(co-divide)。為了避免確認偏誤,DividImax方法同時訓練兩個交叉的網(wǎng)絡,其中每個網(wǎng)絡都使用來自另一個網(wǎng)絡的數(shù)據(jù)集分離出來的部分,類似于雙 Q 學習 (Double Q-Learning) 的工作原理。
OpenAI 研究員:數(shù)據(jù)不足時,如何實現(xiàn)監(jiān)督學習
?圖14:DivideMix獨立訓練兩個網(wǎng)絡,以減少確認偏誤。兩個網(wǎng)絡同時運行?協(xié)同劃分,、協(xié)同細化 和協(xié)同猜測。(圖片來源:Junnan Li 等人在2020年論文《DivideMix:使用噪聲標簽學習來實現(xiàn)半監(jiān)督學習》)
與MixMatch相比,DivideMix有一個額外的用于處理噪音樣本的?co-divide步驟,并在訓練期間做了如下改進:
標簽協(xié)同細化(Label co-refinement:):它將真值標簽OpenAI 研究員:數(shù)據(jù)不足時,如何實現(xiàn)監(jiān)督學習與網(wǎng)絡預測OpenAI 研究員:數(shù)據(jù)不足時,如何實現(xiàn)監(jiān)督學習進行線性組合,其中OpenAI 研究員:數(shù)據(jù)不足時,如何實現(xiàn)監(jiān)督學習是另一個網(wǎng)絡產(chǎn)生干凈數(shù)據(jù)集概率 OpenAI 研究員:數(shù)據(jù)不足時,如何實現(xiàn)監(jiān)督學習條件下,OpenAI 研究員:數(shù)據(jù)不足時,如何實現(xiàn)監(jiān)督學習多個增強版本的平均值。
標簽協(xié)同猜測(Label co-guessing):它對兩個模型對無標簽數(shù)據(jù)樣本的預測進行平均。

OpenAI 研究員:數(shù)據(jù)不足時,如何實現(xiàn)監(jiān)督學習

圖15:DivideMix算法。(圖片來源:Junnan Li 等人在2020年論文《DivideMix:使用噪聲標簽學習來實現(xiàn)半監(jiān)督學習》) 

3.FixMatch

Sohn等人在2020年的論文《FixMatch: 使用一致性和置信度簡化半監(jiān)督學習》(FixMatch: Simplifying Semi-Supervised Learning with Consistency and Confidence)中提出的FixMatch方法,通過弱增強方法在無標簽樣本上生成偽標簽,并且只保持高置信度的預測。在這里,弱增強和高置信度過濾都有助于生成高質量的可信偽標簽目標。然后,F(xiàn)ixMatch在給定一個經(jīng)過大幅增強的樣本情況下,預測這些偽標簽。

OpenAI 研究員:數(shù)據(jù)不足時,如何實現(xiàn)監(jiān)督學習圖16:FixMatch方法的工作原理圖示。(圖片來源:Sohn等人在2020年的論文《FixMatch: 使用一致性和置信度簡化半監(jiān)督學習》) 

OpenAI 研究員:數(shù)據(jù)不足時,如何實現(xiàn)監(jiān)督學習
其中OpenAI 研究員:數(shù)據(jù)不足時,如何實現(xiàn)監(jiān)督學習是無標簽樣本的偽標簽;OpenAI 研究員:數(shù)據(jù)不足時,如何實現(xiàn)監(jiān)督學習是決定OpenAI 研究員:數(shù)據(jù)不足時,如何實現(xiàn)監(jiān)督學習OpenAI 研究員:數(shù)據(jù)不足時,如何實現(xiàn)監(jiān)督學習的相對大小的超參數(shù)。
弱增強OpenAI 研究員:數(shù)據(jù)不足時,如何實現(xiàn)監(jiān)督學習:標準的平移和變換增強。
強增強OpenAI 研究員:數(shù)據(jù)不足時,如何實現(xiàn)監(jiān)督學習:AutoAugment、 Cutout、 RandAugment和 CTAugment等數(shù)據(jù)增強方法。

OpenAI 研究員:數(shù)據(jù)不足時,如何實現(xiàn)監(jiān)督學習

圖17:FixMatch和其他幾種半監(jiān)督學習方法在圖像分類任務上的性能。(圖片來源:Sohn等人在2020年的論文《FixMatch: 使用一致性和置信度簡化半監(jiān)督學習》) 
根據(jù)FixMatch的消融研究,
  • 當使用閾值τ時,使用溫度參數(shù)T對銳化預測分布不會產(chǎn)生顯著影響。
  • Cutout和CTAugment是強增強方法,對模型達到良好的性能“功不可沒”。
  • 當標簽猜測使用強增強來取代弱增強時,模型在訓練早期就發(fā)散了。如果舍棄弱增強,模型就會過度擬合猜測的標簽。
  • 使用弱增強而不是強增強進行偽標簽預測,會導致模型性能不穩(wěn)定。強數(shù)據(jù)增強,對于模型性能的穩(wěn)定性而言,至關重要。



7

結合強大的預訓練

該方法通過自監(jiān)督學習在大型無監(jiān)督數(shù)據(jù)語料庫上對與任務無關的模型進行預訓練,然后使用小型標簽數(shù)據(jù)集在下游任務上對該模型進行微調,這是一種常見的范式,尤其是在語言任務中。研究表明,如果將半監(jiān)督學習與預訓練相結合,模型可以獲得額外的收益。
Zoph 等人在2020年的論文《重新思考預訓練和自訓練》(Rethinking Pre-training and Self-training),研究了自訓練比預訓練更有效多少。他們的實驗設置是使用ImageNet 進行預訓練或自訓練,從而改進 COCO結果。需要注意的是,在使用 ImageNet 進行自訓練時,它會丟棄標簽,僅將 ImageNet 樣本用作無標簽的數(shù)據(jù)點。何愷明等人在2018年的論文《重新思考ImageNet 預訓練》(Rethinking ImageNet Pre-training)中已經(jīng)證明,如果下游任務(例如目標檢測)非常不同,ImageNet 分類預訓練的效果就不是很好。

OpenAI 研究員:數(shù)據(jù)不足時,如何實現(xiàn)監(jiān)督學習

圖18:(a) 數(shù)據(jù)增強(從弱到強)的結果和 (b) 標簽數(shù)據(jù)集大小對目標檢測性能的影響。在圖例中:“Rand Init”表示經(jīng)過隨機權重初始化的模型;`ImageNet` 使用在ImageNet數(shù)據(jù)集上Top-1準確率為84.5%的預訓練模型進行初始化;`ImageNet++`使用在 ImageNet數(shù)據(jù)集上Top-1準確率為86.9%的預訓練模型進行初始化。(圖片來源:Zoph 等人在2020年的論文《重新思考預訓練和自訓練》)
該實驗獲得了一系列有趣的發(fā)現(xiàn):
  • 可用于下游任務的標簽樣本越多,預訓練的有效性就越低。預訓練在低數(shù)據(jù)模式(20%)下是有幫助的,但在高數(shù)據(jù)情況下是中性的或起反作用的。
  • 在高數(shù)據(jù)/強增強模式下,即便預訓練會起反作用,自訓練也是有幫助的。
  • 即使使用相同的數(shù)據(jù)源,自訓練也可以在預訓練的基礎上帶來額外的改進。
  • 自監(jiān)督預訓練(例如通過 SimCLR進行預訓練)會損害模型在高數(shù)據(jù)模式下的性能,跟監(jiān)督預訓練差不多。
  • 聯(lián)合訓練監(jiān)督和自監(jiān)督學習目標有助于解決預訓練和下游任務之間的不匹配問題。預訓練、聯(lián)合訓練和自訓練都是加性的。
  • 噪聲標簽或非目標標簽(即預訓練標簽未與下游任務標簽對齊)比目標的偽標簽更差。
  • 自訓練在計算上比在預訓練模型上進行微調,更昂貴。
Ting Chen等人在2020年的論文《大型自監(jiān)督模型是強大的半監(jiān)督學習者》(Big Self-Supervised Models are Strong Semi-Supervised Learners)中,提出了一個三步程序(three-step procedure)方法,將自監(jiān)督預訓練、有監(jiān)督微調以及自訓練的優(yōu)勢都結合在一起:
1.使用無監(jiān)督或子監(jiān)督方法對一個大模型進行訓練;
2.在一些標簽示例上對該模型進行有監(jiān)督微調,其中使用大型(深且寬)的神經(jīng)網(wǎng)絡至關重要,因為使用更少的標簽樣本下,模型越大,性能更佳。
3.在自訓練中采用偽標簽,對無標簽示例進行蒸餾。
a.可以將一個大模型的知識蒸餾到一個小模型中,因為這種特定任務的用法并不需要學到的表示的額外容量。
b.蒸餾損失公式如下,其中Teacher網(wǎng)絡是固定的,權重為OpenAI 研究員:數(shù)據(jù)不足時,如何實現(xiàn)監(jiān)督學習。

 OpenAI 研究員:數(shù)據(jù)不足時,如何實現(xiàn)監(jiān)督學習

OpenAI 研究員:數(shù)據(jù)不足時,如何實現(xiàn)監(jiān)督學習

圖19:半監(jiān)督學習框架通過與任務無關的無監(jiān)督預訓練(左)和特定任務的自訓練和蒸餾(右)來使用無標簽的數(shù)據(jù)語料庫。(圖片來源:Ting Chen等人在2020年的論文《大型自監(jiān)督模型是強大的半監(jiān)督學習者》) 

論文作者在 ImageNet 分類任務上進行了實驗。自監(jiān)督預訓練使用 SimCLRv2,SimCLR 的直接改進版本。他們在實證研究中的觀察結果,證實了Zoph 等人在2020年提出的一些成果:
  • 更大模型的標簽學習更加高效;
  • SimCLR 中更大/更深的project heads可以改善表征學習;
  • 使用無標簽數(shù)據(jù)進行蒸餾,能優(yōu)化半監(jiān)督學習。
OpenAI 研究員:數(shù)據(jù)不足時,如何實現(xiàn)監(jiān)督學習
圖20:SimCLRv2 + 半監(jiān)督蒸餾在 ImageNet 分類上的性能對比。(圖片來源:Ting Chen等人在2020年的論文《大型自監(jiān)督模型是強大的半監(jiān)督學習者》)
通過對最近半監(jiān)督學習方法的總結,我們可以發(fā)現(xiàn)不少方法都旨在減少確認偏誤:
  • 通過先進的數(shù)據(jù)增強方法將有效且多樣化的噪聲應用于樣本。
  • 在處理圖像時,MixUp 是一種有效的數(shù)據(jù)增強方法。該方法同樣可用于語言任務,實現(xiàn)較小的增量優(yōu)化((Guo et al. 2019)。
  • 設置閾值,并去掉置信度低的偽標簽。
  • 設置每個小批量中的標簽樣本的最少數(shù)量。
  • 銳化偽標簽分布來減少類重疊。
如需引用,請注明:
@article{weng2021semi,  title   = "Learning with not Enough Data Part 1: Semi-Supervised Learning",  author  = "Weng, Lilian",  journal = "lilianweng.github.io",  year    = "2021",  url     = "https://lilianweng.github.io/posts/2021-12-05-semi-supervised/"}

參考文獻:

[1] Ouali, Hudelot & Tami. “An Overview of Deep Semi-Supervised Learning” arXiv preprint arXiv:2006.05278 (2020).
[2] Sajjadi, Javanmardi & Tasdizen “Regularization With Stochastic Transformations and Perturbations for Deep Semi-Supervised Learning.” arXiv preprint arXiv:1606.04586 (2016).
[3] Pham et al. “Meta Pseudo Labels.” CVPR 2021.
[4] Laine & Aila. “Temporal Ensembling for Semi-Supervised Learning” ICLR 2017.
[5] Tarvaninen & Valpola. “Mean teachers are better role models: Weight-averaged consistency targets improve semi-supervised deep learning results.” NeuriPS 2017
[6] Xie et al. “Unsupervised Data Augmentation for Consistency Training.” NeuriPS 2020.
[7] Miyato et al. “Virtual Adversarial Training: A Regularization Method for Supervised and Semi-Supervised Learning.” IEEE transactions on pattern analysis and machine intelligence 41.8 (2018).
[8]Ian J. Goodfellow et al.”Explaining and Harnessing Adversarial Examples“,2014
[9] Verma et al. “Interpolation consistency training for semi-supervised learning.” IJCAI 2019
[10] Lee. “Pseudo-label: The simple and efficient semi-supervised learning method for deep neural networks.” ICML 2013 Workshop: Challenges in Representation Learning.
[11] Iscen et al. “Label propagation for deep semi-supervised learning.” CVPR 2019.
[12] Xie et al. “Self-training with Noisy Student improves ImageNet classification” CVPR 2020.
[13] Jingfei Du et al. “Self-training Improves Pre-training for Natural Language Understanding.” 2020
[14 Iscen et al. “Label propagation for deep semi-supervised learning.” CVPR 2019
[15] Arazo et al. “Pseudo-labeling and confirmation bias in deep semi-supervised learning.” IJCNN 2020.
[16] Berthelot et al. “MixMatch: A holistic approach to semi-supervised learning.” NeuriPS 2019
[17] Berthelot et al. “ReMixMatch: Semi-supervised learning with distribution alignment and augmentation anchoring.” ICLR 2020
[18] Eric Arazo et al. Unsupervised Label Noise Modeling and Loss Correction,2019
[19] Sohn et al. “FixMatch: Simplifying semi-supervised learning with consistency and confidence.” CVPR 2020
[20] Junnan Li et al. “DivideMix: Learning with Noisy Labels as Semi-supervised Learning.” 2020 [code]
[21] Zoph et al. “Rethinking pre-training and self-training.” 2020.
[22] Chen et al. “Big Self-Supervised Models are Strong Semi-Supervised Learners” 2020

掃碼添加 AI 科技評論 微信號,投稿&進群:
OpenAI 研究員:數(shù)據(jù)不足時,如何實現(xiàn)監(jiān)督學習

雷峰網(wǎng)(公眾號:雷峰網(wǎng))

雷峰網(wǎng)版權文章,未經(jīng)授權禁止轉載。詳情見轉載須知。

OpenAI 研究員:數(shù)據(jù)不足時,如何實現(xiàn)監(jiān)督學習

分享:
相關文章
當月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設置密碼以方便用郵箱登錄
立即設置 以后再說