0
雷鋒網(wǎng) AI 科技評論按,去年 10 月,被譽為「最強 NLP 預訓練模型」的 Bert 問世,橫掃 11 項 NLP 任務記錄。隨后問世的 XLNet 打破了這些記錄,在 20 項任務上全面超越 BERT。然而,不久前,F(xiàn)acebook 的最新成果,BERT 改進版本——RoBERTa 打敗 XLNet 登上了 GLUE 排行榜榜首。
相關(guān)論文地址:https://arxiv.org/pdf/1907.11692.pdf
GitHub 地址:https://github.com/pytorch/fairseq/tree/master/examples/roberta
論文由 Facebook AI 和華盛頓大學共同完成,其摘要如下:
語言模型的預訓練已經(jīng)帶來了顯著的性能提升,但是仔細比較不同的方法是具有挑戰(zhàn)性的。訓練的計算代價很高,通常在不同的私有數(shù)據(jù)集上進行,我們將表明尺寸和超參數(shù)的選擇對最終結(jié)果有重大影響。我們提出了對 BERT 預訓練的復制研究,該研究仔細測量了許多關(guān)鍵超參數(shù)和訓練數(shù)據(jù)大小對結(jié)果的影響。我們發(fā)現(xiàn) BERT 明顯缺乏訓練,并且可以匹配或超過在此之后發(fā)布的每個模型的性能。我們最好的模型在 GLUE, RACE 和 SQuAD 上取得了最先進的成果。這些結(jié)果突出了以前被忽視的設計選擇的重要性,并對最近報道的結(jié)果進步的來源提出了疑問。我們公布了我們的模型和代碼。
論文的主要貢獻是:
提出了一套重要的 BERT 設計選擇和訓練策略及其介紹;
使用了一個新的數(shù)據(jù)集 CCNEWS,并確認使用更多的數(shù)據(jù)進行預訓練可以進一步提高下游任務的性能
文中的訓練改進表明,在設計選擇正確的情況下,遮蔽語言模型與所有其它最近提出的方法相比非常具有競爭力。
改進版 BERT,即 RoBERTa(Robustly Optimized BERT approach)重復了 BERT 的預訓練過程,它和 BERT 的區(qū)別有以下幾點:
訓練模型的時間更長
對更多的數(shù)據(jù)進行更大的批處理
刪除下一句預測目標
訓練更長的序列
以及動態(tài)地更改應用于訓練數(shù)據(jù)的 masking 模式
如前文所述,該模型在 GLUE, RACE 和 SQuAD 上取得了最先進的成果。在參數(shù) L = 24,
H = 1024, A = 16, 355M 的情況下,作者在 BERT-large 結(jié)構(gòu)上訓練 RoBERTa,結(jié)果如下圖所示:
在控制訓練數(shù)據(jù),可以觀察到 RoBERTa 比最初報告的 BERT-large 的結(jié)果大大提升,這再次證明了設計選擇的重要性。
然后,將此數(shù)據(jù)與另外三個附加數(shù)據(jù)集相結(jié)合,采用的訓練步驟數(shù)量與之前相同(100k),總共預處理的文本超過 160GB。所有下游任務的提升,驗證了預訓練中的數(shù)據(jù)規(guī)模和多樣性。
作者對 RoBERTa 進行了大量的預處理,將預訓練的步驟數(shù)量從 100K 增加到 300K,然后再增加到 500K??梢钥吹较掠稳蝿盏娘@著性能提升,在大多數(shù)任務中,300k 和 500k 訓練步驟的模型優(yōu)于 XLNetLarge。
還可以注意到的是,即便訓練的時間再長也不會產(chǎn)生過擬合,而是可能會受益于額外的訓練。作者發(fā)現(xiàn)模型訓練的時間越長,性能就可以大大提高。
目前,他們還使用了一個新的數(shù)據(jù)集,并發(fā)布相關(guān)模型和預訓練微調(diào)代碼,可以點擊以下網(wǎng)址查看 https://github.com/pytorch/fairseq。
想了解更多細節(jié),可以閱讀論文原文,還可以參考雷鋒網(wǎng)之前的文章「XLNet團隊:公平對比,BERT才會知道差距!」。
雷鋒網(wǎng)雷鋒網(wǎng)
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。