丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預覽,將在時失效
人工智能 正文
發(fā)私信給skura
發(fā)送

0

改進版 BERT 打敗 XLNet ,F(xiàn)acebook 公布研究細節(jié)

本文作者: skura 2019-07-30 21:05
導語:算法和模型至少和其他因素同等重要

雷鋒網(wǎng) AI 科技評論按,去年 10 月,被譽為「最強 NLP 預訓練模型」的 Bert 問世,橫掃 11 項 NLP 任務記錄。隨后問世的 XLNet 打破了這些記錄,在 20 項任務上全面超越 BERT。然而,不久前,F(xiàn)acebook 的最新成果,BERT 改進版本——RoBERTa 打敗 XLNet 登上了 GLUE 排行榜榜首。

相關(guān)論文地址:https://arxiv.org/pdf/1907.11692.pdf

GitHub 地址:https://github.com/pytorch/fairseq/tree/master/examples/roberta

論文由 Facebook AI 和華盛頓大學共同完成,其摘要如下:

改進版 BERT 打敗 XLNet ,F(xiàn)acebook 公布研究細節(jié)

語言模型的預訓練已經(jīng)帶來了顯著的性能提升,但是仔細比較不同的方法是具有挑戰(zhàn)性的。訓練的計算代價很高,通常在不同的私有數(shù)據(jù)集上進行,我們將表明尺寸和超參數(shù)的選擇對最終結(jié)果有重大影響。我們提出了對 BERT 預訓練的復制研究,該研究仔細測量了許多關(guān)鍵超參數(shù)和訓練數(shù)據(jù)大小對結(jié)果的影響。我們發(fā)現(xiàn) BERT 明顯缺乏訓練,并且可以匹配或超過在此之后發(fā)布的每個模型的性能。我們最好的模型在 GLUE, RACE 和 SQuAD 上取得了最先進的成果。這些結(jié)果突出了以前被忽視的設計選擇的重要性,并對最近報道的結(jié)果進步的來源提出了疑問。我們公布了我們的模型和代碼。

論文的主要貢獻是:

  1. 提出了一套重要的 BERT 設計選擇和訓練策略及其介紹;

  2. 使用了一個新的數(shù)據(jù)集 CCNEWS,并確認使用更多的數(shù)據(jù)進行預訓練可以進一步提高下游任務的性能

  3. 文中的訓練改進表明,在設計選擇正確的情況下,遮蔽語言模型與所有其它最近提出的方法相比非常具有競爭力。

改進版 BERT,即 RoBERTa(Robustly Optimized BERT approach)重復了 BERT 的預訓練過程,它和 BERT 的區(qū)別有以下幾點:

  • 訓練模型的時間更長

  • 對更多的數(shù)據(jù)進行更大的批處理

  • 刪除下一句預測目標

  • 訓練更長的序列

  • 以及動態(tài)地更改應用于訓練數(shù)據(jù)的 masking 模式

如前文所述,該模型在 GLUE, RACE 和 SQuAD 上取得了最先進的成果。在參數(shù) L = 24,
H = 1024, A = 16, 355M 的情況下,作者在 BERT-large 結(jié)構(gòu)上訓練 RoBERTa,結(jié)果如下圖所示:

改進版 BERT 打敗 XLNet ,F(xiàn)acebook 公布研究細節(jié)

在控制訓練數(shù)據(jù),可以觀察到 RoBERTa 比最初報告的 BERT-large 的結(jié)果大大提升,這再次證明了設計選擇的重要性。

然后,將此數(shù)據(jù)與另外三個附加數(shù)據(jù)集相結(jié)合,采用的訓練步驟數(shù)量與之前相同(100k),總共預處理的文本超過 160GB。所有下游任務的提升,驗證了預訓練中的數(shù)據(jù)規(guī)模和多樣性。

作者對 RoBERTa 進行了大量的預處理,將預訓練的步驟數(shù)量從 100K 增加到 300K,然后再增加到 500K??梢钥吹较掠稳蝿盏娘@著性能提升,在大多數(shù)任務中,300k 和 500k 訓練步驟的模型優(yōu)于 XLNetLarge。

還可以注意到的是,即便訓練的時間再長也不會產(chǎn)生過擬合,而是可能會受益于額外的訓練。作者發(fā)現(xiàn)模型訓練的時間越長,性能就可以大大提高。

目前,他們還使用了一個新的數(shù)據(jù)集,并發(fā)布相關(guān)模型和預訓練微調(diào)代碼,可以點擊以下網(wǎng)址查看 https://github.com/pytorch/fairseq

想了解更多細節(jié),可以閱讀論文原文,還可以參考雷鋒網(wǎng)之前的文章「XLNet團隊:公平對比,BERT才會知道差距!」。

雷鋒網(wǎng)雷鋒網(wǎng)

雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

改進版 BERT 打敗 XLNet ,F(xiàn)acebook 公布研究細節(jié)

分享:
相關(guān)文章
當月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設置密碼以方便用郵箱登錄
立即設置 以后再說