丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能 正文
發(fā)私信給skura
發(fā)送

0

改進(jìn)版 BERT 打敗 XLNet ,F(xiàn)acebook 公布研究細(xì)節(jié)

本文作者: skura 2019-07-30 21:05
導(dǎo)語(yǔ):算法和模型至少和其他因素同等重要

雷鋒網(wǎng) AI 科技評(píng)論按,去年 10 月,被譽(yù)為「最強(qiáng) NLP 預(yù)訓(xùn)練模型」的 Bert 問(wèn)世,橫掃 11 項(xiàng) NLP 任務(wù)記錄。隨后問(wèn)世的 XLNet 打破了這些記錄,在 20 項(xiàng)任務(wù)上全面超越 BERT。然而,不久前,F(xiàn)acebook 的最新成果,BERT 改進(jìn)版本——RoBERTa 打敗 XLNet 登上了 GLUE 排行榜榜首。

相關(guān)論文地址:https://arxiv.org/pdf/1907.11692.pdf

GitHub 地址:https://github.com/pytorch/fairseq/tree/master/examples/roberta

論文由 Facebook AI 和華盛頓大學(xué)共同完成,其摘要如下:

改進(jìn)版 BERT 打敗 XLNet ,F(xiàn)acebook 公布研究細(xì)節(jié)

語(yǔ)言模型的預(yù)訓(xùn)練已經(jīng)帶來(lái)了顯著的性能提升,但是仔細(xì)比較不同的方法是具有挑戰(zhàn)性的。訓(xùn)練的計(jì)算代價(jià)很高,通常在不同的私有數(shù)據(jù)集上進(jìn)行,我們將表明尺寸和超參數(shù)的選擇對(duì)最終結(jié)果有重大影響。我們提出了對(duì) BERT 預(yù)訓(xùn)練的復(fù)制研究,該研究仔細(xì)測(cè)量了許多關(guān)鍵超參數(shù)和訓(xùn)練數(shù)據(jù)大小對(duì)結(jié)果的影響。我們發(fā)現(xiàn) BERT 明顯缺乏訓(xùn)練,并且可以匹配或超過(guò)在此之后發(fā)布的每個(gè)模型的性能。我們最好的模型在 GLUE, RACE 和 SQuAD 上取得了最先進(jìn)的成果。這些結(jié)果突出了以前被忽視的設(shè)計(jì)選擇的重要性,并對(duì)最近報(bào)道的結(jié)果進(jìn)步的來(lái)源提出了疑問(wèn)。我們公布了我們的模型和代碼。

論文的主要貢獻(xiàn)是:

  1. 提出了一套重要的 BERT 設(shè)計(jì)選擇和訓(xùn)練策略及其介紹;

  2. 使用了一個(gè)新的數(shù)據(jù)集 CCNEWS,并確認(rèn)使用更多的數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練可以進(jìn)一步提高下游任務(wù)的性能

  3. 文中的訓(xùn)練改進(jìn)表明,在設(shè)計(jì)選擇正確的情況下,遮蔽語(yǔ)言模型與所有其它最近提出的方法相比非常具有競(jìng)爭(zhēng)力。

改進(jìn)版 BERT,即 RoBERTa(Robustly Optimized BERT approach)重復(fù)了 BERT 的預(yù)訓(xùn)練過(guò)程,它和 BERT 的區(qū)別有以下幾點(diǎn):

  • 訓(xùn)練模型的時(shí)間更長(zhǎng)

  • 對(duì)更多的數(shù)據(jù)進(jìn)行更大的批處理

  • 刪除下一句預(yù)測(cè)目標(biāo)

  • 訓(xùn)練更長(zhǎng)的序列

  • 以及動(dòng)態(tài)地更改應(yīng)用于訓(xùn)練數(shù)據(jù)的 masking 模式

如前文所述,該模型在 GLUE, RACE 和 SQuAD 上取得了最先進(jìn)的成果。在參數(shù) L = 24,
H = 1024, A = 16, 355M 的情況下,作者在 BERT-large 結(jié)構(gòu)上訓(xùn)練 RoBERTa,結(jié)果如下圖所示:

改進(jìn)版 BERT 打敗 XLNet ,F(xiàn)acebook 公布研究細(xì)節(jié)

在控制訓(xùn)練數(shù)據(jù),可以觀察到 RoBERTa 比最初報(bào)告的 BERT-large 的結(jié)果大大提升,這再次證明了設(shè)計(jì)選擇的重要性。

然后,將此數(shù)據(jù)與另外三個(gè)附加數(shù)據(jù)集相結(jié)合,采用的訓(xùn)練步驟數(shù)量與之前相同(100k),總共預(yù)處理的文本超過(guò) 160GB。所有下游任務(wù)的提升,驗(yàn)證了預(yù)訓(xùn)練中的數(shù)據(jù)規(guī)模和多樣性。

作者對(duì) RoBERTa 進(jìn)行了大量的預(yù)處理,將預(yù)訓(xùn)練的步驟數(shù)量從 100K 增加到 300K,然后再增加到 500K??梢钥吹较掠稳蝿?wù)的顯著性能提升,在大多數(shù)任務(wù)中,300k 和 500k 訓(xùn)練步驟的模型優(yōu)于 XLNetLarge。

還可以注意到的是,即便訓(xùn)練的時(shí)間再長(zhǎng)也不會(huì)產(chǎn)生過(guò)擬合,而是可能會(huì)受益于額外的訓(xùn)練。作者發(fā)現(xiàn)模型訓(xùn)練的時(shí)間越長(zhǎng),性能就可以大大提高。

目前,他們還使用了一個(gè)新的數(shù)據(jù)集,并發(fā)布相關(guān)模型和預(yù)訓(xùn)練微調(diào)代碼,可以點(diǎn)擊以下網(wǎng)址查看 https://github.com/pytorch/fairseq。

想了解更多細(xì)節(jié),可以閱讀論文原文,還可以參考雷鋒網(wǎng)之前的文章「XLNet團(tuán)隊(duì):公平對(duì)比,BERT才會(huì)知道差距!」。

雷鋒網(wǎng)雷鋒網(wǎng)

雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。

改進(jìn)版 BERT 打敗 XLNet ,F(xiàn)acebook 公布研究細(xì)節(jié)

分享:
相關(guān)文章
當(dāng)月熱門文章
最新文章
請(qǐng)?zhí)顚懮暾?qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說(shuō)