丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能 正文
發(fā)私信給camel
發(fā)送

0

XLNet團(tuán)隊(duì):公平對(duì)比,BERT才會(huì)知道差距!

本文作者: camel 2019-07-23 14:12
導(dǎo)語(yǔ):來(lái),讓我們掐架~

雷鋒網(wǎng)按:XLNet發(fā)布之后,在GLUE基準(zhǔn)和多個(gè)NLP任務(wù)中都超越BERT。但幾天前,F(xiàn)acebook研究人員表示BERT如果有更大的數(shù)據(jù),就會(huì)重回排行榜第一名。之所以有人對(duì)這種超越不服,原因在于BERT在預(yù)訓(xùn)練中只使用了13GB的文本,而XLNet卻使用了126GB。

那么如果使用相同數(shù)據(jù)集進(jìn)行預(yù)訓(xùn)練,結(jié)果會(huì)怎樣呢?XLNet團(tuán)隊(duì)為了回應(yīng)質(zhì)疑,再次以更公平的方式(相同的配置、相同的數(shù)據(jù))將XLNet與BERT進(jìn)行對(duì)比。如下——


幾周前,我們發(fā)布了新模型XLNet,它在各種基準(zhǔn)測(cè)試中優(yōu)于BERT。與BERT相比,我們最大的模型相比BERT在訓(xùn)練中使用了大約10倍的數(shù)據(jù)。為了公平比較,我們?cè)诒容^時(shí)使用了基礎(chǔ)模型架構(gòu)以及相同的訓(xùn)練數(shù)據(jù)。

但我們?cè)趯W(xué)術(shù)界和工業(yè)界的朋友對(duì)XLNet-Large與BERT在相同訓(xùn)練數(shù)據(jù)下的比較產(chǎn)生較大的興趣。

當(dāng)然,我們自己也好奇當(dāng)使用額外數(shù)據(jù)情況下會(huì)有什么收益。我們所需要做的就是將我們所擁有的所有數(shù)據(jù)都投入到我們初始版本的訓(xùn)練中。

我們認(rèn)為使用大型模型架構(gòu)和相同數(shù)據(jù)在XLNet 和BERT之間進(jìn)行公平的比較研究具有重要的科學(xué)價(jià)值。

一、相同配置

在本研究中,我們確保BERT和XLNet訓(xùn)練中幾乎所有可能的超參數(shù)都相同。這些超參數(shù)都是有BERT作者發(fā)布的。換句話說(shuō),選擇這些超參的目的是為了優(yōu)化BERT,而不是XLNet。具體來(lái)講,我們仔細(xì)控制了以下的超參:

用于BERT并由BERT作者發(fā)布。換句話說(shuō),它們被選擇并且可能針對(duì)BERT而不是XLNet進(jìn)行了優(yōu)化。具體來(lái)說(shuō),我們仔細(xì)控制以下超參數(shù):

  • 相同的批量大?。?56

  • 相同數(shù)量的培訓(xùn)步數(shù):1M

  • 相同的優(yōu)化器:Adam,學(xué)習(xí)率1e-4,預(yù)熱10K,線性衰減

  • 相同的培訓(xùn)語(yǔ)料庫(kù):Wikipedia + BooksCorpus。我們使用相同的工具來(lái)處理維基百科,如BERT repo中所描述的。但由于某些未知原因,我們的Wikipedia語(yǔ)料庫(kù)只有2B 的詞,而B(niǎo)ERT使用的是2.5B 的詞。因此,XLNet接受了略微少的數(shù)據(jù)訓(xùn)練。

  • 相同型號(hào)的架構(gòu)參數(shù):24層,1024個(gè)隱藏大小,16個(gè)heads

  • 相同的微調(diào)超參數(shù)搜索空間

此外,我們修改了一些與數(shù)據(jù)相關(guān)的實(shí)現(xiàn)細(xì)節(jié),以便與BERT進(jìn)行一對(duì)一的比較。

在我們之前的實(shí)現(xiàn)中,未屏蔽的令牌在預(yù)訓(xùn)練中看不到CLS和SEP。在我們當(dāng)前的實(shí)現(xiàn)中,未屏蔽的令牌確實(shí)看到了CLS和SEP,這與BERT一致。

在微調(diào)期間,在BERT之后,我們使用“BERT格式”[CLS,A,SEP,B,SEP]而不是[A,SEP,B,SEP,CLS]。

此外,我們考慮BERT的三種變體,并報(bào)告每個(gè)單獨(dú)任務(wù)的最佳微調(diào)結(jié)果。三種變體如下:

  • Model-I:作者發(fā)布的原始BERT

  • Model-II:BERT具有全字掩蔽,也由作者發(fā)布

  • Model-III:由于我們發(fā)現(xiàn)下一句話預(yù)測(cè)(NSP)可能會(huì)影響性能,我們使用已發(fā)布的BERT代碼預(yù)先訓(xùn)練一個(gè)新模型,而不會(huì)造成NSP損失

請(qǐng)注意,此設(shè)置可能會(huì)為BERT帶來(lái)一些優(yōu)勢(shì),因?yàn)榭梢酝ㄟ^(guò)不同的變體獲得單個(gè)任務(wù)的最佳性能。


二、對(duì)比結(jié)果

在GLUE和SQuAD上的開(kāi)發(fā)設(shè)置結(jié)果和在RACE上的測(cè)試集結(jié)果如下(沒(méi)有使用數(shù)據(jù)擴(kuò)充、集合或多任務(wù)學(xué)習(xí)):

XLNet團(tuán)隊(duì):公平對(duì)比,BERT才會(huì)知道差距!

不同模型的比較。XLNet-Large經(jīng)過(guò)了更多數(shù)據(jù)和更大批量的訓(xùn)練。對(duì)于BERT,我們報(bào)告了每個(gè)數(shù)據(jù)集的3個(gè)變體的最佳微調(diào)結(jié)果。


三、分析

表中有一些有趣的結(jié)果:

  1. 使用幾乎相同的訓(xùn)練配方,訓(xùn)練相同的數(shù)據(jù),XLNet在所有數(shù)據(jù)集上都以相當(dāng)大的優(yōu)勢(shì)超越BERT。

  2. 11個(gè)基準(zhǔn)中有8個(gè),在10倍以上數(shù)據(jù)(比較XLNet-Large-wikibooks和XLNet-Large)的訓(xùn)練收益小于從BERT切換到XLNet的收益。

  3. 在一些基準(zhǔn)測(cè)試中,例如CoLA和MRPC,在更多數(shù)據(jù)上訓(xùn)練模型的性能甚至低于在較少數(shù)據(jù)上訓(xùn)練模型的性能。

我們相信我們從上述結(jié)果中獲得了寶貴的經(jīng)驗(yàn)。

XLNet提高了性能。觀察#1與我們?cè)缙谠诨A(chǔ)模型上的消融研究一致,表明在相同的訓(xùn)練條件下XLNet優(yōu)于BERT。

XLNet-Large可以更好地進(jìn)行優(yōu)化。觀察#2和#3似乎表明我們之前發(fā)布的XLNet-Large(經(jīng)過(guò)更多數(shù)據(jù)培訓(xùn))沒(méi)有充分利用數(shù)據(jù)規(guī)模。因此,我們將繼續(xù)研究如何正確擴(kuò)展XLNet的語(yǔ)言預(yù)訓(xùn)練。根據(jù)我們目前的(有限的)觀察結(jié)果,我們推測(cè)以下培訓(xùn)細(xì)節(jié)可能會(huì)發(fā)揮重要作用:

  • 數(shù)據(jù)相關(guān):數(shù)據(jù)規(guī)模、數(shù)據(jù)源、數(shù)據(jù)清理、數(shù)據(jù)編碼、數(shù)據(jù)格式化

  • 優(yōu)化相關(guān):學(xué)習(xí)率(和時(shí)間表)、批量大小、培訓(xùn)步驟數(shù)、優(yōu)化器

  • 重要的是,這些超參數(shù)可能彼此具有高階交互。

Facebook AI最近進(jìn)入GLUE排行榜似乎也暗示了培訓(xùn)細(xì)節(jié)的重要性。雷鋒網(wǎng)

總之,這項(xiàng)研究更明確地將算法/模型的影響與其他因素(如訓(xùn)練細(xì)節(jié)、大型計(jì)算和大數(shù)據(jù))分離開(kāi)來(lái)。根據(jù)結(jié)果,我們認(rèn)為算法和模型至少與其他因素一樣重要。它們很可能都是實(shí)現(xiàn)自然語(yǔ)言理解最終目標(biāo)所必需的。我們將很快用上述新結(jié)果更新XLNet的論文。

原文鏈接:https://medium.com/@xlnet.team/a-fair-comparison-study-of-xlnet-and-bert-with-large-models-5a4257f59dc0

雷鋒網(wǎng)報(bào)道

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。

XLNet團(tuán)隊(duì):公平對(duì)比,BERT才會(huì)知道差距!

分享:
相關(guān)文章
當(dāng)月熱門(mén)文章
最新文章
請(qǐng)?zhí)顚?xiě)申請(qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說(shuō)