0
本文作者: camel | 2019-07-23 14:12 |
雷鋒網(wǎng)按:XLNet發(fā)布之后,在GLUE基準(zhǔn)和多個(gè)NLP任務(wù)中都超越BERT。但幾天前,F(xiàn)acebook研究人員表示BERT如果有更大的數(shù)據(jù),就會(huì)重回排行榜第一名。之所以有人對(duì)這種超越不服,原因在于BERT在預(yù)訓(xùn)練中只使用了13GB的文本,而XLNet卻使用了126GB。
那么如果使用相同數(shù)據(jù)集進(jìn)行預(yù)訓(xùn)練,結(jié)果會(huì)怎樣呢?XLNet團(tuán)隊(duì)為了回應(yīng)質(zhì)疑,再次以更公平的方式(相同的配置、相同的數(shù)據(jù))將XLNet與BERT進(jìn)行對(duì)比。如下——
幾周前,我們發(fā)布了新模型XLNet,它在各種基準(zhǔn)測(cè)試中優(yōu)于BERT。與BERT相比,我們最大的模型相比BERT在訓(xùn)練中使用了大約10倍的數(shù)據(jù)。為了公平比較,我們?cè)诒容^時(shí)使用了基礎(chǔ)模型架構(gòu)以及相同的訓(xùn)練數(shù)據(jù)。
但我們?cè)趯W(xué)術(shù)界和工業(yè)界的朋友對(duì)XLNet-Large與BERT在相同訓(xùn)練數(shù)據(jù)下的比較產(chǎn)生較大的興趣。
當(dāng)然,我們自己也好奇當(dāng)使用額外數(shù)據(jù)情況下會(huì)有什么收益。我們所需要做的就是將我們所擁有的所有數(shù)據(jù)都投入到我們初始版本的訓(xùn)練中。
我們認(rèn)為使用大型模型架構(gòu)和相同數(shù)據(jù)在XLNet 和BERT之間進(jìn)行公平的比較研究具有重要的科學(xué)價(jià)值。
在本研究中,我們確保BERT和XLNet訓(xùn)練中幾乎所有可能的超參數(shù)都相同。這些超參數(shù)都是有BERT作者發(fā)布的。換句話說(shuō),選擇這些超參的目的是為了優(yōu)化BERT,而不是XLNet。具體來(lái)講,我們仔細(xì)控制了以下的超參:
用于BERT并由BERT作者發(fā)布。換句話說(shuō),它們被選擇并且可能針對(duì)BERT而不是XLNet進(jìn)行了優(yōu)化。具體來(lái)說(shuō),我們仔細(xì)控制以下超參數(shù):
相同的批量大?。?56
相同數(shù)量的培訓(xùn)步數(shù):1M
相同的優(yōu)化器:Adam,學(xué)習(xí)率1e-4,預(yù)熱10K,線性衰減
相同的培訓(xùn)語(yǔ)料庫(kù):Wikipedia + BooksCorpus。我們使用相同的工具來(lái)處理維基百科,如BERT repo中所描述的。但由于某些未知原因,我們的Wikipedia語(yǔ)料庫(kù)只有2B 的詞,而B(niǎo)ERT使用的是2.5B 的詞。因此,XLNet接受了略微少的數(shù)據(jù)訓(xùn)練。
相同型號(hào)的架構(gòu)參數(shù):24層,1024個(gè)隱藏大小,16個(gè)heads
相同的微調(diào)超參數(shù)搜索空間
此外,我們修改了一些與數(shù)據(jù)相關(guān)的實(shí)現(xiàn)細(xì)節(jié),以便與BERT進(jìn)行一對(duì)一的比較。
在我們之前的實(shí)現(xiàn)中,未屏蔽的令牌在預(yù)訓(xùn)練中看不到CLS和SEP。在我們當(dāng)前的實(shí)現(xiàn)中,未屏蔽的令牌確實(shí)看到了CLS和SEP,這與BERT一致。
在微調(diào)期間,在BERT之后,我們使用“BERT格式”[CLS,A,SEP,B,SEP]而不是[A,SEP,B,SEP,CLS]。
此外,我們考慮BERT的三種變體,并報(bào)告每個(gè)單獨(dú)任務(wù)的最佳微調(diào)結(jié)果。三種變體如下:
Model-I:作者發(fā)布的原始BERT
Model-II:BERT具有全字掩蔽,也由作者發(fā)布
Model-III:由于我們發(fā)現(xiàn)下一句話預(yù)測(cè)(NSP)可能會(huì)影響性能,我們使用已發(fā)布的BERT代碼預(yù)先訓(xùn)練一個(gè)新模型,而不會(huì)造成NSP損失
請(qǐng)注意,此設(shè)置可能會(huì)為BERT帶來(lái)一些優(yōu)勢(shì),因?yàn)榭梢酝ㄟ^(guò)不同的變體獲得單個(gè)任務(wù)的最佳性能。
在GLUE和SQuAD上的開(kāi)發(fā)設(shè)置結(jié)果和在RACE上的測(cè)試集結(jié)果如下(沒(méi)有使用數(shù)據(jù)擴(kuò)充、集合或多任務(wù)學(xué)習(xí)):
不同模型的比較。XLNet-Large經(jīng)過(guò)了更多數(shù)據(jù)和更大批量的訓(xùn)練。對(duì)于BERT,我們報(bào)告了每個(gè)數(shù)據(jù)集的3個(gè)變體的最佳微調(diào)結(jié)果。
表中有一些有趣的結(jié)果:
使用幾乎相同的訓(xùn)練配方,訓(xùn)練相同的數(shù)據(jù),XLNet在所有數(shù)據(jù)集上都以相當(dāng)大的優(yōu)勢(shì)超越BERT。
11個(gè)基準(zhǔn)中有8個(gè),在10倍以上數(shù)據(jù)(比較XLNet-Large-wikibooks和XLNet-Large)的訓(xùn)練收益小于從BERT切換到XLNet的收益。
在一些基準(zhǔn)測(cè)試中,例如CoLA和MRPC,在更多數(shù)據(jù)上訓(xùn)練模型的性能甚至低于在較少數(shù)據(jù)上訓(xùn)練模型的性能。
我們相信我們從上述結(jié)果中獲得了寶貴的經(jīng)驗(yàn)。
XLNet提高了性能。觀察#1與我們?cè)缙谠诨A(chǔ)模型上的消融研究一致,表明在相同的訓(xùn)練條件下XLNet優(yōu)于BERT。
XLNet-Large可以更好地進(jìn)行優(yōu)化。觀察#2和#3似乎表明我們之前發(fā)布的XLNet-Large(經(jīng)過(guò)更多數(shù)據(jù)培訓(xùn))沒(méi)有充分利用數(shù)據(jù)規(guī)模。因此,我們將繼續(xù)研究如何正確擴(kuò)展XLNet的語(yǔ)言預(yù)訓(xùn)練。根據(jù)我們目前的(有限的)觀察結(jié)果,我們推測(cè)以下培訓(xùn)細(xì)節(jié)可能會(huì)發(fā)揮重要作用:
數(shù)據(jù)相關(guān):數(shù)據(jù)規(guī)模、數(shù)據(jù)源、數(shù)據(jù)清理、數(shù)據(jù)編碼、數(shù)據(jù)格式化
優(yōu)化相關(guān):學(xué)習(xí)率(和時(shí)間表)、批量大小、培訓(xùn)步驟數(shù)、優(yōu)化器
重要的是,這些超參數(shù)可能彼此具有高階交互。
Facebook AI最近進(jìn)入GLUE排行榜似乎也暗示了培訓(xùn)細(xì)節(jié)的重要性。雷鋒網(wǎng)
總之,這項(xiàng)研究更明確地將算法/模型的影響與其他因素(如訓(xùn)練細(xì)節(jié)、大型計(jì)算和大數(shù)據(jù))分離開(kāi)來(lái)。根據(jù)結(jié)果,我們認(rèn)為算法和模型至少與其他因素一樣重要。它們很可能都是實(shí)現(xiàn)自然語(yǔ)言理解最終目標(biāo)所必需的。我們將很快用上述新結(jié)果更新XLNet的論文。
雷鋒網(wǎng)報(bào)道
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。