XLNet團隊：公平對比，BERT才會知道差距！

本文作者： camel

2019-07-23 14:12

導(dǎo)語：來，讓我們掐架~

雷鋒網(wǎng)按：XLNet發(fā)布之后，在GLUE基準和多個NLP任務(wù)中都超越BERT。但幾天前，F(xiàn)acebook研究人員表示BERT如果有更大的數(shù)據(jù)，就會重回排行榜第一名。之所以有人對這種超越不服，原因在于BERT在預(yù)訓(xùn)練中只使用了13GB的文本，而XLNet卻使用了126GB。

那么如果使用相同數(shù)據(jù)集進行預(yù)訓(xùn)練，結(jié)果會怎樣呢？XLNet團隊為了回應(yīng)質(zhì)疑，再次以更公平的方式（相同的配置、相同的數(shù)據(jù)）將XLNet與BERT進行對比。如下——

幾周前，我們發(fā)布了新模型XLNet，它在各種基準測試中優(yōu)于BERT。與BERT相比，我們最大的模型相比BERT在訓(xùn)練中使用了大約10倍的數(shù)據(jù)。為了公平比較，我們在比較時使用了基礎(chǔ)模型架構(gòu)以及相同的訓(xùn)練數(shù)據(jù)。

但我們在學(xué)術(shù)界和工業(yè)界的朋友對XLNet-Large與BERT在相同訓(xùn)練數(shù)據(jù)下的比較產(chǎn)生較大的興趣。

當然，我們自己也好奇當使用額外數(shù)據(jù)情況下會有什么收益。我們所需要做的就是將我們所擁有的所有數(shù)據(jù)都投入到我們初始版本的訓(xùn)練中。

我們認為使用大型模型架構(gòu)和相同數(shù)據(jù)在XLNet 和BERT之間進行公平的比較研究具有重要的科學(xué)價值。

一、相同配置

在本研究中，我們確保BERT和XLNet訓(xùn)練中幾乎所有可能的超參數(shù)都相同。這些超參數(shù)都是有BERT作者發(fā)布的。換句話說，選擇這些超參的目的是為了優(yōu)化BERT，而不是XLNet。具體來講，我們仔細控制了以下的超參：

用于BERT并由BERT作者發(fā)布。換句話說，它們被選擇并且可能針對BERT而不是XLNet進行了優(yōu)化。具體來說，我們仔細控制以下超參數(shù)：

相同的批量大小：256
相同數(shù)量的培訓(xùn)步數(shù)：1M
相同的優(yōu)化器：Adam，學(xué)習(xí)率1e-4，預(yù)熱10K，線性衰減
相同的培訓(xùn)語料庫：Wikipedia + BooksCorpus。我們使用相同的工具來處理維基百科，如BERT repo中所描述的。但由于某些未知原因，我們的Wikipedia語料庫只有2B 的詞，而BERT使用的是2.5B 的詞。因此，XLNet接受了略微少的數(shù)據(jù)訓(xùn)練。
相同型號的架構(gòu)參數(shù)：24層，1024個隱藏大小，16個heads
相同的微調(diào)超參數(shù)搜索空間

此外，我們修改了一些與數(shù)據(jù)相關(guān)的實現(xiàn)細節(jié)，以便與BERT進行一對一的比較。

在我們之前的實現(xiàn)中，未屏蔽的令牌在預(yù)訓(xùn)練中看不到CLS和SEP。在我們當前的實現(xiàn)中，未屏蔽的令牌確實看到了CLS和SEP，這與BERT一致。

在微調(diào)期間，在BERT之后，我們使用“BERT格式”[CLS，A，SEP，B，SEP]而不是[A，SEP，B，SEP，CLS]。

此外，我們考慮BERT的三種變體，并報告每個單獨任務(wù)的最佳微調(diào)結(jié)果。三種變體如下：

Model-I：作者發(fā)布的原始BERT
Model-II：BERT具有全字掩蔽，也由作者發(fā)布
Model-III：由于我們發(fā)現(xiàn)下一句話預(yù)測（NSP）可能會影響性能，我們使用已發(fā)布的BERT代碼預(yù)先訓(xùn)練一個新模型，而不會造成NSP損失

請注意，此設(shè)置可能會為BERT帶來一些優(yōu)勢，因為可以通過不同的變體獲得單個任務(wù)的最佳性能。

二、對比結(jié)果

在GLUE和SQuAD上的開發(fā)設(shè)置結(jié)果和在RACE上的測試集結(jié)果如下（沒有使用數(shù)據(jù)擴充、集合或多任務(wù)學(xué)習(xí)）：

XLNet團隊：公平對比，BERT才會知道差距！

不同模型的比較。XLNet-Large經(jīng)過了更多數(shù)據(jù)和更大批量的訓(xùn)練。對于BERT，我們報告了每個數(shù)據(jù)集的3個變體的最佳微調(diào)結(jié)果。

三、分析

表中有一些有趣的結(jié)果：

使用幾乎相同的訓(xùn)練配方，訓(xùn)練相同的數(shù)據(jù)，XLNet在所有數(shù)據(jù)集上都以相當大的優(yōu)勢超越BERT。
11個基準中有8個，在10倍以上數(shù)據(jù)（比較XLNet-Large-wikibooks和XLNet-Large）的訓(xùn)練收益小于從BERT切換到XLNet的收益。
在一些基準測試中，例如CoLA和MRPC，在更多數(shù)據(jù)上訓(xùn)練模型的性能甚至低于在較少數(shù)據(jù)上訓(xùn)練模型的性能。

我們相信我們從上述結(jié)果中獲得了寶貴的經(jīng)驗。

XLNet提高了性能。觀察＃1與我們早期在基礎(chǔ)模型上的消融研究一致，表明在相同的訓(xùn)練條件下XLNet優(yōu)于BERT。

XLNet-Large可以更好地進行優(yōu)化。觀察＃2和＃3似乎表明我們之前發(fā)布的XLNet-Large（經(jīng)過更多數(shù)據(jù)培訓(xùn)）沒有充分利用數(shù)據(jù)規(guī)模。因此，我們將繼續(xù)研究如何正確擴展XLNet的語言預(yù)訓(xùn)練。根據(jù)我們目前的（有限的）觀察結(jié)果，我們推測以下培訓(xùn)細節(jié)可能會發(fā)揮重要作用：

數(shù)據(jù)相關(guān)：數(shù)據(jù)規(guī)模、數(shù)據(jù)源、數(shù)據(jù)清理、數(shù)據(jù)編碼、數(shù)據(jù)格式化
優(yōu)化相關(guān)：學(xué)習(xí)率（和時間表）、批量大小、培訓(xùn)步驟數(shù)、優(yōu)化器
重要的是，這些超參數(shù)可能彼此具有高階交互。

Facebook AI最近進入GLUE排行榜似乎也暗示了培訓(xùn)細節(jié)的重要性。雷鋒網(wǎng)

總之，這項研究更明確地將算法/模型的影響與其他因素（如訓(xùn)練細節(jié)、大型計算和大數(shù)據(jù)）分離開來。根據(jù)結(jié)果，我們認為算法和模型至少與其他因素一樣重要。它們很可能都是實現(xiàn)自然語言理解最終目標所必需的。我們將很快用上述新結(jié)果更新XLNet的論文。

原文鏈接：https://medium.com/@xlnet.team/a-fair-comparison-study-of-xlnet-and-bert-with-large-models-5a4257f59dc0

雷鋒網(wǎng)報道

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。