勢如破竹！169 篇論文帶你看 BERT 在 NLP 中的 2019 年！

本文作者： JocelynWang

編輯：幸麗娟

2020-02-03 09:41

導(dǎo)語：2019，NLP 的「BERT 年」~

2019 年，可謂是 NLP 發(fā)展歷程中具有里程碑意義的一年，而其背后的最大功臣當(dāng)屬 BERT ！

2018 年底才發(fā)布，BERT 僅用 2019 年一年的時(shí)間，便以「勢如破竹」的姿態(tài)成為了 NLP 領(lǐng)域首屈一指的「紅人」，BERT 相關(guān)的論文也如涌潮般發(fā)表出來。

2019 年，是 NLP 發(fā)展史上值得銘記的一年，也當(dāng)之無愧的「BERT 年」。

NLP、ML 研究者 Natasha Latysheva 基于自己搜集的169 篇 BERT 相關(guān)論文，對 BERT 2019 年的發(fā)展進(jìn)行了回顧。

我們跟隨她的腳步來看：

2019 年是 NLP 發(fā)展歷程中具有里程碑意義的一年，從閱讀理解到情感分析，針對各大重要任務(wù)的解決方案都迎來了新的記錄。

其中最為突出的研究趨勢是遷移學(xué)習(xí)在 NLP 的應(yīng)用，即在特定的語言處理相關(guān)任務(wù)中，運(yùn)用大量預(yù)訓(xùn)練模型對它們進(jìn)行微調(diào)。在遷移學(xué)習(xí)中可以重新使用預(yù)構(gòu)建模型中的知識，提高模型的性能和泛化能力，同時(shí)大量減少具有標(biāo)簽的訓(xùn)練樣本。

實(shí)際上，類似遷移學(xué)習(xí)這種先對模型進(jìn)行預(yù)訓(xùn)練再對特定任務(wù)進(jìn)行微調(diào)的方式，并不少見，比如計(jì)算機(jī)視覺研究人員通常使用大型數(shù)據(jù)集（如 ImageNet）上預(yù)訓(xùn)練好的模型。 NLP 領(lǐng)域長久以來，則一直通過重用詞嵌入來進(jìn)行「淺層」遷移學(xué)習(xí)。

但在 2019 年，隨著 BERT 等模型的出現(xiàn)，我們看到了 NLP 領(lǐng)域轉(zhuǎn)向更深度的知識遷移的重要轉(zhuǎn)變，即遷移整個(gè)模型到新任務(wù)上，而這本質(zhì)上是使用大型預(yù)訓(xùn)練語言模型作為可重用的語言理解特征提取器的方法。

這在當(dāng)時(shí)也被稱為「NLP 的 ImageNet 時(shí)刻」，與此同時(shí)，2019 年基于這一趨勢的相關(guān)研究工作也在持續(xù)開展。

BERT 能夠明顯地讓 NLP 任務(wù)輕易地實(shí)現(xiàn)遷移學(xué)習(xí)，同時(shí)在此過程中能夠以最小化適應(yīng)的方式在 11 個(gè)句子級和詞級的 NLP 任務(wù)上，產(chǎn)生當(dāng)前最好的結(jié)果。

從實(shí)用性的角度來看，這固然是令人興奮的，但更有趣的是，BERT 和相關(guān)模型可以促進(jìn)我們對于如何將語言表示為計(jì)算機(jī)能夠理解的語言，以及哪種表示方法能讓我們的模型更好地解決這些具有挑戰(zhàn)的語言問題有基本的理解。

新出現(xiàn)的范例是：既然可以重新使用 BERT 對語言扎實(shí)掌握的基礎(chǔ)，模型為什么還要不斷針對每一個(gè)新的 NLP 任務(wù)從頭開始學(xué)習(xí)語言的語法和語義呢？

隨著這一核心概念與簡單的微調(diào)步驟和相應(yīng)的開源代碼叒叒出現(xiàn)出現(xiàn)時(shí)，就意味著 BERT 已迅速地傳播開來了：翻譯的語句要能體現(xiàn)出“很快傳播”的意味：初發(fā)布于 2018 年底的 BERT ，2019 年就已經(jīng)變成了非常流行的研究工具。

實(shí)際上直到我試圖編撰一份去年發(fā)表的與 BERT 有關(guān)的論文清單時(shí)，我才意識到它到底有多受歡迎。我收集了 169 篇與 BERT 相關(guān)的論文，并手動將它們標(biāo)記為幾個(gè)不同的研究類別（例如：構(gòu)建特定領(lǐng)域的 BERT 版本、理解 BERT 的內(nèi)部機(jī)制、構(gòu)建多語言BERT 等）。

下面是所有這些論文的分布情況：

勢如破竹！169 篇論文帶你看 BERT 在 NLP 中的 2019 年！

如圖為在 2018 年 11 月至 2019 年 12 月間發(fā)表的與 BERT 相關(guān)的論文集合。y 軸代表的是對引文數(shù)目的對數(shù)統(tǒng)計(jì)（由 Google Scholar統(tǒng)計(jì)），它的下限為 0。這些文章中的大多數(shù)是通過在 arXiv 論文的標(biāo)題中搜索關(guān)鍵詞 BERT 找到的。

這種信息通常具有更好的交互性，因此這里我給出了它的 GIF 圖。如果感興趣的話，你也可以打開以 Jupyter 筆記本形式記錄的原代碼，可以自行調(diào)整圖中的參數(shù)，相關(guān)鏈接如下：

https://github.com/nslatysheva/BERT_papers/blob/master/Plotting_BERT_Papers.ipynb

上述實(shí)驗(yàn)使用的原始數(shù)據(jù)如下：

https://raw.githubusercontent.com/nslatysheva/BERT_papers/master/BERT_Papers.csv

勢如破竹！169 篇論文帶你看 BERT 在 NLP 中的 2019 年！

如圖為在各篇 BERT 論文上移動鼠標(biāo)時(shí)出現(xiàn)的數(shù)據(jù)。

現(xiàn)在已經(jīng)有很多關(guān)于 BERT 的論文發(fā)表。從上圖我們可以發(fā)現(xiàn)以下幾點(diǎn)：

一個(gè)有趣的現(xiàn)象是，從 2018 年 11 月份發(fā)表 BERT 的原始論文的時(shí)間與大概 2019 年 1 月份開始出現(xiàn)一大波相關(guān)論文的時(shí)間之間的間隔，相當(dāng)短。
BERT （相關(guān)）論文最初的發(fā)表浪潮往往集中在一些核心的 BERT 模型的即時(shí)擴(kuò)展和應(yīng)用上（比如：圖中紅色、紫色和橙色部分），例如使 BERT 適用于推薦系統(tǒng)，情感分析，文本摘要和文檔檢索。
然后從 4 月開始，一系列探討 BERT 內(nèi)部機(jī)制的論文（圖中綠色部分）相繼發(fā)布，例如了解 BERT 如何通過建模進(jìn)行語言的分層，并分析注意力頭之間的冗余現(xiàn)象。其中特別令人印象深刻的是一篇名為「利用 BERT 重新探索經(jīng)典 NLP 的傳播途徑」的論文（相關(guān)論文鏈接為：https://arxiv.org/abs/1905.05950）。該論文作者發(fā)現(xiàn)了BERT 的內(nèi)部計(jì)算可以反映傳統(tǒng) NLP 的工作流程，即詞性標(biāo)記、依賴項(xiàng)分析、實(shí)體標(biāo)記等。
然后在 9 月份左右，又發(fā)布了一系列有關(guān)壓縮 BERT 模型尺寸的論文（如圖青色部分），例如DistilBERT，ALBERT 和 TinyBERT 等論文。其中，來自 HuggingFace 的 DistilBERT 模型是 BERT 的壓縮版本，其參數(shù)只有先前的一半（從 1.1 億降至 6600 萬），但在對重要 NLP 任務(wù)的實(shí)現(xiàn)上卻達(dá)到了之前性能的 95％（具體請參閱 GLUE 基準(zhǔn); https://gluebenchmark.com/）。原始的 BERT 模型并不輕巧，這在計(jì)算資源不足的地方（如移動手機(jī)）是一個(gè)問題。

請注意這份 BERT 論文清單很可能是不完整的。如果與 BERT 相關(guān)論文的實(shí)際數(shù)量是本人所整理的兩倍，我不會感到驚訝。在這里做一個(gè)粗略的數(shù)量估計(jì)，目前引用過原始 BERT 論文的數(shù)量已經(jīng)超過了 3100。

如果你對其中一些模型的名稱感到好奇，這些名稱實(shí)際上是 NLP 的研究人員對《芝麻街》中的人物著迷的體現(xiàn)。我們可以將這一切歸咎于（開先例以《芝麻街》人物命名）的論文 ELMo，論文相關(guān)鏈接如下：

https://www.google.com/search?q=elmo+paper&oq=elmo+paper&aqs=chrome..69i57j0l5j69i61j69i60.1625j1j7&sourceid=chrome&ie=UTF-8

這使得后來的諸如 BERT 和 ERNIE 模型也開始以相關(guān)任務(wù)命名，變得不可避免。我非常熱切地在等待一個(gè) BIGBIRD 模型，那么我們不妨將其壓縮版本稱為 SMALLBIRD？

一、從 BERT 文獻(xiàn)中得出的一些啟發(fā)

瀏覽這些文獻(xiàn)時(shí)，我發(fā)現(xiàn)了其中出現(xiàn)的一些常見概念：

開源機(jī)器學(xué)習(xí)模型的價(jià)值。作者免費(fèi)提供了 BERT 模型和相關(guān)代碼，并提供了一個(gè)簡單、可重復(fù)使用的微調(diào)過程。這種開放性對于加快研究進(jìn)展而言是至關(guān)重要的，并且我有理由懷疑如果作者不那么直爽的話，該模型是否會受到同樣程度的歡迎。
嚴(yán)肅看待超參數(shù)調(diào)整問題，認(rèn)識到它的重要性。RoBERTa 的論文中，提出了一種更具原理化的優(yōu)化設(shè)計(jì)（如更改訓(xùn)練任務(wù)）和更加范化的超參數(shù)調(diào)整方法來訓(xùn)練 BERT，這在學(xué)術(shù)界引起了轟動。這種不斷更新的訓(xùn)練制度，再加上它只對模型使用更多數(shù)據(jù)進(jìn)行更長時(shí)間的訓(xùn)練，就再次將各種 NLP 基準(zhǔn)性能的紀(jì)錄提升到了新的高度。
關(guān)于模型大小的想法。最初，BERT 作者發(fā)現(xiàn)了一個(gè)很吸引他的現(xiàn)象：即使在非常小的數(shù)據(jù)集上，僅通過簡單地增加模型大小也可以極大地提高模型的性能。這也許在某種意義上意味著，你「需要」數(shù)億個(gè)參數(shù)來表示人類的語言。2019 年的其他幾篇論文中指出，僅通過擴(kuò)大 NLP 的模型規(guī)模即可帶來模型的改進(jìn)（例如眾所周知的 OpenAI 中的 GPT-2 模型）。當(dāng)然，這里還有一些新的技巧可以用于訓(xùn)練大到荒謬的 NLP 模型（例如 NVIDIA 的擁有 80 億參數(shù)的龐然大物 MegatronLM）。但是，也有證據(jù)表明，隨著模型尺寸的增加，模型的效果會遞減，這與計(jì)算機(jī)視覺研究人員在添加到一定多數(shù)量的卷積層時(shí)會遇到壁壘的情況相似。關(guān)于模型壓縮和參數(shù)效率論文的成功發(fā)表，表明可以在給定大小的模型中獲得更多的性能。

勢如破竹！169 篇論文帶你看 BERT 在 NLP 中的 2019 年！

如圖，我們的 NLP 模型變得越來越大。摘自 DistilBERT 論文。

二、BERT 到底是什么？

讓我們返回到前面，來討論一下 BERT 到底是什么。

BERT（來自 Transformer 的雙向編碼器表示），是 Google 研究人員構(gòu)建的一個(gè)預(yù)訓(xùn)練語言模型（LM）。這個(gè)語言模型是基于激勵(lì)模型學(xué)習(xí)一個(gè)對語言深層理解的任務(wù)上訓(xùn)練的；LM 的一個(gè)常見的訓(xùn)練任務(wù)是預(yù)測下一個(gè)單詞（比如：「貓坐在__上面」）。

BERT 基于相對較新的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu) Transformer，后者使用一種稱為自注意力的機(jī)制來捕獲單詞間的關(guān)系。在 Transformer 中沒有卷積（如 CNN）或遞歸（如 RNN）操作，注意力是你唯一需要的。已有一些已經(jīng)出版的優(yōu)秀教程（http://www.peterbloem.nl/blog/transformers）對此進(jìn)行了介紹，所以在這里就不再做詳細(xì)介紹，如下為相關(guān)概念的簡短介紹：

自注意力機(jī)制是一種序列到序列的操作，它通過將每個(gè)詞的內(nèi)容融合到它的表示中的方式來更新輸入標(biāo)記的嵌入。這允許它同時(shí)對所有輸入的字之間的關(guān)系建模，這一點(diǎn)與 RNN 有所不同，RNN 中的輸入標(biāo)記是按順序來讀取和處理的。自注意力使用點(diǎn)積計(jì)算詞向量之間的相似性，計(jì)算所得的注意力權(quán)重通常被視為注意力權(quán)重矩陣。
注意力權(quán)重捕捉單詞之間關(guān)系的強(qiáng)度，我們允許模型通過使用多個(gè)注意力頭來學(xué)習(xí)不同類型的關(guān)系。每一個(gè)注意力頭通常捕捉單詞之間的一種特殊關(guān)系（帶有一些冗余）。這些關(guān)系中的一部分是可以直觀地解釋的（比如主客體關(guān)系，或者跟蹤相鄰的詞），而有些是相當(dāng)難以理解的。你可以把注意力頭集中看作是卷積網(wǎng)絡(luò)中的濾波器，每個(gè)濾波器從數(shù)據(jù)中提取一種特定類型的特征，這些提取出來的特征將最大限度地幫助神經(jīng)網(wǎng)絡(luò)其他部分做出更好的預(yù)測。
這種自注意機(jī)制是 Transformer 的核心操作，但只是將其置于上下文中：Transformer 最初是為機(jī)器翻譯而開發(fā)的，并且它們具有編碼-解碼器結(jié)構(gòu)?？梢詫?nbsp;Transformer 編碼器和解碼器的構(gòu)造看作 Transformer 模塊，其通常由自注意力層、一定量的歸一化和標(biāo)準(zhǔn)前饋層組成。每個(gè)模塊對輸入向量執(zhí)行此序列操作，并將輸出傳遞給下一個(gè)模塊。在 Transformer 中，它的深度是指 Transformer 中模塊的數(shù)量。

BERT 模型通過使用上述 Transformer 設(shè)置，在 2 個(gè)無監(jiān)督語言模型上進(jìn)行訓(xùn)練。關(guān)于 BERT 訓(xùn)練，最重要的是它不依賴于標(biāo)記數(shù)據(jù)，也就是說它可以使用任何文本語料庫，而不需要任何特殊標(biāo)記的數(shù)據(jù)集。BERT 論文的模型就是使用維基百科和一本書的語料庫進(jìn)行訓(xùn)練的。與其他「普通」的語言模型相比，BERT 使用的數(shù)據(jù)是廉價(jià)的，這邊是它所具備的一大優(yōu)勢。

三、BERT 是如何進(jìn)行訓(xùn)練的？

但是，BERT 是在什么任務(wù)上進(jìn)行訓(xùn)練，能夠激勵(lì)它對語言的學(xué)習(xí)有這樣良好及普遍有效的理解呢？未來的工作中也許可以調(diào)整學(xué)習(xí)策略，但原論文就使用了下面兩個(gè)任務(wù)：

掩膜語言模型（MLM）任務(wù)。這項(xiàng)任務(wù)鼓勵(lì)模型同時(shí)以單詞級別和句子級別學(xué)習(xí)語言的良好表示。簡單地說，一個(gè)句子中 15% 的單詞是隨機(jī)選擇并用<MASK>標(biāo)記隱藏（或「掩蔽」）。該模型的工作原理是利用<MASK>前后的單詞預(yù)測這些隱藏的部分，因此，我們試圖從損壞的輸入重新建立起完整的文本，左邊和右邊的內(nèi)容都被用來做預(yù)測。這允許我們搭建考慮到所有文本的單詞表示。與 ELMo（一種基于 RNN 的語言模型，用于生成由上下文感知的單詞嵌入）等方法不同，BERT 同時(shí)學(xué)習(xí)它的雙向表示，而 ELMo 是由兩個(gè)不同的語言模型分別獨(dú)立地對從左到右和從右到左的語言表示進(jìn)行學(xué)習(xí)，然后連接。我們可以說 ELMo 是一個(gè)「淺雙向」模型，而 BERT 是一個(gè)「深雙向」模型。
下一個(gè)句子的預(yù)測（NSP）任務(wù)。如果我們的模型被用作語言理解的基礎(chǔ)，那么了解句子間的連貫性將有助于它實(shí)現(xiàn)目標(biāo)。為鼓勵(lì)模型學(xué)習(xí)句子間的關(guān)系，我們添加了下一句預(yù)測任務(wù)，在該任務(wù)中，模型必須預(yù)測一對句子是否相關(guān)，即一個(gè)句子是否可能繼續(xù)連接著另一個(gè)句子。句子中的正訓(xùn)練對是語料庫中真實(shí)相鄰的句子，負(fù)訓(xùn)練對是從語料庫中隨機(jī)抽取的兩句話。這不是一個(gè)完美的系統(tǒng)，因?yàn)殡S機(jī)抽樣的一對句子實(shí)際上可能是相聯(lián)系的，但這樣對于任務(wù)的需要來講已經(jīng)足夠好了。

上述模型必須同時(shí)學(xué)會兩項(xiàng)任務(wù)，因?yàn)樗鼘?shí)際的訓(xùn)練損失是兩項(xiàng)任務(wù)損失的總和（即 MLM 和 NSP 可能性平均值的總和）。

如果你發(fā)現(xiàn)使用掩蔽的方法有點(diǎn)問題：那么你其實(shí)是對的。由于一個(gè)片段中隨機(jī)有 15% 的單詞被遮蔽，因此可能會出現(xiàn)多個(gè)<MASK>。確實(shí)是這樣，但是 BERT 將這些被遮蔽的單詞彼此間看作獨(dú)立，這是存在限制的，因?yàn)樗鼈儗?shí)際上很容易形成相互依賴的關(guān)系。這也是在 XLNet 論文（https://arxiv.org/abs/1906.08237）中提到的一點(diǎn)，有些人認(rèn)為它是 BERT 的繼承。

四、微調(diào) BERT

一旦訓(xùn)練好的基礎(chǔ)的 BERT 模型，后續(xù)通常需要經(jīng)過兩個(gè)步驟來對其進(jìn)行微調(diào)：首先在無標(biāo)簽數(shù)據(jù)上繼續(xù)進(jìn)行無監(jiān)督訓(xùn)練，然后通過添加一個(gè)額外的層并在新目標(biāo)上訓(xùn)練，從而學(xué)習(xí)實(shí)際的任務(wù)（這里無需使用過多的標(biāo)記數(shù)據(jù)）。

該方法最初源于谷歌研究者 Dai&Le 于 2015 年發(fā)布的 LSTM LM 論文，論文相關(guān)鏈接為：

https://arxiv.org/pdf/1511.01432.pdf

BERT 微調(diào)實(shí)際上會更新模型中所有參數(shù)，而不僅針對新任務(wù)中特定層的參數(shù)，因此這種方法不同于將傳輸層參數(shù)完全凍結(jié)的技術(shù)。

實(shí)際中，使用 BERT 進(jìn)行遷移學(xué)習(xí)，通常只有經(jīng)過訓(xùn)練的編碼器棧才會被重新使用——首先將模型的解碼器切掉一半，然后將編碼器 Transformer 模塊用作特征提取器。因此，我們不關(guān)心 Transformer 的解碼器對它最初訓(xùn)練的語言任務(wù)做出的預(yù)測，我們只關(guān)心模型內(nèi)部表示輸入文本的方式。

BERT 微調(diào)可能需要幾分鐘到幾小時(shí)，這取決于任務(wù)、數(shù)據(jù)大小和 TPU/GPU 資源。如果你有興趣嘗試 BERT 微調(diào)，你可以在 Google Colab 上使用這個(gè)現(xiàn)成的代碼，它提供對 TPU 的免費(fèi)訪問。相關(guān)代碼如下：

https://colab.research.google.com/github/tensorflow/tpu/blob/master/tools/colab/bert_finetuning_with_cloud_tpus.ipynb

五、BERT 出現(xiàn)之前的一些方法？

BERT 原論文寫得很好，我建議各位讀者再溫習(xí)下，原論文鏈接為：https://arxiv.org/abs/1810.04805。我將論文中用到的此前語言模型預(yù)訓(xùn)練和微調(diào)常用的一些主要方法總結(jié)如下：

無監(jiān)督的基于特征的方法（如 ELMo），該方法使用預(yù)訓(xùn)練表示作為輸入特征，但使用針對特定任務(wù)的架構(gòu)（比如：它們?yōu)槊總€(gè)新任務(wù)更改模型結(jié)構(gòu)）。事實(shí)上，所有研究者最喜歡的單詞嵌入方式（從 word2vec、GLoVe 到 FastText）、句子嵌入和段落嵌入都屬于這一類。ELMo 還提供單詞嵌入，但以上下文敏感的方式，標(biāo)記的嵌入或者表示是從左到右和從右到左的語言模型隱藏狀態(tài)向量的連接。
無監(jiān)督的微調(diào)方法（如 OpenAI 的 GPT 模型），它對有監(jiān)督的下游任務(wù)的所有預(yù)訓(xùn)練參數(shù)進(jìn)行微調(diào)，并且只通過引入一些針對特定任務(wù)的參數(shù)，來最小程度地改變模型結(jié)構(gòu)。預(yù)訓(xùn)練是在未標(biāo)記的文本上進(jìn)行的，學(xué)習(xí)任務(wù)通常是從左到右的語言模型或文本壓縮（就像自動編碼一樣，它將文本壓縮成矢量形式，然后從矢量重建文本）。然而，這些方法使得對上下文建模的能力受到了限制，因?yàn)樗鼈儗o定單詞的模型通常是單向、從左到右的，它沒有能力將所有后來的單詞合并到其表示中。
從有監(jiān)督的數(shù)據(jù)進(jìn)行遷移學(xué)習(xí)。此外，還開展了一些工作來遷移從具有大量訓(xùn)練數(shù)據(jù)的監(jiān)督任務(wù)中學(xué)習(xí)到的知識，例如使用機(jī)器翻譯模型參數(shù)來對不同的語言問題的權(quán)重初始化。

六、問題以及需要考慮的事情

計(jì)算機(jī)視覺領(lǐng)域，何凱明曾有一項(xiàng)工作《Rethinking ImageNet Pre-training》表明，預(yù)訓(xùn)練和微調(diào)主要有助于加快模型的收斂速度。這一思考和觀點(diǎn)，是否也同樣適用于 NLP 領(lǐng)域的工作呢？