NLP領(lǐng)域預(yù)訓(xùn)練模型的現(xiàn)狀及分析

本文作者：小牛翻譯

編輯：賈偉

2019-11-01 14:49

導(dǎo)語(yǔ)：發(fā)展及變種~

作者 | 王澤洋

單位 | 小牛翻譯

王澤洋東北大學(xué)自然語(yǔ)言處理實(shí)驗(yàn)室研究生，研究方向?yàn)闄C(jī)器翻譯。

小牛翻譯，核心成員來(lái)自東北大學(xué)自然語(yǔ)言處理實(shí)驗(yàn)室，由姚天順教授創(chuàng)建于1980年，現(xiàn)由朱靖波教授、肖桐博士領(lǐng)導(dǎo)，長(zhǎng)期從事計(jì)算語(yǔ)言學(xué)的相關(guān)研究工作，主要包括機(jī)器翻譯、語(yǔ)言分析、文本挖掘等。團(tuán)隊(duì)研發(fā)的支持140種語(yǔ)言互譯的小牛翻譯系統(tǒng)已經(jīng)得到廣泛應(yīng)用，并研發(fā)了小牛翻譯云（https://niutrans.vip）讓機(jī)器翻譯技術(shù)賦能全球企業(yè)。

預(yù)訓(xùn)練的方法最初是在圖像領(lǐng)域提出的，達(dá)到了良好的效果，后來(lái)被應(yīng)用到自然語(yǔ)言處理。預(yù)訓(xùn)練一般分為兩步，首先用某個(gè)較大的數(shù)據(jù)集訓(xùn)練好模型(這種模型往往比較大，訓(xùn)練需要大量的內(nèi)存資源)，使模型訓(xùn)練到一個(gè)良好的狀態(tài)，然后下一步根據(jù)不同的任務(wù)，改造預(yù)訓(xùn)練模型，用這個(gè)任務(wù)的數(shù)據(jù)集在預(yù)訓(xùn)練模型上進(jìn)行微調(diào)。

這種做法的好處是訓(xùn)練代價(jià)很小，預(yù)訓(xùn)練的模型參數(shù)可以讓新的模型達(dá)到更快的收斂速度，并且能夠有效地提高模型性能，尤其是對(duì)一些訓(xùn)練數(shù)據(jù)比較稀缺的任務(wù)，在神經(jīng)網(wǎng)絡(luò)參數(shù)十分龐大的情況下，僅僅依靠任務(wù)自身的訓(xùn)練數(shù)據(jù)可能無(wú)法訓(xùn)練充分，預(yù)訓(xùn)練方法可以認(rèn)為是讓模型基于一個(gè)更好的初始狀態(tài)進(jìn)行學(xué)習(xí)，從而能夠達(dá)到更好的性能。

一、預(yù)訓(xùn)練方法發(fā)展

基于詞嵌入的預(yù)訓(xùn)練方法

2003年，Bengio等人提出了神經(jīng)語(yǔ)言模型（Neural Network Language Model）[1]神經(jīng)語(yǔ)言模型在訓(xùn)練過(guò)程中，不僅學(xué)習(xí)到預(yù)測(cè)下一個(gè)詞的概率分布，同時(shí)也得到了一個(gè)副產(chǎn)品：詞嵌入表示。相比隨機(jī)初始化的詞嵌入，模型訓(xùn)練完成后的詞嵌入已經(jīng)包含了詞匯之間的信息。2013年，Mikolov等人提出了word2vec工具，其中包含了CBOW（Continue Bag of Words）模型和Skip-gram模型[2-3]，該工具僅僅利用海量的單語(yǔ)數(shù)據(jù)，通過(guò)無(wú)監(jiān)督的方法訓(xùn)練得到詞嵌入。

基于語(yǔ)言模型的預(yù)訓(xùn)練方法

詞嵌入本身具有局限性，最主要的缺點(diǎn)是無(wú)法解決一詞多義問(wèn)題，不同的詞在不同的上下文中會(huì)有不同的意思，而詞嵌入對(duì)模型中的每個(gè)詞都分配了一個(gè)固定的表示。針對(duì)上述問(wèn)題，Peters等人提出了ELMo（Embedding from Language Model）[4]，即使用語(yǔ)言模型來(lái)獲取深層的上下文表示。ELMo的具體做法是，基于每個(gè)詞所在的上下文，利用雙向LSTM的語(yǔ)言模型來(lái)獲取這個(gè)詞的表示。ELMo的方法能夠提取豐富的特征給下游任務(wù)使用，但是ELMo僅僅進(jìn)行特征提取而沒(méi)有預(yù)訓(xùn)練整個(gè)網(wǎng)絡(luò)，遠(yuǎn)遠(yuǎn)沒(méi)有發(fā)揮預(yù)訓(xùn)練的潛力，另外一個(gè)不足之處是，自注意力機(jī)制的Transformer模型結(jié)構(gòu)，相比LSTM能夠更有效地捕獲長(zhǎng)距離依賴(lài)，對(duì)句子中信息進(jìn)行更充分的建模。

針對(duì)上述兩個(gè)問(wèn)題，Radford等人提出了 GPT Generative Pre-Training）[5]，即生成式的預(yù)訓(xùn)練。GPT將LSTM換成了Transformer,獲得了更高的成績(jī)，但是由于使用的是單向模型，只能通過(guò)前面詞預(yù)測(cè)后面的詞，可能會(huì)遺漏信息。Devlin等人提出了BERT（Bidirectional Encoder Representations from Transformers）[6]，即基于Transformer的雙向編碼器表示。BERT和GPT的結(jié)構(gòu)和方法十分相似，最主要的不同之處在于GPT模型使用的是單向語(yǔ)言模型，可以認(rèn)為是基于Transformer的解碼器表示，而B(niǎo)ERT使用的基于Transformer的編碼器能夠?qū)?lái)自過(guò)去和未來(lái)的信息進(jìn)行建模，能夠提取更豐富的信息。三個(gè)預(yù)訓(xùn)練模型的圖如下所示：

NLP領(lǐng)域預(yù)訓(xùn)練模型的現(xiàn)狀及分析

BERT提出后大火，也許是因?yàn)锽ERT的效果太好。目前絕大多數(shù)的預(yù)訓(xùn)練模型都是在BERT上改造而來(lái)。清華大學(xué)的王曉智和張正彥同學(xué)給出了目前的預(yù)訓(xùn)練模型關(guān)系圖，這里引用一下，如下圖所示：

NLP領(lǐng)域預(yù)訓(xùn)練模型的現(xiàn)狀及分析

下面主要介紹幾個(gè)BERT變種模型。

二、Cross-lingual Language Model Pretraining（XLM）[7]

在這項(xiàng)工作中，作者將預(yù)訓(xùn)練方法擴(kuò)展到多種語(yǔ)言并展示跨語(yǔ)言預(yù)訓(xùn)練的有效性。筆者認(rèn)為，這篇工作的創(chuàng)新點(diǎn)有兩個(gè)：設(shè)計(jì)了一個(gè)用于多語(yǔ)言分類(lèi)的跨語(yǔ)種的語(yǔ)言模型訓(xùn)練任務(wù)；將BERT作為模型初始化用到無(wú)監(jiān)督機(jī)器翻譯上。

1、多語(yǔ)言分類(lèi)任務(wù)

雖然BERT也經(jīng)過(guò)了100多種語(yǔ)言的訓(xùn)練，但并未針對(duì)跨語(yǔ)言任務(wù)進(jìn)行優(yōu)化，因此共享的知識(shí)有限。為了克服這個(gè)問(wèn)題，XLM通過(guò)以下方式改造了BERT：

在BERT中，每個(gè)樣本是用一種語(yǔ)言構(gòu)建的。XLM對(duì)它的改進(jìn)是每個(gè)訓(xùn)練樣本都包含兩種語(yǔ)言的相同文本。與BERT一樣，該模型的目標(biāo)是預(yù)測(cè)被屏蔽的詞，但采用新的體系結(jié)構(gòu)，該模型可以使用一種語(yǔ)言的上下文來(lái)預(yù)測(cè)另一種語(yǔ)言的詞。因?yàn)椴煌Z(yǔ)種的被屏蔽詞是不同的（隨機(jī)）。改造后的BERT表示為翻TLM（Translation Language Model），而帶有BPE輸入的“原始” BERT表示為MLM（Masked Language Model）。通過(guò)訓(xùn)練MLM和TLM并在它們之間交替進(jìn)行訓(xùn)練來(lái)訓(xùn)練完整的模型。

NLP領(lǐng)域預(yù)訓(xùn)練模型的現(xiàn)狀及分析

XLM說(shuō)明訓(xùn)練一種跨語(yǔ)言的語(yǔ)言模型對(duì)于資源匱乏的語(yǔ)言可能非常有好處，因?yàn)樗鼈兛梢岳脕?lái)自其他語(yǔ)言的數(shù)據(jù)，尤其是由于BPE預(yù)處理而產(chǎn)生的相似語(yǔ)言。

2、無(wú)監(jiān)督機(jī)器翻譯

XLM做的另一個(gè)工作是，利用BERT初始化無(wú)監(jiān)督模型的Encoder和Decoder。具體做法是在Transformer的Encoder端和Decoder端，進(jìn)行隨機(jī)初始化、MLM初始化或者CLM初始化（具體如圖），共得到9種不同的結(jié)構(gòu)。

NLP領(lǐng)域預(yù)訓(xùn)練模型的現(xiàn)狀及分析

三、Masked Sequence to Sequence pre-training(MASS) [8]

BERT的預(yù)訓(xùn)練是在Transformer的Encoder上進(jìn)行預(yù)訓(xùn)練，所以BERT天然比較親和自然語(yǔ)言理解的任務(wù)，而很難應(yīng)用于像機(jī)器翻譯這樣的語(yǔ)言生成類(lèi)任務(wù)。

微軟的工作者認(rèn)為BERT單純預(yù)訓(xùn)練了Transformer的Encoder部分，但是對(duì)于端到端的任務(wù)，Encoder-Decoder是有關(guān)聯(lián)的，如果用BERT初始化Encoder端和Decoder端，兩端只是分別訓(xùn)練好的沒(méi)有什么聯(lián)系。于是為了解決這個(gè)問(wèn)題，微軟的工作中提出了MASS（Masked Sequence to Sequence pre-training）。

NLP領(lǐng)域預(yù)訓(xùn)練模型的現(xiàn)狀及分析

MASS是在Encoder端和Decoder端通過(guò)語(yǔ)言模型預(yù)訓(xùn)練。與BERT不同的是mask掉的詞是k個(gè)（這k個(gè)詞是連續(xù)的），Decoder中只輸入前k-1個(gè)被mask掉的詞，預(yù)測(cè)被mask掉的k個(gè)詞。MASS的優(yōu)勢(shì)有：

Encoder被強(qiáng)制去抽取未被屏蔽掉詞的語(yǔ)義，以提升Encoder理解源序列文本的能力。
Encoder端其它詞（在Encoder端未被屏蔽掉的詞）都被屏蔽掉，可以讓Decoder從Encoder端提取信息來(lái)幫助連續(xù)片段的預(yù)測(cè)。
Encoder預(yù)測(cè)連續(xù)的序列片段可以提升Encoder的語(yǔ)言建模能力。

MASS只需要無(wú)監(jiān)督的單語(yǔ)數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練。MASS支持跨語(yǔ)言的序列到序列生成（比如機(jī)器翻譯），也支持單語(yǔ)言的序列到序列生成（比如文本摘要生成、對(duì)話生成）。比如用MASS做英法的機(jī)器翻譯時(shí)，在一個(gè)模型里同時(shí)進(jìn)行英語(yǔ)到英語(yǔ)以及法語(yǔ)到法語(yǔ)的預(yù)訓(xùn)練（單獨(dú)給每個(gè)語(yǔ)言加上相應(yīng)的語(yǔ)言嵌入向量，用來(lái)區(qū)分不同的語(yǔ)言）。

至于效果，在WMT19中，MASS幫助微軟獲得了多項(xiàng)翻譯的冠軍，具體可以查看WMT19的榜單。

四、XLNet: Generalized Autoregressive Pretraining for Language Understanding

自回歸語(yǔ)言模型是單向的但是天然匹配自然語(yǔ)言生成任務(wù)，自編碼（BERT）可以融合雙向信息但是引入MASK導(dǎo)致預(yù)訓(xùn)練和Fine-tuning階段的不一致。XLNET融合了自回歸語(yǔ)言模型和自編碼語(yǔ)言模型的優(yōu)點(diǎn)。XLNET在模型方面的貢獻(xiàn)在于，隨然看上去仍然是從左向右的輸入和預(yù)測(cè)模式，但是其實(shí)內(nèi)部已經(jīng)引入了當(dāng)前單詞的下文信息。

NLP領(lǐng)域預(yù)訓(xùn)練模型的現(xiàn)狀及分析

在預(yù)訓(xùn)練階段，引入Permutation Language Model的訓(xùn)練目標(biāo)。簡(jiǎn)單點(diǎn)來(lái)說(shuō)就是固定當(dāng)前要預(yù)測(cè)的詞，通過(guò)調(diào)換其余詞的位置，將預(yù)測(cè)詞后邊的詞換到當(dāng)先此的前邊，在隨機(jī)排列組合后的各種可能里，再選擇一部分作為模型預(yù)訓(xùn)練的輸入。這樣當(dāng)前詞就能看到上下文的內(nèi)容了，但是形式上看上去仍然是從左到右在預(yù)測(cè)后一個(gè)單詞。具體的實(shí)現(xiàn)可以看XLNET的論文。

除此之外，引入了Transformer-XL的主要思路：相對(duì)位置編碼以及分段RNN機(jī)制。實(shí)踐已經(jīng)證明這兩點(diǎn)對(duì)于長(zhǎng)文檔任務(wù)是很有幫助的；在預(yù)訓(xùn)練階段極大擴(kuò)充了數(shù)據(jù)規(guī)模，并對(duì)質(zhì)量進(jìn)行了篩選過(guò)濾。

相對(duì)于BERT模型，XLNET對(duì)于長(zhǎng)文檔的應(yīng)用有明顯的提升，因?yàn)門(mén)ransformer天然對(duì)長(zhǎng)文檔任務(wù)處理有弱點(diǎn)。上文提過(guò)，對(duì)于生成類(lèi)的NLP任務(wù)，BERT仍然不能很好地處理。而XLNET的預(yù)訓(xùn)練模式天然符合下游任務(wù)序列生成結(jié)果。但是目前還沒(méi)有實(shí)驗(yàn)證明。

五、結(jié)論

從BERT的各類(lèi)變種就可以看出BERT和Transformer的火爆程度，筆者認(rèn)為目前預(yù)訓(xùn)練+下游任務(wù)微調(diào)有一統(tǒng)自然語(yǔ)言領(lǐng)域的趨勢(shì)。預(yù)訓(xùn)練不僅在低資源任務(wù)上有很高的提升作用，甚至在豐富資源的任務(wù)上對(duì)模型性能也有顯著的提高。如果沒(méi)有超越Transformer的特征提取模型提出的話，相信在BERT上各類(lèi)的改造會(huì)層出不窮，以適應(yīng)不同類(lèi)型的下游任務(wù)。還有的預(yù)訓(xùn)練模型在BERT基礎(chǔ)上引入知識(shí)圖譜等，讓BERT變得更加“有知識(shí)”，如清華大學(xué)的ERNIE[10]。

既然各類(lèi)不同的任務(wù)對(duì)預(yù)訓(xùn)練模型進(jìn)行不同的改造，那能不能有一種預(yù)訓(xùn)練模型，可以適應(yīng)全部的NLP任務(wù)呢，近期谷歌剛剛發(fā)布了超大規(guī)模的T5（NLP Text-to-Text）[11]預(yù)訓(xùn)練模型。它給整個(gè) NLP 預(yù)訓(xùn)練模型領(lǐng)域提供了一個(gè)通用框架，把所有任務(wù)都轉(zhuǎn)化成一種形式，無(wú)論什么任務(wù)，直接拿來(lái)一個(gè)超大預(yù)訓(xùn)練模型，然后主要工作就變成了怎么把任務(wù)轉(zhuǎn)換成合適的文本輸入輸出，，比如德英翻譯，只需將訓(xùn)練數(shù)據(jù)集的輸入部分前加上“translate German to English”。

另外的思路是，不是改造預(yù)訓(xùn)練的模型，而是將龐大的預(yù)訓(xùn)練模型進(jìn)行壓縮，比如近期的alBERT，通過(guò)共享參數(shù)、引入單獨(dú)的詞嵌入層維度來(lái)減少BERT的參數(shù)。最終性能也登上GLUE第一（剛剛被T5超過(guò)）。還有通過(guò)知識(shí)蒸餾技術(shù)，訓(xùn)練出的tinyBERT等，都是對(duì)BERT模型進(jìn)行的模型壓縮。

參考文獻(xiàn)

[1] Bengio Y, Ducharme R, Vincent P, et al. A neural probabilistic language model.

[2] Mikolov T, Chen K, Corrado G S, et al. Efficient Estimation of Word Representations in Vector Space.

[3] Mikolov T, Sutskever I, Chen K, et al. Distributed Representations of Words and Phrases and their Compositionality.

[4] Matthew Peters, Mark Neumann, Mohit Iyyer, Matt Gardner, Christopher Clark, Kenton Lee, and Luke Zettlemoyer. 2018. Deep Contextualized Word Representations.

[5] Alec Radford, Karthik Narasimhan, Tim Salimans, and Ilya Sutskever. 2018. Improving Language Understanding by Generative Pre-Training.

[6] Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova. 2018. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding.

[7] Guillaume Lample and Alexis Conneau. 2019. Cross-lingual Language Model Pretraining.

[8] Kaitao Song, Xu Tan, Tao Qin, Jianfeng Lu, and Tie-Yan Liu. 2019. MASS: Masked Sequence to Sequence Pre-training for Language Generation.

[9] Zhilin Yang, Zihang Dai, Yiming Yang, Jaime Carbonell, Ruslan Salakhutdinov, and Quoc V. Le. 2019. XLNet: Generalized Autoregressive Pretraining for Language Understanding.

[10] Zhengyan Zhang, Xu Han, Zhiyuan Liu1, Xin Jiang, Maosong Sun1, Qun Liu. ERNIE: Enhanced Language Representation with Informative Entities.

[11] Colin Raffel, Noam Shazeer, Adam Roberts, Katherine Lee，et al. Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer.

雷鋒網(wǎng)編輯

相關(guān)文章：

面向神經(jīng)機(jī)器翻譯的篇章級(jí)單語(yǔ)修正模型

神經(jīng)結(jié)構(gòu)搜索在機(jī)器翻譯中的應(yīng)用

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。