Transformers研究指南

本文作者：栗峰

2019-10-26 18:50

導(dǎo)語：最新研究進(jìn)展~

Transformers研究指南

雷鋒網(wǎng)AI科技評論按：本文講述Transformers的最新研究進(jìn)展，由數(shù)據(jù)科學(xué)家 Derrick Mwiti寫作。原文標(biāo)題：Research Guide for Transformers。雷鋒網(wǎng)AI科技評論的編譯如下：

Transformers是神經(jīng)機器翻譯中使用的一種神經(jīng)網(wǎng)絡(luò)，它主要涉及將輸入序列轉(zhuǎn)換為輸出序列的任務(wù)。這些任務(wù)包括語音識別和文本轉(zhuǎn)換語音，接下來舉幾個詳細(xì)的例子說明。

這類任務(wù)需要「記憶」，下一個句子必須與前一個句的上下文相關(guān)聯(lián)（這是相當(dāng)關(guān)鍵的），以免丟失重要的信息。

直到最近，還主要在使用遞歸神經(jīng)網(wǎng)絡(luò)(RNNs)和卷積神經(jīng)網(wǎng)絡(luò)(CNNs)解決這樣的問題。但問題是，當(dāng)句子太長的時候，RNN或CNN無法跟蹤上下文和內(nèi)容。通過將attention應(yīng)用到正在使用的單詞上可以解決這種局限性。這篇指南將重點介紹Transformers是如何在深度學(xué)習(xí)的幫助下解決這個問題的。

Attention Is All You Need（2017）

這篇論文的作者提出了一種僅基于注意力機制的網(wǎng)絡(luò)體系結(jié)構(gòu)，也就是Transformer。這個模型在WMT 2014年的英德文翻譯任務(wù)中實現(xiàn)了28.4 BLEU(雙語評價學(xué)習(xí))。Transformer的傳導(dǎo)模型使用自注意力機制來計算其輸入和輸出的表示，無需使用卷積或序列對齊的RNN。

Transformers研究指南

地址：https://arxiv.org/abs/1706.03762

大多數(shù)神經(jīng)序列傳導(dǎo)模型都有編碼-解碼模型。Transformer采用了同樣的模式，并結(jié)合了自注意力機制，編碼器和解碼器均使用完全連接的層。編碼器由6個相同的層組成，每個層有2個子層。第一個子層是一個多頭自注意力機制，第二個子層是位置完全連接的前饋網(wǎng)絡(luò)。在這兩個子層的每個子層周圍都存在殘差連接。然后是一個規(guī)范層。

解碼器還具有6個相同的層（各自帶有兩個子層）。解碼器包括第三子層，第三子層對編碼器堆棧的輸出進(jìn)行多頭注意。每個子層都被剩余連接包圍，然后再進(jìn)行層的規(guī)范化處理。為了防止子層出現(xiàn)位置混淆，需要對解碼器堆棧中的自注意層進(jìn)行了修改。

注意力函數(shù)包括將查詢和一組鍵值對映射到輸出。查詢、鍵、值和輸出都是向量。這些值的加權(quán)和構(gòu)成輸出。分配給每個值的權(quán)重是通過查詢與相應(yīng)鍵的兼容性函數(shù)來計算的。

Transformers研究指南

這個模型在WMT 2014年的英德文翻譯的數(shù)據(jù)集上進(jìn)行訓(xùn)練，WMT 2014包含有大約450萬個序列對。以下是從英語轉(zhuǎn)換到德語和從英語轉(zhuǎn)換到法語的newstest2014的結(jié)果。

Transformers研究指南

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding (2019)

Transformer的雙向編碼器表示(BERT)是由來自 Google AI Language的研究人員引入的一種語言表示模型。BERT在所有層中聯(lián)合調(diào)整左右上下文，對未標(biāo)注文本中的深度雙向表示進(jìn)行預(yù)訓(xùn)練。

經(jīng)過預(yù)訓(xùn)練的BERT模型可以通過一個附加的層進(jìn)行微調(diào)，以創(chuàng)建諸如問答和語言推理等任務(wù)的模型。BERT在自然語言處理任務(wù)上取得了最先進(jìn)的成果。取得的成果包括：一個80.5%的GLUE (通用語言理解評價)評分和86.7%的MultiNLI精確度。

Transformers研究指南

為了對深層雙向表示進(jìn)行預(yù)訓(xùn)練，BERT使用了masked language models。BERT有兩個主要的步驟，預(yù)訓(xùn)練和微調(diào)。

在預(yù)訓(xùn)練階段，這個模型通過不同的預(yù)訓(xùn)練任務(wù)對未標(biāo)記數(shù)據(jù)進(jìn)行訓(xùn)練。在微調(diào)過程中，使用預(yù)訓(xùn)練的參數(shù)初始化模型。然后，使用來自下游任務(wù)的標(biāo)記數(shù)據(jù)對參數(shù)進(jìn)行微調(diào)。每個下游任務(wù)都由相同的預(yù)訓(xùn)練參數(shù)初始化，但是具有單獨的微調(diào)模型。

下圖顯示了一個問答任務(wù)的例子。BERT體系結(jié)構(gòu)在不同的任務(wù)之間是統(tǒng)一的，預(yù)訓(xùn)練的和最終的下游架構(gòu)之間的差異是最小的。

Transformers研究指南

BERT的體系結(jié)構(gòu)實際上是一個多層雙向Transformer編碼器。它使用了WordPiece嵌入和30,000個標(biāo)記詞匯表。特殊的分類標(biāo)記[(CLS)]構(gòu)成每個序列的第一個標(biāo)記。句子對打包在一起形成單一表示。句子通過特殊標(biāo)記[(SEP)]進(jìn)行區(qū)分，并通過在每個標(biāo)記中添加學(xué)習(xí)的嵌入來表示它們是屬于句子A還是B。 Transformers研究指南

這個模型的預(yù)訓(xùn)練是在BooksCorpus（800億字）和English Wikipedia（25億字）上進(jìn)行訓(xùn)練的。這是GLUE測試的結(jié)果：

Transformers研究指南

Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context (ACL 2019)

Transformer -XL(意為超長)允許學(xué)習(xí)超過固定長度的依賴關(guān)系，而不會破壞時間的一致性。它結(jié)合了段級遞歸機制和位置編碼方案。Transformer- XL的依賴關(guān)系比RNN長80%，比vanilla Transformer長450%。它在TensorFlow和PyTorch上均可使用。

Transformers研究指南

這篇論文的作者將遞歸引入到他們的深層自注意力網(wǎng)絡(luò)中。他們并沒有從零開始計算每個新段的隱藏狀態(tài)，而是重用了從先前分段中獲得的隱藏狀態(tài)。重復(fù)使用的隱藏狀態(tài)充當(dāng)遞歸段的內(nèi)存。

這在分段之間建立了循環(huán)連接。對長期依賴關(guān)系進(jìn)行建模就有可能實現(xiàn)，因為信息是通過循環(huán)連接傳遞的。作者還介紹了一種更有效的相對位置編碼公式，它將注意力集中到比訓(xùn)練過程中觀察到的注意力長度更長的位置。

Transformers研究指南

如上文所示，在訓(xùn)練過程中，在前一段中計算的隱藏狀態(tài)序列是固定的，并經(jīng)過緩存，以便在模型處理新段時為外部上下文重用。梯度保持在段內(nèi)。

附加輸入使網(wǎng)絡(luò)能夠包含歷史信息。這樣就可以對長期依賴性進(jìn)行建模，并避免了上下文碎片化。由于遞歸應(yīng)用于語料庫中的每兩個連續(xù)的段，因此會在隱藏狀態(tài)下創(chuàng)建段級遞歸。這會導(dǎo)致上下文的利用率超出了這兩個部分。

該模型的性能如下所示。

Transformers研究指南

XLNet: Generalized Autoregressive Pretraining for Language Understanding (2019)

XLNet是一種通用的自回歸預(yù)訓(xùn)練方法，它通過最大化因式分解順序的所有排列預(yù)期可能性來實現(xiàn)雙向上下文的學(xué)習(xí)。它不使用固定的正向或反向分解順序。

Transformers研究指南

相反，它最大化了一個序列的所有可能的因子分解順序排列的預(yù)期可能性。由于這些排列，每個位置的上下文都可以由左、右兩個標(biāo)記組成。因為每個位置都在學(xué)習(xí)利用所有位置的上下文信息，因此可以獲取雙向上下文。

Transformers研究指南

文中所提議方法的內(nèi)容流與標(biāo)準(zhǔn)的自注意力機制保持一致。查詢流的注意力機制并沒有關(guān)于上下文的訪問信息。

Transformers研究指南

這篇論文從Transformer XL相對位置編碼方案和分段遞歸機制兩個方面實現(xiàn)了兩種理念。在預(yù)訓(xùn)練階段，作者隨機抽取兩個片段，并將兩個片段的串聯(lián)作為一個序列來進(jìn)行置換語言建模。唯一被重用的內(nèi)存是屬于同一上下文的內(nèi)存。模型的輸入類似于BERT的輸入。

下面展示在模型上得到的相關(guān)結(jié)果。

Transformers研究指南

最新的深度學(xué)習(xí)是來源于你可以完全信任的資源。報名參加由該領(lǐng)域的專家策劃的每周一次的深度學(xué)習(xí)課程（https://www.deeplearningweekly.com/newsletter?utm_campaign=dlweekly-newsletter-expertise1&utm_source=heartbeat）。

Entity-aware ELMo: Learning Contextual Entity Representation for Entity Disambiguation (2019)

這篇論文學(xué)習(xí)了一種基于實體感知的語言模型嵌入擴展，稱為Entity- Elmo(E-Elmo)。嵌入語言模型(Elmo)是由Peters 等人提出的。這個語言模型將單詞作為整個句子的一個函數(shù)來生成上下文敏感的詞語表示。E-Elmo訓(xùn)練語言模型來預(yù)測被提及的是基礎(chǔ)實體，而不是提到的某些單詞。

Transformers研究指南

既然E-ELMo 實際上是ELMo的擴展，那么讓我們先簡要地介紹一下ELMo。給定一個序列，ELMo在一個2層 bi-RNN的基礎(chǔ)上生成單詞表示。輸入是字符卷積。ELMo首先為每個方向計算一個與上下文無關(guān)的表示。這是通過在位置k對每個標(biāo)記應(yīng)用基于字符的CNN來完成的，然后通過一個2層的LSTM傳遞標(biāo)記表示。E-ELMo在Wikipedia數(shù)據(jù)集的子集上進(jìn)行訓(xùn)練。 E-ELMo的訓(xùn)練是通過AdaGrad進(jìn)行的，學(xué)習(xí)率為0.1，持續(xù)10期.

Transformers研究指南

下面是這個模型產(chǎn)生的結(jié)果。

Transformers研究指南

Universal Language Model Fine-tuning for Text Classification (ULMFiT) (2018)

這篇論文介紹了通用語言模型微調(diào)(ULMFiT)，這是一種可以適用于任何NLP任務(wù)的遷移學(xué)習(xí)方法。ULMFiT在大型通用領(lǐng)域語料庫上預(yù)先訓(xùn)練語言模型，并對目標(biāo)任務(wù)進(jìn)行微調(diào)。這種方法適用于各種任務(wù)。它使用單一的體系結(jié)構(gòu)和訓(xùn)練過程，而且不需要自定義特征工程或預(yù)處理。

Transformers研究指南

ULMFiT不需要其他的域內(nèi)文檔或標(biāo)簽。ULMFiT涉及的步驟包括：通用域LM預(yù)訓(xùn)練，目標(biāo)任務(wù)LM微調(diào)和目標(biāo)任務(wù)分類器微調(diào)。

這個語言模型是在Wikitext-103上進(jìn)行預(yù)訓(xùn)練的，它由28，595篇預(yù)處理的Wikipedia文章和1.03億個單詞組成。然后，LM將根據(jù)目標(biāo)任務(wù)的數(shù)據(jù)進(jìn)行微調(diào)。建議使用判別式微調(diào)和傾斜三角形學(xué)習(xí)率對模型進(jìn)行微調(diào)。通過使用兩個附加的線性模塊擴展預(yù)訓(xùn)練的語言模型，可以對目標(biāo)任務(wù)分類器進(jìn)行微調(diào)。每個模塊都使用批處理規(guī)范化和一個dropout。中間層采用ReLU激活，輸出概率分布采用Softmax激活函數(shù)。

Transformers研究指南

下面是這個模型的測試錯誤率結(jié)果。

Transformers研究指南

Universal Transformers (ICLR 2019)

這篇論文的作者提出的通用Transformers (UT)，是一種并行性自注意力遞歸序列模型，可以將其轉(zhuǎn)換為Transformer模型的泛化。UT將諸如Transformer之類的前饋序列模型的可并行性和全局接受域與RNNS的遞歸歸納相結(jié)合。

Transformers研究指南

UT在每個重復(fù)步驟中都使用自注意力機制，對并行序列中的所有符號進(jìn)行迭代地優(yōu)化改進(jìn)。接下來是由一個深度可分離的卷積或位置完全連接層組成的轉(zhuǎn)換。作者還添加了一種暫停機制，允許模型動態(tài)地為每個符號選擇所需的細(xì)化步驟數(shù)量。

Transformers研究指南

通用Transformers是一種編解碼結(jié)構(gòu)。編碼器和解碼器的工作原理是將遞歸神經(jīng)網(wǎng)絡(luò)應(yīng)用于輸入和輸出序列的每個位置的表示。遞歸神經(jīng)網(wǎng)絡(luò)不會在序列中重復(fù)出現(xiàn)。相反，它在每個位置的向量表示的連續(xù)修正中反復(fù)出現(xiàn)。

每個位置的表示在兩個子步驟中并行地進(jìn)行修正。這是在每一個重復(fù)的時間步驟中完成的。第一個子步驟涉及使用自注意力機制在序列中的所有位置傳遞信息。這將為每個位置生成一個向量表示，這個表示是由前一個時間步驟中的其他表示所提供的。由于遞歸翻譯函數(shù)可以多次應(yīng)用，所以UT的深度是可變的。這是UT與其他序列模型(如深層RNN或Transformer)之間的主要區(qū)別。

Transformers研究指南