放棄幻想，全面擁抱 Transformer：自然語(yǔ)言處理三大特征抽取器（CNN/RNN/TF）比較（上篇）

本文作者：叢末

2019-02-16 16:20

導(dǎo)語(yǔ)：萬(wàn)字干貨文~

雷鋒網(wǎng) AI 科技評(píng)論按：本文的作者是張俊林老師，他是中國(guó)中文信息學(xué)會(huì)理事，中科院軟件所博士，目前在新浪微博 AI Lab 擔(dān)任資深算法專(zhuān)家。在此之前，張俊林老師曾在阿里巴巴任資深技術(shù)專(zhuān)家并負(fù)責(zé)新技術(shù)團(tuán)隊(duì)，也曾在百度和用友擔(dān)任技術(shù)經(jīng)理及技術(shù)總監(jiān)等職務(wù)。同時(shí)他是技術(shù)書(shū)籍《這就是搜索引擎：核心技術(shù)詳解》（該書(shū)榮獲全國(guó)第十二屆優(yōu)秀圖書(shū)獎(jiǎng)）、《大數(shù)據(jù)日知錄：架構(gòu)與算法》的作者。本文首發(fā)于知乎，經(jīng)作者許可，雷鋒網(wǎng) AI 科技評(píng)論進(jìn)行轉(zhuǎn)載。

在辭舊迎新的時(shí)刻，大家都在忙著回顧過(guò)去一年的成績(jī)（或者在灶臺(tái)前含淚數(shù)鍋），并對(duì) 2019 做著規(guī)劃，當(dāng)然也有不少朋友執(zhí)行力和工作效率比較高，直接把 2018 年初制定的計(jì)劃拷貝一下，就能在 3 秒鐘內(nèi)完成 2019 年計(jì)劃的制定，在此表示祝賀。2018 年從經(jīng)濟(jì)角度講，對(duì)于所有人可能都是比較難過(guò)的一年，而對(duì)于自然語(yǔ)言處理領(lǐng)域來(lái)說(shuō)，2018 年無(wú)疑是個(gè)收獲頗豐的年頭，而諸多技術(shù)進(jìn)展如果只能選擇一項(xiàng)來(lái)講的話，那么當(dāng)之無(wú)愧的應(yīng)該就是 Bert 模型了。在上一篇介紹 Bert 的文章「從 Word Embedding 到 Bert 模型—自然語(yǔ)言處理中的預(yù)訓(xùn)練技術(shù)發(fā)展史」里，我曾大言不慚地宣稱(chēng)如下兩個(gè)個(gè)人判斷：一個(gè)是 Bert 這種兩階段的模式（預(yù)訓(xùn)練+Finetuning）必將成為 NLP 領(lǐng)域研究和工業(yè)應(yīng)用的流行方法；第二個(gè)是從 NLP 領(lǐng)域的特征抽取器角度來(lái)說(shuō)，Transformer 會(huì)逐步取代 RNN 成為最主流的的特征抽取器。關(guān)于特征抽取器方面的判斷，上面文章限于篇幅，只是給了一個(gè)結(jié)論，并未給出具備誘惑力的說(shuō)明，看過(guò)我文章的人都知道我不是一個(gè)隨便下結(jié)論的人（那位正在補(bǔ)充下一句：「你隨便起來(lái)不是……」的同學(xué)請(qǐng)住口，請(qǐng)不要泄露國(guó)家機(jī)密，你可以繼續(xù)睡覺(jué)，吵到其它同學(xué)也沒(méi)有關(guān)系，哈哈），但是為什么當(dāng)時(shí)我會(huì)下這個(gè)結(jié)論呢？本文可以看做是上文的一個(gè)外傳，會(huì)給出比較詳實(shí)的證據(jù)來(lái)支撐之前給出的結(jié)論。

如果對(duì)目前 NLP 里的三大特征抽取器的未來(lái)走向趨勢(shì)做個(gè)宏觀判斷的話，我的判斷是這樣的：RNN 人老珠黃，已經(jīng)基本完成它的歷史使命，將來(lái)會(huì)逐步退出歷史舞臺(tái)；CNN 如果改造得當(dāng)，將來(lái)還是有希望有自己在 NLP 領(lǐng)域的一席之地，如果改造成功程度超出期望，那么還有一絲可能作為割據(jù)一方的軍閥，繼續(xù)生存壯大，當(dāng)然我認(rèn)為這個(gè)希望不大，可能跟宋小寶打籃球把姚明打哭的概率相當(dāng)；而新歡 Transformer 明顯會(huì)很快成為 NLP 里擔(dān)當(dāng)大任的最主流的特征抽取器。至于將來(lái)是否會(huì)出現(xiàn)新的特征抽取器，一槍將 Tranformer 挑落馬下，繼而取而代之成為新的特征抽取山大王？這種擔(dān)憂(yōu)其實(shí)是挺有必要的，畢竟李商隱在一千年前就告誡過(guò)我們說(shuō)：「君恩如水向東流，得寵憂(yōu)移失寵愁。莫向樽前奏花落，涼風(fēng)只在殿西頭?！巩?dāng)然這首詩(shī)看樣子目前送給 RNN 是比較貼切的，至于未來(lái) Transformer 是否會(huì)失寵？這個(gè)問(wèn)題的答案基本可以是肯定的，無(wú)非這個(gè)時(shí)刻的來(lái)臨是 3 年之后，還是 1 年之后出現(xiàn)而已。當(dāng)然，我希望如果是在讀這篇文章的你，或者是我，在未來(lái)的某一天，從街頭拉來(lái)一位長(zhǎng)相普通的淑女，送到韓國(guó)整容，一不小心偏離流水線整容工業(yè)的美女模板，整出一位天香國(guó)色的絕色，來(lái)把 Transformer 打入冷宮，那是最好不過(guò)。但是在目前的狀態(tài)下，即使是打著望遠(yuǎn)鏡，貌似還沒(méi)有看到有這種資質(zhì)的候選人出現(xiàn)在我們的視野之內(nèi)。

我知道如果是一位嚴(yán)謹(jǐn)?shù)难邪l(fā)人員，不應(yīng)該在目前局勢(shì)還沒(méi)那么明朗的時(shí)候做出如上看似有些武斷的明確結(jié)論，所以這種說(shuō)法可能會(huì)引起爭(zhēng)議。但是這確實(shí)就是我目前的真實(shí)想法，至于根據(jù)什么得出的上述判斷？這種判斷是否有依據(jù)？依據(jù)是否充分？相信你在看完這篇文章可以有個(gè)屬于自己的結(jié)論。

可能談到這里，有些平常吃虧吃的少所以喜歡挑刺的同學(xué)會(huì)質(zhì)疑說(shuō)：你憑什么說(shuō) NLP 的典型特征抽取器就這三種呢？你置其它知名的特征抽取器比如 Recursive NN 于何地? 嗯，是，很多介紹 NLP 重要進(jìn)展的文章里甚至把 Recursive NN 當(dāng)做一項(xiàng) NLP 里的重大進(jìn)展，除了它，還有其它的比如 Memory Network 也享受這種部局級(jí)尊貴待遇。但是我一直都不太看好這兩個(gè)技術(shù)，而且不看好很多年了，目前情形更堅(jiān)定了這個(gè)看法。而且我免費(fèi)奉勸你一句，沒(méi)必要在這兩個(gè)技術(shù)上浪費(fèi)時(shí)間，至于為什么，因?yàn)楦疚闹黝}無(wú)關(guān)，以后有機(jī)會(huì)再詳細(xì)說(shuō)。

上面是結(jié)論，下面，我們正式進(jìn)入舉證階段。

戰(zhàn)場(chǎng)偵查：NLP 任務(wù)的特點(diǎn)及任務(wù)類(lèi)型

放棄幻想，全面擁抱 Transformer：自然語(yǔ)言處理三大特征抽取器（CNN/RNN/TF）比較（上篇）

NLP 任務(wù)的特點(diǎn)和圖像有極大的不同，上圖展示了一個(gè)例子，NLP 的輸入往往是一句話或者一篇文章，所以它有幾個(gè)特點(diǎn)：首先，輸入是個(gè)一維線性序列，這個(gè)好理解；其次，輸入是不定長(zhǎng)的，有的長(zhǎng)有的短，而這點(diǎn)其實(shí)對(duì)于模型處理起來(lái)也會(huì)增加一些小麻煩；再次，單詞或者子句的相對(duì)位置關(guān)系很重要，兩個(gè)單詞位置互換可能導(dǎo)致完全不同的意思。如果你聽(tīng)到我對(duì)你說(shuō)：「你欠我那一千萬(wàn)不用還了」和「我欠你那一千萬(wàn)不用還了」，你聽(tīng)到后分別是什么心情？?jī)烧邊^(qū)別了解一下；另外，句子中的長(zhǎng)距離特征對(duì)于理解語(yǔ)義也非常關(guān)鍵，例子參考上圖標(biāo)紅的單詞，特征抽取器能否具備長(zhǎng)距離特征捕獲能力這一點(diǎn)對(duì)于解決 NLP 任務(wù)來(lái)說(shuō)也是很關(guān)鍵的。

上面這幾個(gè)特點(diǎn)請(qǐng)記清，一個(gè)特征抽取器是否適配問(wèn)題領(lǐng)域的特點(diǎn)，有時(shí)候決定了它的成敗，而很多模型改進(jìn)的方向，其實(shí)就是改造得使得它更匹配領(lǐng)域問(wèn)題的特性。這也是為何我在介紹 RNN、CNN、Transformer 等特征抽取器之前，先說(shuō)明這些內(nèi)容的原因。

NLP 是個(gè)很寬泛的領(lǐng)域，包含了幾十個(gè)子領(lǐng)域，理論上只要跟語(yǔ)言處理相關(guān)，都可以納入這個(gè)范圍。但是如果我們對(duì)大量 NLP 任務(wù)進(jìn)行抽象的話，會(huì)發(fā)現(xiàn)絕大多數(shù) NLP 任務(wù)可以歸結(jié)為幾大類(lèi)任務(wù)。兩個(gè)看似差異很大的任務(wù)，在解決任務(wù)的模型角度，可能完全是一樣的。

放棄幻想，全面擁抱 Transformer：自然語(yǔ)言處理三大特征抽取器（CNN/RNN/TF）比較（上篇）

通常而言，絕大部分 NLP 問(wèn)題可以歸入上圖所示的四類(lèi)任務(wù)中：一類(lèi)是序列標(biāo)注，這是最典型的 NLP 任務(wù)，比如中文分詞，詞性標(biāo)注，命名實(shí)體識(shí)別，語(yǔ)義角色標(biāo)注等都可以歸入這一類(lèi)問(wèn)題，它的特點(diǎn)是句子中每個(gè)單詞要求模型根據(jù)上下文都要給出一個(gè)分類(lèi)類(lèi)別。第二類(lèi)是分類(lèi)任務(wù)，比如我們常見(jiàn)的文本分類(lèi)，情感計(jì)算等都可以歸入這一類(lèi)。它的特點(diǎn)是不管文章有多長(zhǎng)，總體給出一個(gè)分類(lèi)類(lèi)別即可。第三類(lèi)任務(wù)是句子關(guān)系判斷，比如 Entailment，QA，語(yǔ)義改寫(xiě)，自然語(yǔ)言推理等任務(wù)都是這個(gè)模式，它的特點(diǎn)是給定兩個(gè)句子，模型判斷出兩個(gè)句子是否具備某種語(yǔ)義關(guān)系；第四類(lèi)是生成式任務(wù)，比如機(jī)器翻譯，文本摘要，寫(xiě)詩(shī)造句，看圖說(shuō)話等都屬于這一類(lèi)。它的特點(diǎn)是輸入文本內(nèi)容后，需要自主生成另外一段文字。

解決這些不同的任務(wù)，從模型角度來(lái)講什么最重要？是特征抽取器的能力。尤其是深度學(xué)習(xí)流行開(kāi)來(lái)后，這一點(diǎn)更凸顯出來(lái)。因?yàn)樯疃葘W(xué)習(xí)最大的優(yōu)點(diǎn)是「端到端（end to end）」，當(dāng)然這里不是指的從客戶(hù)端到云端，意思是以前研發(fā)人員得考慮設(shè)計(jì)抽取哪些特征，而端到端時(shí)代后，這些你完全不用管，把原始輸入扔給好的特征抽取器，它自己會(huì)把有用的特征抽取出來(lái)。

身為資深 Bug 制造者和算法工程師，你現(xiàn)在需要做的事情就是：選擇一個(gè)好的特征抽取器，選擇一個(gè)好的特征抽取器，選擇一個(gè)好的特征抽取器，喂給它大量的訓(xùn)練數(shù)據(jù)，設(shè)定好優(yōu)化目標(biāo)（loss function），告訴它你想讓它干嘛…….. 然后你覺(jué)得你啥也不用干等結(jié)果就行了是吧？那你是我見(jiàn)過(guò)的整個(gè)宇宙中最樂(lè)觀的人……. 你大量時(shí)間其實(shí)是用在調(diào)參上…….。從這個(gè)過(guò)程可以看出，如果我們有個(gè)強(qiáng)大的特征抽取器，那么中初級(jí)算法工程師淪為調(diào)參俠也就是個(gè)必然了，在 AutoML（自動(dòng)那啥）流行的年代，也許以后你想當(dāng)調(diào)參俠而不得，李斯說(shuō)的「吾欲與若復(fù)牽黃犬，俱出上蔡?hào)|門(mén)逐狡兔，豈可得乎！」請(qǐng)了解一下。所以請(qǐng)珍惜你半夜兩點(diǎn)還在調(diào)整超參的日子吧，因?yàn)閷?duì)于你來(lái)說(shuō)有一個(gè)好消息一個(gè)壞消息，好消息是：對(duì)于你來(lái)說(shuō)可能這樣辛苦的日子不多了！壞消息是：對(duì)于你來(lái)說(shuō)可能這樣辛苦的日子不多了?。。∧敲丛趺床拍艹蔀樗惴ǜ呤?？你去設(shè)計(jì)一個(gè)更強(qiáng)大的特征抽取器呀。

下面開(kāi)始分?jǐn)⑷筇卣鞒槿∑鳌?/p>

沙場(chǎng)老將 RNN：廉頗老矣，尚能飯否

放棄幻想，全面擁抱 Transformer：自然語(yǔ)言處理三大特征抽取器（CNN/RNN/TF）比較（上篇）

RNN 模型我估計(jì)大家都熟悉，就不詳細(xì)介紹了，模型結(jié)構(gòu)參考上圖，核心是每個(gè)輸入對(duì)應(yīng)隱層節(jié)點(diǎn)，而隱層節(jié)點(diǎn)之間形成了線性序列，信息由前向后在隱層之間逐步向后傳遞。我們下面直接進(jìn)入我想講的內(nèi)容。

為何 RNN 能夠成為解決 NLP 問(wèn)題的主流特征抽取器

我們知道，RNN 自從引入 NLP 界后，很快就成為吸引眼球的明星模型，在 NLP 各種任務(wù)中被廣泛使用。但是原始的 RNN 也存在問(wèn)題，它采取線性序列結(jié)構(gòu)不斷從前往后收集輸入信息，但這種線性序列結(jié)構(gòu)在反向傳播的時(shí)候存在優(yōu)化困難問(wèn)題，因?yàn)榉聪騻鞑ヂ窂教L(zhǎng)，容易導(dǎo)致嚴(yán)重的梯度消失或梯度爆炸問(wèn)題。為了解決這個(gè)問(wèn)題，后來(lái)引入了 LSTM 和 GRU 模型，通過(guò)增加中間狀態(tài)信息直接向后傳播，以此緩解梯度消失問(wèn)題，獲得了很好的效果，于是很快 LSTM 和 GRU 成為 RNN 的標(biāo)準(zhǔn)模型。其實(shí)圖像領(lǐng)域最早由 HighwayNet/Resnet 等導(dǎo)致模型革命的 skip connection 的原始思路就是從 LSTM 的隱層傳遞機(jī)制借鑒來(lái)的。經(jīng)過(guò)不斷優(yōu)化，后來(lái) NLP 又從圖像領(lǐng)域借鑒并引入了 attention 機(jī)制（從這兩個(gè)過(guò)程可以看到不同領(lǐng)域的相互技術(shù)借鑒與促進(jìn)作用），疊加網(wǎng)絡(luò)把層深作深，以及引入 Encoder-Decoder 框架，這些技術(shù)進(jìn)展極大拓展了 RNN 的能力以及應(yīng)用效果。下圖展示的模型就是非常典型的使用 RNN 來(lái)解決 NLP 任務(wù)的通用框架技術(shù)大禮包，在更新的技術(shù)出現(xiàn)前，你可以在 NLP 各種領(lǐng)域見(jiàn)到這個(gè)技術(shù)大禮包的身影。

放棄幻想，全面擁抱 Transformer：自然語(yǔ)言處理三大特征抽取器（CNN/RNN/TF）比較（上篇）

上述內(nèi)容簡(jiǎn)單介紹了 RNN 在 NLP 領(lǐng)域的大致技術(shù)演進(jìn)過(guò)程。那么為什么 RNN 能夠這么快在 NLP 流行并且占據(jù)了主導(dǎo)地位呢？主要原因還是因?yàn)?RNN 的結(jié)構(gòu)天然適配解決 NLP 的問(wèn)題，NLP 的輸入往往是個(gè)不定長(zhǎng)的線性序列句子，而 RNN 本身結(jié)構(gòu)就是個(gè)可以接納不定長(zhǎng)輸入的由前向后進(jìn)行信息線性傳導(dǎo)的網(wǎng)絡(luò)結(jié)構(gòu)，而在 LSTM 引入三個(gè)門(mén)后，對(duì)于捕獲長(zhǎng)距離特征也是非常有效的。所以 RNN 特別適合 NLP 這種線形序列應(yīng)用場(chǎng)景，這是 RNN 為何在 NLP 界如此流行的根本原因。

RNN 在新時(shí)代面臨的兩個(gè)嚴(yán)重問(wèn)題

RNN 在 NLP 界一直紅了很多年（2014-2018？），在 2018 年之前，大部分各個(gè)子領(lǐng)域的 State of Art 的結(jié)果都是 RNN 獲得的。但是最近一年來(lái)，眼看著 RNN 的領(lǐng)袖群倫的地位正在被動(dòng)搖，所謂各領(lǐng)風(fēng)騷 3-5 年，看來(lái)網(wǎng)紅模型也不例外。

那這又是因?yàn)槭裁茨?？主要有兩個(gè)原因。

第一個(gè)原因在于一些后起之秀新模型的崛起，比如經(jīng)過(guò)特殊改造的 CNN 模型，以及最近特別流行的 Transformer，這些后起之秀尤其是 Transformer 的應(yīng)用效果相比 RNN 來(lái)說(shuō)，目前看具有明顯的優(yōu)勢(shì)。這是個(gè)主要原因，老人如果干不過(guò)新人，又沒(méi)有脫胎換骨自我革命的能力，自然要自覺(jué)或不自愿地退出歷史舞臺(tái)，這是自然規(guī)律。至于 RNN 能力偏弱的具體證據(jù)，本文后面會(huì)專(zhuān)門(mén)談，這里不展開(kāi)講。當(dāng)然，技術(shù)人員里的 RNN 保皇派們，這個(gè)群體規(guī)模應(yīng)該還是相當(dāng)大的，他們不會(huì)輕易放棄曾經(jīng)這么熱門(mén)過(guò)的流量明星的，所以也想了或者正在想一些改進(jìn)方法，試圖給 RNN 延年益壽。至于這些方法是什么，有沒(méi)有作用，后面也陸續(xù)會(huì)談。

另外一個(gè)嚴(yán)重阻礙 RNN 將來(lái)繼續(xù)走紅的問(wèn)題是：RNN 本身的序列依賴(lài)結(jié)構(gòu)對(duì)于大規(guī)模并行計(jì)算來(lái)說(shuō)相當(dāng)之不友好。通俗點(diǎn)說(shuō)，就是 RNN 很難具備高效的并行計(jì)算能力，這個(gè)乍一看好像不是太大的問(wèn)題，其實(shí)問(wèn)題很?chē)?yán)重。如果你僅僅滿(mǎn)足于通過(guò)改 RNN 發(fā)一篇論文，那么這確實(shí)不是大問(wèn)題，但是如果工業(yè)界進(jìn)行技術(shù)選型的時(shí)候，在有快得多的模型可用的前提下，是不太可能選擇那么慢的模型的。一個(gè)沒(méi)有實(shí)際落地應(yīng)用支撐其存在價(jià)值的模型，其前景如何這個(gè)問(wèn)題，估計(jì)用小腦思考也能得出答案。

那問(wèn)題來(lái)了：為什么 RNN 并行計(jì)算能力比較差？是什么原因造成的？

放棄幻想，全面擁抱 Transformer：自然語(yǔ)言處理三大特征抽取器（CNN/RNN/TF）比較（上篇）

我們知道，RNN 之所以是 RNN，能將其和其它模型區(qū)分開(kāi)的最典型標(biāo)志是：T 時(shí)刻隱層狀態(tài)的計(jì)算，依賴(lài)兩個(gè)輸入，一個(gè)是 T 時(shí)刻的句子輸入單詞 Xt，這個(gè)不算特點(diǎn)，所有模型都要接收這個(gè)原始輸入；關(guān)鍵的是另外一個(gè)輸入，T 時(shí)刻的隱層狀態(tài) St 還依賴(lài) T-1 時(shí)刻的隱層狀態(tài) S(t-1) 的輸出，這是最能體現(xiàn) RNN 本質(zhì)特征的一點(diǎn)，RNN 的歷史信息是通過(guò)這個(gè)信息傳輸渠道往后傳輸?shù)模疽鈪⒖忌蠄D。那么為什么 RNN 的并行計(jì)算能力不行呢？問(wèn)題就出在這里。因?yàn)?T 時(shí)刻的計(jì)算依賴(lài) T-1 時(shí)刻的隱層計(jì)算結(jié)果，而 T-1 時(shí)刻的計(jì)算依賴(lài) T-2 時(shí)刻的隱層計(jì)算結(jié)果…….. 這樣就形成了所謂的序列依賴(lài)關(guān)系。就是說(shuō)只能先把第 1 時(shí)間步的算完，才能算第 2 時(shí)間步的結(jié)果，這就造成了 RNN 在這個(gè)角度上是無(wú)法并行計(jì)算的，只能老老實(shí)實(shí)地按著時(shí)間步一個(gè)單詞一個(gè)單詞往后走。

而 CNN 和 Transformer 就不存在這種序列依賴(lài)問(wèn)題，所以對(duì)于這兩者來(lái)說(shuō)并行計(jì)算能力就不是問(wèn)題，每個(gè)時(shí)間步的操作可以并行一起計(jì)算。

那么能否針對(duì)性地對(duì) RNN 改造一下，提升它的并行計(jì)算能力呢？如果可以的話，效果如何呢？下面我們討論一下這個(gè)問(wèn)題。

如何改造 RNN 使其具備并行計(jì)算能力？

上面說(shuō)過(guò)，RNN 不能并行計(jì)算的癥結(jié)所在，在于 T 時(shí)刻對(duì) T-1 時(shí)刻計(jì)算結(jié)果的依賴(lài)，而這體現(xiàn)在隱層之間的全連接網(wǎng)絡(luò)上。既然癥結(jié)在這里，那么要想解決問(wèn)題，也得在這個(gè)環(huán)節(jié)下手才行。在這個(gè)環(huán)節(jié)多做點(diǎn)什么事情能夠增加 RNN 的并行計(jì)算能力呢？你可以想一想。

其實(shí)留給你的選項(xiàng)并不多，你可以有兩個(gè)大的思路來(lái)改進(jìn)：一種是仍然保留任意連續(xù)時(shí)間步（T-1 到 T 時(shí)刻）之間的隱層連接；而另外一種是部分地打斷連續(xù)時(shí)間步（T-1 到 T 時(shí)刻）之間的隱層連接。

我們先來(lái)看第一種方法，現(xiàn)在我們的問(wèn)題轉(zhuǎn)化成了：我們?nèi)匀灰Ａ羧我膺B續(xù)時(shí)間步（T-1 到 T 時(shí)刻）之間的隱層連接，但是在這個(gè)前提下，我們還要能夠做到并行計(jì)算，這怎么處理呢？因?yàn)橹灰Ａ暨B續(xù)兩個(gè)時(shí)間步的隱層連接，則意味著要計(jì)算 T 時(shí)刻的隱層結(jié)果，就需要 T-1 時(shí)刻隱層結(jié)果先算完，這不又落入了序列依賴(lài)的陷阱里了嗎？嗯，確實(shí)是這樣，但是為什么一定要在不同時(shí)間步的輸入之間并行呢？沒(méi)有人說(shuō) RNN 的并行計(jì)算一定發(fā)生在不同時(shí)間步上啊，你想想，隱層是不是也是包含很多神經(jīng)元？那么在隱層神經(jīng)元之間并行計(jì)算行嗎？如果你要是還沒(méi)理解這是什么意思，那請(qǐng)看下圖。

放棄幻想，全面擁抱 Transformer：自然語(yǔ)言處理三大特征抽取器（CNN/RNN/TF）比較（上篇）

上面的圖只顯示了各個(gè)時(shí)間步的隱層節(jié)點(diǎn)，每個(gè)時(shí)間步的隱層包含 3 個(gè)神經(jīng)元，這是個(gè)俯視圖，是從上往下看 RNN 的隱層節(jié)點(diǎn)的。另外，連續(xù)兩個(gè)時(shí)間步的隱層神經(jīng)元之間仍然有連接，上圖沒(méi)有畫(huà)出來(lái)是為了看著簡(jiǎn)潔一些。這下應(yīng)該明白了吧，假設(shè)隱層神經(jīng)元有 3 個(gè)，那么我們可以形成 3 路并行計(jì)算（紅色箭頭分隔開(kāi)成了三路），而每一路因?yàn)槿匀淮嬖谛蛄幸蕾?lài)問(wèn)題，所以每一路內(nèi)仍然是串行的。大思路應(yīng)該明白了是吧？但是了解 RNN 結(jié)構(gòu)的同學(xué)會(huì)發(fā)現(xiàn)這樣還遺留一個(gè)問(wèn)題：隱層神經(jīng)元之間的連接是全連接，就是說(shuō) T 時(shí)刻某個(gè)隱層神經(jīng)元與 T-1 時(shí)刻所有隱層神經(jīng)元都有連接，如果是這樣，是無(wú)法做到在神經(jīng)元之間并行計(jì)算的，你可以想想為什么，這個(gè)簡(jiǎn)單，我假設(shè)你有能力想明白。那么怎么辦呢？很簡(jiǎn)單，T 時(shí)刻和 T-1 時(shí)刻的隱層神經(jīng)元之間的連接關(guān)系需要改造，從之前的全連接，改造成對(duì)應(yīng)位置的神經(jīng)元（就是上圖被紅箭頭分隔到同一行的神經(jīng)元之間）有連接，和其它神經(jīng)元沒(méi)有連接。這樣就可以解決這個(gè)問(wèn)題，在不同路的隱層神經(jīng)元之間可以并行計(jì)算了。

第一種改造 RNN 并行計(jì)算能力的方法思路大致如上所述，這種方法的代表就是論文「Simple Recurrent Units for Highly Parallelizable Recurrence」中提出的 SRU 方法，它最本質(zhì)的改進(jìn)是把隱層之間的神經(jīng)元依賴(lài)由全連接改成了哈達(dá)馬乘積，這樣 T 時(shí)刻隱層單元本來(lái)對(duì) T-1 時(shí)刻所有隱層單元的依賴(lài)，改成了只是對(duì) T-1 時(shí)刻對(duì)應(yīng)單元的依賴(lài)，于是可以在隱層單元之間進(jìn)行并行計(jì)算，但是收集信息仍然是按照時(shí)間序列來(lái)進(jìn)行的。所以其并行性是在隱層單元之間發(fā)生的，而不是在不同時(shí)間步之間發(fā)生的。

這其實(shí)是比較巧妙的一種方法，但是它的問(wèn)題在于其并行程度上限是有限的，并行程度取決于隱層神經(jīng)元個(gè)數(shù)，而一般這個(gè)數(shù)值往往不會(huì)太大，再增加并行性已經(jīng)不太可能。另外每一路并行線路仍然需要序列計(jì)算，這也會(huì)拖慢整體速度。SRU 的測(cè)試速度為：在文本分類(lèi)上和原始 CNN（Kim 2014）的速度相當(dāng)，論文沒(méi)有說(shuō) CNN 是否采取了并行訓(xùn)練方法。其它在復(fù)雜任務(wù)閱讀理解及 MT 任務(wù)上只做了效果評(píng)估，沒(méi)有和 CNN 進(jìn)行速度比較，我估計(jì)這是有原因的，因?yàn)閺?fù)雜任務(wù)往往需要深層網(wǎng)絡(luò)，其它的就不妄作猜測(cè)了。

放棄幻想，全面擁抱 Transformer：自然語(yǔ)言處理三大特征抽取器（CNN/RNN/TF）比較（上篇）

第二種改進(jìn)典型的思路是：為了能夠在不同時(shí)間步輸入之間進(jìn)行并行計(jì)算，那么只有一種做法，那就是打斷隱層之間的連接，但是又不能全打斷，因?yàn)檫@樣基本就無(wú)法捕獲組合特征了，所以唯一能選的策略就是部分打斷，比如每隔 2 個(gè)時(shí)間步打斷一次，但是距離稍微遠(yuǎn)點(diǎn)的特征如何捕獲呢？只能加深層深，通過(guò)層深來(lái)建立遠(yuǎn)距離特征之間的聯(lián)系。代表性模型比如上圖展示的 Sliced RNN。我當(dāng)初看到這個(gè)模型的時(shí)候，心里忍不住發(fā)出杠鈴般的笑聲，情不自禁地走上前跟他打了個(gè)招呼：你好呀，CNN 模型，想不到你這個(gè)糙漢子有一天也會(huì)穿上粉色裙裝，裝扮成 RNN 的樣子出現(xiàn)在我面前啊，哈哈。了解 CNN 模型的同學(xué)看到我上面這句話估計(jì)會(huì)莞爾會(huì)心一笑：這不就是簡(jiǎn)化版本的 CNN 嗎？不了解 CNN 的同學(xué)建議看完后面 CNN 部分再回頭來(lái)看看是不是這個(gè)意思。

那經(jīng)過(guò)這種改造的 RNN 速度改進(jìn)如何呢？論文給出了速度對(duì)比實(shí)驗(yàn)，歸納起來(lái)，SRNN 速度比 GRU 模型快 5 到 15 倍，嗯，效果不錯(cuò)，但是跟對(duì)比模型 DC-CNN 模型速度比較起來(lái)，比 CNN 模型仍然平均慢了大約 3 倍。這很正常但是又有點(diǎn)說(shuō)不太過(guò)去，說(shuō)正常是因?yàn)楸緛?lái)這就是把 RNN 改頭換面成類(lèi)似 CNN 的結(jié)構(gòu)，而片段里仍然采取 RNN 序列模型，所以必然會(huì)拉慢速度，比 CNN 慢再正常不過(guò)了。說(shuō)「說(shuō)不過(guò)去」是指的是：既然本質(zhì)上是 CNN，速度又比 CNN 慢，那么這么改的意義在哪里？為什么不直接用 CNN 呢？是不是？前面那位因?yàn)槌蕴澇缘纳偎詯?ài)抬杠的同學(xué)又會(huì)說(shuō)了：也許人家效果特別好呢。嗯，從這個(gè)結(jié)構(gòu)的作用機(jī)制上看，可能性不太大。你說(shuō)論文實(shí)驗(yàn)部分證明了這一點(diǎn)呀，我認(rèn)為實(shí)驗(yàn)部分對(duì)比試驗(yàn)做的不充分，需要補(bǔ)充除了 DC-CNN 外的其他 CNN 模型進(jìn)行對(duì)比。當(dāng)然這點(diǎn)純屬個(gè)人意見(jiàn)，別當(dāng)真，因?yàn)槲抑v起話來(lái)的時(shí)候經(jīng)常搖頭晃腦，此時(shí)一般會(huì)有人驚奇地跟我反饋說(shuō)：為什么你一講話我就聽(tīng)到了水聲？

上面列舉了兩種大的改進(jìn) RNN 并行計(jì)算能力的思路，我個(gè)人對(duì)于 RNN 的并行計(jì)算能力持悲觀態(tài)度，主要因?yàn)?RNN 本質(zhì)特性決定了我們能做的選擇太少。無(wú)非就是選擇打斷還是不打斷隱層連接的問(wèn)題。如果選擇打斷，就會(huì)面臨上面的問(wèn)題，你會(huì)發(fā)現(xiàn)它可能已經(jīng)不是 RNN 模型了，為了讓它看上去還像是 RNN，所以在打斷片段里仍然采取 RNN 結(jié)構(gòu)，這樣無(wú)疑會(huì)拉慢速度，所以這是個(gè)兩難的選擇，與其這樣不如直接換成其它模型；如果我們選擇不打斷，貌似只能在隱層神經(jīng)元之間進(jìn)行并行，而這樣做的缺點(diǎn)是：一方面并行能力上限很低；另外一方面里面依然存在的序列依賴(lài)估計(jì)仍然是個(gè)問(wèn)題。這是為何悲觀的原因，主要是看不到大的希望。

偏師之將 CNN：刺激戰(zhàn)場(chǎng)絕地求生

在一年多前，CNN 是自然語(yǔ)言處理中除了 RNN 外最常見(jiàn)的深度學(xué)習(xí)模型，這里介紹下 CNN 特征抽取器，會(huì)比 RNN 說(shuō)得詳細(xì)些，主要考慮到大家對(duì)它的熟悉程度可能沒(méi)有 RNN 那么高。

NLP 中早期的懷舊版 CNN 模型

放棄幻想，全面擁抱 Transformer：自然語(yǔ)言處理三大特征抽取器（CNN/RNN/TF）比較（上篇）

最早將 CNN 引入 NLP 的是 Kim 在 2014 年做的工作，論文和網(wǎng)絡(luò)結(jié)構(gòu)參考上圖。一般而言，輸入的字或者詞用 Word Embedding 的方式表達(dá)，這樣本來(lái)一維的文本信息輸入就轉(zhuǎn)換成了二維的輸入結(jié)構(gòu)，假設(shè)輸入 X 包含 n 個(gè)字符，而每個(gè)字符的 Word Embedding 的長(zhǎng)度為 d，那么輸入就是 d*n 的二維向量。

卷積層本質(zhì)上是個(gè)特征抽取層，可以設(shè)定超參數(shù) F 來(lái)指定卷積層包含多少個(gè)卷積核（Filter）。對(duì)于某個(gè) Filter 來(lái)說(shuō)，可以想象有一個(gè) d*k 大小的移動(dòng)窗口從輸入矩陣的第一個(gè)字開(kāi)始不斷往后移動(dòng)，其中 k 是 Filter 指定的窗口大小，d 是 Word Embedding 長(zhǎng)度。對(duì)于某個(gè)時(shí)刻的窗口，通過(guò)神經(jīng)網(wǎng)絡(luò)的非線性變換，將這個(gè)窗口內(nèi)的輸入值轉(zhuǎn)換為某個(gè)特征值，隨著窗口不斷往后移動(dòng)，這個(gè) Filter 對(duì)應(yīng)的特征值不斷產(chǎn)生，形成這個(gè) Filter 的特征向量。這就是卷積核抽取特征的過(guò)程。卷積層內(nèi)每個(gè) Filter 都如此操作，就形成了不同的特征序列。Pooling 層則對(duì) Filter 的特征進(jìn)行降維操作，形成最終的特征。一般在 Pooling 層之后連接全聯(lián)接層神經(jīng)網(wǎng)絡(luò)，形成最后的分類(lèi)過(guò)程。

這就是最早應(yīng)用在 NLP 領(lǐng)域 CNN 模型的工作機(jī)制，用來(lái)解決 NLP 中的句子分類(lèi)任務(wù)，看起來(lái)還是很簡(jiǎn)潔的，之后陸續(xù)出現(xiàn)了在此基礎(chǔ)上的改進(jìn)模型。這些懷舊版 CNN 模型在一些任務(wù)上也能和當(dāng)時(shí)懷舊版本的 RNN 模型效果相當(dāng)，所以在 NLP 若干領(lǐng)域也能野蠻生長(zhǎng)，但是在更多的 NLP 領(lǐng)域，還是處于被 RNN 模型壓制到抑郁癥早期的尷尬局面。那為什么在圖像領(lǐng)域打遍天下無(wú)敵手的 CNN，一旦跑到 NLP 的地盤(pán)，就被 RNN 這個(gè)地頭蛇壓制得無(wú)顏見(jiàn)圖像領(lǐng)域江東父老呢？這說(shuō)明這個(gè)版本的 CNN 還是有很多問(wèn)題的，其實(shí)最根本的癥結(jié)所在還是老革命遇到了新問(wèn)題，主要是到了新環(huán)境沒(méi)有針對(duì)新環(huán)境的特性做出針對(duì)性的改變，所以面臨水土不服的問(wèn)題。

CNN 能在 RNN 縱橫的各種 NLP 任務(wù)環(huán)境下生存下來(lái)嗎？謎底即將揭曉。

CNN 的進(jìn)化：物競(jìng)天擇的模型斗獸場(chǎng)

下面我們先看看懷舊版 CNN 存在哪些問(wèn)題，然后看看我們的 NLP 專(zhuān)家們是如何改造 CNN，一直改到目前看上去還算效果不錯(cuò)的現(xiàn)代版本 CNN 的。

首先，我們先要明確一點(diǎn)：CNN 捕獲到的是什么特征呢？從上述懷舊版本 CNN 卷積層的運(yùn)作機(jī)制你大概看出來(lái)了，關(guān)鍵在于卷積核覆蓋的那個(gè)滑動(dòng)窗口，CNN 能捕獲到的特征基本都體現(xiàn)在這個(gè)滑動(dòng)窗口里了。大小為 k 的滑動(dòng)窗口輕輕的穿過(guò)句子的一個(gè)個(gè)單詞，蕩起陣陣漣漪，那么它捕獲了什么? 其實(shí)它捕獲到的是單詞的 k-gram 片段信息，這些 k-gram 片段就是 CNN 捕獲到的特征，k 的大小決定了能捕獲多遠(yuǎn)距離的特征。

放棄幻想，全面擁抱 Transformer：自然語(yǔ)言處理三大特征抽取器（CNN/RNN/TF）比較（上篇）

說(shuō)完這個(gè)，我們來(lái)看 Kim 版 CNN 的第一個(gè)問(wèn)題：它只有一個(gè)卷積層。表面看上去好像是深度不夠的問(wèn)題是吧？我會(huì)反問(wèn)你說(shuō)：為什么要把 CNN 作深呢？其實(shí)把深度做起來(lái)是手段，不是目的。只有一個(gè)卷積層帶來(lái)的問(wèn)題是：對(duì)于遠(yuǎn)距離特征，單層 CNN 是無(wú)法捕獲到的，如果滑動(dòng)窗口 k 最大為 2，而如果有個(gè)遠(yuǎn)距離特征距離是 5，那么無(wú)論上多少個(gè)卷積核，都無(wú)法覆蓋到長(zhǎng)度為 5 的距離的輸入，所以它是無(wú)法捕獲長(zhǎng)距離特征的。

放棄幻想，全面擁抱 Transformer：自然語(yǔ)言處理三大特征抽取器（CNN/RNN/TF）比較（上篇）

那么怎樣才能捕獲到長(zhǎng)距離的特征呢？有兩種典型的改進(jìn)方法：一種是假設(shè)我們?nèi)匀挥脝蝹€(gè)卷積層，滑動(dòng)窗口大小 k 假設(shè)為 3，就是只接收三個(gè)輸入單詞，但是我們想捕獲距離為 5 的特征，怎么做才行？顯然，如果卷積核窗口仍然覆蓋連續(xù)區(qū)域，這肯定是完不成任務(wù)的。提示一下：你玩過(guò)跳一跳是吧？能采取類(lèi)似策略嗎？對(duì)，你可以跳著覆蓋呀，是吧？這就是 Dilated 卷積的基本思想，確實(shí)也是一種解決方法。

放棄幻想，全面擁抱 Transformer：自然語(yǔ)言處理三大特征抽取器（CNN/RNN/TF）比較（上篇）

第二種方法是把深度做起來(lái)。第一層卷積層，假設(shè)滑動(dòng)窗口大小 k 是 3，如果再往上疊一層卷積層，假設(shè)滑動(dòng)窗口大小也是 3，但是第二層窗口覆蓋的是第一層窗口的輸出特征，所以它其實(shí)能覆蓋輸入的距離達(dá)到了 5。如果繼續(xù)往上疊加卷積層，可以繼續(xù)增大卷積核覆蓋輸入的長(zhǎng)度。

上面是兩種典型的解決 CNN 遠(yuǎn)距離特征捕獲能力的方案，Dilated CNN 偏技巧一些，而且疊加卷積層時(shí)超參如何設(shè)置有些學(xué)問(wèn)，因?yàn)檫B續(xù)跳接可能會(huì)錯(cuò)過(guò)一些特征組合，所以需要精心調(diào)節(jié)參數(shù)搭配，保證所有可能組合都被覆蓋到。相對(duì)而言，把 CNN 作深是主流發(fā)展方向。上面這個(gè)道理好理解，其實(shí)自從 CNN 一出現(xiàn)，人們就想各種辦法試圖把 CNN 的深度做起來(lái)，但是現(xiàn)實(shí)往往是無(wú)情的，發(fā)現(xiàn)怎么折騰，CNN 做 NLP 問(wèn)題就是做不深，做到 2 到 3 層卷積層就做不上去了，網(wǎng)絡(luò)更深對(duì)任務(wù)效果沒(méi)什么幫助（請(qǐng)不要拿 CharCNN 來(lái)做反例，后來(lái)研究表明使用單詞的 2 層 CNN 效果超過(guò) CharCNN）。目前看來(lái)，還是深層網(wǎng)絡(luò)參數(shù)優(yōu)化手段不足導(dǎo)致的這個(gè)問(wèn)題，而不是層深沒(méi)有用。后來(lái) Resnet 等圖像領(lǐng)域的新技術(shù)出現(xiàn)后，很自然地，人們會(huì)考慮把 Skip Connection 及各種 Norm 等參數(shù)優(yōu)化技術(shù)引入，這才能慢慢把 CNN 的網(wǎng)絡(luò)深度做起來(lái)。

上面說(shuō)的是 Kim 版本 CNN 的第一個(gè)問(wèn)題，無(wú)法捕獲遠(yuǎn)距離特征的問(wèn)題，以及后面科研人員提出的主要解決方案?；仡^看 Kim 版本 CNN 還有一個(gè)問(wèn)題，就是那個(gè) Max Pooling 層，這塊其實(shí)與 CNN 能否保持輸入句子中單詞的位置信息有關(guān)系。首先我想問(wèn)個(gè)問(wèn)題：RNN 因?yàn)槭蔷€性序列結(jié)構(gòu)，所以很自然它天然就會(huì)把位置信息編碼進(jìn)去；那么，CNN 是否能夠保留原始輸入的相對(duì)位置信息呢？我們前面說(shuō)過(guò)對(duì)于 NLP 問(wèn)題來(lái)說(shuō)，位置信息是很有用的。其實(shí) CNN 的卷積核是能保留特征之間的相對(duì)位置的，道理很簡(jiǎn)單，滑動(dòng)窗口從左到右滑動(dòng)，捕獲到的特征也是如此順序排列，所以它在結(jié)構(gòu)上已經(jīng)記錄了相對(duì)位置信息了。但是如果卷積層后面立即接上 Pooling 層的話，Max Pooling 的操作邏輯是：從一個(gè)卷積核獲得的特征向量里只選中并保留最強(qiáng)的那一個(gè)特征，所以到了 Pooling 層，位置信息就被扔掉了，這在 NLP 里其實(shí)是有信息損失的。所以在 NLP 領(lǐng)域里，目前 CNN 的一個(gè)發(fā)展趨勢(shì)是拋棄 Pooling 層，靠全卷積層來(lái)疊加網(wǎng)絡(luò)深度，這背后是有原因的（當(dāng)然圖像領(lǐng)域也是這個(gè)趨勢(shì)）。

放棄幻想，全面擁抱 Transformer：自然語(yǔ)言處理三大特征抽取器（CNN/RNN/TF）比較（上篇）

上圖展示了在 NLP 領(lǐng)域能夠施展身手的摩登 CNN 的主體結(jié)構(gòu)，通常由 1-D 卷積層來(lái)疊加深度，使用 Skip Connection 來(lái)輔助優(yōu)化，也可以引入 Dilated CNN 等手段。比如 ConvS2S 主體就是上圖所示結(jié)構(gòu)，Encoder 包含 15 個(gè)卷積層，卷積核 kernel size=3，覆蓋輸入長(zhǎng)度為 25。當(dāng)然對(duì)于 ConvS2S 來(lái)說(shuō)，卷積核里引入 GLU 門(mén)控非線性函數(shù)也有重要幫助，限于篇幅，這里不展開(kāi)說(shuō)了，GLU 貌似是 NLP 里 CNN 模型必備的構(gòu)件，值得掌握。再比如 TCN（論文：An Empirical Evaluation of Generic Convolutional and Recurrent Networks for Sequence Modeling），集成了幾項(xiàng)技術(shù)：利用 Dilated CNN 拓展單層卷積層的輸入覆蓋長(zhǎng)度，利用全卷積層堆疊層深，使用 Skip Connection 輔助優(yōu)化，引入 Casual CNN 讓網(wǎng)絡(luò)結(jié)構(gòu)看不到 T 時(shí)間步后的數(shù)據(jù)。不過(guò) TCN 的實(shí)驗(yàn)做得有兩個(gè)明顯問(wèn)題：一個(gè)問(wèn)題是任務(wù)除了語(yǔ)言模型外都不是典型的 NLP 任務(wù)，而是合成數(shù)據(jù)任務(wù)，所以論文結(jié)論很難直接說(shuō)就適合 NLP 領(lǐng)域；另外一點(diǎn)，它用來(lái)進(jìn)行效果比較的對(duì)比方法，沒(méi)有用當(dāng)時(shí)效果很好的模型來(lái)對(duì)比，比較基準(zhǔn)低。所以 TCN 的模型效果說(shuō)服力不太夠。其實(shí)它該引入的元素也基本引入了，實(shí)驗(yàn)說(shuō)服力不夠，我覺(jué)得可能是它命中缺 GLU 吧。

除此外，簡(jiǎn)單談一下 CNN 的位置編碼問(wèn)題和并行計(jì)算能力問(wèn)題。上面說(shuō)了，CNN 的卷積層其實(shí)是保留了相對(duì)位置信息的，只要你在設(shè)計(jì)模型的時(shí)候別手賤，中間層不要隨手瞎插入 Pooling 層，問(wèn)題就不大，不專(zhuān)門(mén)在輸入部分對(duì) position 進(jìn)行編碼也行。但是也可以類(lèi)似 ConvS2S 那樣，專(zhuān)門(mén)在輸入部分給每個(gè)單詞增加一個(gè) position embedding，將單詞的 position embedding 和詞向量 embedding 疊加起來(lái)形成單詞輸入，這樣也可以，也是常規(guī)做法。

至于 CNN 的并行計(jì)算能力，那是非常強(qiáng)的，這其實(shí)很好理解。我們考慮單層卷積層，首先對(duì)于某個(gè)卷積核來(lái)說(shuō)，每個(gè)滑動(dòng)窗口位置之間沒(méi)有依賴(lài)關(guān)系，所以完全可以并行計(jì)算；另外，不同的卷積核之間也沒(méi)什么相互影響，所以也可以并行計(jì)算。CNN 的并行度是非常自由也非常高的，這是 CNN 的一個(gè)非常好的優(yōu)點(diǎn)。

以上內(nèi)容介紹了懷舊版 CNN 是如何在 NLP 修羅場(chǎng)一步步通過(guò)自我進(jìn)化生存到今天的。CNN 的進(jìn)化方向，如果千言萬(wàn)語(yǔ)一句話歸納的話，那就是：想方設(shè)法把 CNN 的深度做起來(lái)，隨著深度的增加，很多看似無(wú)關(guān)的問(wèn)題就隨之解決了。就跟我們國(guó)家最近 40 年的主旋律是發(fā)展經(jīng)濟(jì)一樣，經(jīng)濟(jì)發(fā)展好了，很多問(wèn)題就不是問(wèn)題了。最近幾年之所以大家感到各方面很困難，癥結(jié)就在于經(jīng)濟(jì)不行了，所以很多問(wèn)題無(wú)法通過(guò)經(jīng)濟(jì)帶動(dòng)來(lái)解決，于是看似各種花樣的困難就冒出來(lái)，這是一個(gè)道理。

那么介紹了這么多，摩登版 CNN 效果如何呢？與 RNN 及 Transforme 比起來(lái)怎樣？別著急，后面會(huì)專(zhuān)門(mén)談這個(gè)問(wèn)題。

白衣騎士 Transformer：蓋世英雄站上舞臺(tái)

放棄幻想，全面擁抱 Transformer：自然語(yǔ)言處理三大特征抽取器（CNN/RNN/TF）比較（上篇）

Transformer 是谷歌在 17 年做機(jī)器翻譯任務(wù)的「Attention is all you need」的論文中提出的，引起了相當(dāng)大的反響。每一位從事 NLP 研發(fā)的同仁都應(yīng)該透徹搞明白 Transformer，它的重要性毫無(wú)疑問(wèn)，尤其是你在看完我這篇文章之后，我相信你的緊迫感會(huì)更迫切，我就是這么一位善于制造焦慮的能手。不過(guò)這里沒(méi)打算重點(diǎn)介紹它，想要入門(mén) Transformer 的可以參考以下三篇文章：一個(gè)是 Jay Alammar 可視化地介紹 Transformer 的博客文章 The Illustrated Transformer，非常容易理解整個(gè)機(jī)制，建議先從這篇看起，這是中文翻譯版本；第二篇是 Calvo 的博客：Dissecting BERT Part 1: The Encoder，盡管說(shuō)是解析 Bert，但是因?yàn)?Bert 的 Encoder 就是 Transformer，所以其實(shí)它是在解析 Transformer，里面舉的例子很好；再然后可以進(jìn)階一下，參考哈佛大學(xué) NLP 研究組寫(xiě)的「The Annotated Transformer.」，代碼原理雙管齊下，講得也很清楚。

下面只說(shuō)跟本文主題有關(guān)的內(nèi)容。

放棄幻想，全面擁抱 Transformer：自然語(yǔ)言處理三大特征抽取器（CNN/RNN/TF）比較（上篇）

這里要澄清一下，本文所說(shuō)的 Transformer 特征抽取器并非原始論文所指。我們知道，「Attention is all you need」論文中說(shuō)的的 Transformer 指的是完整的 Encoder-Decoder 框架，而我這里是從特征提取器角度來(lái)說(shuō)的，你可以簡(jiǎn)單理解為論文中的 Encoder 部分。因?yàn)?Encoder 部分目的比較單純，就是從原始句子中提取特征，而 Decoder 部分則功能相對(duì)比較多，除了特征提取功能外，還包含語(yǔ)言模型功能，以及用 attention 機(jī)制表達(dá)的翻譯模型功能。所以這里請(qǐng)注意，避免后續(xù)理解概念產(chǎn)生混淆。

Transformer 的 Encoder 部分（不是上圖一個(gè)一個(gè)的標(biāo)為 encoder 的模塊，而是紅框內(nèi)的整體，上圖來(lái)自 The Illustrated Transformer，Jay Alammar 把每個(gè) Block 稱(chēng)為 Encoder 不太符合常規(guī)叫法）是由若干個(gè)相同的 Transformer Block 堆疊成的。這個(gè) Transformer Block 其實(shí)才是 Transformer 最關(guān)鍵的地方，核心配方就在這里。那么它長(zhǎng)什么樣子呢？

放棄幻想，全面擁抱 Transformer：自然語(yǔ)言處理三大特征抽取器（CNN/RNN/TF）比較（上篇）

它的照片見(jiàn)上圖，看上去是不是很可愛(ài)，有點(diǎn)像安卓機(jī)器人是吧？這里需要強(qiáng)調(diào)一下，盡管 Transformer 原始論文一直重點(diǎn)在說(shuō) Self Attention，但是目前來(lái)看，能讓 Transformer 效果好的，不僅僅是 Self attention，這個(gè) Block 里所有元素，包括 Multi-head self attention，Skip connection，LayerNorm，F(xiàn)F 一起在發(fā)揮作用。為什么這么說(shuō)？你看到后面會(huì)體會(huì)到這一點(diǎn)。

我們針對(duì) NLP 任務(wù)的特點(diǎn)來(lái)說(shuō)下 Transformer 的對(duì)應(yīng)解決方案。首先，自然語(yǔ)言一般是個(gè)不定長(zhǎng)的句子，那么這個(gè)不定長(zhǎng)問(wèn)題怎么解決呢？Transformer 做法跟 CNN 是類(lèi)似的，一般設(shè)定輸入的最大長(zhǎng)度，如果句子沒(méi)那么長(zhǎng)，則用 Padding 填充，這樣整個(gè)模型輸入起碼看起來(lái)是定長(zhǎng)的了。另外，NLP 句子中單詞之間的相對(duì)位置是包含很多信息的，上面提過(guò)，RNN 因?yàn)榻Y(jié)構(gòu)就是線性序列的，所以天然會(huì)將位置信息編碼進(jìn)模型；而 CNN 的卷積層其實(shí)也是保留了位置相對(duì)信息的，所以什么也不做問(wèn)題也不大。但是對(duì)于 Transformer 來(lái)說(shuō)，為了能夠保留輸入句子單詞之間的相對(duì)位置信息，必須要做點(diǎn)什么。為啥它必須要做點(diǎn)什么呢？因?yàn)檩斎氲牡谝粚泳W(wǎng)絡(luò)是 Muli-head self attention 層，我們知道，Self attention 會(huì)讓當(dāng)前輸入單詞和句子中任意單詞發(fā)生關(guān)系，然后集成到一個(gè) embedding 向量里，但是當(dāng)所有信息到了 embedding 后，位置信息并沒(méi)有被編碼進(jìn)去。所以，Transformer 不像 RNN 或 CNN，必須明確的在輸入端將 Positon 信息編碼，Transformer 是用位置函數(shù)來(lái)進(jìn)行位置編碼的，而 Bert 等模型則給每個(gè)單詞一個(gè) Position embedding，將單詞 embedding 和單詞對(duì)應(yīng)的 position embedding 加起來(lái)形成單詞的輸入 embedding，類(lèi)似上文講的 ConvS2S 的做法。而關(guān)于 NLP 句子中長(zhǎng)距離依賴(lài)特征的問(wèn)題，Self attention 天然就能解決這個(gè)問(wèn)題，因?yàn)樵诩尚畔⒌臅r(shí)候，當(dāng)前單詞和句子中任意單詞都發(fā)生了聯(lián)系，所以一步到位就把這個(gè)事情做掉了。不像 RNN 需要通過(guò)隱層節(jié)點(diǎn)序列往后傳，也不像 CNN 需要通過(guò)增加網(wǎng)絡(luò)深度來(lái)捕獲遠(yuǎn)距離特征，Transformer 在這點(diǎn)上明顯方案是相對(duì)簡(jiǎn)單直觀的。說(shuō)這些是為了單獨(dú)介紹下 Transformer 是怎樣解決 NLP 任務(wù)幾個(gè)關(guān)鍵點(diǎn)的。

Transformer 有兩個(gè)版本：Transformer base 和 Transformer Big。兩者結(jié)構(gòu)其實(shí)是一樣的，主要區(qū)別是包含的 Transformer Block 數(shù)量不同，Transformer base 包含 12 個(gè) Block 疊加，而 Transformer Big 則擴(kuò)張一倍，包含 24 個(gè) Block。無(wú)疑 Transformer Big 在網(wǎng)絡(luò)深度，參數(shù)量以及計(jì)算量相對(duì) Transformer base 翻倍，所以是相對(duì)重的一個(gè)模型，但是效果也最好。

（上篇）

雷鋒網(wǎng) AI 科技評(píng)論經(jīng)作者許可轉(zhuǎn)載。

雷峰網(wǎng)版權(quán)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。