神經(jīng)結(jié)構(gòu)搜索在機(jī)器翻譯中的應(yīng)用

本文作者：小牛翻譯

編輯：賈偉

2019-10-18 15:29

導(dǎo)語：將結(jié)構(gòu)搜索應(yīng)用到機(jī)器翻譯

作者 | 張?jiān)：?/p>

單位 | 東北大學(xué)

張?jiān)：?，東北大學(xué)自然語言處理實(shí)驗(yàn)室 2018 級(jí)研究生，研究方向包括神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)搜索、機(jī)器翻譯。

東北大學(xué)自然語言處理實(shí)驗(yàn)室由姚天順教授創(chuàng)建于 1980 年，現(xiàn)由朱靖波教授、肖桐博士領(lǐng)導(dǎo)，長期從事計(jì)算語言學(xué)的相關(guān)研究工作，主要包括機(jī)器翻譯、語言分析、文本挖掘等。團(tuán)隊(duì)研發(fā)的支持140種語言互譯的小牛翻譯系統(tǒng)已經(jīng)得到廣泛應(yīng)用。

今天和大家介紹谷歌將結(jié)構(gòu)搜索應(yīng)用到機(jī)器翻譯的一項(xiàng)工作—The evolved transformer（ET）[1]。The evolved transformer 這項(xiàng)工作的出發(fā)點(diǎn)是將結(jié)構(gòu)搜索應(yīng)用到機(jī)器翻譯中，基于Transformer結(jié)構(gòu)選出更好的候選。于是這篇工作選取了進(jìn)化算法中的錦標(biāo)賽選擇方法，將Transformer結(jié)構(gòu)作為種子結(jié)構(gòu)作為熱啟動(dòng)，之后變異出更優(yōu)秀的結(jié)構(gòu)，由于進(jìn)化算法比較耗時(shí)，設(shè)計(jì)了遞增式動(dòng)態(tài)閾值算法加快搜索速度。

1、背景

近年來，深度學(xué)習(xí)在圖像和語言處理領(lǐng)域應(yīng)用得越來越廣泛，但是性能優(yōu)異的網(wǎng)絡(luò)都是人為根據(jù)大量的經(jīng)驗(yàn)去精心設(shè)計(jì)的，于是基于機(jī)器自己設(shè)計(jì)的神經(jīng)結(jié)構(gòu)搜索成了最近熱門的一個(gè)研究課題。

神經(jīng)結(jié)構(gòu)搜索（Neural architecture search，NAS）主要是利用機(jī)器，在設(shè)定好的搜索空間中按照給定的搜索策略，利用評(píng)價(jià)標(biāo)準(zhǔn)得到最優(yōu)的模型[2]。目前結(jié)構(gòu)搜索按策略分主要為三種，1)強(qiáng)化學(xué)習(xí)，2)進(jìn)化算法，3)梯度計(jì)算。

雖然在圖像領(lǐng)域，利用結(jié)構(gòu)搜索將一個(gè)基礎(chǔ)模型進(jìn)行放大的EfficientNet在圖像分類任務(wù)上達(dá)到了SOTA，但是在自然處理領(lǐng)域特別是機(jī)器翻譯，結(jié)構(gòu)搜索并沒有廣泛應(yīng)用。

相較于圖像識(shí)別任務(wù)，機(jī)器翻譯任務(wù)目前最先進(jìn)基于注意力機(jī)制的模型結(jié)構(gòu)更復(fù)雜，單個(gè)模型訓(xùn)練的時(shí)間更長，比如相同設(shè)備下，在英德14任務(wù)上訓(xùn)練一個(gè)搜索出的模型需要10個(gè)小時(shí)，但是對(duì)于圖像分類CIFAR-10任務(wù)使用代理技術(shù)只需要兩個(gè)小時(shí)[3]。因此在搜索空間和搜索的策略上都與圖像分類領(lǐng)域有著較大差異。

2、搜索空間

神經(jīng)結(jié)構(gòu)搜索第一步是定義好搜索空間，搜索空間對(duì)于結(jié)構(gòu)搜索是非常重要的[4]，這篇工作認(rèn)為使用熱啟動(dòng)——即初始的種子結(jié)構(gòu)是一個(gè)標(biāo)準(zhǔn)的Transformer結(jié)構(gòu)[5]--能搜索出更好的結(jié)構(gòu)。所以在空間設(shè)計(jì)上需要包含Transformer結(jié)構(gòu)。如圖1，

神經(jīng)結(jié)構(gòu)搜索在機(jī)器翻譯中的應(yīng)用

圖1 每個(gè)塊中的搜索空間

整個(gè)是一個(gè)塊的搜索空間，左分支和右分支的搜索空間是一致的。分支的輸入會(huì)從之前所有的結(jié)構(gòu)塊中選擇輸入索引，比如現(xiàn)在是第i層，則搜索空間為[0，i)；對(duì)于正則操作只選擇是否進(jìn)行操作；對(duì)于函數(shù)層則會(huì)選擇不同種類的卷積函數(shù)、門控單元、自注意力、編碼解碼注意力（僅對(duì)解碼端搜索可見）、沒有操作、剪掉分支；對(duì)于激活函數(shù)，搜索空間由SWISH，RELU, LEAKY RELU，NONE組成，融合函數(shù)的搜索空間為加法，聯(lián)接，乘法，最后組成一個(gè)隱藏層輸出，若輸入的維度不同，則左對(duì)齊之后如果是加法補(bǔ)0，乘法補(bǔ)1將輸入補(bǔ)齊成同一緯度。之后編碼端由6個(gè)塊組成一個(gè)單元，對(duì)于解碼端是8個(gè)塊組成，最后多個(gè)單元組成模型。設(shè)計(jì)的搜索空間可達(dá)7.3*10155個(gè)模型，同時(shí)這種空間設(shè)計(jì)成功地將Transformer容納進(jìn)搜索空間，如圖2所示，

神經(jīng)結(jié)構(gòu)搜索在機(jī)器翻譯中的應(yīng)用

圖2 用ET搜索空間表示標(biāo)準(zhǔn)Transformer結(jié)構(gòu)中編碼端

展示了如何利用設(shè)計(jì)的搜索空間表示標(biāo)準(zhǔn)Transformer編碼端結(jié)構(gòu)。

這種空間的設(shè)計(jì)整體上也是模仿圖像領(lǐng)域，將搜索出的單元結(jié)構(gòu)進(jìn)行堆疊，但是也有人指出，這樣做其實(shí)破壞了結(jié)構(gòu)的多樣性[6]，沒有能夠?qū)⒔Y(jié)構(gòu)搜索的能力完全發(fā)揮出來，同時(shí)作者在搜索的時(shí)候也將每個(gè)單元結(jié)構(gòu)中的塊數(shù)量進(jìn)行固定，但是沒有進(jìn)行深入的實(shí)驗(yàn)，只是根據(jù)Transformer結(jié)構(gòu)進(jìn)行經(jīng)驗(yàn)性設(shè)置，所以對(duì)于增加塊和刪除塊放縮操作并沒有涉及到，未來也可以從這個(gè)角度搜索出可伸縮的結(jié)構(gòu)。

3、搜索策略

對(duì)于搜索策略，由于已有一個(gè)不錯(cuò)的結(jié)構(gòu)Transformer，所有沒有采用強(qiáng)化學(xué)習(xí)的方法，轉(zhuǎn)而采用進(jìn)化算法中的錦標(biāo)賽選擇算法[7]，主要的過程如算法1，

神經(jīng)結(jié)構(gòu)搜索在機(jī)器翻譯中的應(yīng)用

圖3 錦標(biāo)賽選擇算法

首先通過一致的模型作為種子結(jié)構(gòu)，初始化第一代的結(jié)構(gòu)種群，之后對(duì)擁有最高準(zhǔn)確率的結(jié)構(gòu)進(jìn)行突變生成后代，訓(xùn)練和評(píng)價(jià)后代，將后代加入到種群中，移除掉種群中不符合條件的結(jié)構(gòu)，開始下一輪迭代。

為了大幅減少負(fù)面的搜索空間，同時(shí)為了給變異的后代一個(gè)好的初始點(diǎn)，文中采取了熱啟動(dòng)的方式，將Transformer作為種子結(jié)構(gòu)。為了防止沒有潛力的模型消耗過多的訓(xùn)練資源，文中提出了遞增式動(dòng)態(tài)閾值算法（PDH）。

該方法在搜索開始時(shí)和錦標(biāo)賽選擇算法方法一致，在訓(xùn)練當(dāng)前子代模型相對(duì)小的步數(shù)之后，評(píng)價(jià)適應(yīng)度，然后根據(jù)現(xiàn)有的適應(yīng)度選出合適的閾值，文中選取的是平均值，達(dá)到了閾值的子代會(huì)額外獲得一定的訓(xùn)練步數(shù)，而沒達(dá)到閾值的子代會(huì)被直接淘汰。

重復(fù)這個(gè)過程一直到訓(xùn)練到了最大的訓(xùn)練步數(shù)。能使用這種方法是因?yàn)樽髡呒僭O(shè)了生成的模型都是沒有過擬合的，所以適應(yīng)度是會(huì)隨著訓(xùn)練步數(shù)增加而增加，作者也在實(shí)驗(yàn)中證明了這一點(diǎn)。

對(duì)于三種主要的搜索方法，本文中主要選擇的是進(jìn)化算法，因?yàn)樵谒阉魇芟薜那闆r下，使用進(jìn)化算法的搜索效率是高于基于強(qiáng)化學(xué)習(xí)方法的，同時(shí)本文也已經(jīng)有一個(gè)非常好的初始點(diǎn)，故沒有選擇強(qiáng)化學(xué)習(xí)的方法。

同時(shí)還有基于梯度的方法，目前比較流行的one-shot方法[8]，由于顯存等限制，很難應(yīng)用于搜索機(jī)器翻譯復(fù)雜模型，但是其搜索出的結(jié)構(gòu)通常都非常豐富，網(wǎng)絡(luò)表示能力也很強(qiáng)，one-shot方法如何應(yīng)用到機(jī)器翻譯中，是否能得到更高表示能力的結(jié)構(gòu)，也是一個(gè)值得研究的問題。

4、實(shí)驗(yàn)

文中展示了搜索出編碼端和解碼端的結(jié)構(gòu)，如圖4和圖5，

神經(jīng)結(jié)構(gòu)搜索在機(jī)器翻譯中的應(yīng)用

圖4 ET解碼端結(jié)構(gòu)

神經(jīng)結(jié)構(gòu)搜索在機(jī)器翻譯中的應(yīng)用

圖5 ET編碼端結(jié)構(gòu)

整體來說變化不大，編碼端對(duì)前饋網(wǎng)絡(luò)進(jìn)行了變化，將第一個(gè)注意力操作變成了線性門控操作，解碼端也在同樣位置發(fā)生了更多的變化。這也證明了之前基于設(shè)計(jì)經(jīng)驗(yàn)進(jìn)行熱啟動(dòng)是合理的。

之后文中對(duì)比了是否使用熱啟動(dòng)搜索和PDH搜索方法，如表1所示，

神經(jīng)結(jié)構(gòu)搜索在機(jī)器翻譯中的應(yīng)用

表1 各種搜索設(shè)置得到的模型在校驗(yàn)集上的困惑度

對(duì)比第一行和第二行，可以看到使用熱啟動(dòng)能極大的搜索出模型的性能，對(duì)比第一行和第三行，能看出利用PDH算法即使不利用非常多的模型也能搜索得到最好的性能。最后三行從經(jīng)驗(yàn)上證明PDH方法是在沒有過擬合的訓(xùn)練步數(shù)基礎(chǔ)上實(shí)施的。

之后文中從性能上在不同任務(wù)不同參數(shù)情況下和標(biāo)準(zhǔn)的Transformer結(jié)構(gòu)進(jìn)行了比較，如表2中所示，

神經(jīng)結(jié)構(gòu)搜索在機(jī)器翻譯中的應(yīng)用

表2 比較Transformer和ET在各種翻譯任務(wù)驗(yàn)證集上的困惑度和測(cè)試集上的BLEU

可以看到ET的參數(shù)量會(huì)稍大與標(biāo)準(zhǔn)的Transformer,這是因?yàn)榻Y(jié)構(gòu)中出現(xiàn)了分支的情況，但是在性能上，PPL和BLEU兩個(gè)指標(biāo)在各個(gè)任務(wù)上也是優(yōu)于標(biāo)準(zhǔn)結(jié)構(gòu)，最有趣的地方在于，基于一種不確定性的搜索算法，在進(jìn)行多次實(shí)驗(yàn)之后其波動(dòng)依然不大，文中認(rèn)為是熱啟動(dòng)帶來的好處，基于一個(gè)好的結(jié)構(gòu)，能讓最后搜索出的結(jié)果更加穩(wěn)定。

最后作者將參數(shù)和性能同標(biāo)準(zhǔn)的Transformer結(jié)構(gòu)進(jìn)行了一個(gè)比較，如圖6，

神經(jīng)結(jié)構(gòu)搜索在機(jī)器翻譯中的應(yīng)用

圖6 ET與Transformer性能和模型參數(shù)量比較

可以發(fā)現(xiàn)，在相同參數(shù)下，ET能有更好的性能，在相同性能下，ET只需要更小的參數(shù)量。

值得注意的是，在分支進(jìn)行合并的時(shí)候，都進(jìn)行了正則化操作，說明了正則操作對(duì)于這種多分支的結(jié)構(gòu)是比較重要的，但是從訓(xùn)練的角度來說，由于每個(gè)模型都是用了同樣的訓(xùn)練參數(shù)以及優(yōu)化器，也可能不用正則操作導(dǎo)致了訓(xùn)練過程中數(shù)值不穩(wěn)定。

還有一個(gè)有趣的地方在于，無論是編碼端還是解碼端的結(jié)構(gòu)，上層的結(jié)構(gòu)沒有變化，下層的結(jié)構(gòu)更加的多樣性，這就說明了優(yōu)化的空間都在下層，這也引申出了一個(gè)問題，是否在現(xiàn)有模型中有一些比較重要的部分是不需要進(jìn)行搜索的，或者說只要模型有這一部分結(jié)構(gòu)就能達(dá)到不錯(cuò)的性能了，剩下的部分只需要隨機(jī)搜索一下就能達(dá)到原來的性能？從這個(gè)角度出發(fā)，如果能找出最關(guān)鍵的結(jié)構(gòu)，便可以縮小搜索空間，直接去搜索其他位置的結(jié)構(gòu)。

5、總結(jié)

這項(xiàng)工作成功的實(shí)現(xiàn)了結(jié)構(gòu)搜索在機(jī)器翻譯的應(yīng)用，利用進(jìn)化算法，將標(biāo)準(zhǔn)的Transformer結(jié)構(gòu)作為搜索的初始節(jié)點(diǎn)以保證子代的性能，同時(shí)為了更快的淘汰掉子代，采用了遞增式動(dòng)態(tài)閾值算法。

雖然最后得到的結(jié)構(gòu)在性能上的確是優(yōu)于標(biāo)準(zhǔn)的Transformer，不過在搜索的過程中還是使用了大量的計(jì)算資源——超過200塊TPU，如何更加高效的搜索出優(yōu)秀的模型，依然是亟待解決的問題，同時(shí)這項(xiàng)工作在搜索空間的設(shè)計(jì)上也是離散的，搜索的空間還是很有限，實(shí)際上只是在Transformer結(jié)構(gòu)上進(jìn)行了一個(gè)微調(diào)。不過這也證明了神經(jīng)結(jié)構(gòu)搜索能夠運(yùn)用在機(jī)器翻譯領(lǐng)域，未來也是一個(gè)有潛力的方向。

參考文獻(xiàn)：

[1] So, David R., Chen Liang, and Quoc V. Le."The evolved transformer." arXiv preprint arXiv:1901.11117 (2019).

[2] Elsken, Thomas, Jan Hendrik Metzen, andFrank Hutter. "Neural architecture search: A survey." arXivpreprint arXiv:1808.05377 (2018).

[3] Deng, Jia, et al. "Imagenet: Alarge-scale hierarchical image database." 2009 IEEE conference oncomputer vision and pattern recognition. Ieee, 2009.

[4] Zoph, Barret, et al. "Learningtransferable architectures for scalable image recognition." Proceedingsof the IEEE conference on computer vision and pattern recognition. 2018.

[5] Vaswani, Ashish, et al. "Attention isall you need." Advances in neural information processing systems.2017.

[6] Tan, Mingxing, et al. "Mnasnet:Platform-aware neural architecture search for mobile." Proceedings ofthe IEEE Conference on Computer Vision and Pattern Recognition. 2019.

[7] Real, Esteban, et al. "Regularizedevolution for image classifier architecture search." Proceedings ofthe AAAI Conference on Artificial Intelligence. Vol. 33. 2019.

[8] Bender, Gabriel, et al. "Understandingand simplifying one-shot architecture search." InternationalConference on Machine Learning. 2018.

雷鋒網(wǎng)編輯

雷峰網(wǎng)特約稿件，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

2人收藏

相關(guān)文章

小牛翻譯

知情人士

發(fā)私信

當(dāng)月熱門文章