0
本文作者: sunshine_lady | 編輯:郭奕欣 | 2017-12-25 10:46 | 專題:AAAI 2018 |
雷鋒網(wǎng) AI 科技評(píng)論消息,近日,百度機(jī)器翻譯團(tuán)隊(duì)在 arxiv.org 上發(fā)布了最新研究成果「Multi-channel Encoder for Neural Machine Translation」,這一論文已被 AAAI 2018 錄用。
論文鏈接:https://arxiv.org/abs/1712.02109
以下內(nèi)容是雷鋒網(wǎng) AI 科技評(píng)論根據(jù)論文內(nèi)容進(jìn)行的部分編譯。
摘要:文章提出一種多通道的基于注意力機(jī)制(Attention-based)的編碼器(MCE,Multi-channel Encoder)。MCE 在基于 RNN 編碼器中加入了隱層狀態(tài),使得其具有兩大優(yōu)勢(shì):1)改善了原編碼過(guò)程中在字嵌入(Word embedding)時(shí)合成處理的效果;2)針對(duì)更加復(fù)雜的合成場(chǎng)景,對(duì)神經(jīng)圖靈機(jī)(NTM,Neural Turing Machine)的外存使用做了特別的優(yōu)化設(shè)計(jì)。在中英翻譯方面,相較開源的 DL4MT 系統(tǒng)有 6.25 BLEU 的提升;在 WMT14 英法翻譯數(shù)據(jù)集上 BLEU=38.8,領(lǐng)先于目前最新算法。
目前,很多研究工作者提出了許多基于注意力的神經(jīng)翻譯系統(tǒng)(NMT,Neural Machine Translation)的改進(jìn)方法,其中效果最優(yōu)的是基于注意力架構(gòu)的編解碼系統(tǒng)。圖 1. 提供了基于注意力 NMT 模型的結(jié)構(gòu)原理,共包括三個(gè)部分:編碼、解碼層,及中間級(jí)聯(lián)的引入注意力機(jī)制的結(jié)構(gòu)。
圖 1. 基于注意力的 NMT 模型。左側(cè)是基于卷積的 NMT,右側(cè)是文章提出的多通道 NMT。
NMT 系統(tǒng)首先將所有完成分割的符號(hào)轉(zhuǎn)換到一個(gè)序列中,即:字嵌入過(guò)程(Word Embedding)。在這一過(guò)程中,每個(gè)字符都要進(jìn)行單獨(dú)處理,最后生成字嵌入后的原序列。圖中在字嵌入層的上方,NMT 使用雙向循環(huán)神經(jīng)網(wǎng)絡(luò)(biRNN) 經(jīng)訓(xùn)練得到整個(gè)原序列的表示。在編碼層與解碼層之間,加入注意力機(jī)制融合輸入序列的全部的時(shí)間步(time step),并將注意力放到解碼層的當(dāng)前時(shí)間步上。在生成目標(biāo)詞的過(guò)程中,控制器會(huì)整合:上一生成詞、當(dāng)前隱層狀態(tài)、由注意力機(jī)制計(jì)算出的上下文信息這三項(xiàng),從而確定最終的目標(biāo)詞。
RNN 編碼層對(duì)基于注意力模型的 NMT 而言是十分重要的,然而傳統(tǒng) RNN 實(shí)現(xiàn)多層信息整合是存在一定困難的,而機(jī)器翻譯越來(lái)越需要這種網(wǎng)絡(luò)結(jié)構(gòu)。因此,這篇文章提出了多通道的注意力機(jī)制編碼器,其網(wǎng)絡(luò)如圖 1. 右側(cè)所示。該結(jié)構(gòu)增加了一個(gè)外部存儲(chǔ)輔助 RNN 完成更為復(fù)雜的整合學(xué)習(xí)。此外,RNN 的隱層狀態(tài)與字嵌入序列共同為編解碼層之間的注意力機(jī)制生成門控注釋。從另一個(gè)角度考慮,將字嵌入序列整合輸入到注意力機(jī)制模型中也可以看作建立了一條短路連接,可以減輕退化問(wèn)題(He. 等于 2016 年證明,見引文 [1])。這種短路連接在增強(qiáng)網(wǎng)絡(luò)功能的同時(shí)沒(méi)有引入任何額外參數(shù)而且沒(méi)有引起及計(jì)算復(fù)雜的提升。
圖 2. 多通道注意力機(jī)制編碼器中,內(nèi)存讀寫示意圖。
圖 2. 中闡述了神經(jīng)翻譯系統(tǒng)的編碼層內(nèi)存讀寫的詳細(xì)規(guī)則。在每一時(shí)間步內(nèi),RNN 內(nèi)狀態(tài)節(jié)點(diǎn)在內(nèi)存查詢上下文信息,內(nèi)存按照基于注意力機(jī)制存儲(chǔ)。這一設(shè)計(jì)中,使用前一狀態(tài)節(jié)點(diǎn)查詢并獲取上下文信息作為門控循環(huán)單元(GRU, gated recurrent unit)的輸入狀態(tài),以此取代直接將前一狀態(tài)反饋給 GRU。這一操作保證了控制器在生成當(dāng)前狀態(tài)前可以獲取更多的上下文信息,可以潛在地幫助 GRU 做出判斷。在設(shè)計(jì)讀取內(nèi)存操作的同時(shí),系統(tǒng)中也設(shè)計(jì)了寫操作。這一設(shè)計(jì)的目的,據(jù)該文百度團(tuán)隊(duì)研究工作在描述,是希望 RNN 和 NTM 能夠?qū)W習(xí)不同類型的關(guān)聯(lián)分別通過(guò)不同的更新策略。
表 1. 表示漢譯英翻譯任務(wù)的表現(xiàn)情況。該數(shù)據(jù)在開源系統(tǒng) DL4MT 下測(cè)試以確保其魯棒性。首先,與 DL4MT 系統(tǒng)相比,文章提出的多通道基于注意力機(jī)制的神經(jīng)網(wǎng)絡(luò)翻譯系統(tǒng)有較大提升:與 DL4MT 相比,文中提出的方法在 BLUE 指標(biāo)上有 4.94 點(diǎn)的提升。考慮到文中的 RNN 系統(tǒng)是一種基礎(chǔ)的基于注意力機(jī)制的應(yīng)用,這一設(shè)計(jì)可以與目前最新近的技術(shù)相結(jié)合,比如結(jié)合均勻初始化所有參數(shù)、給嵌入式矢量增加偏差、將前向 RNN 的輸出作為后向 RNN 的輸入并且加入動(dòng)態(tài)學(xué)習(xí)率來(lái)訓(xùn)練等,以發(fā)揮更大的效果。
表 1. 不同系統(tǒng)對(duì) NIST 漢譯英翻譯任務(wù)的表現(xiàn)情況。與目前較強(qiáng)的開源系統(tǒng) DL4MT 相比, 文章提出的模型有較大改進(jìn)。T2T 和 ConvS2S 是另外兩個(gè)新出版的開源工具箱,也作為對(duì)比試驗(yàn)。值得注意的是,T2T 和 ConvS2S 都是多層深度模型,而文中方法能夠達(dá)到與之相近的效果。
表二為英譯法表現(xiàn)情況,并將文中提出的 NMT 系統(tǒng)與各種各樣的系統(tǒng)進(jìn)行對(duì)比,如深度 RNN 模型、深度 CNN 模型及基于注意力的深度模型。為了實(shí)驗(yàn)的公平性,表2列舉了這些方法所在文獻(xiàn)的結(jié)果。在英譯法任務(wù)中,文中設(shè)計(jì)的方法在 目前最新的機(jī)器翻譯系統(tǒng)中,表現(xiàn)很有競(jìng)爭(zhēng)力,甚至可與深度模型達(dá)到相近的效果。此外,與其他 RNN 模型相比,該系統(tǒng)非常具有競(jìng)爭(zhēng)力,盡管是一種淺層模型。
表 2. 文章方法的英譯法 BLEU 分?jǐn)?shù)。最下面一欄中 RNN 是文中的基本模型,MCE 是結(jié)合了三種編碼組件:嵌入字,RNN 隱層狀態(tài),以及 NTM 外存。
今年的 AAAI 2018 將于 2 月 2 日 - 2 月 7 日 在美國(guó)新奧爾良舉行,雷鋒網(wǎng) AI 科技評(píng)論也將到現(xiàn)場(chǎng)進(jìn)行一線報(bào)道。如果你也有論文被 AAAI 錄用 ,歡迎在后臺(tái)留下你的聯(lián)系方式,我們將與您聯(lián)系,并進(jìn)行更多交流!
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。
本專題其他文章