中科大夏應(yīng)策：推敲網(wǎng)絡(luò)——用于序列生成的網(wǎng)絡(luò)結(jié)構(gòu) | 分享總結(jié)

本文作者：楊文

2018-02-25 11:07

導(dǎo)語(yǔ)：一種用于序列生成的新網(wǎng)絡(luò)結(jié)構(gòu)——推敲網(wǎng)絡(luò)

雷鋒網(wǎng) AI 科技評(píng)論按：基于編碼器-解碼器結(jié)構(gòu)的序列生成模型被廣泛應(yīng)用文本任務(wù)，例如神經(jīng)機(jī)器翻譯，摘要生成，對(duì)話(huà)系統(tǒng)等等。然而，現(xiàn)有模型在生成序列的時(shí)候都是只生成一次，而沒(méi)有反復(fù)「推敲」的過(guò)程。而推敲在我們進(jìn)行翻譯、寫(xiě)文章的時(shí)候是一個(gè)很普遍的做法。因此有研究者將「推敲」引入序列生成模型中，提出了推敲網(wǎng)絡(luò)，來(lái)改進(jìn)序列生成質(zhì)量。

在近期雷鋒網(wǎng) GAIR 大講堂的線(xiàn)上公開(kāi)課上，來(lái)自中國(guó)科大--微軟博士聯(lián)合培養(yǎng)班的夏應(yīng)策同學(xué)分享了一篇收錄在 NIPS 2017 上的論文：Deliberation Networks: Sequence Generation Beyond One-Pass Decoding。他也是這篇論文的一作。

論文地址：http://papers.nips.cc/paper/6775-deliberation-networks-sequence-generation-beyond-one-pass-decoding.pdf

夏應(yīng)策，博士五年級(jí)，現(xiàn)就讀于中國(guó)科大--微軟博士聯(lián)合培養(yǎng)班，研究方向?yàn)闄C(jī)器學(xué)習(xí)（包括對(duì)偶學(xué)習(xí)，神經(jīng)機(jī)器翻譯和多臂賭博機(jī)），是 2016 年微軟學(xué)者獎(jiǎng)得主之一。

分享主題：推敲網(wǎng)絡(luò)——用于序列生成的網(wǎng)絡(luò)結(jié)構(gòu)

分享提綱

序列生成模型的基本結(jié)構(gòu)以及應(yīng)用（主要介紹神經(jīng)機(jī)器翻譯）
推敲網(wǎng)絡(luò)的結(jié)構(gòu)和優(yōu)化算法
推敲網(wǎng)絡(luò)的實(shí)驗(yàn)結(jié)果
推敲網(wǎng)絡(luò)和對(duì)偶學(xué)習(xí)的結(jié)合

序列生成模型的基本結(jié)構(gòu)以及應(yīng)用

推敲網(wǎng)絡(luò)

基于編碼器-解碼器結(jié)構(gòu)的序列生成模型被廣泛應(yīng)用文本任務(wù)，神經(jīng)機(jī)器翻譯，摘要生成，對(duì)話(huà)系統(tǒng)等等。比如下圖中的看圖說(shuō)話(huà)——機(jī)器讀取一張圖，描述出圖片的大概內(nèi)容；文本摘要——給出一段長(zhǎng)文字，機(jī)器給出整段文章的大概意思。

中科大夏應(yīng)策：推敲網(wǎng)絡(luò)——用于序列生成的網(wǎng)絡(luò)結(jié)構(gòu) | 分享總結(jié)

然而，現(xiàn)有模型在生成序列的時(shí)候都是只生成一次，而沒(méi)有反復(fù)「推敲」的過(guò)程。而推敲在我們進(jìn)行翻譯、寫(xiě)文章的時(shí)候是一個(gè)很普遍的做法。因此我們將「推敲」引入序列生成模型中，提出了推敲網(wǎng)絡(luò)，來(lái)改進(jìn)序列生成質(zhì)量。在該研究中，我們將推敲過(guò)程加入到了編碼器-解碼器框架中，并提出了用于序列生成的推敲網(wǎng)絡(luò)（Deliberation networks）。推敲網(wǎng)絡(luò)具有兩階段解碼器，其中第一階段解碼器用于解碼生成原始序列，第二階段解碼器通過(guò)推敲的過(guò)程打磨和潤(rùn)色原始語(yǔ)句。由于第二階段推敲解碼器具有應(yīng)該生成什么樣的語(yǔ)句這一全局信息，因此它能通過(guò)從第一階段的原始語(yǔ)句中觀(guān)察未來(lái)的單詞而產(chǎn)生更好的序列。神經(jīng)機(jī)器翻譯和自動(dòng)文本摘要的實(shí)驗(yàn)證明了我們所提出推敲網(wǎng)絡(luò)的有效性。在 WMT 2014 英語(yǔ)到法語(yǔ)間的翻譯任務(wù)中，我們的模型實(shí)現(xiàn)了 41.5 的 BLEU 分值。

下面以機(jī)器翻譯為例，完成一個(gè)翻譯任務(wù)需要一個(gè)編碼器和解碼器結(jié)構(gòu)。

中科大夏應(yīng)策：推敲網(wǎng)絡(luò)——用于序列生成的網(wǎng)絡(luò)結(jié)構(gòu) | 分享總結(jié)

注意力機(jī)制中科大夏應(yīng)策：推敲網(wǎng)絡(luò)——用于序列生成的網(wǎng)絡(luò)結(jié)構(gòu) | 分享總結(jié)

基本結(jié)構(gòu)有了之后如何訓(xùn)練系統(tǒng)？現(xiàn)在一般序列生成或自然語(yǔ)言處理都是采用端到端的訓(xùn)練方式，分為三個(gè)過(guò)程：訓(xùn)練、推理、評(píng)價(jià)指標(biāo)。

中科大夏應(yīng)策：推敲網(wǎng)絡(luò)——用于序列生成的網(wǎng)絡(luò)結(jié)構(gòu) | 分享總結(jié) 神經(jīng)機(jī)器翻譯中的定向搜索（beam search）過(guò)程

推敲網(wǎng)絡(luò)的研究目的

現(xiàn)有模型在生成序列的時(shí)候都是只生成一次，而沒(méi)有反復(fù)「推敲」的過(guò)程。而「推敲」在我們進(jìn)行翻譯、寫(xiě)文章的時(shí)候是一個(gè)很普遍的做法。比如在讀文章的時(shí)候，遇到不認(rèn)識(shí)的單詞可能不是立刻去查字典，而是跳過(guò)這個(gè)單詞讀到文章的結(jié)尾，再反過(guò)來(lái)去猜測(cè)單詞是什么意思。另一個(gè)例子是在寫(xiě) paper 的時(shí)候，可能先寫(xiě)一個(gè)草稿，然后不斷修改，先有一個(gè)整體框架，拿到全局信息，知道大概想表達(dá)什么，然后再不斷推敲寫(xiě)出來(lái)的到底是什么意思。這兩個(gè)例子說(shuō)明了向前看和得到全局信息的重要性。中科大夏應(yīng)策：推敲網(wǎng)絡(luò)——用于序列生成的網(wǎng)絡(luò)結(jié)構(gòu) | 分享總結(jié)

因此我們將「推敲」引入序列生成模型中，提出了推敲網(wǎng)絡(luò)，來(lái)改進(jìn)序列生成質(zhì)量?，F(xiàn)在的神經(jīng)機(jī)器翻譯和序列生成任務(wù)中，在解碼端是沒(méi)有「向前看」這個(gè)過(guò)程的。

中科大夏應(yīng)策：推敲網(wǎng)絡(luò)——用于序列生成的網(wǎng)絡(luò)結(jié)構(gòu) | 分享總結(jié)

下面是推敲網(wǎng)絡(luò)的大概框架，左側(cè)是編碼器，右側(cè)是解碼器。藍(lán)色、黃色和綠色部分分別表示編碼器 E、第一階段解碼器 D1 和第二階段解碼器 D2。具體程序解讀過(guò)程請(qǐng)觀(guān)看視頻回放。

中科大夏應(yīng)策：推敲網(wǎng)絡(luò)——用于序列生成的網(wǎng)絡(luò)結(jié)構(gòu) | 分享總結(jié)

以上是模型部分，接下來(lái)介紹應(yīng)用及具體的實(shí)驗(yàn)效果。中科大夏應(yīng)策：推敲網(wǎng)絡(luò)——用于序列生成的網(wǎng)絡(luò)結(jié)構(gòu) | 分享總結(jié)

兩個(gè)任務(wù)分別是神經(jīng)機(jī)器翻譯和文本摘要。采用了兩種模型，一種是淺模型，另外也驗(yàn)證了深度模型上的效果。

淺模型，基于名為 RNNSearch 的有廣泛應(yīng)用的單層 GRU 模型；深度模型，基于類(lèi)似于 GNMT 的深度 LSTM 模型。這兩類(lèi)模型都是在 Theano 中實(shí)現(xiàn)的。

神經(jīng)機(jī)器翻譯在淺模型上的效果

中科大夏應(yīng)策：推敲網(wǎng)絡(luò)——用于序列生成的網(wǎng)絡(luò)結(jié)構(gòu) | 分享總結(jié)

神經(jīng)機(jī)器翻譯（NMT）用的數(shù)據(jù)集是英法和中英數(shù)據(jù)集。標(biāo)準(zhǔn)的 NMT 模型由一個(gè)編碼器（用于編碼源句子）和一個(gè)解碼器（用于生成目標(biāo)句子）組成，因?yàn)榭梢允褂梦覀兲岢龅耐魄镁W(wǎng)絡(luò)加以改善。在 WMT' 14 英語(yǔ)→法語(yǔ)數(shù)據(jù)集上基于廣泛應(yīng)用的單層 GRU 模型上實(shí)驗(yàn)結(jié)果表明：相比于沒(méi)有使用推敲的模型，使用推敲可以將 BLEU 分值提升 1.7。

中科大夏應(yīng)策：推敲網(wǎng)絡(luò)——用于序列生成的網(wǎng)絡(luò)結(jié)構(gòu) | 分享總結(jié)

我們還在漢語(yǔ)→英語(yǔ)翻譯上應(yīng)用了我們的模型，并且在 4 種不同的測(cè)試集上平均實(shí)現(xiàn)了 1.26 的 BLEU 提升。此外，在 WMT' 14 英語(yǔ)→法語(yǔ)翻譯任務(wù)上，通過(guò)將推敲應(yīng)用于深度 LSTM 模型，我們實(shí)現(xiàn)了 41.50 的 BLEU 分值。

中科大夏應(yīng)策：推敲網(wǎng)絡(luò)——用于序列生成的網(wǎng)絡(luò)結(jié)構(gòu) | 分享總結(jié)

文本摘要，即將長(zhǎng)文章歸納為短摘要的任務(wù)。這個(gè)任務(wù)可以使用編碼器-解碼器框架，因此也可以使用推敲網(wǎng)絡(luò)來(lái)精細(xì)處理。在 Gigaword 數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明推敲網(wǎng)絡(luò)可以將 ROUGE-1、ROUGE-2 和 ROUGE-L 分別提升 3.45、1.70 和 3.02。

中科大夏應(yīng)策：推敲網(wǎng)絡(luò)——用于序列生成的網(wǎng)絡(luò)結(jié)構(gòu) | 分享總結(jié)

對(duì)偶學(xué)習(xí)

為什么要研究對(duì)偶學(xué)習(xí)？因?yàn)樽匀唤绾芏嗳蝿?wù)都是對(duì)偶的，比如英—法，法—英是一對(duì)兒對(duì)偶任務(wù)，語(yǔ)音轉(zhuǎn)文字，文字轉(zhuǎn)語(yǔ)音也是一對(duì)兒對(duì)偶任務(wù)；圖像分類(lèi)和圖像生成也是一對(duì)兒對(duì)偶任務(wù)。它們之間都互為一個(gè)逆任務(wù)，它們之間肯定會(huì)有某種聯(lián)系，我們希望利用它們之間的對(duì)偶性，提高任務(wù)的性能。最直接的表現(xiàn)就是能夠非常高效地利用數(shù)據(jù)，包括無(wú)標(biāo)數(shù)據(jù)和有標(biāo)數(shù)據(jù)。對(duì)偶學(xué)習(xí)應(yīng)該怎么用？請(qǐng)點(diǎn)擊文末視頻回放。

中科大夏應(yīng)策：推敲網(wǎng)絡(luò)——用于序列生成的網(wǎng)絡(luò)結(jié)構(gòu) | 分享總結(jié)

結(jié)論及未來(lái)工作

在這項(xiàng)研究中，我們提出了用于序列生成任務(wù)的推敲網(wǎng)絡(luò)，實(shí)驗(yàn)表明我們的方法在機(jī)器翻譯和文本摘要任務(wù)上可以實(shí)現(xiàn)比幾種基準(zhǔn)方法更優(yōu)的結(jié)果。

未來(lái)還有多個(gè)可以探索，具有潛力的研究方向。首先，我們將研究如何將推敲的思想應(yīng)用于序列生成之外的任務(wù)，比如改善 GAN 生成的圖像質(zhì)量；其次，我們將研究如何細(xì)化、潤(rùn)色不同層級(jí)的神經(jīng)網(wǎng)絡(luò)，比如 RNN 中的隱藏狀態(tài)或 CNN 中特征圖；第三，我們還很好奇如果解碼器有更多階段（即多次打磨潤(rùn)色生成的序列），生成的序列是否還會(huì)更好；第四，我們還將研究如何加速推敲網(wǎng)絡(luò)的推理以及縮短它們的推理時(shí)間。

以上就是嘉賓分享的全部?jī)?nèi)容，視頻回放地址：http://www.mooc.ai/open/course/424。

雷鋒網(wǎng)更多公開(kāi)課直播敬請(qǐng)關(guān)注微信公眾號(hào)「AI 科技評(píng)論」。如果錯(cuò)過(guò)了直播課程，還可到AI慕課學(xué)院查找該期的視頻回放。

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。

0人收藏

相關(guān)文章

楊文

編輯&記者

AI科技評(píng)論員，微信：yeohandwin

掃描關(guān)注作者微信

發(fā)私信

當(dāng)月熱門(mén)文章