丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能學(xué)術(shù) 正文
發(fā)私信給汪思穎
發(fā)送

0

中科院自動(dòng)化所提出BIFT模型:面向自然語言生成,同步雙向推斷

本文作者: 汪思穎 2019-05-05 10:41
導(dǎo)語:谷歌BERT著眼于Encoder,目標(biāo)是提升自然語言理解的能力;BIFT 改變解碼范式,旨在改善自然語言生成的效果。

雷鋒網(wǎng) AI 科技評(píng)論消息,本文作者中國科學(xué)院自動(dòng)化研究所張家俊,他為雷鋒網(wǎng) AI 科技評(píng)論撰寫了基于 BIFT 的獨(dú)家解讀。正文內(nèi)容如下:

前言:

概括地講,自然語言處理包括兩大任務(wù):自然語言文本理解和自然語言文本生成。自然語言文本理解就是讓機(jī)器洞悉人們所言之意,自然語言文本生成旨在讓機(jī)器像人一樣表達(dá)和說話。文本理解的關(guān)鍵在于對(duì)已知文本的上下文表征和建模,而文本生成的本質(zhì)是在文本理解的基礎(chǔ)上準(zhǔn)確流暢地產(chǎn)生自然語言文本。

自然語言理解既可以利用上文信息也可以利用下文信息,高效的雙向編碼能力正是 BERT 成功的關(guān)鍵因素之一。但是,自然語言生成由于都默認(rèn)自左往右地逐詞產(chǎn)生文本輸出,預(yù)測(cè)某個(gè)時(shí)刻的輸出只能利用上文的歷史信息而無法訪問還未生成的未來信息。例如將漢語句子“有五個(gè)人”自動(dòng)翻譯為英語時(shí),從左到右的理想預(yù)測(cè)結(jié)果是“There”、“are”、“five” 和“persons”。雖然“persons”能夠判別第二個(gè)詞語應(yīng)該是“are”而不是“is”,但是由于在預(yù)測(cè)第二個(gè)單詞時(shí),只能依賴已經(jīng)產(chǎn)生的單詞“There”,而無法參考還未生成的“five”和“persons”。這個(gè)簡單的例子就能反映出傳統(tǒng)自左往右自然語言生成的弊端。我們提出的 BIFT 希望打破這種文本生成模式,采用同步雙向推斷模型為每個(gè)時(shí)刻的預(yù)測(cè)同時(shí)提供歷史信息和未來知識(shí)。通過大量實(shí)驗(yàn),我們發(fā)現(xiàn) BIFT 相比于當(dāng)前最好的模型,在幾乎不犧牲效率的前提下能夠獲得十分顯著的性能提升, 并且已經(jīng)成功應(yīng)用于在線機(jī)器翻譯系統(tǒng),相關(guān)代碼和使用說明請(qǐng)參考 Github 鏈接:https://github.com/ZNLP/sb-nmt

使用 BIFT 一詞就是希望讓大家聯(lián)想到 2018 年風(fēng)靡全球的自然語言處理神器 BERT(Bidirectional Encoder Representation from Transformer)。將 BIFT 和 BERT 放在一起,我們期望更好地探討兩者的聯(lián)系和區(qū)別。如果不想詳細(xì)了解,記住一句話那就可以了:BERT 著眼于編碼器 Encoder,目標(biāo)是提升自然語言理解的能力;BIFT 改變解碼范式,旨在改善自然語言生成的效果。

BIFT 是我們近一年來的研究工作成果,在 2018 年 10 月份 BERT 誕生時(shí),我們其中的一項(xiàng)工作(Synchronous Bidirectional Neural Machine Translation)已經(jīng)被 Transactions on ACL 條件接收。BERT 非常偉大,在十多個(gè)自然語言理解任務(wù)中刷到最高分。相比而言,我們當(dāng)時(shí)的工作只是在機(jī)器翻譯任務(wù)上做出了卓有成效的嘗試,所以肯定無法與 BERT 相提并論,只是聯(lián)系在一起更容易描述和讓大家理解。BIFT 目前在機(jī)器翻譯和自動(dòng)摘要兩個(gè)自然語言生成任務(wù)(尤其是機(jī)器翻譯任務(wù))中取得了顯著效果,我們希望 BIFT 在其他自然語言生成任務(wù)中也能大放異彩。

BIFT 和 BERT 有一個(gè)共同點(diǎn):都是基于 2017 年 Google 提出的完全注意機(jī)制驅(qū)動(dòng)的 Transformer 框架(如圖 1 所示)。編碼器 Encoder 對(duì)輸入文本進(jìn)行深層語義表示,解碼器 Decoder 依據(jù)輸入文本的語義表示產(chǎn)生輸出文本。編碼器和解碼器都是由多層網(wǎng)絡(luò)堆積而成,編碼器中的每一層主要包括自我注意機(jī)制(Self-Attention)和前饋網(wǎng)絡(luò)(Feed-Forward Network)兩個(gè)子層,每個(gè)子層后面會(huì)緊接一個(gè)正則化操作,并且層與層之間會(huì)有殘差連接。相比編碼器,解碼器中的每一層有兩點(diǎn)不同,一方面,自我注意機(jī)制只能利用已經(jīng)生成的部分歷史前綴信息,而需要屏蔽還未產(chǎn)生的未來信息;另一方面,自我注意機(jī)制和前饋網(wǎng)絡(luò)之間還包括一個(gè)建模輸出和輸入關(guān)系的 Encoder-Decoder 注意機(jī)制。

中科院自動(dòng)化所提出BIFT模型:面向自然語言生成,同步雙向推斷

圖 1:Transformer 框架

從 Transformer 的框架可以看出,自我注意是其有別于循環(huán)神經(jīng)網(wǎng)絡(luò)和卷積神經(jīng)網(wǎng)絡(luò)的本質(zhì)。以漢語到英語的機(jī)器翻譯任務(wù)為例,圖 2 和圖 3 展示了編碼器和解碼器中自我注意機(jī)制的工作流程。圖 2 顯示的編碼模塊中,對(duì)于輸入的單詞序列,每個(gè)單詞首先映射為低維實(shí)數(shù)向量,① 表示第一個(gè)單詞與包括自身的所有單詞計(jì)算相關(guān)度,并對(duì)所有單詞的向量表示依據(jù)相關(guān)度進(jìn)行加權(quán)獲得序列第一個(gè)單詞更深一層的語義表示;② 采用相同的方式,平行計(jì)算輸入序列中每個(gè)位置更深一層的語義表示;③ 利用相同的自我注意機(jī)制可以生成多層語義表示。

圖 3 顯示的解碼模塊中,第一個(gè)輸出單詞為開始符,與編碼器中每個(gè)位置的語義表示進(jìn)行注意機(jī)制計(jì)算并加權(quán)得到第二層語義信息,① 采用相同的方式可以獲得更多層的語義信息,最后利用 softmax 函數(shù)預(yù)測(cè)下一個(gè)時(shí)刻的輸出“there”;② 預(yù)測(cè)下一個(gè)輸出單詞時(shí),首先需要進(jìn)行輸出端的注意機(jī)制計(jì)算過程,然后再與編碼器的語義表示進(jìn)行注意機(jī)制計(jì)算;③ 進(jìn)行相同的操作獲得多層語音信息,再由 softmax 函數(shù)給出下一個(gè)時(shí)刻應(yīng)該輸出的單詞“are”;④ 重復(fù) ② 和 ③ 最終生成整個(gè)文本序列(一般直到產(chǎn)生結(jié)束符“</s>”,停止解碼過程)。

中科院自動(dòng)化所提出BIFT模型:面向自然語言生成,同步雙向推斷

圖 2:Transformer 的編碼器示意圖

中科院自動(dòng)化所提出BIFT模型:面向自然語言生成,同步雙向推斷

圖 3:Transformer 的解碼器示意圖

中科院自動(dòng)化所提出BIFT模型:面向自然語言生成,同步雙向推斷

圖 4: Transformer 編碼器的 Self-attention 工作機(jī)理 

中科院自動(dòng)化所提出BIFT模型:面向自然語言生成,同步雙向推斷

圖 5: Transformer 解碼器的 Self-attention 工作機(jī)理

圖 4 與圖 5 分別展示了 Transformer 編碼器和解碼器中自我注意機(jī)制的計(jì)算方法:首先將詞向量轉(zhuǎn)化為具有相同維度的查詢 Q、鍵 K 和值 V,然后用 Q 與 K 計(jì)算相關(guān)性,最后用相關(guān)性對(duì) V 加權(quán)獲得某個(gè)位置更深一層的語義表示。兩張圖的核心區(qū)別體現(xiàn)在圖 4 編碼器中每個(gè)位置的上層語義表示學(xué)習(xí)都可以利用上文和下文信息,而圖 5 解碼器中每個(gè)位置的上層語義表示學(xué)習(xí)只能利用已經(jīng)產(chǎn)生的歷史信息。

BERT:

BERT 無疑是 2018 年自然語言處理領(lǐng)域最令人興奮的模型。BERT 以 Transformer 的編碼器 Encoder 為模型框架的核心,為了處理自然語言理解中的分類和序列標(biāo)注兩大任務(wù),BERT 在 Transformer 編碼器的最上層添加一個(gè)特殊分類器(圖 6 所示)或?yàn)槊總€(gè)位置添加一個(gè)分類器(圖 7 所示)。

BERT 的成功主要可以歸結(jié)到四點(diǎn)因素:(1)預(yù)訓(xùn)練(pre-training)和精細(xì)調(diào)優(yōu)(fine-tuning)的模型架構(gòu);(2)以 Transformer 深層雙向編碼器為模型核心;(3)以 Masked LM 和下個(gè)句子預(yù)測(cè)任務(wù)構(gòu)建優(yōu)化目標(biāo)函數(shù);(4)超大規(guī)模訓(xùn)練數(shù)據(jù)的利用。對(duì)比 ELMo(Embeddings from Language Model)和 GPT(Generative Pre-trained Transformer)發(fā)現(xiàn),BERT 最大的優(yōu)勢(shì)之一在于使用了 Transformer 中基于自我注意機(jī)制的雙向編碼模型。

中科院自動(dòng)化所提出BIFT模型:面向自然語言生成,同步雙向推斷

圖 6:BERT 中的分類模型

中科院自動(dòng)化所提出BIFT模型:面向自然語言生成,同步雙向推斷

圖 7: BERT 中的序列標(biāo)注模型

BIFT:

圖 8 簡單展示了自然語言文本理解與自然語言文本生成之間的架構(gòu)差別。自然語言文本理解中,輸入文本是給定的,從而雙向編碼是很自然的選擇。對(duì)于自然語言文本生成而言,由于輸出文本不可預(yù)知,傳統(tǒng)自左往右的解碼方式僅僅能充分利用已經(jīng)產(chǎn)生的歷史信息,而無法利用還未生成的未來信息。于是,我們便提出一個(gè)如圖 9 所示的大膽想法:能否像雙向編碼一樣,設(shè)計(jì)一種雙向解碼機(jī)制,從而有效建模歷史和未來信息?

中科院自動(dòng)化所提出BIFT模型:面向自然語言生成,同步雙向推斷

圖 8:自然語言文本理解與自然語言文本生成的對(duì)比示意圖

中科院自動(dòng)化所提出BIFT模型:面向自然語言生成,同步雙向推斷

圖 9:單向解碼和雙向解碼的對(duì)比示意圖

1. 雙向推斷的概率模型

自然語言文本生成任務(wù)中,我們一般采用下面的式子建模輸出文本 y=中科院自動(dòng)化所提出BIFT模型:面向自然語言生成,同步雙向推斷與 x=中科院自動(dòng)化所提出BIFT模型:面向自然語言生成,同步雙向推斷 之間的關(guān)系:

中科院自動(dòng)化所提出BIFT模型:面向自然語言生成,同步雙向推斷

這就是典型的從左往右的文本生成范式。當(dāng)然,也可以采用從右往左的文本生成范式:

  中科院自動(dòng)化所提出BIFT模型:面向自然語言生成,同步雙向推斷

但是上述兩種方式都無法同時(shí)利用歷史和未來信息。那么能否在預(yù)測(cè) 中科院自動(dòng)化所提出BIFT模型:面向自然語言生成,同步雙向推斷 時(shí)同時(shí)依賴 中科院自動(dòng)化所提出BIFT模型:面向自然語言生成,同步雙向推斷 和 中科院自動(dòng)化所提出BIFT模型:面向自然語言生成,同步雙向推斷 呢?這種想法顯然不太實(shí)際。因?yàn)?,預(yù)測(cè) 中科院自動(dòng)化所提出BIFT模型:面向自然語言生成,同步雙向推斷 時(shí)需要 中科院自動(dòng)化所提出BIFT模型:面向自然語言生成,同步雙向推斷 已知,而預(yù)測(cè) 中科院自動(dòng)化所提出BIFT模型:面向自然語言生成,同步雙向推斷 時(shí)需要 中科院自動(dòng)化所提出BIFT模型:面向自然語言生成,同步雙向推斷 已知,可見是矛盾的,所以預(yù)測(cè)某個(gè)時(shí)刻的輸出時(shí)無法同時(shí)利用全部的歷史和未來信息。我們的想法是最大限度地挖掘和利用歷史與未來信息,從而提出同步雙向推斷的解碼機(jī)制:

中科院自動(dòng)化所提出BIFT模型:面向自然語言生成,同步雙向推斷

我們的想法可以由圖 10 簡要說明:自然語言文本生成模型保持從左往右和從右往左的同步解碼,但是在每個(gè)時(shí)刻兩個(gè)方向的解碼都進(jìn)行充分的交互。預(yù)測(cè) 中科院自動(dòng)化所提出BIFT模型:面向自然語言生成,同步雙向推斷 時(shí)不僅可以利用歷史預(yù)測(cè)結(jié)果 中科院自動(dòng)化所提出BIFT模型:面向自然語言生成,同步雙向推斷,同時(shí)可以利用未來信息  中科院自動(dòng)化所提出BIFT模型:面向自然語言生成,同步雙向推斷;預(yù)測(cè) 中科院自動(dòng)化所提出BIFT模型:面向自然語言生成,同步雙向推斷 時(shí),不僅可以利用該解碼方向的歷史預(yù)測(cè)結(jié)果 中科院自動(dòng)化所提出BIFT模型:面向自然語言生成,同步雙向推斷,還可以同時(shí)利用另一個(gè)解碼方向的未來信息 中科院自動(dòng)化所提出BIFT模型:面向自然語言生成,同步雙向推斷。越到中間部分,可利用的歷史和未來信息就越豐富和完整。

中科院自動(dòng)化所提出BIFT模型:面向自然語言生成,同步雙向推斷

圖 10:同步雙向推斷的解碼機(jī)制示意圖

以預(yù)測(cè) 中科院自動(dòng)化所提出BIFT模型:面向自然語言生成,同步雙向推斷 為例,圖 11 展示了同步雙向推斷模型的同步雙向注意機(jī)制。中科院自動(dòng)化所提出BIFT模型:面向自然語言生成,同步雙向推斷 表示與 L2R 解碼方向歷史預(yù)測(cè)結(jié)果的自我注意機(jī)制的計(jì)算結(jié)果;同時(shí),我們也計(jì)算 L2R 解碼方向 i 時(shí)刻的隱層狀態(tài)與未來預(yù)測(cè)信息(R2L 解碼方向的生成結(jié)果)的自我注意機(jī)制結(jié)果 中科院自動(dòng)化所提出BIFT模型:面向自然語言生成,同步雙向推斷。最后,綜合歷史信息 中科院自動(dòng)化所提出BIFT模型:面向自然語言生成,同步雙向推斷 和未來信息 中科院自動(dòng)化所提出BIFT模型:面向自然語言生成,同步雙向推斷,獲得 L2R 解碼方向 i 時(shí)刻更豐富的語義信息 中科院自動(dòng)化所提出BIFT模型:面向自然語言生成,同步雙向推斷。類似地,R2L 解碼方向也可以綜合歷史信息和未來信息,預(yù)測(cè) 中科院自動(dòng)化所提出BIFT模型:面向自然語言生成,同步雙向推斷。

中科院自動(dòng)化所提出BIFT模型:面向自然語言生成,同步雙向推斷

圖 11:同步雙向推斷模型

2. 雙向推斷模型的柱搜索解碼算法

中科院自動(dòng)化所提出BIFT模型:面向自然語言生成,同步雙向推斷

圖 12:同步雙向推斷模型的柱搜索算法示意圖

圖 12 給出了同步雙向推斷模型的柱搜索解碼算法示意圖。以柱大小 b=4 為例,每一時(shí)刻 L2R 和 R2L 方向利用同步雙向注意機(jī)制 SBAtt 進(jìn)行同步解碼,并分別保留 b/2 個(gè)最優(yōu)候選。如果當(dāng)前時(shí)刻預(yù)測(cè)結(jié)果為結(jié)束符?/s?,則將該候選放入完整候選列表。當(dāng)完整候選列表達(dá)到 b 的規(guī)模,則停止解碼,輸出列表中概率最大的候選作為最終輸出。如果最終結(jié)果來自于 R2L 方向,則需要在輸出前對(duì)結(jié)果進(jìn)行逆序操作。詳細(xì)算法流程見算法 1。

算法 1:同步雙向推斷模型的柱搜索解碼算法

中科院自動(dòng)化所提出BIFT模型:面向自然語言生成,同步雙向推斷

3. 參數(shù)訓(xùn)練

由于同步雙向推斷模型在解碼過程中,L2R 和 R2L 方向同步并行解碼,那么訓(xùn)練過程中針對(duì)平行句對(duì)(x,y),L2R 方向希望生成標(biāo)準(zhǔn)答案 中科院自動(dòng)化所提出BIFT模型:面向自然語言生成,同步雙向推斷,同時(shí) R2L 方向希望生成標(biāo)準(zhǔn)答案的逆序結(jié)果 中科院自動(dòng)化所提出BIFT模型:面向自然語言生成,同步雙向推斷。給定包含 T 個(gè)平行句對(duì)的訓(xùn)練數(shù)據(jù)集 中科院自動(dòng)化所提出BIFT模型:面向自然語言生成,同步雙向推斷,我們旨在學(xué)習(xí)一套模型參數(shù)以最大化訓(xùn)練數(shù)據(jù)的對(duì)數(shù)似然:

中科院自動(dòng)化所提出BIFT模型:面向自然語言生成,同步雙向推斷

當(dāng)訓(xùn)練過程中計(jì)算 中科院自動(dòng)化所提出BIFT模型:面向自然語言生成,同步雙向推斷 的概率時(shí),如果同步雙向推斷模型直接采用 中科院自動(dòng)化所提出BIFT模型:面向自然語言生成,同步雙向推斷,將會(huì)遇到一個(gè)自己預(yù)測(cè)自己的問題。例如,計(jì)算 中科院自動(dòng)化所提出BIFT模型:面向自然語言生成,同步雙向推斷 時(shí),中科院自動(dòng)化所提出BIFT模型:面向自然語言生成,同步雙向推斷 包括 中科院自動(dòng)化所提出BIFT模型:面向自然語言生成,同步雙向推斷,便導(dǎo)致 中科院自動(dòng)化所提出BIFT模型:面向自然語言生成,同步雙向推斷 預(yù)測(cè)自己。顯然,這樣的訓(xùn)練方式無法學(xué)習(xí)到合理的模型參數(shù)。因此,我們提出兩種參數(shù)優(yōu)化策略,分別是兩階段法(two-pass training)和微調(diào)法(fine-tuning)。

在兩階段法中,我們首先在訓(xùn)練數(shù)據(jù)上獨(dú)立學(xué)習(xí) L2R 和 R2L 推斷模型。然后 L2R 和 R2L 模型分別用來對(duì)訓(xùn)練數(shù)據(jù)的輸入端進(jìn)行解碼,分別得到 中科院自動(dòng)化所提出BIFT模型:面向自然語言生成,同步雙向推斷 和 中科院自動(dòng)化所提出BIFT模型:面向自然語言生成,同步雙向推斷。在第二階段的訓(xùn)練過程中,我們利用 中科院自動(dòng)化所提出BIFT模型:面向自然語言生成,同步雙向推斷 而不是 中科院自動(dòng)化所提出BIFT模型:面向自然語言生成,同步雙向推斷 來計(jì)算 中科院自動(dòng)化所提出BIFT模型:面向自然語言生成,同步雙向推斷,同樣的道理,我們利用 中科院自動(dòng)化所提出BIFT模型:面向自然語言生成,同步雙向推斷,而不是 中科院自動(dòng)化所提出BIFT模型:面向自然語言生成,同步雙向推斷 來計(jì)算 中科院自動(dòng)化所提出BIFT模型:面向自然語言生成,同步雙向推斷。

在微調(diào)法中,我們首先訓(xùn)練一個(gè)如下述公式所示的沒有交互的 L2R 和 R2L 平行推斷模型,其中每個(gè)訓(xùn)練實(shí)例是一個(gè)三元組 中科院自動(dòng)化所提出BIFT模型:面向自然語言生成,同步雙向推斷(在 中科院自動(dòng)化所提出BIFT模型:面向自然語言生成,同步雙向推斷 和 中科院自動(dòng)化所提出BIFT模型:面向自然語言生成,同步雙向推斷 的句首分別加上特殊符號(hào) l2r 和 r2l )。

中科院自動(dòng)化所提出BIFT模型:面向自然語言生成,同步雙向推斷

上述訓(xùn)練過程收斂時(shí),我們從訓(xùn)練數(shù)據(jù)中隨機(jī)選取少量的平行句對(duì)(譬如 10% 的數(shù)據(jù)),并且利用該初始模型解碼這些數(shù)據(jù)的輸入序列,得到新的三元組中科院自動(dòng)化所提出BIFT模型:面向自然語言生成,同步雙向推斷。最后,我們就可以利用這些三元組像兩階段法一樣微調(diào)同步雙向推斷模型。對(duì)比兩種訓(xùn)練策略,我們會(huì)發(fā)現(xiàn)微調(diào)法不需要利用兩個(gè)獨(dú)立模型對(duì)整個(gè)訓(xùn)練數(shù)據(jù)進(jìn)行解碼、不需要在整個(gè)訓(xùn)練數(shù)據(jù)上進(jìn)行再次參數(shù)訓(xùn)練,該訓(xùn)練策略可能在實(shí)際中更受歡迎。我們的實(shí)驗(yàn)主要基于兩階段法,但我們也會(huì)給出兩種策略的對(duì)比結(jié)果。 

4. 實(shí)驗(yàn)結(jié)果 

實(shí)際上,我們將同步雙向推斷模型不僅用于 Transformer,還用于基于循環(huán)神經(jīng)網(wǎng)絡(luò) RNN 的序列生成模型。在應(yīng)用場(chǎng)景方面,我們不僅測(cè)試了機(jī)器翻譯的效果,同時(shí)也在句子摘要任務(wù)上進(jìn)行了驗(yàn)證。這里只要介紹機(jī)器翻譯任務(wù)上的結(jié)果。

我們分別在漢語-英語和英語-德語兩個(gè)機(jī)器翻譯任務(wù)上進(jìn)行了測(cè)試。漢語-英語采用約 200 萬的雙語訓(xùn)練數(shù)據(jù),英語-德語采用與 Transformer 一樣的設(shè)置。表 1 和表 2 分別展示了不同模型在漢英和英德機(jī)器翻譯任務(wù)上的結(jié)果。

從表 1 可以看出,無論采用循環(huán)神經(jīng)網(wǎng)絡(luò)還是 Transformer,同步雙向推斷模型都能夠顯著提升譯文質(zhì)量。特別是在 Transformer 框架下,BIFT 模型展示了令人驚喜的提升空間。

中科院自動(dòng)化所提出BIFT模型:面向自然語言生成,同步雙向推斷

表 1:不同機(jī)器翻譯模型在漢英任務(wù)上的結(jié)果。

RNMT 表示基于 LSTM 的序列生成模型;RNMT (R2L)表示采用從右往左解碼模式;BI-RNMT 是我們提出的基于同步雙向推斷的序列生成模型;Rerank-NMT 是一種譯文重排序系統(tǒng),即對(duì) L2R 和 R2L 的候選結(jié)果利用全局特征進(jìn)行重排序,選擇最優(yōu)結(jié)果;ABD-NMT 是一種異步雙向解碼模型,即首先進(jìn)行 R2L 解碼,然后利用 R2L 解碼結(jié)果優(yōu)化 L2R 解碼過程。

中科院自動(dòng)化所提出BIFT模型:面向自然語言生成,同步雙向推斷

表 2:不同機(jī)器翻譯模型在英德任務(wù)上的結(jié)果

表 2 展示的英德機(jī)器翻譯結(jié)果可以對(duì)比當(dāng)前最好的模型。GNMT 是 2016 年 Google 發(fā)布的基于深層 LSTM 的序列生成模型;Conv 是 2017 年 Facebook 提出的基于卷積神經(jīng)網(wǎng)絡(luò)的序列生成模型;AttIsAll 是 2017 年 Google 提出的 Transformer 模型。表中的 Transformer 是我們重現(xiàn)的模型。可以發(fā)現(xiàn),BIFT 模型在相同的實(shí)驗(yàn)設(shè)置下,可以顯著超越當(dāng)前最優(yōu)的模型,取得了最好的結(jié)果。

表 3 給出了不同機(jī)器翻譯模型的參數(shù)規(guī)模、訓(xùn)練和解碼效率的對(duì)比結(jié)果??梢园l(fā)現(xiàn),BIFT 模型沒有增加參數(shù)規(guī)模,而且?guī)缀鯖]有犧牲解碼速度。

中科院自動(dòng)化所提出BIFT模型:面向自然語言生成,同步雙向推斷

表 3:不同機(jī)器翻譯模型的參數(shù)規(guī)模、 訓(xùn)練和解碼效率對(duì)比。Train 欄表示每秒鐘完成的 Batch 訓(xùn)練數(shù)目,Test 欄表示每秒鐘翻譯的句子數(shù)目。

中科院自動(dòng)化所提出BIFT模型:面向自然語言生成,同步雙向推斷

表 4:參數(shù)訓(xùn)練策略的實(shí)驗(yàn)對(duì)比結(jié)果

表 4 給出了兩種參數(shù)訓(xùn)練策略的實(shí)驗(yàn)對(duì)比結(jié)果??梢钥吹?,無論是哪種訓(xùn)練策略,翻譯質(zhì)量都能得到大幅提升。雖然微調(diào)法沒有兩階段法有效,但是也能獲得 2 個(gè) BLEU 值的性能提升。考慮到微調(diào)法簡單、方便易部署,我們相信這種參數(shù)訓(xùn)練策略在現(xiàn)實(shí)場(chǎng)景中會(huì)更受歡迎。更詳細(xì)的模型描述和更多更豐富的實(shí)驗(yàn)分
析可以參考下面的兩篇文章:

Jiajun Zhang, Long Zhou, Yang Zhao and Chengqing Zong. 2019. Synchronous Bidirectional Inference for Neural Sequence Generation. arXiv preprint arXiv: 1902.08955

Long Zhou, Jiajun Zhang and Chengqing Zong. 2019. Synchronous Bidirectional Neural Machine Translation. Transactions on ACL, Vol. 7, pp. 91-105, 2019.

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

中科院自動(dòng)化所提出BIFT模型:面向自然語言生成,同步雙向推斷

分享:

編輯

關(guān)注AI學(xué)術(shù),例如論文
當(dāng)月熱門文章
最新文章
請(qǐng)?zhí)顚懮暾?qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說