丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預覽,將在時失效
人工智能學術 正文
發(fā)私信給我在思考中
發(fā)送

0

EMNLP 2021 | 基于相似樣本檢索的在線更新機器翻譯系統(tǒng)

本文作者: 我在思考中 2021-11-08 15:54
導語:KSTER能保持翻譯質量,同時擁有在線更新能力。

EMNLP 2021 | 基于相似樣本檢索的在線更新機器翻譯系統(tǒng)

機器翻譯指的是使用機器將一種語言的文本翻譯成另一種語言的文本。機器翻譯技術對于促進不同國家的跨語言溝通有著重要的意義。

近期,字節(jié)跳動人工智能實驗室在 EMNLP 2021 上發(fā)表了一篇關于在線更新機器翻譯系統(tǒng)的論文。

EMNLP 2021 | 基于相似樣本檢索的在線更新機器翻譯系統(tǒng)

論文地址:https://arxiv.org/abs/2109.09991
代碼地址:https://github.com/jiangqn/KSTER



1

研究背景和動機

機器翻譯系統(tǒng)在線更新指的是使用單個翻譯樣本更新機器翻譯系統(tǒng)。工業(yè)應用中對機器翻譯系統(tǒng)在線更新的需求主要來自于兩類場景:

  • 在線修復 bad case。機器翻譯系統(tǒng)不是完美無缺的,有時系統(tǒng)對某些輸入會生成錯誤的譯文,這樣的輸入我們稱之為 bad case??焖傩迯?bad case 是機器翻譯系統(tǒng)實際應用中的硬需求。而使用 bad case 及其對應的正確譯文更新機器翻譯系統(tǒng)為快速修復 bad case 提供了一種巧妙的思路。

  • 使用流式生成的翻譯數(shù)據(jù)增量更新機器翻譯系統(tǒng)。機器翻譯的訓練數(shù)據(jù)不總是固定的,在一些場景中語言專家每天都會標注出新的機器翻譯數(shù)據(jù)。使用這種流式生成的數(shù)據(jù)對機器翻譯系統(tǒng)做全量的更新是成本很高的,而借助在線更新機器翻譯系統(tǒng)的方法,對翻譯系統(tǒng)做增量的更新不僅可以提升翻譯性能,更新成本也大大降低。

當前主流的機器翻譯系統(tǒng)都是基于神經(jīng)網(wǎng)絡搭建的,而參數(shù)眾多結構復雜的神經(jīng)網(wǎng)絡模型難以做到在線更新。基于樣本的機器翻譯系統(tǒng)卻很容易做到在線更新。在基于樣本的機器翻譯系統(tǒng)中,通常存在一個大規(guī)模的翻譯語料庫。給定一條源語言句子,生成對應翻譯結果的過程中,需要從翻譯語料庫中檢索出若干相似的翻譯樣本,并利用檢索到的樣本生成最終的譯文。更新基于樣本的機器翻譯系統(tǒng)只需要更新翻譯語料庫就可以了,無需更新機器翻譯模型的參數(shù)。

但是基于樣本的機器翻譯系統(tǒng)泛化性較差,在檢索不到相似樣本的情況下,很難生成高質量的譯文。因此,最近一些工作將樣本檢索與神經(jīng)機器翻譯結合,在神經(jīng)機器翻譯模型解碼的過程中檢索相似的翻譯樣本輔助譯文生成。這種樣本檢索機制賦予了機器翻譯系統(tǒng)在線更新的能力。

在這個方向上,一個經(jīng)典的工作是發(fā)表在 ICLR 2021 上的 kNN-MT[2]。kNN-MT 為神經(jīng)機器翻譯引入了詞級別的樣本檢索機制,使得翻譯系統(tǒng)在無需額外訓練的情況下,顯著提升多領域機器翻譯和領域適應機器翻譯的能力,同時具有了在線更新的能力。

但是 kNN-MT 仍然存在一些問題,使用固定的將神經(jīng)機器翻譯輸出和樣本檢索進行組合的策略使得它難以適應多變的輸入樣本。如圖1所示,帶有領域內翻譯語料庫的 kNN-MT 領域內的翻譯質量取得了明顯提升,而通用領域翻譯質量卻劇烈下滑。造成這種現(xiàn)象的原因是,kNN-MT 過度依賴檢索到的樣本,在檢索到的樣本與測試樣本不相似時,檢索到的樣本對于機器翻譯而言反而是噪聲,從而降低了翻譯質量。

這篇工作主要針對該問題[3],提出了一種動態(tài)結合樣本檢索和神經(jīng)機器翻譯的方法 KSTER (Kernel-Smoothed Translation with Example Retrieval),使得翻譯系統(tǒng)在檢索到相似樣本的情況下能夠提升翻譯效果,在檢索不到相似樣本時,也能保持原有的翻譯質量,同時保持在線更新的能力。

EMNLP 2021 | 基于相似樣本檢索的在線更新機器翻譯系統(tǒng)

圖1 帶有領域內數(shù)據(jù)庫的kNN-MT,在領域內數(shù)據(jù)和通用領域數(shù)據(jù)上的翻譯效果。



2

模型結構

在這篇工作的模型結構中,翻譯系統(tǒng)由兩個部分組成,分別是一個通用領域的神經(jīng)機器翻譯模型——采用經(jīng)典的 Transformer 結構[1],和一個樣本檢索模塊——用于執(zhí)行相似樣本檢索、相似度計算和概率估計。自回歸的機器翻譯模型生成譯文是按相似的方式逐詞生成,因此只需考慮單步的解碼過程。在解碼生成譯文的每一步中,翻譯系統(tǒng)的兩個部分都會產生一個下一個詞對應的概率分布。這兩個分布會根據(jù)一個混合系數(shù)進行線性插值,估計出一個混合的概率分布。下一個詞將由這個混合的分布預測出。

EMNLP 2021 | 基于相似樣本檢索的在線更新機器翻譯系統(tǒng)
圖2 模型結構

離線數(shù)據(jù)庫構建

為了在解碼過程中進行樣本檢索,作者構建了一些詞級別的翻譯數(shù)據(jù)庫。數(shù)據(jù)庫中存儲的是詞級別的翻譯樣本,每一個樣本是一個鍵值對 。這個鍵指的是目標端語言的句子中一個詞出現(xiàn)的上下文的向量表示 ,值指的是對應的目標端語言的詞 。使用一個通用領域上訓練好的 Transformer 模型,對每一條訓練數(shù)據(jù)做強制解碼,即可計算出目標語言每個詞的上下文相關向量表示,構造出一組詞級別翻譯樣本以供檢索。

樣本檢索

在解碼的每一步中,NMT 模型會計算出一個基于模型的下一個詞分布 。另外,NMT 模型會計算當前上下文的向量表示作為查詢  ,從翻譯數(shù)據(jù)庫中檢索Top- k 個 L2 距離最小的樣本。

可學習的核函數(shù)

然后利用核密度估計根據(jù)檢索到的樣本估計出一個基于樣本的分布 ,其中核函數(shù)是一個具有可學習帶寬參數(shù)的高斯核或拉普拉斯核。帶寬參數(shù)基于當前上下文和檢索到的樣本動態(tài)估計得出,主要是為了調整 的銳度。當檢索出的 k 個樣本只有幾個頭部樣本與當前上下文相似時,低帶寬的核密度估計會生成一個尖銳的分布,將絕大多數(shù)概率質量分配給頭部樣本,忽略尾部樣本引入的噪聲。

EMNLP 2021 | 基于相似樣本檢索的在線更新機器翻譯系統(tǒng)

圖3 核函數(shù)的帶寬參數(shù)越小,估計出的分布越尖銳。

自適應分布混合

基于模型的分布 將和基于樣本的分布 按一定權重 進行線性插值,得到一個混合分布 ,并由混合分布預測出下一個詞。混合權重 決定了翻譯系統(tǒng)預測下一個詞是更多地依賴 NMT 模型的輸出還是檢索到的樣本。如圖4 所示,在解碼的每一步中,混合權重都是不同的,根據(jù)當前上下文和檢索到的樣本估計出。翻譯系統(tǒng)自適應地決定更多地依賴哪個部分。

EMNLP 2021 | 基于相似樣本檢索的在線更新機器翻譯系統(tǒng)

圖4 動態(tài)的混合權重。Memory 表示基于樣本的分布權重 ,Translation 表示基于模型的分布權重 。

模型訓練策略

在 KSTER 訓練過程中,NMT模型參數(shù)是固定不變的,需要訓練的部分只有一個帶寬參數(shù)估計器和一個混合權重估計器。作者使用交叉熵損失函數(shù)對翻譯系統(tǒng)整體進行優(yōu)化,但只更新帶寬參數(shù)估計器和混合權重估計器的參數(shù)。

由于訓練翻譯系統(tǒng)的數(shù)據(jù)與構建翻譯數(shù)據(jù)庫的數(shù)據(jù)是相同的,在訓練時總能檢索到 top 1 相似的翻譯樣本就是查詢自身。而測試數(shù)據(jù)通常在翻譯數(shù)據(jù)庫中沒有出現(xiàn)過。這種訓練和測試的不一致性,導致翻譯系統(tǒng)容易過度依賴檢索到的樣本,產生過擬合的現(xiàn)象。為了緩解訓練和測試的不一致性,作者在訓練時檢索最相似的 k + 1 個樣本,并把第 1 相似的樣本丟棄,保留剩下的 k 個樣本用于后續(xù)的計算。這種訓練策略被稱為檢索丟棄,在測試時并不使用這種策略。



3

實驗結果和分析

這篇工作在機器翻譯領域適應和多領域機器翻譯兩種任務上進行了實驗,KSTER 相比 kNN-MT 在兩種任務上均有提升。

EMNLP 2021 | 基于相似樣本檢索的在線更新機器翻譯系統(tǒng)
圖5 機器翻譯領域適應任務上的實驗結果
EMNLP 2021 | 基于相似樣本檢索的在線更新機器翻譯系統(tǒng)

圖6 多領域機器翻譯任務上的實驗結果

圖7 展示了學到的帶寬估計器和權重估計器在測試時估計出的帶寬和權重分布。帶寬估計器和權重估計器學到了在不同的解碼步中估計出不同的核函數(shù)帶寬和權重。不同領域帶寬和權重的分布也各不相同。
EMNLP 2021 | 基于相似樣本檢索的在線更新機器翻譯系統(tǒng)

圖7 不同領域的核函數(shù)帶寬和混合權重分布

圖8 展示了在檢索不同數(shù)量樣本時,kNN-MT 和 KSTER 的翻譯效果,在多個不同 k 的設定下,KSTER都穩(wěn)定超過kNN-MT。

EMNLP 2021 | 基于相似樣本檢索的在線更新機器翻譯系統(tǒng)

圖8 檢索不同數(shù)量樣本 k 時,kNN-MT 和 KSTER 的翻譯效果

圖9 驗證了檢索丟棄這種訓練策略的必要性。在不使用檢索丟棄策略時,KSTER模型產生了嚴重的過擬合。而使用檢索丟棄策略后,過擬合的現(xiàn)象得到明顯緩解。

EMNLP 2021 | 基于相似樣本檢索的在線更新機器翻譯系統(tǒng)

圖9 檢索丟棄訓練策略有助于緩解過擬合

系統(tǒng)展示

作者基于 KSTER 開發(fā)了一個基于在線干預機器翻譯系統(tǒng),用于展示翻譯系統(tǒng)在線修復bad case的能力。圖10 - 14 展示了一些具體的樣例。

如 圖10 所示,由于訓練數(shù)據(jù)中沒有出現(xiàn)過“字節(jié)跳動”這種新興實體,以及“C位”這類新詞,翻譯系統(tǒng)對它們的翻譯效果是不好的。

EMNLP 2021 | 基于相似樣本檢索的在線更新機器翻譯系統(tǒng)

圖10 Base 模型翻譯結果

同樣的,當翻譯數(shù)據(jù)庫中沒有存儲包含有“字節(jié)跳動”和“C位”的樣本時,即使具有相似樣本檢索的機制,KSTER 也無法翻譯好相關的句子,產生了兩個 bad case,如圖11所示。
EMNLP 2021 | 基于相似樣本檢索的在線更新機器翻譯系統(tǒng)

圖11 KSTER 翻譯結果

接下來,作者修正 bad case 的翻譯結果,并把 圖12 中的兩個翻譯樣本添加至翻譯數(shù)據(jù)庫中,即用這兩個樣本更新翻譯系統(tǒng)。這個過程只需數(shù)秒,可以做到近實時的更新。
EMNLP 2021 | 基于相似樣本檢索的在線更新機器翻譯系統(tǒng)

圖12 向 KSTER 翻譯數(shù)據(jù)庫中添加以上樣本

如 圖13 所示,在添加了以上樣本后,翻譯系統(tǒng)在生成譯文時便可檢索到相似的翻譯樣本,輔助譯文生成,KSTER 翻譯效果明顯提高。在混合權重的可視化中,也可以看出在檢索到相似樣本時,翻譯系統(tǒng)更多地依賴相似樣本預測下一個詞。
EMNLP 2021 | 基于相似樣本檢索的在線更新機器翻譯系統(tǒng)

圖13 添加樣本之后KSTER的翻譯結果

最后,如 圖14 所示,作者輸入兩個帶有“字節(jié)跳動”和“C位”但與翻譯數(shù)據(jù)庫中存儲樣本不同的句子,翻譯系統(tǒng)依然可以準確地翻譯這兩個句子。這個現(xiàn)象表明,KSTER 對于 bad case 的修復是具有泛化性的,可以通過修復一個 bad case 實現(xiàn)修復一類 bad case。在混合權重的可視化中也可以看出,在翻譯“字節(jié)跳動”和“C位”時(即生成"ByteDance"和"the central position"時),翻譯系統(tǒng)更多地依賴檢索到的樣本,而在翻譯其他部分時,翻譯系統(tǒng)更多地依賴 NMT 模型輸出。
EMNLP 2021 | 基于相似樣本檢索的在線更新機器翻譯系統(tǒng)

圖14 KSTER 在相關樣本上的翻譯結果



4

總結

本文主要介紹了 KSTER,一種有效的機器翻譯系統(tǒng)在線更新方法。其在機器翻譯領域適應和多領域機器翻譯上均表現(xiàn)出優(yōu)異的效果。同時展示了它的在線修復 bad case的能力。

參考文獻

[1] Vaswani et al. "Attention is All You Need". Proceedings of the 31st International Conference on Neural Information Processing Systems.

[2] Khandelwal et al. "Nearest Neighbor Machine Translation". ICLR 2021: The Ninth International Conference on Learning Representations.

[3] Jiang et al. "Learning Kernel-Smoothed Machine Translation with Retrieved Examples". Proceedings of the 2021 Conference on Empirical Methods in Natural Language Processing.

EMNLP 2021 | 基于相似樣本檢索的在線更新機器翻譯系統(tǒng)

雷鋒網(wǎng)


雷峰網(wǎng)版權文章,未經(jīng)授權禁止轉載。詳情見轉載須知。

EMNLP 2021 | 基于相似樣本檢索的在線更新機器翻譯系統(tǒng)

分享:
相關文章
當月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設置密碼以方便用郵箱登錄
立即設置 以后再說