Google Brain：NMT訓練成本太高？用大規(guī)模神經(jīng)機器翻譯架構分析給出解決方案

本文作者：夏睿

2017-03-15 18:04

導語：研究人員報告了數(shù)百次實驗測試的經(jīng)驗結果和方差數(shù)，這相當于在標準WMT英譯德任務上運行超過250,000 GPU小時數(shù)的效果。

雷鋒網(wǎng)編者按：十年前，Google Translate發(fā)布。當時，這項服務背后的核心算法還是基于短語的機器翻譯。

而十年后的今天，更先進的神經(jīng)網(wǎng)絡機器翻譯（ Neural Machine Translation）技術已經(jīng)使得翻譯系統(tǒng)的速度和準確度有了大幅提升。Google發(fā)現(xiàn)，在多個樣本的翻譯中，神經(jīng)網(wǎng)絡機器翻譯系統(tǒng)將誤差降低了 55%-85%甚至以上。

雖然成就喜人，但這對研究人員來說卻遠遠不夠。在他們看來，NMT領域還有太多可提升的空間。

近日，來自Google Brain的四位研究人員Denny Britz, Anna Goldie , Thang Luong, Quoc Le就由NMT訓練成本太高這一問題出發(fā)，對NMT 架構的超參數(shù)進行了大規(guī)模分析，并且對建立和擴展NMT構架提出了一些新穎觀點和實用建議。研究人員表示，學界還未有過類似的研究。

同時，該論文也已提交了今年的ACL大會（Association for Computational Linguistics）。

以下是為雷鋒網(wǎng)編譯的部分論文內(nèi)容。

摘要

在過去幾年里，基于神經(jīng)機器翻譯（NMT）技術的產(chǎn)品系統(tǒng)被越來越多部署在終端客戶端中，NMT本身也因此獲得了巨大進步。但目前，NMT構架還存在著一個很大的缺點，即訓練它們的成本太高，尤其是GPU的收斂時間，有時會達到幾天到數(shù)周不等。這就使得窮舉超參數(shù)搜索（exhaustive hyperparameter search）的成本和其他常見神經(jīng)網(wǎng)絡結構一樣，讓人望而卻步。

為此，我們首次對 NMT 架構的超參數(shù)進行了大規(guī)模分析。我們報告了數(shù)百次實驗測試的經(jīng)驗結果和方差數(shù)（variance numbers），這相當于在標準WMT英譯德任務上運行超過250,000 GPU小時數(shù)的效果。從實驗結果中，我們提出了有關建立和擴展NMT構架的創(chuàng)新觀點，也提供了一些實用建議。

作為此次研究成果的一部分，我們也發(fā)布了一個開源的NMT框架，讓研究員們能輕松使用該新技術，并得出最新試驗結果。

Google Brain：NMT訓練成本太高？用大規(guī)模神經(jīng)機器翻譯架構分析給出解決方案

研究結論

在研究過程中，我們通過梳理關鍵因素，以獲得最新的實驗結果。

有些研究人員可能并不認為“集束搜索調(diào)節(jié)（beam search tuning）和大多數(shù)架構變化同等重要”，以及“使用了當前優(yōu)化技術的深度模型并不總是優(yōu)于淺度模型”等說法，但通過實驗，我們?yōu)檫@類說法給出了實驗證據(jù)。

以下是實驗收獲總結：

使用 2048 維的大型嵌入（embeddings）有最優(yōu)實驗結果，不過優(yōu)勢不大；僅有 128 維的小型嵌入似乎也有足夠的能力去捕捉絕大多數(shù)必要的語義信息。
LSTM Cell 始終比 GRU Cell表現(xiàn)得好。
2-4 層的雙向編碼器性能最佳。更深層的編碼器在訓練中不如2-4層的穩(wěn)定，這一點表現(xiàn)得很明顯。不過，如果能接受高質(zhì)量得優(yōu)化，更深層的編碼器也很有潛力。
深度 4 層解碼器略優(yōu)于較淺層的解碼器。殘差連接在訓練 8 層的解碼器時不可或缺，而且，密集的殘差連接能使魯棒性有額外增加。
把額外的關注度參數(shù)化（Parameterized additive attention），會產(chǎn)生總體最優(yōu)結果。
有一個調(diào)適良好、具有長度罰分（length penalty）的集束搜索（beam search）很關鍵。5-10集束寬度搭配1.0長度罰分的工作效果好像不錯。

我們還強調(diào)了幾個重要的研究課題，包括：

高效利用嵌入?yún)?shù) (4.1)（雷鋒網(wǎng)注：4.1代表論文章節(jié)，下同）
注意機制（attention mechanisms）作為加權跳過連接（weighted skip connections）（4.5），而不是記憶單元的角色作用，
深度循環(huán)網(wǎng)絡需要更好的優(yōu)化方法（4.3），
超參數(shù)變化（hyperparameter variations）還需要更具穩(wěn)健性的集束搜索（4.6）。

此外，我們還專門發(fā)布了一個開源NMT框架，讓大家能對該框架的創(chuàng)新點一探究竟，并進行可重復試驗，同時我們還發(fā)布了所有實驗配置的文件。

論文地址：https://arxiv.org/abs/1703.03906

開源地址：https://github.com/google/seq2seq/

雷峰網(wǎng)版權文章，未經(jīng)授權禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。