谷歌神經(jīng)翻譯又有新進(jìn)展，基于單一模型無(wú)須訓(xùn)練

本文作者：小東

2016-11-16 17:41

導(dǎo)語(yǔ)：谷歌成功解決多語(yǔ)言翻譯難題，實(shí)現(xiàn)一個(gè)模型，翻譯多種語(yǔ)言！

大家都知道，歐盟擁有 24 種官方語(yǔ)言，理想情況下，歐盟的翻譯官們應(yīng)該能夠隨時(shí)從一種語(yǔ)言直譯到另一種語(yǔ)言，但這種翻譯組合實(shí)在是太多了，高達(dá) 576 種，所以他們選擇英語(yǔ)當(dāng)做中間語(yǔ)言來(lái)解決這一問(wèn)題。

同樣地，我們的谷歌工程師們也面臨著同樣的問(wèn)題，但谷歌面臨的麻煩要更大一點(diǎn)，因?yàn)樗麄冃枰g的語(yǔ)言種類要比歐盟的官方語(yǔ)言多，達(dá)到 100 多種，（例如：英語(yǔ)翻法語(yǔ)是一種組合，而法語(yǔ)翻英語(yǔ)又是另一種組合），而這些翻譯組合會(huì)高達(dá)上萬(wàn)種。

谷歌神經(jīng)翻譯又有新進(jìn)展，基于單一模型無(wú)須訓(xùn)練

如果為每一種組合訓(xùn)練一種神經(jīng)翻譯模型的話，那么就需要訓(xùn)練上萬(wàn)個(gè)。真的是好多?。〉乾F(xiàn)在不要了，我們只需要一個(gè)模型就可以解決這些問(wèn)題。近日，來(lái)自谷歌的工程師門發(fā)表了一篇論文，上面提到如何只用一個(gè)模型實(shí)現(xiàn)多語(yǔ)言之間的翻譯。這個(gè)模型被稱為 NMT 模型。 NMT 模型的訓(xùn)練不需要任何語(yǔ)言學(xué)知識(shí)，且具有模型簡(jiǎn)單、翻譯質(zhì)量高等優(yōu)點(diǎn)。它基于原有的單一語(yǔ)言翻譯模型，但不需要對(duì)原有翻譯模型進(jìn)行任何修改，便可實(shí)現(xiàn)多語(yǔ)言之間的翻譯。

論文顯示這種新方法有三個(gè)優(yōu)點(diǎn)：

一、簡(jiǎn)單，即減少需要訓(xùn)練的模型數(shù)；
二、改善翻譯質(zhì)量。尤其是那些訓(xùn)練語(yǔ)料不足的語(yǔ)言；
三、具有‘zero shot’翻譯能力，即如果我們訓(xùn)練一個(gè)模型可以將葡萄牙語(yǔ)翻譯成英語(yǔ)，然后在訓(xùn)練一下讓其可以實(shí)現(xiàn)英語(yǔ)到西班牙語(yǔ)之間的翻譯，此時(shí)神奇的一幕出現(xiàn)了，我們雖然并沒(méi)有進(jìn)行葡萄牙語(yǔ)到西班牙語(yǔ)之間的翻譯，但是此時(shí)模型仍然可以實(shí)現(xiàn)葡萄牙語(yǔ)到西班牙語(yǔ)之間的正確翻譯。

谷歌宣稱這是世界首次研發(fā)出 zero-shot 翻譯。很明顯，zero-shot 還具有明顯的速度優(yōu)勢(shì)，它可以使解碼時(shí)間減半。其另一個(gè)優(yōu)勢(shì)就是可以實(shí)現(xiàn)句間轉(zhuǎn)換。如果一個(gè)句子中包含不止一種語(yǔ)言，它照樣可以翻譯。這樣如果一個(gè)大的數(shù)據(jù)集中如果包含多種語(yǔ)言，那么它照樣可以實(shí)現(xiàn)翻譯。論文的最后，谷歌翻譯人員用BLEU方法對(duì)翻譯結(jié)果進(jìn)行評(píng)判，發(fā)現(xiàn)結(jié)果改善不少。

實(shí)際上，神經(jīng)機(jī)器翻譯還有很長(zhǎng)的路要走。谷歌貌似已經(jīng)將 NMT 推廣到了其它語(yǔ)言翻譯上，例如英語(yǔ)到德語(yǔ)的翻譯。在我們對(duì)谷歌翻譯進(jìn)行的隨機(jī)測(cè)試中，我們發(fā)現(xiàn)其翻譯流暢度有所提升，但仍有一些漏翻或誤翻。

論文簡(jiǎn)介：《Google's Multilingual Neural Machine Translation System: Enabling Zero-Shot Translation》

我們用一個(gè)簡(jiǎn)單而優(yōu)雅的多語(yǔ)言神經(jīng)機(jī)器翻譯模型解決了多種語(yǔ)言之間的翻譯問(wèn)題，這個(gè)模型與原有模型對(duì)比并沒(méi)有任何改變，只是在輸入句子時(shí)引入了一個(gè)變量，以標(biāo)明需要翻譯的目標(biāo)語(yǔ)言是什么。后面的編碼、解碼、注意力模型在所有語(yǔ)言中都一樣，詞表也共享，參數(shù)無(wú)需要增加。

與我們起初的設(shè)計(jì)相比，實(shí)現(xiàn)了極大的簡(jiǎn)化。在保持參數(shù)值不變的情況下，翻譯質(zhì)量居然還有所提升。在WMT'14 測(cè)試中，我們的模型在英法翻譯中不比任何模型差，在英德翻譯中比任何模型好，在多語(yǔ)言測(cè)試中，我們的模型在 14 年法英、15 年德英翻譯中效果最優(yōu)。我們的模型不僅可以對(duì) 12 種語(yǔ)言對(duì)（例如英法、法英，這是兩個(gè)語(yǔ)言對(duì)）進(jìn)行翻譯，而且其翻譯效果也比大多數(shù)單語(yǔ)言對(duì)的翻譯模型還要好。除此之外、對(duì)于沒(méi)有訓(xùn)練過(guò)的語(yǔ)言對(duì)，我們的模型仍然可以學(xué)習(xí)，這就表明神經(jīng)網(wǎng)絡(luò)是可以實(shí)現(xiàn)遷移學(xué)習(xí)與‘zero-shot’翻譯的，在文章最后我們將向大家介紹一些在混合翻譯中發(fā)生的一些趣事。

via SLATOR