Google Translate 的新改進(jìn)

本文作者： AI研習(xí)社-譯站

2020-08-13 15:37

導(dǎo)語(yǔ)：通過(guò)綜述和擴(kuò)展Google Translate 的各種最新進(jìn)展，分享翻譯質(zhì)量方面所取得的進(jìn)步。

英語(yǔ)原文：Recent Advances in Google Translate

翻譯：雷鋒字幕組（明明知道）

機(jī)器學(xué)習(xí)（ML）的進(jìn)步推動(dòng)了自動(dòng)翻譯的進(jìn)步，包括 2016 年在翻譯中引入的 GNMT 神經(jīng)翻譯模型，它極大地提高了 100 多種語(yǔ)言的翻譯質(zhì)量。然而，除了最具體的翻譯任務(wù)之外，最先進(jìn)的翻譯系統(tǒng)在所有方面都遠(yuǎn)遠(yuǎn)落后于人類(lèi)的表現(xiàn)。雖然研究界已經(jīng)開(kāi)發(fā)出了一些技術(shù)，成功地應(yīng)用于高資源語(yǔ)言，如西班牙語(yǔ)和德語(yǔ)，這些語(yǔ)言有大量的訓(xùn)練數(shù)據(jù)，但在低資源語(yǔ)言，如約魯巴語(yǔ)或馬拉雅拉姆語(yǔ)，性能仍有待提高。在受控的研究環(huán)境中，許多技術(shù)已經(jīng)證明了對(duì)低資源語(yǔ)言的顯著改善（例如 WMT 評(píng)估運(yùn)動(dòng)），然而這些在較小的、公開(kāi)的數(shù)據(jù)集上的結(jié)果可能不容易轉(zhuǎn)換到大型的、網(wǎng)絡(luò)爬得數(shù)據(jù)集。

在本文中，我們將通過(guò)綜述和擴(kuò)展各種最新進(jìn)展，分享一些我們?cè)谥С终Z(yǔ)言的翻譯質(zhì)量方面所取得的進(jìn)展，特別是那些資源較少的語(yǔ)言，并演示如何將它們大規(guī)模應(yīng)用于嘈雜的、Web 挖掘的數(shù)據(jù)。這些技術(shù)包括模型架構(gòu)和訓(xùn)練的改進(jìn)，數(shù)據(jù)集中噪音的改進(jìn)處理，通過(guò) M4 建模增加多語(yǔ)言遷移學(xué)習(xí)，以及單語(yǔ)數(shù)據(jù)的使用。BLEU 分?jǐn)?shù)在所有 100 多種語(yǔ)言中平均為增加 5 分，翻譯質(zhì)量提高如下圖所示。

Google Translate 的新改進(jìn)

谷歌的 BLEU 評(píng)分自 2006 年成立后不久就開(kāi)始翻譯模型。最后的動(dòng)畫(huà)效果顯示自去年實(shí)施新技術(shù)以來(lái)得到了提升。

對(duì)高資源和低資源語(yǔ)言的改進(jìn)

混合模型架構(gòu)：四年前我們引入了基于 RNN 的 GNMT 模型，它帶來(lái)了巨大的質(zhì)量改進(jìn)，并使翻譯覆蓋了更多的語(yǔ)言。隨著我們對(duì)模型性能的不同方面的解耦工作的進(jìn)行，我們替換了原來(lái)的 GNMT 系統(tǒng)，用一個(gè) transformer 編碼器和一個(gè) RNN 解碼器來(lái)訓(xùn)練模型，用 Lingvo（一個(gè) TensorFlow 框架）實(shí)現(xiàn)。Transformer 模型已經(jīng)被證明在機(jī)器翻譯方面比 RNN 模型更有效，但我們的工作表明，這些質(zhì)量的提高大部分來(lái)自變壓器編碼器，而 Transformer 譯碼器并不比 RNN 譯碼器明顯好。由于 RNN 解碼器在推理時(shí)間上要快得多，我們?cè)趯⑵渑c transformer 編碼器耦合之前進(jìn)行了各種優(yōu)化。由此產(chǎn)生的混合模型質(zhì)量更高，在訓(xùn)練中更穩(wěn)定，表現(xiàn)出更低的潛伏期。

網(wǎng)絡(luò)爬?。荷窠?jīng)機(jī)器翻譯（NMT）模型使用翻譯句子和文檔的示例進(jìn)行訓(xùn)練，這些示例通常是從公共網(wǎng)絡(luò)收集的。與基于短語(yǔ)的機(jī)器翻譯相比， NMT 對(duì)數(shù)據(jù)質(zhì)量更加敏感。因此，我們用一個(gè)新的數(shù)據(jù)挖掘器取代了以前的數(shù)據(jù)收集系統(tǒng)，它更注重精確率而不是召回率，它允許從公共網(wǎng)絡(luò)收集更高質(zhì)量的訓(xùn)練數(shù)據(jù)。此外，我們將 Web 爬蟲(chóng)從基于字典的模型轉(zhuǎn)換為基于 14 個(gè)大型語(yǔ)言對(duì)的嵌入模型，這使得收集到的句子數(shù)量平均增加了 29%，而精度沒(méi)有損失。

建模數(shù)據(jù)噪聲：具有顯著噪聲的數(shù)據(jù)不僅冗余，而且會(huì)降低在其上訓(xùn)練的模型的質(zhì)量。為了解決數(shù)據(jù)噪聲問(wèn)題，我們利用去噪 NMT 訓(xùn)練的結(jié)果，使用在有噪聲數(shù)據(jù)上訓(xùn)練的初步模型和在干凈數(shù)據(jù)上進(jìn)行微調(diào)的模型，為每個(gè)訓(xùn)練示例分配一個(gè)分?jǐn)?shù)。然后我們把培訓(xùn)當(dāng)作一個(gè)課程學(xué)習(xí)問(wèn)題——模型開(kāi)始對(duì)所有數(shù)據(jù)進(jìn)行培訓(xùn)，然后逐漸對(duì)更小、更清晰的子集進(jìn)行培訓(xùn)。

這些進(jìn)步尤其有利于低資源語(yǔ)言

反向翻譯：在最先進(jìn)的機(jī)器翻譯系統(tǒng)中廣泛采用，反向翻譯對(duì)于并行數(shù)據(jù)稀缺的低資源語(yǔ)言特別有用。這種技術(shù)將并行訓(xùn)練數(shù)據(jù)（一種語(yǔ)言的每句話(huà)都與它的翻譯配對(duì)）與合成并行數(shù)據(jù)（一種語(yǔ)言的句子由人編寫(xiě)，但它們的翻譯是由神經(jīng)翻譯模型生成的）相加。通過(guò)將反向翻譯合并到谷歌翻譯中，我們可以利用網(wǎng)絡(luò)上更豐富的低資源語(yǔ)言的單語(yǔ)文本數(shù)據(jù)來(lái)訓(xùn)練我們的模型。這對(duì)于提高模型輸出的流暢性尤其有幫助，而這正是低資源轉(zhuǎn)換模型表現(xiàn)不佳的領(lǐng)域。

M4 建模：M4 是一種對(duì)低資源語(yǔ)言特別有幫助的技術(shù)，它使用一個(gè)單一的大型模型在所有語(yǔ)言和英語(yǔ)之間進(jìn)行轉(zhuǎn)換。這允許大規(guī)模的遷移學(xué)習(xí)。分享一個(gè)例子，低資源語(yǔ)言像意第緒語(yǔ)能通過(guò)聯(lián)合其他相關(guān)日耳曼語(yǔ)言（如德國(guó)、荷蘭、丹麥等）進(jìn)行訓(xùn)練，與近一百個(gè)其他的、不可能共享一個(gè)已知連接的語(yǔ)言，獲得有用的信號(hào)模型。

評(píng)判翻譯質(zhì)量

對(duì)于機(jī)器翻譯系統(tǒng)的自動(dòng)質(zhì)量評(píng)估，一個(gè)流行的衡量標(biāo)準(zhǔn)是 BLEU 評(píng)分，它是基于系統(tǒng)的翻譯和人們生成的參考翻譯之間的相似性。通過(guò)這些最新的更新，我們看到 BLEU 平均比以前的 GNMT 模型提高了 5 分，其中 50 種資源最低的語(yǔ)言平均提高了 7 分。這一進(jìn)步與四年前從基于短語(yǔ)的翻譯過(guò)渡到 NMT 時(shí)觀察到的增益相當(dāng)。

盡管 BLEU 分?jǐn)?shù)是一個(gè)眾所周知的近似度量，但眾所周知，對(duì)于已經(jīng)高質(zhì)量的系統(tǒng)來(lái)說(shuō)，它有各種各樣的缺陷。例如，有幾部作品演示了在源語(yǔ)言或目標(biāo)語(yǔ)言上的翻譯語(yǔ)效應(yīng)如何影響 BLEU 分?jǐn)?shù)，在這種現(xiàn)象中，翻譯的文本可能聽(tīng)起來(lái)很別扭，因?yàn)槠渲邪凑Z(yǔ)言的屬性（如詞序）?；谶@個(gè)原因，我們對(duì)所有的新模型進(jìn)行了并排的評(píng)估，結(jié)果證實(shí)了在藍(lán)帶的效果。

除了總體質(zhì)量的提高之外，新模型對(duì)機(jī)器翻譯幻覺(jué)的魯棒性也有所增強(qiáng)。機(jī)器翻譯幻覺(jué)是指當(dāng)輸入無(wú)意義的信息時(shí)，模型會(huì)產(chǎn)生奇怪的“翻譯”。對(duì)于那些在少量數(shù)據(jù)上進(jìn)行訓(xùn)練的模型來(lái)說(shuō)，這是一個(gè)常見(jiàn)的問(wèn)題，并且會(huì)影響許多低資源語(yǔ)言。例如，當(dāng)考慮到泰盧固語(yǔ)字符的字符串“???????????????”，舊的模式產(chǎn)生了荒謬的輸出“深圳肖深圳國(guó)際機(jī)場(chǎng)（SSH）”，似乎試圖理解的聲音，而新模型正確學(xué)會(huì)直譯為“Sh Sh Sh Sh Sh Sh Sh Sh Sh Sh Sh Sh Sh Sh Sh Sh Sh”。

結(jié)論

盡管對(duì)于機(jī)器來(lái)說(shuō)，這些都是令人印象深刻的進(jìn)步，但我們必須記住，特別是對(duì)于資源較少的語(yǔ)言，自動(dòng)翻譯的質(zhì)量遠(yuǎn)遠(yuǎn)不夠完美。這些模型仍然是典型的機(jī)器翻譯錯(cuò)誤的犧牲品，包括在特定類(lèi)型的主題（“領(lǐng)域”）上表現(xiàn)不佳，合并一種語(yǔ)言的不同方言，產(chǎn)生過(guò)多的字面翻譯，以及在非正式語(yǔ)言和口語(yǔ)上表現(xiàn)不佳。

盡管如此，通過(guò)這次更新，我們很自豪——提供了相對(duì)連貫的自動(dòng)翻譯，包括支持的 108 種語(yǔ)言中資源最少的語(yǔ)言。我們感謝學(xué)術(shù)界和工業(yè)界的機(jī)器翻譯研究人員所做的研究。

致謝

這一成果基于以下這些人的貢獻(xiàn)：Tao Yu, Ali Dabirmoghaddam, Klaus Macherey, Pidong Wang, Ye Tian, Jeff Klingner, Jumpei Takeuchi, Yuichiro Sawai, Hideto Kazawa, Apu Shah, Manisha Jain, Keith Stevens, Fangxiaoyu Feng, Chao Tian, John Richardson, Rajat Tibrewal, Orhan Firat, Mia Chen, Ankur Bapna, Naveen Arivazhagan, Dmitry Lepikhin, Wei Wang, Wolfgang Macherey, Katrin Tomanek, Qin Gao, Mengmeng Niu, 和 Macduff Hughes.

雷鋒字幕組是由AI愛(ài)好者組成的志愿者翻譯團(tuán)隊(duì)；團(tuán)隊(duì)成員有大數(shù)據(jù)專(zhuān)家、算法工程師、圖像處理工程師、產(chǎn)品經(jīng)理、產(chǎn)品運(yùn)營(yíng)、IT咨詢(xún)?nèi)恕⒃谛熒?；志愿者們?lái)自IBM、AVL、Adobe、阿里、百度等知名企業(yè)，北大、清華、港大、中科院、南卡羅萊納大學(xué)、早稻田大學(xué)等海內(nèi)外高校研究所。

了解字幕組請(qǐng)聯(lián)系微信：tlacttlact

轉(zhuǎn)載請(qǐng)聯(lián)系字幕組微信并注明出處：雷鋒字幕組

雷鋒網(wǎng)雷鋒網(wǎng)

雷峰網(wǎng)版權(quán)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。