支持108種語(yǔ)言的谷歌翻譯如何用AI讓翻譯質(zhì)量越來(lái)越好？

本文作者：包永剛

2020-06-04 07:46

導(dǎo)語(yǔ)：谷歌表示，其翻譯質(zhì)量的突破并不是由單一技術(shù)推動(dòng)。

谷歌表示，在提高語(yǔ)言翻譯的質(zhì)量方面，已經(jīng)取得了進(jìn)展。在即將發(fā)表的博客文章中，該公司詳細(xì)介紹了新的創(chuàng)新技術(shù)，這些創(chuàng)新技術(shù)增強(qiáng)了Google翻譯（Google Translate）支持的108種語(yǔ)言（特別是數(shù)據(jù)貧乏的約魯巴語(yǔ)和馬拉雅拉姆語(yǔ)）的用戶體驗(yàn)，該服務(wù)平均每天翻譯1500億個(gè)單詞。

自谷歌翻譯首次公開亮后的13年間，諸如神經(jīng)機(jī)器翻譯、基于重寫的范例和本地處理之類的技術(shù)使該平臺(tái)的翻譯準(zhǔn)確性有了可量化的飛躍。但是直到最近，翻譯的最新算法表現(xiàn)也落后于人類。Google之外的努力也說(shuō)明了問(wèn)題的難度，Masakhane項(xiàng)目旨在使非洲大陸上的數(shù)千種語(yǔ)言能夠自動(dòng)翻譯，但它還沒有超出數(shù)據(jù)收集和轉(zhuǎn)錄階段。共同的聲音（雷鋒網(wǎng)注，Common Voice是Mozilla發(fā)起的一個(gè)眾包項(xiàng)目，旨在為語(yǔ)音識(shí)別軟件創(chuàng)建免費(fèi)的數(shù)據(jù)庫(kù)）自2017年6月推出以來(lái)，Mozilla為建立轉(zhuǎn)錄語(yǔ)音數(shù)據(jù)的開源集合所做的努力僅審查了40種聲音。

谷歌表示，其翻譯質(zhì)量的突破并不是由單一技術(shù)推動(dòng)，而是針對(duì)資源較少的語(yǔ)言、高質(zhì)量源語(yǔ)言、總體質(zhì)量、延遲和整體推理速度的技術(shù)組合。在2019年5月至2020年5月之間，通過(guò)人工評(píng)估和BLEU（一種基于系統(tǒng)翻譯與人工參考翻譯之間相似性的指標(biāo)）進(jìn)行衡量，谷歌翻譯在所有語(yǔ)言中平均提高了5分或更多，在50種最低水平的翻譯中平均提高了7分或更多。此外，谷歌表示，“翻譯”對(duì)機(jī)器翻譯聯(lián)想的功能變得更加強(qiáng)大，一種現(xiàn)象是，當(dāng)給泰盧固語(yǔ)字符“??????”輸入，“Shenzhen Shenzhen Shaw International Airport (SSH)”）時(shí)，AI模型會(huì)產(chǎn)生奇怪的翻譯“Sh sh sh sh sh sh sh sh sh sh sh sh sh sh sh sh sh”。

混合模型和數(shù)據(jù)挖掘器

這些技術(shù)中的第一個(gè)是翻譯模型體系結(jié)構(gòu)——一種混合體系結(jié)構(gòu)，包含在Lingvo（用于序列建模的TensorFlow框架）中實(shí)現(xiàn)的Transformer編碼器和遞歸神經(jīng)網(wǎng)絡(luò)（RNN）解碼器。

在機(jī)器翻譯中，編碼器通常將單詞和短語(yǔ)編碼為內(nèi)部表示，然后解碼器將其用于生成所需語(yǔ)言的文本。谷歌相關(guān)研究人員于2017年首次提出的基于Transformer模型在此方面比RNN更為有效，但谷歌表示其工作表明大部分質(zhì)量提升僅來(lái)自于Transformer的一個(gè)組成部分：編碼器。那可能是因?yàn)殡m然RNN和Transformer都被設(shè)計(jì)為處理有序的數(shù)據(jù)序列，但是Transformers并不需要按順序處理序列。換句話說(shuō)，如果所討論的數(shù)據(jù)是自然語(yǔ)言，則Transformer無(wú)需在處理結(jié)尾之前處理句子的開頭。

盡管如此，在推理時(shí)，RNN解碼器仍比“Transformer”中的解碼器“快得多”。意識(shí)到這一點(diǎn)，Google Translate團(tuán)隊(duì)在將RNN解碼器與Transformer編碼器結(jié)合之前對(duì)RNN解碼器進(jìn)行了優(yōu)化，以創(chuàng)建低延遲、質(zhì)量更高，比四年前基于RNN的神經(jīng)機(jī)器翻譯模型更穩(wěn)定的混合模型進(jìn)行替代。

支持108種語(yǔ)言的谷歌翻譯如何用AI讓翻譯質(zhì)量越來(lái)越好？

圖：自2006年成立以來(lái)，Google翻譯模型的BLEU得分。（圖片來(lái)源：Google）

除了新穎的混合模型體系結(jié)構(gòu)之外，Google還從數(shù)以百萬(wàn)計(jì)的示例翻譯中（用于文章、書籍、文檔和Web搜索結(jié)果）編譯了用于編譯訓(xùn)練集的數(shù)十年歷史的爬蟲。新的翻譯器基于嵌入的14種主流語(yǔ)言，而不是基于字典的-意味著它使用實(shí)數(shù)矢量表示單詞和短語(yǔ)-更加注重精度（相關(guān)數(shù)據(jù)在檢索到的數(shù)據(jù)中所占的比例）想到（實(shí)際檢索到的相關(guān)數(shù)據(jù)總量的一部分）。谷歌表示，在使用過(guò)程中，這使翻譯器提取的句子數(shù)量平均增加了29％。

有噪音的數(shù)據(jù)和轉(zhuǎn)移學(xué)習(xí)

另一個(gè)翻譯性能提升來(lái)自更好地處理訓(xùn)練數(shù)據(jù)中噪聲的建模方法。觀察到有噪聲的數(shù)據(jù)（含有大量無(wú)法正確理解或解釋的大量信息的數(shù)據(jù)）會(huì)損害語(yǔ)言的翻譯，因此Google翻譯團(tuán)隊(duì)部署了一個(gè)系統(tǒng)，該系統(tǒng)使用經(jīng)過(guò)訓(xùn)練的模型為示例分配分?jǐn)?shù)對(duì)嘈雜的數(shù)據(jù)進(jìn)行調(diào)優(yōu)，并對(duì)“干凈的”數(shù)據(jù)進(jìn)行調(diào)優(yōu)。實(shí)際上，這些模型開始對(duì)所有數(shù)據(jù)進(jìn)行訓(xùn)練，然后逐步對(duì)較小和較干凈的子集進(jìn)行訓(xùn)練，這是AI研究社區(qū)中稱為課程學(xué)習(xí)的方法。

在資源匱乏的語(yǔ)言方面，Google 在翻譯中實(shí)施了反向翻譯方案，以增強(qiáng)并行訓(xùn)練數(shù)據(jù)，該語(yǔ)言中的每個(gè)句子都與其翻譯配對(duì)。（機(jī)器翻譯傳統(tǒng)上依賴于源語(yǔ)言和目標(biāo)語(yǔ)言中成對(duì)句子的語(yǔ)料統(tǒng)計(jì)）在這種方案中，訓(xùn)練數(shù)據(jù)會(huì)自動(dòng)與合成并行數(shù)據(jù)對(duì)齊，從而目標(biāo)文本是自然語(yǔ)言，但會(huì)生成源通過(guò)神經(jīng)翻譯模型。結(jié)果是谷歌翻譯利用了更豐富的單語(yǔ)文本數(shù)據(jù)來(lái)訓(xùn)練模型，Google表示這對(duì)于提高流利性特別有用。

支持108種語(yǔ)言的谷歌翻譯如何用AI讓翻譯質(zhì)量越來(lái)越好？

圖：帶有翻譯功能的Google Maps。

谷歌翻譯現(xiàn)在還利用了M4建模，其中一個(gè)大型模型M4在多種語(yǔ)言和英語(yǔ)之間進(jìn)行翻譯。（M4是于去年在一篇論文中首次提出，證明它在訓(xùn)練了100多種語(yǔ)言中的250億對(duì)句子對(duì)之后，提高了30多種低資源語(yǔ)言的翻譯質(zhì)量。）M4建模使谷歌翻譯中的遷移學(xué)習(xí)成為可能，收集了包括法語(yǔ)、德語(yǔ)和西班牙語(yǔ)（有數(shù)十億個(gè)并行示例）的高資源語(yǔ)言進(jìn)行訓(xùn)練提升了表現(xiàn)，從而可以應(yīng)用于翻譯諸如約魯巴語(yǔ)、信德語(yǔ)和夏威夷語(yǔ)（僅有數(shù)萬(wàn)個(gè)示例）的低資源語(yǔ)言。

展望未來(lái)

根據(jù)Google的說(shuō)法，自2010年以來(lái)，翻譯每年至少提高了1個(gè)BLEU點(diǎn)，但是自動(dòng)機(jī)器翻譯絕不能解決問(wèn)題。Google承認(rèn)，即使是其增強(qiáng)的模型也容易出錯(cuò)，包括將一種語(yǔ)言的不同方言混淆，產(chǎn)生過(guò)多的直譯，以及在特定題材和非正式或口頭語(yǔ)言上的表現(xiàn)不佳。

微軟試圖通過(guò)各種方式解決這一問(wèn)題，包括通過(guò)其谷歌翻譯社區(qū)計(jì)劃（Google Translate Community）來(lái)招募志愿者，通過(guò)翻譯單詞和短語(yǔ)或檢查翻譯是否正確來(lái)幫助提高低資源語(yǔ)言的翻譯質(zhì)量。僅在2月份，該程序與新興的機(jī)器學(xué)習(xí)技術(shù)相結(jié)合，就增加了翻譯，共有7500萬(wàn)人使用了五種語(yǔ)言：Kinyarwanda、Odia（奧里亞語(yǔ)）、Tatar、Turkmen和Uyghur（維吾爾語(yǔ)）。

追求真正通用翻譯的并不只有Google。在2018年8月，F(xiàn)acebook 公開了一種AI模型，該模型結(jié)合了逐詞翻譯，語(yǔ)言模型和反向翻譯的組合，在語(yǔ)言配對(duì)方面表現(xiàn)更好。最近，麻省理工學(xué)院計(jì)算機(jī)科學(xué)與人工智能實(shí)驗(yàn)室的研究人員提出了一種無(wú)監(jiān)督的模型，即可以從未明確標(biāo)記或分類的測(cè)試數(shù)據(jù)中學(xué)習(xí)的模型，該模型可以在兩種語(yǔ)言的文本之間進(jìn)行翻譯，而無(wú)需在兩種語(yǔ)言之間直接進(jìn)行翻譯。

谷歌在一份聲明中以外交方式表示，它對(duì)“學(xué)術(shù)界和工業(yè)界”的機(jī)器翻譯研究表示感謝，其中一些通報(bào)了自己的工作。該公司表示：“我們通過(guò)綜合和擴(kuò)展各種最新進(jìn)展來(lái)實(shí)現(xiàn)（谷歌翻譯最近的改進(jìn)）。通過(guò)此更新，我們?yōu)樘峁┫鄬?duì)一致的自動(dòng)翻譯而感到自豪，即使是在支持的108種語(yǔ)言中資源最少的情況下也是如此?！?/p>

參考鏈接：https://venturebeat.com/2020/06/03/how-googleis-using-emerging-ai-techniques-to-improve-language-translation-quality/ 雷鋒網(wǎng)雷鋒網(wǎng)

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

0人收藏

相關(guān)文章

包永剛

編輯

發(fā)私信

當(dāng)月熱門文章

支持108種語(yǔ)言的谷歌翻譯如何用AI讓翻譯質(zhì)量越來(lái)越好？

支持108種語(yǔ)言的谷歌翻譯如何用AI讓翻譯質(zhì)量越來(lái)越好？