丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
人工智能開發(fā)者 正文
發(fā)私信給AI研習(xí)社-譯站
發(fā)送

0

Google Translate 的新改進(jìn)

本文作者: AI研習(xí)社-譯站 2020-08-13 15:37
導(dǎo)語:通過綜述和擴(kuò)展Google Translate 的各種最新進(jìn)展,分享翻譯質(zhì)量方面所取得的進(jìn)步。

字幕組雙語原文:Google Translate 的新改進(jìn)

英語原文:Recent Advances in Google Translate

翻譯:雷鋒字幕組(明明知道

機(jī)器學(xué)習(xí)(ML)的進(jìn)步推動了自動翻譯的進(jìn)步,包括 2016 年在翻譯中引入的 GNMT 神經(jīng)翻譯模型,它極大地提高了 100 多種語言的翻譯質(zhì)量。然而,除了最具體的翻譯任務(wù)之外,最先進(jìn)的翻譯系統(tǒng)在所有方面都遠(yuǎn)遠(yuǎn)落后于人類的表現(xiàn)。雖然研究界已經(jīng)開發(fā)出了一些技術(shù),成功地應(yīng)用于高資源語言,如西班牙語和德語,這些語言有大量的訓(xùn)練數(shù)據(jù),但在低資源語言,如約魯巴語或馬拉雅拉姆語,性能仍有待提高。在受控的研究環(huán)境中,許多技術(shù)已經(jīng)證明了對低資源語言的顯著改善(例如 WMT 評估運動),然而這些在較小的、公開的數(shù)據(jù)集上的結(jié)果可能不容易轉(zhuǎn)換到大型的、網(wǎng)絡(luò)爬得數(shù)據(jù)集。

在本文中,我們將通過綜述和擴(kuò)展各種最新進(jìn)展,分享一些我們在支持語言的翻譯質(zhì)量方面所取得的進(jìn)展,特別是那些資源較少的語言,并演示如何將它們大規(guī)模應(yīng)用于嘈雜的、Web 挖掘的數(shù)據(jù)。這些技術(shù)包括模型架構(gòu)和訓(xùn)練的改進(jìn),數(shù)據(jù)集中噪音的改進(jìn)處理,通過 M4 建模增加多語言遷移學(xué)習(xí),以及單語數(shù)據(jù)的使用。BLEU 分?jǐn)?shù)在所有 100 多種語言中平均為增加 5 分,翻譯質(zhì)量提高如下圖所示。

Google Translate 的新改進(jìn)

谷歌的 BLEU 評分自 2006 年成立后不久就開始翻譯模型。最后的動畫效果顯示自去年實施新技術(shù)以來得到了提升。

對高資源和低資源語言的改進(jìn)

混合模型架構(gòu):四年前我們引入了基于 RNN 的 GNMT 模型,它帶來了巨大的質(zhì)量改進(jìn),并使翻譯覆蓋了更多的語言。隨著我們對模型性能的不同方面的解耦工作的進(jìn)行,我們替換了原來的 GNMT 系統(tǒng),用一個 transformer 編碼器和一個 RNN 解碼器來訓(xùn)練模型,用 Lingvo(一個 TensorFlow 框架)實現(xiàn)。Transformer 模型已經(jīng)被證明在機(jī)器翻譯方面比 RNN 模型更有效,但我們的工作表明,這些質(zhì)量的提高大部分來自變壓器編碼器,而 Transformer 譯碼器并不比 RNN 譯碼器明顯好。由于 RNN 解碼器在推理時間上要快得多,我們在將其與 transformer 編碼器耦合之前進(jìn)行了各種優(yōu)化。由此產(chǎn)生的混合模型質(zhì)量更高,在訓(xùn)練中更穩(wěn)定,表現(xiàn)出更低的潛伏期。

網(wǎng)絡(luò)爬?。荷窠?jīng)機(jī)器翻譯(NMT)模型使用翻譯句子和文檔的示例進(jìn)行訓(xùn)練,這些示例通常是從公共網(wǎng)絡(luò)收集的。與基于短語的機(jī)器翻譯相比, NMT 對數(shù)據(jù)質(zhì)量更加敏感。因此,我們用一個新的數(shù)據(jù)挖掘器取代了以前的數(shù)據(jù)收集系統(tǒng),它更注重精確率而不是召回率,它允許從公共網(wǎng)絡(luò)收集更高質(zhì)量的訓(xùn)練數(shù)據(jù)。此外,我們將 Web 爬蟲從基于字典的模型轉(zhuǎn)換為基于 14 個大型語言對的嵌入模型,這使得收集到的句子數(shù)量平均增加了 29%,而精度沒有損失。

建模數(shù)據(jù)噪聲:具有顯著噪聲的數(shù)據(jù)不僅冗余,而且會降低在其上訓(xùn)練的模型的質(zhì)量。為了解決數(shù)據(jù)噪聲問題,我們利用去噪 NMT 訓(xùn)練的結(jié)果,使用在有噪聲數(shù)據(jù)上訓(xùn)練的初步模型和在干凈數(shù)據(jù)上進(jìn)行微調(diào)的模型,為每個訓(xùn)練示例分配一個分?jǐn)?shù)。然后我們把培訓(xùn)當(dāng)作一個課程學(xué)習(xí)問題——模型開始對所有數(shù)據(jù)進(jìn)行培訓(xùn),然后逐漸對更小、更清晰的子集進(jìn)行培訓(xùn)。

這些進(jìn)步尤其有利于低資源語言

反向翻譯:在最先進(jìn)的機(jī)器翻譯系統(tǒng)中廣泛采用,反向翻譯對于并行數(shù)據(jù)稀缺的低資源語言特別有用。這種技術(shù)將并行訓(xùn)練數(shù)據(jù)(一種語言的每句話都與它的翻譯配對)與合成并行數(shù)據(jù)(一種語言的句子由人編寫,但它們的翻譯是由神經(jīng)翻譯模型生成的)相加。通過將反向翻譯合并到谷歌翻譯中,我們可以利用網(wǎng)絡(luò)上更豐富的低資源語言的單語文本數(shù)據(jù)來訓(xùn)練我們的模型。這對于提高模型輸出的流暢性尤其有幫助,而這正是低資源轉(zhuǎn)換模型表現(xiàn)不佳的領(lǐng)域。

M4 建模:M4 是一種對低資源語言特別有幫助的技術(shù),它使用一個單一的大型模型在所有語言和英語之間進(jìn)行轉(zhuǎn)換。這允許大規(guī)模的遷移學(xué)習(xí)。分享一個例子,低資源語言像意第緒語能通過聯(lián)合其他相關(guān)日耳曼語言(如德國、荷蘭、丹麥等)進(jìn)行訓(xùn)練,與近一百個其他的、不可能共享一個已知連接的語言,獲得有用的信號模型。

評判翻譯質(zhì)量

對于機(jī)器翻譯系統(tǒng)的自動質(zhì)量評估,一個流行的衡量標(biāo)準(zhǔn)是 BLEU 評分,它是基于系統(tǒng)的翻譯和人們生成的參考翻譯之間的相似性。通過這些最新的更新,我們看到 BLEU 平均比以前的 GNMT 模型提高了 5 分,其中 50 種資源最低的語言平均提高了 7 分。這一進(jìn)步與四年前從基于短語的翻譯過渡到 NMT 時觀察到的增益相當(dāng)。

盡管 BLEU 分?jǐn)?shù)是一個眾所周知的近似度量,但眾所周知,對于已經(jīng)高質(zhì)量的系統(tǒng)來說,它有各種各樣的缺陷。例如,有幾部作品演示了在源語言或目標(biāo)語言上的翻譯語效應(yīng)如何影響 BLEU 分?jǐn)?shù),在這種現(xiàn)象中,翻譯的文本可能聽起來很別扭,因為其中包含源語言的屬性(如詞序)?;谶@個原因,我們對所有的新模型進(jìn)行了并排的評估,結(jié)果證實了在藍(lán)帶的效果。

除了總體質(zhì)量的提高之外,新模型對機(jī)器翻譯幻覺的魯棒性也有所增強(qiáng)。機(jī)器翻譯幻覺是指當(dāng)輸入無意義的信息時,模型會產(chǎn)生奇怪的“翻譯”。對于那些在少量數(shù)據(jù)上進(jìn)行訓(xùn)練的模型來說,這是一個常見的問題,并且會影響許多低資源語言。例如,當(dāng)考慮到泰盧固語字符的字符串“???????????????”,舊的模式產(chǎn)生了荒謬的輸出“深圳肖深圳國際機(jī)場(SSH)”,似乎試圖理解的聲音,而新模型正確學(xué)會直譯為“Sh Sh Sh Sh Sh Sh Sh Sh Sh Sh Sh Sh Sh Sh Sh Sh Sh”。

結(jié)論

盡管對于機(jī)器來說,這些都是令人印象深刻的進(jìn)步,但我們必須記住,特別是對于資源較少的語言,自動翻譯的質(zhì)量遠(yuǎn)遠(yuǎn)不夠完美。這些模型仍然是典型的機(jī)器翻譯錯誤的犧牲品,包括在特定類型的主題(“領(lǐng)域”)上表現(xiàn)不佳,合并一種語言的不同方言,產(chǎn)生過多的字面翻譯,以及在非正式語言和口語上表現(xiàn)不佳。

盡管如此,通過這次更新,我們很自豪——提供了相對連貫的自動翻譯,包括支持的 108 種語言中資源最少的語言。我們感謝學(xué)術(shù)界和工業(yè)界的機(jī)器翻譯研究人員所做的研究。

致謝

這一成果基于以下這些人的貢獻(xiàn):Tao Yu, Ali Dabirmoghaddam, Klaus Macherey, Pidong Wang, Ye Tian, Jeff Klingner, Jumpei Takeuchi, Yuichiro Sawai, Hideto Kazawa, Apu Shah, Manisha Jain, Keith Stevens, Fangxiaoyu Feng, Chao Tian, John Richardson, Rajat Tibrewal, Orhan Firat, Mia Chen, Ankur Bapna, Naveen Arivazhagan, Dmitry Lepikhin, Wei Wang, Wolfgang Macherey, Katrin Tomanek, Qin Gao, Mengmeng Niu, 和 Macduff Hughes.


雷鋒字幕組是由AI愛好者組成的志愿者翻譯團(tuán)隊;團(tuán)隊成員有大數(shù)據(jù)專家、算法工程師、圖像處理工程師、產(chǎn)品經(jīng)理、產(chǎn)品運營、IT咨詢?nèi)恕⒃谛熒?;志愿者們來自IBM、AVL、Adobe、阿里、百度等知名企業(yè),北大、清華、港大、中科院、南卡羅萊納大學(xué)、早稻田大學(xué)等海內(nèi)外高校研究所。

了解字幕組請聯(lián)系微信:tlacttlact

轉(zhuǎn)載請聯(lián)系字幕組微信并注明出處:雷鋒字幕組

雷鋒網(wǎng)雷鋒網(wǎng)

雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

Google Translate 的新改進(jìn)

分享:
相關(guān)文章

知情人士

AI研習(xí)社(yanxishe.com)譯站頻道,傳播前沿人工智能知識,讓語言不再成為學(xué)習(xí)知識的門檻。(原雷鋒字幕組)
當(dāng)月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說