丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能 正文
發(fā)私信給WBLUE
發(fā)送

0

EMNLP2018最佳論文:Facebook 提升 11BLEU 的無監(jiān)督機(jī)器翻譯

本文作者: WBLUE 編輯:楊曉凡 2018-09-20 18:39
導(dǎo)語:不同的語言,近似的語言嵌入

EMNLP2018最佳論文:Facebook 提升 11BLEU 的無監(jiān)督機(jī)器翻譯

雷鋒網(wǎng) AI 科技評論按:說到機(jī)器翻譯,谷歌吃螃蟹并商用的 NMT、微軟研究院媲美人類水平的 AI 翻譯系統(tǒng)我們都做過比較多的報(bào)道,大家也都比較熟悉;不過它們都是需要監(jiān)督的。谷歌自然可以使用海量語料訓(xùn)練 NMT,微軟研究院的系統(tǒng)即便使用了許多新的技巧來大幅提高樣本效率,也仍然需要足夠的平行雙語語料。然而我們無法為所有語言對都找到大量雙語平行語料,訓(xùn)練出有監(jiān)督 MT 系統(tǒng)。

Facebook 的 EMNLP 2018 論文《Phrase-Based & Neural Unsupervised Machine Translation》(基于詞語的、無監(jiān)督神經(jīng)網(wǎng)絡(luò)的機(jī)器翻譯)就介紹了他們在無監(jiān)督機(jī)器翻譯方面的最新成果。無監(jiān)督機(jī)器翻譯是目前的熱門研究課題之一,F(xiàn)acebook 的研究人員們通過巧妙的設(shè)計(jì)得到了高達(dá) 11 BLEU 的表現(xiàn)提升;而 EMNLP 官方推特今天宣布這篇論文是 EMNLP 2018 的兩篇最佳論文之一。論文作者們早些時(shí)候也撰寫了一篇通俗介紹文章發(fā)表在了 Facebook 博客上,介紹了他們的主要思路。雷鋒網(wǎng) AI 科技評論全文編譯如下。

EMNLP2018最佳論文:Facebook 提升 11BLEU 的無監(jiān)督機(jī)器翻譯

二維詞嵌入的旋轉(zhuǎn)對齊

自動(dòng)語言翻譯對于 Facebook 來說非常重要,它可以讓數(shù)十億用戶以他們喜歡的語言進(jìn)行聯(lián)系和交流。為了做到這一點(diǎn),當(dāng)前的機(jī)器翻譯(MT)系統(tǒng)需要訪問大量的已翻譯文本(例如,分別用英語和西班牙語表示的相同文本對)。因此,MT 目前僅對于已擁有大量翻譯文本的少數(shù)語言集表現(xiàn)出不錯(cuò)的效果。

在訓(xùn)練模型時(shí)無需訪問任何翻譯文本資源的 MT 模型的建立(稱為無監(jiān)督翻譯)是必要的下一步。EMNLP 2018 上我們展示了在該任務(wù)上完成的最新研究成果(http://arxiv.org/abs/1804.07755)。我們的新方法相較于之前最先進(jìn)的無監(jiān)督方法有了顯著的改進(jìn),效果與用近 100,000 個(gè)參考譯文訓(xùn)練過的監(jiān)督方法近乎一致。在這個(gè)領(lǐng)域中,1 BLEU (判斷MT準(zhǔn)確度的常用指標(biāo))的提升都被看作不小的成績,而我們的新方法相比之前的方法有超過 10 BLEU 的改善。

無監(jiān)督翻譯模型的建立是 MT 領(lǐng)域的一個(gè)重要發(fā)展方向,特別是世界上 6,500 種語言中,大多數(shù)語言對之間都沒有可用翻譯文本資源庫或譯文數(shù)據(jù)量極小以至于無法使用現(xiàn)有技術(shù)。對于匱乏譯文的語言,現(xiàn)在有一種方法可以學(xué)習(xí)在任意的語言,比如烏爾都語和英語之間進(jìn)行互譯,只需使用英語中的文本和與烏爾都語中的完全不相關(guān)的文本,而不需要任何相應(yīng)的翻譯文本。

這種新方法開啟了更多語言翻譯更快、更準(zhǔn)確的大門,而這僅僅是將此類原理應(yīng)用于機(jī)器學(xué)習(xí)和人工智能的方法的一個(gè)開始。

逐字翻譯

邁向我們偉大的目標(biāo)的第一步是讓系統(tǒng)學(xué)習(xí)雙語詞典,將一個(gè)詞與其他語言中的合理翻譯聯(lián)系起來。為此,我們使用了我們在之前的論文中介紹到的方法(https://arxiv.org/abs/1710.04087),其中系統(tǒng)首先為每種語言中的每個(gè)單詞訓(xùn)練詞嵌入(單詞的矢量表示)。

訓(xùn)練詞嵌入通過上下文(例如,給定單詞前面的五個(gè)單詞和之后的五個(gè)單詞)來預(yù)測給定單詞周圍的單詞。盡管詞嵌入的形式簡單,但是詞嵌入可以抓取有趣的語義結(jié)構(gòu)。例如,離「kitty」最近的是「cat」,并且「kitty」這個(gè)詞嵌入更接近于「animal」的嵌入,而不是「rocket」這個(gè)詞嵌入(因?yàn)椤竢ocket」很少出現(xiàn)在「kitty」這個(gè)詞所在的語境中)。

此外,不同語言的詞嵌入具有相似的鄰域結(jié)構(gòu),因?yàn)椴煌瑖业娜水吘够钤谕粋€(gè)世界中。例如,英語中「cat」和「furry」之間的關(guān)系類似于它們在西班牙語中的相應(yīng)翻譯(「gato」和「peludo」)之間的關(guān)系,因?yàn)檫@些單詞的頻率和它們的上下文是相似的

由于這些相似之處,我們提出了一個(gè)包含各種新舊技術(shù)的組合,例如對抗訓(xùn)練等,讓系統(tǒng)學(xué)習(xí)旋轉(zhuǎn)變換一種語言中的詞嵌入,以匹配另一種語言中的詞嵌入。有了這些信息,無需訪問任何平行的翻譯譯文,我們就能推斷出一個(gè)相當(dāng)準(zhǔn)確的雙語詞典,并且基本上實(shí)現(xiàn)逐字翻譯。 

EMNLP2018最佳論文:Facebook 提升 11BLEU 的無監(jiān)督機(jī)器翻譯

可以通過簡單的旋轉(zhuǎn)(右)對齊兩種語言(左)的二維詞嵌入。旋轉(zhuǎn)后,通過最近鄰搜索實(shí)現(xiàn)單詞翻譯。

翻譯句子

使用無監(jiān)督方法得到雙語詞典的逐字翻譯并不能完成一個(gè)很好的翻譯——單詞可能會丟失,無序或者完全錯(cuò)誤。但是,它保留了大部分詞義。我們可以在此基礎(chǔ)上進(jìn)行改進(jìn)。通過使用已在大量單語數(shù)據(jù)上訓(xùn)練好的語言模型進(jìn)行局部編輯,它可以對不同的單詞排序打分,故此流暢的句子得分要高于不符合語法或構(gòu)造不良的句子。

因此,如果已擁有大量烏爾都語的單語數(shù)據(jù)集,我們可以在已有英語語言模型的同時(shí),訓(xùn)練烏爾都語的語言模型。在有了語言模型和初始的逐字翻譯模型之后,我們就可以構(gòu)建翻譯系統(tǒng)的早期版本。

這個(gè)早期的系統(tǒng)雖然還不夠好,但比逐字翻譯效果更好(感謝語言模型),并且它可以用來將大量句子從源語言(烏爾都語)翻譯成目標(biāo)語言(英語)。

接下來,我們將這些系統(tǒng)翻譯出的語句(原文為烏爾都語,翻譯為英語)作為標(biāo)注過的真實(shí)數(shù)據(jù)進(jìn)行處理,以訓(xùn)練從英語到烏爾都語的反向 MT 系統(tǒng)。不可否認(rèn),由于第一個(gè)系統(tǒng)翻譯中存在錯(cuò)誤,輸入的英語句子會有些問題。ACL2015論文 中 R. Sennrich 等人在半監(jiān)督學(xué)習(xí)的 MT 系統(tǒng)中(有大量平行語料的情況下)曾介紹過這種技術(shù),并將其稱為反向翻譯。本次是該技術(shù)首次應(yīng)用于完全無監(jiān)督的系統(tǒng);通常,它最初是在有監(jiān)督數(shù)據(jù)上訓(xùn)練的。

現(xiàn)在我們有了一個(gè)更偏向流暢句子的烏爾都語語言模型,我們可以將反向翻譯中人工生成的平行句子與烏爾都語語言模型提供的校正相結(jié)合,以此來訓(xùn)練從英語到烏爾都語的翻譯系統(tǒng)。

一旦系統(tǒng)經(jīng)過訓(xùn)練,我們就可以用它將英語中的許多句子翻譯成烏爾都語,形成另一種類型的數(shù)據(jù)集(原始句子為英語,翻譯成烏爾都語),有利于改進(jìn)以前的烏爾都語到英語的 MT 系統(tǒng)。隨著一個(gè)系統(tǒng)得到改進(jìn),我們可以使用它以迭代方式在相反方向上為系統(tǒng)生成訓(xùn)練數(shù)據(jù),并根據(jù)需要進(jìn)行多次迭代。

EMNLP2018最佳論文:Facebook 提升 11BLEU 的無監(jiān)督機(jī)器翻譯

兩全其美的方法

在研究中,我們確定了三個(gè)步驟——逐字嵌入初始化,語言建模,以及反向翻譯——作為無監(jiān)督 MT 的核心原理。根據(jù)這些原理,我們可以最終得到各種模型。我們將它們應(yīng)用于兩種截然不同的通向無監(jiān)督 MT 目標(biāo)的方法。

第一種方法是無監(jiān)督的神經(jīng)模型,它產(chǎn)生的翻譯比逐字翻譯更流暢,但沒有達(dá)到我們想要的質(zhì)量。然而,它們足以用作反向翻譯句子。通過反向翻譯,該方法與經(jīng) 100,000 個(gè)并行句子訓(xùn)練的監(jiān)督模型效果一樣。

接下來,我們將這些原理應(yīng)用于經(jīng)典的基于計(jì)數(shù)的統(tǒng)計(jì)方法的另一個(gè)模型,稱為基于短語的 MT。有趣的是,這些模型往往在低資源語言對上表現(xiàn)更好,但這是第一次將此方法應(yīng)用于無監(jiān)督的 MT。在這種情況下,我們發(fā)現(xiàn)翻譯具有正確的單詞但不太流暢。同樣,這種方法優(yōu)于以前最先進(jìn)的無監(jiān)督模型。

最后,我們將兩種模型結(jié)合起來得到一個(gè)兩全其美的方法:一個(gè)既流利又善于翻譯的模型。為此,我們從訓(xùn)練好的神經(jīng)模型開始,然后使用基于短語模型的其他反向翻譯句子對其進(jìn)行訓(xùn)練。

根據(jù)經(jīng)驗(yàn),我們發(fā)現(xiàn)最后一種組合方法顯著提高了之前無監(jiān)督 MT 的準(zhǔn)確性——在英語——法語和英語——德語作為測試集的兩種語言對中(即使對于這些語言對,在訓(xùn)練時(shí)也沒有使用任何并行數(shù)據(jù)——僅在測試時(shí)進(jìn)行評估),此組合方式在 BLEU 得分上提高了超過 10 個(gè)點(diǎn)。

我們還在以下語言上測試了我們的方法:遠(yuǎn)距離語言對,如英語——俄語;譯文資源匱乏的語言,如英語——羅馬尼亞語;資源極度匱乏且遠(yuǎn)距離的語言對,如英語——烏爾都語。在所有情況下,我們的方法相較于其他無監(jiān)督方法都有很大改進(jìn),有時(shí)甚至超過使用來自其他域或其他語言的并行語言數(shù)據(jù)的有監(jiān)督方法。

下面的德語——英語翻譯示例顯示了每種方法的結(jié)果:

EMNLP2018最佳論文:Facebook 提升 11BLEU 的無監(jiān)督機(jī)器翻譯

EMNLP2018最佳論文:Facebook 提升 11BLEU 的無監(jiān)督機(jī)器翻譯在機(jī)器翻譯之外還有更大的世界

完成超過 10 BLEU 得分的增加是一個(gè)令人興奮的開始,但對我們來說更令人興奮的是它為未來改進(jìn)開啟的可能性。從短期來看,這必然有助于我們翻譯更多語言并提高少資源語言的翻譯質(zhì)量。但是,從這種新方法和基本原理中可獲得的知識遠(yuǎn)遠(yuǎn)超出 MT 本身。

我們認(rèn)為,這項(xiàng)研究的潛力可以應(yīng)用于任何領(lǐng)域的無監(jiān)督學(xué)習(xí),并有可能使智能體能夠利用未標(biāo)注的數(shù)據(jù),并對于當(dāng)前需要專家演示(在本例中是翻譯)中的任務(wù),未來只需要很少就能夠執(zhí)行得到很好的效果。這項(xiàng)工作表明,系統(tǒng)至少有可能在無監(jiān)督的情況下學(xué)習(xí),并建立一個(gè)雙向的系統(tǒng),在這個(gè)系統(tǒng)中,每個(gè)組件都可以在良性循環(huán)中不斷改進(jìn)。

論文地址:https://arxiv.org/abs/1804.07755

代碼地址:https://github.com/facebookresearch/UnsupervisedMT

博客地址:https://code.fb.com

EMNLP 2018 論文獎(jiǎng)情況

根據(jù) EMNLP 官方推特宣布的消息,兩篇最佳論文中的另一篇來自谷歌

Linguistically-Informed Self-Attention for Semantic Role Labeling

還有一篇最佳資源論文

MultiWOZ - A Large-Scale Multi-Domain Wizard-of-Oz Dataset for Task-Oriented Dialogue Modelling(論文內(nèi)容尚未公開)

EMNLP 2018 將于 10 月 31 日到 11 月 4 日在比利時(shí)布魯塞爾召開,更多報(bào)道請繼續(xù)關(guān)注雷鋒網(wǎng) AI 科技評論。

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

EMNLP2018最佳論文:Facebook 提升 11BLEU 的無監(jiān)督機(jī)器翻譯

分享:
相關(guān)文章

知情人士

當(dāng)月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個(gè)人簡介
為了您的賬戶安全,請驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說