丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
人工智能 正文
發(fā)私信給skura
發(fā)送

0

WMT 2019國際機(jī)器翻譯大賽:微軟亞洲研究院以7項第一成為冠軍

本文作者: skura 2019-04-27 12:23
導(dǎo)語:此次,微軟亞洲研究院使用了多種創(chuàng)新算法

雷鋒網(wǎng) AI 科技評論按,近日,由國際計算語言學(xué)協(xié)會 ACL(The Association for Computational Linguistics)舉辦的 WMT 2019 國際機(jī)器翻譯比賽的客觀評測結(jié)果揭曉,微軟亞洲研究院機(jī)器學(xué)習(xí)組在參加的 11 項機(jī)器翻譯任務(wù)中,有 7 項獲得了第一名,另外 4 項獲得第二名。

WMT 2019國際機(jī)器翻譯大賽:微軟亞洲研究院以7項第一成為冠軍

圖片來自大賽網(wǎng)站,橫向為源語種,縱向為目標(biāo)語種

7項任務(wù)獲第一,4項任務(wù)獲第二

WMT 的全稱為 Conference on Machine Translation (http://www.statmt.org/wmt19/),是全球?qū)W術(shù)界公認(rèn)的國際頂級機(jī)器翻譯比賽。自 2006 年至今,WMT 機(jī)器翻譯比賽已經(jīng)成功舉辦 14 屆,每一次比賽都是全球各大高校、科技公司與學(xué)術(shù)機(jī)構(gòu)展示自身機(jī)器翻譯實力的較量,更是見證了機(jī)器翻譯技術(shù)的不斷進(jìn)步。

在本屆 WMT 2019 大賽中(http://www.statmt.org/wmt19/translation-task.html),共有來自全球的 50 多支隊伍參加,包括微軟、Facebook、百度、字節(jié)跳動、平安、日本情報通信研究機(jī)構(gòu)(NICT)等企業(yè)、科研機(jī)構(gòu)和高校。大賽共設(shè)置了 19 項不同語言之間的翻譯任務(wù),微軟亞洲研究院參加了 11 項,其中 7 項翻譯任務(wù)獲第一,包括:德語-英語、德語-法語、法語-德語、中文-英語、英語-立陶宛語、英語-芬蘭語、俄語-英語。另外 4 項任務(wù)獲得第二,包括:英語-德語、立陶宛語-英語、芬蘭語-英語、英語-哈薩克語。來自微軟的另外一支團(tuán)隊則在英語-德語的任務(wù)上獲得了第一名。

結(jié)果顯示,此次大賽的亞軍團(tuán)隊在 3 項任務(wù)中獲得了第一,季軍團(tuán)隊則有兩項獲得第一,來自微軟亞洲研究院的神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯算法的表現(xiàn)遙遙領(lǐng)先于其他參賽隊伍。

機(jī)器翻譯算法改進(jìn)

2018 年 3 月,由微軟亞洲研究院與微軟雷德蒙研究院共同研發(fā)的機(jī)器翻譯系統(tǒng)便在 WMT 2017 大會上發(fā)布的通用新聞報道測試 newstest2017 機(jī)器翻譯系統(tǒng)融合了微軟亞洲研究院機(jī)器學(xué)習(xí)組的最近研究成果——對偶學(xué)習(xí)(Dual Learning)推敲網(wǎng)絡(luò)(Deliberation Networks),以及自然語言計算組的最新技術(shù)——聯(lián)合訓(xùn)練(Joint Training)和一致性規(guī)范(Agreement Regularization)。

在 WMT 2019 的比賽中,微軟亞洲研究院機(jī)器學(xué)習(xí)組再次將多個創(chuàng)新的算法運用在了機(jī)器翻譯的任務(wù)中,從學(xué)習(xí)機(jī)制、預(yù)訓(xùn)練、網(wǎng)絡(luò)架構(gòu)優(yōu)化、數(shù)據(jù)增強(qiáng)等方面,提升了機(jī)器翻譯結(jié)果的質(zhì)量。

此次使用的創(chuàng)新算法包括:

  • MADL:Multi-agent dual learning,多體對偶學(xué)習(xí)

  • MASS:Masked sequence to sequence pre-training,屏蔽序列到序列的預(yù)訓(xùn)練

  • NAO:Automatic neural architecture optimization,自動神經(jīng)網(wǎng)絡(luò)架構(gòu)優(yōu)化

  • SCA:Soft contextual data augmentation,軟性上下文數(shù)據(jù)增強(qiáng)

其中,關(guān)于 NAO 的論文已被 NIPS 2018 收錄,關(guān)于 MADL 的論文已被 ICLR 2019 收錄,關(guān)于 MASS 的論文則被 ICML 2019 收錄。

新的學(xué)習(xí)機(jī)制:MADL 多體對偶學(xué)習(xí)

在機(jī)器翻譯中,訓(xùn)練數(shù)據(jù)的數(shù)據(jù)量越大、質(zhì)量越高,其訓(xùn)練的翻譯結(jié)果越好。基于對偶學(xué)習(xí),創(chuàng)新的 MADL 算法利用正向與反向翻譯的多個模型對單語數(shù)據(jù)進(jìn)行前向和后向翻譯并打分,然后將得分最高的數(shù)據(jù)放置到訓(xùn)練數(shù)據(jù)中從而獲得更多高質(zhì)量的數(shù)據(jù),或者將單語數(shù)據(jù)的前向后向重建誤差加入到損失函數(shù)里來增強(qiáng)學(xué)習(xí)過程。MADL 不局限于某個語種,可以在任何源語種和目標(biāo)語種之間提供這樣的對偶學(xué)習(xí)能力。

更好的預(yù)訓(xùn)練:MASS 屏蔽序列到序列的預(yù)訓(xùn)練

MASS 是針對序列生成設(shè)計的預(yù)訓(xùn)練算法,比 BERT 以及 GPT/2 更加通用。BERT 模型通常是屏蔽掉句子中的一個單詞,然后通過分類來預(yù)測這個詞;GPT 模型是給定前面的詞,通過分類生成后面的詞,直至一句話或整篇文檔;兩者都是預(yù)訓(xùn)練一個編碼器。而翻譯則是基于編碼器-解碼器-注意力框架,因此 BERT 和 GPT/2 并不能很好地適用于翻譯任務(wù)。但 MASS 則能將句子中的部分連續(xù)片斷隨機(jī)屏蔽,然后訓(xùn)練一個編碼器-解碼器-注意力模型預(yù)測生成該片斷,從而利用海量單語數(shù)據(jù)預(yù)訓(xùn)練然后初始化翻譯模型。因此,MASS 比 BERT 和 GPT/2 都更適用于機(jī)器翻譯這個應(yīng)用場景。實驗證明,MASS 屏蔽翻譯句子中 50% 的片斷效果最好。

網(wǎng)絡(luò)架構(gòu)優(yōu)化: NAO 自動神經(jīng)網(wǎng)絡(luò)架構(gòu)優(yōu)化

NAO 是從神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)優(yōu)化的角度去提升機(jī)器翻譯水平。不同的網(wǎng)絡(luò)結(jié)構(gòu)通常對于翻譯結(jié)果有著較大影響,NAO 把離散的網(wǎng)絡(luò)結(jié)構(gòu)嵌入到連續(xù)的向量空間,從而通過連續(xù)優(yōu)化找到更好的網(wǎng)絡(luò)結(jié)構(gòu)。與固定的 Transformer 相比,NAO 可以找到更多樣的網(wǎng)絡(luò)結(jié)構(gòu),和 Transformer 形成互補(bǔ)優(yōu)勢,使得機(jī)器翻譯多模型集成的結(jié)果更佳。

數(shù)據(jù)增強(qiáng):SCA 軟性上下文數(shù)據(jù)增強(qiáng)

所謂 SCA 軟性上下文數(shù)據(jù)增強(qiáng),是在雙語訓(xùn)練數(shù)據(jù)中隨機(jī)屏蔽某個詞,再基于語言模型利用上下文來預(yù)測這個詞,隨后選擇概率最高的幾個詞,根據(jù)預(yù)測概率把這些預(yù)測的詞線性組合到一起,替換原來被屏蔽的詞。這樣一個句子/句對可以生成多個句子/句對,同一個句子的翻譯就可以出現(xiàn)多個合理的翻譯結(jié)果,這也與實際翻譯過程中翻譯結(jié)果并不唯一這一事實相吻合。通過如此軟性上下文數(shù)據(jù)增強(qiáng),從而擴(kuò)大訓(xùn)練數(shù)據(jù)的規(guī)模,增強(qiáng)數(shù)據(jù)質(zhì)量,得到更好的翻譯結(jié)果。

在此次的 11 項機(jī)器翻譯任務(wù)中,微軟亞洲研究院的研究員們在每個翻譯任務(wù)上采用了上述不同的技術(shù)。未來,研究團(tuán)隊計劃將這四個層面的創(chuàng)新技術(shù)整合,并且通過與微軟翻譯產(chǎn)品部門的合作,將新技術(shù)盡快轉(zhuǎn)化到微軟翻譯產(chǎn)品中。

雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

WMT 2019國際機(jī)器翻譯大賽:微軟亞洲研究院以7項第一成為冠軍

分享:
相關(guān)文章
當(dāng)月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說