丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能 正文
發(fā)私信給楊曉凡
發(fā)送

0

媲美人類有何不可?深度解讀微軟新 AI 翻譯系統(tǒng)四大秘技

本文作者: 楊曉凡 2018-03-16 21:15
導(dǎo)語(yǔ):神經(jīng)網(wǎng)絡(luò)翻譯系統(tǒng)「軍備競(jìng)賽」再升級(jí)

媲美人類有何不可?深度解讀微軟新 AI 翻譯系統(tǒng)四大秘技

雷鋒網(wǎng) AI 科技評(píng)論按:3 月 15 日的文章機(jī)器翻譯新突破,微軟中英新聞翻譯達(dá)人類水平》中,我們介紹了微軟亞洲研究院與雷德蒙研究院共同研發(fā)的新的機(jī)器翻譯系統(tǒng),微軟稱它在 newstest2017 的中-英測(cè)試集上達(dá)到了與人工翻譯媲美的水平。

這則消息不僅引起了我們的好奇,讓我們的編輯記者們感嘆「人工智能這么快就又下一城」,同時(shí)也引起了一些讀者的疑問(wèn)。畢竟,我們時(shí)常見(jiàn)到新模型在公開(kāi)測(cè)試中刷榜,能夠和人類拿到同樣的分?jǐn)?shù),但不一定換一個(gè)數(shù)據(jù)集就還能和人類媲美,尤其是對(duì)于靈活多變的人類語(yǔ)言而言;另一面,谷歌、搜狗、百度等互聯(lián)網(wǎng)巨頭都有自己神經(jīng)網(wǎng)絡(luò)翻譯系統(tǒng),大家都或多或少體驗(yàn)過(guò),即便最新的模型都普遍使用了注意力機(jī)制,但翻譯質(zhì)量不盡如人意的地方仍時(shí)常出現(xiàn),繼續(xù)做出大跨步式的突破又談何容易呢?

微軟官方博客中提到,新的翻譯系統(tǒng)中用到了四大技術(shù):對(duì)偶學(xué)習(xí)、聯(lián)合訓(xùn)練、推敲網(wǎng)絡(luò)一致性正則化,對(duì)應(yīng)的論文也已經(jīng)公開(kāi)。雷鋒網(wǎng) AI 科技評(píng)論下面根據(jù)論文,結(jié)合以往的相關(guān)研究詳細(xì)講講用在新翻譯系統(tǒng)中的這四大技術(shù)到底是怎么回事,品味品味當(dāng)這四項(xiàng)技術(shù)同時(shí)使用的時(shí)候,能夠達(dá)到人類水準(zhǔn)到底能不能算是「合情合理」。文末我們也會(huì)貼出一些微軟提供的中文到英文翻譯結(jié)果,不知道能否徹底打消可能的疑惑。

一,對(duì)偶學(xué)習(xí) Dual Learning

深度學(xué)習(xí)模型的訓(xùn)練需要大量數(shù)據(jù),這不僅是領(lǐng)域內(nèi)的常識(shí),也是限制在更多場(chǎng)景下使用深度學(xué)習(xí)的一大障礙。對(duì)偶學(xué)習(xí)的提出就主要是為了減少對(duì)數(shù)據(jù)的依賴。相比標(biāo)簽傳播(Label Propagation)、多任務(wù)學(xué)習(xí)(Multi-task Learning)、遷移學(xué)習(xí)(Transfer Learning)這樣利用數(shù)據(jù)相似性的解決方法,對(duì)偶學(xué)習(xí)(Dual Learning)利用的是 AI 任務(wù)中自然出現(xiàn)的對(duì)稱性。比如:

  • 機(jī)器翻譯,有英翻中和中翻英的對(duì)稱;

  • 語(yǔ)音處理,需要語(yǔ)音轉(zhuǎn)文字(語(yǔ)音識(shí)別),也有文本轉(zhuǎn)語(yǔ)音(語(yǔ)音合成)的任務(wù);

  • 圖像理解,圖像描述(image captioning)與圖像生成 (image generation)是一個(gè)對(duì)稱的過(guò)程;

  • 對(duì)話任務(wù),問(wèn)題回答(Question answering)與問(wèn)題生成(Question generation);

按照傳統(tǒng)的監(jiān)督學(xué)習(xí)范式,這些對(duì)稱的任務(wù)都需要分別訓(xùn)練,每個(gè)方向都需要大量有標(biāo)簽數(shù)據(jù)。那么考慮到任務(wù)的對(duì)稱性,如果一個(gè)英文句子被翻譯成英文,再?gòu)闹形姆g成英文,還能跟一開(kāi)始的句子非常相近的話,就可以認(rèn)為「英翻中」和「中翻英」兩個(gè)翻譯器都表現(xiàn)很好。這也符合人們的常識(shí)。

微軟亞研資深研究員秦濤博士就曾帶領(lǐng)團(tuán)隊(duì)分別在 NIPS 2016 和 ICML 2017 發(fā)表「對(duì)偶學(xué)習(xí)」(https://arxiv.org/abs/1611.00179)和「對(duì)偶監(jiān)督學(xué)習(xí)」(https://arxiv.org/abs/1707.00415 )兩篇論文,介紹了對(duì)偶學(xué)習(xí)在無(wú)監(jiān)督學(xué)習(xí)和監(jiān)督學(xué)習(xí)兩種模式下的形式及表現(xiàn)。雷鋒網(wǎng)硬創(chuàng)公開(kāi)課也曾邀請(qǐng)到秦濤博士給大家做了前一篇 NIPS 論文的詳細(xì)分享。

對(duì)偶學(xué)習(xí)

媲美人類有何不可?深度解讀微軟新 AI 翻譯系統(tǒng)四大秘技

NIPS 2016 對(duì)偶學(xué)習(xí)論文的范式示意圖

如圖,對(duì)于對(duì)偶學(xué)習(xí),主任務(wù) f 把無(wú)標(biāo)注英文句子 x 翻譯為中文 y,對(duì)偶任務(wù) g 把中文 y 翻譯回英文 x'。模型從過(guò)程中得到兩個(gè)反饋,一個(gè)部分反饋是來(lái)自懂中文的智能體,評(píng)價(jià)中文 y 的質(zhì)量如何(例如是不是一個(gè)通順的中文句子);另一個(gè)反饋是來(lái)自懂英文的智能體,比較 x 和 x' 的相似度獲得反饋。這樣,一個(gè)流程結(jié)束以后,模型就可以獲得完整反饋。

有了反饋,就可以把強(qiáng)化學(xué)習(xí)的一些方法直接用于訓(xùn)練更新模型 f 和 g 。論文中所用的方法為策略梯度 policy gradient,增加主任務(wù) f 和對(duì)偶任務(wù) g 中好的行為出現(xiàn)的概率,降低不好的行為出現(xiàn)的概率。另一方面,由于只有單一輸入,由兩個(gè)智能體自己產(chǎn)生反饋,不需要把翻譯結(jié)果與輸入對(duì)應(yīng)的標(biāo)簽對(duì)比,所以這是一種無(wú)監(jiān)督學(xué)習(xí)方法。

學(xué)習(xí)效果上,在使用了1200萬(wàn)個(gè)雙語(yǔ)標(biāo)注句的英法翻譯實(shí)驗(yàn)中,相比于 2016 年時(shí)基于深度神經(jīng)網(wǎng)絡(luò)的機(jī)器翻譯算法(NMT),對(duì)偶學(xué)習(xí)只需要其中 10% 的雙語(yǔ)數(shù)據(jù)就可以達(dá)到 NMT 采用了全部數(shù)據(jù)進(jìn)行訓(xùn)練的準(zhǔn)確度。訓(xùn)練所需數(shù)據(jù)量可以減少 90%,很好地達(dá)成了預(yù)期效果。

根據(jù)秦濤博士介紹,對(duì)偶學(xué)習(xí)有一個(gè)問(wèn)題是很難冷啟動(dòng),即需要先對(duì)主任務(wù)和對(duì)偶任務(wù)的兩個(gè)智能體進(jìn)行一定的訓(xùn)練后才能夠利用對(duì)偶學(xué)習(xí)進(jìn)行聯(lián)合反饋訓(xùn)練,否則模型收斂會(huì)很慢。

對(duì)偶監(jiān)督學(xué)習(xí)

媲美人類有何不可?深度解讀微軟新 AI 翻譯系統(tǒng)四大秘技

ICML 2017 對(duì)偶監(jiān)督學(xué)習(xí)論文的范式示意圖

仍以翻譯任務(wù)為例,在監(jiān)督學(xué)習(xí)中,當(dāng)知道主任務(wù) f 應(yīng)該得到的正確翻譯為 y 之后,就可以用最大似然準(zhǔn)則更新 f,使 y 出現(xiàn)的概率越大越好。

對(duì)于對(duì)偶監(jiān)督學(xué)習(xí),需要主任務(wù) f 和對(duì)偶任務(wù) g 各自都能出現(xiàn)正確翻譯 y 與 x,這樣就會(huì)存在一個(gè)聯(lián)合概率 P( x,y )。通過(guò) f 和 g 都可以單獨(dú)計(jì)算出這個(gè)聯(lián)合概率 P(x,y)=P(x)P(y|x;f)=P(y)P(x|y;g) 。但如果 f 和 g 是根據(jù)監(jiān)督學(xué)習(xí)分開(kāi)訓(xùn)練的,就不能保證單獨(dú)計(jì)算出的聯(lián)合概率相同。

為了解決這個(gè)問(wèn)題,論文中在 f 、g 兩個(gè)任務(wù)分別的損失函數(shù)基礎(chǔ)上,為對(duì)偶監(jiān)督學(xué)習(xí)增加了一項(xiàng)正則化項(xiàng),它的含義是將「通過(guò) f 計(jì)算得到聯(lián)合概率 P( x,y ) =P(x)P(y|x;f)」和「通過(guò) g 計(jì)算得到聯(lián)合概率 P( x,y ) =P(y)P(x|y;g)」兩個(gè)概率的差值最小化,從而通過(guò)結(jié)構(gòu)的對(duì)稱性加強(qiáng)了監(jiān)督學(xué)習(xí)過(guò)程,讓兩個(gè)互為對(duì)稱的任務(wù)共同進(jìn)行學(xué)習(xí)。(上圖中間的式子) 這與 SVM 正則化項(xiàng)的區(qū)別在于,SVM 的正則化項(xiàng)與模型有關(guān),與數(shù)據(jù)無(wú)關(guān);但對(duì)偶監(jiān)督學(xué)習(xí)中討論的正則化項(xiàng)還與數(shù)據(jù)相關(guān)。由于具有了這樣的正則化項(xiàng),每個(gè)訓(xùn)練數(shù)據(jù)都能夠參與到正則化項(xiàng)中,而且主任務(wù)、對(duì)偶任務(wù)的兩個(gè)模型可以互相影響,共同提高。

根據(jù)論文中的測(cè)試,對(duì)偶監(jiān)督學(xué)習(xí)模型在機(jī)器翻譯、圖像分類、句子情感分析三對(duì)任務(wù)中都取得了明顯的提高。尤為讓人印象深刻的是句子情感分析這一對(duì)任務(wù):正向任務(wù)判斷一個(gè)句子是正面還是負(fù)面情感,以及反向任務(wù)根據(jù)給定的正面/負(fù)面情感生成句子,任務(wù)中的信息損失非常嚴(yán)重,只留下了 1bit 的信息而已。測(cè)試結(jié)果中正向任務(wù)情感分類的錯(cuò)誤率僅從基準(zhǔn)模型的 10.1% 下降到對(duì)偶監(jiān)督學(xué)習(xí)模型的 9.2%,作者們認(rèn)為就和信息損失嚴(yán)重有關(guān)。 

不過(guò)到了反向生成句子的時(shí)候,對(duì)偶監(jiān)督學(xué)習(xí)模型展現(xiàn)出了強(qiáng)大的表現(xiàn)力,對(duì)簡(jiǎn)單短句的使用變少了,并且選用的單詞、詞語(yǔ)、句式表達(dá)出的情感更強(qiáng)烈、更具體。如下圖

媲美人類有何不可?深度解讀微軟新 AI 翻譯系統(tǒng)四大秘技

在這次新的機(jī)器翻譯系統(tǒng)中,基于單語(yǔ)語(yǔ)言語(yǔ)料的對(duì)偶學(xué)習(xí)和基于雙語(yǔ)語(yǔ)料的對(duì)偶監(jiān)督學(xué)習(xí)都有使用,提升了語(yǔ)料的訓(xùn)練成效。

二,聯(lián)合訓(xùn)練 Joint Training

即便有了對(duì)偶學(xué)習(xí)這樣的可以提高數(shù)據(jù)利用效率的方法,高質(zhì)量的雙語(yǔ)訓(xùn)練數(shù)據(jù)畢竟還是越多越好 —— 而實(shí)際上這樣的數(shù)據(jù)沒(méi)有那么多。所以論文中還引入了聯(lián)合訓(xùn)練,讓中到英和英到中的兩個(gè)互譯模型生成新的數(shù)據(jù),并把新生成的數(shù)據(jù)也當(dāng)作訓(xùn)練數(shù)據(jù),迭代進(jìn)行訓(xùn)練。

媲美人類有何不可?深度解讀微軟新 AI 翻譯系統(tǒng)四大秘技

具體做法如圖所示,對(duì)于現(xiàn)有的雙語(yǔ)語(yǔ)料庫(kù) D 中的語(yǔ)句對(duì) (X,Y),用預(yù)訓(xùn)練過(guò)的一對(duì)翻譯器把 X 翻譯為 Y'、把 Y 翻譯成 X',構(gòu)成新的語(yǔ)句對(duì) (X',Y')。在每輪迭代中,新生成的語(yǔ)句對(duì)會(huì)添加到現(xiàn)有的雙語(yǔ)訓(xùn)練數(shù)據(jù)中,繼續(xù)訓(xùn)練兩個(gè)方向的兩個(gè)模型;經(jīng)過(guò)訓(xùn)練的模型會(huì)再一次翻譯出新的(X',Y'),作為新的訓(xùn)練數(shù)據(jù)。同時(shí)也設(shè)計(jì)了半監(jiān)督的訓(xùn)練損失,同時(shí)包含了兩個(gè)方向模型的表現(xiàn),以便能讓一個(gè)模型的進(jìn)步顯式地幫助另一個(gè)模型的表現(xiàn)提高

為了保證新生成的、即將用于下一輪訓(xùn)練的生成語(yǔ)句對(duì)的質(zhì)量,生成的語(yǔ)句也要挑選出最好的一部分,而且選出的語(yǔ)句要經(jīng)過(guò)神經(jīng)網(wǎng)絡(luò)翻譯模型的翻譯概率權(quán)重評(píng)分,以便最大程度減小不好的翻譯語(yǔ)句帶來(lái)的負(fù)面影響。那么,在一輪輪的迭代過(guò)程中,兩個(gè)方向的翻譯語(yǔ)句質(zhì)量會(huì)越來(lái)越高、模型也被訓(xùn)練得更好,這樣的迭代訓(xùn)練過(guò)程會(huì)進(jìn)行到表現(xiàn)不能繼續(xù)提高為止。

三,推敲網(wǎng)絡(luò) Deliberation Networks

除了訓(xùn)練數(shù)據(jù)帶來(lái)的限制之外,當(dāng)前的神經(jīng)網(wǎng)絡(luò)翻譯系統(tǒng)普遍還存在后文的翻譯結(jié)果會(huì)受到前文限制的問(wèn)題。推敲網(wǎng)絡(luò)就是解決這個(gè)問(wèn)題的第一招。

推敲網(wǎng)絡(luò)設(shè)計(jì)

以往的翻譯模型都把輸入句子作為一個(gè)序列輸入,然后同樣把翻譯結(jié)果作為一個(gè)序列從左到右一個(gè)詞一個(gè)詞的生成,這種做法生成每個(gè)詞的時(shí)候只會(huì)考慮它前面已經(jīng)生成的詞,不會(huì)考慮它后面尚未生成的詞。。乍看之下不出錯(cuò)的話也沒(méi)什么不妥,但是相比之下人類寫(xiě)作時(shí)經(jīng)常會(huì)結(jié)合上下文,對(duì)用詞反復(fù)推敲,甚至寫(xiě)完一整段話、一整篇后再審視全文從頭調(diào)整修改一遍,文本的質(zhì)量也得以繼續(xù)提高。在「生成后再審視全局進(jìn)行修改」的想法下,中國(guó)科大-微軟博士聯(lián)合培養(yǎng)班的夏應(yīng)策作為一作在 NIPS 2017 發(fā)表了論文 《Deliberation Networks: Sequence Generation Beyond One-Pass Decoding》,也在雷鋒網(wǎng) GAIR 大講堂的線上公開(kāi)課上詳細(xì)分享了推敲網(wǎng)絡(luò)的細(xì)節(jié)。

媲美人類有何不可?深度解讀微軟新 AI 翻譯系統(tǒng)四大秘技

推敲網(wǎng)絡(luò)的做法梗概是,它在編碼器之后使用了如上圖所示的兩階段解碼器,第一段解碼器把來(lái)自編碼器的源語(yǔ)句嵌入直白地解碼成目標(biāo)語(yǔ)言的草稿語(yǔ)句,然后第二階段的解碼器再次對(duì)剛才的草稿句子進(jìn)行調(diào)整美化。

媲美人類有何不可?深度解讀微軟新 AI 翻譯系統(tǒng)四大秘技

具體來(lái)講,模型架構(gòu)是在 Transformer 網(wǎng)絡(luò)架構(gòu)上增加一個(gè)推敲網(wǎng)絡(luò)。與標(biāo)準(zhǔn)的 Transformer 網(wǎng)絡(luò)相同,編碼器 ε 和第一階段的解碼器 D1 都是多層神經(jīng)網(wǎng)絡(luò),以注意力機(jī)制連接起來(lái)。在這里,編碼器 ε 會(huì)基于原始詞嵌入和來(lái)自詞之間順序的上下文信息為源句的每個(gè)詞 Ts 生成詞表征,這些表征組成序列 H。編碼器 ε 讀取句子 x 后就可以通過(guò)自我注意力輸出帶有隱含狀態(tài)的序列 H。

第一階段的解碼器 D1 把 H 作為輸入,執(zhí)行第一階段的解碼,得到 softmax 前的隱含狀態(tài) S^ 以及草稿句子 y^。第二階段的解碼器 D2 也是多層神經(jīng)網(wǎng)絡(luò),但和 D1 有很大不同,它會(huì)把來(lái)自編碼器 ε 和解碼器 D1 的隱含狀態(tài)都作為自己的輸入。由于 D2 有來(lái)自 D1 解碼出的隱含狀態(tài),所以 D2 的輸出是依賴于 D1 生成的草稿句子 y^ 的。這樣的做法可以從源語(yǔ)句中獲得全局信息,在生成句子時(shí)也就有正確的上下文語(yǔ)境信息供使用。

推敲網(wǎng)絡(luò)和對(duì)偶學(xué)習(xí)的聯(lián)合使用

對(duì)于兩種技術(shù)如何結(jié)合,微軟的研究人員們首先通過(guò)無(wú)監(jiān)督及監(jiān)督對(duì)偶學(xué)習(xí)訓(xùn)練中到英和英到中兩個(gè) Transformer 翻譯模型。然后把英語(yǔ)語(yǔ)料句子 y 通過(guò)英到中翻譯模型翻譯為中文句子 x',并把 ( x',y ) 這個(gè)句對(duì)作為偽雙語(yǔ)語(yǔ)料,把它加入現(xiàn)有的雙語(yǔ)語(yǔ)料庫(kù)中。擴(kuò)大后的語(yǔ)料庫(kù)就可以用來(lái)訓(xùn)練上文描述的構(gòu)建于 Transformer 之上的推敲網(wǎng)絡(luò)。解碼器和第一階段編碼器是使用第一步中訓(xùn)練出的中到英翻譯模型初始化的。

四,一致性正則化 Agreement Regularization

一致性正則化是防止曝光偏倚出現(xiàn)的另一個(gè)手段。研究員們發(fā)現(xiàn),從左到右的翻譯模型生成的句子里后面的詞的質(zhì)量不好,那么從右到左的翻譯模型生成的句子里前邊的詞的質(zhì)量就不高。從左到右和從右到左的一致性被引入到神經(jīng)機(jī)器翻譯模型的損失函數(shù)中,從而使得翻譯模型盡可能的生成一致的翻譯。

媲美人類有何不可?深度解讀微軟新 AI 翻譯系統(tǒng)四大秘技

和前面的聯(lián)合訓(xùn)練類似,由于損失項(xiàng)中設(shè)計(jì)了同時(shí)含有兩個(gè)模型的表現(xiàn),其中一個(gè)模型的表現(xiàn)進(jìn)步也可以顯示地影響另一個(gè)模型,也就可以迭代更新進(jìn)步,如上圖所示。

實(shí)際上,中譯英和英譯中兩個(gè)方向的翻譯模型,都可以分為從左往右和從右往左兩個(gè)輸入順序的模型。這就一共有了四個(gè)模型,然后這四個(gè)模型可以依據(jù)一個(gè)統(tǒng)一訓(xùn)練框架,一同聯(lián)合訓(xùn)練。訓(xùn)練過(guò)程中首先由從左往右的英到中模型生成中間過(guò)程偽語(yǔ)料,在一致性正則化的幫助下用來(lái)訓(xùn)練從左往右和從右往左兩個(gè)中到英模型;接下來(lái),已經(jīng)經(jīng)過(guò)訓(xùn)練增強(qiáng)的從左往右的中到英模型就會(huì)再生成一個(gè)偽語(yǔ)料用于訓(xùn)練從左往右和從右往左兩個(gè)英到中模型。這四個(gè)模型互相促進(jìn)、迭代訓(xùn)練,直到最終收斂。

例句嘗鮮

對(duì)偶學(xué)習(xí)、聯(lián)合訓(xùn)練、推敲網(wǎng)絡(luò)和一致性正則化四項(xiàng)技術(shù)介紹完了,都是一些符合常識(shí)的改進(jìn),我們上一篇報(bào)道中的測(cè)試數(shù)據(jù)也已經(jīng)展現(xiàn)出了可見(jiàn)的改進(jìn)。

實(shí)際上在測(cè)試中,研究員們依據(jù)對(duì)偶學(xué)習(xí)+推敲網(wǎng)絡(luò)、一致性正則化+聯(lián)合訓(xùn)練、WMT 數(shù)據(jù)集+更多額外數(shù)據(jù)等選擇,配置了許多種不同的系統(tǒng),一面通過(guò)測(cè)試驗(yàn)證了各個(gè)改進(jìn)項(xiàng)目的實(shí)際效果,另一面也可以把多個(gè)系統(tǒng)的不同結(jié)果做綜合,得到更好的翻譯結(jié)果。實(shí)際上,論文中聲稱達(dá)到人類翻譯水平、BLEU 分?jǐn)?shù)也超過(guò) 28 分的結(jié)果,就是由包含了 6 到 8 個(gè)模型結(jié)果的綜合模型得到的,最高的一個(gè)綜合模型有 28.46 分。(作為參考,拿下 WMT 2017 比賽最好結(jié)果的搜狗翻譯也是綜合了多個(gè)模型,達(dá)到了 26.40)

根據(jù)微軟官方博客介紹,這個(gè)翻譯系統(tǒng)的中到英翻譯體驗(yàn)頁(yè)面已經(jīng)在 https://translator.microsoft.com/neural/ 上線了,由單個(gè)系統(tǒng)提供翻譯,(所以這個(gè)系統(tǒng)還不是最好的性能,多個(gè)模型綜合會(huì)達(dá)到更好的效果)這個(gè)系統(tǒng)的 BLEU 分?jǐn)?shù)為 27.60分。頁(yè)面上同時(shí)也直接提供了一些來(lái)自微軟測(cè)試所用的 WMT 2017 newstest 數(shù)據(jù)集的中文新聞?wù)Z料供參考。平心而論,這些中文語(yǔ)句還真的不那么簡(jiǎn)單,有相當(dāng)?shù)奶魬?zhàn)性;也可以自己輸入句子嘗試。另外頁(yè)面上也提供了兩種不同的翻譯供感受。

下面我們摘錄三個(gè)來(lái)自測(cè)試集的中文語(yǔ)料,以及兩條有難度的其它測(cè)試語(yǔ)句,感受一下翻譯質(zhì)量。而且要記得,這還并不是新的翻譯系統(tǒng)(綜合模型)的全部實(shí)力哦。

??诤J路ㄔ毫璩苛复_保臨高漁船沉沒(méi)事件當(dāng)事人權(quán)益

  • The early morning of Haikou Maritime Court to ensure the interests of the Lingao fishing boat sinking event

  • Haikou maritime court filed a case in the early morning to ensure the rights and interests of the parties involved in the sinking of the Lingao fishing boat

人道主義團(tuán)體卻對(duì)法院表示這些商店和餐館極為重要,因?yàn)閲?guó)家支持的協(xié)會(huì)及其他團(tuán)體所提供的免費(fèi)食物根本無(wú)法滿足該難民營(yíng)不斷增長(zhǎng)的難民的需求。

  • The humanitarian community has told the court that these shops and restaurants are extremely important, as free food provided by state-sponsored associations and other groups cannot meet the growing needs of refugees in the refugee camp.

  • Humanitarian groups, however, told the court that the shops and restaurants were extremely important because the free food provided by State-sponsored associations and other groups simply could not meet the growing needs of the refugees in the camp.

據(jù)媒體披露,由于此前資本大規(guī)模涌入互聯(lián)網(wǎng)醫(yī)藥,造成目前產(chǎn)品同質(zhì)化的問(wèn)題嚴(yán)重,投資熱潮漸退,資本進(jìn)入觀望期。

  • According to media disclosure, due to the previous massive influx of capital into the Internet medicine, resulting in the current serious problem of product homogenization, investment boom gradually receded, capital into the wait-and-see period.

  • According to media disclosure, due to the massive influx of capital before the Internet medicine, resulting in the current problem of homogenization of products, investment boom is receding, the capital into the wait-and-see period.

寶寶的經(jīng)紀(jì)人睡了寶寶的寶寶,現(xiàn)在寶寶不知道寶寶的寶寶是不是寶寶親生的寶寶

  • The baby's agent slept with the baby's baby and now the baby doesn't know if the baby's baby is the baby's biological baby

  • Baby's agent Sleeps baby's baby, now baby doesn't know baby's baby is not baby's baby

走廊燈關(guān)上,書(shū)包放,走到房間窗外望,回想剛買(mǎi)的書(shū),一本名叫半島鐵盒

  • Corridor lights off, school bags put, went to look out the window of the room, recalled just bought a book, called the Peninsula Iron Box

  • The corridor light closes, the bag puts, walks to the room window looks, recalls just bought the book, a name Peninsula iron box

對(duì)于頁(yè)面一次給出兩種翻譯,并且希望用戶選出其中更滿意的一個(gè),我們認(rèn)為微軟還在嘗試用更多語(yǔ)料以及加上更多人閱讀的直觀反饋,繼續(xù)改進(jìn)這個(gè)翻譯系統(tǒng)。其它值得期待的改進(jìn)點(diǎn)還包括語(yǔ)料較少的領(lǐng)域的雙語(yǔ)翻譯、系統(tǒng)的運(yùn)行速度、如何把多個(gè)子系統(tǒng)融合成表現(xiàn)相當(dāng)?shù)囊徽麄€(gè)模型等。

以及我們也希望微軟可以早日開(kāi)放英文到中文的翻譯體驗(yàn),在測(cè)試階段供大家更多感受新翻譯系統(tǒng)的魅力。要是能成為生產(chǎn)級(jí)別的翻譯系統(tǒng)正式開(kāi)放,那就最好了。

翻譯系統(tǒng)測(cè)試地址:https://translator.microsoft.com/neural/

論文地址:https://www.microsoft.com/en-us/research/uploads/prod/2018/03/final-achieving-human.pdf。雷鋒網(wǎng) AI 科技評(píng)論報(bào)道

相關(guān)文章:

重大更新!微軟宣布推出人工智能平臺(tái)Windows ML

微軟首席研究員張正友離職回國(guó),本人確認(rèn)加入騰訊

機(jī)器翻譯新突破,微軟中英新聞翻譯達(dá)人類水平

雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知

媲美人類有何不可?深度解讀微軟新 AI 翻譯系統(tǒng)四大秘技

分享:
相關(guān)文章

讀論文為生

日常笑點(diǎn)滴,學(xué)術(shù)死腦筋
當(dāng)月熱門(mén)文章
最新文章
請(qǐng)?zhí)顚?xiě)申請(qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說(shuō)