丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能學(xué)術(shù) 正文
發(fā)私信給小牛翻譯
發(fā)送

0

淺析大規(guī)模多語(yǔ)種通用神經(jīng)機(jī)器翻譯方法

本文作者: 小牛翻譯 編輯:賈偉 2019-11-14 18:14
導(dǎo)語(yǔ):只訓(xùn)練一個(gè)模型就能夠支持在多個(gè)語(yǔ)言之間的翻譯

作者 | 陳賀軒

單位 | 小牛翻譯

陳賀軒,東北大學(xué)自然語(yǔ)言處理實(shí)驗(yàn)室研究生,研究方向?yàn)闄C(jī)器翻譯。

小牛翻譯,核心成員來(lái)自東北大學(xué)自然語(yǔ)言處理實(shí)驗(yàn)室,由姚天順教授創(chuàng)建于1980年,現(xiàn)由朱靖波教授、肖桐博士領(lǐng)導(dǎo),長(zhǎng)期從事計(jì)算語(yǔ)言學(xué)的相關(guān)研究工作,主要包括機(jī)器翻譯、語(yǔ)言分析、文本挖掘等。團(tuán)隊(duì)研發(fā)的支持140種語(yǔ)言互譯的小牛翻譯系統(tǒng)已經(jīng)得到廣泛應(yīng)用,并研發(fā)了小牛翻譯云(https://niutrans.vip)讓機(jī)器翻譯技術(shù)賦能全球企業(yè)。

目前,神經(jīng)機(jī)器翻譯(NMT)已經(jīng)成為在學(xué)術(shù)界和工業(yè)界最先進(jìn)的機(jī)器翻譯方法。最初的這種基于編碼器-解碼器架構(gòu)的機(jī)器翻譯系統(tǒng)都針對(duì)單個(gè)語(yǔ)言對(duì)進(jìn)行翻譯。近期的工作開(kāi)始探索去擴(kuò)展這種辦法以支持多語(yǔ)言之間的翻譯,也就是通過(guò)只訓(xùn)練一個(gè)模型就能夠支持在多個(gè)語(yǔ)言之間的翻譯。

盡管目前最流行的Transformer模型已經(jīng)大大推動(dòng)了機(jī)器翻譯在單個(gè)語(yǔ)言對(duì)上性能的提升,但針對(duì)多語(yǔ)言的機(jī)器翻譯模型的研究源于其特殊的需求,如多語(yǔ)言之間互譯的模型參數(shù)量、翻譯服務(wù)部署困難等。盡管多語(yǔ)言NMT已經(jīng)存在大量的研究,然而,識(shí)別語(yǔ)言之間的共性以及針對(duì)現(xiàn)實(shí)場(chǎng)景下的大規(guī)模多語(yǔ)言模型等,仍然存在問(wèn)題和挑戰(zhàn)。

一、Multilingual Machine Translation

多語(yǔ)言機(jī)器翻譯的最理性的目標(biāo)是通過(guò)單一模型能夠翻譯任意一個(gè)語(yǔ)言對(duì)。如果將所有語(yǔ)言對(duì)的全部都只看做為“源語(yǔ)言”-“目標(biāo)語(yǔ)言”的這樣一種特殊的單語(yǔ)言對(duì),那么其概率模型仍可以表示為:

淺析大規(guī)模多語(yǔ)種通用神經(jīng)機(jī)器翻譯方法

盡管不同的模型有不同的損失計(jì)算方式,以Dong等人[1]提出的模型為例,很多模型內(nèi)部計(jì)算損失時(shí),仍將依賴于特定語(yǔ)言對(duì)計(jì)算:

淺析大規(guī)模多語(yǔ)種通用神經(jīng)機(jī)器翻譯方法

多語(yǔ)言機(jī)器翻譯模型的研究存在著多個(gè)原因。

假設(shè)我們現(xiàn)在需要針對(duì)N個(gè)語(yǔ)言之間進(jìn)行互譯,傳統(tǒng)的方法就是訓(xùn)練N(N-1)個(gè)互譯的模型,如果通過(guò)某種中介語(yǔ)言,仍然需要訓(xùn)練2(N-1)個(gè)互譯的模型。當(dāng)需要互譯的語(yǔ)言數(shù)N比較大的時(shí)候,相應(yīng)的就會(huì)需要大量的模型訓(xùn)練、部署等,耗費(fèi)大量的人力物力。而通過(guò)合理的設(shè)計(jì)和訓(xùn)練,獲得單一模型實(shí)現(xiàn)這些語(yǔ)言之間的互譯,就會(huì)極大的減少開(kāi)銷。

由于聯(lián)合訓(xùn)練以及學(xué)習(xí)到的知識(shí)從高資源語(yǔ)言的遷移,多語(yǔ)言模型提高了在低資源甚至是零資源的語(yǔ)言對(duì)互譯的性能。然而這也導(dǎo)致了對(duì)原本高資源語(yǔ)言對(duì)訓(xùn)練的干擾從而降低了性能。同時(shí)獲得性能的提升仍是一個(gè)具有挑戰(zhàn)性的問(wèn)題。

從語(yǔ)言對(duì)之間映射的角度來(lái)看,基于源語(yǔ)端和目標(biāo)語(yǔ)端所涵蓋的語(yǔ)言數(shù)量,在多語(yǔ)言NMT模型中,存在三種策略,包括多對(duì)一、一對(duì)多以及多對(duì)多。多對(duì)一模型學(xué)習(xí)將任何在源語(yǔ)端的語(yǔ)言翻譯成目標(biāo)端的一種特定的語(yǔ)言,這種情況下通常會(huì)選取語(yǔ)料豐富的語(yǔ)言比如英語(yǔ),相似的,一對(duì)多模型學(xué)習(xí)將在源語(yǔ)端的一種語(yǔ)言翻譯成目標(biāo)端任意一種語(yǔ)言。多對(duì)一這種模式通常會(huì)看作多領(lǐng)域?qū)W習(xí)的問(wèn)題,類似于源語(yǔ)端的輸入分布是不一致的,但是都會(huì)翻譯成一種目標(biāo)語(yǔ)。而一對(duì)多這種模式可以被看作是多任務(wù)的問(wèn)題,類似于每一對(duì)源語(yǔ)到目標(biāo)語(yǔ)看作一個(gè)單獨(dú)的任務(wù)。多對(duì)多這種模式就是這兩個(gè)模式的集合。

不管源語(yǔ)端和目標(biāo)語(yǔ)端語(yǔ)言的數(shù)量,多語(yǔ)言機(jī)器翻譯模型的提升也基于“相關(guān)領(lǐng)域”以及“相關(guān)任務(wù)”之間知識(shí)的遷移作用。

盡管多語(yǔ)言NMT已經(jīng)被大量的研究,但是這種研究仍然存在著極大的限制,所驗(yàn)證的語(yǔ)言對(duì)數(shù)量也很有限。盡管單獨(dú)的一個(gè)模型能將一個(gè)大規(guī)模語(yǔ)言對(duì)的所能達(dá)到的性能是值得研究的,但是存在著大量的困難:不同語(yǔ)言對(duì)之間的遷移學(xué)習(xí);模型本身參數(shù)和學(xué)習(xí)能力的限制。在大規(guī)模語(yǔ)言對(duì)包括在低資源和高資源數(shù)據(jù)(這種高低的比較是通過(guò)整體數(shù)據(jù)量的對(duì)比)上多語(yǔ)言機(jī)器翻譯的性能和問(wèn)題也得到了廣泛的研究和探討。

二、訓(xùn)練策略

與針對(duì)單對(duì)語(yǔ)種的翻譯模型的訓(xùn)練方法相比,由于模型和數(shù)據(jù)分布的不同,多語(yǔ)種的訓(xùn)練方法有著明顯的不同。由于多語(yǔ)種數(shù)據(jù)中是由不同的語(yǔ)言對(duì)的數(shù)據(jù)構(gòu)成,甚至不同的語(yǔ)言對(duì)的數(shù)量也有差異,存在數(shù)據(jù)不平衡的問(wèn)題。這就使得如果采用與針對(duì)單對(duì)語(yǔ)種訓(xùn)練方式相同的策略會(huì)導(dǎo)致所得到的模型性能的降低。所以制定一個(gè)好的訓(xùn)練策略對(duì)多語(yǔ)言機(jī)器翻譯模型是一個(gè)比較重要的事。

針對(duì)模型訓(xùn)練階段,不同的模型結(jié)構(gòu)決定不同的策略。Dong等人[1]針對(duì)一對(duì)多多語(yǔ)言機(jī)器翻譯模式設(shè)計(jì)了單一編碼器以及多個(gè)語(yǔ)言獨(dú)立的解碼器模型結(jié)構(gòu),在這個(gè)結(jié)構(gòu)下,采用了一種輪換的方式去更新模型的參數(shù),在更新迭代的過(guò)程中,固定相鄰的n個(gè)批次的數(shù)據(jù)為同一種語(yǔ)言,同時(shí)輪換不同的語(yǔ)言以相同的方式,這種策略使得在針對(duì)單個(gè)語(yǔ)言的訓(xùn)練來(lái)看“批次”中的數(shù)據(jù)會(huì)變大,為n個(gè)批次數(shù)據(jù)的大小。Johnson等人[2]采用了更加簡(jiǎn)單的模型結(jié)構(gòu),與針對(duì)單對(duì)語(yǔ)種的機(jī)器翻譯模型相同只采用一個(gè)編碼器和一個(gè)解碼器結(jié)構(gòu),并只針對(duì)源語(yǔ)句子上添加一個(gè)表示所翻譯目標(biāo)語(yǔ)的前綴標(biāo)識(shí)來(lái)訓(xùn)練模型,這種極為簡(jiǎn)單的模型結(jié)構(gòu)也對(duì)模型訓(xùn)練產(chǎn)生了極大的壓力,由于數(shù)據(jù)的不平衡,采用過(guò)采樣或者欠采樣的方式,甚至在構(gòu)建單個(gè)批次時(shí)也構(gòu)建一定比例的不同語(yǔ)言對(duì)數(shù)量。

訓(xùn)練的策略也包括了針對(duì)無(wú)監(jiān)督的訓(xùn)練方式(Sen等人[3])、知識(shí)精煉(Tan等人[4])以及在原有多語(yǔ)機(jī)器翻譯上增加新語(yǔ)言對(duì)(Escolano等人[5])等不同訓(xùn)練策略。

三、大規(guī)模多語(yǔ)種機(jī)器翻譯

為了去探索單個(gè)模型最大程度上學(xué)習(xí)大規(guī)模的語(yǔ)言數(shù)量。Aharoni等人[10]對(duì)此進(jìn)行了研究和實(shí)現(xiàn)了大量的實(shí)驗(yàn)。

實(shí)驗(yàn)采用了Ha等人[6],Johnson等人[2]以及在源語(yǔ)句子上使得能夠進(jìn)行多對(duì)多的翻譯。翻譯模型采用完全基于Attention的Transformer模型架構(gòu)(Vaswani等人[7])。在所有的實(shí)驗(yàn)結(jié)果中,采用BLEU(Papineni等人[8])的評(píng)測(cè)方式。在模型訓(xùn)練中,單個(gè)批次混合不同語(yǔ)言對(duì)數(shù)據(jù)。實(shí)驗(yàn)采用了內(nèi)部數(shù)據(jù)集。該數(shù)據(jù)集包括102種語(yǔ)言對(duì),由于語(yǔ)言對(duì)之間是相互的,可以將它們與英語(yǔ)進(jìn)行“鏡像”轉(zhuǎn)換,每個(gè)語(yǔ)言對(duì)最多有100萬(wàn)個(gè)示例。這樣一來(lái),總共可以翻譯103種語(yǔ)言,并同時(shí)訓(xùn)練204種翻譯方向。

實(shí)驗(yàn)選取了不同語(yǔ)言族的10種語(yǔ)言:Semitic(Arabic(Ar),Hebrew(He));Romance(Galician(Gl),Italian(It) ,Romanian(Ro));Germanic(German(De),Dutch(Nl)); Slavic(Belarusian(Be),Slovak(Sk))以及Turkic(Azerbaijani (Az),Turkish(Tr))。

模型結(jié)構(gòu)

實(shí)驗(yàn)所采用的模型是Transformer結(jié)構(gòu),如圖1。

淺析大規(guī)模多語(yǔ)種通用神經(jīng)機(jī)器翻譯方法

圖1 Transformer模型結(jié)構(gòu)

更多細(xì)節(jié)可以參考Vaswani等人[7]的工作。

實(shí)驗(yàn)結(jié)果

表1就是從10種語(yǔ)言翻譯與英語(yǔ)的一對(duì)多、多對(duì)一和多對(duì)多實(shí)驗(yàn)結(jié)果。

其中上表表示了從10種語(yǔ)言翻譯到英語(yǔ)的翻譯結(jié)果,下表表示了從英語(yǔ)到10種語(yǔ)言的翻譯結(jié)果。

淺析大規(guī)模多語(yǔ)種通用神經(jīng)機(jī)器翻譯方法

表1 高資源數(shù)據(jù)中一對(duì)多、多對(duì)一以及多對(duì)多的實(shí)驗(yàn)結(jié)果

分析

在實(shí)驗(yàn)中,針對(duì)103種語(yǔ)言構(gòu)建了以英文為中心的多語(yǔ)言機(jī)器翻譯。

在相同數(shù)據(jù)的情況下,多語(yǔ)言模型一對(duì)多、多對(duì)一以及多對(duì)多大多都高于單語(yǔ)對(duì)模型,表明模型具備同時(shí)訓(xùn)練更多語(yǔ)言對(duì)的能力。但是一些語(yǔ)言對(duì)仍然出現(xiàn)了高度的波動(dòng)以及低于相應(yīng)的單語(yǔ)對(duì)模型。這也說(shuō)明在這種設(shè)置下,一些語(yǔ)言對(duì)受到了比較大的干擾比如Italian-English。

多語(yǔ)言模型模式中,一對(duì)多、多對(duì)一大都超過(guò)了多對(duì)多模型的性能。同樣,這種優(yōu)勢(shì)可能是由于一對(duì)多和多對(duì)多模型處理較少的任務(wù),而不像多對(duì)多模型那樣在目標(biāo)端偏向于英語(yǔ)。其中,多對(duì)一仍然存在著要弱于多對(duì)多的語(yǔ)言對(duì),這種情況由于目標(biāo)端大量的英文數(shù)據(jù),潛在的可能由于受到相似語(yǔ)言之間的遷移學(xué)習(xí)以及解碼端的過(guò)擬合問(wèn)題。

以上結(jié)果表明,大量的多語(yǔ)言NMT確實(shí)可以在大規(guī)模環(huán)境中使用,并且可以在強(qiáng)大的雙語(yǔ)基線上提高性能。

問(wèn)題

盡管已經(jīng)添加了大量的語(yǔ)種,顯示了單模型進(jìn)行多語(yǔ)言翻譯的潛力。但是仍然是在一個(gè)比較受限的情況下,現(xiàn)實(shí)已經(jīng)證明,海量的單語(yǔ)言對(duì)能夠大大提高模型的翻譯能力,但是多語(yǔ)言同時(shí)使用這樣的海量數(shù)據(jù)的性能并沒(méi)有得到合理的證明,同時(shí)實(shí)驗(yàn)使用的數(shù)據(jù)質(zhì)量比較高,在現(xiàn)實(shí)中,采集的數(shù)據(jù)會(huì)存在大量的噪音,也會(huì)損失模型的性能。

四、總結(jié)和展望

自從多語(yǔ)言NMT的概念被提出后,相關(guān)的論文層出不窮。近年針對(duì)在實(shí)際中使用的大規(guī)模多語(yǔ)言機(jī)器翻譯也受到了廣泛的研究(Aharoni等人[10],Arivazhagan等人[9]),為在更復(fù)雜的真實(shí)世界的使用提供了有力的支持。

這種大規(guī)模多語(yǔ)言機(jī)器翻譯所期待的優(yōu)良特性包括:

  1. 在單個(gè)模型中考慮的語(yǔ)言數(shù)量方面的最大。在模型中多能互譯的語(yǔ)言對(duì)越多越好,也就更能節(jié)省更多的資源;

  2. 知識(shí)從高資源語(yǔ)言對(duì)向低資源語(yǔ)言的最大正向遷移。這樣不僅能夠獲得高資源語(yǔ)言對(duì)的性能,也能提高低資源語(yǔ)言對(duì)的性能,充分的利用了數(shù)據(jù)。

  3. 對(duì)高資源語(yǔ)言的最小干擾(負(fù)遷移)。避免其他因素對(duì)高資源語(yǔ)言對(duì)訓(xùn)練的消極影響。

  4. 健壯的多語(yǔ)言NMT模型,在現(xiàn)實(shí)的開(kāi)放域設(shè)置中表現(xiàn)良好。有助于現(xiàn)實(shí)的部署和使用。

盡管當(dāng)前取得了極大的進(jìn)展,多語(yǔ)言機(jī)器翻譯仍然有很多的問(wèn)題和挑戰(zhàn)。


參考文獻(xiàn)

[1] Daxiang Dong, Hua Wu, Wei He, Dianhai Yu, and Haifeng Wang. 2015. Multi-task learning for multiple language translation.

[2] Melvin Johnson, Mike Schuster, Quoc V Le, et al. 2017. Google’s multilingual neural machine translation system: Enabling zero-shot translation.

[3] Sukanta Sen, Kamal Kumar Gupta, Asif Ekbal, Pushpak Bhattacharyya .2019.Multilingual Unsupervised NMT using Shared Encoder and Language-Specific Decoders 

[4] Xu Tan, Yi Ren, Di He, Tao Qin, Zhou Zhao, Tie-Yan Liu.2019. Multilingual Neural Machine Translation with Knowledge Distillation 

[5] Carlos Escolano, Marta R. Costa-jussà, José A. R. Fonollosa.2019. From Bilingual to Multilingual Neural Machine Translation by Incremental Training 

[6] Thanh-Le Ha, Jan Niehues, and Alexander Waibel. 2016. Toward multilingual neural machine translation with universal encoder and decoder.

[7] Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, ?ukasz Kaiser, and Illia Polosukhin. 2017. Attention is all you need.

[8] Kishore Papineni, Salim Roukos, ToddWard, andWei- Jing Zhu. 2002. Bleu: a method for automatic evaluation of machine translation.

[9] Naveen Arivazhagan, Ankur Bapna, Orhan Firat, Dmitry Lepikhin, Melvin Johnson, Maxim Krikun, Mia Xu Chen, Yuan Cao, George Foster, Colin Cherry, Wolfgang Macherey, Zhifeng Chen, Yonghui Wu. 2019. Massively Multilingual Neural Machine Translation in the Wild: Findings and Challenges 

[10] Roee Aharoni, Melvin Johnson, Orhan Firat. 2019. Massively Multilingual Neural Machine Translation

雷鋒網(wǎng)編輯

相關(guān)文章:

淺析基于隱變量的非自回歸神經(jīng)機(jī)器翻譯方法

NLP領(lǐng)域預(yù)訓(xùn)練模型的現(xiàn)狀及分析

面向神經(jīng)機(jī)器翻譯的篇章級(jí)單語(yǔ)修正模型

雷峰網(wǎng)特約稿件,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知

淺析大規(guī)模多語(yǔ)種通用神經(jīng)機(jī)器翻譯方法

分享:
相關(guān)文章
當(dāng)月熱門文章
最新文章
請(qǐng)?zhí)顚懮暾?qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說(shuō)