淺析大規(guī)模多語種通用神經(jīng)機(jī)器翻譯方法

本文作者：小牛翻譯

編輯：賈偉

2019-11-14 18:14

導(dǎo)語：只訓(xùn)練一個(gè)模型就能夠支持在多個(gè)語言之間的翻譯

作者｜陳賀軒

單位｜小牛翻譯

陳賀軒，東北大學(xué)自然語言處理實(shí)驗(yàn)室研究生，研究方向?yàn)闄C(jī)器翻譯。

小牛翻譯，核心成員來自東北大學(xué)自然語言處理實(shí)驗(yàn)室，由姚天順教授創(chuàng)建于1980年，現(xiàn)由朱靖波教授、肖桐博士領(lǐng)導(dǎo)，長期從事計(jì)算語言學(xué)的相關(guān)研究工作，主要包括機(jī)器翻譯、語言分析、文本挖掘等。團(tuán)隊(duì)研發(fā)的支持140種語言互譯的小牛翻譯系統(tǒng)已經(jīng)得到廣泛應(yīng)用，并研發(fā)了小牛翻譯云（https://niutrans.vip）讓機(jī)器翻譯技術(shù)賦能全球企業(yè)。

目前，神經(jīng)機(jī)器翻譯（NMT）已經(jīng)成為在學(xué)術(shù)界和工業(yè)界最先進(jìn)的機(jī)器翻譯方法。最初的這種基于編碼器-解碼器架構(gòu)的機(jī)器翻譯系統(tǒng)都針對單個(gè)語言對進(jìn)行翻譯。近期的工作開始探索去擴(kuò)展這種辦法以支持多語言之間的翻譯，也就是通過只訓(xùn)練一個(gè)模型就能夠支持在多個(gè)語言之間的翻譯。

盡管目前最流行的Transformer模型已經(jīng)大大推動(dòng)了機(jī)器翻譯在單個(gè)語言對上性能的提升，但針對多語言的機(jī)器翻譯模型的研究源于其特殊的需求，如多語言之間互譯的模型參數(shù)量、翻譯服務(wù)部署困難等。盡管多語言NMT已經(jīng)存在大量的研究，然而，識(shí)別語言之間的共性以及針對現(xiàn)實(shí)場景下的大規(guī)模多語言模型等，仍然存在問題和挑戰(zhàn)。

一、Multilingual Machine Translation

多語言機(jī)器翻譯的最理性的目標(biāo)是通過單一模型能夠翻譯任意一個(gè)語言對。如果將所有語言對的全部都只看做為“源語言”-“目標(biāo)語言”的這樣一種特殊的單語言對，那么其概率模型仍可以表示為：

淺析大規(guī)模多語種通用神經(jīng)機(jī)器翻譯方法

盡管不同的模型有不同的損失計(jì)算方式，以Dong等人[1]提出的模型為例，很多模型內(nèi)部計(jì)算損失時(shí)，仍將依賴于特定語言對計(jì)算：

淺析大規(guī)模多語種通用神經(jīng)機(jī)器翻譯方法

多語言機(jī)器翻譯模型的研究存在著多個(gè)原因。

假設(shè)我們現(xiàn)在需要針對N個(gè)語言之間進(jìn)行互譯，傳統(tǒng)的方法就是訓(xùn)練N(N-1)個(gè)互譯的模型，如果通過某種中介語言，仍然需要訓(xùn)練2(N-1)個(gè)互譯的模型。當(dāng)需要互譯的語言數(shù)N比較大的時(shí)候，相應(yīng)的就會(huì)需要大量的模型訓(xùn)練、部署等，耗費(fèi)大量的人力物力。而通過合理的設(shè)計(jì)和訓(xùn)練，獲得單一模型實(shí)現(xiàn)這些語言之間的互譯，就會(huì)極大的減少開銷。

由于聯(lián)合訓(xùn)練以及學(xué)習(xí)到的知識(shí)從高資源語言的遷移，多語言模型提高了在低資源甚至是零資源的語言對互譯的性能。然而這也導(dǎo)致了對原本高資源語言對訓(xùn)練的干擾從而降低了性能。同時(shí)獲得性能的提升仍是一個(gè)具有挑戰(zhàn)性的問題。

從語言對之間映射的角度來看，基于源語端和目標(biāo)語端所涵蓋的語言數(shù)量，在多語言NMT模型中，存在三種策略，包括多對一、一對多以及多對多。多對一模型學(xué)習(xí)將任何在源語端的語言翻譯成目標(biāo)端的一種特定的語言，這種情況下通常會(huì)選取語料豐富的語言比如英語，相似的，一對多模型學(xué)習(xí)將在源語端的一種語言翻譯成目標(biāo)端任意一種語言。多對一這種模式通常會(huì)看作多領(lǐng)域?qū)W習(xí)的問題，類似于源語端的輸入分布是不一致的，但是都會(huì)翻譯成一種目標(biāo)語。而一對多這種模式可以被看作是多任務(wù)的問題，類似于每一對源語到目標(biāo)語看作一個(gè)單獨(dú)的任務(wù)。多對多這種模式就是這兩個(gè)模式的集合。

不管源語端和目標(biāo)語端語言的數(shù)量，多語言機(jī)器翻譯模型的提升也基于“相關(guān)領(lǐng)域”以及“相關(guān)任務(wù)”之間知識(shí)的遷移作用。

盡管多語言NMT已經(jīng)被大量的研究，但是這種研究仍然存在著極大的限制，所驗(yàn)證的語言對數(shù)量也很有限。盡管單獨(dú)的一個(gè)模型能將一個(gè)大規(guī)模語言對的所能達(dá)到的性能是值得研究的，但是存在著大量的困難：不同語言對之間的遷移學(xué)習(xí)；模型本身參數(shù)和學(xué)習(xí)能力的限制。在大規(guī)模語言對包括在低資源和高資源數(shù)據(jù)（這種高低的比較是通過整體數(shù)據(jù)量的對比）上多語言機(jī)器翻譯的性能和問題也得到了廣泛的研究和探討。

二、訓(xùn)練策略

與針對單對語種的翻譯模型的訓(xùn)練方法相比，由于模型和數(shù)據(jù)分布的不同，多語種的訓(xùn)練方法有著明顯的不同。由于多語種數(shù)據(jù)中是由不同的語言對的數(shù)據(jù)構(gòu)成，甚至不同的語言對的數(shù)量也有差異，存在數(shù)據(jù)不平衡的問題。這就使得如果采用與針對單對語種訓(xùn)練方式相同的策略會(huì)導(dǎo)致所得到的模型性能的降低。所以制定一個(gè)好的訓(xùn)練策略對多語言機(jī)器翻譯模型是一個(gè)比較重要的事。

針對模型訓(xùn)練階段，不同的模型結(jié)構(gòu)決定不同的策略。Dong等人[1]針對一對多多語言機(jī)器翻譯模式設(shè)計(jì)了單一編碼器以及多個(gè)語言獨(dú)立的解碼器模型結(jié)構(gòu)，在這個(gè)結(jié)構(gòu)下，采用了一種輪換的方式去更新模型的參數(shù)，在更新迭代的過程中，固定相鄰的n個(gè)批次的數(shù)據(jù)為同一種語言，同時(shí)輪換不同的語言以相同的方式，這種策略使得在針對單個(gè)語言的訓(xùn)練來看“批次”中的數(shù)據(jù)會(huì)變大，為n個(gè)批次數(shù)據(jù)的大小。Johnson等人[2]采用了更加簡單的模型結(jié)構(gòu)，與針對單對語種的機(jī)器翻譯模型相同只采用一個(gè)編碼器和一個(gè)解碼器結(jié)構(gòu)，并只針對源語句子上添加一個(gè)表示所翻譯目標(biāo)語的前綴標(biāo)識(shí)來訓(xùn)練模型，這種極為簡單的模型結(jié)構(gòu)也對模型訓(xùn)練產(chǎn)生了極大的壓力，由于數(shù)據(jù)的不平衡，采用過采樣或者欠采樣的方式，甚至在構(gòu)建單個(gè)批次時(shí)也構(gòu)建一定比例的不同語言對數(shù)量。

訓(xùn)練的策略也包括了針對無監(jiān)督的訓(xùn)練方式（Sen等人[3]）、知識(shí)精煉（Tan等人[4]）以及在原有多語機(jī)器翻譯上增加新語言對（Escolano等人[5]）等不同訓(xùn)練策略。

三、大規(guī)模多語種機(jī)器翻譯

為了去探索單個(gè)模型最大程度上學(xué)習(xí)大規(guī)模的語言數(shù)量。Aharoni等人[10]對此進(jìn)行了研究和實(shí)現(xiàn)了大量的實(shí)驗(yàn)。

實(shí)驗(yàn)采用了Ha等人[6]，Johnson等人[2]以及在源語句子上使得能夠進(jìn)行多對多的翻譯。翻譯模型采用完全基于Attention的Transformer模型架構(gòu)（Vaswani等人[7]）。在所有的實(shí)驗(yàn)結(jié)果中，采用BLEU（Papineni等人[8]）的評測方式。在模型訓(xùn)練中，單個(gè)批次混合不同語言對數(shù)據(jù)。實(shí)驗(yàn)采用了內(nèi)部數(shù)據(jù)集。該數(shù)據(jù)集包括102種語言對，由于語言對之間是相互的，可以將它們與英語進(jìn)行“鏡像”轉(zhuǎn)換，每個(gè)語言對最多有100萬個(gè)示例。這樣一來，總共可以翻譯103種語言，并同時(shí)訓(xùn)練204種翻譯方向。

實(shí)驗(yàn)選取了不同語言族的10種語言：Semitic(Arabic(Ar)，Hebrew(He))；Romance(Galician(Gl)，Italian(It) ，Romanian(Ro)）；Germanic(German(De)，Dutch(Nl))； Slavic(Belarusian(Be)，Slovak(Sk))以及Turkic(Azerbaijani (Az)，Turkish(Tr))。

模型結(jié)構(gòu)

實(shí)驗(yàn)所采用的模型是Transformer結(jié)構(gòu)，如圖1。

淺析大規(guī)模多語種通用神經(jīng)機(jī)器翻譯方法

圖1 Transformer模型結(jié)構(gòu)

更多細(xì)節(jié)可以參考Vaswani等人[7]的工作。

實(shí)驗(yàn)結(jié)果

表1就是從10種語言翻譯與英語的一對多、多對一和多對多實(shí)驗(yàn)結(jié)果。

其中上表表示了從10種語言翻譯到英語的翻譯結(jié)果，下表表示了從英語到10種語言的翻譯結(jié)果。

淺析大規(guī)模多語種通用神經(jīng)機(jī)器翻譯方法

表1 高資源數(shù)據(jù)中一對多、多對一以及多對多的實(shí)驗(yàn)結(jié)果

分析

在實(shí)驗(yàn)中，針對103種語言構(gòu)建了以英文為中心的多語言機(jī)器翻譯。

在相同數(shù)據(jù)的情況下，多語言模型一對多、多對一以及多對多大多都高于單語對模型，表明模型具備同時(shí)訓(xùn)練更多語言對的能力。但是一些語言對仍然出現(xiàn)了高度的波動(dòng)以及低于相應(yīng)的單語對模型。這也說明在這種設(shè)置下，一些語言對受到了比較大的干擾比如Italian-English。

多語言模型模式中，一對多、多對一大都超過了多對多模型的性能。同樣，這種優(yōu)勢可能是由于一對多和多對多模型處理較少的任務(wù)，而不像多對多模型那樣在目標(biāo)端偏向于英語。其中，多對一仍然存在著要弱于多對多的語言對，這種情況由于目標(biāo)端大量的英文數(shù)據(jù)，潛在的可能由于受到相似語言之間的遷移學(xué)習(xí)以及解碼端的過擬合問題。

以上結(jié)果表明，大量的多語言NMT確實(shí)可以在大規(guī)模環(huán)境中使用，并且可以在強(qiáng)大的雙語基線上提高性能。

問題

盡管已經(jīng)添加了大量的語種，顯示了單模型進(jìn)行多語言翻譯的潛力。但是仍然是在一個(gè)比較受限的情況下，現(xiàn)實(shí)已經(jīng)證明，海量的單語言對能夠大大提高模型的翻譯能力，但是多語言同時(shí)使用這樣的海量數(shù)據(jù)的性能并沒有得到合理的證明，同時(shí)實(shí)驗(yàn)使用的數(shù)據(jù)質(zhì)量比較高，在現(xiàn)實(shí)中，采集的數(shù)據(jù)會(huì)存在大量的噪音，也會(huì)損失模型的性能。

四、總結(jié)和展望

自從多語言NMT的概念被提出后，相關(guān)的論文層出不窮。近年針對在實(shí)際中使用的大規(guī)模多語言機(jī)器翻譯也受到了廣泛的研究（Aharoni等人[10]，Arivazhagan等人[9]），為在更復(fù)雜的真實(shí)世界的使用提供了有力的支持。

這種大規(guī)模多語言機(jī)器翻譯所期待的優(yōu)良特性包括：

在單個(gè)模型中考慮的語言數(shù)量方面的最大。在模型中多能互譯的語言對越多越好，也就更能節(jié)省更多的資源；
知識(shí)從高資源語言對向低資源語言的最大正向遷移。這樣不僅能夠獲得高資源語言對的性能，也能提高低資源語言對的性能，充分的利用了數(shù)據(jù)。
對高資源語言的最小干擾(負(fù)遷移)。避免其他因素對高資源語言對訓(xùn)練的消極影響。
健壯的多語言NMT模型，在現(xiàn)實(shí)的開放域設(shè)置中表現(xiàn)良好。有助于現(xiàn)實(shí)的部署和使用。

盡管當(dāng)前取得了極大的進(jìn)展，多語言機(jī)器翻譯仍然有很多的問題和挑戰(zhàn)。

參考文獻(xiàn)

[1] Daxiang Dong, Hua Wu, Wei He, Dianhai Yu, and Haifeng Wang. 2015. Multi-task learning for multiple language translation.

[2] Melvin Johnson, Mike Schuster, Quoc V Le, et al. 2017. Google’s multilingual neural machine translation system: Enabling zero-shot translation.

[3] Sukanta Sen, Kamal Kumar Gupta, Asif Ekbal, Pushpak Bhattacharyya .2019.Multilingual Unsupervised NMT using Shared Encoder and Language-Specific Decoders

[4] Xu Tan, Yi Ren, Di He, Tao Qin, Zhou Zhao, Tie-Yan Liu.2019. Multilingual Neural Machine Translation with Knowledge Distillation

[5] Carlos Escolano, Marta R. Costa-jussà, José A. R. Fonollosa.2019. From Bilingual to Multilingual Neural Machine Translation by Incremental Training

[6] Thanh-Le Ha, Jan Niehues, and Alexander Waibel. 2016. Toward multilingual neural machine translation with universal encoder and decoder.

[7] Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, ?ukasz Kaiser, and Illia Polosukhin. 2017. Attention is all you need.

[8] Kishore Papineni, Salim Roukos, ToddWard, andWei- Jing Zhu. 2002. Bleu: a method for automatic evaluation of machine translation.

[9] Naveen Arivazhagan, Ankur Bapna, Orhan Firat, Dmitry Lepikhin, Melvin Johnson, Maxim Krikun, Mia Xu Chen, Yuan Cao, George Foster, Colin Cherry, Wolfgang Macherey, Zhifeng Chen, Yonghui Wu. 2019. Massively Multilingual Neural Machine Translation in the Wild: Findings and Challenges

[10] Roee Aharoni, Melvin Johnson, Orhan Firat. 2019. Massively Multilingual Neural Machine Translation

雷鋒網(wǎng)編輯

相關(guān)文章：

淺析基于隱變量的非自回歸神經(jīng)機(jī)器翻譯方法

NLP領(lǐng)域預(yù)訓(xùn)練模型的現(xiàn)狀及分析

面向神經(jīng)機(jī)器翻譯的篇章級(jí)單語修正模型

雷峰網(wǎng)特約稿件，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。