0
本文作者: 楊曉凡 | 2019-10-16 19:15 |
雷鋒網(wǎng) AI 科技評(píng)論按:近期,谷歌拓展了機(jī)器翻譯系統(tǒng)的邊界:用所有可用的數(shù)據(jù)訓(xùn)練一個(gè)超大規(guī)模的多語(yǔ)言神經(jīng)機(jī)器翻譯系統(tǒng)。這不僅是一次大膽的嘗試,也更新了我們對(duì)機(jī)器翻譯模型的一些認(rèn)識(shí)。雷鋒網(wǎng) AI 科技評(píng)論把谷歌的這篇介紹博客編譯如下。另外,這篇介紹博客也提到了許多相關(guān)論文,我們?cè)谖闹袠?biāo)出的同時(shí),也在文末提供了統(tǒng)一說(shuō)明和打包下載,方便各位仔細(xì)閱讀。
「也許語(yǔ)言翻譯的奧妙,就在于從每種語(yǔ)言往下挖掘,一直挖到人類溝通的共同基礎(chǔ)——那種真實(shí)存在但是尚未被發(fā)現(xiàn)的通用語(yǔ)言——然后從那里重新衍生出方便的具體路徑?!?nbsp; —— Warren Weaver, 1949
過(guò)去幾年中,得益于神經(jīng)機(jī)器翻譯(NMT)技術(shù)的流行,機(jī)器翻譯的質(zhì)量越來(lái)越高。不過(guò)神經(jīng)機(jī)器翻譯的成功也同時(shí)依賴于大量的有監(jiān)督訓(xùn)練數(shù)據(jù)。所以對(duì)于只能找到很少標(biāo)注數(shù)據(jù)、甚至找不到標(biāo)注數(shù)據(jù)的語(yǔ)言要怎么處理呢?人們有一個(gè)歸納偏倚,認(rèn)為「對(duì)于學(xué)習(xí)某一個(gè)語(yǔ)言有用的信號(hào)也能提高翻譯到其它語(yǔ)言的質(zhì)量」,這種補(bǔ)救方法似乎有一些潛力,也就帶來(lái)了多語(yǔ)言神經(jīng)機(jī)器翻譯。
多語(yǔ)言機(jī)器翻譯是用單個(gè)翻譯模型處理多種不同的語(yǔ)言。對(duì)于缺少標(biāo)注數(shù)據(jù)的語(yǔ)言而言,多語(yǔ)言訓(xùn)練的方法已經(jīng)在谷歌的自動(dòng)語(yǔ)音識(shí)別和文本轉(zhuǎn)語(yǔ)音系統(tǒng)中發(fā)揮了效果,此前的多語(yǔ)言翻譯論文(論文 1、論文 2、論文 3)中也有體現(xiàn)。谷歌自己曾經(jīng)做過(guò)一次實(shí)驗(yàn),研究讓單個(gè)網(wǎng)絡(luò)學(xué)習(xí)更多的語(yǔ)言會(huì)如何影響它的表現(xiàn)(論文 4)。不過(guò)在那次的研究中谷歌限制了每種語(yǔ)言的訓(xùn)練數(shù)據(jù)的多少,如果訓(xùn)練模型的時(shí)候不再考慮不同語(yǔ)言的數(shù)據(jù)多少、復(fù)雜度和領(lǐng)域,反正把找得到的數(shù)據(jù)都用上,效果會(huì)如何呢?
在最新的論文《Massively Multilingual Neural Machine Translation in the Wild: Findings and Challenges》(論文 5)以及緊接著的幾篇論文中(論文 6、論文 7、論文 8 、論文 9),谷歌做了一個(gè)逼近極限的實(shí)驗(yàn),他們用超過(guò) 100 種語(yǔ)言對(duì)英語(yǔ)、一共超過(guò) 250 億組句子對(duì)的數(shù)據(jù)上,訓(xùn)練了一個(gè)有 500 億參數(shù)的多語(yǔ)言機(jī)器翻譯模型。結(jié)果表明這種做法不僅可以產(chǎn)出一個(gè)在低資源語(yǔ)言和高資源語(yǔ)言上都有更好表現(xiàn)的模型,而且它還可以輕松地改造成單個(gè)語(yǔ)言對(duì)的模型,還在下游的跨語(yǔ)言遷移任務(wù)中也有很好的表現(xiàn)。他們把這個(gè)超多語(yǔ)言、超大神經(jīng)網(wǎng)絡(luò)模型(massively multilingual, massive neural machine translation)稱作 M4。
雖然不同的語(yǔ)言有不同的語(yǔ)料數(shù)量是神經(jīng)機(jī)器翻譯方法中的一大挑戰(zhàn),但這種狀況同時(shí)也是研究遷移的理想環(huán)境,也就是研究訓(xùn)練提升了對(duì)某一種語(yǔ)言的翻譯能力以后能否用它來(lái)提高對(duì)其他語(yǔ)言的翻譯能力。在語(yǔ)言-語(yǔ)料分布的一端,有英語(yǔ)對(duì)法語(yǔ)、德語(yǔ)、西班牙語(yǔ)這種語(yǔ)料非常豐富的,很容易找到十億級(jí)的平行語(yǔ)料樣本,而英語(yǔ)對(duì)約魯巴語(yǔ)、信德語(yǔ)、夏威夷語(yǔ)這種小語(yǔ)種的平行語(yǔ)料就非常缺乏,可能只有成千上萬(wàn)而已。
在用所有找得到的數(shù)據(jù)(103 種語(yǔ)言對(duì)英語(yǔ)的句子對(duì),一共超過(guò) 250 億組)訓(xùn)練模型之后,谷歌的研究人員們觀察到越低資源的語(yǔ)言就有越明顯的提升,資源最低的 30 種語(yǔ)言的翻譯質(zhì)量平均提升了 5 BLEU。這種效果是此前就得到過(guò)研究、這次也在預(yù)料之中的,不過(guò)這個(gè)結(jié)果仍然讓人感到欣喜,畢竟這個(gè)多語(yǔ)言模型中對(duì)于每種語(yǔ)言的具體表征容量和一個(gè)一般的雙語(yǔ)模型是一樣的。這個(gè)發(fā)現(xiàn)表明大規(guī)模多語(yǔ)言模型的泛化能力很強(qiáng)大,而且可以在眾多不同的語(yǔ)言之間找到表征的相似性。
在谷歌的 EMNLP 2019 論文《Investigating Multilingual NMT Representations at Scale》(論文 7)中,他們也比較了這個(gè)多語(yǔ)言模型為不同語(yǔ)言生成的表征。他們發(fā)現(xiàn),不需要施加外部的約束,多語(yǔ)言翻譯模型就能夠?yàn)檎Z(yǔ)法類似的語(yǔ)言學(xué)習(xí)到共享的表征,以便利用這些相似性。在論文《Evaluating the Cross-Lingual Effectiveness of Massively Multilingual Neural Machine Translation》(論文 8)中,谷歌的研究人員們進(jìn)一步在跨語(yǔ)言的下游遷移任務(wù)上表明了這些學(xué)習(xí)到的表征的有效性。
隨著谷歌的研究人員們?cè)黾幽P鸵獙W(xué)習(xí)的低資源語(yǔ)言的數(shù)量,高資源語(yǔ)言的翻譯質(zhì)量反而開(kāi)始下降。這種衰減現(xiàn)象可以在多任務(wù)設(shè)置下觀察到,可能由于任務(wù)間的補(bǔ)全以及遷移固有的方向性(總是從高資源語(yǔ)言向低資源語(yǔ)言遷移)。換用更好的學(xué)習(xí)算法(論文 10)和更好的容量控制算法(論文 11)可以緩解這種負(fù)向遷移的作用,他們同時(shí)還嘗試了把網(wǎng)絡(luò)擴(kuò)大,增加網(wǎng)絡(luò)的參數(shù)、提升網(wǎng)絡(luò)的容量,以便提升高資源語(yǔ)言的翻譯質(zhì)量。
為了提升網(wǎng)絡(luò)容量,谷歌的研究人員們其實(shí)使用了很多技巧,包括增加更多的層、讓隱層的表征更寬。在之前的嘗試更深的翻譯網(wǎng)絡(luò)的研究(論文 12)的基礎(chǔ)上,他們使用了 GPipe 庫(kù)來(lái)訓(xùn)練一個(gè) 128 層的 Transformer 模型,其中含有超過(guò) 60 億個(gè)參數(shù)。增加模型容量大幅提升了模型在所有語(yǔ)言中的表現(xiàn),平均提升了 5 BLEU。他們還探究了非常深的網(wǎng)絡(luò)的其它特性,比如網(wǎng)絡(luò)深度寬度間的取舍、網(wǎng)絡(luò)的可訓(xùn)練性,甚至嘗試了進(jìn)一步把網(wǎng)絡(luò)拓展到超過(guò) 1500 層、含有超過(guò) 840 億個(gè)參數(shù)。
提升模型容量的方法也并不只有直接增加深度一種,還有一種很有意義的補(bǔ)充方案是探索新的架構(gòu),以便更好地利用這個(gè)問(wèn)題的「多任務(wù)」這個(gè)特點(diǎn)。谷歌的研究人員們嘗試了把 Transformer 架構(gòu)本來(lái)的正常的前饋層替換成多個(gè)專家模型混合組成的稀疏門(論文 13),也大幅提高了模型的容量、成功訓(xùn)練了這樣的模型,模型含有的參數(shù)也超過(guò)了 500 億;這都讓模型的翻譯質(zhì)量繼續(xù)得到全方面的提高。
為不同的語(yǔ)言、不同的任務(wù)或者遷移任務(wù)分別訓(xùn)練不同的大規(guī)模模型本來(lái)就是很消耗資源、很低效率的一件事,這次谷歌的多語(yǔ)言機(jī)器翻譯模型更是一個(gè)強(qiáng)力的模型,可以作為向單個(gè)語(yǔ)言、單個(gè)任務(wù)遷移的基礎(chǔ)。谷歌也設(shè)計(jì)了一些方法(論文 9)提高 M4 模型的實(shí)用性,比如可以通過(guò)容量可調(diào)的層讓 M4 模型可以適應(yīng)到針對(duì)某個(gè)語(yǔ)言或者某個(gè)人物,而不需要改變?cè)械哪P汀?/p>
有語(yǔ)言學(xué)家估計(jì),目前全世界存在的大約 7000 種語(yǔ)言中,在 2100 年以前就會(huì)消失一半。多語(yǔ)言翻譯技術(shù)能起到一定的拯救作用嗎?谷歌認(rèn)為 M4 模型就是在目前的基礎(chǔ)上再多拯救 1000 種語(yǔ)言的一個(gè)很有希望的辦法,把這樣的多語(yǔ)言翻譯模型作為基礎(chǔ),可以很輕松地拓展到新語(yǔ)言、新領(lǐng)域、新的下游任務(wù)上去,甚至當(dāng)我們沒(méi)有平行語(yǔ)料的時(shí)候都可以做出成果。當(dāng)然了,我們面對(duì)的挑戰(zhàn)還有不少,想要得到真正通用的多語(yǔ)言機(jī)器翻譯模型也還需要一些跨領(lǐng)域的合作。不過(guò),對(duì)于機(jī)器學(xué)習(xí)開(kāi)發(fā)者和理論研究者來(lái)說(shuō),多語(yǔ)言機(jī)器翻譯模型都是一個(gè)多任務(wù)學(xué)習(xí)、元學(xué)習(xí)、機(jī)器學(xué)習(xí)動(dòng)力學(xué)研究的有趣的實(shí)驗(yàn)環(huán)境。我們未來(lái)還可以做得更好。
論文 1:Multi-Task Learning for Multiple Language Translation,https://www.aclweb.org/anthology/P15-1166/
論文 2:Google’s Multilingual Neural Machine Translation System: Enabling Zero-Shot Translation,https://arxiv.org/abs/1611.04558
論文 3:Multi-Way, Multilingual Neural Machine Translation with a Shared Attention Mechanism,https://www.aclweb.org/anthology/N16-1101/
論文 4:Massively Multilingual Neural Machine Translation,https://arxiv.org/abs/1903.00089
論文 5:Massively Multilingual Neural Machine Translation in the Wild: Findings and Challenges,https://arxiv.org/abs/1907.05019
論文 6:GPipe: Efficient Training of Giant Neural Networks using Pipeline Parallelism,https://arxiv.org/abs/1811.06965
論文 7:Investigating Multilingual NMT Representations at Scale,https://arxiv.org/abs/1909.02197
論文 8:Evaluating the Cross-Lingual Effectiveness of Massively Multilingual Neural Machine Translation,https://arxiv.org/abs/1909.00437
論文 9:Simple, Scalable Adaptation for Neural Machine Translation,https://arxiv.org/abs/1909.08478
論文 10:Adaptive Scheduling for Multi-Task Learning,https://arxiv.org/abs/1909.06434
論文 11:Soft Conditional Computation,https://arxiv.org/abs/1904.04971
論文 12:Training Deeper Neural Machine Translation Models with Transparent Attention,https://arxiv.org/abs/1808.07561
論文 13:Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer,https://arxiv.org/abs/1701.06538
這 13 篇論文打包下載見(jiàn) https://www.yanxishe.com/packages/12
via ai.googleblog.com,雷鋒網(wǎng) AI 科技評(píng)論編譯
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。