丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預覽,將在時失效
人工智能學術(shù) 正文
發(fā)私信給楊曉凡
發(fā)送

0

能犧牲大語種、提升小語種翻譯質(zhì)量的谷歌多語言機器翻譯

本文作者: 楊曉凡 2019-10-16 19:15
導語:當你把太多語言塞進同一個模型的時候……

雷鋒網(wǎng) AI 科技評論按:近期,谷歌拓展了機器翻譯系統(tǒng)的邊界:用所有可用的數(shù)據(jù)訓練一個超大規(guī)模的多語言神經(jīng)機器翻譯系統(tǒng)。這不僅是一次大膽的嘗試,也更新了我們對機器翻譯模型的一些認識。雷鋒網(wǎng) AI 科技評論把谷歌的這篇介紹博客編譯如下。另外,這篇介紹博客也提到了許多相關(guān)論文,我們在文中標出的同時,也在文末提供了統(tǒng)一說明和打包下載,方便各位仔細閱讀。

能犧牲大語種、提升小語種翻譯質(zhì)量的谷歌多語言機器翻譯

「也許語言翻譯的奧妙,就在于從每種語言往下挖掘,一直挖到人類溝通的共同基礎(chǔ)——那種真實存在但是尚未被發(fā)現(xiàn)的通用語言——然后從那里重新衍生出方便的具體路徑?!?nbsp; —— Warren Weaver, 1949

尋找新的挑戰(zhàn)

過去幾年中,得益于神經(jīng)機器翻譯(NMT)技術(shù)的流行,機器翻譯的質(zhì)量越來越高。不過神經(jīng)機器翻譯的成功也同時依賴于大量的有監(jiān)督訓練數(shù)據(jù)。所以對于只能找到很少標注數(shù)據(jù)、甚至找不到標注數(shù)據(jù)的語言要怎么處理呢?人們有一個歸納偏倚,認為「對于學習某一個語言有用的信號也能提高翻譯到其它語言的質(zhì)量」,這種補救方法似乎有一些潛力,也就帶來了多語言神經(jīng)機器翻譯。

多語言機器翻譯是用單個翻譯模型處理多種不同的語言。對于缺少標注數(shù)據(jù)的語言而言,多語言訓練的方法已經(jīng)在谷歌的自動語音識別和文本轉(zhuǎn)語音系統(tǒng)中發(fā)揮了效果,此前的多語言翻譯論文(論文 1、論文 2、論文 3)中也有體現(xiàn)。谷歌自己曾經(jīng)做過一次實驗,研究讓單個網(wǎng)絡(luò)學習更多的語言會如何影響它的表現(xiàn)(論文 4)。不過在那次的研究中谷歌限制了每種語言的訓練數(shù)據(jù)的多少,如果訓練模型的時候不再考慮不同語言的數(shù)據(jù)多少、復雜度和領(lǐng)域,反正把找得到的數(shù)據(jù)都用上,效果會如何呢?

在最新的論文《Massively Multilingual Neural Machine Translation in the Wild: Findings and Challenges》(論文 5)以及緊接著的幾篇論文中(論文 6論文 7、論文 8 、論文 9),谷歌做了一個逼近極限的實驗,他們用超過 100 種語言對英語、一共超過 250 億組句子對的數(shù)據(jù)上,訓練了一個有 500 億參數(shù)的多語言機器翻譯模型。結(jié)果表明這種做法不僅可以產(chǎn)出一個在低資源語言和高資源語言上都有更好表現(xiàn)的模型,而且它還可以輕松地改造成單個語言對的模型,還在下游的跨語言遷移任務(wù)中也有很好的表現(xiàn)。他們把這個超多語言、超大神經(jīng)網(wǎng)絡(luò)模型(massively multilingual, massive neural machine translation)稱作 M4。

大規(guī)模多語言機器翻譯

雖然不同的語言有不同的語料數(shù)量是神經(jīng)機器翻譯方法中的一大挑戰(zhàn),但這種狀況同時也是研究遷移的理想環(huán)境,也就是研究訓練提升了對某一種語言的翻譯能力以后能否用它來提高對其他語言的翻譯能力。在語言-語料分布的一端,有英語對法語、德語、西班牙語這種語料非常豐富的,很容易找到十億級的平行語料樣本,而英語對約魯巴語、信德語、夏威夷語這種小語種的平行語料就非常缺乏,可能只有成千上萬而已。

能犧牲大語種、提升小語種翻譯質(zhì)量的谷歌多語言機器翻譯

不同語言的資源數(shù)量(縱軸是 log 尺度),以及只使用各自的雙語語料訓練翻譯模型得到的 BLEU 分數(shù)

在用所有找得到的數(shù)據(jù)(103 種語言對英語的句子對,一共超過 250 億組)訓練模型之后,谷歌的研究人員們觀察到越低資源的語言就有越明顯的提升,資源最低的 30 種語言的翻譯質(zhì)量平均提升了 5 BLEU。這種效果是此前就得到過研究、這次也在預料之中的,不過這個結(jié)果仍然讓人感到欣喜,畢竟這個多語言模型中對于每種語言的具體表征容量和一個一般的雙語模型是一樣的。這個發(fā)現(xiàn)表明大規(guī)模多語言模型的泛化能力很強大,而且可以在眾多不同的語言之間找到表征的相似性。

能犧牲大語種、提升小語種翻譯質(zhì)量的谷歌多語言機器翻譯

相比于用雙語語料分別訓練的模型,單個大規(guī)模多語言翻譯模型能大大提升低資源語言的翻譯質(zhì)量;但高資源語言的翻譯質(zhì)量反而有所下降

在谷歌的 EMNLP 2019 論文《Investigating Multilingual NMT Representations at Scale》(論文 7)中,他們也比較了這個多語言模型為不同語言生成的表征。他們發(fā)現(xiàn),不需要施加外部的約束,多語言翻譯模型就能夠為語法類似的語言學習到共享的表征,以便利用這些相似性。在論文《Evaluating the Cross-Lingual Effectiveness of Massively Multilingual Neural Machine Translation》(論文 8)中,谷歌的研究人員們進一步在跨語言的下游遷移任務(wù)上表明了這些學習到的表征的有效性。

能犧牲大語種、提升小語種翻譯質(zhì)量的谷歌多語言機器翻譯

根據(jù)表征相似性對所有 103 種語言的編碼表征進行聚類的結(jié)果。圖中帶顏色的橢圓是語言學分類的結(jié)果 —— 和根據(jù)表征的聚類基本相符

構(gòu)建大規(guī)模神經(jīng)網(wǎng)絡(luò)

隨著谷歌的研究人員們增加模型要學習的低資源語言的數(shù)量,高資源語言的翻譯質(zhì)量反而開始下降。這種衰減現(xiàn)象可以在多任務(wù)設(shè)置下觀察到,可能由于任務(wù)間的補全以及遷移固有的方向性(總是從高資源語言向低資源語言遷移)。換用更好的學習算法(論文 10)和更好的容量控制算法(論文 11)可以緩解這種負向遷移的作用,他們同時還嘗試了把網(wǎng)絡(luò)擴大,增加網(wǎng)絡(luò)的參數(shù)、提升網(wǎng)絡(luò)的容量,以便提升高資源語言的翻譯質(zhì)量。

為了提升網(wǎng)絡(luò)容量,谷歌的研究人員們其實使用了很多技巧,包括增加更多的層、讓隱層的表征更寬。在之前的嘗試更深的翻譯網(wǎng)絡(luò)的研究(論文 12)的基礎(chǔ)上,他們使用了 GPipe 庫來訓練一個 128 層的 Transformer 模型,其中含有超過 60 億個參數(shù)。增加模型容量大幅提升了模型在所有語言中的表現(xiàn),平均提升了 5 BLEU。他們還探究了非常深的網(wǎng)絡(luò)的其它特性,比如網(wǎng)絡(luò)深度寬度間的取舍、網(wǎng)絡(luò)的可訓練性,甚至嘗試了進一步把網(wǎng)絡(luò)拓展到超過 1500 層、含有超過 840 億個參數(shù)。

提升模型容量的方法也并不只有直接增加深度一種,還有一種很有意義的補充方案是探索新的架構(gòu),以便更好地利用這個問題的「多任務(wù)」這個特點。谷歌的研究人員們嘗試了把 Transformer 架構(gòu)本來的正常的前饋層替換成多個專家模型混合組成的稀疏門(論文 13),也大幅提高了模型的容量、成功訓練了這樣的模型,模型含有的參數(shù)也超過了 500 億;這都讓模型的翻譯質(zhì)量繼續(xù)得到全方面的提高。

能犧牲大語種、提升小語種翻譯質(zhì)量的谷歌多語言機器翻譯

用容量更大的模型,配合增加更多語料,高資源語言的翻譯質(zhì)量也能和低資源語言一樣繼續(xù)得到提升

把 M4 模型變得實用

為不同的語言、不同的任務(wù)或者遷移任務(wù)分別訓練不同的大規(guī)模模型本來就是很消耗資源、很低效率的一件事,這次谷歌的多語言機器翻譯模型更是一個強力的模型,可以作為向單個語言、單個任務(wù)遷移的基礎(chǔ)。谷歌也設(shè)計了一些方法(論文 9)提高 M4 模型的實用性,比如可以通過容量可調(diào)的層讓 M4 模型可以適應(yīng)到針對某個語言或者某個人物,而不需要改變原有的模型。

下一步邁向哪里?

有語言學家估計,目前全世界存在的大約 7000 種語言中,在 2100 年以前就會消失一半。多語言翻譯技術(shù)能起到一定的拯救作用嗎?谷歌認為 M4 模型就是在目前的基礎(chǔ)上再多拯救 1000 種語言的一個很有希望的辦法,把這樣的多語言翻譯模型作為基礎(chǔ),可以很輕松地拓展到新語言、新領(lǐng)域、新的下游任務(wù)上去,甚至當我們沒有平行語料的時候都可以做出成果。當然了,我們面對的挑戰(zhàn)還有不少,想要得到真正通用的多語言機器翻譯模型也還需要一些跨領(lǐng)域的合作。不過,對于機器學習開發(fā)者和理論研究者來說,多語言機器翻譯模型都是一個多任務(wù)學習、元學習、機器學習動力學研究的有趣的實驗環(huán)境。我們未來還可以做得更好。

提及的論文查閱

這 13 篇論文打包下載見 https://www.yanxishe.com/packages/12

via ai.googleblog.com,雷鋒網(wǎng) AI 科技評論編譯

雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

能犧牲大語種、提升小語種翻譯質(zhì)量的谷歌多語言機器翻譯

分享:
相關(guān)文章

讀論文為生

日常笑點滴,學術(shù)死腦筋
當月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說