0
本文作者: 我在思考中 | 2021-08-11 09:53 |
作者 | 青暮
以學術界為主力軍的中國AI研究力量正在悄然變化,工業(yè)界的作用愈發(fā)凸顯,與學術界一起形成雙輪驅動之勢。
倫敦帝國理工學院 Marek Rei 教授對ML&NLP相關會議論文的統(tǒng)計顯示,自2012年至2020年期間,美國以近4000篇論文的數(shù)量遙遙領先,中國、英國、德國和加拿大分別名列第二至五位。
美國科技公司在各大人工智能頂會上格外強勢,微軟和谷歌排名前二,IBM和Facebook也名列前十;與此形成鮮明反差的是,中國AI研究界則由學術機構當家,僅清華和北大躋身前十,分別排名第八和第九位。
但是在AI技術應用火熱的推動下,中國科技企業(yè)也逐漸從“輔助角色”進化為中堅力量。在剛剛結束的NLP頂會ACL 2021上,中國的論文投稿數(shù)量已經大幅超越美國,共有 1239 篇論文投稿來自中國大陸,其中 251 篇被接收,接收率 20.3%,工業(yè)界在其中出力甚多。
更值得欣喜的是,字節(jié)跳動AI Lab的詞表學習方案VOLT贏得“最佳論文”獎項。這是ACL舉辦59年以來,中國團隊第二次獲得會議最高榮譽,上一次是由中科院計算所研究員馮洋獲得ACL 2019年最佳長論文獎。此外,香港中文大學與騰訊AI Lab的合作論文成功入選“杰出論文”。
本次我們邀請到了字節(jié)跳動AI Lab獲獎論文作者,向讀者介紹他們在ACL 2021上的工作。
NLP的華人力量
字節(jié)跳動獲獎論文“Vocabulary Learning via Optimal Transport for Machine Translation”提出了VOLT方法,能以非常低的代價學習詞表,在機器翻譯上取得了更好的性能。而詞表幾乎可以用于所有NLP任務,團隊也在積極推動VOLT在其他NLP任務上的應用。
另外這項工作是從經濟學和數(shù)學中獲取靈感,從而給出了一個可行的詞表學習方案。該論文第一作者許晶晶說:“我們給出了基于最大邊際效應的一種可能的解釋,和把詞表學習建模成一個最優(yōu)運輸問題的全新想法?!?/span>
論文地址:https://arxiv.org/abs/2012.15671
項目地址:https://github.com/Jingjing-NLP/VOLT
許晶晶于2015年進入北京大學電子工程與計算機科學學院,攻讀博士學位,在計算語言學教育部重點實驗室跟隨孫栩教授做研究。
2021年2月,也就是五年后,AAAI首次評選“學術新星”(New Faculty Highlight),許晶晶成功入選,是入選者中唯一的中國機構學者。
回首五年前,許晶晶認為自己非常幸運,剛進入AI領域的時候,恰好就是自然語言處理從傳統(tǒng)的淺層模型走向深度模型的過渡點?!皩τ贜LP領域而言,深度學習在當時還是一種比較新的方法,入學的時候比較幸運趕上了深度學習在自然語言處理應用的浪潮”。
今年中國團隊再次獲得ACL最高榮譽,但光芒的背后,是一步一步的扎實積累。“最近幾年華人在NLP領域的進步是非常大的。在15年的時候,對于一家中國研究機構來說,可能一年中一篇ACL,就是非常了不起的事情。隨著時代的進步,華人的名字開始越來越多地出現(xiàn)在會議上,這是一個可喜的進步。相信在不久的將來,華人也可以做出很多可以引領整個時代潮流的工作?!痹S晶晶說道。
來自經濟學和數(shù)學的啟發(fā)
許晶晶對自然語言處理(NLP)的基礎研究比較感興趣,而詞表又是自然語言處理的基礎組件。
團隊成員們非常尊重和支持她的個人研究興趣,當她最開始提出想要研究詞表的時候,很快就獲得了團隊成員們的支持。
詞表,也就是把句子拆分表示的參考表,有多種形式,比如詞級別、字符級別、子詞級別等等,如下圖所示。
在機器翻譯架構中,這些句子在輸入后會依據(jù)詞表拆分成token(比如”O(jiān)regon“被拆分成“O”、“re”、“gon”三個token),然后將每個token分別表示為向量,再進行神經網(wǎng)絡的編碼、解碼,然后先輸出token級別的表示,再依據(jù)詞表組合成完整的翻譯句子輸出。
在三種級別的詞表中,詞級別簡單按照詞匯水平對句子進行分割,對應的詞表就是語料中所有的單詞;字符級別把所有單詞都拆分成字母。子詞級別介于兩者之間,比如在上圖這句話中,”O(jiān)regon“被拆分成“O”、“re”、“gon”三個token,“enlisting”被拆分成“en”、“l(fā)isting”。
目前為止,子詞級別的詞表使用比較多,并且已經在多個任務上驗證了效果。因此,在目前的認知條件下,可以暫時認定子詞為較好的選擇。
在這項研究中,實驗室團隊就是希望找到最好的子詞詞表,以提高機器翻譯的性能和效率。
如何理解子詞表示的好處呢?比如在“enlisting”和“enlighten”這兩個單詞中,我們可以把它們拆分成“en”、“l(fā)isting”,以及“en“、”lighten”,然后我們在向量空間中需要構建“en”、“l(fā)isting”、“l(fā)ighten”這三個詞向量。在足夠多的詞匯量下,子詞級別需要的詞表比詞級別的要小。
從一般的意義上講,子詞表示是一種信息壓縮(相對于字符表示)。就好像為了理解大量的蛋白質數(shù)據(jù),我們用氨基酸作為基本單元來進行分類,而不是直接用原子作為基本單元。但也因此,子詞級別的詞表相比字符級別會更大。
那么詞表是不是越大越好呢?實際上在BPE算法中隨著詞表增大,新增的子詞匹配的多是稀疏單詞,也就是信息熵降低,這樣反倒不利于模型學習。
具體而言,對于每一種語言來說,常用的單詞都是少數(shù)的?;蛘邷蚀_點說,每一種語言的單詞使用頻率是呈現(xiàn)長尾分布的。
這意味著,整個機器翻譯系統(tǒng)中,對這些低頻詞匯進行子詞分解,在后續(xù)的編解碼中,并不會對信息熵的變化帶來太大收益。
因此除了信息熵,詞表大小也是衡量詞表的重要因素。
團隊由此聯(lián)想到了經濟學中的經典現(xiàn)象——邊際收益。
通俗來說,邊際收益就是指“剛開始的幾口蛋糕真香”以及“最后一口蛋糕好膩”。我們可以把“吃一口蛋糕”定義為投入,“真香感受”定義為產出,邊際收益就是投入產出比?!皠傞_始的幾口蛋糕真香”的投入產出比高,“最后一口蛋糕好膩”的投入產出比低。
在子詞詞表構建中,隨著詞表大小的增加,一般來說,token的信息熵收益會在某個時刻之后達到巔峰并且下降。
而這個性價比臨界點,正是團隊要尋找的目標。
因此,團隊為了建模這種平衡,引入了邊際收益的概念。團隊將信息熵看成是邊際收益中的利益,詞表大小看成是邊際收益中的代價。隨著詞表的增加,不同大小的詞表的信息熵收益是不同的。
團隊使用邊際收益的概念定義了衡量詞表質量的指標MUV,并且觀測到了MUV指標和下游任務的相關性。
MUV可以理解成為信息熵對詞表大小的負一階導數(shù),也即是我們在逐個增加token來構建詞表的時候,每增加一定量的token導致的信息熵增益。我們的目標,就是要在巨大的詞表空間中尋找MUV的最高值。
這樣就可以把詞表學習轉化為搜索具有最大MUV分數(shù)的詞表問題。為了解決該問題,作者提出了一種基于最優(yōu)運輸?shù)姆桨浮?/span>
為了便于大家更方便地理解最優(yōu)運輸,這里對最優(yōu)運輸先做一個簡單的回顧。
大約250年前,法國數(shù)學家蒙日在其作品中對這類問題進行了嚴格分析,下面是一個比較直觀的例子。
假設在戰(zhàn)爭中,我方有一些前線(藍色星星)發(fā)出了需要增兵的信號,而我們的士兵分散在不同的后方根據(jù)地(紅色旗幟)。不同的前線需要的士兵個數(shù)不同,后方根據(jù)地的士兵個數(shù)也不同,前線距離后方根據(jù)地的距離也不同。問如何設計轉移方案,使得總轉移代價最低?這就是最優(yōu)運輸想要回答的問題。
那么,如果要用最優(yōu)傳輸來解決詞表學習問題,首先要將問題進行重建。作者們將句子拆分成字符后的表示看成是后方士兵,將候選詞表看成是前線。為了避免不合法的搬運,作者們將不合法的搬運設為無窮大(比如字e搬運給詞cat是不合法的)。每種搬運方式對應一種詞表,那么我們只需要把搬運代價定義成MUV相關分數(shù),就可以實現(xiàn)搜索的目的。
那么如何將詞表學習的問題轉化成為最優(yōu)運輸?shù)拇鷥r呢?作者對問題進行了簡化。簡化過程分為兩步,一個是對搜索空間進行壓縮,一個是對目標進行近似。對技術細節(jié)感興趣的讀者,可以看看VOLT方法的偽代碼:
以下是VOLT生成的詞表在雙語翻譯的結果,可以看出新方法學到的詞表比經常使用的詞表大小小很多,效果也很有競爭力。
以下是在多語翻譯的結果,總體來看,在三分之二的數(shù)據(jù)集上效果也是較好的。
VOLT不需要結合任務的下游任務訓練,因此非常簡單高效。但許晶晶轉而說道,“這其實是一把雙刃劍,如果可以結合下游任務的話,有機會針對特定情況或許可以獲得更好的性能和效率。”
不止是VOLT
相比于對模型的關注,詞表在NLP社區(qū)中相關的研究可能少一些,而詞表又是非常重要的一環(huán)。如何去理解詞表其實是一個很有意思的問題。
對于這項工作的泛化性,許晶晶也有所期待,“或許未來能在其他NLP任務上看到VOLT的身影?!?/span>
同時,這項技術也被團隊用到了競賽中。在今年的WMT2021中,字節(jié)跳動AI Lab在WMT機器翻譯比賽中取得了好成績。這次比賽中,除了VOLT,團隊們還使用了非自回歸的方法GLAT。
論文鏈接:https://arxiv.org/abs/2008.07905
在WMT2021國際機器翻譯大賽上,字節(jié)跳動火山翻譯團隊以“并行翻譯”系統(tǒng)參賽,獲得德語到英語方向機器翻譯比賽自動評估第一名。“并行翻譯”在國際大賽首次亮相,就成功擊敗了從左向右逐詞翻譯的“自回歸模型”技術,打破后者在機器翻譯領域的絕對統(tǒng)治地位。
許晶晶的團隊同事周浩說道,“這充分說明并行(非自回歸)生成模型未必比自回歸模型差”。
WMT2021是由國際計算語言學協(xié)會ACL舉辦的世界頂級機器翻譯比賽,德英語向是該賽事競爭最激烈的大語種項目之一。
GLAT被還上線到了字節(jié)跳動的火山翻譯中,為公司產品和火山引擎的企業(yè)級客戶提供翻譯服務,” 在訓練數(shù)據(jù)量小的場景下,‘并行翻譯’的質量相比傳統(tǒng)技術處于劣勢。但是當訓練數(shù)據(jù)規(guī)模變大后,‘并行翻譯’會逐漸縮小差距,甚至反超傳統(tǒng)技術?!爸芎蒲a充道。
火山翻譯是字節(jié)跳動旗下火山引擎的AI中臺能力之一,提供全球先進的翻譯技術與服務,打造各大場景智能翻譯解決方案。
火山翻譯打通了多個翻譯場景,包括文本、語音、圖片、音頻、視頻,以及虛擬世界和現(xiàn)實世界。其中,虛擬世界即AR,現(xiàn)實世界即同傳。此外還支持多語種,包括56門語言、3080個語向的翻譯。
在2021年上半年,火山翻譯研發(fā)了視頻翻譯和AR智能翻譯眼鏡,火山同傳也支持了多場大會與直播,很好促進了多語言內容互通。
視頻翻譯:
在這些產品背后,字節(jié)跳動AI Lab重點研發(fā)了多語言翻譯和語音翻譯,有如下幾個亮點。
比如開源了 lightseq2.0,這是業(yè)界最快的推理和訓練引擎,可以把機器翻譯的訓練速度提升 3 倍,把推理速度提升 10 倍。
以及研發(fā)了大規(guī)模多語言預訓練 mRASP2 ,可以支持 150 個語種之間的互譯,通過大規(guī)模預訓練翻譯效果非常好。
還有研發(fā)了端到端語音翻譯,并且開源了 NeurST,引起了業(yè)內較大的關注。
“既重視基礎研究,又能高效轉化技術。”這也是許晶晶當初選擇字節(jié)跳動AI Lab的原因,“組里的同事們都很年輕,有活力、有想法,同時氛圍又很自由,大家都會積極地去推動整個工作組的研究,并在自己的領域中發(fā)光發(fā)熱?!?/span>
許晶晶的主要研究方向是綠色深度學習,VOLT的能力正好定位于這個價值觀。
VOLT:綠色環(huán)保的詞表學習方案
以主流詞表BPE為例。為了搜索最優(yōu)詞表,業(yè)內普遍會通過大量自然語言處理下游任務的訓練以尋找最優(yōu)大小。相比之下,使用VOLT方案可以節(jié)省92%的算力,這同時意味著所需電能的大量減少。
巧合的是,伏特(volt)是電學的一個基本單位??梢哉f,VOLT是一項非常環(huán)保的綠色解決方案。
機器翻譯是NLP應用的主要部分,而NLP的市場價值仍然無可限量。John Snow實驗室與Gradient Flow合作在2020年發(fā)布了一份全球調查報告。這項全球調查詢問了來自50多個國家的近600名受訪者,全面了解了2020年NLP的采用和實施狀況。
盡管今年IT支出不景氣,但有趣的是,NLP預算全面增加,報告的NLP技術預算比去年增加了10-30%??紤]到該調查是在全球COVID-19大流行的高峰期進行的,而當時全球的IT支出都在下降,這一點尤其重要。
寫在最后
”獲得最佳論文對于我來說是很高的起點。但人終究是要不斷追求進步的,對于下一步該往何處走,做出更好的研究貢獻,也會感受到壓力?!?/span>
展望未來,許晶晶抱有很大的期待,“事物是動態(tài)發(fā)展的,方向會不斷調整,但我相信都會往好的方向發(fā)展。對于我個人,也期望在這個自由的環(huán)境中,繼續(xù)做出對公司、對社區(qū)、對社會有幫助的事情。字節(jié)跳動AI Lab還很年輕,歡迎大家過來開拓自己的事業(yè)?!?/span>
雷鋒網(wǎng)雷鋒網(wǎng)雷鋒網(wǎng)
雷峰網(wǎng)特約稿件,未經授權禁止轉載。詳情見轉載須知。