0
2019 年過去了,對于 AI 界而言,過去的一年可謂是“激流勇進”的一年,一方面,整個 AI 界的研究情緒高漲,推動了 AI 技術(shù)的迅猛發(fā)展;另一方面,迅猛發(fā)展的背后,技術(shù)的局限性也日益凸顯,研究者們針對這些局限性也在積極探索,并各顯身手地提出了不計其數(shù)的新方法和研究方向。
但能從中脫穎而出并產(chǎn)生較大影響力的方法和研究方向,又有哪些?值得在未來一年中繼續(xù)深入探索的又有多少?
NLP 領(lǐng)域知名博主 Sebastian Ruder 博士就基于他的研究工作撰寫了一份《2019年ML & NLP 領(lǐng)域十大研究熱點》的總結(jié)報道。
我們看他怎么說:
這篇文章匯總了我認為 2019 年在ML 和 NLP 領(lǐng)域出現(xiàn)的十個最振奮人心和具有影響力的研究方向。針對每個熱點,我會總結(jié)在過去一年所取得的主要進展,簡述為何我認為其重要,并對未來做一個小小的展望。
以下是這十個研究熱點:
通用無監(jiān)督預(yù)訓(xùn)練
“中獎彩票”子網(wǎng)絡(luò)
神經(jīng)正切核
無監(jiān)督多語言學(xué)習(xí)
更魯棒的基準(zhǔn)數(shù)據(jù)集
用于科學(xué)研究的ML和NLP
修復(fù)NLG中的解碼錯誤
增強預(yù)訓(xùn)練模型
高效、長程的Transformer
更可靠的分析方法
1、發(fā)生了什么?
受到BERT (Devlin等人, 2019)及其變體大熱的影響,過去一年中,無監(jiān)督預(yù)訓(xùn)練是NLP 領(lǐng)域中的一個流行的研究方向。各種 BERT 變體用在了多模態(tài)的環(huán)境下,主要在涉及圖像,視頻以及文本環(huán)境(如下圖所示)。
VideoBERT(Sun等人,2019年),一種最新的BERT多模態(tài)變體,根據(jù)配方(上面)生成視頻“令牌”,并根據(jù)視頻令牌(下面)預(yù)測不同時間尺度的未來令牌。
無監(jiān)督預(yù)訓(xùn)練也開始“入侵”以前由監(jiān)督方法占主導(dǎo)地位的領(lǐng)域。比如:
在生物學(xué)中,有研究者在蛋白質(zhì)序列上預(yù)訓(xùn)練Transformer語言模型(Rives等人,2019);
在計算機視覺中,也有研究者利用包括CPC(Hénaff 等人,2019),MoCo(He等人,2019)和PIRL(Misra&van der Maaten,2019)以及 BigBiGAN 生成器( Donahue&Simonyan,2019)在內(nèi)的自監(jiān)督方法提高 ImageNet 上的樣本效率和改善圖像生成;
在語音方面,使用多層CNN(Schneider等人,2019)或雙向CPC(Kawakami等人,2019)所學(xué)得的表示,在更少訓(xùn)練數(shù)據(jù)下的表現(xiàn)優(yōu)于當(dāng)前最好模型。
2、為什么重要?
無監(jiān)督預(yù)訓(xùn)練可以在帶有更少標(biāo)記樣本的數(shù)據(jù)上訓(xùn)練模型,這為以前無法滿足數(shù)據(jù)需求的許多不同領(lǐng)域中的應(yīng)用提供了新的可能性。
3、接下來是什么?
無監(jiān)督預(yù)訓(xùn)練仍有很大的進步空間,盡管迄今為止它在單個領(lǐng)域都取得了很大進步,未來將重點放在如何更緊密地集成多模態(tài)數(shù)據(jù),將是一個有趣的問題。
1、發(fā)生了什么?
Frankle 和 Carbin 在2019 年的研究中發(fā)現(xiàn)了“中獎彩票”現(xiàn)象,即一個隨機初始化、密集前饋網(wǎng)絡(luò)中的一些子網(wǎng)經(jīng)過極好的初始化,以至于單獨訓(xùn)練這些子網(wǎng)就可達到與訓(xùn)練整個網(wǎng)絡(luò)類似的準(zhǔn)確率,如下圖所示。
在不同的剪枝率下測試中獎彩票子網(wǎng)絡(luò)(實線)與隨機采樣子網(wǎng)(虛線)的準(zhǔn)確性(Frankle&Carbin,2019)。
雖然最初的剪枝程序僅適用于小型視覺任務(wù),但后來的工作(Frankle等人,2019)在訓(xùn)練的早期而非初始化時應(yīng)用修剪,這使得剪枝程序可以找到更深層模型的小型子網(wǎng)。Yu等人,(2019)也在NLP和RL模型中發(fā)現(xiàn)了LSTM和Transformer的“中獎彩票”初始化。
盡管“中獎彩票”仍然很難找,但好消息是這些“中獎彩票”似乎在不同數(shù)據(jù)集和優(yōu)化器之間具有可轉(zhuǎn)移性(Morcos等人,2019)。
2、為什么重要?
現(xiàn)今神經(jīng)網(wǎng)絡(luò)變得越來越大,用于訓(xùn)練和預(yù)測的成本也越來越高。若能識別出具有可比性能的小型子網(wǎng),便可以用更少的資源進行訓(xùn)練和推理,從而可以加快模型的迭代速度,并為設(shè)備上計算和邊緣計算提供新的應(yīng)用場景。
3、接下來是什么?
目前找到“中獎彩票”的代價仍然太高,無法在計算資源匱乏環(huán)境下提供實際的好處。修剪過程中不易受噪聲影響且更魯棒的一次性修剪方法或可緩解這種情況。
研究使“中獎彩票”特別的原因,或許還能幫助我們更好地理解神經(jīng)網(wǎng)絡(luò)的初始化以及其學(xué)習(xí)動力學(xué)。
1、發(fā)生了什么?
這個研究方向可能有點反直覺,具體來說就是無限寬的神經(jīng)網(wǎng)絡(luò)比窄的神經(jīng)網(wǎng)絡(luò)更容易從理論上進行研究。
研究表明,在無限寬的情況下,神經(jīng)網(wǎng)絡(luò)可以近似為帶有神經(jīng)正切核 (Neural Tangent Kernel ,NTK; Jacot等人, 2018)的線性模型。下圖是其訓(xùn)練過程的動態(tài)圖示。
具有不同 α 因子的 NTK 線性模型的動態(tài)學(xué)習(xí)過程, NTK 可視化為橢圓形(來源:Rajat的博客)。
然而在實踐中,這些模型的表現(xiàn)不如有限深度模型(Novak等人,2019; Allen-Zhu等人,2019; Bietti&Mairal,2019),這限制了將新發(fā)現(xiàn)應(yīng)用于標(biāo)準(zhǔn)方法。
但最近的工作(Li 等人,2019;Arora 等人,2019)已大大縮小了與標(biāo)準(zhǔn)方法的性能差距(具體請參閱Chip Huyen針對其他相關(guān)的NeurIPS 2019論文寫的博文,https://huyenchip.com/2019/12/18/key-trends-neurips-2019.html)。
2、為什么重要?
NTK也許是我們分析神經(jīng)網(wǎng)絡(luò)理論行為的最強大的工具,盡管它有其局限性,即實際的神經(jīng)網(wǎng)絡(luò)仍然比 NTK 對應(yīng)的方法的表現(xiàn)更好。
雖然到目前為止該研究方向理論上的見解還沒有轉(zhuǎn)化為經(jīng)驗上的收獲,但這可能有助于我們打開深度學(xué)習(xí)的黑匣子。
3、下一步是什么?
與標(biāo)準(zhǔn)方法的差距,似乎主要由于此類方法的有限寬度所導(dǎo)致,這些可能會在將來的工作中體現(xiàn)出來。這還將有望幫助將無限寬度限制下的一些理論上的見解轉(zhuǎn)換得更符合實際設(shè)置。
最終,NTK 或可為我們闡明神經(jīng)網(wǎng)絡(luò)的訓(xùn)練動力學(xué)和泛化行為。
1、發(fā)生了什么?
多年來,跨語言表示主要集中在單詞級別上的表示。在無監(jiān)督預(yù)訓(xùn)練的基礎(chǔ)上,過去的一年見證了諸如多語言BERT,XLM(Conneau&Lample,2019)和 XLM-R(Conneau等人,2019)等跨語言模型的深入發(fā)展。
雖然這些模型沒有使用任何明確的跨語言信號,但它們即便在沒有共享詞匯或聯(lián)合訓(xùn)練情況下實現(xiàn)的跨語言的泛化效果,依舊令人驚訝(Artetxe 等人,2019; Karthikeyan等人,2019; Wu等人,2019 )。
這些深度模型還帶來了無監(jiān)督 MT 的改進(Song 等人,2019; Conneau&Lample,2019),在前年(2018年)取得了長足的進步基礎(chǔ)上,在去年又從統(tǒng)計和神經(jīng)方法的更原則性結(jié)合中,獲得了改進( Artetxe 等人,2019)。
另一個令人振奮的進展則是,從現(xiàn)成的預(yù)訓(xùn)練英語表示中引伸出深層多語言模型(Artetxe等人,2019; Tran,2020),如下圖所示。
Artetxe等人(2019)的單語種遷移方法的四步驟。
2、為什么重要?
即用型跨語言表示使訓(xùn)練模型所需的非英語語言樣本更少。此外,若可以使用英語標(biāo)記的數(shù)據(jù),則這些方法可實現(xiàn)幾乎免費的零樣本轉(zhuǎn)移。最終,這些方法可以幫助我們更好地理解不同語言之間的關(guān)系。
3、下一步是什么?
目前尚不清楚為什么這些方法在沒有任何跨語言監(jiān)督的情況下如此有效。更好地了解這些方法的工作方式,將使我們能夠設(shè)計出功能更強大的方法,還有可能揭示出關(guān)于不同語言結(jié)構(gòu)的一些見解。
另外,我們不僅應(yīng)該專注于零樣本轉(zhuǎn)移,還應(yīng)該在目標(biāo)語言中考慮小樣本學(xué)習(xí)問題。
當(dāng)下的發(fā)展,定有些烏七八糟的事情。
—Nie et al. (2019) ,引自 Shakespeare《哈姆雷特》(There is something rotten in the state of Denmak,丹麥國里,定有些烏七八糟的事)
1、、發(fā)生了什么?
針對最近新開發(fā)出來的 NLP 數(shù)據(jù)集如 HellaSWAG (Zellers et al., 2019) ,當(dāng)前最先進的模型也難以應(yīng)對。
研究者需要人工過濾樣本,僅明了地保留那些當(dāng)前最先進模型處理失敗的樣本(請參閱下面的示例)。可以重復(fù)多次“人在回環(huán)”的對抗管理過程,來創(chuàng)建對當(dāng)前方法更具挑戰(zhàn)性的數(shù)據(jù)集,例如在最近提出的的 Adversarial NLI(Nie等人,2019)基準(zhǔn)測試中,就可以實現(xiàn)這一點。
來自HellaSWAG數(shù)據(jù)集的多項選擇句補全示例即使對于最新的模型也很難回答。大多數(shù)困難的例子都位于一個復(fù)雜的“戈爾德洛克區(qū)”,大致由三個上下文句子和兩個生成的句子組成(Zellers等人,2019)。
2、為什么重要?
許多研究人員已經(jīng)觀察到,當(dāng)前的NLP模型并沒有學(xué)到預(yù)期學(xué)到的內(nèi)容,而是采用淺層啟發(fā)并結(jié)合數(shù)據(jù)中的表層線索的方法(又稱為“聰明漢斯時刻”)。隨著數(shù)據(jù)集變得更加魯棒難學(xué),我們希望(能迫使)模型最終去學(xué)習(xí)數(shù)據(jù)中真正的潛在關(guān)系。
3、下一步是什么?
隨著模型變得更好,大多數(shù)數(shù)據(jù)集將需要不斷改進,否則就會很快過時。專用的基礎(chǔ)設(shè)施和工具對于促進此過程很有必要。
此外,應(yīng)在數(shù)據(jù)集上先運行合適的基準(zhǔn)方法,例如,包括使用不同數(shù)據(jù)變體(例如輸入不完整)的簡單方法和模型,以使數(shù)據(jù)集的初始版本盡可能魯棒。
1、發(fā)生了什么?
機器學(xué)習(xí)已在基礎(chǔ)科學(xué)問題上取得了一些重大進展。例如,有研究(Pfau等人,2019)將深層神經(jīng)網(wǎng)絡(luò)應(yīng)用于蛋白質(zhì)折疊和多電子Schr?dinger方程。
在自然語言處理方面,即便是一些標(biāo)準(zhǔn)方法,在結(jié)合領(lǐng)域?qū)I(yè)知識后所產(chǎn)生的影響也能令人興奮。其中有一項研究使用詞嵌入技術(shù)來分析材料科學(xué)文獻中的潛在知識(Tshitoyan等人,2019),以將其用于預(yù)測材料是否具有某些特性(請參見下圖)。
使用在不同時間段的摘要上訓(xùn)練得到的詞嵌入預(yù)測將在未來的摘要中研究哪些材料作為鐵電材料(a),光伏材料(b)和拓撲絕緣體(c ),與所有候選材料相比,更有可能對前50個預(yù)測材料進行研究(Tshitoyan等人,2019)。
在生物學(xué)中,許多數(shù)據(jù)(例如基因和蛋白質(zhì))本質(zhì)上是序列數(shù)據(jù)。因此,自然可將LSTM和Transformers等NLP方法用于蛋白質(zhì)分類(Strodthoff等人,2019; Rives等人,2019)。
2、為什么重要?
科學(xué)可以說是ML最有影響力的應(yīng)用領(lǐng)域之一。解決方案可對許多其他領(lǐng)域產(chǎn)生重大影響,并且有助于解決實際問題。
3、下一步是什么?
從對物理問題中的能量建模(Greydanus等人,2019)到求解微分方程(Lample&Charton,2020),ML方法一直在科學(xué)的新應(yīng)用中不斷擴大??纯?020年在哪種問題上的應(yīng)用將會產(chǎn)生最大的影響也是挺有趣的。
1、發(fā)生了什么?
盡管功能越來越強大,但自然語言生成(NLG)模型仍然經(jīng)常產(chǎn)生重復(fù)或胡言亂語,如下圖所示。
GPT-2使用光束搜索和純(貪婪)采樣產(chǎn)生的重復(fù)(藍色)和胡言亂語(紅色)(Holtzman等人,2019)。
事實表明,這主要是最大似然訓(xùn)練的結(jié)果。我很高興看到已經(jīng)有一些旨在改善這一點的研究工作,與此同時,在建模方面也取得了一些進展。這種改進或者通過采用新采樣的方法獲得,例如核采樣(Holtzman等人,2019),或者通過使用新的損失函數(shù)獲得(Welleck等人,2019)。
另一個令人驚訝的發(fā)現(xiàn)是,更好的搜索不會帶來更好的生成:當(dāng)前模型在某種程度上依賴于不完善搜索和波束搜索錯誤。在機器翻譯的情況下,精確搜索通常會返回空翻譯(Stahlberg&Byrne,2019)。這表明搜索和建模方面的進步必須齊頭并進。
2、為什么重要?
自然語言生成是NLP中最普遍的任務(wù)之一。在 NLP 和 ML 研究中,大多數(shù)論文都集中在改進模型上,而流程中的其他部分通常被忽略。
對于NLG,需要注意的是,我們的模型仍然存在缺陷,并且可以通過修復(fù)搜索或訓(xùn)練過程來改善輸出。
3、下一步是什么?
盡管有更強大的模型以及遷移學(xué)習(xí)在NLG的成功應(yīng)用(Song等人,2019; Wolf等人,2019),模型預(yù)測仍然存在許多瑕疵,識別和理解此類瑕疵的成因,將是未來重要的研究方向。
1、發(fā)生了什么?
在過去一年,我很高興看到研究者為預(yù)訓(xùn)練模型提出了增加新功能的方法。一些方法用知識庫增強了預(yù)訓(xùn)練模型,以改善實體名稱建模(Liu等人,2019)和事實回憶(Logan 等人,2019)。其它研究則使預(yù)訓(xùn)練模型能夠通過訪問許多預(yù)定義的可執(zhí)行的程序,來執(zhí)行簡單的算術(shù)推理(Andor 等人,2019)。
由于大多數(shù)模型具有較弱的歸納偏差并可以從數(shù)據(jù)中學(xué)習(xí)大多數(shù)知識,因此增強預(yù)訓(xùn)練模型的另一種方法是增強訓(xùn)練數(shù)據(jù)本身,例如捕捉常識(Bosselut等人,2019),如下圖所示。
具有多頭注意的標(biāo)準(zhǔn)Transformer。經(jīng)過訓(xùn)練的模型可以根據(jù)給定的主題和關(guān)系來預(yù)測知識庫三元組的對象(Bosselut等人,2019)。
2、為什么重要?
模型正變得越來越強大,但是模型無法從文本中學(xué)到很多東西。特別是在處理更復(fù)雜的任務(wù)時,可用數(shù)據(jù)可能十分有限,以至于無法使用事實或常識來學(xué)得顯式的推理,并且可能經(jīng)常需要更強的歸納偏差。
3、下一步是什么?
隨著將模型應(yīng)用于更具挑戰(zhàn)性的問題,對組合進行修改將變得越來越有必要。將來,我們可能會結(jié)合功能強大的預(yù)訓(xùn)練模型和可學(xué)習(xí)的組合程序(Pierrot等人,2019)。
1、發(fā)生了什么?
過去一年中,Transformer 架構(gòu)實現(xiàn)了一些改進(Vaswani等人,2017)。例如Transformer-XL(Dai等人,2019)和Compressive Transformer(Rae等人,2020)使該架構(gòu)能夠更好地捕獲長程依賴關(guān)系。
壓縮的Transformer將(細粒度內(nèi)存的)過去的激活壓縮為一個更粗糙的壓縮內(nèi)存(Rae等人,2020)。
與此同時,許多方法試圖通過使用不同的(通常是稀疏的)注意力機制來提高 Transformer 的效率,例如利用自適應(yīng)稀疏注意力(Correia等人,2019),自適應(yīng)注意力跨度(Sukhbaatar等人,2019),乘積鍵注意力( Lample等人,2019),以及局部敏感哈希(Kitaev等人,2020)等方法,來提高 Transformer 效率。
在基于Transformer 的預(yù)訓(xùn)練方面,出現(xiàn)了更有效的變體,例如使用參數(shù)共享的ALBERT(Lan等人,2020)和使用了更有效的預(yù)訓(xùn)練任務(wù)的ELECTRA(Clark等人,2020)。不過,也有一些預(yù)訓(xùn)練模型雖然不使用Transformer,但是更加有效,例如一元文件模型 VAMPIRE(Gururangan等人,2019)和基于QRNN的MultiFiT(Eisenschlos等人,2019)。
該領(lǐng)域的另一個趨勢是,將大型 BERT 模型提煉成較小的模型(Tang等人,2019; Tsai等人,2019; Sanh等人,2019)。
2、為什么重要?
Transformer 架構(gòu)自提出以來,一直極具影響力。它是NLP中大多數(shù)最新模型的組成部分,并且已成功應(yīng)用于許多其他領(lǐng)域(請參見第1和第6節(jié))。因此,對 Transformer 體系結(jié)構(gòu)的任何改進都有可能產(chǎn)生強烈的“波紋效應(yīng)”。
3、下一步是什么?
從業(yè)者從 Transformer 取得的以上改進中獲益可能還需要一段時間,但是鑒于預(yù)訓(xùn)練模型的普遍性和易用性,這段時間也不會太長。
總體而言,強調(diào)效率的模型架構(gòu)有希望繼續(xù)成為關(guān)注的焦點,稀疏性則是關(guān)鍵趨勢之一。
1、發(fā)生了什么?
過去的一年中,ML 和 NLP 研究的主要趨勢之一是,分析模型的論文數(shù)量在增加。
實際上,過去的一年中我最喜歡的幾篇論文,就是這類分析模型的論文。2019 年早些時候,Belinkov 和 Glass 曾針對分析方法做了一份非常出色的調(diào)查報告。
在我的印象中,過去一年首次出現(xiàn)很多致力于分析單個模型 BERT 的論文的現(xiàn)象(此類論文被稱為 BERTology)。在這種情況下,旨在了解模型是否通過預(yù)測某些屬性來捕獲形態(tài)、語法等的探針,已成為一種常用工具(參見下圖)。
用于研究表示中語言知識的探針的設(shè)置(Liu等人,2019)。
我特別贊賞使探針更可靠的論文(Liu 等人,2019 ; Hewitt&Liang,2019)。而可靠性也正是對話領(lǐng)域發(fā)展道路上關(guān)于注意力是否能提供有意義解釋的研究主題(Jain&Wallace,2019; Wiegreffe&Pinter,2019; Wallace,2019)。
最近ACL 2020 上關(guān)于 NLP 模型的可解釋性和模型分析的Track 論文,就是人們對分析方法的持續(xù)興趣的最好例證。
2、為什么重要?
實際上,當(dāng)前最先進的分析方法使用起來往往是一個黑匣子。為了開發(fā)更好的模型并在現(xiàn)實世界中應(yīng)用它們,我們需要了解為什么模型會做出某些決定。然而,我們目前用于解釋模型預(yù)測的方法仍然十分有限。
3、下一步是什么?
我們需要做出更多的工作來解釋可視化范圍之外的預(yù)測,因為這些預(yù)測通常是不可靠的。這個方向上的一個重要趨勢是,更多數(shù)據(jù)集正在提供人為解釋(Camburu等人,2018; Rajani等人,2019; Nie等人,2019)。 雷鋒網(wǎng)雷鋒網(wǎng)雷鋒網(wǎng)
所有文中提到的相關(guān)論文和工作,可以前往原文地址 https://ruder.io/research-highlights-2019/ 獲取。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。