0
雷鋒網(wǎng) AI 科技評論按:上周,深度學習頂級學術(shù)會議 ICLR 2019 在新奧爾良落下帷幕。畢業(yè)于斯坦福大學、現(xiàn)就職于英偉達的女性計算機科學家 Chip Huyen 參加了這次會議,談到對這次峰會的感想,她有以下 8 點想要講:
這次 ICLR 2019 著重強調(diào)了包容性在 AI 中的重要作用:前兩個主要演講——Sasha Rush 的開場致辭和 Cynthia Dwork 的受邀演講——都是有關(guān)公平和平等的。其中一些數(shù)據(jù)引起了人們的擔憂:
演講者和參會者中,女性的占比率分別只有 8.6% 和 15%;
2/3 的 LGBTQ+研究者沒有以專業(yè)身份出席;
這次邀請的大會演講嘉賓一共 8 位,但均為白人。
不幸的是,這種情況似乎并沒有引起 AI 研究者的注意和反思。其他的 workshop 都門庭若市,但 AI for Social Good workshop 卻無人問津,這種情況一直到 Yoshua Bengio 的出現(xiàn)才有所改善。在我參與的眾多 ICLR 交流活動中,沒有人提到過多樣性——直到有一次我大聲質(zhì)問會方為什么要邀請我來這個并不適合我的科技活動時,一位朋友才告訴我:「說出來可能有點冒犯,請你來是因為你是女性?!?/span>
這種現(xiàn)象存在的某種原因是——這類話題是非「技術(shù)性」的,這意味著,就算你在此花費再多是時間也不會對你的研究生涯有所助益。另一方面是由于社會風氣依然存在一些問題。一位朋友曾告訴我,不要理睬那個在群聊挑釁我的人,因為「他喜歡取笑那些探討平等和多樣性的人」。我有些朋友不會在網(wǎng)上談論任何有關(guān)多樣性的話題,因為他們不想「和那種話題扯上關(guān)系」。
無監(jiān)督表征學習的主要目標,是從無標注數(shù)據(jù)中發(fā)現(xiàn)有用的數(shù)據(jù)表征以完成后續(xù)任務。在 NLP 中,無監(jiān)督表征學習通常是利用語言建模完成的。然后將學到的表征運用到情感分析、命名實體識別、機器翻譯等任務中。
去年有幾篇成果不錯的論文,內(nèi)容是關(guān)于 NLP 無監(jiān)督表征學習的,其中包括 ELMo (Peters et al.)、ULMFiT (Howard et al.)、OpenAI 的 GPT (Radford et al.)、BERT (Devlin et al.),當然,還有「危險性太大而不能公布的完整的 GPT-2」。
在完整的 GPT-2 模型在 ICLR 上進行展示之后,效果令人十分滿意。你可以輸入任意開頭語句,它將會幫你完成后續(xù)的文本創(chuàng)作——比如寫出 Buzzfeed 文章、同人文、科學論文甚至是一些生造詞匯的含義。但它現(xiàn)在的水平依然還沒法完全與人類持平。團隊現(xiàn)在正在研究 GPT-3,規(guī)模更大、可能效果也更好。我已經(jīng)迫不及待想看到它的成果了。
雖然計算機視覺是較早的成功應用遷移學習的社區(qū),但其基本任務——在 ImageNet 上訓練分類模型——仍然是監(jiān)督式的。自然語言處理社區(qū)和計算機視覺社區(qū)都在問同一個問題:「怎樣才能將無監(jiān)督表征學習應用到圖像上?」
盡管那些最有名的實驗室已經(jīng)開始研究,但只有一篇論文出現(xiàn)在 ICLR 大會上:「Meta-Learning Update Rules for Unsupervised Representation Learning」(Metz et al.)。他們的算法沒有更新權(quán)重,而是更新了學習規(guī)則。接下來在少量標注樣本上微調(diào)從習得學習規(guī)則中學到的表征,來解決圖像分類問題。他們能夠在 MNIST 和 Fashion MNIST 上找到準確率大于 70% 的學習規(guī)則。
作者解釋了其中的一部分代碼,但是并不打算公開它們,因為「它與計算有關(guān)」。外層循環(huán)需要大約 10 萬訓練步,在 256 個 GPU 上需要 200 個小時的訓練時間。
我有種預感,在不久的將來,我們會看到更多這樣的論文。可以使用無監(jiān)督學習的任務包括:自動編碼、預測圖像旋轉(zhuǎn)(Gidaris 等人的論文《Unsupervised Representation Learning by Predicting Image Rotations》在 ICLR 2018 上很火)、預測視頻中的下一幀。
機器學習領(lǐng)域的理念和時尚類似,都是在轉(zhuǎn)圈子。在 poster session 四處走走感覺像走在記憶的回廊上。即使更受期待的 ICLR 辯論也終結(jié)在「先驗 vs 結(jié)構(gòu)」的話題上,而這是去年 Yann LeCun 和 Christopher Manning 討論過的話題,這種討論類似貝葉斯學派和頻率學派之間的經(jīng)年辯論。
MIT 媒體實驗室的「Grounded Language Learning and Understanding」項目在 2001 年就中斷了,但是 grounded language learning 今年帶著兩篇論文重回舞臺,不過它穿上了強化學習的外衣:
DOM-Q-NET: Grounded RL on Structured Language (Jia et al.):給出一個用自然語言表達的目標,該強化學習算法通過填充字段和點擊鏈接學習導航網(wǎng)頁。
BabyAI: A Platform to Study the Sample Efficiency of Grounded Language Learning (Chevalier-Boisvert et al.):一個和 OpenAI Gym 兼容的平臺,具備一個手工制作的 bot 智能體,該智能體可以模擬人類教師指導智能體學習合成語言。
我對這兩篇論文的想法和 AnonReviewer4 一樣:
「……這里提出的方法和語義解析文獻中研究的方法非常類似,盡管這篇論文僅引用了最近的深度強化學習論文。我認為作者會從語義解析文章中受益良多,語義解析社區(qū)也可以從這篇論文中得到一些啟發(fā)……但是這兩個社區(qū)實際上交流并不多,即使在某些情況下我們研究的是類似的問題?!?/span>
確定性有限狀態(tài)自動機(DFA)也有兩篇論文登上了 ICLR 2019 的舞臺:
Representing Formal Languages: A Comparison Between Finite Automata and Recurrent Neural Networks (Michalenko et al.)
Learning Finite State Representations of Recurrent Policy Networks (Koul et al.)
兩篇論文的主要動機是,因為 RNN 中的隱藏態(tài)空間很大,那么狀態(tài)數(shù)量是否可以減少到有限的數(shù)量呢?我懷疑 DFA 是否能準確地在語言中代表 RNN,但我很喜歡在訓練階段學習 RNN,然后把它轉(zhuǎn)換到 DFA 進行推理的想法,如同 Koul 等人的論文所示。結(jié)果得到的有限表征在游戲 Pong 中只需要 3 個離散記憶狀態(tài)和 10 個觀察狀態(tài),它也能幫助解釋 RNN。
從RNN學習一個DFA的三個階段(koul等人)
提取自動機(Koul 等人)
2018 到 2019 年的提交論文主題變化反映出:RNN 出現(xiàn)大幅下降。這也在意料之中,因為 RNN 雖然適用于序列數(shù)據(jù),但也存在極大缺陷:它們無法并行化計算,因而無法利用 2012 年以來較大的研究驅(qū)動因素——算力。RNN 在計算機視覺和強化學習領(lǐng)域并不流行,而在一度流行的自然語言處理領(lǐng)域,它們也正在被基于注意力的架構(gòu)取代。
這是否意味著 RNN 將被拋棄?并不盡然。ICLR 2019 上最好的兩篇論文之一《Ordered neurons: Integrating tree structures into Recurrent Neural Networks》就和 RNN 有關(guān)。除了這篇佳作和上文提到的兩篇關(guān)于自動機的論文以外,ICLR 2019 還接收了 9 篇關(guān)于 RNN 的論文,其中大部分研究深入挖掘 RNN 的數(shù)學基礎(chǔ)知識,而不是探索 RNN 的新應用。
在工業(yè)界,RNN 仍然很活躍,尤其是處理時序數(shù)據(jù)的公司,比如貿(mào)易公司。但遺憾的是,這些公司通常不會發(fā)表自己的研究。即使現(xiàn)在 RNN 對研究者不是那么有吸引力,我們也知道未來它可能「卷土重來」。
相比去年,GAN 的相關(guān)變化比較負面,但相關(guān)論文的數(shù)量實際上有所增長,從大約 70 篇增長到了 100 篇左右。Ian Goodfellow 受邀發(fā)表了以 GAN 為主題的演講,一如既往受到了眾多關(guān)注。
ICLR 2019 第一個 poster session 是關(guān)于 GAN 的。出現(xiàn)了很多新的 GAN 架構(gòu)、對已有 GAN 架構(gòu)的改進,以及 GAN 分析。GAN 應用囊括圖像生成、文本生成、音頻合成等多個領(lǐng)域,有 PATE-GAN、GANSynth、ProbGAN、InstaGAN、RelGAN、MisGAN、SPIGAN、LayoutGAN、KnockoffGAN 等不同架構(gòu)。講真我并不知道這些意味著什么,因為我在 GAN 領(lǐng)域堪稱文盲。另外,對于 Andrew Brock 沒有把他的大型 GAN 模型稱為 giGANtic,我也感覺挺失望的。
GAN poster session 揭示了社區(qū)對 GAN 的反應是多么地兩極分化。一些非 GAN 研究者如此評論:「我等不及想讓 GAN 這波風潮趕緊過去」、「一有人提到對抗,我的腦子就宕機?!乖谖铱磥?,他們可能是嫉妒吧。
鑒于大家對基因測序和 CRISPR 嬰兒的憂慮和討論,ICLR 竟然沒有出現(xiàn)很多結(jié)合深度學習和生物學的論文,這令人驚訝。關(guān)于這個話題一共有 6 篇論文:
其中有兩篇論文關(guān)于受到生物學啟發(fā)的架構(gòu):
Biologically-Plausible Learning Algorithms Can Scale to Large Datasets (Xiao et al.)
A Unified Theory of Early Visual Representations from Retina to Cortex through Anatomically Constrained Deep CNNs (Lindsey et al.)
一篇關(guān)于 RNA 設(shè)計:
Learning to Design RNA (Runge et al.)
三篇關(guān)于對蛋白質(zhì)的操作(protein manipulation):
Human-level Protein Localization with Convolutional Neural Networks (Rumetshofer et al.)
Learning Protein Structure with a Differentiable Simulator (Ingraham et al.)
Learning protein sequence embeddings using information from structure (Bepler et al.)
受視網(wǎng)膜啟發(fā)的卷積神經(jīng)網(wǎng)絡(luò) (Lindsey 等人)
但是卻沒有一篇論文是關(guān)于基因組的,也沒有一個 workshop 是關(guān)于這個話題的。這還真是令人沮喪……不過,這對于對生物學感興趣的深度學習研究者或?qū)ι疃葘W習感興趣的生物學家而言,是一個巨大的契機。
我們來隨便列舉一個事實:視網(wǎng)膜論文的第一作者 Jack Lindsey 仍然是斯坦福大學的在校大學生。孩子們還沒開始接受社會的壓榨呢。
ICLR 2019 大會上的研究論文表明強化學習社區(qū)正在從無模型方法轉(zhuǎn)向樣本高效的基于模型的算法和元學習算法。這種轉(zhuǎn)變很可能受到 TD3 (Fujimoto et al., 2018) 和 SAC (Haarnoja et al., 2018) 設(shè)置的 Mujoco 連續(xù)控制基準上的極高分數(shù),以及 R2D2 (Kapturowski et al., ICLR 2019) 得到的 Atari 離散控制任務上的極高分數(shù)的啟發(fā)。
基于模型的算法(即從數(shù)據(jù)中學習環(huán)境模型,然后利用該模型規(guī)劃或生成更多數(shù)據(jù))在使用 1/10-1/100 的經(jīng)驗進行訓練時,仍能達到和無模型算法一樣的漸近性能。這種優(yōu)勢表明基于模型的算法適合現(xiàn)實世界任務。當學得的模擬器可能有缺陷時,其誤差可以通過更復雜的動態(tài)模型得到緩解,比如模擬器的集成 (Rajeswaran et al.)。將強化學習應用到現(xiàn)實世界問題的另一種方式是,使模擬器支持任意復雜的隨機化:在多樣化的模擬環(huán)境中訓練的策略可能認為現(xiàn)實世界是「另一次隨機化」,并取得成功 (OpenAI)。
可在多個任務上執(zhí)行快速遷移學習的元學習算法使得樣本效率和性能得到大幅改善 (ProMP (Rothfuss et al.)、PEARL (Rakelly et al.))。這些改善使我們更加接近「強化學習的 ImageNet 時刻」,即我們可以使用從其他任務上學習的控制策略,而不用從頭開始訓練策略(當然了,太復雜的任務目前還無法實現(xiàn))。
在六個基準任務上,PEARL (Rakelly 等人) 的漸近性能和元訓練樣本效率都優(yōu)于之前的元強化學習方法
ICLR 2019 接收論文中的很大一部分,以及 Structure and Priors in RL (SPiRL) workshop 中的所有論文,是關(guān)于如何將環(huán)境知識集成到學習算法的。盡管早期深度強化學習算法的主要優(yōu)勢之一是一般性(如 DQN 對所有 Atari 游戲使用同樣的架構(gòu),而無需了解其中哪一個特定游戲),但是新算法展示出引入先驗知識有助于解決更復雜的任務。例如,在 Transporter Network (Jakab 等人) 中,智能體使用先驗知識執(zhí)行具備更多信息的結(jié)構(gòu)探索。
總的來說,在過去 5 年里,強化學習社區(qū)開發(fā)了大量有效的工具來解決無模型強化學習難題。現(xiàn)在,是時候提出更采樣高效、可遷移的算法在現(xiàn)實世界問題上利用強化學習了。
此外,Sergey Levine 可能是今年論文最多的作者,有 15 篇之多。
在會上,我問一位知名研究者他如何看待今年的接收論文。他輕笑道:「大部分接收論文會議一結(jié)束就會被遺忘?!瓜駲C器學習這樣快速發(fā)展的領(lǐng)域,目前最先進的結(jié)果幾周甚至幾天后就可能被打破,大部分接收論文還沒正式展示就已經(jīng)被超越也就不令人驚訝了。例如,ICLR 2018 論文中 8 篇對抗樣本論文中的 7 篇在大會開始前已經(jīng)被打破。
我經(jīng)常會在大會上聽到這樣一個評論:論文接收/拒收很隨機。我不點名,但一些很有名或者引用率很高的論文就曾被大會拒收過。相對的,許多論文雖然被接受了卻無人引用。
作為這個領(lǐng)域的一份子,我經(jīng)常面臨各種威脅。無論我想到什么點子,似乎總有其他人已經(jīng)在做了,且做得更好、更快。可是,假使一篇論文對任何人都沒有幫助,那又有什么發(fā)表的意義呢?誰能說出個所以然??!
因為篇幅有限,還有很多趨勢我沒能詳盡的寫出來,比如:
優(yōu)化和正則化:Adam 和 SGD 的爭論仍在繼續(xù)。今年 ICLR 大會提出了許多新技術(shù),其中一些相當令人激動??雌饋?,每個實驗室都在開發(fā)自己的優(yōu)化器,我們團隊同樣如此。
評估度量:隨著生成模型越來越流行,我們不可避免地需要提出新的度量標準,以評估生成的輸出。
如果你想要了解更多,可以去看看David Abel 發(fā)布的一個 55 頁的 ICLR 2019 筆記。對于想了解 ICLR 2019 熱點的人,下面這張圖也許能夠幫助到你:
我真的很享受 ICLR 這個大會——它夠大,你能在此找到很多志同道合的朋友;也夠小,可以盡情享受不用排隊的樂趣,4 天的會議安排也正好。相比之下,NeurIPS 的會議就有點長了,參會 4 天后我就會邊看 論文海報邊想:「看看所有這些知識,我應該現(xiàn)在就掌握,但又懶得行動。」
我在 ICLR 大會上收獲最大的不僅僅是思路,更是科研的動力。許多和我年紀相仿的科研者作出的卓越成就讓我看到了科研之美,激勵我更努力地去做研究。再說了,哪怕只是用這一周的時間來看看論文、見見老友也是個超棒的選擇~
via huyenchip.com/2019/05/12/top-8-trends-from-iclr-2019.html,雷鋒網(wǎng) AI 科技評論編譯
更多頂會報道請繼續(xù)關(guān)注雷鋒網(wǎng) AI 科技評論
相關(guān)文章:
一個續(xù)寫故事達到人類水平的AI,OpenAI大規(guī)模無監(jiān)督語言模型GPT-2
AI領(lǐng)域的蝙蝠俠大戰(zhàn)超人:LeCun與Manning如何看待神經(jīng)網(wǎng)絡(luò)中的結(jié)構(gòu)設(shè)計
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。