RNN失寵、強化學習風頭正勁，ICLR 2019的八點參會總結(jié)

本文作者：劉肉醬

編輯：楊曉凡

2019-05-23 15:43

專題：ICLR 2019

導語：一份全面又有趣的回顧

RNN失寵、強化學習風頭正勁，ICLR 2019的八點參會總結(jié)

雷鋒網(wǎng) AI 科技評論按：上周，深度學習頂級學術(shù)會議 ICLR 2019 在新奧爾良落下帷幕。畢業(yè)于斯坦福大學、現(xiàn)就職于英偉達的女性計算機科學家 Chip Huyen 參加了這次會議，談到對這次峰會的感想，她有以下 8 點想要講：

1. 包容性

這次 ICLR 2019 著重強調(diào)了包容性在 AI 中的重要作用：前兩個主要演講——Sasha Rush 的開場致辭和 Cynthia Dwork 的受邀演講——都是有關(guān)公平和平等的。其中一些數(shù)據(jù)引起了人們的擔憂：

演講者和參會者中，女性的占比率分別只有 8.6% 和 15%；

2/3 的 LGBTQ+研究者沒有以專業(yè)身份出席；

這次邀請的大會演講嘉賓一共 8 位，但均為白人。

RNN失寵、強化學習風頭正勁，ICLR 2019的八點參會總結(jié)

Sasha Rush 開場致辭的一頁 PPT

不幸的是，這種情況似乎并沒有引起 AI 研究者的注意和反思。其他的 workshop 都門庭若市，但 AI for Social Good workshop 卻無人問津，這種情況一直到 Yoshua Bengio 的出現(xiàn)才有所改善。在我參與的眾多 ICLR 交流活動中，沒有人提到過多樣性——直到有一次我大聲質(zhì)問會方為什么要邀請我來這個并不適合我的科技活動時，一位朋友才告訴我：「說出來可能有點冒犯，請你來是因為你是女性?！?/span>

這種現(xiàn)象存在的某種原因是——這類話題是非「技術(shù)性」的，這意味著，就算你在此花費再多是時間也不會對你的研究生涯有所助益。另一方面是由于社會風氣依然存在一些問題。一位朋友曾告訴我，不要理睬那個在群聊挑釁我的人，因為「他喜歡取笑那些探討平等和多樣性的人」。我有些朋友不會在網(wǎng)上談論任何有關(guān)多樣性的話題，因為他們不想「和那種話題扯上關(guān)系」。

2. 無監(jiān)督表征學習 & 遷移學習

無監(jiān)督表征學習的主要目標，是從無標注數(shù)據(jù)中發(fā)現(xiàn)有用的數(shù)據(jù)表征以完成后續(xù)任務。在 NLP 中，無監(jiān)督表征學習通常是利用語言建模完成的。然后將學到的表征運用到情感分析、命名實體識別、機器翻譯等任務中。

去年有幾篇成果不錯的論文，內(nèi)容是關(guān)于 NLP 無監(jiān)督表征學習的，其中包括 ELMo (Peters et al.)、ULMFiT (Howard et al.)、OpenAI 的 GPT (Radford et al.)、BERT (Devlin et al.)，當然，還有「危險性太大而不能公布的完整的 GPT-2」。

在完整的 GPT-2 模型在 ICLR 上進行展示之后，效果令人十分滿意。你可以輸入任意開頭語句，它將會幫你完成后續(xù)的文本創(chuàng)作——比如寫出 Buzzfeed 文章、同人文、科學論文甚至是一些生造詞匯的含義。但它現(xiàn)在的水平依然還沒法完全與人類持平。團隊現(xiàn)在正在研究 GPT-3，規(guī)模更大、可能效果也更好。我已經(jīng)迫不及待想看到它的成果了。

雖然計算機視覺是較早的成功應用遷移學習的社區(qū)，但其基本任務——在 ImageNet 上訓練分類模型——仍然是監(jiān)督式的。自然語言處理社區(qū)和計算機視覺社區(qū)都在問同一個問題：「怎樣才能將無監(jiān)督表征學習應用到圖像上？」

盡管那些最有名的實驗室已經(jīng)開始研究，但只有一篇論文出現(xiàn)在 ICLR 大會上：「Meta-Learning Update Rules for Unsupervised Representation Learning」(Metz et al.)。他們的算法沒有更新權(quán)重，而是更新了學習規(guī)則。接下來在少量標注樣本上微調(diào)從習得學習規(guī)則中學到的表征，來解決圖像分類問題。他們能夠在 MNIST 和 Fashion MNIST 上找到準確率大于 70% 的學習規(guī)則。

作者解釋了其中的一部分代碼，但是并不打算公開它們，因為「它與計算有關(guān)」。外層循環(huán)需要大約 10 萬訓練步，在 256 個 GPU 上需要 200 個小時的訓練時間。

RNN失寵、強化學習風頭正勁，ICLR 2019的八點參會總結(jié)

元學習的內(nèi)、外循環(huán)（Metz et al.）

我有種預感，在不久的將來，我們會看到更多這樣的論文。可以使用無監(jiān)督學習的任務包括：自動編碼、預測圖像旋轉(zhuǎn)（Gidaris 等人的論文《Unsupervised Representation Learning by Predicting Image Rotations》在 ICLR 2018 上很火）、預測視頻中的下一幀。

3. 回溯 ML

機器學習領(lǐng)域的理念和時尚類似，都是在轉(zhuǎn)圈子。在 poster session 四處走走感覺像走在記憶的回廊上。即使更受期待的 ICLR 辯論也終結(jié)在「先驗 vs 結(jié)構(gòu)」的話題上，而這是去年 Yann LeCun 和 Christopher Manning 討論過的話題，這種討論類似貝葉斯學派和頻率學派之間的經(jīng)年辯論。

MIT 媒體實驗室的「Grounded Language Learning and Understanding」項目在 2001 年就中斷了，但是 grounded language learning 今年帶著兩篇論文重回舞臺，不過它穿上了強化學習的外衣：

DOM-Q-NET: Grounded RL on Structured Language (Jia et al.)：給出一個用自然語言表達的目標，該強化學習算法通過填充字段和點擊鏈接學習導航網(wǎng)頁。

BabyAI: A Platform to Study the Sample Efficiency of Grounded Language Learning (Chevalier-Boisvert et al.)：一個和 OpenAI Gym 兼容的平臺，具備一個手工制作的 bot 智能體，該智能體可以模擬人類教師指導智能體學習合成語言。

我對這兩篇論文的想法和 AnonReviewer4 一樣：

「……這里提出的方法和語義解析文獻中研究的方法非常類似，盡管這篇論文僅引用了最近的深度強化學習論文。我認為作者會從語義解析文章中受益良多，語義解析社區(qū)也可以從這篇論文中得到一些啟發(fā)……但是這兩個社區(qū)實際上交流并不多，即使在某些情況下我們研究的是類似的問題?！?/span>

確定性有限狀態(tài)自動機（DFA）也有兩篇論文登上了 ICLR 2019 的舞臺：

Representing Formal Languages: A Comparison Between Finite Automata and Recurrent Neural Networks (Michalenko et al.)

Learning Finite State Representations of Recurrent Policy Networks (Koul et al.)

兩篇論文的主要動機是，因為 RNN 中的隱藏態(tài)空間很大，那么狀態(tài)數(shù)量是否可以減少到有限的數(shù)量呢？我懷疑 DFA 是否能準確地在語言中代表 RNN，但我很喜歡在訓練階段學習 RNN，然后把它轉(zhuǎn)換到 DFA 進行推理的想法，如同 Koul 等人的論文所示。結(jié)果得到的有限表征在游戲 Pong 中只需要 3 個離散記憶狀態(tài)和 10 個觀察狀態(tài)，它也能幫助解釋 RNN。

RNN失寵、強化學習風頭正勁，ICLR 2019的八點參會總結(jié)

從RNN學習一個DFA的三個階段（koul等人）

RNN失寵、強化學習風頭正勁，ICLR 2019的八點參會總結(jié)

提取自動機（Koul 等人）

4. RNN 失寵

2018 到 2019 年的提交論文主題變化反映出：RNN 出現(xiàn)大幅下降。這也在意料之中，因為 RNN 雖然適用于序列數(shù)據(jù)，但也存在極大缺陷：它們無法并行化計算，因而無法利用 2012 年以來較大的研究驅(qū)動因素——算力。RNN 在計算機視覺和強化學習領(lǐng)域并不流行，而在一度流行的自然語言處理領(lǐng)域，它們也正在被基于注意力的架構(gòu)取代。

RNN失寵、強化學習風頭正勁，ICLR 2019的八點參會總結(jié)

RNN 失寵（圖源： ICLR 2019 補充統(tǒng)計數(shù)據(jù)）

這是否意味著 RNN 將被拋棄？并不盡然。ICLR 2019 上最好的兩篇論文之一《Ordered neurons: Integrating tree structures into Recurrent Neural Networks》就和 RNN 有關(guān)。除了這篇佳作和上文提到的兩篇關(guān)于自動機的論文以外，ICLR 2019 還接收了 9 篇關(guān)于 RNN 的論文，其中大部分研究深入挖掘 RNN 的數(shù)學基礎(chǔ)知識，而不是探索 RNN 的新應用。

在工業(yè)界，RNN 仍然很活躍，尤其是處理時序數(shù)據(jù)的公司，比如貿(mào)易公司。但遺憾的是，這些公司通常不會發(fā)表自己的研究。即使現(xiàn)在 RNN 對研究者不是那么有吸引力，我們也知道未來它可能「卷土重來」。

5. GAN 仍然勢頭強勁

相比去年，GAN 的相關(guān)變化比較負面，但相關(guān)論文的數(shù)量實際上有所增長，從大約 70 篇增長到了 100 篇左右。Ian Goodfellow 受邀發(fā)表了以 GAN 為主題的演講，一如既往受到了眾多關(guān)注。

ICLR 2019 第一個 poster session 是關(guān)于 GAN 的。出現(xiàn)了很多新的 GAN 架構(gòu)、對已有 GAN 架構(gòu)的改進，以及 GAN 分析。GAN 應用囊括圖像生成、文本生成、音頻合成等多個領(lǐng)域，有 PATE-GAN、GANSynth、ProbGAN、InstaGAN、RelGAN、MisGAN、SPIGAN、LayoutGAN、KnockoffGAN 等不同架構(gòu)。講真我并不知道這些意味著什么，因為我在 GAN 領(lǐng)域堪稱文盲。另外，對于 Andrew Brock 沒有把他的大型 GAN 模型稱為 giGANtic，我也感覺挺失望的。

RNN失寵、強化學習風頭正勁，ICLR 2019的八點參會總結(jié)

狗球萬歲（Brock 等人）

GAN poster session 揭示了社區(qū)對 GAN 的反應是多么地兩極分化。一些非 GAN 研究者如此評論：「我等不及想讓 GAN 這波風潮趕緊過去」、「一有人提到對抗，我的腦子就宕機?！乖谖铱磥?，他們可能是嫉妒吧。

6. 缺乏受到生物學啟發(fā)的深度學習

鑒于大家對基因測序和 CRISPR 嬰兒的憂慮和討論，ICLR 竟然沒有出現(xiàn)很多結(jié)合深度學習和生物學的論文，這令人驚訝。關(guān)于這個話題一共有 6 篇論文：

其中有兩篇論文關(guān)于受到生物學啟發(fā)的架構(gòu)：

Biologically-Plausible Learning Algorithms Can Scale to Large Datasets (Xiao et al.)

A Unified Theory of Early Visual Representations from Retina to Cortex through Anatomically Constrained Deep CNNs (Lindsey et al.)

一篇關(guān)于 RNA 設(shè)計：

Learning to Design RNA (Runge et al.)

三篇關(guān)于對蛋白質(zhì)的操作（protein manipulation）：

Human-level Protein Localization with Convolutional Neural Networks (Rumetshofer et al.)

Learning Protein Structure with a Differentiable Simulator (Ingraham et al.)

Learning protein sequence embeddings using information from structure (Bepler et al.)

RNN失寵、強化學習風頭正勁，ICLR 2019的八點參會總結(jié)

受視網(wǎng)膜啟發(fā)的卷積神經(jīng)網(wǎng)絡(luò) (Lindsey 等人)

但是卻沒有一篇論文是關(guān)于基因組的，也沒有一個 workshop 是關(guān)于這個話題的。這還真是令人沮喪……不過，這對于對生物學感興趣的深度學習研究者或?qū)ι疃葘W習感興趣的生物學家而言，是一個巨大的契機。

我們來隨便列舉一個事實：視網(wǎng)膜論文的第一作者 Jack Lindsey 仍然是斯坦福大學的在校大學生。孩子們還沒開始接受社會的壓榨呢。

7. 強化學習仍然是提交論文中最熱門的話題

ICLR 2019 大會上的研究論文表明強化學習社區(qū)正在從無模型方法轉(zhuǎn)向樣本高效的基于模型的算法和元學習算法。這種轉(zhuǎn)變很可能受到 TD3 (Fujimoto et al., 2018) 和 SAC (Haarnoja et al., 2018) 設(shè)置的 Mujoco 連續(xù)控制基準上的極高分數(shù)，以及 R2D2 (Kapturowski et al., ICLR 2019) 得到的 Atari 離散控制任務上的極高分數(shù)的啟發(fā)。

基于模型的算法（即從數(shù)據(jù)中學習環(huán)境模型，然后利用該模型規(guī)劃或生成更多數(shù)據(jù)）在使用 1/10-1/100 的經(jīng)驗進行訓練時，仍能達到和無模型算法一樣的漸近性能。這種優(yōu)勢表明基于模型的算法適合現(xiàn)實世界任務。當學得的模擬器可能有缺陷時，其誤差可以通過更復雜的動態(tài)模型得到緩解，比如模擬器的集成 (Rajeswaran et al.)。將強化學習應用到現(xiàn)實世界問題的另一種方式是，使模擬器支持任意復雜的隨機化：在多樣化的模擬環(huán)境中訓練的策略可能認為現(xiàn)實世界是「另一次隨機化」，并取得成功 (OpenAI)。

可在多個任務上執(zhí)行快速遷移學習的元學習算法使得樣本效率和性能得到大幅改善 (ProMP (Rothfuss et al.)、PEARL (Rakelly et al.))。這些改善使我們更加接近「強化學習的 ImageNet 時刻」，即我們可以使用從其他任務上學習的控制策略，而不用從頭開始訓練策略（當然了，太復雜的任務目前還無法實現(xiàn)）。

RNN失寵、強化學習風頭正勁，ICLR 2019的八點參會總結(jié) 在六個基準任務上，PEARL (Rakelly 等人) 的漸近性能和元訓練樣本效率都優(yōu)于之前的元強化學習方法

ICLR 2019 接收論文中的很大一部分，以及 Structure and Priors in RL (SPiRL) workshop 中的所有論文，是關(guān)于如何將環(huán)境知識集成到學習算法的。盡管早期深度強化學習算法的主要優(yōu)勢之一是一般性（如 DQN 對所有 Atari 游戲使用同樣的架構(gòu)，而無需了解其中哪一個特定游戲），但是新算法展示出引入先驗知識有助于解決更復雜的任務。例如，在 Transporter Network (Jakab 等人) 中，智能體使用先驗知識執(zhí)行具備更多信息的結(jié)構(gòu)探索。

總的來說，在過去 5 年里，強化學習社區(qū)開發(fā)了大量有效的工具來解決無模型強化學習難題。現(xiàn)在，是時候提出更采樣高效、可遷移的算法在現(xiàn)實世界問題上利用強化學習了。

此外，Sergey Levine 可能是今年論文最多的作者，有 15 篇之多。

8. 大部分接收論文很快就會被遺忘

在會上，我問一位知名研究者他如何看待今年的接收論文。他輕笑道：「大部分接收論文會議一結(jié)束就會被遺忘?！瓜駲C器學習這樣快速發(fā)展的領(lǐng)域，目前最先進的結(jié)果幾周甚至幾天后就可能被打破，大部分接收論文還沒正式展示就已經(jīng)被超越也就不令人驚訝了。例如，ICLR 2018 論文中 8 篇對抗樣本論文中的 7 篇在大會開始前已經(jīng)被打破。

我經(jīng)常會在大會上聽到這樣一個評論：論文接收/拒收很隨機。我不點名，但一些很有名或者引用率很高的論文就曾被大會拒收過。相對的，許多論文雖然被接受了卻無人引用。

作為這個領(lǐng)域的一份子，我經(jīng)常面臨各種威脅。無論我想到什么點子，似乎總有其他人已經(jīng)在做了，且做得更好、更快。可是，假使一篇論文對任何人都沒有幫助，那又有什么發(fā)表的意義呢？誰能說出個所以然??！

結(jié)論

因為篇幅有限，還有很多趨勢我沒能詳盡的寫出來，比如：

優(yōu)化和正則化：Adam 和 SGD 的爭論仍在繼續(xù)。今年 ICLR 大會提出了許多新技術(shù)，其中一些相當令人激動?？雌饋?，每個實驗室都在開發(fā)自己的優(yōu)化器，我們團隊同樣如此。

評估度量：隨著生成模型越來越流行，我們不可避免地需要提出新的度量標準，以評估生成的輸出。

如果你想要了解更多，可以去看看David Abel 發(fā)布的一個 55 頁的 ICLR 2019 筆記。對于想了解 ICLR 2019 熱點的人，下面這張圖也許能夠幫助到你：

RNN失寵、強化學習風頭正勁，ICLR 2019的八點參會總結(jié)

看起來，應該寫一篇名為「A robust probabilistic framework for universal, transferrable unsupervised meta-learning」的論文

我真的很享受 ICLR 這個大會——它夠大，你能在此找到很多志同道合的朋友；也夠小，可以盡情享受不用排隊的樂趣，4 天的會議安排也正好。相比之下，NeurIPS 的會議就有點長了，參會 4 天后我就會邊看論文海報邊想：「看看所有這些知識，我應該現(xiàn)在就掌握，但又懶得行動。」

我在 ICLR 大會上收獲最大的不僅僅是思路，更是科研的動力。許多和我年紀相仿的科研者作出的卓越成就讓我看到了科研之美，激勵我更努力地去做研究。再說了，哪怕只是用這一周的時間來看看論文、見見老友也是個超棒的選擇~

via huyenchip.com/2019/05/12/top-8-trends-from-iclr-2019.html，雷鋒網(wǎng) AI 科技評論編譯

更多頂會報道請繼續(xù)關(guān)注雷鋒網(wǎng) AI 科技評論

AI領(lǐng)域的蝙蝠俠大戰(zhàn)超人：LeCun與Manning如何看待神經(jīng)網(wǎng)絡(luò)中的結(jié)構(gòu)設(shè)計

雷峰網(wǎng)版權(quán)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

2人收藏

相關(guān)文章

專題

ICLR 2019

本專題其他文章

劉肉醬

知情人士

發(fā)私信

當月熱門文章

RNN失寵、強化學習風頭正勁，ICLR 2019的八點參會總結(jié)

1. 包容性

Sasha Rush 開場致辭的一頁 PPT

2. 無監(jiān)督表征學習 & 遷移學習

元學習的內(nèi)、外循環(huán)（Metz et al.）

3. 回溯 ML

4. RNN 失寵

RNN 失寵（圖源： ICLR 2019 補充統(tǒng)計數(shù)據(jù)）

5. GAN 仍然勢頭強勁

狗球萬歲（Brock 等人）

6. 缺乏受到生物學啟發(fā)的深度學習

7. 強化學習仍然是提交論文中最熱門的話題

8. 大部分接收論文很快就會被遺忘

結(jié)論

看起來，應該寫一篇名為「A robust probabilistic framework for universal, transferrable unsupervised meta-learning」的論文

ICLR 2019

RNN失寵、強化學習風頭正勁，ICLR 2019的八點參會總結(jié)

元學習的內(nèi)、外循環(huán)（Metz et al.）