頂會見聞系列：ICLR 2018 和 ICRA 2018

本文作者：楊曉凡

2018-08-09 10:03

專題：ICRA 2017：創(chuàng)新、創(chuàng)業(yè)和解決方法

導語：深度強化學習機器人控制工程師的會議體驗

雷鋒網(wǎng) AI 科技評論按：本篇屬于「頂會見聞系列」。每年這么多精彩的人工智能/機器學習會議，沒去現(xiàn)場的自然可惜，在現(xiàn)場的也容易看花眼。那么事后看看別的研究員的見聞總結，也許會有新的收獲呢。

Alex Irpan 本科畢業(yè)于 UC 伯克利大學的計算機科學專業(yè)，在伯克利人工智能 AI 研究所（BAIR）做的本科畢業(yè)設計，導師為 Pieter Abbeel，而后加入谷歌大腦的機器人團隊做軟件工程師。Alex Irpan 自己的研究興趣偏向于用于機器人控制的深度強化學習。繼去年參加了 NIPS 2017 之后，Alex Irpan 今年也參加了 ICLR 2018 和 ICRA 2018，并寫下了自己的參會見聞。一位強化學習研究與應用工程師視角下的會議有何亮點與槽點呢？雷鋒網(wǎng) AI 科技評論把這篇個人博客文章全文編譯如下。

頂會見聞系列：ICLR 2018 和 ICRA 2018

在不到一個月的時間里，我連續(xù)參加了 ICLR 2018 和 ICRA 2018 兩個會議。前者是一個深度學習會議，后者是一個機器人技術會議。兩者之間有不少區(qū)別，我覺得做個對比會很有意思。

ICLR 2018

從做研究的角度來看，對 ICLR 的一句話總結就是對抗性學習依然是一個重要課題。

ICLR 會場里最熱門的話題就是生成式對抗網(wǎng)絡（GANs）。不過這里我想用這個詞同時包含「對抗性樣本」和「帶有互相競爭的智能體的環(huán)境」這兩個意思。說真的，任何一個可以寫成頂會見聞系列：ICLR 2018 和 ICRA 2018 形式的最大最小值優(yōu)化問題，對我來說就是一個對抗性學習問題。

我不太確定這個課題是不是真的有那么火，也可能只是我的記憶出現(xiàn)了選擇性偏倚吧，因為這些方法真的讓我覺得特別有意思。它們給我的感覺很強大。對 GAN 的一種理解是，你在學習一個生成器，但它使用的是一個學習到的隱式損失函數(shù)，而不是由人類定義一個。這樣可以讓你的生成器有更高的適應能力，并且可以幫助你定義一些人工做的時候幾乎無從下手的損失函數(shù)。

確實，這種做法讓你的問題變得更復雜了。不過如果你有足夠強大的優(yōu)化手段和建模能力，這些學到的隱式損失函數(shù)就能給你帶來比任何其他方法都更厲害的圖像。并且，把你的系統(tǒng)里的一部分換成了這樣的學到的組件還有一個好處，那就是優(yōu)化和建模方面的技術進步能從更多方面幫你更好地解決問題。模型的學習損失函數(shù)的能力和讓這些損失最小化的能力同時得到了提升。最終你就會來到這個轉折點，之前多付出的種種辛苦都會得到回報。

從更抽象的角度來講，這樣的做法借助了高表達能力、可優(yōu)化函數(shù)家族的力量，神經(jīng)網(wǎng)絡就是一個例子。最大最小值優(yōu)化并不是什么新方法，它已經(jīng)存在了很久了。這里真正的新東西是，深度學習可以讓你在高維數(shù)據(jù)上建模并學習復雜的損失函數(shù)。在我看來 GANs 的有趣的地方不是在圖像生成這件事本身，而是它在圖像這樣的復雜數(shù)據(jù)上驗證了這樣的概念的可行性。實際上，這種模型框架的任何一部分都沒有要求你必須使用圖像數(shù)據(jù)。

這個學習過程中也有一些其他的部分可以把人類定義的方法替換為學習到的方法，而深度學習就是我們可以選擇的工具之一。那么選用深度學習合適嗎？唔，可能吧。這里的問題是，你替換得越多，想真的讓每一個部分都可以學習就變得越難。如果你一直在往上堆烏龜，一直堆到了不穩(wěn)定、很容易翻到的程度了，也許你其實就不應該堆那么多。

頂會見聞系列：ICLR 2018 和 ICRA 2018

最近 Quanta 上也有一篇文章，Judea Pearl 對深度學習表達了嚴重的不滿之情，說這就是學習相關性和學習曲線擬合而已，這離「智能」也太遠了。我同意他的觀點，不過我也要為深度學習說句話，如果你把一個超級大的神經(jīng)網(wǎng)絡扔到足夠大的一鍋優(yōu)化方法里面去熬，那你學到的那個東西就會和因果推理看起來挺像的，或者不管你把什么東西稱作智慧，這個熬出來的東西都會挺像它的。好像說得越來越哲學了，我就此打住吧。

從一個普通參會者的角度，ICLR 上很多的論文海報環(huán)節(jié)我都很喜歡。這是我第一次來 ICLR，上一次我去的機器學習會議是 NIPS，NIPS 的規(guī)模簡直大得有點夸張。要是想把 NIPS 的每篇論文都看一遍，那肯定是做不到的。想把 ICLR 的每張海報都看看還有機會，雖然其實也不一定有人愿意這樣做。

還有一點我喜歡的是，現(xiàn)場的企業(yè)招聘不像 NIPS 上的那么滑稽。在 NIPS 上有的企業(yè)會送轉得讓人心煩的陀螺，還有送緊身衣的，確實很獨特，但是因為企業(yè)們都要絞盡腦汁想出一些獨特的紀念品以免被埋沒，最終的結果就變得怪怪的。在 ICLR 上我拿到的最奇怪的東西也就只是一雙襪子而已，不常見，但起碼不算亂來。

我注意到了這些論文，計劃稍后再仔細看看

Intrinsic Motivation and Automatic Curricula via Asymmetric Self-Play
Learning Robust Rewards with Adverserial Inverse Reinforcement Learning
Policy Optimization by Genetic Distillation
Measuring the Intrinsic Dimension of Objective Landscapes（雷鋒網(wǎng) AI 科技評論注：Uber AI Labs 的這篇論文有一個生動的講解視頻，我們做過翻譯，熟肉視頻請見這里）
Eigenoption Discovery Through the Deep Successor Representation
Self-Ensembling for Visual Domain Adaptation
TD or not TD: Analyzing the Role of Temporal Differencing in Deep Reinforcement Learning
Online Learning Rate Adaptation with Hypergradient Descent
DORA The Explorer: Directed Outreaching Reinforcement Action-Selection
Learning to Multi-Task by Active Sampling

ICRA 2018

ICRA 2018 是我第一次去關于機器人的會議。我都不知道應該期待在會議上看到什么。我一開始做科研的時候是做機器學習的，然后做的東西開始和機器人技術沾一點邊，所以我的興趣更接近于「學習如何控制」，而不是「做一個新的機器人」。我自己理想的實驗環(huán)境設定是，把真實世界的硬件看作一組抽象來處理。（我仿佛聽見有一位機器人專家蹲在墻角抹眼淚）

我的技術背景加上我對控制理論的外行般的理解，就意味著我對會議中的許多課題都不怎么熟悉。不過關于學習的論文還是挺多的，我還是很高興我去參會了的。

在我能看懂的這些研究里，讓我感到驚訝的是有如此之多的強化學習的論文。老實說，看到其中幾乎沒有什么論文在用純粹的無模型強化學習，我感覺到有那么一點好笑。ICRA 有一個特點是，如果你的算法是在真實世界的機器人上運行的，那么這篇論文被會議接受的可能性就會高很多很多。這就迫使你考慮數(shù)據(jù)效率的問題，從而在選擇方法的時候就讓純粹的無模型強化學習處于超級大的劣勢。當我在場內走來走去瀏覽的時候，我時不時就能聽到「我們結合了無模型強化學習和 X」這樣的話，而這個 X 要么是一個基于模型的強化學習方法，要么是從人類演示中學習，要么是從運動控制中學習，反正就是任何對模型的探索過程有幫助的東西。

從更廣的角度說，這個會議還是比較看重實踐的。它當然還是一個研究型的會議，里面也有很多內容是還很值得揣摩的，不過同時你也會覺得，大家還挺接受方向很窄的、精準針對一兩個問題的解決方案的。我覺得這也是因為要使用真實的硬件帶來的另一個結果。如果你的模型要實時運行，那你就不能忽略了推理時間有多長；如果你從真實的機器人上采集數(shù)據(jù)，那你就不能忽略了數(shù)據(jù)效率。真實的硬件才不關心你會碰到什么問題。

這讓我想起 RFC 1925 里關于系統(tǒng)設計的兩條真理

1. 它必須是有效的。
2. 不管你自己的要求有多高，你不管你怎么排優(yōu)先級，你都沒法增加光速。

和我聊天的很多做機器學習的人都對此感到驚訝，不過機器人技術領域的人也確實不像參加 NIPS、ICLR、ICML 的人那樣完全擁抱了機器學習，其中一部分原因是機器學習不一定總是有效。機器學習是一種解決方案，但是它不保證是合理的。我的感覺是，ICRA 上真的非常積極地希望看到機器學習方法失敗的人不多，也就那么幾個。大多數(shù)人用機器學習都還是一切 ok 的，只要機器學習方法能證明自己。在一些領域里，機器學習已經(jīng)證明了自己。每一篇我看到的關于感知的論文都是用了某一種 CNN。但是用深度學習做控制的人就少得多了，因為這里有很多東西都是不確定的。有很多人認為深度學習就是流行一陣子，雖然我不太同意他們，但是能聽到領域內的不同觀點還是挺好的一件事。

和 ICLR 一樣，也有很多企業(yè)在現(xiàn)場招聘，或者做一些展臺；和 ICLR 不一樣的是，這些展臺的內容看起來有意思得多。大多數(shù)企業(yè)都會帶幾款自己的機器人來做演示，看機器人表演畢竟總是一件讓人身心愉悅的事情，要比聽千篇一律的招聘宣講不知道強到哪里去了。

在去年的 NIPS 上，機器學習企業(yè)的那片展位有點讓我想起 UC 伯克利的校園招聘會，而且是不好的那種想起。每個科技企業(yè)都想招 UC 伯克利的畢業(yè)生，招聘會就變得像是一場軍備競賽，大家都在比誰的薪水開的高、誰的茶點看起來比較好吃?？雌饋砗孟?，每個企業(yè)的目標都是希望讓自己看起來盡量地酷，但同時又都不說招你去到底是為了讓你做什么。到了機器學習這邊，企業(yè)們的自我包裝方式就是在看起來漂亮的休息區(qū)酒吧辦越來越精巧的 party。機器人領域的企業(yè)還沒浮夸到那個程度；雖然也在增加，但是泡沫還沒那么多。

我聽了幾個 workshop 的演講，講真實世界中的機器人都是拿來做什么的，聽起來都很有意思。研究型的會議傾向于關注理論研究和網(wǎng)絡的討論，經(jīng)常讓人忘了科研其實也可以有明確的、即時的經(jīng)濟價值的。農業(yè)機器人那一場就有一個演講，講的是如何用計算機視覺發(fā)現(xiàn)雜草，然后只在雜草上噴除草劑，在我聽來簡直完美。用的除草劑也少了，對作物的傷害也小了，也減緩了雜草對除草劑產(chǎn)生抗性的速度。

機器人領域鼎鼎大名的 Rodney Brooks 的一場很棒的演講也是類似的思路，他講了把機器人技術變成消費級產(chǎn)品需要注意的幾件事，舉的例子就是 Roomba 掃地機器人。根據(jù)他介紹，在設計 Roomba 的時候他們首先考慮的是價格，然后把機器人的所有功能設計得與那個價格相符。然后他們就發(fā)現(xiàn)，幾百美元價格的產(chǎn)品里留給厲害的傳感器和計算硬件的預算余地非常小，能放在機器上做的推理計算也有了一個非常苛刻的限制。

（他在演講中還大聲批評了人類與機器人交互方面的研究，雖然似乎和演講主題無關，但是聽起來真的很有趣。給感興趣的各位講講好了，他報怨說大家都故意用了很多復雜的數(shù)學公式來做樣子，其實本質的想法很簡單；他說有人在論文中提出了很大的想法但是實驗的樣本規(guī)模并不足以支持這些想法；也有研究人員會在人類的行為和模型的預測不一致的時候責怪人類行為的非理性。我自己對人機交互沒什么了解，所以我就不作評論了）

從會議組織的角度講的話，我覺得 ICRA 真的辦得很好。會議中心隔壁就有打印的地方，所以在會議注冊的時候，工作人員會問你有沒有在指定的日期把你的海報 PDF 郵件發(fā)過來，然后他們就會處理好下單打印的各種事項。你只需要在線支付了 PDF 的打印費，然后等著在會議期間去取就好了。所有的論文海報展示都是在下圖這樣的多合一展位上進行的，每個隔間里都有一張白板和一層架子，你可以把自己的筆記本放在上面播放視頻（對于機器人技術方面的研究，放視頻真的很重要）

頂會見聞系列：ICLR 2018 和 ICRA 2018