0
| 本文作者: 楊曉凡 | 2018-08-09 10:03 | 專題:ICRA 2017:創(chuàng)新、創(chuàng)業(yè)和解決方法 |
雷鋒網(wǎng) AI 科技評論按:本篇屬于「頂會見聞系列」。每年這么多精彩的人工智能/機(jī)器學(xué)習(xí)會議,沒去現(xiàn)場的自然可惜,在現(xiàn)場的也容易看花眼。那么事后看看別的研究員的見聞總結(jié),也許會有新的收獲呢。
Alex Irpan 本科畢業(yè)于 UC 伯克利大學(xué)的計算機(jī)科學(xué)專業(yè),在伯克利人工智能 AI 研究所(BAIR)做的本科畢業(yè)設(shè)計,導(dǎo)師為 Pieter Abbeel,而后加入谷歌大腦的機(jī)器人團(tuán)隊(duì)做軟件工程師。Alex Irpan 自己的研究興趣偏向于用于機(jī)器人控制的深度強(qiáng)化學(xué)習(xí)。繼去年參加了 NIPS 2017 之后,Alex Irpan 今年也參加了 ICLR 2018 和 ICRA 2018,并寫下了自己的參會見聞。一位強(qiáng)化學(xué)習(xí)研究與應(yīng)用工程師視角下的會議有何亮點(diǎn)與槽點(diǎn)呢?雷鋒網(wǎng) AI 科技評論把這篇個人博客文章全文編譯如下。

在不到一個月的時間里,我連續(xù)參加了 ICLR 2018 和 ICRA 2018 兩個會議。前者是一個深度學(xué)習(xí)會議,后者是一個機(jī)器人技術(shù)會議。兩者之間有不少區(qū)別,我覺得做個對比會很有意思。
從做研究的角度來看,對 ICLR 的一句話總結(jié)就是對抗性學(xué)習(xí)依然是一個重要課題。
ICLR 會場里最熱門的話題就是生成式對抗網(wǎng)絡(luò)(GANs)。不過這里我想用這個詞同時包含「對抗性樣本」和「帶有互相競爭的智能體的環(huán)境」這兩個意思。說真的,任何一個可以寫成
形式的最大最小值優(yōu)化問題,對我來說就是一個對抗性學(xué)習(xí)問題。
我不太確定這個課題是不是真的有那么火,也可能只是我的記憶出現(xiàn)了選擇性偏倚吧,因?yàn)檫@些方法真的讓我覺得特別有意思。它們給我的感覺很強(qiáng)大。對 GAN 的一種理解是,你在學(xué)習(xí)一個生成器,但它使用的是一個學(xué)習(xí)到的隱式損失函數(shù),而不是由人類定義一個。這樣可以讓你的生成器有更高的適應(yīng)能力,并且可以幫助你定義一些人工做的時候幾乎無從下手的損失函數(shù)。
確實(shí),這種做法讓你的問題變得更復(fù)雜了。不過如果你有足夠強(qiáng)大的優(yōu)化手段和建模能力,這些學(xué)到的隱式損失函數(shù)就能給你帶來比任何其他方法都更厲害的圖像。并且,把你的系統(tǒng)里的一部分換成了這樣的學(xué)到的組件還有一個好處,那就是優(yōu)化和建模方面的技術(shù)進(jìn)步能從更多方面幫你更好地解決問題。模型的學(xué)習(xí)損失函數(shù)的能力和讓這些損失最小化的能力同時得到了提升。最終你就會來到這個轉(zhuǎn)折點(diǎn),之前多付出的種種辛苦都會得到回報。
從更抽象的角度來講,這樣的做法借助了高表達(dá)能力、可優(yōu)化函數(shù)家族的力量,神經(jīng)網(wǎng)絡(luò)就是一個例子。最大最小值優(yōu)化并不是什么新方法,它已經(jīng)存在了很久了。這里真正的新東西是,深度學(xué)習(xí)可以讓你在高維數(shù)據(jù)上建模并學(xué)習(xí)復(fù)雜的損失函數(shù)。在我看來 GANs 的有趣的地方不是在圖像生成這件事本身,而是它在圖像這樣的復(fù)雜數(shù)據(jù)上驗(yàn)證了這樣的概念的可行性。實(shí)際上,這種模型框架的任何一部分都沒有要求你必須使用圖像數(shù)據(jù)。
這個學(xué)習(xí)過程中也有一些其他的部分可以把人類定義的方法替換為學(xué)習(xí)到的方法,而深度學(xué)習(xí)就是我們可以選擇的工具之一。那么選用深度學(xué)習(xí)合適嗎?唔,可能吧。這里的問題是,你替換得越多,想真的讓每一個部分都可以學(xué)習(xí)就變得越難。如果你一直在往上堆烏龜,一直堆到了不穩(wěn)定、很容易翻到的程度了,也許你其實(shí)就不應(yīng)該堆那么多。

最近 Quanta 上也有一篇文章,Judea Pearl 對深度學(xué)習(xí)表達(dá)了嚴(yán)重的不滿之情,說這就是學(xué)習(xí)相關(guān)性和學(xué)習(xí)曲線擬合而已,這離「智能」也太遠(yuǎn)了。我同意他的觀點(diǎn),不過我也要為深度學(xué)習(xí)說句話,如果你把一個超級大的神經(jīng)網(wǎng)絡(luò)扔到足夠大的一鍋優(yōu)化方法里面去熬,那你學(xué)到的那個東西就會和因果推理看起來挺像的,或者不管你把什么東西稱作智慧,這個熬出來的東西都會挺像它的。好像說得越來越哲學(xué)了,我就此打住吧。
從一個普通參會者的角度,ICLR 上很多的論文海報環(huán)節(jié)我都很喜歡。這是我第一次來 ICLR,上一次我去的機(jī)器學(xué)習(xí)會議是 NIPS,NIPS 的規(guī)模簡直大得有點(diǎn)夸張。要是想把 NIPS 的每篇論文都看一遍,那肯定是做不到的。想把 ICLR 的每張海報都看看還有機(jī)會,雖然其實(shí)也不一定有人愿意這樣做。
還有一點(diǎn)我喜歡的是,現(xiàn)場的企業(yè)招聘不像 NIPS 上的那么滑稽。在 NIPS 上有的企業(yè)會送轉(zhuǎn)得讓人心煩的陀螺,還有送緊身衣的,確實(shí)很獨(dú)特,但是因?yàn)槠髽I(yè)們都要絞盡腦汁想出一些獨(dú)特的紀(jì)念品以免被埋沒,最終的結(jié)果就變得怪怪的。在 ICLR 上我拿到的最奇怪的東西也就只是一雙襪子而已,不常見,但起碼不算亂來。
我注意到了這些論文,計劃稍后再仔細(xì)看看
Intrinsic Motivation and Automatic Curricula via Asymmetric Self-Play
Learning Robust Rewards with Adverserial Inverse Reinforcement Learning
Measuring the Intrinsic Dimension of Objective Landscapes(雷鋒網(wǎng) AI 科技評論注:Uber AI Labs 的這篇論文有一個生動的講解視頻,我們做過翻譯,熟肉視頻請見 這里)
Eigenoption Discovery Through the Deep Successor Representation
TD or not TD: Analyzing the Role of Temporal Differencing in Deep Reinforcement Learning
DORA The Explorer: Directed Outreaching Reinforcement Action-Selection
ICRA 2018 是我第一次去關(guān)于機(jī)器人的會議。我都不知道應(yīng)該期待在會議上看到什么。我一開始做科研的時候是做機(jī)器學(xué)習(xí)的,然后做的東西開始和機(jī)器人技術(shù)沾一點(diǎn)邊,所以我的興趣更接近于「學(xué)習(xí)如何控制」,而不是「做一個新的機(jī)器人」。我自己理想的實(shí)驗(yàn)環(huán)境設(shè)定是,把真實(shí)世界的硬件看作一組抽象來處理。(我仿佛聽見有一位機(jī)器人專家蹲在墻角抹眼淚)
我的技術(shù)背景加上我對控制理論的外行般的理解,就意味著我對會議中的許多課題都不怎么熟悉。不過關(guān)于學(xué)習(xí)的論文還是挺多的,我還是很高興我去參會了的。
在我能看懂的這些研究里,讓我感到驚訝的是有如此之多的強(qiáng)化學(xué)習(xí)的論文。老實(shí)說,看到其中幾乎沒有什么論文在用純粹的無模型強(qiáng)化學(xué)習(xí),我感覺到有那么一點(diǎn)好笑。ICRA 有一個特點(diǎn)是,如果你的算法是在真實(shí)世界的機(jī)器人上運(yùn)行的,那么這篇論文被會議接受的可能性就會高很多很多。這就迫使你考慮數(shù)據(jù)效率的問題,從而在選擇方法的時候就讓純粹的無模型強(qiáng)化學(xué)習(xí)處于超級大的劣勢。當(dāng)我在場內(nèi)走來走去瀏覽的時候,我時不時就能聽到「我們結(jié)合了無模型強(qiáng)化學(xué)習(xí)和 X」這樣的話,而這個 X 要么是一個基于模型的強(qiáng)化學(xué)習(xí)方法,要么是從人類演示中學(xué)習(xí),要么是從運(yùn)動控制中學(xué)習(xí),反正就是任何對模型的探索過程有幫助的東西。
從更廣的角度說,這個會議還是比較看重實(shí)踐的。它當(dāng)然還是一個研究型的會議,里面也有很多內(nèi)容是還很值得揣摩的,不過同時你也會覺得,大家還挺接受方向很窄的、精準(zhǔn)針對一兩個問題的解決方案的。我覺得這也是因?yàn)橐褂谜鎸?shí)的硬件帶來的另一個結(jié)果。如果你的模型要實(shí)時運(yùn)行,那你就不能忽略了推理時間有多長;如果你從真實(shí)的機(jī)器人上采集數(shù)據(jù),那你就不能忽略了數(shù)據(jù)效率。真實(shí)的硬件才不關(guān)心你會碰到什么問題。
這讓我想起 RFC 1925 里關(guān)于系統(tǒng)設(shè)計的兩條真理
1. 它必須是有效的。
2. 不管你自己的要求有多高,你不管你怎么排優(yōu)先級,你都沒法增加光速。
和我聊天的很多做機(jī)器學(xué)習(xí)的人都對此感到驚訝,不過機(jī)器人技術(shù)領(lǐng)域的人也確實(shí)不像參加 NIPS、ICLR、ICML 的人那樣完全擁抱了機(jī)器學(xué)習(xí),其中一部分原因是機(jī)器學(xué)習(xí)不一定總是有效。機(jī)器學(xué)習(xí)是一種解決方案,但是它不保證是合理的。我的感覺是,ICRA 上真的非常積極地希望看到機(jī)器學(xué)習(xí)方法失敗的人不多,也就那么幾個。大多數(shù)人用機(jī)器學(xué)習(xí)都還是一切 ok 的,只要機(jī)器學(xué)習(xí)方法能證明自己。在一些領(lǐng)域里,機(jī)器學(xué)習(xí)已經(jīng)證明了自己。每一篇我看到的關(guān)于感知的論文都是用了某一種 CNN。但是用深度學(xué)習(xí)做控制的人就少得多了,因?yàn)檫@里有很多東西都是不確定的。有很多人認(rèn)為深度學(xué)習(xí)就是流行一陣子,雖然我不太同意他們,但是能聽到領(lǐng)域內(nèi)的不同觀點(diǎn)還是挺好的一件事。
和 ICLR 一樣,也有很多企業(yè)在現(xiàn)場招聘,或者做一些展臺;和 ICLR 不一樣的是,這些展臺的內(nèi)容看起來有意思得多。大多數(shù)企業(yè)都會帶幾款自己的機(jī)器人來做演示,看機(jī)器人表演畢竟總是一件讓人身心愉悅的事情,要比聽千篇一律的招聘宣講不知道強(qiáng)到哪里去了。
在去年的 NIPS 上,機(jī)器學(xué)習(xí)企業(yè)的那片展位有點(diǎn)讓我想起 UC 伯克利的校園招聘會,而且是不好的那種想起。每個科技企業(yè)都想招 UC 伯克利的畢業(yè)生,招聘會就變得像是一場軍備競賽,大家都在比誰的薪水開的高、誰的茶點(diǎn)看起來比較好吃??雌饋砗孟?,每個企業(yè)的目標(biāo)都是希望讓自己看起來盡量地酷,但同時又都不說招你去到底是為了讓你做什么。到了機(jī)器學(xué)習(xí)這邊,企業(yè)們的自我包裝方式就是在看起來漂亮的休息區(qū)酒吧辦越來越精巧的 party。機(jī)器人領(lǐng)域的企業(yè)還沒浮夸到那個程度;雖然也在增加,但是泡沫還沒那么多。
我聽了幾個 workshop 的演講,講真實(shí)世界中的機(jī)器人都是拿來做什么的,聽起來都很有意思。研究型的會議傾向于關(guān)注理論研究和網(wǎng)絡(luò)的討論,經(jīng)常讓人忘了科研其實(shí)也可以有明確的、即時的經(jīng)濟(jì)價值的。農(nóng)業(yè)機(jī)器人那一場就有一個演講,講的是如何用計算機(jī)視覺發(fā)現(xiàn)雜草,然后只在雜草上噴除草劑,在我聽來簡直完美。用的除草劑也少了,對作物的傷害也小了,也減緩了雜草對除草劑產(chǎn)生抗性的速度。
機(jī)器人領(lǐng)域鼎鼎大名的 Rodney Brooks 的一場很棒的演講也是類似的思路,他講了把機(jī)器人技術(shù)變成消費(fèi)級產(chǎn)品需要注意的幾件事,舉的例子就是 Roomba 掃地機(jī)器人。根據(jù)他介紹,在設(shè)計 Roomba 的時候他們首先考慮的是價格,然后把機(jī)器人的所有功能設(shè)計得與那個價格相符。然后他們就發(fā)現(xiàn),幾百美元價格的產(chǎn)品里留給厲害的傳感器和計算硬件的預(yù)算余地非常小,能放在機(jī)器上做的推理計算也有了一個非??量痰南拗?。
(他在演講中還大聲批評了人類與機(jī)器人交互方面的研究,雖然似乎和演講主題無關(guān),但是聽起來真的很有趣。給感興趣的各位講講好了,他報怨說大家都故意用了很多復(fù)雜的數(shù)學(xué)公式來做樣子,其實(shí)本質(zhì)的想法很簡單;他說有人在論文中提出了很大的想法但是實(shí)驗(yàn)的樣本規(guī)模并不足以支持這些想法;也有研究人員會在人類的行為和模型的預(yù)測不一致的時候責(zé)怪人類行為的非理性。我自己對人機(jī)交互沒什么了解,所以我就不作評論了)
從會議組織的角度講的話,我覺得 ICRA 真的辦得很好。會議中心隔壁就有打印的地方,所以在會議注冊的時候,工作人員會問你有沒有在指定的日期把你的海報 PDF 郵件發(fā)過來,然后他們就會處理好下單打印的各種事項(xiàng)。你只需要在線支付了 PDF 的打印費(fèi),然后等著在會議期間去取就好了。所有的論文海報展示都是在下圖這樣的多合一展位上進(jìn)行的,每個隔間里都有一張白板和一層架子,你可以把自己的筆記本放在上面播放視頻(對于機(jī)器人技術(shù)方面的研究,放視頻真的很重要)

我注意到了這些論文,計劃稍后再仔細(xì)看看
OptLayer - Practical Constrained Optimization for Deep Reinforcement Learning in the Real World
Semantic Robot Programming for Goal-Directed Manipulation in Cluttered Scenes
Interactive Perception: Leveraging Action in Perception and Perception in Action
via alexirpan.com,雷鋒網(wǎng) AI 科技評論編譯
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。
本專題其他文章