0
本文作者: 楊曉凡 | 2018-08-09 10:03 | 專題:ICRA 2017:創(chuàng)新、創(chuàng)業(yè)和解決方法 |
雷鋒網(wǎng) AI 科技評論按:本篇屬于「頂會見聞系列」。每年這么多精彩的人工智能/機器學(xué)習(xí)會議,沒去現(xiàn)場的自然可惜,在現(xiàn)場的也容易看花眼。那么事后看看別的研究員的見聞總結(jié),也許會有新的收獲呢。
Alex Irpan 本科畢業(yè)于 UC 伯克利大學(xué)的計算機科學(xué)專業(yè),在伯克利人工智能 AI 研究所(BAIR)做的本科畢業(yè)設(shè)計,導(dǎo)師為 Pieter Abbeel,而后加入谷歌大腦的機器人團隊做軟件工程師。Alex Irpan 自己的研究興趣偏向于用于機器人控制的深度強化學(xué)習(xí)。繼去年參加了 NIPS 2017 之后,Alex Irpan 今年也參加了 ICLR 2018 和 ICRA 2018,并寫下了自己的參會見聞。一位強化學(xué)習(xí)研究與應(yīng)用工程師視角下的會議有何亮點與槽點呢?雷鋒網(wǎng) AI 科技評論把這篇個人博客文章全文編譯如下。
在不到一個月的時間里,我連續(xù)參加了 ICLR 2018 和 ICRA 2018 兩個會議。前者是一個深度學(xué)習(xí)會議,后者是一個機器人技術(shù)會議。兩者之間有不少區(qū)別,我覺得做個對比會很有意思。
從做研究的角度來看,對 ICLR 的一句話總結(jié)就是對抗性學(xué)習(xí)依然是一個重要課題。
ICLR 會場里最熱門的話題就是生成式對抗網(wǎng)絡(luò)(GANs)。不過這里我想用這個詞同時包含「對抗性樣本」和「帶有互相競爭的智能體的環(huán)境」這兩個意思。說真的,任何一個可以寫成 形式的最大最小值優(yōu)化問題,對我來說就是一個對抗性學(xué)習(xí)問題。
我不太確定這個課題是不是真的有那么火,也可能只是我的記憶出現(xiàn)了選擇性偏倚吧,因為這些方法真的讓我覺得特別有意思。它們給我的感覺很強大。對 GAN 的一種理解是,你在學(xué)習(xí)一個生成器,但它使用的是一個學(xué)習(xí)到的隱式損失函數(shù),而不是由人類定義一個。這樣可以讓你的生成器有更高的適應(yīng)能力,并且可以幫助你定義一些人工做的時候幾乎無從下手的損失函數(shù)。
確實,這種做法讓你的問題變得更復(fù)雜了。不過如果你有足夠強大的優(yōu)化手段和建模能力,這些學(xué)到的隱式損失函數(shù)就能給你帶來比任何其他方法都更厲害的圖像。并且,把你的系統(tǒng)里的一部分換成了這樣的學(xué)到的組件還有一個好處,那就是優(yōu)化和建模方面的技術(shù)進步能從更多方面幫你更好地解決問題。模型的學(xué)習(xí)損失函數(shù)的能力和讓這些損失最小化的能力同時得到了提升。最終你就會來到這個轉(zhuǎn)折點,之前多付出的種種辛苦都會得到回報。
從更抽象的角度來講,這樣的做法借助了高表達能力、可優(yōu)化函數(shù)家族的力量,神經(jīng)網(wǎng)絡(luò)就是一個例子。最大最小值優(yōu)化并不是什么新方法,它已經(jīng)存在了很久了。這里真正的新東西是,深度學(xué)習(xí)可以讓你在高維數(shù)據(jù)上建模并學(xué)習(xí)復(fù)雜的損失函數(shù)。在我看來 GANs 的有趣的地方不是在圖像生成這件事本身,而是它在圖像這樣的復(fù)雜數(shù)據(jù)上驗證了這樣的概念的可行性。實際上,這種模型框架的任何一部分都沒有要求你必須使用圖像數(shù)據(jù)。
這個學(xué)習(xí)過程中也有一些其他的部分可以把人類定義的方法替換為學(xué)習(xí)到的方法,而深度學(xué)習(xí)就是我們可以選擇的工具之一。那么選用深度學(xué)習(xí)合適嗎?唔,可能吧。這里的問題是,你替換得越多,想真的讓每一個部分都可以學(xué)習(xí)就變得越難。如果你一直在往上堆烏龜,一直堆到了不穩(wěn)定、很容易翻到的程度了,也許你其實就不應(yīng)該堆那么多。
最近 Quanta 上也有一篇文章,Judea Pearl 對深度學(xué)習(xí)表達了嚴重的不滿之情,說這就是學(xué)習(xí)相關(guān)性和學(xué)習(xí)曲線擬合而已,這離「智能」也太遠了。我同意他的觀點,不過我也要為深度學(xué)習(xí)說句話,如果你把一個超級大的神經(jīng)網(wǎng)絡(luò)扔到足夠大的一鍋優(yōu)化方法里面去熬,那你學(xué)到的那個東西就會和因果推理看起來挺像的,或者不管你把什么東西稱作智慧,這個熬出來的東西都會挺像它的。好像說得越來越哲學(xué)了,我就此打住吧。
從一個普通參會者的角度,ICLR 上很多的論文海報環(huán)節(jié)我都很喜歡。這是我第一次來 ICLR,上一次我去的機器學(xué)習(xí)會議是 NIPS,NIPS 的規(guī)模簡直大得有點夸張。要是想把 NIPS 的每篇論文都看一遍,那肯定是做不到的。想把 ICLR 的每張海報都看看還有機會,雖然其實也不一定有人愿意這樣做。
還有一點我喜歡的是,現(xiàn)場的企業(yè)招聘不像 NIPS 上的那么滑稽。在 NIPS 上有的企業(yè)會送轉(zhuǎn)得讓人心煩的陀螺,還有送緊身衣的,確實很獨特,但是因為企業(yè)們都要絞盡腦汁想出一些獨特的紀念品以免被埋沒,最終的結(jié)果就變得怪怪的。在 ICLR 上我拿到的最奇怪的東西也就只是一雙襪子而已,不常見,但起碼不算亂來。
我注意到了這些論文,計劃稍后再仔細看看
Intrinsic Motivation and Automatic Curricula via Asymmetric Self-Play
Learning Robust Rewards with Adverserial Inverse Reinforcement Learning
Measuring the Intrinsic Dimension of Objective Landscapes(雷鋒網(wǎng) AI 科技評論注:Uber AI Labs 的這篇論文有一個生動的講解視頻,我們做過翻譯,熟肉視頻請見 這里)
Eigenoption Discovery Through the Deep Successor Representation
TD or not TD: Analyzing the Role of Temporal Differencing in Deep Reinforcement Learning
DORA The Explorer: Directed Outreaching Reinforcement Action-Selection
ICRA 2018 是我第一次去關(guān)于機器人的會議。我都不知道應(yīng)該期待在會議上看到什么。我一開始做科研的時候是做機器學(xué)習(xí)的,然后做的東西開始和機器人技術(shù)沾一點邊,所以我的興趣更接近于「學(xué)習(xí)如何控制」,而不是「做一個新的機器人」。我自己理想的實驗環(huán)境設(shè)定是,把真實世界的硬件看作一組抽象來處理。(我仿佛聽見有一位機器人專家蹲在墻角抹眼淚)
我的技術(shù)背景加上我對控制理論的外行般的理解,就意味著我對會議中的許多課題都不怎么熟悉。不過關(guān)于學(xué)習(xí)的論文還是挺多的,我還是很高興我去參會了的。
在我能看懂的這些研究里,讓我感到驚訝的是有如此之多的強化學(xué)習(xí)的論文。老實說,看到其中幾乎沒有什么論文在用純粹的無模型強化學(xué)習(xí),我感覺到有那么一點好笑。ICRA 有一個特點是,如果你的算法是在真實世界的機器人上運行的,那么這篇論文被會議接受的可能性就會高很多很多。這就迫使你考慮數(shù)據(jù)效率的問題,從而在選擇方法的時候就讓純粹的無模型強化學(xué)習(xí)處于超級大的劣勢。當我在場內(nèi)走來走去瀏覽的時候,我時不時就能聽到「我們結(jié)合了無模型強化學(xué)習(xí)和 X」這樣的話,而這個 X 要么是一個基于模型的強化學(xué)習(xí)方法,要么是從人類演示中學(xué)習(xí),要么是從運動控制中學(xué)習(xí),反正就是任何對模型的探索過程有幫助的東西。
從更廣的角度說,這個會議還是比較看重實踐的。它當然還是一個研究型的會議,里面也有很多內(nèi)容是還很值得揣摩的,不過同時你也會覺得,大家還挺接受方向很窄的、精準針對一兩個問題的解決方案的。我覺得這也是因為要使用真實的硬件帶來的另一個結(jié)果。如果你的模型要實時運行,那你就不能忽略了推理時間有多長;如果你從真實的機器人上采集數(shù)據(jù),那你就不能忽略了數(shù)據(jù)效率。真實的硬件才不關(guān)心你會碰到什么問題。
這讓我想起 RFC 1925 里關(guān)于系統(tǒng)設(shè)計的兩條真理
1. 它必須是有效的。
2. 不管你自己的要求有多高,你不管你怎么排優(yōu)先級,你都沒法增加光速。
和我聊天的很多做機器學(xué)習(xí)的人都對此感到驚訝,不過機器人技術(shù)領(lǐng)域的人也確實不像參加 NIPS、ICLR、ICML 的人那樣完全擁抱了機器學(xué)習(xí),其中一部分原因是機器學(xué)習(xí)不一定總是有效。機器學(xué)習(xí)是一種解決方案,但是它不保證是合理的。我的感覺是,ICRA 上真的非常積極地希望看到機器學(xué)習(xí)方法失敗的人不多,也就那么幾個。大多數(shù)人用機器學(xué)習(xí)都還是一切 ok 的,只要機器學(xué)習(xí)方法能證明自己。在一些領(lǐng)域里,機器學(xué)習(xí)已經(jīng)證明了自己。每一篇我看到的關(guān)于感知的論文都是用了某一種 CNN。但是用深度學(xué)習(xí)做控制的人就少得多了,因為這里有很多東西都是不確定的。有很多人認為深度學(xué)習(xí)就是流行一陣子,雖然我不太同意他們,但是能聽到領(lǐng)域內(nèi)的不同觀點還是挺好的一件事。
和 ICLR 一樣,也有很多企業(yè)在現(xiàn)場招聘,或者做一些展臺;和 ICLR 不一樣的是,這些展臺的內(nèi)容看起來有意思得多。大多數(shù)企業(yè)都會帶幾款自己的機器人來做演示,看機器人表演畢竟總是一件讓人身心愉悅的事情,要比聽千篇一律的招聘宣講不知道強到哪里去了。
在去年的 NIPS 上,機器學(xué)習(xí)企業(yè)的那片展位有點讓我想起 UC 伯克利的校園招聘會,而且是不好的那種想起。每個科技企業(yè)都想招 UC 伯克利的畢業(yè)生,招聘會就變得像是一場軍備競賽,大家都在比誰的薪水開的高、誰的茶點看起來比較好吃。看起來好像,每個企業(yè)的目標都是希望讓自己看起來盡量地酷,但同時又都不說招你去到底是為了讓你做什么。到了機器學(xué)習(xí)這邊,企業(yè)們的自我包裝方式就是在看起來漂亮的休息區(qū)酒吧辦越來越精巧的 party。機器人領(lǐng)域的企業(yè)還沒浮夸到那個程度;雖然也在增加,但是泡沫還沒那么多。
我聽了幾個 workshop 的演講,講真實世界中的機器人都是拿來做什么的,聽起來都很有意思。研究型的會議傾向于關(guān)注理論研究和網(wǎng)絡(luò)的討論,經(jīng)常讓人忘了科研其實也可以有明確的、即時的經(jīng)濟價值的。農(nóng)業(yè)機器人那一場就有一個演講,講的是如何用計算機視覺發(fā)現(xiàn)雜草,然后只在雜草上噴除草劑,在我聽來簡直完美。用的除草劑也少了,對作物的傷害也小了,也減緩了雜草對除草劑產(chǎn)生抗性的速度。
機器人領(lǐng)域鼎鼎大名的 Rodney Brooks 的一場很棒的演講也是類似的思路,他講了把機器人技術(shù)變成消費級產(chǎn)品需要注意的幾件事,舉的例子就是 Roomba 掃地機器人。根據(jù)他介紹,在設(shè)計 Roomba 的時候他們首先考慮的是價格,然后把機器人的所有功能設(shè)計得與那個價格相符。然后他們就發(fā)現(xiàn),幾百美元價格的產(chǎn)品里留給厲害的傳感器和計算硬件的預(yù)算余地非常小,能放在機器上做的推理計算也有了一個非??量痰南拗?。
(他在演講中還大聲批評了人類與機器人交互方面的研究,雖然似乎和演講主題無關(guān),但是聽起來真的很有趣。給感興趣的各位講講好了,他報怨說大家都故意用了很多復(fù)雜的數(shù)學(xué)公式來做樣子,其實本質(zhì)的想法很簡單;他說有人在論文中提出了很大的想法但是實驗的樣本規(guī)模并不足以支持這些想法;也有研究人員會在人類的行為和模型的預(yù)測不一致的時候責怪人類行為的非理性。我自己對人機交互沒什么了解,所以我就不作評論了)
從會議組織的角度講的話,我覺得 ICRA 真的辦得很好。會議中心隔壁就有打印的地方,所以在會議注冊的時候,工作人員會問你有沒有在指定的日期把你的海報 PDF 郵件發(fā)過來,然后他們就會處理好下單打印的各種事項。你只需要在線支付了 PDF 的打印費,然后等著在會議期間去取就好了。所有的論文海報展示都是在下圖這樣的多合一展位上進行的,每個隔間里都有一張白板和一層架子,你可以把自己的筆記本放在上面播放視頻(對于機器人技術(shù)方面的研究,放視頻真的很重要)
我注意到了這些論文,計劃稍后再仔細看看
OptLayer - Practical Constrained Optimization for Deep Reinforcement Learning in the Real World
Semantic Robot Programming for Goal-Directed Manipulation in Cluttered Scenes
Interactive Perception: Leveraging Action in Perception and Perception in Action
via alexirpan.com,雷鋒網(wǎng) AI 科技評論編譯
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。
本專題其他文章