0
本文作者: 楊曉凡 | 2018-08-09 10:03 | 專題:ICRA 2017:創(chuàng)新、創(chuàng)業(yè)和解決方法 |
雷鋒網(wǎng) AI 科技評(píng)論按:本篇屬于「頂會(huì)見聞系列」。每年這么多精彩的人工智能/機(jī)器學(xué)習(xí)會(huì)議,沒去現(xiàn)場的自然可惜,在現(xiàn)場的也容易看花眼。那么事后看看別的研究員的見聞總結(jié),也許會(huì)有新的收獲呢。
Alex Irpan 本科畢業(yè)于 UC 伯克利大學(xué)的計(jì)算機(jī)科學(xué)專業(yè),在伯克利人工智能 AI 研究所(BAIR)做的本科畢業(yè)設(shè)計(jì),導(dǎo)師為 Pieter Abbeel,而后加入谷歌大腦的機(jī)器人團(tuán)隊(duì)做軟件工程師。Alex Irpan 自己的研究興趣偏向于用于機(jī)器人控制的深度強(qiáng)化學(xué)習(xí)。繼去年參加了 NIPS 2017 之后,Alex Irpan 今年也參加了 ICLR 2018 和 ICRA 2018,并寫下了自己的參會(huì)見聞。一位強(qiáng)化學(xué)習(xí)研究與應(yīng)用工程師視角下的會(huì)議有何亮點(diǎn)與槽點(diǎn)呢?雷鋒網(wǎng) AI 科技評(píng)論把這篇個(gè)人博客文章全文編譯如下。
在不到一個(gè)月的時(shí)間里,我連續(xù)參加了 ICLR 2018 和 ICRA 2018 兩個(gè)會(huì)議。前者是一個(gè)深度學(xué)習(xí)會(huì)議,后者是一個(gè)機(jī)器人技術(shù)會(huì)議。兩者之間有不少區(qū)別,我覺得做個(gè)對(duì)比會(huì)很有意思。
從做研究的角度來看,對(duì) ICLR 的一句話總結(jié)就是對(duì)抗性學(xué)習(xí)依然是一個(gè)重要課題。
ICLR 會(huì)場里最熱門的話題就是生成式對(duì)抗網(wǎng)絡(luò)(GANs)。不過這里我想用這個(gè)詞同時(shí)包含「對(duì)抗性樣本」和「帶有互相競爭的智能體的環(huán)境」這兩個(gè)意思。說真的,任何一個(gè)可以寫成 形式的最大最小值優(yōu)化問題,對(duì)我來說就是一個(gè)對(duì)抗性學(xué)習(xí)問題。
我不太確定這個(gè)課題是不是真的有那么火,也可能只是我的記憶出現(xiàn)了選擇性偏倚吧,因?yàn)檫@些方法真的讓我覺得特別有意思。它們給我的感覺很強(qiáng)大。對(duì) GAN 的一種理解是,你在學(xué)習(xí)一個(gè)生成器,但它使用的是一個(gè)學(xué)習(xí)到的隱式損失函數(shù),而不是由人類定義一個(gè)。這樣可以讓你的生成器有更高的適應(yīng)能力,并且可以幫助你定義一些人工做的時(shí)候幾乎無從下手的損失函數(shù)。
確實(shí),這種做法讓你的問題變得更復(fù)雜了。不過如果你有足夠強(qiáng)大的優(yōu)化手段和建模能力,這些學(xué)到的隱式損失函數(shù)就能給你帶來比任何其他方法都更厲害的圖像。并且,把你的系統(tǒng)里的一部分換成了這樣的學(xué)到的組件還有一個(gè)好處,那就是優(yōu)化和建模方面的技術(shù)進(jìn)步能從更多方面幫你更好地解決問題。模型的學(xué)習(xí)損失函數(shù)的能力和讓這些損失最小化的能力同時(shí)得到了提升。最終你就會(huì)來到這個(gè)轉(zhuǎn)折點(diǎn),之前多付出的種種辛苦都會(huì)得到回報(bào)。
從更抽象的角度來講,這樣的做法借助了高表達(dá)能力、可優(yōu)化函數(shù)家族的力量,神經(jīng)網(wǎng)絡(luò)就是一個(gè)例子。最大最小值優(yōu)化并不是什么新方法,它已經(jīng)存在了很久了。這里真正的新東西是,深度學(xué)習(xí)可以讓你在高維數(shù)據(jù)上建模并學(xué)習(xí)復(fù)雜的損失函數(shù)。在我看來 GANs 的有趣的地方不是在圖像生成這件事本身,而是它在圖像這樣的復(fù)雜數(shù)據(jù)上驗(yàn)證了這樣的概念的可行性。實(shí)際上,這種模型框架的任何一部分都沒有要求你必須使用圖像數(shù)據(jù)。
這個(gè)學(xué)習(xí)過程中也有一些其他的部分可以把人類定義的方法替換為學(xué)習(xí)到的方法,而深度學(xué)習(xí)就是我們可以選擇的工具之一。那么選用深度學(xué)習(xí)合適嗎?唔,可能吧。這里的問題是,你替換得越多,想真的讓每一個(gè)部分都可以學(xué)習(xí)就變得越難。如果你一直在往上堆烏龜,一直堆到了不穩(wěn)定、很容易翻到的程度了,也許你其實(shí)就不應(yīng)該堆那么多。
最近 Quanta 上也有一篇文章,Judea Pearl 對(duì)深度學(xué)習(xí)表達(dá)了嚴(yán)重的不滿之情,說這就是學(xué)習(xí)相關(guān)性和學(xué)習(xí)曲線擬合而已,這離「智能」也太遠(yuǎn)了。我同意他的觀點(diǎn),不過我也要為深度學(xué)習(xí)說句話,如果你把一個(gè)超級(jí)大的神經(jīng)網(wǎng)絡(luò)扔到足夠大的一鍋優(yōu)化方法里面去熬,那你學(xué)到的那個(gè)東西就會(huì)和因果推理看起來挺像的,或者不管你把什么東西稱作智慧,這個(gè)熬出來的東西都會(huì)挺像它的。好像說得越來越哲學(xué)了,我就此打住吧。
從一個(gè)普通參會(huì)者的角度,ICLR 上很多的論文海報(bào)環(huán)節(jié)我都很喜歡。這是我第一次來 ICLR,上一次我去的機(jī)器學(xué)習(xí)會(huì)議是 NIPS,NIPS 的規(guī)模簡直大得有點(diǎn)夸張。要是想把 NIPS 的每篇論文都看一遍,那肯定是做不到的。想把 ICLR 的每張海報(bào)都看看還有機(jī)會(huì),雖然其實(shí)也不一定有人愿意這樣做。
還有一點(diǎn)我喜歡的是,現(xiàn)場的企業(yè)招聘不像 NIPS 上的那么滑稽。在 NIPS 上有的企業(yè)會(huì)送轉(zhuǎn)得讓人心煩的陀螺,還有送緊身衣的,確實(shí)很獨(dú)特,但是因?yàn)槠髽I(yè)們都要絞盡腦汁想出一些獨(dú)特的紀(jì)念品以免被埋沒,最終的結(jié)果就變得怪怪的。在 ICLR 上我拿到的最奇怪的東西也就只是一雙襪子而已,不常見,但起碼不算亂來。
我注意到了這些論文,計(jì)劃稍后再仔細(xì)看看
Intrinsic Motivation and Automatic Curricula via Asymmetric Self-Play
Learning Robust Rewards with Adverserial Inverse Reinforcement Learning
Measuring the Intrinsic Dimension of Objective Landscapes(雷鋒網(wǎng) AI 科技評(píng)論注:Uber AI Labs 的這篇論文有一個(gè)生動(dòng)的講解視頻,我們做過翻譯,熟肉視頻請(qǐng)見 這里)
Eigenoption Discovery Through the Deep Successor Representation
TD or not TD: Analyzing the Role of Temporal Differencing in Deep Reinforcement Learning
DORA The Explorer: Directed Outreaching Reinforcement Action-Selection
ICRA 2018 是我第一次去關(guān)于機(jī)器人的會(huì)議。我都不知道應(yīng)該期待在會(huì)議上看到什么。我一開始做科研的時(shí)候是做機(jī)器學(xué)習(xí)的,然后做的東西開始和機(jī)器人技術(shù)沾一點(diǎn)邊,所以我的興趣更接近于「學(xué)習(xí)如何控制」,而不是「做一個(gè)新的機(jī)器人」。我自己理想的實(shí)驗(yàn)環(huán)境設(shè)定是,把真實(shí)世界的硬件看作一組抽象來處理。(我仿佛聽見有一位機(jī)器人專家蹲在墻角抹眼淚)
我的技術(shù)背景加上我對(duì)控制理論的外行般的理解,就意味著我對(duì)會(huì)議中的許多課題都不怎么熟悉。不過關(guān)于學(xué)習(xí)的論文還是挺多的,我還是很高興我去參會(huì)了的。
在我能看懂的這些研究里,讓我感到驚訝的是有如此之多的強(qiáng)化學(xué)習(xí)的論文。老實(shí)說,看到其中幾乎沒有什么論文在用純粹的無模型強(qiáng)化學(xué)習(xí),我感覺到有那么一點(diǎn)好笑。ICRA 有一個(gè)特點(diǎn)是,如果你的算法是在真實(shí)世界的機(jī)器人上運(yùn)行的,那么這篇論文被會(huì)議接受的可能性就會(huì)高很多很多。這就迫使你考慮數(shù)據(jù)效率的問題,從而在選擇方法的時(shí)候就讓純粹的無模型強(qiáng)化學(xué)習(xí)處于超級(jí)大的劣勢。當(dāng)我在場內(nèi)走來走去瀏覽的時(shí)候,我時(shí)不時(shí)就能聽到「我們結(jié)合了無模型強(qiáng)化學(xué)習(xí)和 X」這樣的話,而這個(gè) X 要么是一個(gè)基于模型的強(qiáng)化學(xué)習(xí)方法,要么是從人類演示中學(xué)習(xí),要么是從運(yùn)動(dòng)控制中學(xué)習(xí),反正就是任何對(duì)模型的探索過程有幫助的東西。
從更廣的角度說,這個(gè)會(huì)議還是比較看重實(shí)踐的。它當(dāng)然還是一個(gè)研究型的會(huì)議,里面也有很多內(nèi)容是還很值得揣摩的,不過同時(shí)你也會(huì)覺得,大家還挺接受方向很窄的、精準(zhǔn)針對(duì)一兩個(gè)問題的解決方案的。我覺得這也是因?yàn)橐褂谜鎸?shí)的硬件帶來的另一個(gè)結(jié)果。如果你的模型要實(shí)時(shí)運(yùn)行,那你就不能忽略了推理時(shí)間有多長;如果你從真實(shí)的機(jī)器人上采集數(shù)據(jù),那你就不能忽略了數(shù)據(jù)效率。真實(shí)的硬件才不關(guān)心你會(huì)碰到什么問題。
這讓我想起 RFC 1925 里關(guān)于系統(tǒng)設(shè)計(jì)的兩條真理
1. 它必須是有效的。
2. 不管你自己的要求有多高,你不管你怎么排優(yōu)先級(jí),你都沒法增加光速。
和我聊天的很多做機(jī)器學(xué)習(xí)的人都對(duì)此感到驚訝,不過機(jī)器人技術(shù)領(lǐng)域的人也確實(shí)不像參加 NIPS、ICLR、ICML 的人那樣完全擁抱了機(jī)器學(xué)習(xí),其中一部分原因是機(jī)器學(xué)習(xí)不一定總是有效。機(jī)器學(xué)習(xí)是一種解決方案,但是它不保證是合理的。我的感覺是,ICRA 上真的非常積極地希望看到機(jī)器學(xué)習(xí)方法失敗的人不多,也就那么幾個(gè)。大多數(shù)人用機(jī)器學(xué)習(xí)都還是一切 ok 的,只要機(jī)器學(xué)習(xí)方法能證明自己。在一些領(lǐng)域里,機(jī)器學(xué)習(xí)已經(jīng)證明了自己。每一篇我看到的關(guān)于感知的論文都是用了某一種 CNN。但是用深度學(xué)習(xí)做控制的人就少得多了,因?yàn)檫@里有很多東西都是不確定的。有很多人認(rèn)為深度學(xué)習(xí)就是流行一陣子,雖然我不太同意他們,但是能聽到領(lǐng)域內(nèi)的不同觀點(diǎn)還是挺好的一件事。
和 ICLR 一樣,也有很多企業(yè)在現(xiàn)場招聘,或者做一些展臺(tái);和 ICLR 不一樣的是,這些展臺(tái)的內(nèi)容看起來有意思得多。大多數(shù)企業(yè)都會(huì)帶幾款自己的機(jī)器人來做演示,看機(jī)器人表演畢竟總是一件讓人身心愉悅的事情,要比聽千篇一律的招聘宣講不知道強(qiáng)到哪里去了。
在去年的 NIPS 上,機(jī)器學(xué)習(xí)企業(yè)的那片展位有點(diǎn)讓我想起 UC 伯克利的校園招聘會(huì),而且是不好的那種想起。每個(gè)科技企業(yè)都想招 UC 伯克利的畢業(yè)生,招聘會(huì)就變得像是一場軍備競賽,大家都在比誰的薪水開的高、誰的茶點(diǎn)看起來比較好吃。看起來好像,每個(gè)企業(yè)的目標(biāo)都是希望讓自己看起來盡量地酷,但同時(shí)又都不說招你去到底是為了讓你做什么。到了機(jī)器學(xué)習(xí)這邊,企業(yè)們的自我包裝方式就是在看起來漂亮的休息區(qū)酒吧辦越來越精巧的 party。機(jī)器人領(lǐng)域的企業(yè)還沒浮夸到那個(gè)程度;雖然也在增加,但是泡沫還沒那么多。
我聽了幾個(gè) workshop 的演講,講真實(shí)世界中的機(jī)器人都是拿來做什么的,聽起來都很有意思。研究型的會(huì)議傾向于關(guān)注理論研究和網(wǎng)絡(luò)的討論,經(jīng)常讓人忘了科研其實(shí)也可以有明確的、即時(shí)的經(jīng)濟(jì)價(jià)值的。農(nóng)業(yè)機(jī)器人那一場就有一個(gè)演講,講的是如何用計(jì)算機(jī)視覺發(fā)現(xiàn)雜草,然后只在雜草上噴除草劑,在我聽來簡直完美。用的除草劑也少了,對(duì)作物的傷害也小了,也減緩了雜草對(duì)除草劑產(chǎn)生抗性的速度。
機(jī)器人領(lǐng)域鼎鼎大名的 Rodney Brooks 的一場很棒的演講也是類似的思路,他講了把機(jī)器人技術(shù)變成消費(fèi)級(jí)產(chǎn)品需要注意的幾件事,舉的例子就是 Roomba 掃地機(jī)器人。根據(jù)他介紹,在設(shè)計(jì) Roomba 的時(shí)候他們首先考慮的是價(jià)格,然后把機(jī)器人的所有功能設(shè)計(jì)得與那個(gè)價(jià)格相符。然后他們就發(fā)現(xiàn),幾百美元價(jià)格的產(chǎn)品里留給厲害的傳感器和計(jì)算硬件的預(yù)算余地非常小,能放在機(jī)器上做的推理計(jì)算也有了一個(gè)非??量痰南拗?。
(他在演講中還大聲批評(píng)了人類與機(jī)器人交互方面的研究,雖然似乎和演講主題無關(guān),但是聽起來真的很有趣。給感興趣的各位講講好了,他報(bào)怨說大家都故意用了很多復(fù)雜的數(shù)學(xué)公式來做樣子,其實(shí)本質(zhì)的想法很簡單;他說有人在論文中提出了很大的想法但是實(shí)驗(yàn)的樣本規(guī)模并不足以支持這些想法;也有研究人員會(huì)在人類的行為和模型的預(yù)測不一致的時(shí)候責(zé)怪人類行為的非理性。我自己對(duì)人機(jī)交互沒什么了解,所以我就不作評(píng)論了)
從會(huì)議組織的角度講的話,我覺得 ICRA 真的辦得很好。會(huì)議中心隔壁就有打印的地方,所以在會(huì)議注冊(cè)的時(shí)候,工作人員會(huì)問你有沒有在指定的日期把你的海報(bào) PDF 郵件發(fā)過來,然后他們就會(huì)處理好下單打印的各種事項(xiàng)。你只需要在線支付了 PDF 的打印費(fèi),然后等著在會(huì)議期間去取就好了。所有的論文海報(bào)展示都是在下圖這樣的多合一展位上進(jìn)行的,每個(gè)隔間里都有一張白板和一層架子,你可以把自己的筆記本放在上面播放視頻(對(duì)于機(jī)器人技術(shù)方面的研究,放視頻真的很重要)
我注意到了這些論文,計(jì)劃稍后再仔細(xì)看看
OptLayer - Practical Constrained Optimization for Deep Reinforcement Learning in the Real World
Semantic Robot Programming for Goal-Directed Manipulation in Cluttered Scenes
Interactive Perception: Leveraging Action in Perception and Perception in Action
via alexirpan.com,雷鋒網(wǎng) AI 科技評(píng)論編譯
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。
本專題其他文章