0
本文作者: 賴文昕 | 2024-11-12 16:23 |
作者 | 賴文昕
編輯 | 陳彩嫻
近日,伯克利大學 Sergey Levine 團隊發(fā)布了一項強化學習方向的重磅工作——HIL-SERL,引起了具身智能領域的廣泛討論與關注。
根據實驗結果,基于強化學習框架 HIL-SERL,研究者可以直接在現實世界中訓練基于視覺的通用機器人操作策略。其中,機器人經過 1~2.5 小時的訓練后,就能完成主板、儀表盤以及正時皮帶組裝等操作任務。
而且,機器人完成所有任務的成功率均高達 100%!
這些任務包括組裝家具、顛勺煎蛋、鞭打積木、插入 U 盤等操作,即使在人為干擾的情況下,機器人也依舊能夠穩(wěn)定、靈活地完成任務。
此前,強化學習(RL)總是被業(yè)內人士詬病其只能在模擬環(huán)境中改進算法性能,無法解決現實世界里真實機器人的問題。但 SERL 系列的工作證明,真機 RL 不是天方夜譚——如今,強化學習不僅能應用在現實世界中,且在精準靈巧的操作任務上效果極佳,且遠超模仿學習方法,節(jié)拍數也平均快了 1.8 倍。
換言之,SERL 是真機 RL 機器人領域的一個劃時代工作。而這個工作的核心作者,就是中國青年科學家、伯克利在讀博士后羅劍嵐。
羅劍嵐
今年年初,羅劍嵐團隊提出了高效機器人強化學習套件 SERL,機器人能用 20 分鐘學會裝配電路板,成功率同樣是 100%。
HIL-SERL 是基于 SERL 的升級版。但不同的是,HIL-SERL 結合了人類的示范和糾正來訓練強化學習策略,而 SERL 僅依賴于人類的示范。
加入人類糾正這一微小的差異,對于讓策略從錯誤中學習并提高性能至關重要,特別是針對那些對智能體來說得從頭開始學習的任務。而且,HIL-SERL 專注于相對困難的任務,還解決雙臂協(xié)調或動態(tài)操作的問題。
項目鏈接:https://hil-serl.github.io/
HIL-SERL 的效果也出乎了羅劍嵐與導師 Sergey Levine 的預料,看到成果后,Sergey 對羅劍嵐說的第一句話就是:“You really made RL work.”(你真的讓強化學習跑起來了。)
在不久前 AI 科技評論發(fā)布的《伯克利具身智能圖譜》一文中,我們簡單介紹了羅劍嵐在伯克利研究強化學習與機器人結合的故事?;厮葸^去,羅劍嵐已在機器人真機 RL 方向“固執(zhí)”了將近十年時間。
2015 年,羅劍嵐到伯克利機械工程系讀機器人控制博士,同時開始探索 Robotics+AI,并在 Pieter Abbeel 的指導下攻讀計算機系碩士。在他的博士論文答辯中,Pieter 也是他的博士答辯委員會 co-chair。
在強化學習里,仿真器是不可缺失的一環(huán),在模擬環(huán)境中實驗測試結果的分數越高,算法效果自然就更好。但同時,如何將強化學習落地到現實世界中也是機器人領域一直懸而未決的問題。畢竟,MuJoCo 的物理模擬再精確,也并非真實的物理世界。
于是,從博二的第一個強化學習工作開始,羅劍嵐就一直在研究如何讓強化學習在真實世界中落地。這當中,強化學習的研究從 AlphaGo 的如日中天到變得漸漸冷門、甚至被行業(yè)唱衰,但羅劍嵐一直堅信,機器人的真機 RL 是一個長期命題,一旦克服、將對機器人學習的突破產生范式般的變革。
2020 年博士畢業(yè)后,羅劍嵐加入了谷歌,先后在 DeepMind、Everyday Robot 與 Google X 等部門工作,由此學習了更多從底層動力學到上層控制的機器人系統(tǒng)知識。與此同時,他也一直堅持探索機器人與強化學習的結合。
2022 年,當所參與項目被孵化為工業(yè)機器人創(chuàng)企 Intrinsic 后,羅劍嵐重新回到了伯克利,在 Sergey Levine 團隊當博士后,是 Sergey 組最堅定的 RL 研究者。SERL 系列工作的探索,也是羅劍嵐在伯克利探索真機 RL 多年來取得的最具突破性成果。
以下是 AI 科技評論與羅劍嵐的對話。
重返學術
AI 科技評論:您在伯克利機械系讀博,那最早是如何接觸深度強化學習的呢?
羅劍嵐:機械系做的范圍大而全,我是控制方向的,最早控制論和強化學習就是對偶的存在,比如控制里的 HJB 方程,強化學習里的 Bellman Backup,都是原理相同的動態(tài)規(guī)劃方法。所以這個切換反倒能給我不同的視角看兩個領域怎么解決問題。
2017 年暑假,我參與了西門子伯克利分部的工作,把深度強化學習應用到工業(yè)生產中,學習策略以解決傳統(tǒng)機器人解決不了的問題,比如高精度裝配。
當時的任務是操作一個 3D 打印的齒輪,將其安裝到一個可活動的機械裝置上,要求設計的算法不僅要能進行規(guī)劃,還要能實時響應外部變化,并制定策略成功完成裝配。這個項目是我在強化學習領域的起點,也是和 Pieter Abbeel、Sergey Levine 合作的開始。
AI 科技評論:博士畢業(yè)后您在谷歌工作了兩年,為什么會決定重返學術,到 Sergey Levine 的組里讀博士后呢?
羅劍嵐:其實這是比較偶然的決定。
在谷歌期間,Stefan Schaal 讓我積累了很多硬核機器人知識,真正地從底層動力學到上層控制摸清楚整個機器人系統(tǒng)。當時我參與的項目注重于把 AI 用在工業(yè)生產上,提高生產力。在項目孵化為做工業(yè)機器人的 Intrinsic 后,我想著回國找教職,打算先做一年 part time 的博士后作為過渡,就問了當時也在谷歌兼職的 Sergey。
Sergey 當時訓練機器人完成簡單操作需要幾十個小時,通過我們的合作,我的工作里插拔等工業(yè)上較精密任務的成功率有 100%,并且只用了很短的時間,意識到團隊得有人既懂機器人系統(tǒng)又懂 learning 才好將二者結合,很熱情地建議我到他的組里全職做兩年博士后。因為我倆的能力比較互補,之前的合作又非常愉快,我便同意了。
AI 科技評論:回到伯克利后,您參與了 Open X-Embodiment 數據集的創(chuàng)建。
羅劍嵐:沒錯,最早在 2023 年 3 月,Open X-Embodiment 還是個團隊成員不足 10 人的小型探索項目,主要是伯克利、斯坦福與谷歌一起合作。我在里面負責最主要的線纜任務 Cable Routing,發(fā)現比較可行后,就決定擴大規(guī)模。因為之前的機器人數據集都很分散,我們想把行業(yè)內的學術、產業(yè)力量都拉進來,就給所有數據集作者發(fā)郵件,最后的合作者達到了 200 多人。
AI 科技評論:在最新的 HIL-SERL 之前,您先是在 2 月發(fā)布了 SERL,可以聊聊這個 idea 是怎么誕生的嗎?
羅劍嵐:要讓強化學習真正好用,就必須確保所有環(huán)節(jié)和選擇都正確無誤且放在合適的位置,因此盡管 AI 社區(qū)都想用強化學習來解決實際任務,但它門檻高,流程易出錯且不穩(wěn)定,一直難以攻克,很多人都已放棄用強化學習在真實世界里訓練策略。
所以在 2023 年初,我就萌生了一個想法,為社區(qū)提供一個開源的、端到端的解決方案,里面包括強化學習環(huán)境和機器人控制器,能讓大家下載下來后直接使用,就像現在拿仿真器訓練機器狗走路一樣簡單。
之前我在谷歌的工作,其實也涉及強化學習在真實世界的應用,比如在 2022 年我與 Sergey 的合作以及我在 DeepMind 參與的項目。在過往研究的鋪墊下,我在 2023 年 6 月開始帶領團隊做 SERL,與斯坦福、華盛頓大學、谷歌等幾家機構一起合作推進,進一步完善了以前的工作。
SERL 第一次實現能通過真實世界的視覺信息,用 20 分鐘完成精密裝配,學好一個策略。在 PCB 板組裝、電纜布線和物體重定位這些復雜任務中,每個策略平均訓練 25 到 50 分鐘,任務的成功率接近完美,而且即使在受到干擾時也能表現出極好的魯棒性,并展現出緊急恢復和校正行為。
整個研究的推進過程是一次真正的科學探索,我們實驗時發(fā)現了其中有一兩個非常關鍵的選擇,能讓整個系統(tǒng)運行地極好,當時我們也傻眼了。今年年初 SERL 發(fā)布后,海內外很多機構也開始使用它,比如北大、波士頓動力AI研究院、谷歌等等。
論文鏈接:https://arxiv.org/pdf/2401.16013
現實世界的擁護者
AI 科技評論:聽起來您是現實世界和真實數據的堅定擁護者?
羅劍嵐:沒錯,回到 2017 年第一次接觸強化學習時,大家的研究都在仿真里,在 MuJoCo 模擬環(huán)境中進行強化學習實驗、刷榜、發(fā)論文還是常規(guī)操作,但我覺得那些強化學習的算法性能榜單并沒有解決實際問題,與現實世界的機器人控制問題其實是脫節(jié)的。實際上,強化學習的采樣效率一直是個問題,至今沒有很多人用在真實機器人上。
當然,仿真對移動(locomotion)很有效,但這不是魔法,仿真是人根據物理模型寫的,其實是在做基于模型的控制,只不過仿真給了更好的計算工具。
而移動是一個相對簡單的問題,模型也比較簡單,四足狗是桌子模型,雙足是倒立擺。挑戰(zhàn)在于模型不準確狗摔倒,或者外界擾動稍大走路打滑,但這些不確定比較有限。這些問題用傳統(tǒng)的 MPC(基于模型的控制)和魯棒控制也能解決得很好,比如對不確定性有一個定量估計,那么我們可以設計出對這個 bounded uncertainty 魯棒的控制器。
今天的波音客機就是根據此原則來設計控制器的,它能對油量的變化造成的飛機重量變化,高空中氣流的變化等等都保持有效,這也是民航客機能夠安全運行,我們放心坐上去的保證,所以基于模型的控制是十分有效的,只不過入門門檻及對工程能力的要求太高,剛入門的研究人員一般不太愿意在這上面深耕。
而在操作中,本體的模型是確定的,你讓機械臂往左走它一定會往左走,真正的難點在于外部環(huán)境無窮無盡的變化和難以計算的復雜物理, 比如物理接觸和柔性物體,需要處理的復雜度幾乎是無限的。
因此,在真實環(huán)境中進行訓練是必要的。雖然現在有些成功的深度學習仿真系統(tǒng),但如果你構建了一個仿真器,從中學習出的策略是不可能超越仿真器本身能力的。最終,你的仿真器會限制你的策略學習。我們不能因為使用仿真器解決了一個相對簡單的問題就認為它一定會解決另一個難得多的問題,從而不去解決這個困難問題的本質,反而被困在“鞍點”里,去繞路構造這個困難問題的近似(proxy)來嘗試去解決它。這樣長遠來看,會失去找到全局最優(yōu)解的能力。
在仿真環(huán)境與現實世界做操作存在顯著差異,尤其是在涉及視覺輸入的情況下。因此我的研究重點一直放在如何設計出具有高樣本效率的算法上,而且要與硬件和控制器對接無誤。例如,在有視覺信息的情況下,能夠在 20 分鐘內在現實世界中學會一個非常復雜的策略,而其他方法無法解決。
Sergey 也是真實世界數據的堅定支持者,有次我倆徒步時聊天,說起如果有 100 億美元,是去建世界上最大最好的仿真器,還是去收世界最大的數據集?我們的答案很一致,就是數據集。
AI 科技評論:看來您很早就開始研究強化學習在現實世界中的應用了。
羅劍嵐:是的,我對真實的機器人比較感興趣,在和西門子合作的項目里解決問題時就有試著把強化學習用在現實世界,但當時強化學習搞不定。它行不通,我就想把它弄明白,所以從 2017 年開始,我就一直沿著這個主線研究,花了很長時間,但我好像也沒發(fā)現誰比我更快做出來,因為很多人試了一兩次不 work 就放棄了。
之前很多人認為在現實世界中應用強化學習并不是一個好方法,因為機器人需要算法與硬件和控制器方面進行極佳的對接,才能使整個系統(tǒng)運行良好。在HIL-SERL中,我們的系統(tǒng)能在1-2小時內利用視覺輸入,在一系列工業(yè)生產、動態(tài)操控和靈巧操作的任務上取得100%的成功率。
大家現在使用仿真的一個主要觀點是機器人真實數據很難獲得,仿真可以瞬間生成 100 億數據,但沒有人會反對如果有真實數據,最有用的還是真實數據。但這不是問題的本質,十年后我們有一億個機器人部署在真實世界中,不斷分享著真實物理數據(physical experience),那時我們再來看現在的困局,很多問題將不存在,很多觀點將變得無關緊要。
現有的數據量、部署的機器人,都不足以讓我們產生確切的科學結論,所以才會百家爭鳴。遠的不說,誰先第一個部署 1000 臺人形機器人到工廠里,這些 24x7 傳回來的數據就足以讓我們產生新的范式和科學結論,我們先從這些半封閉空間的問題入手,一旦對問題有了更深的了解,得出的方法論才會更進一步延伸到無約束空間的問題。
作為科學家,我們應該關注更遠的未來,比如五年或十年后的技術發(fā)展,需要解決一些基礎的科學問題,探討現在無法實現但未來可能產生重大影響的事情。
強化學習之于具身智能
AI 科技評論:大模型的誕生好像讓強化學習的熱潮在 Robot Learning 領域冷卻了不少。
羅劍嵐:如果說 2016-2021 年的主線是以伯克利為首的強化學習,那么 2021 年隨著大模型興起,收集數據和大模型的結合變成了新潮流,比如說谷歌的 RTX 系列?,F在的趨勢是大模型繼續(xù)火熱,強化學習強勢復蘇,二者結合,大模型實現初步 50-60% 的策略,再用強化學習算法逐步提升至 100%。
雖然我也做大模型,但我認為自己的代表作和研究重點還是強化學習,因為 HIL-SERL 目前實現的成功率是 100%,周期時長也更短。
如果局限于大模型,其實無論如何收集數據,人與機器人的觀察仍會存在差異。人類擁有記憶、大腦和思維,而機器人模仿人類行為時難免會有缺陷。理論上,機器人的行為無法實現對人類 100% 的完美復制。那么如何接近呢?這就需要強化學習,比如讓機器人像人類學習騎自行車一樣,通過嘗試和犯錯來學習,看電視或父母教導固然有用,但要真正掌握技能,必須親自嘗試和經歷失敗。
我預測,現在這些大規(guī)模使用模仿學習的創(chuàng)業(yè)公司,在他們試過之后,知道痛點在哪之后,明年開始就會用強化學習去優(yōu)化成功率,節(jié)拍數,和一定的魯棒性。
AI 科技評論:那您是如何看待強化學習在機器人學習或具身智能里發(fā)揮的作用呢?
羅劍嵐:在機器人學習中,機器人也必須與環(huán)境互動,從環(huán)境中得到反饋,然后根據這些反饋調整策略,以達到更高的成功率——這是一個根本的邏輯問題。與大模型不同,物理世界的機器人學習是一個復雜的系統(tǒng),涉及多維、高維度的數據,難以簡單實現,但一旦成功,就能超越人類,成為超級系統(tǒng)。
例如,人類需要 10 秒鐘完成的任務,機器人通過多步推理,可能只需 5 秒鐘就能完成。這是一個非常強大的工具,我們仍在探索如何有效使用它。但可以肯定的是,它將是具身智能不可或缺的一部分。有趣的是,在和機器人領域的專家交流時發(fā)現,他們會更關注基礎模型完成現實操作任務的成功率,50-60% 會使他們失去興趣,但得知我們能實現 100% 便會很好奇我們的成果。
Rich Sutton 的 bitter lesson 說歷史告訴我們 learning 和 search 是兩種可以無限 scale 的方法。模仿學習可以告訴我們怎么從數據中找到特征,但是沒有 search 或 optimization(RL),它超越不了數據的局限,從而以新的方式解決新的問題。
中國優(yōu)勢:高質量、低價格
AI 科技評論:您怎么看待現在具身智能越來越火熱的趨勢呢?中國的優(yōu)勢在哪里?
羅劍嵐:以前的確沒想到具身智能會火,我們自己還開玩笑說 robot learning 是個自嗨的小圈子,這么多年來我第一次覺得自己屬于主流了。
我非常認可國內的供應鏈優(yōu)勢。其實有很多機器人的卡點是在硬件上,當硬件做好了,軟件就可以輕松很多,得硬件和軟件一起迭代,而不是在較差的硬件上開發(fā)算法。
當我們提到“性價比”一詞時,總會下意識覺得這意味著“平替”的質量差了不少,但現在,中國在全球產業(yè)鏈、供應鏈中的作用并非僅僅是降低成本。例如,波士頓動力的機器狗產品定價在 5 萬美元,之前沒有人打破,但宇樹成功了,而且不是以低質量的方式成功的。
中國作為擁有完整產業(yè)鏈的工業(yè)國家,正在重新定義產品價值和定價體系,目標不是制造廉價產品,而是通過全產業(yè)鏈的優(yōu)勢,重新教育和定義市場,確立自己的定價權。
AI 科技評論:可以分享一下您接下來的計劃嗎?
羅劍嵐:其實我出國的時候就想回國,從來沒想過長期待在海外。在學校里從事由 0 到 1 的開創(chuàng)性科研,就算需要長時間坐冷板凳,但從長遠來看,這價值是巨大的。人生苦短,只有幾次機會能夠實現重大突破,如果錯過了,那至少也努力過了。
我認為突破性的原創(chuàng)研究如果能真的轉化為實際應用,會創(chuàng)造更大的社會價值,伯克利和斯坦福的成功離不開硅谷周遭的創(chuàng)業(yè)生態(tài)。機器人是一個與產業(yè)緊密結合的實用科學,能將科研成果從 1 擴展到 100,實現產業(yè)化。在這方面我最佩服的人是李澤湘老師,他共同創(chuàng)立的大疆不僅是一家價值數百億美元的公司,更重要的是在09-10那個時間點證明了源自中國的硬科技創(chuàng)新是可以成功的,這徹底改變了中國科技的歷史,這個意義遠大于它的經濟價值。
Khosla venture 的創(chuàng)始人 Vinod Khosla 說過一句話,創(chuàng)新從來不發(fā)生在一個系統(tǒng)的核心部分,它永遠發(fā)生在系統(tǒng)的邊緣(“Innovation never happens at the core of a system, it always happens at the edge")。系統(tǒng)的核心部分有它的既得利益,沒有足夠的動力去顛覆自己的利益來創(chuàng)新,而在系統(tǒng)邊緣,一個好的想法被嘗試,然后經歷失敗再不斷的嘗試,不確定性會變低,成功的概率就會變大,如果它足夠重要,就會產生顛覆性的創(chuàng)新。
就好像沒有一次的科技革命是被一個幾萬億市值的大公司引領的,也很少有重大的科學發(fā)現是科學家快退休時做出來的。汪滔創(chuàng)業(yè)時擠在深圳十幾平米的小平房里,用今天的話來說就是沒有資源,所以大疆的成功會激勵中國的年輕人去創(chuàng)造下 100 個、1000 個大疆。
接下來我會關注通用高性能機器人,尤其是在工業(yè)生產領域。盡管目前車廠的自動化水平很高,但實際上還有很多工作需要人工完成,因為今天的機器人還無法靈活地處理多變的任務。強化學習等技術將很快應用到這些領域,改變現有的生產模式。例如,特斯拉和富士康等公司已經開始使用機械臂進行柔性生產,以適應不斷變化的生產需求。這種生產模式的轉變正在全球范圍內發(fā)生,它不僅能夠提高生產效率,還能解放人類的創(chuàng)造力。
我認為,全球制造業(yè)的產值巨大,但自動化的比例仍然很低。如果能夠通過機器人技術提高自動化水平,不僅可以降低人力成本,還能釋放人類的生產力,讓人類有更多機會去探索和創(chuàng)新。這種變革已經在一些先進的工廠中得到體現,例如現代汽車在新加坡的新工廠,就采用了更靈活的生產單元模型,取代了傳統(tǒng)的生產線,使得生產更加靈活和高效。
關于具身智能領域的更多精彩故事,歡迎添加雷峰網(公眾號:雷峰網)作者微信 anna042023 交流。雷峰網
相關文章:
雷峰網原創(chuàng)文章,未經授權禁止轉載。詳情見轉載須知。