0
作者 | 賴文昕
編輯 | 陳彩嫻
不久前,首屆“人形機器人半程馬拉松”在北京亦莊舉辦,為本就熱度滿滿的具身智能行業(yè)再添了一把火。
一共 20 支隊伍組成的“鋼鐵生命競賽”,讓此前集中在實驗室 demo 階段的人形機器人們,跑到真實場景中接受試煉,最終共有 6 支隊伍完賽,完賽率為 30%。
質疑隨著掌聲紛杳而至:具身智能真的不是泡沫嗎?
對此,千尋智能具身智能部負責人解浚源表達了自己對“具身智能 Scaling Law”的看法。
“對于機器人來說,現(xiàn)在的規(guī)模仍處于 Scaling Law 里非常早期的狀態(tài)。”解浚源解釋道,“盡管賽道火熱,但相較于大模型公司來說,大家的規(guī)模和估值都還較低,現(xiàn)在制約具身智能領域的不是算力和資本的投入,而是硬件迭代的客觀周期,即做量產可靠的機器人、管理大規(guī)模數(shù)據(jù)采集工廠所需的時間。這是一個制造業(yè)的問題,比軟件慢一些,但相信在中國強大的供應鏈體系的支撐下,我們每年都能上一個數(shù)量級?!?/p>
就在上個月,解浚源在朋友圈正式宣布了自己加入具身智能創(chuàng)業(yè)公司千尋智能,全面負責具身大模型的研發(fā)。
此前,解浚源在深度學習框架和系統(tǒng)鉆研十余年,曾任亞馬遜資深科學家,在明星部門 AWS 負責深度學習算法和系統(tǒng)研發(fā),是開源深度學習框架 MXNet 的主要開發(fā)者和維護者之一;2019 年又加入字節(jié)跳動的應用機器學習(AML)部門任 AI 高級專家。
作為具身智能領域的跨界人才,這其實并不是解浚源的第一次“破格嘗試”。
解浚源本科就讀于中國科學技術大學的計算機系,在大三那年就以一作的身份在頂會 NeurIPS 上發(fā)表工作,用深度神經網(wǎng)絡對圖像去噪與修復,論文引用量至今已超 1.9k。
2013 年,解浚源本科畢業(yè)后赴美深造,在華盛頓大學讀博,先是做了一年左右偏理論的研究。他發(fā)現(xiàn)自己對偏應用的工作更感興趣,便主動找到了現(xiàn)艾倫人工智能研究所(AI2)的 CEO Ali Farhadi,提出做與計算機視覺(CV)應用相關的研究,隨后又同在 Meta FAIR 任職并提出深度學習算法 R-CNN 系列的 Ross Girshick 合作。
出于個人興趣和研究需要,解浚源開始了對深度學習框架的探索,因認為相對成熟的框架 Theano 和 Caffe 不太好用,便試著自己寫框架,但仍覺得所搭建的框架比較粗糙、不夠靈活。
2015 年中,就在谷歌大腦團隊發(fā)布 TensorFlow 的幾個月前,解浚源收到了同屆好友陳天奇推薦的深度學習框架 MXNet 的 demo,開始試用了起來,一邊在自己的研究中使用,一邊對其作出改進。
MXNet 由三個開源項目合并而成,分別是陳天奇的 CXXNet、張錚及其學生王敏捷牽頭的 Minerva 和顏水成學生林敏牽頭的 purine2。同時參與 CXXNet 和 Minerva 的李沐意識到兩個項目能合并起來取長補短,便有了 MXNet(意為 mixed-net)的雛形,在 purine2 加入后于 2015 年年底正式開源。
2016 年底,亞馬遜宣布將 MXNet 選為公司最主要的深度學習框架并為生態(tài)系統(tǒng)的開發(fā)提供軟件代碼、文檔和投資。次年初,一直在為 MXNet 做架構的解浚源加入亞馬遜 AWS,繼續(xù)做 MXNet 相關的算法和系統(tǒng)研發(fā)。
2019 年,解浚源回國加入字節(jié)跳動的應用機器學習(AML)部門,先后負責優(yōu)化推薦系統(tǒng)、搭建聯(lián)邦學習平臺、AI 芯片以及大模型的 ToB 業(yè)務。
今年,解浚源又再度“轉行”,跨入了具身智能賽道,成為了千尋智能的具身智能部負責人,他表示,“機器人快速發(fā)展爆發(fā)的時刻即將來臨,我不想錯失這個機會?!?/p>
以下是 AI 科技評論與解浚源的對話。
跨界入局具身智能
AI 科技評論:加入千尋已經不是您的第一次“轉行”,可以分享一下您的跨界經歷嗎?
解浚源:我博士讀的是 CV 算法方向,但一直對寫代碼、做工程很感興趣,接觸 MXNet 后先是自己邊用邊改,接著慢慢從自己貢獻到開始回別人的問題、做 Code Review,后來慢慢地開始做整體的架構。
在這過程中我寫了越來越多與自己研究無關的代碼,摸索出自己的興趣所在。隨著 MXNet 被亞馬遜采用、李沐畢業(yè)后也去了亞馬遜,我覺得自己繼續(xù)做研究沒有比做框架和工程有意思,所以就在博三休學了,去亞馬遜做 MXNet 的架構師。
在亞馬遜的工作基本上圍繞 MXNet 展開。比如推廣框架需要 SOTA 模型和 Model Zoo,為了給 MXNet 做一個最好 CV 方向的模型,當時團隊整理了已有文獻資料里的技巧(trick),把所有 trick 整合起來發(fā)現(xiàn),每疊加一個,效果可以往上漲,最后做了效果最好的 ResNet-50,發(fā)了“Bag of Tricks”工作。
后來一位在字節(jié)的師兄介紹我和剛去字節(jié)負責推薦系統(tǒng)的劉小兵認識,我們聊得很投緣,后面就決定加入字節(jié)。一開始還在字節(jié)美國,后來發(fā)現(xiàn)業(yè)務核心在國內,我就在 2019 年回國,在 AML 組做推薦系統(tǒng)的優(yōu)化。
接著我做了聯(lián)邦學習平臺,旨在解決廣告主在抖音投放廣告時因競爭產生的數(shù)據(jù)安全與隱私顧慮,通過聯(lián)邦學習實現(xiàn)跨平臺合作優(yōu)化廣告投放效果,同時避免直接數(shù)據(jù)共享。后來還做過新硬件項目,是關于非英偉達的 GPU 加速卡的調研和引進,2023 年后又在火山做大模型的 ToB 業(yè)務,算是 CV、系統(tǒng)、框架、搜廣推、大模型等都有所涉獵。
AI 科技評論:您之前的經歷集中在深度學習系統(tǒng)與框架,是什么關鍵事件讓您決定踏入具身智能這一需要物理交互的領域?為何認為當下是入局的最佳時機?
解浚源:今年年初,我和一位在美國的同學聊天,對方向我分享了 Physical Intelligence 公司的 demo,視頻里展示了該公司的機器人在疊衣服、紙箱,實現(xiàn)了對可形變的柔性物體的操作。
看完后我覺得眼前一亮,因為讀博時自己一直做比較抽象的軟件,覺得硬件這種看得見摸得著的東西很好玩,所以會很關注機器人領域的發(fā)展。但當時我覺得機器人進展很慢,動作特別僵硬,能做的事情極少,只能拿杯子這種不可形變的剛體做一些簡單操作,離實際使用特別遙遠。
而 PI 的 demo 實現(xiàn)了以前不可想象的機器人對可形變柔性物體的操作。對于一件衣服而言,有一萬種方法把它團成一團,這對于機器人模型的識別而言,難度極高,顯然機器人領域有了很大的飛躍。所以我就去詳細研究了相關技術,包括最近很火的 VLA 技術,還看了自動駕駛對 VLA 的應用。
我發(fā)現(xiàn)端到端的 VLA 是條正確的技術路線,讓機器人走上了類似從 GPT-2 到 GPT-3 再到 GPT-4 的路徑,而現(xiàn)在的節(jié)點在GPT-2~GPT-3 之間,屬于 Scaling Law 里非常早期的階段,但已經展現(xiàn)出非常好的性能。那既然機器人快速發(fā)展爆發(fā)的時刻即將來臨,我不想錯失這個機會,就集中看了各家機器人公司。
AI 科技評論:可以聊聊您加入千尋智能的背后故事嗎?現(xiàn)在您和團隊其他成員們是如何分工配合的?
解浚源:在確認要加入具身智能賽道后,我就找了投資人朋友跟各家做具身智能的公司牽線交流。選擇千尋是覺得千尋的能力比較強,且大家理念相合、比較投緣。現(xiàn)在我主要帶領具身智能部,具體負責機器學習、AI 相關的算法、系統(tǒng)、平臺,匯報給高陽老師。
大家擅長的方向都比較互補,韓總(韓峰濤)是機器人行業(yè)的連續(xù)創(chuàng)業(yè)者,對機器人行業(yè)有著深刻的洞察和豐富的經驗。高老師和我負責 AI,高老師在算法研究和技術大方向上有比較多的經驗,而我在大廠干了很多年,則對工程化和落地更有經驗。
AI 科技評論:從最早的 CV 到框架,再到大模型和具身智能,作為多次“跨界人士”,您覺得您過往的經驗積累如何幫助您應對機器人領域的挑戰(zhàn)?是否遇到過因缺乏硬件、機械等機器人先驗知識而必須補足的“認知盲區(qū)”?
解浚源:從 MXNet 開始,我就一直在做系統(tǒng)和框架。其實框架和系統(tǒng)在這么多年都是一套東西,不管是做什么應用,CV、推廣搜、大模型、具身智能都是一套底層的系統(tǒng)和框架,所以好處在于可以比較絲滑地換業(yè)務,因為各個大方向都要用到 AI 及系統(tǒng)方面的東西。
我加入千尋前大家主要在做算法的驗證階段,我加入后發(fā)現(xiàn),當時算法工程師寫的基建代碼比較粗糙,所以我就梳理了基建,把以前擅長的并行、算子優(yōu)化、框架設計都直接應用過來。因為和之前的東西做得差不多,所以還比較駕輕就熟,現(xiàn)在把新的基建也搭了起來。
而在具體業(yè)務上,我對機器人有著比較快的直覺上的理解。盡管目前還在學習一些具體的控制算法等新知識,但因為機器人看得見、摸得著,看著它的表現(xiàn)就能建立直覺上的理解,所以并沒有太多對于跨界的不適應。
比如有個項目是得把夾爪夾到電池上,當時出現(xiàn)的問題是夾爪進得太淺,會磕到電池,夾不進去。我看了模型的表現(xiàn)和數(shù)據(jù)采集的方式,發(fā)現(xiàn)采集時因為人比較熟練,經常從比較極限的位置夾。我就要求相關人員采集數(shù)據(jù)時,把弧線拉大一點,從稍遠的地方空出幾公分夾上去,這樣模型學習時就能學到拉遠和對準的過程,順利解決了問題。
但對于機器人動力學的知識,比如機械臂的關節(jié)數(shù)量、位姿和關節(jié)角度之間正解、逆解的變換等等,這些東西雖然我之前有了解過,但現(xiàn)在要重新夯實一下。
路線已收斂至 VLA
AI 科技評論:目前關于具身大模型的討論有很多,也有不少人認為路徑并未收斂,因此衍生出各種定義,對此您怎么看?您認為必須具備哪些核心特征或架構才能被稱之為具身大模型呢?
解浚源:雖然現(xiàn)在有說法稱具身大模型尚未收斂,但我覺得其實技術路徑已經收斂了,即大方向上比較確定為 VLA 路線,接下來就是 Scaling 的階段。
VLA 路線基礎的方向就是端到端,自動駕駛也是如此。自動駕駛之前一直做的是硬編碼、寫具有很多規(guī)則的系統(tǒng),但這兩年大家開始做端到端后,發(fā)現(xiàn)數(shù)據(jù)飛輪一旦轉起來,用端到端模仿人的方式,進步就非常快。大模型領域同理,大家把之前自然語言處理中很多規(guī)則、先驗的東西去掉了,直接做端到端的訓練,發(fā)現(xiàn)模型自己學的比人為設計的東西要好得多。
具身智能也是如此,自從端到端的 VLA 路線表現(xiàn)出比較好的效果后,技術路線就已經收斂了,因為一旦實現(xiàn)端到端,后面就全是端到端,不可能再往回走。
AI 科技評論:所以端到端 VLA 的路線其實是比較明確的,但最大的卡點是在于數(shù)據(jù)這一塊。
解浚源:沒錯,數(shù)據(jù)采集是這輪機器人技術最核心的難點。數(shù)據(jù)采集比以前 AI 需要做的所有數(shù)據(jù)標注工作都難,因為涉及物理世界的問題。要有機器人,要有數(shù)采員,要管理好整個供應鏈的機器人和數(shù)采員,讓他們能夠高效地采集多樣化的數(shù)據(jù)。
在這之中多樣化是很重要的。以前 AI 的數(shù)據(jù)標注比較機械,只要給標注員一張圖片,讓他們拉個框、點擊鼠標,很標準化。但是機器人數(shù)據(jù)不同,如果重復做一些標準的動作,采集再大規(guī)模的數(shù)據(jù)都沒有意義,反而采的越多,數(shù)據(jù)效率就會越低,所以一定要做多樣化。
不過在規(guī)模擴張的同時實現(xiàn)多樣化是一個很難的事。不能直接跟數(shù)采員說隨機采數(shù)據(jù),需要有一套很細致的管理方式,能把多樣性可量化地落實下去。
AI 科技評論:那需要如此高度工程化的數(shù)據(jù)采集,我們能在什么時候看到可觀的進步成果呢?
解浚源:機器人數(shù)據(jù)采集的規(guī)模每上一個數(shù)量級都能看到非常明顯的提升,即機器人在操作簡單物體的流暢度上、能執(zhí)行不同任務的數(shù)量上都能有提升。
此外,不同于現(xiàn)在在桌子前操作,未來機器人還能在相對開放的空間里走來走去,做一些相對開放性的任務。還有把大的指令自動拆分成一個個小任務,然后一個個執(zhí)行。這些我估計都能在未來一到三年被看到。
現(xiàn)在最重要的是如何高效地把規(guī)模提升??隙ú粫貏e快,但也不能太慢,太慢會被別人落下?,F(xiàn)在就是怎樣在硬件的制約下,以盡可能快的速度把規(guī)模做起來。
AI 科技評論:千尋近期披露了 VLA Spirit v1,和友商們同樣都在做疊衣服的任務,亮點和區(qū)別在哪里? 在 VLA 方面還有哪些新研究或應用嘗試?
解浚源:我們對機器人疊衣服的成功率要求很高,要實現(xiàn)一個比較高的水平,才能連續(xù)疊三件衣服,并一鏡到底拍出來。
還有個細節(jié)是,機器人在疊衣服過程中有一個把衣服甩平的動作,這樣比較快和自然,比較接近人疊衣服的狀態(tài)。但是甩是一個高動態(tài)的動作,要讓速度匹配慣性,所以要求以比較高的速度甩,還能做到精確,是比較不容易的。
這背后體現(xiàn)出的是我們搭建的整套工業(yè)化數(shù)據(jù)采集的 pipeline。因為 VLA 路線非常強,而且現(xiàn)在開源的視覺大模型的基礎模型非常強,所以給了機器人數(shù)據(jù)后,能讓它做一些看起來很不錯的動作并不是特別難。更難的是工業(yè)化迭代,解決一個個細節(jié)的問題,最后累積起來,讓模型的成功率從 50% 提升到 99%。這是具身智能工程化、落地最核心的能力。
當然我們現(xiàn)在還在建設和完善數(shù)采的 pipeline,有很多非常細節(jié)的東西,類似豐田當年“精益生產”的概念,這不是簡單的一個點,而是成千上萬的點累積起來,需要持續(xù)提升效果。
AI 科技評論:現(xiàn)在大家對具身智能落地的討論十分熱烈,您認為哪些場景是能先重點去突破的呢?
解浚源:我認為機器人的落地分為短期一兩年、中期三五年和長期十年的三個時間段。短期做工廠的落地,因為現(xiàn)在模型能力差不多了,需要工程化落地一些場景;從中期來看,更大的機會在服務業(yè)里,比如物流、商場貨架上貨、酒店服務這些,是為人服務的場景,這些場景的機會比工廠大很多;而長期的愿景是十年后,10% 的人有一臺自己的機器人,在家里協(xié)助自己做事。
具身智能的 Scaling Law
AI 科技評論:聽下來您應該算是一個妥妥的“真機派”?
解浚源:對,我和高老師在這方面的觀點比較相似,即不太相信仿真。千尋也不做很多仿真,仿真只是很小的輔助,我們不指望仿真能大幅提升模型性能。
這主要有三個原因——
一是柔性物體的仿真是個非常難的問題。做一個可以把衣服的物理特性模擬得很好的仿真器,可能比用機器人疊一件衣服還難。現(xiàn)有的游戲也沒有能把衣服的物理特性模擬得很好的,衣服都會穿模。如果真的要把衣服的物理性質模擬準確,疊起來還不穿模,需要對衣服做特別大規(guī)模的有限元分析(Finite Element Analysis),可能要用一個集群才能模擬一件衣服。這里面消耗的顯卡和工程成本已經比用真實機器人采疊衣服的數(shù)據(jù)更貴。而就算用只能模擬剛體的仿真器,也會發(fā)現(xiàn)生活中要操作的東西大多數(shù)不是完美的剛體,因此也不適用。
二是能從仿真器學到的東西不會超過在仿真器里做的工程量。想要模型從仿真器里學到更多東西,就得在仿真器工程上花更大精力,實際上等于用開發(fā)人員換數(shù)采人員,兌換比例很可能不劃算。
三是做仿真需要大量顯卡。顯卡在美國相對便宜,但在中國,顯卡比機器人貴,一塊 H100 的價格都到 20 多萬,但一臺機器人的成本沒有這么多。當機器人規(guī)模上量后,是比顯卡便宜的。因此用顯卡做仿真相對于美國沒有優(yōu)勢,但用大量機器人真機采集數(shù)據(jù),世界上只有中國能做,我們有強大的供應鏈、大量的熟練工人和工程師,做仿真相當于把優(yōu)勢放棄了。
AI 科技評論:但真機數(shù)據(jù)相對于仿真來說,是更難大規(guī)模上量的,這不就沒遵循 Scaling Law 嗎?
解浚源:我認為并非真機無法實現(xiàn)大規(guī)模量產,只是當前尚未達成這一目標。以中國強大的供應鏈能力來看,一萬臺機器人的產量并非難以企及,而且相較于一萬塊 H100 顯卡,一萬臺機器人的成本更低。目前,“AI六小龍”這類企業(yè)投入大模型研發(fā)的基礎配置已達到一萬塊顯卡。搭建萬卡集群相對迅速,畢竟顯卡是現(xiàn)成的,批量采購一萬塊顯卡,不到半年即可完成部署,但是搭建一萬臺機器人的數(shù)采工廠不可能這么快。
中國每年汽車量產規(guī)??蛇_數(shù)千萬輛,從體積和技術復雜性來看,機器人并不比汽車更高。不過在硬件層面,機器人的技術迭代存在客觀周期,無法像搭建顯卡集群那樣迅速通過資金投入加速推進。但循序漸進地提升量產規(guī)模是可行的,例如今年實現(xiàn)幾百臺,明年達到上千臺,后年有望突破一萬臺,關鍵在于給予足夠的時間周期,并非絕對無法實現(xiàn)大規(guī)模量產。
加上顯卡價格居高不下,英偉達顯卡毛利率高達 95%。與之相比,機器人的成本主要源于實際生產成本,不存在 20 倍暴利的情況,所以機器人在成本控制上具備優(yōu)勢,更有利于實現(xiàn)大規(guī)模量產推廣。因此,從資本投入角度而言,一萬臺機器人的數(shù)采規(guī)模和萬卡集群相比,對于中國公司來說效率更高。
AI 科技評論:您一直在強調數(shù)據(jù)的 Scaling Law,那這個規(guī)律在機器人和大模型這兩個領域里都有什么區(qū)別?
解浚源:主要就是機器人具有大模型不具備的數(shù)據(jù)壁壘和數(shù)據(jù)飛輪。
先是數(shù)據(jù)壁壘。大模型其實沒有數(shù)據(jù)壁壘,預訓練的數(shù)據(jù)都是從公開的網(wǎng)絡上爬的數(shù)據(jù),比如全網(wǎng)有 14 萬億的 token,大家用的都一樣,因為全人類高質量的文本數(shù)據(jù)只有這些。此外是花錢找人標注的數(shù)據(jù),而這些數(shù)據(jù)一旦訓到模型中公開提供服務,別人就能以非常低的成本直接蒸餾走。這就不光沒有先發(fā)優(yōu)勢,反而有先發(fā)劣勢。
換到互聯(lián)網(wǎng)領域,如果互聯(lián)網(wǎng)公司的數(shù)據(jù)能被人以非常低的成本全部拖走,那該公司就不值什么錢了,大模型是真的需要面對這個問題。而機器人不一樣的,機器人數(shù)據(jù)都是私有采集的,即用自己的機器人針對性采集數(shù)據(jù)。這個數(shù)據(jù)別人拿不走,最多拿走模型。而沒有數(shù)據(jù),只有模型,沒法迭代,沒法從 VLA 模型中把原有數(shù)據(jù)蒸餾出來。因此,數(shù)據(jù)之于大模型是包袱,之于具身智能卻是壁壘。
此外,大模型沒有數(shù)據(jù)飛輪,現(xiàn)在沒有哪家大模型公司能用用戶的交互數(shù)據(jù)訓練大模型,閉環(huán)提升業(yè)務指標。大模型在原理上就做不到這點,只能持續(xù)花錢找人工標注數(shù)據(jù),還會被蒸餾走。
而對于機器人來說,一旦在某個場景落地,就能一邊盈利,一邊收集更多的數(shù)據(jù),數(shù)據(jù)飛輪就轉起來了。之前互聯(lián)網(wǎng)賺錢幾乎唯一的壁壘就是網(wǎng)絡效益和數(shù)據(jù)飛輪。互聯(lián)網(wǎng)成功和高利潤的因素,大模型一個都沒有,而機器人有,和互聯(lián)網(wǎng)的模式比較像。
AI 科技評論:但具身智能里的數(shù)據(jù)壁壘較高,對行業(yè)的整體會利好嗎?
解浚源:目前開源的數(shù)據(jù)集規(guī)模都非常小,只能做學術研究,沒有工業(yè)落地的意義。私有的數(shù)據(jù)不需要那么多,并不是需要整個行業(yè)通力合作才能做出足夠大的數(shù)據(jù)讓機器人落地,一個公司擁有一萬臺機器人就夠了,完全可以自己承擔。
具身智能和大模型的共同點是 Scaling Law,區(qū)別是具身智能處于 Scaling Law 非常早期的位置,而大模型在摩爾定律進步之前是處在末期。摩爾定律兩年翻一倍,大模型要提10倍、100多倍規(guī)模,要等十、二十年。而具身智能現(xiàn)在還處于實驗室規(guī)模,一旦到工業(yè)規(guī)模就能上幾個數(shù)量級。如果相信 Scaling Law,就會相信具身智能性能進步的空間一定會非常大。
歡迎添加雷峰網(wǎng)作者anna042023交流。雷峰網(wǎng)(公眾號:雷峰網(wǎng))
相關文章:
阿德萊德大學吳琦:VLN 仍是 VLA 的未竟之戰(zhàn)丨具身先鋒十人談
雷峰網(wǎng)原創(chuàng)文章,未經授權禁止轉載。詳情見轉載須知。