0
作者 | 賴文昕 陳彩嫻
編輯 | 陳彩嫻
2009 年,當(dāng)蘇昊第一次走進(jìn)位于斯坦福 Serra Mall 353 號(hào)的蓋茨大樓時(shí),他剛經(jīng)歷完一場(chǎng)對(duì)人工智能的思想掙扎。
那時(shí)他剛參加完搭建 ImageNet。導(dǎo)師李飛飛從普林斯頓轉(zhuǎn)到斯坦福任教后,他也隨之從美國(guó)東部來(lái)到硅谷。在普林斯頓的算法課上,著名計(jì)算機(jī)科學(xué)家 Robert Schapire 認(rèn)為,“計(jì)算機(jī)視覺(jué)的解決還要 200 年”。蘇昊嘗試與他的朋友顧春輝(伯克利博士)交流傾訴,顧春輝寬慰他,說(shuō)視覺(jué)正處于黎明前的黑暗,但下一句是“可能還要黑暗 30 年”。
這難免使他對(duì)個(gè)人的學(xué)術(shù)命運(yùn)與職業(yè)生涯感到擔(dān)憂與迷惘。
結(jié)果,事物的發(fā)展出人意料——僅 3 年后,AlexNet 誕生,計(jì)算機(jī)視覺(jué)的星星之火迅速燎原,大規(guī)模數(shù)據(jù)集 ImageNet 也成為推動(dòng) 2D 視覺(jué)崛起的幕后大功臣。蘇昊初出茅廬就參與 ImageNet,這樣的機(jī)會(huì)千載難逢。
但相比鵲起聲名,這段經(jīng)歷起伏帶給他的最大影響,或許是對(duì)創(chuàng)造歷史的認(rèn)知:
真正能夠改變歷史的時(shí)間點(diǎn),早已在黎明前的黑暗中蟄伏許久。
風(fēng)起 3D:從 ShapeNet 到 PointNet
記得第一次在克拉克中心見(jiàn)到蘇昊時(shí),弋力就對(duì)這個(gè)師兄的印象深刻,覺(jué)得他“對(duì) 3D 視覺(jué)的發(fā)展有非常好的、有預(yù)見(jiàn)性的看法”。
那是 2014 年。當(dāng)時(shí)蘇昊正在向 Leonidas J. Guibas “推銷”一個(gè)遠(yuǎn)大的研究計(jì)劃:構(gòu)建一個(gè) 3D 領(lǐng)域的大規(guī)模幾何物體數(shù)據(jù)集,對(duì)標(biāo) ImageNet。
弋力從清華本科開(kāi)始接觸 3D 人臉生成,對(duì) 3D 視覺(jué)很感興趣,到斯坦福后也想繼續(xù)研究這個(gè)方向。當(dāng)時(shí) 3D 視覺(jué)領(lǐng)域的研究還是以三維重建、運(yùn)動(dòng)恢復(fù)結(jié)構(gòu)等傳統(tǒng)的課題為主,很少有人將重點(diǎn)放在數(shù)據(jù)上,蘇昊的想法很超前。
也因?yàn)槌?,Leonidas 一開(kāi)始很猶豫。Leonidas 是斯坦福幾何計(jì)算組的主任,也是蘇昊、弋力的博士導(dǎo)師。但蘇昊堅(jiān)持認(rèn)為這個(gè)想法值得放手一搏,在師兄黃其興的支持和幫助下,花大量的時(shí)間與精力去說(shuō)服 Leo,在組里力推。Leonidas 看到了初始數(shù)據(jù)集和初步的研究成果后同意在 2014 年開(kāi)始大規(guī)模 3D 數(shù)據(jù)的收集工作。
蘇昊
蘇昊的本科就讀于北京航空航天大學(xué),導(dǎo)師是李未。2005 年,李未將蘇昊引薦給沈向洋,沈向洋成為蘇昊在北航讀博的共同導(dǎo)師,蘇昊也由此進(jìn)入微軟亞研(MSRA)實(shí)習(xí),并在那里首次接觸到人工智能。
在 MSRA,蘇昊先跟著周明研究了一年自然語(yǔ)言處理,然后又跟著孫劍研究了兩年計(jì)算機(jī)視覺(jué)。那三年正是 MSRA 的黃金時(shí)代,蘇昊的右邊坐著徐立,后面坐著何愷明。
后來(lái)沈向洋轉(zhuǎn)去美國(guó),將蘇昊推薦給李飛飛。2008 年,蘇昊到普林斯頓學(xué)習(xí),正好參與了李飛飛當(dāng)時(shí)正在主導(dǎo)的大規(guī)模數(shù)據(jù)集 ImageNet 項(xiàng)目。2009 年,蘇昊跟著李飛飛從普林斯頓轉(zhuǎn)到斯坦福,在 ImageNet 之后又與李佳等人合作了 Object Bank。
那時(shí)深度學(xué)習(xí)還沒(méi)火,沒(méi)有人知道 ImageNet 會(huì)在未來(lái)引爆視覺(jué)圈,但蘇昊已經(jīng)開(kāi)始相信神經(jīng)網(wǎng)絡(luò)。
2010 年蘇昊到吳恩達(dá)組實(shí)習(xí)時(shí),一度想將 Object Bank 變成端到端的工作應(yīng)用到 ImageNet 上——這正是后來(lái) AlexNet 的思路。但這個(gè)想法沒(méi)有獲得吳恩達(dá)的支持。AlexNet 爆火后,蘇昊在惋惜的同時(shí),更加篤定端到端的研究前景,于是決定轉(zhuǎn)向與機(jī)器人更近的 3D 視覺(jué)研究,加入了 Leonidas 門(mén)下。
Leonidas 是幾何算法出身,后來(lái)研究方向拓展到圖形學(xué)領(lǐng)域的幾何處理,尤其是形狀分析。形狀分析對(duì) 3D 視覺(jué)中的數(shù)據(jù)結(jié)構(gòu)、幾何結(jié)構(gòu)、語(yǔ)義屬性與功能信息等研究十分關(guān)鍵,因此當(dāng)時(shí)斯坦福的許多 3D 視覺(jué)愛(ài)好者,如黃其興、蘇昊、祁芮中臺(tái),都聚集到了幾何計(jì)算組。
黃其興
從進(jìn)入 Leonidas 組起,蘇昊就開(kāi)始嘗試將 3D 視覺(jué)與深度學(xué)習(xí)結(jié)合起來(lái)。當(dāng)時(shí),對(duì)比 2D 視覺(jué),3D 視覺(jué)在深度學(xué)習(xí)時(shí)代的發(fā)展相對(duì)遲滯。蘇昊分析原因,認(rèn)為是因?yàn)槿鄙俅髷?shù)據(jù)的驅(qū)動(dòng)。2D 視覺(jué)有 ImageNet,所以發(fā)展迅速,因此建一個(gè) 3D 視覺(jué)領(lǐng)域的大規(guī)模數(shù)據(jù)集迫在眉睫。
無(wú)巧不成書(shū)。不只蘇昊一個(gè)人關(guān)注到 3D 數(shù)據(jù)匱乏的問(wèn)題。
2014 年,普林斯頓的肖建雄、宋舒然等人發(fā)表了 ModelNet——這是一個(gè)小規(guī)模的 3D 數(shù)據(jù)集;同時(shí),斯坦福的兩位博士生 Manolis Savva 與 Angel Chang 也準(zhǔn)備了一個(gè)小的 3D 數(shù)據(jù)集,與 ModelNet 有異曲同工之處。
Manolis 是圖形學(xué)博士,師從圖靈獎(jiǎng)與奧斯卡獎(jiǎng)得主 Pat Hanrahan,而 Angel Chang 是自然語(yǔ)言處理背景,與陳丹琦師出同門(mén),師從 Christopher Manning。與 ModelNet “撞車”之后,Manolis 就找蘇昊討論,蘇昊提出 ModelNet 與 Manolis 手上正準(zhǔn)備發(fā)表的數(shù)據(jù)集都太小,建議他們一起合作一個(gè)大規(guī)模數(shù)據(jù)集。
他們一拍即合。弋力也很認(rèn)可蘇昊的想法,也全情投入。他們計(jì)劃將這個(gè)數(shù)據(jù)集命名為“ShapeNet”,顧名思義,是以物體的形狀為核心,蘇昊、Manolis Savva、弋力與 Angel Chang 也就成了 ShapeNet 的最初四位核心成員。
弋力
由于蘇昊之前參與過(guò) ImageNet,對(duì)大規(guī)模數(shù)據(jù)集的數(shù)據(jù)收集與標(biāo)注有經(jīng)驗(yàn),因此蘇昊指揮、弋力執(zhí)行,工作推進(jìn)地很順利。2014 年,他們完成了第一版 ShapeNet,主要是圍繞 3D 數(shù)據(jù)的收集、清洗、形狀分類與物體對(duì)齊展開(kāi)。
2015 年,他們開(kāi)始加標(biāo)注。弋力和蘇昊提出了新的部件分割標(biāo)注算法,并將 Manolis 與 Angel 先前的工作納了進(jìn)來(lái)。第二版 ShapeNet 添加了部件分割標(biāo)注、物體幾何尺寸等信息,并將元信息與形狀標(biāo)注對(duì)齊,使得物體的 3D 形狀與信息知識(shí)更加豐富。
普林斯頓的 ModelNet 標(biāo)注少,只有語(yǔ)義信息,且只有一個(gè)類別的標(biāo)注信息能做分類。而蘇昊等人認(rèn)為,相比二維數(shù)據(jù),三維數(shù)據(jù)的優(yōu)勢(shì)恰恰在于不僅能做分類,其包含了更多的幾何結(jié)構(gòu)、更豐富的世界知識(shí),能夠承載大量的物理信息,因此標(biāo)注十分重要。
2016 年,他們開(kāi)始在圈內(nèi)宣傳 ShapeNet,但當(dāng)時(shí)研究 3D 數(shù)據(jù)分析的人還很少,關(guān)注度并不高。與此同時(shí),當(dāng)時(shí)已博士畢業(yè)、到豐田芝加哥研究所工作的黃其興也繼續(xù)支持 ShapeNet 的研究工作。
最終,他們完成了包含超過(guò) 300 萬(wàn)個(gè)模型、3135 個(gè)類別的 ShapeNet,也是全球第一個(gè)大規(guī)模 3D 數(shù)據(jù)集,堪比 2D 領(lǐng)域的 ImageNet。
但由于 2016 年左右數(shù)據(jù)知識(shí)產(chǎn)權(quán)保護(hù)的呼聲日益升高,尤其是 CVPR 發(fā)生了 SUNCG 數(shù)據(jù)集侵權(quán)事件,最終 ShapeNet 只開(kāi)放了一部分?jǐn)?shù)據(jù)允許公開(kāi)下載。
與 ImageNet 不同的是,ShapeNet 不僅一樣能做語(yǔ)義對(duì)齊、檢測(cè)分類等基礎(chǔ)任務(wù),而且由于 3D 數(shù)據(jù)天然包含更多物體信息,ShapeNet 宛如一個(gè)天然的知識(shí)庫(kù),信息標(biāo)注能與物理世界更好對(duì)齊。
論文鏈接:https://arxiv.org/pdf/1512.03012
ShapeNet 的出現(xiàn)大大推動(dòng)了 3D 視覺(jué)領(lǐng)域的發(fā)展,3D 視覺(jué)的研究也從基于經(jīng)驗(yàn)的算法設(shè)計(jì)逐漸轉(zhuǎn)變?yōu)榇髷?shù)據(jù)驅(qū)動(dòng)的研究范式,進(jìn)入黃金發(fā)展期。
只有構(gòu)建大量的數(shù)據(jù)與豐富的標(biāo)注支持,3D 領(lǐng)域的研究者才能更好地去設(shè)計(jì)三維深度學(xué)習(xí)網(wǎng)絡(luò)。2017 年,蘇昊與祁芮中臺(tái)(Charles R. Qi)、范浩強(qiáng)等人基于 ShapeNet 開(kāi)發(fā)了 PointNet、PointNet++、PSGN 等算法,驗(yàn)證了將深度學(xué)習(xí)用于 3D 點(diǎn)云的可行性。
蘇昊等人在 3D 領(lǐng)域的成果,最先影響到自動(dòng)駕駛領(lǐng)域。
PointNet 在深度三維點(diǎn)云處理的地位與 2D 領(lǐng)域的 ResNet 相當(dāng),是每一個(gè)研究三維點(diǎn)云的人都繞不開(kāi)的經(jīng)典網(wǎng)絡(luò)。PointNet 也因此成為自動(dòng)駕駛領(lǐng)域的核心算法,被廣泛引用。
具體來(lái)說(shuō),在自動(dòng)駕駛中,環(huán)境感知所收集的數(shù)據(jù)往往是非結(jié)構(gòu)化數(shù)據(jù),傳統(tǒng)的 2D 網(wǎng)絡(luò)(如 CNN)無(wú)法對(duì)其進(jìn)行很好的點(diǎn)云分類,而蘇昊等人從 3D 視角提出的 PointNet 則提供了很好的解法。
3D 視覺(jué)崛起后,PointNet 與 PointNet++ 作為三維深度學(xué)習(xí)的經(jīng)典工作,也成為了全球各高校研究 3D 必讀的論文,如今兩篇論文的谷歌學(xué)術(shù)引用量都超過(guò)了 1 萬(wàn)。
而 PointNet 與 PointNet++ 的核心作者祁芮中臺(tái),從斯坦福博士畢業(yè)后也選擇了進(jìn)入自動(dòng)駕駛領(lǐng)域:2019 年,祁芮中臺(tái)加入 Waymo,主導(dǎo)搭建了 Waymo 新一代自動(dòng)駕駛感知系統(tǒng)。2024 年 3 月,他又從 Waymo 離開(kāi),加入了特斯拉的 FSD 部門(mén),目前在研究端到端自動(dòng)駕駛大模型。
祁芮中臺(tái)(Charles R. Qi)
在 2D 視覺(jué)領(lǐng)域,ImageNet 推動(dòng)了 ResNet、AlexNet、LeNet 等等經(jīng)典二維網(wǎng)絡(luò)架構(gòu)的誕生;而在 3D 視覺(jué)領(lǐng)域,ShapeNet 則加速了 PointNet、PointNet++、SparseConveNet 等等經(jīng)典三維網(wǎng)絡(luò)架構(gòu)的出現(xiàn)。
從 2017 年到 2019 年間,三維深度學(xué)習(xí)實(shí)現(xiàn)了巨大突破。研究者不僅使用 3D 神經(jīng)網(wǎng)絡(luò)來(lái)處理點(diǎn)云(如 PointNet),還有處理稀疏性(如 SparseConvNet),以及利用 Mesh 作為圖形學(xué)中的三維表征進(jìn)行深度學(xué)習(xí)研究。
對(duì)于新一代 3D 視覺(jué)的崛起與其即將催生的系列產(chǎn)業(yè),ShapeNet 功不可沒(méi)。也因此,ShapeNet 被譽(yù)為“3D 視覺(jué)領(lǐng)域的 ImageNet”,在 2018 年獲得幾何處理會(huì)議(SGP)的最佳數(shù)據(jù)集獎(jiǎng)。
但解決 2D 與 3D 的感知問(wèn)題,只是蘇昊對(duì)人工智能想象的起點(diǎn)。
3D 視覺(jué)鋪墊了具身智能的可行性。
2016 年前后,在 ShapeNet 與 PointNet 發(fā)布的時(shí)候,也是自動(dòng)駕駛創(chuàng)業(yè)的最紅火時(shí)期。完成這兩個(gè)工作后,蘇昊等人也成為了 3D 視覺(jué)領(lǐng)域的先鋒人物。那時(shí)將 3D 應(yīng)用于自動(dòng)駕駛感知已是一門(mén)顯學(xué),但蘇昊卻將目光投向一個(gè)未知數(shù)更大的賽道:
機(jī)器人。
萌芽
總的來(lái)說(shuō),從 2D 到 3D,從 ImageNet 到 ShapeNet,蘇昊在學(xué)術(shù)生涯的早期就到達(dá)了計(jì)算機(jī)視覺(jué)的巔峰。
2016 年 ShapeNet 出來(lái)后,PointNet 的誕生只是時(shí)間問(wèn)題,蘇昊隱約能感覺(jué)到:在大數(shù)據(jù)的驅(qū)動(dòng)下,計(jì)算機(jī)視覺(jué)在感知方向上的研究已經(jīng)七七八八,接下來(lái)難有更大的突破。彼時(shí),硅谷的一些 CV 頂尖學(xué)者如 Jitendra Malik、李飛飛也提出相似看法,認(rèn)為視覺(jué)的下一步應(yīng)該是與機(jī)器人結(jié)合。
蘇昊在吳恩達(dá)組實(shí)習(xí)時(shí),對(duì)機(jī)器人研究耳濡目染。吳恩達(dá)組成名的一手絕活是用強(qiáng)化學(xué)習(xí)倒飛直升機(jī),而這一工作的開(kāi)拓者正是后來(lái)加州大學(xué)伯克利分校的機(jī)器人大佬 Pieter Abbeel。Pieter Abbeel 開(kāi)拓了人工智能與機(jī)器人結(jié)合的方向,蘇昊也從那時(shí)開(kāi)始對(duì)機(jī)器人感興趣,并認(rèn)識(shí)到控制的重要性。
那時(shí),蘇昊就在思考:接下來(lái)視覺(jué)要解決的問(wèn)題不是“感知”本身,而是“感知什么”。
視覺(jué)中所謂的感知對(duì)象,包含了大量人所定義的知識(shí)與概念,還有一些人無(wú)法定義、但有感知的概念?!案兄膶?duì)象從哪里來(lái)?如果說(shuō)感知是從物理的信號(hào)到概念的映射,那么是誰(shuí)定義了概念的空間?”蘇昊認(rèn)為這是視覺(jué)智能接下來(lái)的十年要回答的問(wèn)題。
他認(rèn)可笛卡爾的觀點(diǎn),“智能是在智能體與環(huán)境的交互中涌現(xiàn),是感覺(jué)運(yùn)動(dòng)行為的結(jié)果?!币簿褪钦f(shuō),如果感知不與交互閉環(huán)、即無(wú)法被定義。因此蘇昊認(rèn)為,計(jì)算機(jī)視覺(jué)的下一個(gè)問(wèn)題,就是與機(jī)器人結(jié)合,打通感知與控制,實(shí)現(xiàn)機(jī)器人從感知到控制的閉環(huán)。
大約 2016 年在斯坦福,對(duì)機(jī)器人狂熱的不只蘇昊一人。當(dāng)時(shí)在斯坦福當(dāng)博士后的盧策吾也對(duì)這個(gè)新方向十分感興趣。
盧策吾
盧策吾 2009 年從中科院碩士畢業(yè),爾后到香港中文大學(xué)讀博,導(dǎo)師是賈佳亞。博士期間,盧策吾主要研究計(jì)算機(jī)視覺(jué),但從那時(shí)起他就經(jīng)常思考:通用人工智能(AGI)的本質(zhì)是什么?
盧策吾有一個(gè)感覺(jué):視覺(jué)只是人工智能的一個(gè)分支,人工智能應(yīng)該將視覺(jué)與其他的技術(shù)分支(如語(yǔ)音、語(yǔ)言)整合起來(lái),形成一個(gè)真正通用且統(tǒng)一的智能體,并與人進(jìn)行交互。而這個(gè)智能體的終極體現(xiàn),就是機(jī)器人。
但在當(dāng)時(shí),深度學(xué)習(xí)前夜,將人工智能的各個(gè)分支整合是個(gè)天方夜譚。盧策吾將自己的想法與周圍人交流,大家都覺(jué)得他說(shuō)得有道理、但不大可能實(shí)現(xiàn),因?yàn)楫?dāng)時(shí)各項(xiàng)技術(shù)的發(fā)展都還不成熟。
到 2015 年去斯坦福后,他先后在李飛飛組與 Leonidas 組,卻發(fā)現(xiàn)兩個(gè)組都開(kāi)始探索機(jī)器人,與他的想法不謀而合。在深度學(xué)習(xí)的推力下,視覺(jué)技術(shù)逐步成熟,跳出視覺(jué)思考更大的科學(xué)問(wèn)題也成為可能。
盧策吾在斯坦福當(dāng)博士后的那段時(shí)間,正好是具身智能的萌芽期。
他先在李飛飛組。一開(kāi)始是李飛飛和學(xué)生們討論要開(kāi)始研究機(jī)器人,自然的盧策吾和朱玉可兩個(gè)人就經(jīng)常一起討論。盧策吾與朱玉可都很感興趣,但又都不知道從何開(kāi)始。
朱玉可本科畢業(yè)于浙江大學(xué),2013 年就加入李飛飛組,最初做的是視覺(jué)知識(shí)庫(kù),2015 年才和盧策吾一起轉(zhuǎn)機(jī)器人。當(dāng)時(shí) Danfei Xu、范麟熙(Jim Fan)還沒(méi)來(lái)。
朱玉可
于是他們就跑到蓋茨樓對(duì)面的咖啡店喝咖啡、討論機(jī)器人要怎么研究。盧策吾和朱玉可有一個(gè)習(xí)慣,就是喜歡在研究間隙一起組隊(duì)去喝咖啡,因?yàn)樵趯?shí)驗(yàn)室要說(shuō)英文,去咖啡廳用中文討論更自然輕松。
起初盧策吾很樂(lè)觀,覺(jué)得“花兩年就能把具身智能搞出來(lái)”,就開(kāi)始投入研究。“后來(lái)才發(fā)現(xiàn),那時(shí)的組會(huì)就像 1956 年的達(dá)特茅斯會(huì)議,以為人工智能馬上就要爆發(fā),結(jié)果要過(guò)幾十年?!北R策吾事后向雷峰網(wǎng)回憶。他也是真正進(jìn)入這個(gè)領(lǐng)域后才發(fā)現(xiàn),通用機(jī)器人是一個(gè)龐大的系統(tǒng),絕非朝夕之功。
Leonidas 組與李飛飛組很少交流,盧策吾由于同時(shí)向兩個(gè)老板匯報(bào),經(jīng)常穿梭在兩個(gè) Lab 之間,對(duì)兩邊的風(fēng)格都有所了解:
李飛飛認(rèn)為,機(jī)器人要研究對(duì)世界的本質(zhì)理解,即世界模型;而在 Leonidas 那邊,蘇昊則認(rèn)為要從 3D 切入,通過(guò)模型與環(huán)境的交互、抽象出對(duì)世界的理解,從而減少模型對(duì)真實(shí)環(huán)境數(shù)據(jù)的依賴,完成從感知到控制的閉環(huán)。兩邊的思路有所交叉,又各有側(cè)重。
盧策吾與朱玉可一開(kāi)始是從關(guān)系理解入手。盧策吾認(rèn)為,解決機(jī)器人首先要深度理解每個(gè)物體之間的關(guān)系、以及物體是如何被操作的,所以他首先做了一篇視覺(jué)關(guān)系檢測(cè)的工作;朱玉可發(fā)表了大規(guī)模圖片語(yǔ)義理解數(shù)據(jù)集 Visual Genome。如今這兩篇工作都成為了從視覺(jué)研究機(jī)器人的經(jīng)典論文,引用量均超過(guò)一千。
完成這個(gè)工作后,盧策吾就遷到了 Leonidas 組,與蘇昊、祁芮中臺(tái)一塊。爾后李飛飛組加入徐丹飛、Jim Fan 等人,繼續(xù)沿著機(jī)器人方向研究。2024 年英偉達(dá)成立通用具身智能體研究實(shí)驗(yàn)室 GEAR,GEAR 的兩位技術(shù)領(lǐng)導(dǎo)正是朱玉可與 Jim Fan。
范麟熙(Jim Fan)
判斷 3D 要與機(jī)器人結(jié)合后,蘇昊就開(kāi)始給 Leonidas 組招了好幾個(gè)學(xué)控制與強(qiáng)化學(xué)習(xí)方向的學(xué)生,嚴(yán)夢(mèng)媛、王鶴、邵林等人都是在 2016 年前后加入幾何計(jì)算組,同期姚班學(xué)生淦創(chuàng)在 Leonidas 組訪問(wèn),也由蘇昊指導(dǎo)。
蘇昊認(rèn)為,要搞懂控制,就要從靜態(tài)的視覺(jué)、圖形學(xué)往動(dòng)態(tài)的力走,就要把物理系的人招進(jìn)來(lái),而嚴(yán)夢(mèng)媛與王鶴都是物理背景出身,都曾在全國(guó)物理競(jìng)賽(CPho)上獲得出色名次:嚴(yán)夢(mèng)媛是 CPho 金牌、全國(guó)最佳女選手,保送北大物理系;王鶴是 CPho 銀牌,保送清華微電子與納米電子學(xué)系。
盧策吾剛到 Leonidas 組時(shí),組里主要是蘇昊、祁芮中臺(tái),他們?nèi)说墓の徊⑴?。弋力、王鶴等人進(jìn)組后,蘇昊與弋力就坐到了盧策吾的斜對(duì)面,王鶴坐在盧策吾后面。與李飛飛組的多元文化不同,Leonidas 組基本全是中國(guó)人,中文是組內(nèi)的半官方語(yǔ)言,大家經(jīng)常在實(shí)驗(yàn)室里直接說(shuō)中文。
在李飛飛組,盧策吾與朱玉可的社交方式是喝咖啡。到 Leonidas 組之后,蘇昊等人的社交風(fēng)格就是喜歡一起開(kāi)車去遠(yuǎn)的地方找中餐館一起吃飯。有段時(shí)間,蘇昊、盧策吾、弋力與王鶴等人幾乎每天都聚在一起吃飯,對(duì)具身智能進(jìn)行各種天馬行空的討論。
在以往,深度學(xué)習(xí)與機(jī)器人的學(xué)者是兩個(gè)世界的人,兩邊是完全不同的思想體系。在斯坦福讀博的尾聲,蘇昊與王鶴、弋力等人一直在探討如何將 3D 視覺(jué)與強(qiáng)化學(xué)習(xí)結(jié)合起來(lái)。
王鶴
盧策吾也重視 3D 與控制,但除此之外,他認(rèn)為機(jī)器人研究還有一個(gè)很重要的板塊:硬件。軟件出身的人往往不愿意碰硬件,直到 2019 年左右,大家才慢慢意識(shí)到要上真機(jī),但在那時(shí)盧策吾就意識(shí)到要跟真機(jī)結(jié)合。
斯坦福的各個(gè)學(xué)科都是世界頂尖,機(jī)器人領(lǐng)域也不例外,于是盧策吾就去找斯坦福的機(jī)器人學(xué)者合作,機(jī)緣巧合之下認(rèn)識(shí)了潮汕同鄉(xiāng)王世全。
王世全的本科畢業(yè)于浙江大學(xué),2012 年到斯坦福讀博,導(dǎo)師為 Mark Cutkosky和Oussama Khatib。Oussama 時(shí)任國(guó)際機(jī)器人學(xué)會(huì)主席,2016 年盧策吾找到王世全時(shí),王世全剛剛獲得機(jī)器人頂會(huì) IROS最佳論文,并已在IJRR、TRO等機(jī)器人頂刊發(fā)表多篇論文。
彼時(shí)王世全正在籌備通用機(jī)器人方向的創(chuàng)業(yè),約盧策吾到他家里長(zhǎng)談。第一次見(jiàn)面,盧策吾從AI的角度、王世全從機(jī)器人的角度,兩人一起梳理了通用機(jī)器人的整個(gè)系統(tǒng),也是在那時(shí),盧策吾才第一次意識(shí)到,具身智能不僅要“大腦”好、“身體”也要好,兩者缺一不可。而且,本體能力邊界的突破也有許多的不確定性,需要用頂尖的技術(shù)來(lái)解決。
他們一拍即合,斯坦福的氛圍是,外面總有一堆風(fēng)投在鼓動(dòng)學(xué)生創(chuàng)業(yè),所以他們一有想法,馬上就拿到了投資。2016 年 6 月,王世全、盧策吾、鐘書(shū)耘與葉熙陽(yáng)就成立了非夕科技。除了盧策吾,其他三人都是機(jī)器人出身。
王世全
2016 年到 2018 年間,硅谷的視覺(jué)圈已經(jīng)開(kāi)始討論“具身智能”的概念,美國(guó)從 2017 年開(kāi)始就設(shè)立了具身智能相關(guān)的科研經(jīng)費(fèi),但整體來(lái)說(shuō)研究熱度并不高。
ECCV 2018 期間,弋力與蘇昊、盧策吾、黃其興等人一起組織了一個(gè)題為“仿真環(huán)境中的視覺(jué)學(xué)習(xí)與具身智能體”(“Visual Learning and Embodied Agents in Simulation Environments”)的 workshop,希望去推動(dòng)具身智能的發(fā)展,但更多人只是出于興趣關(guān)注。
那時(shí)大家都隱約感到具身智能是未來(lái),但整個(gè)領(lǐng)域還沒(méi)能立即轉(zhuǎn)身。
2018 年蘇昊從斯坦福博士畢業(yè)后,由于 Leonidas 沒(méi)有堅(jiān)決轉(zhuǎn)機(jī)器人,幾何計(jì)算組就中斷了在強(qiáng)化學(xué)習(xí)上的研究。弋力與王鶴轉(zhuǎn)回 3D 視覺(jué)研究,嚴(yán)夢(mèng)媛、邵林轉(zhuǎn)到 Jeannette Bohg 組研究機(jī)器人與交互感知,淦創(chuàng)加入IBM-MIT研究院研究直覺(jué)物理。如今嚴(yán)夢(mèng)媛在 OpenAI 任職,邵林為新加坡國(guó)立大學(xué)助理教授,淦創(chuàng)為麻省大學(xué)助理教授。
各自戰(zhàn)斗
2016 年,盧策吾從斯坦福回到上海交通大學(xué)任教;2017 年,蘇昊加入加州大學(xué)圣地亞哥分校(UCSD)任教,2018 年博士畢業(yè)。 而弋力、王鶴、莫?jiǎng)P淳等人則留在斯坦福繼續(xù)讀博。2018 年到 2021 年是具身智能的起點(diǎn),他們分散在各地,獨(dú)自探索。從時(shí)間線看,中美高校在具身智能上的研究差距并不大。
盧策吾是國(guó)內(nèi)第一個(gè)堅(jiān)決探索具身智能的學(xué)者。他在上海交大招了方浩樹(shù)等學(xué)生,創(chuàng)立了具身智能研究團(tuán)隊(duì);同時(shí)與王世全等人聯(lián)合創(chuàng)業(yè)、發(fā)力非夕科技。與在斯坦福時(shí)只從一個(gè)擅長(zhǎng)的點(diǎn)(視覺(jué))切入不同,回國(guó)后,盧策吾對(duì)具身智能系統(tǒng)進(jìn)行了全面分析并布局。
“整個(gè)具身智能系統(tǒng)是一個(gè)大的體系結(jié)構(gòu),這意味著里面的每一塊,從具身的感知、仿真、推理到執(zhí)行,以及各個(gè)模塊的工具棧,還有數(shù)據(jù)的采集與評(píng)估等等,都需要去突破、協(xié)同。”盧策吾告訴雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng))。
這是一個(gè)孤獨(dú)且痛苦的過(guò)程:他需要從頭開(kāi)始學(xué)習(xí)硬件、仿真等對(duì)自己早期職業(yè)生涯的學(xué)術(shù)評(píng)估沒(méi)有作用的知識(shí)。在視覺(jué)發(fā)展最瘋狂、就業(yè)最好的時(shí)候,盧策吾要說(shuō)服一群沖著視覺(jué)來(lái)的學(xué)生跟他一起摒棄外界的喧嘩,關(guān)在實(shí)驗(yàn)室里鼓搗硬件。
苦逼的感受來(lái)自三方面:一是他們做的是一個(gè)非常復(fù)雜的系統(tǒng);第二,他們做的工作在當(dāng)時(shí)是“非主流”,前途未卜;第三,學(xué)生不理解,大家會(huì)覺(jué)得,如果弄一篇視覺(jué)的論文、周期會(huì)很快,但具身智能發(fā)論文要搭硬件、做實(shí)驗(yàn),發(fā)布論文的周期很長(zhǎng)。
因?yàn)閲?guó)內(nèi)沒(méi)太多人關(guān)注具身智能,在申請(qǐng)科研經(jīng)費(fèi)時(shí),盧策吾只能按視覺(jué)來(lái)申請(qǐng)。一開(kāi)始他研究人體姿態(tài)估計(jì),也是為了從行為中理解世界模型。但視覺(jué)部分的研究投入只是總投入的1/3;也就是說(shuō),早期盧策吾團(tuán)隊(duì)約有 2/3 的機(jī)器人相關(guān)工作沒(méi)辦法變成經(jīng)費(fèi)。
在這種情況下,盧策吾與學(xué)生的壓力都很大。而研究具身智能的過(guò)程也會(huì)不斷“踩坑”:具身智能系統(tǒng)的復(fù)雜程度堪比火箭,需要各個(gè)模塊的成熟和互相支持、互相迭代才能形成正向循環(huán),但早期具身智能的許多板塊都是空白的,上游基礎(chǔ)設(shè)施孱弱,導(dǎo)致有時(shí)算法明明很先進(jìn)、但機(jī)器的控制系統(tǒng)不穩(wěn)又要推倒重來(lái)。
他與團(tuán)隊(duì)花了整整 3 年,才發(fā)了第一篇具身智能方向的論文。怎樣證明這是一篇具身智能的論文?盧策吾告訴雷峰網(wǎng),“關(guān)鍵是看論文里有沒(méi)有真實(shí)機(jī)器人,以及能否被頂尖的機(jī)器人期刊所接受?!?/p>
2019 年,盧策吾帶領(lǐng)團(tuán)隊(duì)終于在國(guó)際機(jī)器人頂會(huì) IROS 上發(fā)表了兩篇基于強(qiáng)化學(xué)習(xí)的具身智能論文:一篇是推出了可遷移動(dòng)力學(xué)模型完成機(jī)器人學(xué)經(jīng)典的“Peg-in-hole”精細(xì)操作任務(wù),另一篇?jiǎng)t是提出了基于經(jīng)驗(yàn)的傾向性獎(jiǎng)勵(lì)塑造機(jī)制,讓機(jī)器人直接從感知解決操作任務(wù)。
為了在真機(jī)、而不僅是虛擬環(huán)境中做檢測(cè),盧策吾著手建立了硬件平臺(tái)來(lái)管理實(shí)驗(yàn)數(shù)據(jù)。盧策吾也是最早在真機(jī)上實(shí)驗(yàn)的一批人工智能學(xué)者。
盡管 IROS 只是 CCF 所列的 B 類會(huì)議,但對(duì)盧策吾與團(tuán)隊(duì)來(lái)說(shuō),是他們從視覺(jué)跨到機(jī)器人領(lǐng)域的一次里程碑式的勝利。在那之后,他們一發(fā)不可收拾,又圍繞抓取、以力為中心的方向做了許多工作,而這些對(duì)算法與機(jī)器人本體的協(xié)同提出了更高要求。
搭檔王世全讓盧策吾對(duì)機(jī)器人的軟硬件協(xié)同有了更深入的了解。他們每年在 RSS、ICRA、IROS 都很高產(chǎn),隨后IROS 最佳論文、ICRA 最佳論文、RSS 最佳系統(tǒng)論文提名獎(jiǎng)隨之而來(lái),特別是在TR-O、IJRR等頂級(jí)期刊穩(wěn)定發(fā)論文。在機(jī)器人領(lǐng)域頂級(jí)期刊發(fā)文比會(huì)議的難度要高很多。
人工智能研究者往往有一個(gè)誤區(qū),即單純將機(jī)器人視為一個(gè)執(zhí)行任務(wù)的本體,但實(shí)際上機(jī)器人執(zhí)行任務(wù)是需要“力”的感知和控制的。在硬件上做大規(guī)模實(shí)驗(yàn)采集數(shù)據(jù)的難度很高,此外機(jī)器人本體也還需要許多底層的突破。
例如,傳統(tǒng)機(jī)器人的操作也主要以軌跡為中心,但實(shí)際上人與環(huán)境的交互并不是基于預(yù)設(shè)軌跡,而是基于自發(fā)的動(dòng)作、甚至肌肉記憶,因此人在生理上的細(xì)微變化(如肌肉疲勞)也會(huì)導(dǎo)致操作的靈巧性發(fā)生顯著變化。
因此,回國(guó)后盧策吾就思考以力為中心,研究機(jī)器人對(duì)世界的理解。在非夕科技,他們發(fā)布了世界上第一個(gè)能夠?qū)崿F(xiàn)對(duì)“力”的靈敏感知和精準(zhǔn)控制的自適應(yīng)機(jī)器人;在上交大,2020 年,他們發(fā)表了全球第一個(gè)能夠?qū)崿F(xiàn)人工智能的通用抓取工作 GraspNet。
GraspNet 的引用量雖然只有幾百,原因是要上真機(jī)實(shí)驗(yàn)、復(fù)現(xiàn)成本高,但已是近幾年機(jī)器人抓取方向引用最高的論文之一。
第一批加入盧策吾團(tuán)隊(duì)研究機(jī)器人的學(xué)生有方浩樹(shù)(現(xiàn) MIT 博后)、李永露(交大助理教授)、徐文強(qiáng)(MIT 博后)等人,他們后來(lái)都成為了中國(guó)第一批本土培養(yǎng)的具身智能博士。此外,還有本科生王辰,如今在斯坦福李飛飛組讀博,是李飛飛團(tuán)隊(duì)在具身智能方向的“扛把子”之一。
從左到右依次為:方浩樹(shù)、李永露、徐文強(qiáng)、王辰
在北美,蘇昊也是第一批具身智能“探險(xiǎn)家”。2017 年,他被圖形學(xué)大牛 Ravi Ramamoorthi 招入 UCSD 視覺(jué)計(jì)算中心,創(chuàng)立了 SU Lab。
擔(dān)任教職后,蘇昊繼續(xù)攻克具身智能,其團(tuán)隊(duì)的研究重點(diǎn)是兩塊:
一塊是強(qiáng)化學(xué)習(xí),尤其是基于世界模型的強(qiáng)化學(xué)習(xí)(MBRL)??刂评镉幸粋€(gè)方向是探討環(huán)境建模,即如何讓整個(gè)系統(tǒng)更加可控,這里剛好可以將視覺(jué)的知識(shí)結(jié)合進(jìn)來(lái),將建模與可控變成端到端,實(shí)現(xiàn)感知與交互的閉環(huán)。此也為具身智能的突破口。
他培養(yǎng)的學(xué)生如陳睿、顧家遠(yuǎn)等先后加入清華大學(xué)、上??萍即髮W(xué)等大學(xué)任教,秦譽(yù)哲也開(kāi)始了自己的靈巧手創(chuàng)業(yè)行動(dòng),黃志翱和項(xiàng)帆波則選擇與蘇昊一起創(chuàng)業(yè)。
另一塊是 3D 重建與生成。當(dāng)時(shí)蘇昊等人已在 3D 算法上取得引領(lǐng)性成果,但仍無(wú)法與 2D 視覺(jué)平起平坐。相比 2D,3D 的迅速擴(kuò)張仍受到數(shù)據(jù)豐富性的限制,而蘇昊認(rèn)為解決這個(gè)問(wèn)題的根本,就是能夠基于較破損的 3D 輸入或其他模態(tài)數(shù)據(jù)實(shí)現(xiàn)高質(zhì)量的 3D 輸出。
在斯坦福的最后一年,他引導(dǎo)陳文拯和高俊二人進(jìn)入圖生 3D 的方向,他們后來(lái)在多倫多大學(xué)和英偉達(dá)做出了突破性成果,開(kāi)發(fā)出了 Get3D 等 3D 生成領(lǐng)域的突破性工作,二人分別加入了北京大學(xué)和密歇根大學(xué)任教。在 UCSD,他推動(dòng)招聘多名年輕教授在此方向發(fā)力,培養(yǎng)的年輕人也逐漸成為領(lǐng)域的中堅(jiān)力量,其中學(xué)生劉明華和張孝帥也選擇與蘇昊一起創(chuàng)業(yè)。
與盧策吾一樣,剛擔(dān)任教職的蘇昊除了自己需要堅(jiān)定信念外,也需要說(shuō)服學(xué)生不要去研究導(dǎo)師已經(jīng)擅長(zhǎng)的 3D 視覺(jué)、少發(fā)論文,而是去研究強(qiáng)化學(xué)習(xí)、模擬器、控制閉環(huán)等當(dāng)時(shí)門(mén)庭冷落、但對(duì)具身智能的研究至關(guān)重要的課題。
蘇昊與他的學(xué)生,圖源蘇昊 UCSD 實(shí)驗(yàn)室 SU Lab 官網(wǎng)
2019 年開(kāi)始,蘇昊團(tuán)隊(duì)在強(qiáng)化學(xué)習(xí)、包括 Sim2Real 與 MBRL 上均有出色成果。他們優(yōu)化了域隨機(jī)化參數(shù)的選擇以提高 Sim2Real 效果,用基于學(xué)習(xí)的方法提高了機(jī)器人在雜亂場(chǎng)景中單視圖單次拍攝的六自由度抓取任務(wù)的成功率,還提出了通過(guò) WGAN 生成更接近真實(shí)環(huán)境的仿真數(shù)據(jù),提高學(xué)習(xí)效率和智能體的決策質(zhì)量。
蘇昊認(rèn)為,研究具身智能必然繞不開(kāi)仿真。2020 年,蘇昊團(tuán)隊(duì)發(fā)布了全球第一個(gè)仿真引擎——SAPIEN,能模擬機(jī)器人與人類的交互。
“科學(xué)的研究需要可復(fù)現(xiàn),但整個(gè)深度學(xué)習(xí)系統(tǒng)是一個(gè)黑盒,沒(méi)有辦法得到統(tǒng)計(jì)上有理論保證的結(jié)果,所以必須依靠大量的經(jīng)驗(yàn)性測(cè)試。在真實(shí)世界中做閉環(huán)學(xué)習(xí)和測(cè)試太慢了,不可能保證科學(xué)的研究,維持健康的學(xué)術(shù)生態(tài),所以繞不開(kāi)仿真?!碧K昊解釋。
SAPIEN 包含了來(lái)自 ShapeNet 和 PartNet 的大規(guī)模 3D 鉸接對(duì)象數(shù)據(jù)集,支持需要詳細(xì)部件級(jí)理解的機(jī)器人視覺(jué)和交互任務(wù),成為引領(lǐng)具身智能的經(jīng)典工作。2021 年,蘇昊還基于 SAPIEN 開(kāi)源舉辦了機(jī)器人操作大賽 ManiSkill,希望推動(dòng)具身智能評(píng)測(cè)標(biāo)準(zhǔn)的建立。
仿真對(duì)具身智能的評(píng)測(cè)很重要。盧策吾與李飛飛、蘇昊交流,他們都提出了用仿真來(lái)評(píng)測(cè),他們便也開(kāi)始做模擬器。蘇昊團(tuán)隊(duì)發(fā)表 SAPIEN 后,英偉達(dá)團(tuán)隊(duì)發(fā)表了 IssacSim,盧策吾團(tuán)隊(duì)也發(fā)表了 RFUniverse,李飛飛團(tuán)隊(duì)也發(fā)了 BEHAVIOR。同時(shí),因?yàn)楸R策吾團(tuán)隊(duì)很早在真機(jī)上實(shí)驗(yàn),知道仿真與真實(shí)仍有一定差距,因此也強(qiáng)調(diào)仿真與真機(jī)的結(jié)合。
蘇昊到 UCSD 后,也仍與斯坦福幾何計(jì)算組保持聯(lián)系。那時(shí)王鶴在研究位姿(Pose),弋力在研究部件(Part),蘇昊跟他們說(shuō)一定要研究具身智能。當(dāng)時(shí)大家對(duì)具身智能都還在探索階段,蘇昊經(jīng)常邀請(qǐng)弋力、王鶴、莫?jiǎng)P淳一起討論,也共同完成了 PartNet、SAPIEN 等工作。
讀博期間,王鶴的課題是物理交互,第一個(gè)工作就嘗試了“視覺(jué)-語(yǔ)言-行為”的聯(lián)合生成模型,在 2019 年獲得了歐洲圖形學(xué)會(huì)議最佳論文提名。之后,他主攻基于合成數(shù)據(jù)的泛化機(jī)器人視覺(jué),開(kāi)創(chuàng)了類別級(jí)六維物體位姿估計(jì)這一研究領(lǐng)域,關(guān)注面向具身操作的物體狀態(tài)估計(jì)和閉環(huán)感知。
弋力的研究重點(diǎn)是部件分割。部件分割不僅是 3D 領(lǐng)域的經(jīng)典問(wèn)題,也是具身智能的一個(gè)重要組成部分。
“在機(jī)器人與物理世界的交互中,雖然交互的行為通常以物體整體為中心,但實(shí)際往往集中在某些關(guān)鍵部件上。例如,當(dāng)機(jī)器人要開(kāi)門(mén),它需要識(shí)別出門(mén)把手的位置,才能完成后續(xù)的操作?!睋Q言之,部件就是機(jī)器人與物理世界交互的界面(interface),是機(jī)器人完成下游交互任務(wù)的關(guān)鍵。PartNet 就是部件分割的代表作。
PartNet 的主力是莫?jiǎng)P淳。莫?jiǎng)P淳是上海交大 ACM 班本科第一名,2016 年到斯坦福讀博,也參與過(guò) PointNet。2019 年,莫?jiǎng)P淳在蘇昊的實(shí)驗(yàn)室訪問(wèn),與弋力合作在 ShapeNet 的基礎(chǔ)上對(duì)部件分割做了更細(xì)粒度的標(biāo)注,發(fā)布了 PartNet。2022 年從斯坦福博士畢業(yè)后,莫?jiǎng)P淳加入英偉達(dá)機(jī)器人實(shí)驗(yàn)室,向 Dieter Fox 匯報(bào)。
莫?jiǎng)P淳
從 2016 年到 2021 年,具身智能在北美的發(fā)展也從萌芽期進(jìn)入到了蓬勃期。這幾年,蘇昊、盧策吾與王鶴等人雖各自作戰(zhàn),但通過(guò)“遙”交流,始終走在領(lǐng)域的前沿。
ICCV 2021 期間,蘇昊、王鶴與弋力等人又發(fā)起了一場(chǎng) workshop,題為“The 1st Workshop on Simulation Technology for Embodied AI”。相比 ECCV 2018,他們已經(jīng)無(wú)需再向視覺(jué)圈“兜售”具身智能,而是可以討論具體的話題。
那時(shí)領(lǐng)域內(nèi)有一個(gè)分歧:具身智能要在仿真環(huán)境中研究,還是要在真實(shí)世界的真機(jī)中去做。當(dāng)時(shí)領(lǐng)域里的主流聲音都認(rèn)為要在真實(shí)世界中,但蘇昊、弋力、王鶴等人認(rèn)為要重視仿真。他邀請(qǐng)了許多圖形學(xué)講者、而非機(jī)器人專家來(lái)討論仿真引擎與具身智能的關(guān)系。
2021 年前后,具身智能在北美已經(jīng)十分火熱,許多學(xué)者都已經(jīng)認(rèn)識(shí)到,具身智能才是未來(lái)。
冰與火之歌
但相比北美學(xué)術(shù)圈的熱火朝天,2021 年,具身智能在國(guó)內(nèi)幾乎沒(méi)有人關(guān)注。
盧策吾因?yàn)閷?duì)國(guó)外的研究進(jìn)展很了解,有一段時(shí)間很痛苦的是:具身智能在國(guó)外風(fēng)起云涌,國(guó)內(nèi)卻毫無(wú)波瀾。盧策吾向身邊的人科普具身智能時(shí),得到的反應(yīng)通常是一句“挺有趣的”,然后就沒(méi)有下文了。
關(guān)于具身智能,早期不同機(jī)構(gòu)也有不同的理解。斯坦福與伯克利是叫“Embodied Artificial Intelligence”,麻省理工學(xué)院(MIT)的 CSAIL 實(shí)驗(yàn)室則直接將中間的“Artificial”去掉,將機(jī)器人與人工智能的結(jié)合命名為“Embodied Intelligence”。
回國(guó)后,關(guān)于“Embodied AI”的中文應(yīng)該如何翻譯,盧策吾與蘇昊也進(jìn)行過(guò)討論。他們一開(kāi)始想了好幾個(gè)詞,有“實(shí)體智能”、“機(jī)器人學(xué)習(xí)”、“具身智能”等,都覺(jué)得“具身”與英文的“Embodied”更對(duì)應(yīng),就將其中文翻譯成了“具身智能”在國(guó)內(nèi)傳播。
2020 年,盧策吾首次在國(guó)內(nèi)計(jì)算機(jī)視覺(jué)大會(huì) VALSE 上公開(kāi)談?wù)摼呱碇悄?。VALSE 非常有前瞻性,也是國(guó)內(nèi)第一個(gè)關(guān)注到具身智能的大會(huì),但即使是在 VALSE 這樣一個(gè)國(guó)內(nèi)視覺(jué)討論首屈一指的會(huì)議上,具身智能也沒(méi)有引起大家的關(guān)注。
盧策吾記得,當(dāng)時(shí)為了讓研究?jī)?nèi)容更容易被接受,他還在“具身智能”四個(gè)字的前面加了“淺談”二字。但這次演講的觀眾反應(yīng)慘不忍睹:在一個(gè)幾千人規(guī)模的大會(huì),臺(tái)下的聽(tīng)眾來(lái)來(lái)往往,人數(shù)最多時(shí)不超過(guò) 30 人,最少時(shí)加上講者也才 7 個(gè)人。與隔壁會(huì)議現(xiàn)場(chǎng)人聲鼎沸的場(chǎng)面形成了鮮明對(duì)比。
這讓盧策吾很失落。盧策吾的學(xué)生也經(jīng)常問(wèn)他:“我們研究具身智能有沒(méi)有前途呀?都沒(méi)人關(guān)注?!奔词顾麄儼l(fā)表了突破性的抓取工作 GraspNet 后也沒(méi)什么人關(guān)注,引用量寥寥,與計(jì)算機(jī)視覺(jué)領(lǐng)域單篇引用就能成千上萬(wàn)的情況形成巨大反差。
2021 年弋力與王鶴回國(guó),具身智能仍未火起來(lái)。王鶴回國(guó)前,還特地給盧策吾打了個(gè)電話,向盧策吾打聽(tīng)具身智能在國(guó)內(nèi)的發(fā)展情況。盧策吾的回答大約是:處于早期,有很大機(jī)會(huì),但不容樂(lè)觀。王鶴聽(tīng)了盧策吾的回答,依然堅(jiān)決回國(guó)。
在斯坦福的研究經(jīng)歷使他們堅(jiān)信,具身智能將成為計(jì)算機(jī)視覺(jué)的下一個(gè)“Milestone 方向”。 2021 年弋力加入清華叉院,將實(shí)驗(yàn)室命名為“三維視覺(jué)計(jì)算與機(jī)器智能實(shí)驗(yàn)室”,試圖從3D 視覺(jué)出發(fā)進(jìn)一步推動(dòng)具身智能的研究;而王鶴加入北大前沿計(jì)算研究中心,則果斷掛上具身智能的牌子,成立了“具身感知與交互實(shí)驗(yàn)室”。
同時(shí),受張宏江的邀請(qǐng),王鶴還在北京智源人工智能研究院成立了具身智能中心,并擔(dān)任中心主任。
弋力、王鶴等人回國(guó)后,也加入了盧策吾的陣線,像 2018 年在 ECCV 上向北美學(xué)術(shù)圈“推銷”具身智能一樣,給國(guó)內(nèi)的學(xué)術(shù)界與工業(yè)界推廣具身智能。
從 2021 年開(kāi)始,盧策吾與王鶴、弋力就開(kāi)始在 VALSE 上舉辦以具身智能為主題的 workshop,到如今一共舉辦了 4 屆,workshop 的名字分別是“具身智能視覺(jué)”、“具身智能”、“機(jī)器人具身智能”、“具身智能的視覺(jué)與學(xué)習(xí)”。
在 VALSE 2021 上,具身智能的 workshop 排在 VALSE 官方稿件的最后一位;到 VALSE 2024,他們的 workshop 排名露出已經(jīng)排到了前五。關(guān)注具身智能的人也越來(lái)越多。
2023 年 4 月,谷歌發(fā)布機(jī)器人成果 RT-1,能覆蓋 700 個(gè)任務(wù),“通用機(jī)器人”雛形顯現(xiàn),不少人稱之為機(jī)器人領(lǐng)域的“GPT-3 時(shí)刻”,具身智能終于大火。
值得注意的是,RT-1 的核心貢獻(xiàn)者之一夏斐也是 Leonidas 的學(xué)生。在斯坦福時(shí),夏斐同時(shí)在 Silvio Savarese 與 Leonidas 門(mén)下學(xué)習(xí),博士畢業(yè)后加入了谷歌 DeepMind,是谷歌大模型 PaLM·E 與 機(jī)器人 RT-1、RT-2 的核心成員。
夏斐
VALSE 見(jiàn)證了具身智能在中國(guó)的崛起:
VALSE 2022 正值疫情期間,具身智能的 workshop 雖不算火爆,但情況已經(jīng)比前些年好許多,聽(tīng)眾的數(shù)量也從數(shù)十人增加到最多時(shí)有上百人。當(dāng)時(shí)王鶴沒(méi)有來(lái)現(xiàn)場(chǎng),只是作了線上報(bào)告,盧策吾看到臺(tái)下觀眾增加到上百人時(shí)趕緊拿出手機(jī)拍了一張照片給王鶴發(fā)過(guò)去,感嘆“我們的組織終于壯大了”。
在盧策吾與蔣樹(shù)強(qiáng)等人的推動(dòng)下,2022 年年末,中國(guó)人工智能學(xué)會(huì)(CAAI)正式開(kāi)始籌備成立了具身智能專委會(huì)。盧策吾與王鶴等人堅(jiān)持多年的研究方向,終于在國(guó)內(nèi)的學(xué)術(shù)官方上有了正式的組織。
到 VALSE 2023、2024,具身智能的 workshop 變得更加火爆。整個(gè)會(huì)議只能開(kāi)放 500 個(gè)名額,但很多人報(bào)不上名、要托關(guān)系找盧策吾拿票。盧策吾向雷峰網(wǎng)回憶了一個(gè)令他印象深刻、又十分有趣的畫(huà)面:
VALSE 2024 的那場(chǎng) workshop,他在走去會(huì)場(chǎng)的路上聽(tīng)到有人在門(mén)口打電話。打電話的人跟電話對(duì)面的人說(shuō):“院長(zhǎng),你這次不來(lái)可惜了!人爆滿了,我們整個(gè)學(xué)院要 All in 具身智能。”
VALSE 2024 也首次設(shè)置了具身智能方向的 tutorial,是由王鶴主講的“具身智能的 Sim2Real 泛化途徑”。
從 2016 年的無(wú)人問(wèn)津,到 2024 年的萬(wàn)人空巷,盧策吾激動(dòng)非常,感慨萬(wàn)千。由于早期研究具身智能的人少,盧策吾組培養(yǎng)的學(xué)生都成了“香餑餑”;如今國(guó)內(nèi)各高校建立具身智能實(shí)驗(yàn)室,也紛紛來(lái)問(wèn)盧策吾的意見(jiàn)。
2023 年也是王鶴在具身智能領(lǐng)域成果頻發(fā)的一年。這一年里,他與團(tuán)隊(duì)一口氣發(fā)表了 GraspNeRF、DexGraspNet(當(dāng)時(shí)世界上最大的靈巧手抓取數(shù)據(jù)集)、UniDexGrasp、GAPartNet(當(dāng)前世界上最大的零部件數(shù)據(jù)集)與 UniDexGrasp++。此外,2022 年,王鶴團(tuán)隊(duì)也做出了深度傳感器仿真器 DREDS。
也是在 2023 年 5 月,王鶴參與創(chuàng)立了銀河通用。
與非夕科技一樣,銀河通用的目標(biāo)也是開(kāi)發(fā)“通用機(jī)器人”。他們認(rèn)為,機(jī)器人的通用泛化性主要涉及兩個(gè)層面:一個(gè)是視覺(jué)感知的泛化性,另一個(gè)是物理操作執(zhí)行的泛化性,這兩塊都需要海量的數(shù)據(jù)支持。
為了解決數(shù)據(jù)問(wèn)題,谷歌的做法是靠雙臂遙操作,RT-1 使用 13 個(gè)機(jī)器人、耗時(shí) 17 個(gè)月,才采集了 13 萬(wàn)條數(shù)據(jù),離百千億級(jí)別的“海量”數(shù)據(jù)還差很遠(yuǎn)。王鶴認(rèn)為要解決數(shù)據(jù)問(wèn)題,需要大量的金錢(qián)支持,同時(shí)不應(yīng)該光靠真機(jī)操作,而是應(yīng)采用 Sim2Real 的解法。
銀河通用機(jī)器人創(chuàng)立后,王鶴提出了“純仿真”的解決方案,在完全使用合成仿真數(shù)據(jù)、而不采用任何真實(shí)物理數(shù)據(jù)進(jìn)行訓(xùn)練的情況下,銀河通用發(fā)布的機(jī)器人 Galbot G1 能以 95% 的成功率泛化抓取各種材質(zhì)的物體。
同樣在 2023 年創(chuàng)業(yè)的還有盧策吾。2023 年年底,盧策吾與王世全等人又從非夕科技中孵化出了專門(mén)研發(fā)具身智能大腦的公司——穹徹智能。
此前,非夕科技發(fā)展 8 年,在以力為中心的方向上已有一系列機(jī)器人本體相關(guān)的軟硬件產(chǎn)品。但對(duì)于具有決策能力的大腦而言,他們認(rèn)為具身大腦要適配于不同類型的本體,包括人形機(jī)器人、掃地機(jī)器人甚至智能設(shè)備等,使這些設(shè)備能與環(huán)境進(jìn)行交互和學(xué)習(xí)、并執(zhí)行任務(wù),有益于此項(xiàng)技術(shù)的發(fā)展并形成與之匹配的業(yè)務(wù)形態(tài),因此從非夕孵化出來(lái)穹徹獨(dú)立運(yùn)營(yíng)是合乎情理。
穹徹智能延續(xù)非夕科技實(shí)現(xiàn)通用機(jī)器人的理念路線,專注于“以力為中心”開(kāi)發(fā)具身大腦。在他們的理解中,具身大腦至少要包含兩個(gè)核心大模型,分別負(fù)責(zé)理解物理世界與基于力量控制的行為決策。
在王世全看來(lái),谷歌 RTX 系列的局限恰巧在于其決策過(guò)程以傳統(tǒng)的軌跡為中心,這使得機(jī)器人難以適應(yīng)不穩(wěn)定的環(huán)境(如人的呼吸、桌子的晃動(dòng)等),也限制了機(jī)器人執(zhí)行復(fù)雜操作的能力,看似泛化,但實(shí)際的應(yīng)用范圍與可創(chuàng)造價(jià)值有限。
而非夕科技過(guò)去八年,以力為中心對(duì)機(jī)器人操作的范式改革,更能適應(yīng)未來(lái)通用機(jī)器人大規(guī)模落地的現(xiàn)實(shí)。王世全認(rèn)為,具身智能的獨(dú)特之處,恰恰是“機(jī)器人通過(guò)與環(huán)境及物體的直接接觸與交互,能夠?qū)W習(xí)到關(guān)于物體的物理屬性、如何操控它們以及操控之后的后果,并沉淀融匯成對(duì)世界更完備的認(rèn)知體系”。
過(guò)去八年的實(shí)踐也告訴他們,力的感知和控制對(duì)具身智能的實(shí)現(xiàn)至關(guān)重要。盧策吾展示刮胡子,就是為了展示具身智能的交互需要高精密操作與高頻接觸。高頻接觸對(duì)大腦的決策壓力很大,搭載穹徹大腦的機(jī)器人能成功進(jìn)行刮胡子這樣的高頻接觸,背后也是因?yàn)橛辛Ψ答伩刂频闹С帧?/p>
盧策吾展示機(jī)器人刮胡子
具身智能迎來(lái)資本熱潮。今年 7 月,蘇昊也決定短暫離開(kāi) UCSD,創(chuàng)立了機(jī)器人公司 HillBot、并擔(dān)任 CTO。
具身智能的流派劃分復(fù)雜,并各有交叉。而以蘇昊等人為代表的斯坦福一派,是鮮明的能夠?qū)崿F(xiàn)從上層感知到控制閉環(huán)的一派,涵蓋了從仿真、強(qiáng)化學(xué)習(xí)、數(shù)據(jù)收集到控制,技術(shù)棧點(diǎn)最全,在硬件上相對(duì)弱一些,與英偉達(dá)最像。穹徹智能搭配非夕科技,一定程度上彌補(bǔ)了硬件的短板。
相比之下,自動(dòng)駕駛公司的具身智能成果天然缺少仿真,因?yàn)榫呱碇悄軙r(shí)代機(jī)器人用的帶交互接觸點(diǎn)的仿真技術(shù)源于應(yīng)用物理與圖形學(xué)兩派,傳統(tǒng)自動(dòng)駕駛公司的研發(fā)能力沒(méi)有覆蓋到。而單純以控制、硬件見(jiàn)長(zhǎng)的機(jī)器人公司,又天然缺少與人工智能結(jié)合的基因,距離通用機(jī)器人的目標(biāo)還有很遠(yuǎn)。
蘇昊等人從 3D 出發(fā),定義了新一代的“具身智能”。
從黑暗走到黎明
2017 年 PointNet 發(fā)布后,蘇昊與祁芮中臺(tái)去 CVPR 開(kāi)會(huì)。蘇昊跟祁芮中臺(tái)說(shuō),如果 3D Learning 的論文能在計(jì)算機(jī)視覺(jué)領(lǐng)域占到 20%、30% 就很成功了,結(jié)果后來(lái),3D 論文在視覺(jué)頂會(huì)的投稿比例一度占到了 70% 以上,視覺(jué)領(lǐng)域大變天。
無(wú)論是機(jī)器人還是自動(dòng)駕駛,大家都意識(shí)到:2D 視覺(jué)可以做識(shí)別、檢測(cè),但如果機(jī)器要與物理世界打交道,必須研究 3D。如今計(jì)算機(jī)視覺(jué)領(lǐng)域的科研經(jīng)費(fèi)也主要來(lái)自 3D,如自動(dòng)駕駛。
2017 年之前,3D 論文的占比不超過(guò) 10%。那一年,蘇昊發(fā)了 5 篇 CVPR,其中后來(lái)引用最低 200,最高的超過(guò) 1 萬(wàn)。那一年也正好是蘇昊找教職的一年,中間還有一段插曲:
當(dāng)時(shí)普林斯頓邀請(qǐng)?zhí)K昊去申請(qǐng)教職,蘇昊忙著研究 3D,沒(méi)有時(shí)間申請(qǐng)。
“有時(shí)候做了一個(gè)很原創(chuàng)的工作,對(duì)找工作并不是那么有利,因?yàn)楫?dāng)時(shí)的主流很可能還不懂得欣賞這個(gè)工作。”3D 起來(lái)后,所有北美頂級(jí)的高校都在招研究 3D 方向的老師。
同樣,具身智能也如此。蘇昊、盧策吾、弋力、王鶴等人從 3D 視覺(jué)研究機(jī)器人智能時(shí),具身智能也非 3D 領(lǐng)域的主流。2023 年該方向大火后,研究具身智能的團(tuán)隊(duì)需要兼具視覺(jué)、圖形、學(xué)習(xí)與控制四塊知識(shí),他們也是如今少有的、在四塊均有涉獵的研究人員。
據(jù)觀察,目前在國(guó)內(nèi)外的大廠中,兼?zhèn)渌膲K技術(shù)棧的團(tuán)隊(duì)也寥寥無(wú)幾。英偉達(dá) Dieter Fox 帶領(lǐng)的機(jī)器人團(tuán)隊(duì)是少數(shù)之一。(后續(xù)雷峰網(wǎng)將推出騰訊、小鵬、小米、獵豹等機(jī)器人團(tuán)隊(duì)的興衰故事,有興趣的讀者歡迎微信添加 Fiona190913 交流)
從深度學(xué)習(xí)到 3D 視覺(jué)、大模型,再到具身智能,盧策吾的感受是,隨著 AI 的發(fā)展時(shí)間線拉長(zhǎng),中國(guó)科技與海外的距離越來(lái)越短、甚至并駕齊驅(qū)。例如,全球的第一批具身智能博士都是在 2017 年前后開(kāi)始培養(yǎng)的,上海交大也是 2017 年;2023 年超大規(guī)模開(kāi)源真實(shí)機(jī)器人數(shù)據(jù)集 Open X Embodiment 的參與單位中,上海交大也與斯坦福、伯克利等高校并列其中。
具身智能走到產(chǎn)業(yè)化一步,中國(guó)供應(yīng)鏈的優(yōu)勢(shì)也進(jìn)一步顯現(xiàn)出來(lái)。具身智能是一個(gè)綜合的復(fù)雜系統(tǒng),要求上下游各供應(yīng)鏈環(huán)節(jié)相互配合、相互支持,而中國(guó)在硬件供應(yīng)鏈上的優(yōu)勢(shì)無(wú)疑是走在前沿,且更有后勁。
究其根本,具身智能的目標(biāo)是實(shí)現(xiàn)“通用機(jī)器人”。當(dāng)前的大量實(shí)踐表明,機(jī)器人能夠以一定的成功率完成人類要求的基本任務(wù),但要達(dá)到或超越人類的效率、同時(shí)具備通用性與高良品率,還有很長(zhǎng)的路要走。舉個(gè)例子,盡管工業(yè)機(jī)械臂已經(jīng)很發(fā)達(dá),但機(jī)器人在全球制造業(yè)中的滲透率平均僅有 1-2%。
這中間不僅要解決數(shù)據(jù)驅(qū)動(dòng)迭代的問(wèn)題,還要解決持續(xù)、精細(xì)的操作過(guò)程,以及機(jī)器人如何通過(guò)學(xué)習(xí)人類行為與物理世界、乃至真實(shí)人類進(jìn)行有效交互,等等。
毫無(wú)疑問(wèn),這是一個(gè)極具想象力、又充滿挑戰(zhàn)的未來(lái)領(lǐng)域。具身智能火起來(lái)后,蘇昊、盧策吾、王世全、王鶴、弋力等人都十分興奮——未來(lái)比大家想象的還要來(lái)得快。同時(shí),他們又深知面前還有一座又一座的山峰等待他們?nèi)ヅ涝健?/p>
從黑暗走來(lái)的人,見(jiàn)過(guò)曙光,又繼續(xù)走進(jìn)了下一步風(fēng)暴。
關(guān)于具身智能領(lǐng)域的更多精彩群像故事,歡迎添加雷峰網(wǎng)作者微信 anna042023、Fiona190913 交流。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。