0
年初,DeepSeek閃亮登上大模型的銀幕,鎂光燈下,觀眾看到了一群年輕的身影。
少年浩氣展虹霓,日新月異的AI時代,年輕人悄然撐起了半邊天。
大模型的新浪潮已翩然而至,具身智能的新浪潮還有多遠(yuǎn)?
我們與三個具身智能領(lǐng)域的年輕人展開對話,傾聽他們的故事,感受時代的脈搏。
他們分別出生于98、01、02年代,性格各異,想法迥然。有的還在讀博,有的已入業(yè)界。
在這三個年輕人的身上,我們找到最大的共同點(diǎn),是少年郎的癡,敢,愛,狂。他們無一例外,都深深愛著自己的理想。
天下熙熙,皆為愛來。Z世代,是一個時代,一種品質(zhì)。
我笑他人看不穿
“我總?cè)滩蛔“情_問題上的層層面紗,分析其背后的本質(zhì)?!?/p>
譚恒楷打小就問自己:宇宙的邊界是什么樣的?人為什么會生老病死?如何才能一直復(fù)制人體干細(xì)胞?哥德巴赫猜想能不能再往前證一步?
接觸具身后,他又問自己:為什么它不work?為什么它能work?AGI的本質(zhì)是什么?又從何而來?
旅游的時候他也沒放過自己。去趟貴州,看到大梵山,他想:如何在物理世界搭建AGI?去趟新加坡,看到濱海灣,他思:如何在商業(yè)世界切入AGI?
《盜夢空間》里的五層夢境,譚恒楷估計能達(dá)到最深一層。
譚恒楷是清華計算機(jī)系本科直博,大二開始在朱軍的實(shí)驗(yàn)室里跟著蘇航做強(qiáng)化學(xué)習(xí)。在蘇航的指引下,他漸漸轉(zhuǎn)向具身智能領(lǐng)域,開始研究機(jī)器人。
23年他就能用強(qiáng)化學(xué)習(xí)和FCNet網(wǎng)絡(luò)架構(gòu)把機(jī)器狗下肢做到特別魯棒,幾乎覆蓋了所有真實(shí)世界地形,五道口時不時就能看到他的機(jī)器狗在爬樓梯。
但譚恒楷認(rèn)為,人和動物的本質(zhì)區(qū)別在于使用和制造工具,所以機(jī)器人最本質(zhì)的問題還是手。
要解決本質(zhì),首先要解決數(shù)據(jù)和模型問題。譚恒楷和其他幾個同學(xué)把研究工作分成三個方向:
一,做模擬器大量任務(wù)的生成;
二,讓sim2real能夠更高效地表示低維的視覺特征;
三,訓(xùn)練一個有足夠泛化性的具身大模型
OpenVLA 是基于自回歸,從語言任務(wù)里做離散token的建模。譚恒楷和團(tuán)隊卻選擇用擴(kuò)散模型做連續(xù)token的建模,“我們發(fā)現(xiàn) diffusion 對動作多峰分布的建模很強(qiáng),diffusion head 越大,建模效果越好。”
他們訓(xùn)練出了當(dāng)時全球最大的diffusion policy——RDT-1B。
通過整合互聯(lián)網(wǎng)上上百萬條機(jī)器人操作數(shù)據(jù),他們構(gòu)建了一個unified action space,輸入當(dāng)前圖像和語言任務(wù)指令,輸出機(jī)器人action的軌跡,得到1.2B參數(shù)量的具身大模型。
他們還出于數(shù)據(jù)不足的考慮,通過引入大量模擬器數(shù)據(jù)和Bounding Box這樣的視覺低維特征引導(dǎo),提出一個操作算法框架ManiBox,成功實(shí)現(xiàn)了機(jī)器人空間泛化的抓取和倒水等操作任務(wù),發(fā)現(xiàn)了具身智能空間泛化性的scaling laws。
工作是完成了,譚恒楷卻發(fā)現(xiàn),action數(shù)據(jù)的稀缺,才是具身的本質(zhì)問題。
Sora的預(yù)訓(xùn)練視頻有接近千萬小時,Tesla FSD車隊也有上千萬小時數(shù)據(jù),而具身才幾千,足足相差數(shù)萬倍,很難訓(xùn)練出一個泛化性的模型。
并且,長遠(yuǎn)來看,具身智能有各式各樣的硬件本體,會導(dǎo)致機(jī)器人的action模態(tài)不統(tǒng)一,action輸出后也不好在服務(wù)器上作快速部署和算法迭代。
譚恒楷當(dāng)機(jī)立斷:VLA去掉A,我們不要action了!
大家紛紛驚掉了下巴。啥?把a(bǔ)ction去掉?那還叫具身智能嗎!
譚恒楷想的是,用image space替代action space,讓機(jī)器人從互聯(lián)網(wǎng)數(shù)據(jù)的視頻模態(tài)中學(xué)習(xí)物體的運(yùn)動、接觸信息和物理知識。
基于這個想法,他們在今年五月份提出了具有Unified Observation Space的具身視頻基座模型VIDAR,來克服數(shù)據(jù)不足和機(jī)器人本體異構(gòu)的問題。
他們還提出了AnyPos模型,用一種叫ATARA(任務(wù)無關(guān)的action)的技術(shù),把a(bǔ)ction從基座模型解耦出來,實(shí)現(xiàn)自動化規(guī)?;腶ction采集,以此解決action數(shù)據(jù)不足的問題。
花幾百萬訓(xùn)練成本,干劍走偏鋒的事,譚恒楷并非沒有糾結(jié)過。畢竟在目前的具身領(lǐng)域,機(jī)器人通過互聯(lián)網(wǎng)視頻和圖像學(xué)習(xí)物理世界智能還是一個非共識的事情。
一番深度思考后,他說服了自己。首先,要達(dá)到涌現(xiàn),數(shù)據(jù)采集量的資本開支動輒就要上百億。其次,就算能采,這個數(shù)據(jù)量也遠(yuǎn)不是現(xiàn)在具身公司的數(shù)采工廠能采集到的。
“具身靠共識是走不通的,就像風(fēng)險投資一樣,得靠非共識才行?!?/p>
別人貪婪我恐懼,別人恐懼我貪婪,這是資本市場教會他的。
本科畢業(yè)后,譚恒楷在今日資本待過一陣,跟著徐新學(xué)習(xí)了很多投資上的真知灼見。他覺得,單靠一個人的力量很難做出震驚世界的工作,還得借助資本,把實(shí)驗(yàn)性預(yù)算變成可重復(fù)性的生產(chǎn)性預(yù)算。實(shí)習(xí)三個月,他把大模型和具身的創(chuàng)始人基本見了個遍。
“創(chuàng)業(yè)就是把自己 all-in,只有一次全壘打的機(jī)會,要選就選最偉大的。如果他的理想、技術(shù)、scale up范式都能讓我信服,我就跟他干。”
譚恒楷的目標(biāo)是:找一個偉大的組織。
找了一圈后他發(fā)現(xiàn)——
我的意中人到底在哪!
譚恒楷有點(diǎn)技術(shù)理想主義,渴望找到一個屬于具身的 DeepSeek,“梁文峰自己都還在寫代碼,一個十年沒訓(xùn)過神經(jīng)網(wǎng)絡(luò)的人,他能引領(lǐng)AI技術(shù)的發(fā)展嗎?”
很多創(chuàng)始人還是買流量、搞用戶增長、做數(shù)據(jù)飛輪閉環(huán)那一套。譚恒楷認(rèn)為,在AGI技術(shù)未收斂的時候,數(shù)據(jù)飛輪對模型能力沒有提升?!発imi最開始也砸錢去買流量,結(jié)果DAU被 Deepseek 10天超過,這就是互聯(lián)網(wǎng)思維套在AI時代上的一個錯誤例子?!?/p>
Christensen在《創(chuàng)新者的窘境》里講到,所有創(chuàng)新者都沒法在下一個顛覆性的時代里占得先機(jī)。其中有商業(yè)模式的問題,也有技術(shù)認(rèn)知的局限。這就是為什么,Google打不過OpenAI,大廠打不過DeepSeek。
00后的譚恒楷不吃互聯(lián)網(wǎng)那一套,正因如此,他認(rèn)為自己能夠突破“創(chuàng)新者的窘境”。大廠的基因決定他們做不了通用智能,打賞、豆包、投流、產(chǎn)品,這些在AGI時代都沒用。要突破窘境,不是增量的改進(jìn),也不是VLM變VLA,而是顛覆性的技術(shù)范式。
具身有很多自動駕駛、傳統(tǒng)CV切過來的人,但人臉識別那一套感知智能畢竟已是上一代AI,技術(shù)上并沒有降維打擊的優(yōu)勢。譚恒楷認(rèn)為,自動駕駛、硬件、VLA,都不是AI最本質(zhì)的變量。最本質(zhì)的變量,是物理世界的智能。
ChatGPT等大模型的出現(xiàn),讓他看到AI真正涌現(xiàn)出來的一些智能。目前具身的GPT時刻還未來臨,就像17年transformer剛出來的時候,現(xiàn)在正是百花齊放的探索階段?!拔腋杏X周圍有熱情的年輕人其實(shí)并不多,清華搞計算機(jī)的同學(xué)中就沒幾個,大家該更狂妄一點(diǎn),堅持做難而正確的事情?!?/p>
譚恒楷上高中的時候,他爸總和他講,不必為短期波動而焦慮,你要扎根一個方向,并且長期執(zhí)行下去。當(dāng)時譚恒楷的競賽和文化課成績都不理想,老師同學(xué)對他一番熱諷加冷嘲。在學(xué)校沒有傾訴對象,譚恒楷一腔苦水只能回家跟爸媽倒。
“我爸說過很多話跟段永平很像,他老說,快就是慢,慢就是快。想賺快錢,錢來的就慢,賺慢錢,反而能享受到時間的復(fù)利?!?/p>
股票,最重要的,是等。人生,最重要的,也是等。
父母這塊堅強(qiáng)的后盾,穩(wěn)穩(wěn)頂在了譚恒楷的背后??嘧x一年,他拿到了NOI銀牌,全國前100名。教練都震驚了,從沒見過一年就學(xué)到這種成績的,一般人可都要7、8年的時間吶!
譚恒楷喜歡巴菲特,自己也是個價值投資者。他8歲時受父親熏陶開始接觸股票,后經(jīng)徐新的耳濡目染,在a股、港股、美股中秉持長期主義的投資理念,和“偉大的公司”一起成長,年化收益率能達(dá)到40%。
除了股市上的研究,他聊起房市也津津樂道,“我覺得現(xiàn)在北上廣的房價已顯著高于其內(nèi)在價值,不是好的投資選項?!?/p>
很多具身的研究就像北上廣的房子,外表高大上,實(shí)則價值虛空,為做demo而做,為發(fā)paper而發(fā)。譚恒楷不愿做反復(fù)雕花的工作,要做,就必須能為社會帶來真正的生產(chǎn)力。
就像老爸跟他講的:“與你未來做千億美元市值的偉大公司相比,幾百幾千萬的房子算得了什么?你需要考慮區(qū)區(qū)一個房子的問題嗎?”
一眼看穿本質(zhì),譚恒楷決定,不再考慮區(qū)區(qū)一個“房子”的問題。
向前踮起,向后落下
“要不得!
要不得!
注重調(diào)查!
反對瞎說!”
吳銘東的手指停在這段話上,機(jī)場的廣播已響了兩次,催促從北京到上海的旅客盡快登機(jī)。他合上書,泛黃的封面,五個黑體字洋洋灑灑:毛澤東選集——第一卷。
因科研工作需求,吳銘東經(jīng)常往返兩地。從北京到上海,他只帶了四本書,分別是毛選的一到四卷。
吳銘東覺得自己以前有一點(diǎn)飄,像個不斷踮起腳看向窗外新奇的孩童。讀讀毛爺爺?shù)闹腔郏梢苑乐沟羧胨级粚W(xué)和先入為主的陷阱。
16年AlphaGo的橫空出世,驚艷了還是高中生的吳銘東,他覺得AI的終極問題,就藏在機(jī)器人靈巧的雙手中。入學(xué)北大的第一天,每個新生都要畫出自己想象中 20 年后的樣子。吳銘東畫的主題是——AI 機(jī)器人革命下人類文明的變革。
在他的畫中,機(jī)器人解放了血肉之軀的底層痛苦,使人類可以更專注地解決社會關(guān)系、階級關(guān)系、剝削、壓榨、不公平等人性之惡的痛苦。由此,文明進(jìn)入一個新的階段。
吳銘東刷B站視頻的時候,常看到很多天賦異稟的人與理想失之交臂,最終在螺絲廠里消磨人生。他總是一陣惆悵:他們只是活著,又有什么錯?如果機(jī)器人能幫助人類減輕這種無意義的痛苦,那該多好呀。
“那個時候不知道現(xiàn)實(shí)有多難有多苦,只是很天真地在幻想這些事情?!?/p>
吳銘東高中就讀于湖南雅禮中學(xué),“我們學(xué)校出來的都比較有個性?!?為了能夠更自由地發(fā)展個性,他擇校時選了北大,入校后成為北大圖靈班的一員。
吳銘東大一的研究方向是生成模型,當(dāng)時具身智能領(lǐng)域尚未迎來爆發(fā)期。2020年,導(dǎo)師董豪從視覺轉(zhuǎn)型到具身領(lǐng)域。吳銘東也跟隨董豪的步伐,投入了具身智能的研究。
2023年,吳銘東在董豪的帶領(lǐng)下進(jìn)入業(yè)界。機(jī)器人普遍面對數(shù)據(jù)稀缺的問題,吳銘東最初的行業(yè)目標(biāo)是采集高質(zhì)量數(shù)據(jù),通過模仿學(xué)習(xí)的范式用VLA做機(jī)器人。
可是,覆蓋現(xiàn)實(shí)場景的復(fù)雜性注定要花費(fèi)高昂的代價采集海量數(shù)據(jù)。不僅如此,即使擁有非常大的訓(xùn)練集,也無法保證訓(xùn)練出的策略能在新任務(wù)上實(shí)現(xiàn)100%的成功率。
要想提升成功率,機(jī)器人得具備主動適應(yīng)的能力。
從23年到24年初,董豪和吳銘東一直在研究如何解決適應(yīng)性和成功率的問題。直到24年2月份,全球首個真機(jī)強(qiáng)化學(xué)習(xí)(SERL)工作破土而出。
很多論文里,機(jī)器人只需 20 次的成功率,就會被認(rèn)為是百分百成功。實(shí)際中,一個機(jī)器人在工位干一個月需要幾十萬次操作,如此龐大的操作次數(shù),無法保證每一次的成功率都是百分百。
SERL的原理是,讓機(jī)器人在環(huán)境中自動交互,通過獎勵信號的反饋取長補(bǔ)短,優(yōu)化成功率,形成一個閉環(huán)的學(xué)習(xí)能力。吳銘東發(fā)現(xiàn),強(qiáng)化學(xué)習(xí)是提高真實(shí)世界成功率必不可少的一環(huán),而模仿學(xué)習(xí)是加速強(qiáng)化學(xué)習(xí)的“催化劑”。
柳暗花明又一村,他開始轉(zhuǎn)向SERL的研究。24年3月初,吳銘東在實(shí)驗(yàn)室里成功復(fù)現(xiàn)了SERL。
在吳銘東看來,真機(jī)強(qiáng)化學(xué)習(xí)比強(qiáng)化學(xué)習(xí)更具挑戰(zhàn)性。真實(shí)世界變量多,交互效率還不到仿真的1%。在如此有限的采集量下達(dá)到百分百的成功率,非??简?yàn)算法的設(shè)計和系統(tǒng)的工程能力。
“做真機(jī)強(qiáng)化學(xué)習(xí)的人一定要有軟硬結(jié)合的能力,不能只會迭代算法,還要會迭代硬件?!?/p>
復(fù)現(xiàn)SERL之后,他召集了一批北大的科研同學(xué),開展對SERL的廣泛探索。
具身目前還沒有探索出一條能真正落地的路線,隨著場景擴(kuò)大,每一步都有不同挑戰(zhàn)。吳銘東期待做出一個data flywheel式的AGI,能從猩猩進(jìn)化成智人、從智人進(jìn)化到人類,在真實(shí)世界中自我迭代。
理想很豐滿,現(xiàn)實(shí)很骨感。真機(jī)強(qiáng)化學(xué)習(xí)目前主要在二指夾爪上成績矚目,若未來用到靈巧手上,一方面要面臨探索空間大的難題,另一方面還得讓硬件適應(yīng)算法。
前腳是技術(shù)上的窘迫,后腳是量產(chǎn)上的困境。如果團(tuán)隊沒有打過量產(chǎn)的仗,哪怕做出技術(shù),也可能吃大虧,試錯成本 10 個億都頂不住。
將登太行雪滿山,吳銘東感嘆:我還不曾參透這個世界的邏輯。他品嘗到了一絲沒有調(diào)查,沒有發(fā)言權(quán)的滋味。
讀博士、刷論文,步入業(yè)界后才驚覺,原來這些指標(biāo)之上,還有一個估值邏輯叫可靠性。他從沒想過,可以交付什么產(chǎn)品?幾年內(nèi)達(dá)到銷售預(yù)期?有些人很早就深入調(diào)查實(shí)體經(jīng)濟(jì)和供應(yīng)鏈,而自己卻連核心零件要選好二供都不知道。
不過,奮發(fā)自有時。98年的吳銘東是一個包袱少、敢試錯的有志青年。作為一批在互聯(lián)網(wǎng)時代成長起來的年輕人,他在技術(shù)研究上有明顯的優(yōu)勢。吳銘東表示,“年輕人趕上了技術(shù)紅利,能探索更多有潛力的領(lǐng)域,很多老師都羨慕我們吶?!?/p>
他覺得,商場風(fēng)雨,該老少搭配,干活不累。老一輩可以改進(jìn)場景適應(yīng)技術(shù),年輕人可以改進(jìn)技術(shù)適應(yīng)場景。
具身智能本身涵蓋很多學(xué)科,視覺表征、強(qiáng)化學(xué)習(xí)、數(shù)據(jù)采集、硬件操作,都是藥鋪里的甘草——少不得一味。吳銘東建議,你最好在每個核心算法領(lǐng)域都有能發(fā) paper 的水平,再找一個軟硬件兼?zhèn)涞娜珬F脚_,豐富行業(yè)認(rèn)知。
“可以多和 senior 合作,抓住身邊人?!?他很感謝董豪老師提供的平臺,讓他擁有一個更全棧性的視角。
吳銘東每月往返北京和上海差不多一兩次。去機(jī)場的路很長,滴滴司機(jī)不時會跟他聊幾句。得知他的工作內(nèi)容后,吳銘東被問到最多的一個問題就是:有了AI,我還能開車嗎?
他反問道:“你敢讓AI開滴滴嗎?AI是感受不到痛苦的。它撞車沒事,人呢?”
吳銘東覺得,AI是為人民服務(wù)而生的,并非取代。他計算過,普通人一天有14個小時的自由時間,假設(shè)機(jī)器人每天做4小時家務(wù),就能幫人類延長 4/ 14——也就是接近30% 的生命!
“但人類也要警惕過度依賴AI的思維模式,” 他指出,一個充斥著復(fù)雜性的大腦,去模仿一個架構(gòu)清晰的神經(jīng)網(wǎng)絡(luò),未必是真正的進(jìn)步。這種單向的趨同,可能會侵蝕人類思維獨(dú)有的“神性”。
為什么我們覺得殘缺的維納斯美呢?或許AI就不這么覺得。人類能夠擁抱殘缺之美,這就是人類大腦的神秘之處,是——“不可復(fù)制的神性”。
本科畢業(yè)那一天,吳銘東回宿舍收拾東西。在書桌角落,一摞文件的最下面,他找到了入學(xué)第一天的那幅畫??吹降囊凰查g,他后知后覺,原來當(dāng)初天真的理想,如今正在慢慢實(shí)現(xiàn)?,F(xiàn)實(shí)曾一度讓他迷茫,所幸,他仍有勇氣走在理想上。
機(jī)器人的問題還在鉆研,入學(xué)時的畫還在家中,他笑著說,
“或許這就叫神奇的命運(yùn)。”
他踮起的腳,終于落下。
快哉!樂哉!瀟灑哉!
TVB最經(jīng)典的臺詞是:做人嘛,最重要的就是開心啦。
王乾旭也是這么想的:人生只活一次,最重要的就是開心啦。
初看王乾旭三字,內(nèi)有乾坤,旭日東升——這名字,是算命先生給起的。2002年的一天,王乾旭呱呱落地。當(dāng)時王姥姥日思夜想,給外孫起個啥名好呢?
某天王姥姥上街溜達(dá),遇到一個會算命的,那人掐指一算,就叫王乾旭吧!
王乾旭是吉林長春人,從小被放養(yǎng)長大。小學(xué)學(xué)奧數(shù),別的孩子都被家長逼著老老實(shí)實(shí)坐在板凳上,王乾旭可不是。他覺得奧數(shù)又累又難,王媽媽就跟他說,不想學(xué)就別學(xué)了,你多玩一玩吧。
初中的時候,王乾旭每天在課堂外探索人生,跟形形色色的人聊天。在一次考試中,他“陰差陽錯”地考了年級第一。王乾旭突然覺得,考第一挺好,大家都夸我,那就再考一考。
于是,他再次“陰差陽錯”地考進(jìn)了吉林省最好的高中里最好的班,周圍人水平噌噌噌地一下子拔高不少。這時候,可不能再陰差陽錯了,他開始拼命努力學(xué)習(xí)。
“我的學(xué)習(xí)方法都是和好朋友討論出來的”,王乾旭說。他們高中班有 20 幾個考進(jìn)清北的同學(xué),貢獻(xiàn)了充分交流的土壤。從那時開始,王乾旭就知道交流與合作的重要性?!罢胬硎窃睫q越明的,跟別人合作交流才能改變自己?!?/p>
考進(jìn)北大后,王乾旭在專業(yè)探索上花了不少時間。他高中時最喜歡的學(xué)科是物理,但跟同學(xué)老師討論后,他發(fā)現(xiàn)物理研究并非自己所想,倒是計算機(jī)的廣袤天地更容易讓他找到興致所向。
上大學(xué)前都沒怎么用過電腦的王乾旭,不作他想,一步踏進(jìn)計算機(jī)的大千世界。
北大像圖靈這樣拔尖的班都有輪轉(zhuǎn),王乾旭所在的實(shí)驗(yàn)班也有到三個科研組輪轉(zhuǎn)的機(jī)會。大二下學(xué)期他轉(zhuǎn)入董豪教授的Agibot實(shí)驗(yàn)室,董豪當(dāng)時正跟楊耀東合作機(jī)器人,機(jī)緣巧合之下,王乾旭開始接觸具身智能。
當(dāng)時國內(nèi)研究靈巧手和機(jī)械臂的人很少,董豪剛好就是一個。但是這個硬件太新,連經(jīng)驗(yàn)豐富的學(xué)長都不太會用。寒假時大多數(shù)人都回家了,沒剩下幾個人的實(shí)驗(yàn)室,正等著新鮮事物填補(bǔ)空白。王乾旭靈機(jī)一動,跟朋友合伙:要不咱試試!
其實(shí)王乾旭的主要興趣不在硬件,而是怎么利用硬件開發(fā)算法,但這次心血來潮的研究,觸發(fā)了他對具身的興趣。他后來回憶,真是幸運(yùn)啊,這么早就找到了自己喜歡的東西。
大三下學(xué)期,王乾旭從董豪的科研組轉(zhuǎn)進(jìn)朱毅鑫教授的實(shí)驗(yàn)室CoRe。在朱毅鑫的推薦下,王乾旭開始和斯坦福的機(jī)器人實(shí)驗(yàn)室進(jìn)行遠(yuǎn)程合作,并結(jié)識了 Jeannette 教授。教授很喜歡王乾旭,愿意讓他去斯坦福做暑研。
不管是朱毅鑫還是Jeannette,都極大程度地給予了他定義科研的權(quán)利。在自由的環(huán)境下,王乾旭得以“野蠻生長”。在投稿ICLR的一篇論文中,王乾旭研究了一種叫蒸餾特征場(DFF)的方法,拋去傳統(tǒng)的NeRF技術(shù),僅用點(diǎn)云作為載體,成功將2D的信息通過3D的特征來表示。
這種高維信息的點(diǎn)云特征場可以定義三維中每一個空間點(diǎn)的特征,從而編碼機(jī)器人各種各樣的幾何形態(tài)和軌跡。這樣,特征場就有了非常好的場景泛化性。
在斯坦福暑研期間,王乾旭隔壁的實(shí)驗(yàn)室招了很多中國實(shí)習(xí)生,他隔三差五跑去隔壁組跟別人嘮嗑,一個月下來跟大家都混得挺熟。
在交流過程中,王乾旭發(fā)現(xiàn)動畫生成的“人”雖然操作不精確,但每一個動作都非常符合人的認(rèn)知,而且動畫領(lǐng)域?qū)φZ義和人體運(yùn)動的理解甚至比機(jī)器人領(lǐng)域還要細(xì)致。
他突發(fā)奇想,誒!可以先生成語義作為一個參考軌跡,讓機(jī)器人和人的認(rèn)知達(dá)成一致,然后再把物理和控制信息補(bǔ)齊。
但是,語義的信息很具體,而且頻率高。一個機(jī)器人拿杯子,就要涉及到接觸、拿起、杯子的幾何形狀等等。面對紛繁復(fù)雜的信息源,模型如何從不同的數(shù)據(jù)路徑中提取到有價值的信息并進(jìn)行組合呢?
王乾旭想,可以設(shè)計一個接口,把視覺模塊和控制模塊解耦,讓它們分別從不同的數(shù)據(jù)源中學(xué)習(xí)信息。
這個構(gòu)思源起于MIT副教授何愷明。在美國暑研期間,王乾旭在學(xué)姐鄧叢悅的介紹下,與何愷明在MIT的校園里見了一面。何愷明雖專攻視覺,但對機(jī)器人也有諸多想法,倆人聊了一個多小時。
“何教授的理解很透徹,我做interface design的思考很多來自于那天聊天中的啟發(fā)。見面那天的kaiming一身T恤牛仔褲,特別平易近人?!?/p>
王乾旭覺得應(yīng)該探尋不同形態(tài)機(jī)器人操作中的共性,嘗試定義統(tǒng)一的數(shù)據(jù)表示方式。讓機(jī)器人像視覺模型一樣可以通過世界上的每一個人收集數(shù)據(jù),學(xué)到的知識又可以應(yīng)用到每一個機(jī)器人。
他表示,有做interface想法的人不少,但真正在做的不多?!斑@才是 exciting 嘛,如果所有人都一樣,那就很沒勁?!?/p>
今年年初,王乾旭收到了康奈爾大學(xué)的博士offer,準(zhǔn)備繼續(xù)追逐自己的科研夢。他希望未來能夠成為一個肩膀,別人踩著他走到了更遠(yuǎn)的地方?!爱?dāng)肩膀被踩是一種幸福,因?yàn)椴鹊米疃嗟挠肋h(yuǎn)是那個最厲害、最正確的那個人?!?/p>
成功的人不一定快樂,王乾旭是功成不必在我,功力不可唐捐。做一件真正值得、熱愛、快樂的事情,事了拂衣去,何樂而不為?
他希望可以在科研室里待到90歲?!拔矣X得李嘉誠30歲后就可以不用做生意了,但是他一直做到90歲!你說這人為什么怎么老不知足???因?yàn)樗矚g,就像我喜歡科研一樣?!?/p>
追求快樂的小王,也有不快樂的時候??歼M(jìn)北大后,王乾旭發(fā)現(xiàn)周圍很多同學(xué)都是競賽出身,從小就目標(biāo)清晰。兩相比較下,他發(fā)現(xiàn)自己選“錯”過很多東西。
“選擇本身沒對錯,當(dāng)你知道自己想干什么后,選擇就有了對錯。”他后悔小時候沒參加競賽,也后悔沒更早進(jìn)科研組,還后悔自己視野不夠,比如參加兩次國際學(xué)生會議都沒提前了解參會教授的信息。
但錯誤的選擇也讓王乾旭明白了人生的節(jié)奏和容錯。人生容錯很高,知道自己想要什么來評價選擇對錯本來就很不容易,保持好的心態(tài)和節(jié)奏,下次不要做錯就好。
當(dāng)生活中的欲望、煩惱、壓力沒法平衡的時候,王乾旭會去做心理咨詢。他覺得國內(nèi)現(xiàn)在競爭壓力太大,自己“選擇錯誤”的軌跡其實(shí)是人生長河中正常的經(jīng)歷,但是很多人都不允許你走錯一步。心理醫(yī)生雖不能幫他解決問題,但是能幫他調(diào)整心態(tài),讓他自己更好地解決問題。
王乾旭的微信頭像是一張手寫圖片:我能行。寫于2017年,當(dāng)時王乾旭還在讀初中,有個老師跟他說,就你這分,肯定考不上師大附中。他特別不高興,凌晨2點(diǎn)都沒睡著,忿忿不平中想著,你不相信我,可我相信我!
他當(dāng)即一骨碌爬起來,把自己的QQ頭像換成了這張圖片:我能行。
上高中后,王乾旭從QQ換成微信,頭像的圖片卻保留至今。除了初中考試打的雞血,他覺得我能行這三個字還有更深刻的含義。
初中的我能行,是相信自己能考好;后來的我能行,是相信自己可以做到;現(xiàn)在的我能行,是相信自己擁有追求夢想的勇氣和底氣。他覺得,我有這么好的智慧,得做一些更有價值理想的東西。
“我可不是一個普普通通的人,” 他這樣評價自己。
找到,且知道
電影《四百擊》的最后一幕,14歲的安托萬終于逃離了少管所,來到一望無際的海邊。他找到了自由,卻不知該走向何方。
少年自當(dāng)扶搖上,少年應(yīng)有凌云志,少年壯志不言愁,年少的我們,理當(dāng)鮮衣怒馬,一往無前。
可是,沖的背后,更重要的是知。
在向具身智能前行的征途中,三個年輕人的熱烈、迷茫、思索,匯聚成他們對AI世界的自我認(rèn)知。
知時代,
AI時代,年齡和資歷如過眼云煙,年輕人可以在非常短的時間內(nèi)經(jīng)受完整的科研訓(xùn)練,抓住技術(shù)的爆發(fā)點(diǎn)扶搖直上,闖出一片天地。
知方向,
VLA風(fēng)頭已過,強(qiáng)化學(xué)習(xí)或?qū)⒊蔀槁涞匮屎?。顛覆的技術(shù)范式,得靠“非共識”去突破。
知自己,
譚恒楷的知,是看破廬山真面目。
吳銘東的知,是自知不知是為上。
王乾旭的知,是心明志遠(yuǎn)行自堅。
安托萬還不知道自己的立身之所,三個Z世代的年輕人已在具身大地上撒下了幾粒種子。
雷峰網(wǎng)(公眾號:雷峰網(wǎng))
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。