0
本文作者: 賴文昕 | 2024-06-20 14:29 |
作者:賴文昕
編輯:陳彩嫻
上個月,在機(jī)器人國際頂會 ICRA 2024 中,AI 科技評論發(fā)現(xiàn):中國機(jī)器人企業(yè)正在崛起。
宇樹科技、傅立葉智能、樂聚機(jī)器人紛紛派出自家的雙足人形機(jī)器人,非夕科技展示機(jī)器人雙臂遙操作、力控夾爪,逐際動力帶來雙足機(jī)器人與四輪足機(jī)器人......
在一眾「本體派」企業(yè)中,定位為「基礎(chǔ)場景數(shù)據(jù)提供商和解決方案提供商」的艾歐智能顯得格外不同——他們產(chǎn)品的核心是「數(shù)據(jù)」及相關(guān)服務(wù)。
有趣的是,艾歐智能主攻「數(shù)據(jù)」,其創(chuàng)始人陳相羽,卻是一位經(jīng)驗豐富、不折不扣的硬核「本體派」。
2014 年,陳相羽從北京大學(xué)智能系畢業(yè),前往東京大學(xué)頂尖人形機(jī)器人實驗室 JSK Lab 讀博,師從實驗室主任稲葉雅幸(INABA MASAYUKI),研究方向為機(jī)器人視覺和傳感器技術(shù)。
在 JSK Lab 深造期間,陳相羽參與了 DRC——由 DARPA(美國國防部高級研究計劃局)主辦的頂級人形機(jī)器人挑戰(zhàn)賽,與全球 20 多個頂尖團(tuán)隊同臺競技,其中包括 Figure AI 前CTO Jerry Pratt 帶領(lǐng)的 IHMC。陳相羽參與了全尺寸機(jī)器人 JAXON 的研發(fā),專注于實現(xiàn)高速、高扭矩的關(guān)節(jié)運動,由此深化了對人形機(jī)器人軟硬件的理解。
此外,陳相羽還作為核心人員參與了 MBZIRC 無人機(jī)比賽,不僅獲得了 35 萬美元贊助,還榮獲 2017年IEEE AIM 的 Best Student Paper和2018 年 IEEE ICRA UAV方向的 Best Paper。他在賽中研發(fā)了關(guān)鍵的小型激光傳感器,該技術(shù)也成為他博士論文的基礎(chǔ)。
2018 年回國后,陳相羽加入了剛成立的騰訊機(jī)器人實驗室 Robotics X。騰訊需要員工有一個英文花名,他給自己起了iochen,io是他回國后給養(yǎng)的貓起的名字,源于dota里的英雄角色——小精靈。與此同時,IO也有input&output,1和0的寓意。陳相羽參與的第一個項目便是由來杰(星塵智能創(chuàng)始人)負(fù)責(zé)的自平衡自行車。緊接著,他開始擔(dān)任四足機(jī)器人 Max 的項目負(fù)責(zé)人,項目成果獲得了騰訊內(nèi)部年度技術(shù)突破獎銀獎。
2021 年,對制造業(yè)產(chǎn)業(yè)界更感興趣的陳相羽去到小鵬汽車生態(tài)公司鵬行智能,負(fù)責(zé)機(jī)械臂中心,帶隊參與研發(fā)了全球首款具備「多模態(tài)交互」能力的可騎乘智能機(jī)器馬。
2023年五四青年節(jié),艾歐智能(IO-AI.tech)成立,致力于具身智能數(shù)據(jù)服務(wù),為 AI 和機(jī)器人研發(fā)提供全面的數(shù)據(jù)支持和驗證方案。
艾歐智能采用先進(jìn)的慣性捕捉技術(shù),采用多傳感器融合,克服了傳統(tǒng)動作捕捉的局限,實現(xiàn)在各種地形下的自由數(shù)據(jù)采集,適應(yīng)日常環(huán)境,不影響人的自然活動。
采集的多模態(tài)數(shù)據(jù)包括動作、視覺、觸覺和語音信息。利用頭盔相機(jī)系統(tǒng)捕獲視覺信息,數(shù)據(jù)手套和鞋底記錄觸覺數(shù)據(jù),麥克風(fēng)捕捉語音信息,這些數(shù)據(jù)經(jīng)過融合,為機(jī)器人訓(xùn)練提供豐富的輸入。
「我們是想解決掉真正的技術(shù)底層問題,所以才選擇了數(shù)據(jù)這個出發(fā)點?!龟愊嘤鸶嬖V AI 科技評論,他們的開源數(shù)據(jù)集已有超過 50 萬條數(shù)據(jù),覆蓋了數(shù)十個場景、技能,涉及數(shù)百種被操作對象。
艾歐智能數(shù)采頭盔
All in 數(shù)據(jù)的「本體派」
AI 科技評論:當(dāng)時是什么契機(jī)促使你決定出來創(chuàng)業(yè)的呢?
陳相羽:2022年,隨著谷歌 RT-1 項目和 GPT-3 模型的發(fā)布,盡管 ChatGPT 尚未問世,但其與機(jī)器人產(chǎn)品需求的高度契合已顯而易見。在小鵬,我們計劃開發(fā)一款家用機(jī)器人,執(zhí)行拖地、提鞋、開關(guān)門、擦桌子等家務(wù),但現(xiàn)有機(jī)器人依賴硬編碼,智能化水平未達(dá)預(yù)期。
鑒于此,我們探索了類似自動駕駛的 GPT 加端到端訓(xùn)練方法,以提升機(jī)器人的智能。ChatGPT 的流行進(jìn)一步證實了通用機(jī)器人智能化的可能性,感覺智能機(jī)器人最后一塊拼圖已經(jīng)湊齊,激發(fā)了我創(chuàng)業(yè)的決心,希望能做出一些推動行業(yè)發(fā)展的事。
參考 GPT 的發(fā)展路線,我認(rèn)為數(shù)據(jù)匱乏是機(jī)器人行業(yè)的一個主要難題和行業(yè)痛點。
AI 科技評論:所以你在本體經(jīng)驗如此豐富的情況下不做本體,而是聚焦于數(shù)據(jù)采集?
陳相羽:數(shù)據(jù)是當(dāng)前智能化發(fā)展的核心。語言模型的智能涌現(xiàn)歸功于互聯(lián)網(wǎng)數(shù)十年的語料、圖像等數(shù)據(jù)積累,以及 GPU 等算力的提升,這些共同推動了深度神經(jīng)網(wǎng)絡(luò)模型的實現(xiàn)。自動駕駛的演進(jìn)也證實了端到端智能化的優(yōu)勢,特斯拉 FSD 通過收集海量的人類駕駛數(shù)據(jù)進(jìn)行訓(xùn)練,展現(xiàn)了強(qiáng)大的環(huán)境適應(yīng)性。
相比之下,智能機(jī)器人行業(yè)在數(shù)據(jù)和本體上存在經(jīng)典的先有雞還是先有蛋的問題。數(shù)據(jù)的匱乏從而缺乏 AI 理解能力,機(jī)器人就難以獨立工作,形成商業(yè)和數(shù)據(jù)飛輪的閉環(huán)。而本體層面,我在小鵬工作期間,也親見供應(yīng)鏈的挑戰(zhàn):供應(yīng)商要求大訂單量以降低成本,但機(jī)器人市場尚未成熟,需求量不足以支撐大規(guī)模生產(chǎn)。
實際上,相比于AI,機(jī)器人硬件領(lǐng)域近十年未見革命性突破,中國制造業(yè)的優(yōu)勢在于規(guī)模生產(chǎn)降低成本,但這也帶來了激烈的市場競爭,特別是在長三角和珠三角地區(qū)。機(jī)器人行業(yè)的價格戰(zhàn)在需求規(guī)模尚未形成之前就已打響。
盡管團(tuán)隊具備本體開發(fā)經(jīng)驗,開發(fā)人形機(jī)器人可能吸引更多融資,但我認(rèn)為當(dāng)下同質(zhì)化競爭尚無必要。人形機(jī)器人優(yōu)勢在于其任務(wù)的泛化性,真正的挑戰(zhàn)在于如何走進(jìn)有價值的場景,實現(xiàn)從原型到量產(chǎn)的跨越。目前,AI 能力是突破這一瓶頸的關(guān)鍵,這也是艾歐智能成立的初衷——通過數(shù)據(jù)解決行業(yè)底層技術(shù)問題。
AI 科技評論:所以你認(rèn)為數(shù)據(jù)是具身智能創(chuàng)業(yè)的難點或壁壘嗎?
陳相羽:沒錯,數(shù)據(jù)是一個行業(yè)難點。設(shè)想一下,如果現(xiàn)在我們有上億小時的數(shù)據(jù),機(jī)器人的智能化水平或許也會接近智能駕駛或者大模型。數(shù)據(jù)在未來可能成為核心燃料,但最終怎么確權(quán),怎么運營,是現(xiàn)在大家都在探索的事情。不見得說誰有數(shù)據(jù),誰就占領(lǐng)了絕對優(yōu)勢。未來有可能是人形機(jī)器人公司自己去采自己的數(shù)據(jù),然后有一部分公司像 Scale AI 一樣去做中間的數(shù)據(jù)處理服務(wù)。
除了數(shù)據(jù),模型、算力、架構(gòu)都是壁壘。大模型可以部署在云端,而機(jī)器人則需在端上部署,要做實時控制,跟外界實時反饋,但端上的算力目前還不具備這樣的芯片。再有就是模型,現(xiàn)有的大模型可以去堆參數(shù)量,但機(jī)器人沒法去堆這么大的數(shù)據(jù),一言蔽之,目前機(jī)器人的數(shù)據(jù)、端上算力都不支持模型的 scaling law。
AI 科技評論:很多公司也自己采數(shù)據(jù),那艾歐智能的優(yōu)勢在什么地方呢?
陳相羽:目前,企業(yè)各自構(gòu)建數(shù)據(jù)閉環(huán)系統(tǒng),通過自有數(shù)據(jù)采集和仿真學(xué)習(xí)進(jìn)行技術(shù)探索,在行業(yè)未批量化應(yīng)用前,這種獨立探索是合理的。
我們的優(yōu)勢在于專注、專業(yè)地提供數(shù)據(jù)的全流程服務(wù),不僅提供多種形式的機(jī)器人數(shù)據(jù)采集,還會提供數(shù)據(jù)處理、標(biāo)注以及到到最終的模型部署。我們作為多年的機(jī)器人從業(yè)者,能深入理解客戶需求,提供成本效益高并且保密合規(guī)的解決方案。相比之下,企業(yè)自己做這個事不僅成本高,還可能造成資源浪費。
在人工智能大會上,有人提議業(yè)界共享數(shù)據(jù),但考慮到數(shù)據(jù)可能成為企業(yè)核心資產(chǎn),尤其在生產(chǎn)環(huán)境如工廠車間,企業(yè)可能不愿分享數(shù)據(jù),這進(jìn)一步凸顯了我們作為數(shù)據(jù)服務(wù)提供商的重要性。
雖然直接開發(fā)本體或零部件是可行的路徑,但我們已決定暫時不涉足本體機(jī)器人制造,而是專注于提供數(shù)據(jù)采集和處理服務(wù)。我們相信,隨著 AI 能力的提升,將人類工作數(shù)據(jù)應(yīng)用于機(jī)器人,將是一項極具價值的工作。
AI 科技評論:那么艾歐智能有哪些創(chuàng)新點呢?
陳相羽:作為具身智能數(shù)據(jù)服務(wù)商,我們認(rèn)識到數(shù)據(jù)定義、采集和處理的挑戰(zhàn),希望通過持續(xù)采集人機(jī)互動數(shù)據(jù),實現(xiàn)數(shù)據(jù)量的擴(kuò)展,并利用遙操作技術(shù)針對不同機(jī)器人構(gòu)型進(jìn)行精準(zhǔn)訓(xùn)練。
因此我們開發(fā)了動作捕捉設(shè)備和融合算法,減少環(huán)境影響并確保數(shù)據(jù)精度;雇傭外采人員采集日?;顒訑?shù)據(jù),并有專業(yè)標(biāo)注團(tuán)隊使用自研平臺進(jìn)行語義標(biāo)注;擁有數(shù)據(jù)采集設(shè)備和大量數(shù)據(jù)集,適配遙操作,精準(zhǔn)匹配不同構(gòu)型機(jī)器人;通過數(shù)據(jù)運維平臺,實現(xiàn)動作與自然語言文本對齊,進(jìn)行數(shù)據(jù)處理和融合、地圖創(chuàng)建和標(biāo)注,打通采集到訓(xùn)練全流程。
在算法研發(fā)上,我們復(fù)現(xiàn)開源框架來進(jìn)行數(shù)據(jù)質(zhì)量評估,并將這些作為baseline提供給用戶。另外,我們還提供商業(yè)化的從數(shù)據(jù)采集、處理和標(biāo)注到具身模型的訓(xùn)練和部署全鏈路服務(wù)。
目前,已積累超過50萬條多模態(tài)數(shù)據(jù),涵蓋廣泛場景和技能,包括視覺、運動學(xué)、觸覺和聲音數(shù)據(jù)以及自然語言標(biāo)注,并提供遙控操作服務(wù),助力客戶數(shù)據(jù)采集和訓(xùn)練。
AI 科技評論:你不擔(dān)心以后數(shù)據(jù)、本體、模型公司實現(xiàn)大一統(tǒng)嗎?
陳相羽:如果資源和精力無窮的情況下,比如FANG或者BAT這種大廠有可能會實現(xiàn),他們首先要養(yǎng)一個專門做數(shù)據(jù)的團(tuán)隊,但肯定是由中間供應(yīng)商來做是最劃算的,大廠之間其實很難實現(xiàn)數(shù)據(jù)共享,就和模型公司會用 Scale AI 的服務(wù)同理。
如果我們做的確好,具備競爭力,能夠把數(shù)據(jù)做得質(zhì)量更高、效率更高、成本更低,那我也想不出來為什么甲方不用我們的東西。對于客戶很核心的機(jī)密性數(shù)據(jù),我們也可以提供采集的設(shè)備和相關(guān)的軟件服務(wù),由客戶自閉環(huán),保護(hù)其數(shù)據(jù)資產(chǎn)的安全性。
探索「大腦」不必硬件完備
AI 科技評論:那其實現(xiàn)在大家嘗試解決的問題是什么?
陳相羽:騰訊Robotics X實驗室主任、騰訊首席科學(xué)家張正友博士曾提出機(jī)器人的三大重要問題:移動能力、操作能力和邏輯理解能力(AI能力)。
結(jié)合DRC 大賽以及JSK實驗室的經(jīng)歷,我意識到機(jī)器人移動性的傳統(tǒng)解決方案存在局限,多數(shù)依賴于地面識別和認(rèn)知規(guī)劃,缺乏環(huán)境適應(yīng)性。在騰訊的時候我們便開始通過采集狗的行走數(shù)據(jù)并映射到四足機(jī)器人,實現(xiàn)了端到端學(xué)習(xí)。目前,無論是人形還是四足機(jī)器人,都在向數(shù)據(jù)驅(qū)動發(fā)展,以增強(qiáng)適應(yīng)性和減少對預(yù)編程的依賴。
操作問題商業(yè)化驗證了的主要為工業(yè)自動化,目前主要集中在國產(chǎn)化替代和核心零部件生產(chǎn)。中游市場的高利潤則由工業(yè)機(jī)器人品牌“四大家”占據(jù),壁壘較高。目前在這個紅海很難找到理想的高利潤 PMF(產(chǎn)品市場契合點),智能化或是唯一出路。而具身智能則是實現(xiàn)機(jī)器人操作智能化并將機(jī)器人操作場景進(jìn)行拓展最有潛力的路線。
智能理解語義邏輯和任務(wù)規(guī)劃是另一個挑戰(zhàn),即需要讓機(jī)器人理解事件、動作和物體的 affordance(可供性)。傳統(tǒng)上依賴 PDDL 方法,用 LISP 語言定義規(guī)則,構(gòu)建知識圖譜。但現(xiàn)在,AI 大語言模型已經(jīng)能夠通過對話直接指導(dǎo)用戶執(zhí)行任務(wù),展現(xiàn)了前所未有的智能化潛力。
AI 科技評論:有人認(rèn)為「大腦」更重要,也有人認(rèn)為現(xiàn)在模型已解決不少智能問題,是硬件跟不上,所以得先解決「身子」的問題,你對此有什么看法呢?
陳相羽:我認(rèn)為身體和大腦的發(fā)展是統(tǒng)一的,不可能獨立進(jìn)化。硬件的完備并不意味著大腦就能處理一切,除非硬件能自我思考。人類可以僅用一根筷子完成許多任務(wù),但機(jī)器人目前還做不到這一點。
在機(jī)器人設(shè)計中,我們面臨選擇何種形態(tài)的決策,如二指夾爪、三指手、五指手等。人類手指使用頻率的不同,例如無名指和小指較少使用,反映了進(jìn)化中的偶然性,這提示我們在機(jī)器人形態(tài)設(shè)計上還有許多探索空間。
盡管如此,我們對人形機(jī)器人持樂觀態(tài)度,因為世界是為人類設(shè)計的,人形機(jī)器人在環(huán)境適應(yīng)上具有優(yōu)勢。盡管硬件開發(fā)存在挑戰(zhàn),如觸覺傳感器和全驅(qū)動靈巧手,但這些難點不會阻礙我們。簡單的工具如筷子能完成的任務(wù)表明,即使在硬件不完善的情況下,機(jī)器人也能展現(xiàn)智能,不必等所有技術(shù)成熟才開始探索機(jī)器人智能。
具身智能的「GPT Moment」將至
AI 科技評論:手機(jī)有 iPhone Moment,大模型有 GPT Moment,你認(rèn)為具身智能的 Moment 會是怎么樣的,會在什么時候發(fā)生?
陳相羽:GPT Moment 是在 ChatGPT 真正產(chǎn)品化后,普通民眾能真正體驗到,產(chǎn)生了社會影響力。而技術(shù)層面上InstructGPT 和 GPT 3 的主要區(qū)別在于它增加了一個基于人類反饋的強(qiáng)化學(xué)習(xí)機(jī)制,提高了評分和訓(xùn)練的效果。
Instruct GPT時刻
我認(rèn)為,未來可能會先有一個準(zhǔn)確率不是很高、但能做各種事情的具身模型。隨著技術(shù)的迭代,可能會出現(xiàn)類似 InstructGPT 的模型,將具身智能模型包裝成類似 ChatGPT 的產(chǎn)品形式,讓人們對成功率和容忍失敗的態(tài)度有所改觀,這將是 GPT 時刻的到來。
要產(chǎn)生社會影響力一定是 To C 的,但這并不意味著從一開始就要直接面向消費者,而是要經(jīng)歷 B 端或 G 端的降本和優(yōu)化過程。直接 To C 的風(fēng)險很大,難度也會指數(shù)級上升。不過我樂觀估計可能在 3 到 5 年內(nèi),這個時刻就會到來。
AI 科技評論:在你看來,具身智能短期內(nèi)(如一年)會如何發(fā)展?
陳相羽:具身智能企業(yè)目前主要銷售給高校和研發(fā)機(jī)構(gòu),短期肯定也是以研發(fā)、高??蒲袨橹?,然后在一些固定場景或有泛化需求的工廠小規(guī)模落地嘗試,比如汽車總裝的最后一步,特斯拉在工廠里分揀插電池,也是一種嘗試,我認(rèn)為這部分可能會更快一些。
艾歐也會接觸科研市場。在 ICRA 上很多國內(nèi)外高校對我們的數(shù)據(jù)感興趣,我們能提供科研授權(quán),他們可以直接拿去發(fā)論文做研究。也可以提供遙控操作設(shè)備,將設(shè)備租或賣給高校使用,為他們的人形機(jī)器人采集數(shù)據(jù)或做其他事情。
AI 科技評論:你認(rèn)為人形機(jī)器人會是具身智能的終極形態(tài)嗎?
陳相羽:大家一直在討論這個問題,以前是問人形是不是機(jī)器人的終極形態(tài),現(xiàn)在問是不是具身智能的終極形態(tài)。這個世界是由人創(chuàng)造的,很多東西是為人設(shè)計的,所以會說人形是最好的形態(tài)。
黃仁勛最近也提到,人形機(jī)器人跟人有相同的構(gòu)型(physique),構(gòu)型相同就代表我們可以創(chuàng)造比其他構(gòu)型機(jī)器人更多的數(shù)據(jù)來給人形機(jī)器人,幫助其完成 AI 訓(xùn)練。站在現(xiàn)在的技術(shù)架構(gòu)上來講,想象一個如蛇形、螃蟹型等其他構(gòu)型的機(jī)器人,這些數(shù)據(jù)是更難以獲取的。
黃仁勛在 Computex 2024上的講演
AI 科技評論:可以分享一下艾歐智能的愿景嗎?
陳相羽:我們將專注于解決機(jī)器人行業(yè)的挑戰(zhàn),推動技術(shù)在各場景下的實際應(yīng)用,提升生產(chǎn)力,并幫助客戶實現(xiàn)機(jī)器人技術(shù)的落地。同時希望最終能促成新型就業(yè),在 AI 時代使藍(lán)領(lǐng)工人的經(jīng)驗和技能得到傳承,期望機(jī)器人技術(shù)的發(fā)展能讓人類更輕松,減少人類的工作時間,推動社會進(jìn)步做到一周三休甚至四休?。
目前,艾歐正在積極推進(jìn)與本體和大模型公司的合作,公開多模態(tài)數(shù)據(jù),包括視覺、觸覺、聲音和運動學(xué)數(shù)據(jù),免費供大家使用。如果用戶發(fā)現(xiàn)這些數(shù)據(jù)對他們有價值,我們期待能夠進(jìn)一步展開商務(wù)合作,成為他們的數(shù)據(jù)供應(yīng)商,幫助他們采集數(shù)據(jù),提供數(shù)據(jù)燃料。我們相信開放是技術(shù)的終局,只要公司能夠持續(xù)運營,就會保持開放。
行業(yè)正處于研發(fā)到落地的過渡階段,大家有不同的科技信仰和路線,艾歐致力于參與定義數(shù)據(jù)標(biāo)準(zhǔn),為行業(yè)發(fā)展貢獻(xiàn)力量。我們堅信,各種類型的數(shù)據(jù)最終都將展現(xiàn)其獨特的價值。
本文雷峰網(wǎng)作者 anna042023 將持續(xù)關(guān)注具身智能行業(yè)的人事、企業(yè)、商業(yè)應(yīng)用以及行業(yè)發(fā)展趨勢,歡迎添加交流,互通有無。雷峰網(wǎng)(公眾號:雷峰網(wǎng))
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。