0
本文作者: 賴文昕 | 2024-05-18 17:55 | 專題:ICRA 2017:創(chuàng)新、創(chuàng)業(yè)和解決方法 |
作者:賴文昕
編輯:陳彩嫻
過去一周(5.13-5.17),國際頂級機器人學(xué)術(shù)會議 ICRA(IEEE International Conference on Robotics and Automation)在日本橫濱舉辦吸引了全球機器人領(lǐng)域的研究者、企業(yè)及學(xué)生,共同探討機器人領(lǐng)域最新的科學(xué)進展和產(chǎn)業(yè)成果。
今年 ICRA 大會的主題設(shè)定為「CONNECT+」。
大會最終截稿日期是 2023 年的 10 月 21 日,收到 3937 篇論文,與去年的 3125 篇相比,提交的論文數(shù)量漲了約 25.88%;經(jīng)過一個月審核,最終接收 1765 篇論文,論文接收率為 45%,比去年略漲 2%,論文主題覆蓋了如雙足機器人、人體檢測和跟蹤、人機交互、機器人學(xué)習(xí)、安全和監(jiān)控機器人系統(tǒng)、3D重建、無人機系統(tǒng)、人工智能、農(nóng)業(yè)自動化、行為樹和大數(shù)據(jù)分析等等領(lǐng)域。
除論文數(shù)量的顯著增加外,本屆 ICRA 還有 119 家企業(yè)參與展會,吸引了美國亞馬遜、波士頓動力,德國庫卡,日本本田研究所,以及中國宇樹科技、非夕科技、逐際動力、艾歐智能、求之科技、方舟無限等等一眾機器人團隊的參會。
換言之,ICRA 2024 不僅展現(xiàn)了學(xué)術(shù)界的深度交流,更象征著全球工業(yè)領(lǐng)域機器人團隊之間的一場巔峰對決。
在 ICRA 2024 的展會現(xiàn)場,參會者可以看到這樣的奇觀:
機器狗、輪式機器人、雙足機器人等等一眾「機器生命」在會場「自由走動」,參會者們聚集在它們身邊,儼然一場賽博朋克版的迪士尼花車巡游。
展會中大部分企業(yè)都選擇展示 live demo,且與往屆相比,demo 質(zhì)量越來越高。
比如,逐際動力這款雙足機器人 P1,把在森林里怎么打都不倒的經(jīng)典場景,在 ICRA 2024 現(xiàn)場再次重現(xiàn)。
「若干年前機器人會議上的機器人都只能打個招呼或者站著不動,這次出現(xiàn)的機器狗都能動、還能踹,說明魯棒性非常高。」清華大學(xué)交叉信息學(xué)院助理教授、具身智能實驗室主任及星海圖的聯(lián)創(chuàng)許華哲告訴 AI 科技評論。
此外,人形機器人也成為 ICRA 的亮點,如中國企業(yè)宇樹科技在大會期間發(fā)布的 9.9 萬人形機器人引起了國內(nèi)外參會者的熱烈討論。不難看出,人形機器人成為機器人領(lǐng)域的一個新興方向,尤其在大模型風(fēng)潮下與具身智能一同崛起。
一個趨勢正在發(fā)生:ICRA 上關(guān)于機器人的內(nèi)容已經(jīng)從以傳統(tǒng)的控制為主,到關(guān)注機器人的學(xué)習(xí)、操作等。國內(nèi)外的機器人研究領(lǐng)域都在關(guān)注同一個問題:如何讓機器人更智能?
但與此同時,AI 科技評論也關(guān)注到,雖然大模型落地端側(cè)(如手機、機器人)是過去一年 AGI 討論中的重要主題之一,ICRA 2024 大會現(xiàn)場的「大模型蹤影」卻寥寥無幾。一方面,這是因為機器人的行業(yè)特點,「有自己的節(jié)奏」;另一方面,ICRA 聚焦在學(xué)術(shù)探討上,大模型在論文演講中的比重遠遠超過展區(qū)成果展示。
中國機器人企業(yè)正在崛起
邁入2024年后,人形機器人領(lǐng)域頻頻傳出重大進展:
特斯拉發(fā)布了更新版的擎天柱機器人行走視頻,其行走的穩(wěn)定性和自信心態(tài)均有顯著提高,尤其在轉(zhuǎn)彎時的表現(xiàn)也相當(dāng)出色;
人形機器人初創(chuàng)公司 FigureAI 宣布獲得了包括亞馬遜創(chuàng)始人貝索斯、英偉達、微軟以及 OpenAI 在內(nèi)的投資,總額達6.75億美元;
英偉達于3月19日舉辦的2024年度GTC大會上,展出25款人形和機械臂機器人。
在 ICRA 2024 的機器人方陣中,最炫酷吸睛的絕對是與人類最相似的人形機器人。
值得關(guān)注的是,這次參會的雙足人形機器人企業(yè)主要是中國公司。
最受矚目的產(chǎn)品之一是宇樹科技的 G1 人形機器人。G1 以最低9.9萬元的售價,在機器人業(yè)內(nèi)扔下一枚超高性價比的炸彈。
與之相比,特斯拉的擎天柱機器人給出的目標(biāo)價位為2.5萬美元,折合人民幣約18萬元。
傅立葉智能帶來的通用人形機器人 GR-1 高165厘米,重55公斤,最高行走速度為每小時5公里。使用電動執(zhí)行器的 GR-1 本體擁有40個自由度,可承受近50公斤的重量。
樂聚機器人推出的「夸父(KUAVO)」人形機器人則是一款全尺寸高動態(tài)雙足仿人形機器人,最大行走速度可達5km/h,跳躍高度可達20cm。
「國內(nèi)公司在硬件方面整體上優(yōu)于國外,性價比較高,這是得益于國內(nèi)的供應(yīng)鏈優(yōu)勢?!狗街蹮o限創(chuàng)始人張鑫亮向 AI 科技評論分析中國企業(yè)崛起的原因。另外,中國公司還展出了很多機器人零部件和整體解決方案。
那為什么人形機器人會成為 ICRA 2024 的一大焦點呢?
實際上,電機和機械結(jié)構(gòu)設(shè)計已發(fā)展多年,硬件早已不是問題。但在沒有大模型和 AI 的年代,機器人只能進行簡單的動作但無法做出智能決策,要應(yīng)用傳統(tǒng)視覺技術(shù),一個機械臂就足夠了。
因此,過去人形機器人可能沒有太大的意義,僅僅是硬件產(chǎn)品并沒有實際應(yīng)用。
隨著 AI 技術(shù)的發(fā)展,機器人的能力上限不斷被突破??蒲泻蜕虡I(yè)探索的深入,也加速了人形機器人時代的到來,使得開發(fā)這一形態(tài)的產(chǎn)品變得有意義。
「大模型讓機器人可以不只是簡單動一動,而是有希望做一些智能決策,(以人形)收拾桌面或參與工廠工作。」張鑫亮說。
不難發(fā)現(xiàn),人形機器人是 ICRA 2024 當(dāng)時無愧的焦點,但從實用性角度出發(fā),其實際場景應(yīng)用及商業(yè)落地,卻一直備受爭議。
「展會上的人形機器人硬件沒問題,能動能走,但在智能化層面來講,離真的智能化機器人很遠。」地平線機器人事業(yè)部生態(tài)負(fù)責(zé)人胡春旭告訴 AI 科技評論。
特別是對于雙足人形機器人而言,腿上每個關(guān)節(jié)都需要電機,機身需承受高負(fù)載,這使得整體成本變得十分昂貴。
另外,雙足行走的控制算法開發(fā)難度大,需要大量時間進行迭代。即使上半身的控制算法已經(jīng)完成,腿部的控制算法也無法簡單地遷移過來。
「為了滿足科研用戶在雙足運控算法上越來越強的需求,我們先對點式雙足機器人 P1 進行了產(chǎn)品化,這個獨特的形態(tài),讓大家不需要一上來就做全尺寸人形、幾十個自由度的復(fù)雜算法研發(fā),并配備豐富的二開接口和服務(wù)。」張力介紹到 P1 是逐際動力如何賦能人形機器人研發(fā)的定位。
出于以上種種考慮,本次參會的部分日本和歐洲公司也沒有涉足這一領(lǐng)域。
清華系的星海圖目前同樣也沒有開展腿部機器人項目的計劃。
聯(lián)創(chuàng)許華哲告訴 AI 科技評論,人形機器人在算法上很有趣,但需要投入大量的時間和精力。
「如果真正想將機器人技術(shù)應(yīng)用到實際場景中,需要能快速產(chǎn)生效益和能力?!顾窒淼?。
本次選擇通過日本代理商參會的明星公司波士頓動力也曾困于找不到盈利模式的難題。
兩周前,波士頓動力的 CEO Robert Playter 來清華交流,告訴許華哲一定要找到賺錢的方法,否則公司就會被不停買賣。
不過,雙足人形機器人的產(chǎn)品市場契合度(PMF)其實并不低。
據(jù)參會者們分享,目前專注于足式人形機器人的公司主要面向科研市場,因為它們外形酷似人類,全球大量高校實驗室對此非常感興趣,清華大學(xué)就購買了許多人形機器人進行研究。
但若想讓機器人技術(shù)落地到工廠、家庭或超市等場景,就需要考慮更廣泛的商業(yè)化途徑。兼顧大型市場還是只專注于其中一個領(lǐng)域,這取決于機器人公司的戰(zhàn)略選擇和目標(biāo)市場的差異。
具身智能「剛剛」開始
去年,大模型的成功展示了深度學(xué)習(xí)具有規(guī)模效應(yīng),即只要有足夠優(yōu)秀的模型和海量數(shù)據(jù),其潛力遠超過以往,也促使學(xué)術(shù)界與產(chǎn)業(yè)界對實現(xiàn)真正的通用人工智能(AGI)燃起了希望。
在大模型熱潮的影響下,一批機器人或者說是具身智能企業(yè)如雨后春筍般創(chuàng)立,希望能夠開發(fā)出能與物理世界進行交互的智能機器人,完成這個極具挑戰(zhàn)性的任務(wù)。
「大模型技術(shù)的爆發(fā)與硬件成本的降低表明了軟硬件技術(shù)都已走向成熟?!乖S華哲告訴 AI 科技評論,「過去創(chuàng)業(yè)者們常說 move bits not boxes,意指改變數(shù)字世界比改變物理世界要容易得多。雖然現(xiàn)在的技術(shù)尚未完全成熟到可以解決所有問題,但已足以讓人看到解決問題的希望,今年已到達一個成熟的轉(zhuǎn)折點,因此吸引了眾多公司投身于具身智能領(lǐng)域?!?/p>
在 ICRA 2024 的展會現(xiàn)場,「具身智能」成為了每位參會者熱議的話題。
地平線機器人事業(yè)部生態(tài)負(fù)責(zé)人胡春旭向 AI 科技評論分享了自己的觀察:「現(xiàn)在只要涉及機器人與環(huán)境交互,與 AI 結(jié)合,都要說具身智能,就跟前兩年大家都在說人工智能是一樣的?!?/p>
「無論是科學(xué)家、創(chuàng)業(yè)者還是學(xué)生,大家都在討論具身智能?!孤?lián)合創(chuàng)始人兼COO張力也感嘆,具身智能的興起是他本次參會所感受到最顯著的趨勢,「通用機器人是一個在技術(shù)和商業(yè)化落地都還沒有共識的賽道,但是在這次全球?qū)W者和機器人企業(yè)聚首一堂的活動上,我能感受到大家逐步從沒有共識,到開始進行收斂,這是一個非常好的現(xiàn)象?!?/p>
與傳統(tǒng)機器人公司相比,「新生代」的具身智能企業(yè)最大的區(qū)別在于是否采用了人工智能技術(shù)。
傳統(tǒng)機器人通常被設(shè)計來精確地完成特定任務(wù),如工廠零件分揀機器人或家用掃地機器人,雖各有其功能,但其能力相對有限,內(nèi)部預(yù)設(shè)的智能算法較為簡單。
新一代機器人的目標(biāo)則更加通用以及「類人」,比如在家中充當(dāng)保姆,在工廠中扮演工人,靈活響應(yīng)各種需求。
「比如優(yōu)必選更強調(diào)自身運動,非夕科技強調(diào)力控,展會上展示了控制盤子上的球,這些更多體現(xiàn)了機器人本身的運動能力跟對外界的感知、控制能力?!购盒裾J(rèn)為,「現(xiàn)在的公司講具身智能,關(guān)注重心不是機器人自身的運動能力,更多的是如何跟外界互動,通過視覺識別外部環(huán)境后做抓取、放置等靈活的對外交互工作?!?/p>
艾歐智能便參與 ICRA 2024 最具有代表性的中國具身智能企業(yè)之一,將 AI 技術(shù)與機器人領(lǐng)域牢牢融合在一起。
創(chuàng)始成員都來自騰訊、小鵬團隊,艾歐智能通過具身數(shù)據(jù)采集,構(gòu)建不同應(yīng)用場景下的基礎(chǔ)數(shù)據(jù)集,為全球人工智能和機器人研發(fā)企業(yè)和研究機構(gòu)提供基礎(chǔ)場景數(shù)據(jù)和驗證方案。
傳統(tǒng)動作捕捉通常使用光筆或攝像頭,限制了活動范圍,而艾歐智能則采用慣性捕捉方式,不受地形限制,可自由采集數(shù)據(jù),更適合日常生活數(shù)據(jù)采集,在采集數(shù)據(jù)的同時還不限制人的行動。
而且,除了動作數(shù)據(jù)外,艾歐智能還采集視覺、觸覺和語言信息等多模態(tài)數(shù)據(jù)。
具體而言,艾歐智能使用安裝在頭盔上的多個相機來獲取視覺信息;通過自研數(shù)據(jù)手套與數(shù)據(jù)鞋底獲取觸覺信息;用麥克風(fēng)記錄語言信息;最后混合所有信息進行機器人訓(xùn)練。
艾歐智能告訴 AI 科技評論,目前他們開源的數(shù)據(jù)集包含50萬條劇本式采集數(shù)據(jù)以及數(shù)百個小時的自由采集數(shù)據(jù),涉及幾十種技能和數(shù)百種被操作對象,全部免費提供給社區(qū)供科研使用。
地平線機器人同樣也是具身智能企業(yè)的代表。
去年年末,地平線分拆了 AIoT(物聯(lián)網(wǎng))團隊,成立地瓜機器人并對外融資,其定位是提供消費級機器人計算解決方案。
目前,地平線機器人正在研發(fā)著支持大模型部署的高性能機器人芯片。
在地平線機器人的事業(yè)部生態(tài)負(fù)責(zé)人胡春旭看來,具身智能意味著機器人一定會結(jié)合多模態(tài)大模型去理解周邊環(huán)境。
「過去機器人的智能化比較差,但這兩年機器人的運動能力已經(jīng)被解決的相對比較好,現(xiàn)在大家都在關(guān)注智能化?!购盒裣?AI 科技評論解釋,「提高機器人的智能化水平一定是基于多模態(tài)大模型的基座去做,目前雖然沒有很明確的落地案例,但這一定是未來趨勢,也是我們重點探索和布局的方向?!?/p>
胡春旭稱,「大模型芯片在機器人廠商中是剛需,關(guān)注的企業(yè)很多,但現(xiàn)在關(guān)鍵點在于,一是怎么把大模型調(diào)教后放在芯片里跑,二是跑下來后,怎么能很好調(diào)試服務(wù)于場景,讓原來的那些基本算法變得更好用。對于我們來講,現(xiàn)在可能重點放在前面,讓大模型在我們芯片跑得更好,說實話本身上限就是硬件芯片的實際能力、物理水平?!?/p>
方舟無限同樣是一家新興具身智能企業(yè),是全球首家具身智能領(lǐng)域量產(chǎn)數(shù)據(jù)采集方案供應(yīng)商。
「上一代機器人主要依靠視覺智能,語言智能尚未被整合進機器人系統(tǒng)中,人類大腦決策大部分是雙手執(zhí)行,在機器人中可能是視覺智能和語言智能的結(jié)合,所以說 GPT 模型可能是推動具身智能發(fā)展的一個關(guān)鍵因素。」創(chuàng)始人張鑫亮談道,「我們之前理解的人形機器人、四足機器人等更多地偏向于控制上的優(yōu)勢,具身智能機器人追求的是讓機器人的大腦更完善,這也是我們的目標(biāo)?!?/p>
同為具身智能企業(yè)的逐際動力于2023年發(fā)布了其首款人形機器人CL-1,并于今年上半年接連公開該款機器人的遙操作及跑步等技術(shù)新進展。
「物理世界是圍繞人類設(shè)計的,人形機器人以類人的形態(tài),更具有通用性和泛化性,將會成為未來落地應(yīng)用的最佳載體?!箯埩φ劦馈?/p>
在 ICRA 2024 上,參會者們聊得火熱,也出現(xiàn)了如艾歐智能、地平線、逐際動力與方舟無限這類新興具身智能企業(yè),但具身智能作為一個新熱點,距離商業(yè)落地仍有不短的距離,核心技術(shù)大多掌握在高校手中,因此許多學(xué)者也會參與創(chuàng)業(yè)。
「與再次成為熱點的自動駕駛技術(shù)不同,具身智能尚未真正成熟并能實現(xiàn)量產(chǎn),所以熱點更多地集中在學(xué)術(shù)界而非工業(yè)界?!箼M跨學(xué)術(shù)與產(chǎn)業(yè)的許華哲解釋道。
ICRA 洞察:LLM 罕見,電驅(qū)主導(dǎo),學(xué)習(xí)與操縱成新范式
在端側(cè)大模型中,盡管底層的 LLM 邏輯均為 MOE(混合專家模型),但在手機端和機器人端的落地路徑卻十分不同。
兩者的應(yīng)用場景與需求都不同,機器人需要自主移動,因此一定會結(jié)合多模態(tài)大模型去對周邊環(huán)境做理解和交互(如怎么穿過椅子去抓取桌面上的物體),與不可能自己跟環(huán)境交互的手機端相比,機器人加大模型的組合更強調(diào)「具身」智能。
然而,與大模型人聲鼎沸的現(xiàn)狀不同,在 ICRA 2024中,LLM 在機器人領(lǐng)域的應(yīng)用十分罕見。
張鑫亮發(fā)現(xiàn),ICRA 2024 會議更側(cè)重于機器人控制等硬件領(lǐng)域,軟硬件結(jié)合的應(yīng)用在展會上較為罕見。
「除了我們的產(chǎn)品外,我?guī)缀跽也坏降诙以谧灾鞑僮鞣矫媸褂么竽P偷墓荆松贁?shù)做模仿學(xué)習(xí)和 Aloha 操作的公司。有的公司使用硬件機械臂進行工業(yè)抓取,但依然屬于傳統(tǒng)視覺,結(jié)合模型做抓取的公司在展會上并不多見,要么只專注于模型端,要么只專注于硬件端,與會者中似乎只有我們有同時結(jié)合軟硬件的苗頭?!?/p>
*Aloha 是2023年由斯坦福大學(xué)等機構(gòu)推出的一個用于雙機械手遠程操作的低成本開源硬件系統(tǒng),可以遠程操作并完成組裝鏈條、托舉乒乓球等多種任務(wù)。
LLM 在機器人蹤跡難尋的原因之一,便是當(dāng)前負(fù)責(zé)軟件與硬件研發(fā)的團隊并未實現(xiàn)融合。
相反,兩組人員分別在兩個領(lǐng)域進行研發(fā)。大模型團隊專注于模型開發(fā),從軟件層面著手,待軟件完善后再著手硬件的開發(fā)。
而另一些人則先從硬件開始,再整合大模型。兩個方向分別涵蓋的決策領(lǐng)域太多,因此尚未有團隊能夠同時兼顧兩者。
「不過現(xiàn)在專注于硬件并向大模型過渡的團隊,以及僅專注于軟件開發(fā)的團隊,都在逐步推進融合的過程。在這一背景下,與大模型最緊密相關(guān)的機器人領(lǐng)域就是具身智能?!箯場瘟两忉尩?。
機器人產(chǎn)業(yè)本身尚未形成一個穩(wěn)定且盈利的商業(yè)模式,同樣是 LLM 尚未在機器人領(lǐng)域廣泛展開的原因之一。
胡春旭向 AI 科技評論講道,「從商業(yè)層面來講,大模型公司肯定會評估機器人企業(yè)的商業(yè)模式落地,但機器人行業(yè)距離大規(guī)模批量化的落地,還有很長的路要走。」
不過,在 ICRA 2024上,也有觀點認(rèn)為:機器人當(dāng)前的研究重點更多集中在解決基礎(chǔ)層面的功能性問題(low level issues),而非高層次的認(rèn)知或決策問題(high level issues),后者在某種程度上已經(jīng)通過大模型得到了解決。
例如,即使大模型能夠規(guī)劃出做飯的步驟,但如果機器人連冰箱門都無法打開,那么這些高級規(guī)劃便無法實施。
許華哲告訴 AI 科技評論,「大模型并非當(dāng)前機器人技術(shù)發(fā)展的瓶頸,其當(dāng)務(wù)之急是解決物理交互和操作的基本問題,為未來更高級的集成和應(yīng)用打下基礎(chǔ)。隨著這些基礎(chǔ)問題的逐步解決,大模型在機器人領(lǐng)域的集成和應(yīng)用將變得更加可行和有效。」
ICRA 2024 展現(xiàn)出機器人領(lǐng)域正在經(jīng)歷一場通向具身智能的范式轉(zhuǎn)變,其核心正是學(xué)習(xí)(Learning)方法和操縱(manipulation)能力的提升。
ICRA 2024抓取與操縱比賽
眾多研究人員和公司正在從傳統(tǒng)的機器人方法轉(zhuǎn)向具身智能以及基于學(xué)習(xí)的方法。同時,集中于機器人操縱能力的工作也越來越多。
與后空翻等酷炫動作不同,如開瓶、拾取、觸摸等操縱能力可以直接滿足人們生活實際需求,因此也越來越受機器人業(yè)內(nèi)人士的重視。
例如,波士頓動力近期推出兩款新型機器人,一款是碼垛機器人 Stretch,帶有吸盤能分揀物體;一款是人形機器人 Atlas。他們發(fā)現(xiàn),傳統(tǒng)的機器控制無法解決操縱問題,「學(xué)習(xí)」才是新的可行方向。
最后,隨著電機的快速發(fā)展,本屆 ICRA 上的電驅(qū)機器人以代替?zhèn)鹘y(tǒng)的液壓機器人成為主力軍,業(yè)內(nèi)普遍認(rèn)為,換上電機后,機器人的爆發(fā)力與驅(qū)動力會更強。
寫在最后
不少參會者向 AI 科技評論表示,本屆 ICRA 并沒有帶來太多超出預(yù)期的驚喜。
具體而言,盡管具身智能的熱度飆升,但代表「智能」與「大腦」的大模型并未在行業(yè)中得到廣泛應(yīng)用。
通往 AGI 的路何時能從數(shù)字世界逐步擴展到物理世界?大模型的出現(xiàn)能否讓機器人真的擁有「智能」?
ICRA 2024 尚未見分曉,那便讓我們拭目以待。
本文雷峰網(wǎng)作者 anna042023 將持續(xù)關(guān)注AI大模型領(lǐng)域的人事、企業(yè)、商業(yè)應(yīng)用以及行業(yè)發(fā)展趨勢,歡迎雷峰網(wǎng)(公眾號:雷峰網(wǎng))作者添加交流,互通有無。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。
本專題其他文章