0
本文作者: 成妍菁 | 2025-01-07 11:16 |
一場(chǎng)關(guān)于“具身智能”的變革,正在以前所未有的速度席卷而來(lái)。
從文本到圖像,從二維到三維,人工智能的觸角正不斷延伸,基于文本和圖像處理的開(kāi)源模型已無(wú)法滿足具身智能對(duì)三維空間感知和動(dòng)態(tài)交互的需求,這使得自主研發(fā)底層模型成為行業(yè)發(fā)展的必然選擇,而多模態(tài)融合則是驅(qū)動(dòng)這場(chǎng)變革的核心引擎。
機(jī)器人不再是冰冷的機(jī)械,而是具備感知、理解、交互能力的智能體,它們正以前所未有的速度融入我們的生活,重塑著產(chǎn)業(yè)的邊界。而這場(chǎng)變革的核心驅(qū)動(dòng)力,無(wú)疑是多模態(tài)技術(shù)的崛起。
本期專訪,雷峰網(wǎng)對(duì)話了虛擬動(dòng)點(diǎn)董事長(zhǎng)兼CEO劉耀東,他們基于對(duì)行業(yè)痛點(diǎn)的深刻理解,自主研發(fā)了一套針對(duì)3D數(shù)據(jù)處理的底層模型LYDIA。也因此擁有了更大的自主性和領(lǐng)先優(yōu)勢(shì)。更值得關(guān)注的是,隨著多模態(tài)技術(shù)的不斷演進(jìn),圖像識(shí)別、動(dòng)作驅(qū)動(dòng)等技術(shù)之間的融合正在加速,這不僅將推動(dòng)機(jī)器人感知能力的躍遷,也將引發(fā)整個(gè)行業(yè)的技術(shù)迭代和市場(chǎng)擴(kuò)張。
虛擬動(dòng)點(diǎn)入局空間計(jì)算多年,基于在動(dòng)作捕捉領(lǐng)域的案例累積,公司不僅擁有大量、高精度、高質(zhì)量的動(dòng)作數(shù)據(jù),也在持續(xù)產(chǎn)出更多的優(yōu)質(zhì)數(shù)據(jù),為人形機(jī)器人動(dòng)作訓(xùn)練提供依托。
在與劉耀東的訪談過(guò)程中,我們深入剖析了虛擬動(dòng)點(diǎn)的技術(shù)路線、市場(chǎng)戰(zhàn)略,以及對(duì)行業(yè)未來(lái)趨勢(shì)的研判,看他們技術(shù)如何落地,如何解決行業(yè)難題,力求為讀者呈現(xiàn)一個(gè)更清晰、更全面的產(chǎn)業(yè)圖景。
以下是媒體與劉耀東的對(duì)談實(shí)錄,雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng))在不改變?cè)獾那闆r下做了編輯和調(diào)整:
? 全球范圍內(nèi),是否有其他公司也在探索空間計(jì)算與生成式AI的結(jié)合? 虛擬動(dòng)點(diǎn)在這一領(lǐng)域的競(jìng)爭(zhēng)優(yōu)勢(shì)是什么?
我們堅(jiān)信,憑借深厚的技術(shù)積淀,我們?cè)诳臻g計(jì)算領(lǐng)域擁有顯著的競(jìng)爭(zhēng)優(yōu)勢(shì)。首先,從技術(shù)儲(chǔ)備的廣度而言,我們或?yàn)槿蛭ㄒ灰患彝瑫r(shí)具備光學(xué)、無(wú)標(biāo)記以及大模型技術(shù)的空間計(jì)算解決方案提供商。這種跨領(lǐng)域的技術(shù)整合能力,使我們得以在多個(gè)關(guān)鍵技術(shù)維度協(xié)同發(fā)力,構(gòu)建起獨(dú)特的綜合優(yōu)勢(shì)。
其次,在技術(shù)儲(chǔ)備的深度方面,我們亦有卓越表現(xiàn)。以機(jī)器人視覺(jué)為例,我們自主研發(fā)的雙目攝像頭圖像傳感器,為硬件性能提供了堅(jiān)實(shí)保障。在算法層面,我們成功實(shí)現(xiàn)了從傳統(tǒng)無(wú)標(biāo)記算法到 SLAM 算法的迭代升級(jí),顯著提升了定位與建模的精度與效率。此外,在數(shù)據(jù)積累方面,雖然我們無(wú)法確知其他競(jìng)爭(zhēng)對(duì)手的數(shù)據(jù)規(guī)模,但我們對(duì)自身的數(shù)據(jù)積累情況了如指掌。正是基于海量的數(shù)據(jù)資源,我們成功訓(xùn)練出了高性能的動(dòng)作大模型,這充分印證了我們?cè)跀?shù)據(jù)驅(qū)動(dòng)方面的領(lǐng)先地位,也進(jìn)一步鞏固了我們?cè)诩夹g(shù)廣度和深度上的優(yōu)勢(shì)。
第三個(gè)優(yōu)勢(shì)則源于我們過(guò)往豐富的成功經(jīng)驗(yàn)。正如大家在視頻中所見(jiàn),我們?cè)鵀槎喾N形態(tài)的機(jī)器人提供技術(shù)賦能,涵蓋了從具備跳躍能力的機(jī)器人到能夠精準(zhǔn)操作文件的機(jī)器人等多種類型。這些實(shí)踐經(jīng)驗(yàn)不僅見(jiàn)證了整個(gè)機(jī)器人行業(yè)的發(fā)展歷程,更為我們積累了寶貴的行業(yè)知識(shí)和技術(shù)訣竅(know-how)。對(duì)于技術(shù)公司而言,這種經(jīng)驗(yàn)儲(chǔ)備至關(guān)重要,它能夠幫助我們更深入地理解行業(yè)需求,更快速地解決技術(shù)難題,并推動(dòng)技術(shù)創(chuàng)新。因此,我們認(rèn)為,這些過(guò)往的成功經(jīng)驗(yàn)也是我們重要的競(jìng)爭(zhēng)優(yōu)勢(shì)之一。
? 新發(fā)布的具身智能相關(guān)技術(shù),與利亞德現(xiàn)有光電業(yè)務(wù)之間,在協(xié)同效應(yīng)和未來(lái)發(fā)展方面有哪些潛力?
利亞德集團(tuán)的業(yè)務(wù)板塊廣受關(guān)注,其中,智能顯示板塊專注于各類屏幕的研發(fā)與制造,我們將其定位為產(chǎn)品型公司;文旅夜游板塊則側(cè)重于景觀亮化和業(yè)態(tài)打造,我們將其視為超大規(guī)模集成服務(wù)商。
虛擬動(dòng)點(diǎn)則專注于AI與空間計(jì)算技術(shù)的研發(fā),以往我們將其定義為技術(shù)型公司,如今,我們通過(guò)將產(chǎn)品、場(chǎng)景與技術(shù)交互緊密結(jié)合,串聯(lián)起了一個(gè)更為宏大的故事。
未來(lái),如果我們能夠?qū)⑦@些技術(shù)應(yīng)用于具身智能領(lǐng)域,無(wú)論是采用機(jī)器人還是其他載體,這個(gè)模式的邏輯依然成立,即通過(guò)技術(shù)串聯(lián)起不同的應(yīng)用場(chǎng)景。此外,就機(jī)器人本身而言,我認(rèn)為利亞德集團(tuán)在光電顯示領(lǐng)域的屏幕技術(shù),也可能在機(jī)器人領(lǐng)域發(fā)揮重要作用。例如,今天展示的這款機(jī)器人,其頭部就配備了多個(gè)屏幕,這或許預(yù)示著顯示技術(shù)在機(jī)器人領(lǐng)域應(yīng)用的未來(lái)趨勢(shì)。我們相信,這些技術(shù)協(xié)同效應(yīng)將為集團(tuán)的整體發(fā)展帶來(lái)新的增長(zhǎng)動(dòng)力。
? 從今天的演講來(lái)看,空間計(jì)算技術(shù)連接著機(jī)器人的運(yùn)動(dòng)控制和環(huán)境感知等多個(gè)層面。這種理解是否準(zhǔn)確?空間計(jì)算技術(shù)在軟件層面的存在,以及其對(duì)硬件層面的驅(qū)動(dòng)作用,是否構(gòu)成了一個(gè)完整的技術(shù)閉環(huán)?
我們可以這樣理解:空間計(jì)算這項(xiàng)技術(shù),雖然從復(fù)雜性角度而言并非極其深?yuàn)W,但其價(jià)值卻非常獨(dú)特。
一個(gè)直觀的例子是,當(dāng)蘋果公司發(fā)布Vision Pro時(shí),‘空間計(jì)算’這個(gè)概念才真正進(jìn)入大眾視野。盡管這項(xiàng)技術(shù)的起源并非蘋果,但蘋果的運(yùn)用讓人們意識(shí)到,通過(guò)佩戴頭顯設(shè)備,我們似乎可以進(jìn)入一個(gè)數(shù)字世界,并通過(guò)手勢(shì)實(shí)現(xiàn)各種投屏和交互操作。這在一定程度上印證了我們之前所提到的,空間計(jì)算技術(shù)作為一種軟件層面的工具,能夠?qū)⑽锢硎澜绲慕换ヅc數(shù)字世界連接起來(lái)。
正是那時(shí),我們認(rèn)識(shí)到空間計(jì)算技術(shù)首次實(shí)現(xiàn)了人類實(shí)體世界與數(shù)字世界的真正聯(lián)通。正如我們開(kāi)場(chǎng)視頻中所展示的那樣,空間計(jì)算技術(shù)連接著虛擬與現(xiàn)實(shí),并促進(jìn)兩者之間的互動(dòng)。它具備將數(shù)字孿生等虛擬概念與現(xiàn)實(shí)世界進(jìn)行雙向交互的能力,而這正是其獨(dú)特的價(jià)值所在?!?/p>
從技術(shù)起源來(lái)看,空間計(jì)算的概念最早可追溯至2000年代初,是麻省理工學(xué)院Simon Greenwold 在其2003 年的論文中引入的一個(gè)術(shù)語(yǔ)。需要明確的是,空間計(jì)算并非一項(xiàng)單一技術(shù),而是一個(gè)概念,類似于‘智慧城市’。
智慧城市并非單一技術(shù),而是多種技術(shù)的整合。同樣,要實(shí)現(xiàn)空間計(jì)算,需要足夠的算法、算力以及傳感器融合等多種技術(shù)的協(xié)同。盡管該概念在提出之初就引發(fā)了廣泛關(guān)注,但由于當(dāng)時(shí)的技術(shù)條件尚不成熟,空間計(jì)算并未得到廣泛應(yīng)用。
直到近年來(lái),隨著相關(guān)技術(shù)的進(jìn)步,空間計(jì)算才再次進(jìn)入人們的視野。就全球范圍而言,空間計(jì)算技術(shù)的發(fā)展歷程大致如此。而對(duì)于利亞德集團(tuán)來(lái)說(shuō),我們?cè)缧┠暌恢痹谶M(jìn)行動(dòng)作捕捉技術(shù)的研究,隨后逐步演進(jìn)到空間計(jì)算領(lǐng)域。
? 隨著聯(lián)合實(shí)驗(yàn)室的成立,未來(lái)該實(shí)驗(yàn)室的主要研究方向?qū)⒕劢褂谀男╊I(lǐng)域?同時(shí),其具體應(yīng)用場(chǎng)景又將涵蓋哪些方面?”
關(guān)于聯(lián)合實(shí)驗(yàn)室未來(lái)的發(fā)展方向,實(shí)際上我和姜博士(松延動(dòng)力創(chuàng)始人、董事長(zhǎng)姜哲源)都已有所提及。首先,姜博士強(qiáng)調(diào)了我們將共同構(gòu)建全球最大的高精度數(shù)據(jù)庫(kù),這一數(shù)據(jù)庫(kù)將基于我們?cè)丛床粩喈a(chǎn)生的機(jī)器人訓(xùn)練數(shù)據(jù),而非傳統(tǒng)的人形數(shù)據(jù)。這不僅對(duì)他們公司本身有價(jià)值,對(duì)整個(gè)產(chǎn)業(yè)而言也具有重要意義。正如剛才記者朋友所言,這個(gè)數(shù)據(jù)庫(kù)并非只服務(wù)于一家公司,一旦形成,它將可以服務(wù)于所有相關(guān)企業(yè)。
其次,我們將重點(diǎn)關(guān)注SLAM(即時(shí)定位與地圖構(gòu)建)算法的研發(fā),這對(duì)于提升機(jī)器人的‘眼睛’至關(guān)重要。目前,機(jī)器人廠商在空間感知能力方面主要采用兩種技術(shù)路線:機(jī)器視覺(jué)和紅外雷達(dá)。我們更傾向于機(jī)器視覺(jué),因?yàn)槲覀冊(cè)谠缙谶M(jìn)行動(dòng)作捕捉時(shí)就大量采用了攝像頭。因此,我們將與合作方在SLAM算法方面進(jìn)行深入合作,并取得更多突破。
以上是短期內(nèi)雙方將著力解決的問(wèn)題。從長(zhǎng)遠(yuǎn)來(lái)看,我們的目標(biāo)是推動(dòng)機(jī)器人走進(jìn)家庭。這可能是一個(gè)循序漸進(jìn)的過(guò)程,因?yàn)榧彝キh(huán)境的容錯(cuò)率相對(duì)較低,而B(niǎo)端(企業(yè)端)的容錯(cuò)率則相對(duì)較高。正如我之前與其他媒體朋友所討論的,松延動(dòng)力公司的愿景是讓機(jī)器人走進(jìn)千家萬(wàn)戶,成為人們的‘保姆’。。我們目前正在幫助他們進(jìn)行泛化訓(xùn)練,即讓機(jī)器人具備切菜、洗碗、放置物品等能力。這已經(jīng)超越了底層技術(shù)層面,轉(zhuǎn)向了具體的應(yīng)用型訓(xùn)練。
因此,我們的聯(lián)合實(shí)驗(yàn)室初期將圍繞上述兩到三個(gè)方向展開(kāi)研究,未來(lái)將根據(jù)實(shí)際需求進(jìn)行調(diào)整。
? 在選擇合作伙伴時(shí)的標(biāo)準(zhǔn)和要求是什么?更側(cè)重于其業(yè)務(wù)的實(shí)際運(yùn)作模式,還是更看重創(chuàng)始人的個(gè)人特質(zhì)和理念?
一般來(lái)說(shuō),我們會(huì)從技術(shù)合作伙伴的角度來(lái)談更為合理。
第一,我們希望合作伙伴像松延動(dòng)力(或其他暫不便透露名稱的公司)一樣,在機(jī)器人本體方面擁有成熟的技術(shù)和領(lǐng)先的實(shí)力。如果合作伙伴在機(jī)器人硬件層面無(wú)法解決足夠多的問(wèn)題,我們的技術(shù)就無(wú)法有效應(yīng)用,這將浪費(fèi)雙方的時(shí)間。因此,我們對(duì)合作伙伴的硬件基礎(chǔ)有一定的要求。
第二,我們希望看到合作伙伴團(tuán)隊(duì)整體的技術(shù)決心和執(zhí)行力都比較高。正如大家所看到的,我們團(tuán)隊(duì)每年都會(huì)發(fā)布技術(shù)進(jìn)展,包括去年發(fā)布的大模型和今年發(fā)布的新產(chǎn)品。大家可能會(huì)覺(jué)得我們的效率很高,這源于我們團(tuán)隊(duì)成員積極的心態(tài)和高效的執(zhí)行力。因此,我們希望合作伙伴在節(jié)奏上與我們保持一致。
第三,我們希望合作伙伴與我們形成互補(bǔ)關(guān)系。也就是說(shuō),他們的優(yōu)勢(shì)領(lǐng)域正好是我們不擅長(zhǎng)的,而我們擅長(zhǎng)的領(lǐng)域他們則無(wú)需再投入精力。我們更傾向于選擇能與我們形成互補(bǔ)的合作伙伴,這樣才能實(shí)現(xiàn)資源的最大化利用?!?/p>
? 我們?yōu)楹芜x擇與合作伙伴進(jìn)行聯(lián)合開(kāi)發(fā),而非自行成立工作室或收購(gòu)現(xiàn)有機(jī)器人公司進(jìn)行制作機(jī)器人?
我們選擇合作伙伴模式,而非自行制造機(jī)器人,主要基于以下幾點(diǎn)考量:
第一,機(jī)器人制造本身屬于精密制造和高端制造領(lǐng)域,堪稱全球天花板行業(yè),與汽車制造類似。無(wú)論是資金投入還是技術(shù)積累,我們目前都不具備獨(dú)立制造機(jī)器人的能力。如果強(qiáng)行進(jìn)入,勢(shì)必會(huì)分散我們有限的資源和精力。
第二,我們有明確的戰(zhàn)略定位,即‘不造機(jī)器人,而是幫助合作伙伴造更好的機(jī)器人’。這與華為‘不造車,而是幫助所有汽車更智能’的理念相似。我們不希望與任何機(jī)器人廠商形成競(jìng)爭(zhēng)關(guān)系,而是希望與所有廠商合作,我們致力于成為機(jī)器人行業(yè)的賦能者,而非競(jìng)爭(zhēng)者。
此外,還有一個(gè)因素促使我們選擇合作模式,并讓我們充滿激情地投入其中。目前,網(wǎng)上有很多機(jī)器人具身智能產(chǎn)業(yè)鏈圖譜,詳細(xì)列出了機(jī)器人各個(gè)零部件的成本占比,例如絲杠、電機(jī)、軸承等。證券類媒體甚至?xí)?jù)此計(jì)算機(jī)器人的毛利率。但我想強(qiáng)調(diào)的是,這些硬件決定了機(jī)器人能力的下限,即機(jī)器人無(wú)法做到什么。然而,機(jī)器人能力的上限,例如通過(guò)算法讓動(dòng)作精度提升0.1度所帶來(lái)的價(jià)值,卻很少被計(jì)算或重視。我們認(rèn)為,數(shù)據(jù)和算法是決定機(jī)器人價(jià)值的關(guān)鍵因素,但目前尚未被資本和媒體充分認(rèn)識(shí)。我們的價(jià)值和優(yōu)勢(shì)在于此,而這也將是機(jī)器人真正進(jìn)入產(chǎn)業(yè)鏈后所能體現(xiàn)的價(jià)值所在。雖然硬件的抗擊打能力和電機(jī)的承載能力也很重要,但這些都是顯性的。我們更關(guān)注隱性的數(shù)據(jù)和算法價(jià)值,并希望將其最大化。
? 如果要達(dá)到‘讓機(jī)器人進(jìn)入千家萬(wàn)戶,成為家庭助手’這一目標(biāo)節(jié)點(diǎn),從當(dāng)前建立數(shù)據(jù)庫(kù)的時(shí)間點(diǎn)來(lái)看,您認(rèn)為我們需要多少年的數(shù)據(jù)積累才能實(shí)現(xiàn)這一目標(biāo)?
在探討數(shù)據(jù)積累時(shí)間之前,首先需要明確數(shù)據(jù)庫(kù)的規(guī)模。如果我們以當(dāng)前我們所擁有的數(shù)據(jù)庫(kù)為基準(zhǔn),我們有信心認(rèn)為,目前我們可能處于全球前三的領(lǐng)先地位。
其次,關(guān)于如何定義動(dòng)作數(shù)據(jù),這本身就是一個(gè)復(fù)雜的問(wèn)題。與文本或圖像數(shù)據(jù)不同,動(dòng)作數(shù)據(jù)的衡量標(biāo)準(zhǔn)并不明確。例如,自然語(yǔ)言處理(NLP)的數(shù)據(jù)量可以測(cè)量為單詞數(shù)量,圖像數(shù)據(jù)可以測(cè)量為像素?cái)?shù)量和幀數(shù),都有明確的單位和標(biāo)準(zhǔn)。但對(duì)于動(dòng)作數(shù)據(jù),例如‘拿起水瓶’這個(gè)動(dòng)作,我們應(yīng)該如何衡量?是測(cè)量骨關(guān)節(jié)角度、肌肉長(zhǎng)度,還是時(shí)間幀率?每個(gè)人的動(dòng)作模式都可能不同,這使得動(dòng)作數(shù)據(jù)的復(fù)雜性遠(yuǎn)高于文本或圖像數(shù)據(jù)。因此,動(dòng)作數(shù)據(jù)的積累和定義,遠(yuǎn)比文生圖的數(shù)據(jù)處理要復(fù)雜得多。
? 在人形機(jī)器人中,光學(xué)和算法的重要性體現(xiàn)在哪些方面?以及利亞德在這些關(guān)鍵算法領(lǐng)域,相較于同行業(yè)競(jìng)爭(zhēng)對(duì)手,具備哪些競(jìng)爭(zhēng)優(yōu)勢(shì)?
針對(duì)機(jī)器人領(lǐng)域,我們提供的算法主要分為兩大類別。第一類,我們稱之為‘空間感知’算法。這類算法通過(guò)攝像頭等傳感器獲取環(huán)境信息,使機(jī)器人能夠從視覺(jué)層面理解其所處的環(huán)境。在視覺(jué)理解的基礎(chǔ)上,算法進(jìn)一步處理圖像,構(gòu)建出三維空間模型。這其中,算法需要理解物體之間的關(guān)系,例如,確定機(jī)器人與目標(biāo)物體之間的距離。
第二類算法,則專注于控制機(jī)器人的肢體運(yùn)動(dòng),并維持動(dòng)作的穩(wěn)定性。這類算法與機(jī)器人本體的控制算法緊密耦合,例如,維持機(jī)器人重心的算法。不同算法之間會(huì)產(chǎn)生協(xié)同作用。因此,我們目前的核心價(jià)值體現(xiàn)在兩個(gè)方面:一是通過(guò)空間感知算法,實(shí)現(xiàn)對(duì)環(huán)境的理解、判斷和決策過(guò)程;二是通過(guò)肢體控制算法,實(shí)現(xiàn)動(dòng)作的選擇、執(zhí)行和保持過(guò)程。這兩大類算法構(gòu)成了我們?yōu)闄C(jī)器人領(lǐng)域提供的核心解決方案。
? 人形機(jī)器人在實(shí)際應(yīng)用中,是否會(huì)面臨場(chǎng)景適配的問(wèn)題?也就是說(shuō),是否需要針對(duì)不同的應(yīng)用場(chǎng)景進(jìn)行定制化的調(diào)整?
關(guān)于人形機(jī)器人算法的泛化能力,我認(rèn)為經(jīng)過(guò)足夠的數(shù)據(jù)訓(xùn)練、算法優(yōu)化,并達(dá)到一定的量級(jí)之后,其泛化能力將顯著提升,最終實(shí)現(xiàn)跨場(chǎng)景的通用性。正如某位國(guó)外專家所言,理想狀態(tài)是每個(gè)人身邊都有一位機(jī)器人助手,能夠勝任各種場(chǎng)景下的任務(wù),類似于智能體助手。
然而,目前全球范圍內(nèi),大多數(shù)廠商都采取了先聚焦特定場(chǎng)景的策略,在解決特定場(chǎng)景下的問(wèn)題后,再逐步擴(kuò)展至其他場(chǎng)景。這種模式在行業(yè)內(nèi)普遍存在,即先深耕某個(gè)具體行業(yè),待在該行業(yè)積累足夠經(jīng)驗(yàn)后再擴(kuò)展至其他行業(yè)。例如,松延動(dòng)力的目標(biāo)是直接進(jìn)入家庭場(chǎng)景,但我們認(rèn)為,這仍然需要一個(gè)循序漸進(jìn)的路徑,即先基于特定的行業(yè)場(chǎng)景,積累經(jīng)驗(yàn),再逐步泛化到千家萬(wàn)戶的各種工業(yè)和生活場(chǎng)景,這是一個(gè)必然的發(fā)展過(guò)程。
? 基于我們與合作公司的討論,他們希望人形機(jī)器人能夠承擔(dān)保姆等家庭服務(wù)職責(zé)。那么,在傳統(tǒng)的機(jī)器人研發(fā)框架下,我們的空間計(jì)算技術(shù)在機(jī)器人與環(huán)境及人的交互方面,能夠帶來(lái)哪些創(chuàng)新和改變呢?
簡(jiǎn)單來(lái)說(shuō),我們的價(jià)值體現(xiàn)在兩個(gè)方面:一是環(huán)境感知和距離判斷,二是交互控制和動(dòng)作規(guī)劃。
正如我們之前所討論的,核心在于賦予機(jī)器人感知空間并自主判斷的能力。例如,在實(shí)驗(yàn)室中,我們進(jìn)行了以下實(shí)驗(yàn):當(dāng)指令機(jī)器人尋找鑰匙時(shí),它首先需要理解“鑰匙”的概念。然后,通過(guò)圖像采集,機(jī)器人需要在環(huán)境中定位鑰匙的位置。在識(shí)別鑰匙并定位后,機(jī)器人需要規(guī)劃一系列行為,例如,如何避開(kāi)障礙物到達(dá)目標(biāo)位置。接下來(lái),機(jī)器人需要確定采取何種交互方式,例如,控制大臂、小臂、手部等關(guān)節(jié),以及最終采用何種末端執(zhí)行器(夾爪或靈巧手)來(lái)抓取鑰匙。最后,機(jī)器人還需要規(guī)劃如何將鑰匙帶回。
這一完整的流程,體現(xiàn)了我們的核心價(jià)值。首先,機(jī)器人需要感知環(huán)境并判斷目標(biāo)距離;其次,當(dāng)需要進(jìn)行交互時(shí),機(jī)器人需要控制自身的手部動(dòng)作,并決定是否采用類人動(dòng)作或機(jī)器人動(dòng)作,同時(shí)保持動(dòng)作的靈活性。這些過(guò)程都體現(xiàn)了我們的技術(shù)優(yōu)勢(shì)。
? 我們的動(dòng)作大模型是否基于通用大模型進(jìn)行調(diào)優(yōu)?如果是,我們主要采用哪些通用大模型作為基座模型?在機(jī)器視覺(jué)技術(shù)與視覺(jué)理解、視頻生成等通用大模型之間,是否存在聯(lián)動(dòng)或化學(xué)反應(yīng)?這種聯(lián)動(dòng)是否會(huì)擴(kuò)大市場(chǎng)需求?
我們確實(shí)參考過(guò)開(kāi)源模型,但并非完全基于任何一家公司的底座。我們?cè)诮梃b和參考的基礎(chǔ)上,融入了我們自身的理解和創(chuàng)新。目前市面上公開(kāi)的開(kāi)源模型,主要側(cè)重于文本和圖像處理,缺乏對(duì)3D數(shù)據(jù)處理的支持。直接照搬這些模型,反而會(huì)干擾我們對(duì)三維信息的處理。因此,我們選擇了自主研發(fā)的路線。
在具身智能領(lǐng)域,圖像識(shí)別、動(dòng)作驅(qū)動(dòng)以及其他相關(guān)技術(shù)必然存在交集。例如,Sora升級(jí)版體現(xiàn)了對(duì)圖像理解和計(jì)算能力的顯著提升,這無(wú)疑將極大地幫助機(jī)器視覺(jué)技術(shù)進(jìn)行物體判斷,以尋找鑰匙為例,過(guò)去機(jī)器人需要花費(fèi)較長(zhǎng)時(shí)間(可能3秒左右)來(lái)判斷鑰匙的位置和定義。但隨著類似大模型技術(shù)的出現(xiàn),這一過(guò)程可能縮短到0.3秒,極大地提升了效率。這種效率的提升,加速了不同技術(shù)之間的融合。
此外,當(dāng)前大模型背后的數(shù)學(xué)公式與邏輯存在一定的關(guān)聯(lián)性。如果OpenAI等公司的大模型升級(jí),國(guó)內(nèi)如盤古、阿里、騰訊以及國(guó)際LLAMA、谷歌等系列的大模型也會(huì)快速迭代,這些大模型的迭代,反過(guò)來(lái)會(huì)促進(jìn)我們?cè)趧?dòng)作模型上的迭代。
因此,我們認(rèn)為技術(shù)之間存在交集,技術(shù)底層的數(shù)學(xué)邏輯也存在交集,這將推動(dòng)技術(shù)的不斷迭代和提升。
結(jié)語(yǔ):
在這次專訪中,我們看到了虛擬動(dòng)點(diǎn)在機(jī)器人感知領(lǐng)域的前瞻性布局和技術(shù)實(shí)力,他們不僅在技術(shù)上不斷突破,更將目光投向了更廣闊的應(yīng)用場(chǎng)景。從“多模態(tài)”到“具身”,我們看到的是一場(chǎng)從感知到認(rèn)知的躍遷,而這背后,是無(wú)數(shù)技術(shù)人對(duì)未來(lái)世界的執(zhí)著探索。
虛擬動(dòng)點(diǎn)無(wú)疑為行業(yè)提供了一個(gè)重要的參考樣本。他們沒(méi)有選擇簡(jiǎn)單的“拿來(lái)主義”,而是選擇了更具挑戰(zhàn)性的自研道路,這不僅需要勇氣,更需要對(duì)行業(yè)趨勢(shì)的深刻洞察。這或許也預(yù)示著,未來(lái)的競(jìng)爭(zhēng),將不再僅僅是技術(shù)本身的較量,更是對(duì)行業(yè)理解、痛點(diǎn)把握和創(chuàng)新能力的綜合比拼。
當(dāng)然,具身智能的發(fā)展依然面臨諸多挑戰(zhàn),從技術(shù)到商業(yè)化,從應(yīng)用場(chǎng)景到倫理規(guī)范,還有很長(zhǎng)的路要走。但我們相信,隨著技術(shù)的不斷成熟和生態(tài)的日益完善,具身智能必將釋放出巨大的潛力,深刻地改變我們的生活和工作方式。
這場(chǎng)變革才剛剛開(kāi)始,而我們正身處其中。未來(lái),我們還將持續(xù)關(guān)注具身智能領(lǐng)域的最新進(jìn)展。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。