丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能 正文
發(fā)私信給朱可軒
發(fā)送

0

機(jī)器人端側(cè)模型的十字路口

本文作者: 朱可軒   2024-12-25 09:34
導(dǎo)語(yǔ):大模型、機(jī)器人與芯片廠商的拉力賽。

作者|朱可軒

編輯|陳彩嫻

自 2023 年以來(lái),以大模型為代表的人工智能與以具身智能為代表的機(jī)器人成為科技發(fā)展的兩股重要力量。與此同時(shí),將人工智能算法、尤其是大模型應(yīng)用于進(jìn)一步提升機(jī)器人智能水平也成為一個(gè)自然而然的趨勢(shì)。

在這個(gè)背景下,“機(jī)器人學(xué)習(xí)”、“具身大腦”成為炙手可熱的名詞。

據(jù) AI 科技評(píng)論與多位業(yè)者的交流,我們發(fā)現(xiàn)諸如“具身大腦”的定義并不單一,更通俗廣泛來(lái)說(shuō),凡是將人工智能算法與機(jī)器人相結(jié)合,用于提升機(jī)器人在交互、感知與控制上的技術(shù)派系都能被列入具身大腦或機(jī)器人學(xué)習(xí)的范疇。

從當(dāng)前情況來(lái)看,國(guó)內(nèi)專攻機(jī)器人模型的廠商大約可以分為身體控制派和交互感知派,而按技術(shù)源頭則可以粗略分為幾類:

一類是視覺(jué)感知派,如穹徹智能、有鹿、若愚科技;一類是強(qiáng)化學(xué)習(xí)派,如 Physical Intelligence;一類是語(yǔ)言模型派,如面壁智能、巖芯數(shù)智、自變量等等。

在解決機(jī)器人大腦問(wèn)題上,不同技術(shù)派別有不同的路徑之分與觀點(diǎn)差異。單純從過(guò)去一年的行業(yè)實(shí)踐而言,研究基礎(chǔ)模型出身的大模型派在機(jī)器人領(lǐng)域的落地最為焦慮。

除去激烈的市場(chǎng)競(jìng)爭(zhēng),更本質(zhì)的原因是:端側(cè)模型在機(jī)器人終端的落地,中間還隔著芯片的開(kāi)發(fā),由此機(jī)器人廠商、大模型廠商與芯片廠商之間形成了一段三角拉力關(guān)系。

而從目前來(lái)看,這段三角關(guān)系正在進(jìn)入膠著的負(fù)增強(qiáng)反饋:

首先,端側(cè)模型應(yīng)用在機(jī)器人上需要適配芯片,但芯片的迭代是基于市場(chǎng)需求的:當(dāng)前機(jī)器人還沒(méi)有從專業(yè)級(jí)產(chǎn)品走向消費(fèi)級(jí)產(chǎn)品,出貨量遠(yuǎn)不如手機(jī)、PC 等硬件設(shè)備,因此適配機(jī)器人端側(cè)模型的芯片姍姍來(lái)遲;

其次,機(jī)器人消費(fèi)市場(chǎng)的擴(kuò)大,極大依賴智能水平的提升,即 AI 模型的迭代,但 AI 模型的升級(jí)需要大量真實(shí)世界的高質(zhì)量數(shù)據(jù),依賴于其能搭載在機(jī)器人產(chǎn)品上與用戶進(jìn)行交互;

最終,具身 VLA 的實(shí)際效果離消費(fèi)級(jí)可用的精度要求和準(zhǔn)確率還相差甚遠(yuǎn),機(jī)器人的智能水平迭代變緩,出貨量更少,又反過(guò)來(lái)影響芯片的研發(fā)與出貨成本。由此三者難舍難分。要打破這個(gè)“不可能三角”、走入正反饋增強(qiáng),需要一方主動(dòng)打破僵局。

模型廠商期望是芯片廠商,芯片廠商希望是機(jī)器人廠商,而機(jī)器人廠商或又寄希望于模型廠商……那么,誰(shuí)會(huì)是最終的破局者?

大模型在機(jī)器人終端的落地是端側(cè) AI 的一個(gè)縮影,至少在短期內(nèi),將大模型商業(yè)化寄希望于機(jī)器人領(lǐng)域或困難重重。


大模型能為機(jī)器人做什么?


大模型在提升機(jī)器人智能水平過(guò)程中扮演著「大腦」的角色,主要體現(xiàn)在泛化與規(guī)劃能力上,但目前在一些大模型接到機(jī)器人的具體操作中,大模型更多是幫助機(jī)器人進(jìn)行簡(jiǎn)單的任務(wù)理解與拆分。

具體來(lái)看,一方面,目前機(jī)器人依然在執(zhí)行逐個(gè)任務(wù),更多停留在交互層面,沒(méi)有看到學(xué)習(xí)能力的增強(qiáng),多模態(tài)任務(wù)的實(shí)現(xiàn);另一方面,機(jī)器人也更多在執(zhí)行短期動(dòng)作(疊衣服、做菜、打開(kāi)微波爐),很少用到大模型的規(guī)劃能力,如能一次做幾十上百步。

例如,面壁智能目前聚焦的目標(biāo)是讓機(jī)器人能夠完成更加多樣復(fù)雜的、長(zhǎng)線的、多步操作的任務(wù),執(zhí)行準(zhǔn)確率更高、泛化性更強(qiáng)、糾錯(cuò)能力更好,當(dāng)下正在逐個(gè)擊破。

事實(shí)上,前述目標(biāo)往往是需要在長(zhǎng)程規(guī)劃、工具調(diào)用、模型協(xié)同等全方位能力上具備極高專業(yè)性的,這是大模型廠商所擅長(zhǎng)的領(lǐng)域。相比之下,機(jī)器人公司在這些方面的積累和突破可能會(huì)較為困難,因此,通過(guò)合作引入端側(cè)模型,也能夠更高效地解決問(wèn)題。

就泛化性而言,大模型掌握世界知識(shí)、常識(shí)知識(shí)以及物理建模的能力,幫助機(jī)器人實(shí)現(xiàn)泛化能力的提升十分關(guān)鍵,但從前沿成果上來(lái)看,泛化性這一部分也還屬于初期摸索階段。

RockAI 所選擇的路徑便是如此,其旗下 Yan 架構(gòu)大模型的技術(shù)路線是,將文本、語(yǔ)音、視頻以及機(jī)體參數(shù)做一個(gè)整體對(duì)齊,然后一起輸入給大模型。

VLA 大腦模型則通過(guò)提升物理建模能力來(lái)增強(qiáng)泛化性的,如操縱未見(jiàn)過(guò)的東西、理解每個(gè)物體的重量等等。不過(guò),在業(yè)內(nèi)看來(lái),VLA 的實(shí)際效果離消費(fèi)級(jí)可用的精度和準(zhǔn)確率要求都還相差較遠(yuǎn)。

整體看來(lái),大模型原有的能力暫未在機(jī)器人側(cè)發(fā)揮出來(lái),大模型的泛化、規(guī)劃、糾錯(cuò)等能力在機(jī)器人側(cè)的應(yīng)用都還比較初步。此前,字節(jié)跳動(dòng) GR-2 就曾將文生視頻的嘗試加入到 default 的 policy model 里,但機(jī)器人做若干具體的任務(wù)這方面也還在探索中。

機(jī)器人端側(cè)模型的十字路口

字節(jié) GR-2 通用機(jī)器人

而大模型能力無(wú)法發(fā)揮、智能化難以提升的背后,其一是行業(yè)還沒(méi)摸索到真正適合機(jī)器人的模型框架:目前有的工作基于多模態(tài)大模型,也有的工作基于 Diffusion Policy 的(如RDT 1B),也有兩者結(jié)合各自負(fù)責(zé)大小腦建模的,但還沒(méi)有像 LLM 一般走向統(tǒng)一的架構(gòu)。

此外,不同形態(tài)的機(jī)器人對(duì)大模型會(huì)有不同的要求,短時(shí)間內(nèi)可能實(shí)現(xiàn)的設(shè)備泛化是形態(tài)一致,但不同參數(shù)的機(jī)器人,形態(tài)可能還是相對(duì)比較一致的。

不同的輸入方式對(duì)于大模型也存在挑戰(zhàn),如四足機(jī)器人和雙足機(jī)器人的行走控制方式差異非常大,在大腦層面,向前走可以統(tǒng)一,但底下細(xì)致的操控方面差異很大。

這意味著,并沒(méi)有哪種機(jī)器人形態(tài)更有利于大模型快速實(shí)現(xiàn)設(shè)備泛化。當(dāng)下,大模型的大腦派與機(jī)器人的肢體派的融合情況,存在知識(shí)壁壘,正在摸索互相打通。

除前述以外,其中最大的難點(diǎn)當(dāng)屬數(shù)據(jù)——模型廠商很難獲取到大量的、多元化(從視覺(jué)、語(yǔ)言到動(dòng)作)的預(yù)訓(xùn)練數(shù)據(jù),還處在 case by case 的階段,很難提升模型執(zhí)行任務(wù)的泛化性,以及在這基礎(chǔ)上去探索更難的場(chǎng)景。

舉例來(lái)看,目前的機(jī)器人還無(wú)法做到精確控制手部動(dòng)作,就是因?yàn)槿狈Χ嘣噶钗⒄{(diào)數(shù)據(jù)集:

大模型精準(zhǔn)控制機(jī)器人用手拿東西,要先輸出目標(biāo)物的坐標(biāo),而如果是一個(gè)五指靈巧手,還要輸出五個(gè)手指握東西的點(diǎn)位。而模型先通過(guò)視覺(jué)與傳感器判斷坐標(biāo),然后握住再拿起來(lái),這樣的操作在理論上可行,但現(xiàn)在的模型水平甚至無(wú)法達(dá)到這種程度。

RockAI CMO 鄒佳思告訴 AI 科技評(píng)論,「目前,手部控制還是交給機(jī)器人廠商的小腦來(lái)做,我們只需要告訴機(jī)器人要執(zhí)行的動(dòng)作,比如揮手,我們核心解決的問(wèn)題是對(duì)指令尤其是模糊指令的識(shí)別?!?/p>

過(guò)往指揮機(jī)器人得要用特別精確的指令,而且很多指令都是寫死的。今年的 WAIC 在進(jìn)行機(jī)器人直播時(shí),有的機(jī)器人翻車就是因?yàn)橹噶钫f(shuō)得不對(duì),更本質(zhì)是機(jī)器人無(wú)法理解自然語(yǔ)言,端側(cè)模型則能提高機(jī)器人對(duì)自然語(yǔ)言的理解能力。


「機(jī)器人大腦」的三角關(guān)系


再回到數(shù)據(jù)不足本身,當(dāng)中的關(guān)鍵問(wèn)題其實(shí)在于機(jī)器人廠商暫未實(shí)現(xiàn)量產(chǎn),還無(wú)法從專業(yè)級(jí)轉(zhuǎn)變?yōu)橄M(fèi)級(jí)產(chǎn)品。

從此前無(wú)人駕駛的演進(jìn)歷程來(lái)看,特斯拉起初也并非依靠自動(dòng)駕駛獲取第一批用戶,而是靠車機(jī)本身的性能,之后隨著用戶數(shù)量增多,產(chǎn)生的數(shù)據(jù)也愈發(fā)變多,這樣才有了數(shù)據(jù)訓(xùn)練模型,進(jìn)而改進(jìn)無(wú)人駕駛,形成所謂正循環(huán)。

但反觀機(jī)器人當(dāng)下的實(shí)際應(yīng)用場(chǎng)景,現(xiàn)如今機(jī)器人的購(gòu)買對(duì)象主要還是研究人員和偏業(yè)務(wù)的團(tuán)隊(duì),并且還要先交錢再生產(chǎn),實(shí)際應(yīng)用場(chǎng)景顯然不夠多。

針對(duì)這一情況下,也有業(yè)者向曾向 AI 科技評(píng)論分析過(guò)破局的關(guān)鍵:依賴所有數(shù)據(jù)都采集自用戶不太現(xiàn)實(shí),如果有團(tuán)隊(duì)能夠標(biāo)注出第一版數(shù)據(jù),可能可以解決這一問(wèn)題。

不過(guò),要做到這一點(diǎn)并不容易,因?yàn)闄C(jī)器人的數(shù)據(jù)采集并不像大模型一樣從互聯(lián)網(wǎng)下載語(yǔ)料就可以,而是需要真機(jī)采集后做標(biāo)注,而且機(jī)器人所需的數(shù)據(jù)是多元化的,除了語(yǔ)言外還包括觸覺(jué)、聲音、力等信息,這一系列過(guò)程會(huì)非常艱難且昂貴。

不僅如此,在訓(xùn)練方式上也面臨挑戰(zhàn)。由于機(jī)器人訓(xùn)練需要真實(shí)場(chǎng)景,相比于以往的大模型,在強(qiáng)化學(xué)習(xí)、機(jī)器人的穩(wěn)定性等方面,實(shí)際訓(xùn)練成本都要更高,目前學(xué)術(shù)界也還在探索解法。

換言之,機(jī)器人大模型本身的數(shù)據(jù)標(biāo)注會(huì)比文本類、識(shí)別類模型更困難,需要一臺(tái)真實(shí)的設(shè)備才能完成,這也是需要研究攻克的難點(diǎn),真機(jī)采集數(shù)據(jù)比仿真數(shù)據(jù)更好、更真實(shí),仿真數(shù)據(jù)則有些像大模型在做數(shù)據(jù)合成。

在訓(xùn)練具身大腦的問(wèn)題上,從預(yù)訓(xùn)練數(shù)據(jù)去學(xué)習(xí)物理世界、學(xué)習(xí)普適的操控能力以及學(xué)習(xí)具身場(chǎng)景普適的規(guī)劃能力,其實(shí)仿真數(shù)據(jù)也可以行得通,但沒(méi)有真機(jī)數(shù)據(jù)那么真,前提是要足夠多樣到能適配各種設(shè)備、場(chǎng)景。

同時(shí),具身場(chǎng)景的機(jī)器人數(shù)據(jù)和文本大模型的數(shù)據(jù)存在些許差異:從數(shù)據(jù)角度前者會(huì)多一維,如景深、3D 點(diǎn)云,但如果從多模態(tài)的角度,并沒(méi)有太多區(qū)別,只是模態(tài)維度會(huì)更多一點(diǎn)。

這意味著,大模型在機(jī)器人的環(huán)境適用性確實(shí)起到一個(gè)比較大的作用,但大模型是否會(huì)幫助機(jī)器人數(shù)據(jù)采集,業(yè)內(nèi)也仍持觀望態(tài)度。

數(shù)據(jù)之外,算力也是現(xiàn)階段機(jī)器人端模型發(fā)展的關(guān)鍵瓶頸之一。

目前,國(guó)內(nèi)研究基礎(chǔ)大模型的主力軍雖然也陸續(xù)在發(fā)力「端側(cè)小模型」,但起步比較晚、技術(shù)進(jìn)展較緩慢,其當(dāng)下重點(diǎn)仍舊放置在云端大模型上,如智譜 GLM-130B、百川、騰訊混元、零一萬(wàn)物 Yi 等。

這些大模型的參數(shù)規(guī)模動(dòng)輒上千億,需要大量的算力支持,而機(jī)器人搭載的板卡算力往往是非常小的,如若要跑上千億的大模型,機(jī)器人就需要部署非常高算力的板卡,如此一來(lái),成本高、功耗高、散熱等都會(huì)成問(wèn)題,當(dāng)下最先進(jìn)的聯(lián)發(fā)科 9400 芯片或許都跑不起來(lái)。

所以,這些云端模型沒(méi)法在機(jī)器人本體上離線部署,這也是面壁智能、RockAI 這些廠商存在市場(chǎng)價(jià)值的原因之一。

而如若聯(lián)網(wǎng)調(diào)用的話,執(zhí)行任務(wù)時(shí)機(jī)器人會(huì)存在延時(shí)長(zhǎng)的情況。據(jù) AI 科技評(píng)論了解,一款國(guó)產(chǎn)機(jī)器人曾與一家云端大模型廠商合作,在機(jī)器人上搭載云端大模型、讓機(jī)器人去完成取水的操作時(shí),就曾面對(duì)類似問(wèn)題。

在業(yè)內(nèi)看來(lái),端側(cè) 3B 小模型在任務(wù)泛化、智能理解等任務(wù)上肯定沒(méi)有云端千億、萬(wàn)億大模型強(qiáng),但 3B 模型也能擁有基礎(chǔ)的圖像理解、自然語(yǔ)言交互與知識(shí)庫(kù)問(wèn)答等能力,這就已經(jīng)能解決機(jī)器人的大部分智能需求。

另外,也有觀點(diǎn)認(rèn)為,實(shí)際上,機(jī)器人的本體構(gòu)型差異不影響模型研發(fā),而研究機(jī)器人大模型主要考慮兩個(gè)因素:

一是算力環(huán)境,比如一般來(lái)說(shuō),機(jī)器人的算力模組主要用 Orin,然后使用 Intel 做運(yùn)控,也有小型機(jī)器人會(huì)搭載 ARM 芯片,那么模型廠商需要將模型與不同的芯片適配;二是機(jī)器人肢體參數(shù)不同,也需要做一些簡(jiǎn)單的適配,但適配成本也不高。

肢體參數(shù)不同具體來(lái)講就是,同樣是機(jī)器人,但身高分別是一米六和一米八,這兩個(gè)機(jī)器人的臂展、臂長(zhǎng)和手臂能旋轉(zhuǎn)的角度也是不一樣的,這就需要機(jī)器人大模型的算法指令與本體高度適配。

這也是云端模型在機(jī)器人本體上跑的 Bug 之一——云端模型與機(jī)器人本體無(wú)法完成高度的適配。

而對(duì)于模型廠商來(lái)說(shuō),機(jī)器人的肢體參數(shù)相當(dāng)于「模態(tài)」。以 RockAI 為例,其只關(guān)心模型輸入的模態(tài)、以及模型跑在什么樣的環(huán)境上。模態(tài)包括視覺(jué)、語(yǔ)音、語(yǔ)言等輸入,也包括機(jī)器人自身搭載的傳感器所收集的信息,以及機(jī)器人本體零部件的參數(shù),這些對(duì)機(jī)器人而言全是輸入。

只要輸入不一樣,機(jī)器人都需要做一些簡(jiǎn)單的適配,不過(guò),一般適配成本都不高,最大的成本還是芯片適配,當(dāng)前,受制于算力,大模型朝兩端升級(jí)的難度較高,中間則相對(duì)較低。

一方面往大了做,由于需要大量數(shù)據(jù)和算力,萬(wàn)億參數(shù)模型會(huì)非常難做,模型本身并非難點(diǎn),主要難在資金投入上。不僅要有萬(wàn)卡集群,而且集群中途不出差錯(cuò)是難度系數(shù)非常高的事。

另一方面往小了做。如若大模型基于 GPU 只跑在云端,其實(shí)是相對(duì)容易的;但要做小、跑在手機(jī)、機(jī)器人等終端上,則不是易事。

目前,端側(cè)模型 3B 模型的難點(diǎn)主要在底層卡的運(yùn)維和構(gòu)建上,除了 3B 外,4B-8B 的模型也都可以應(yīng)用在機(jī)器人上,關(guān)鍵是設(shè)備搭載的芯片大小,4090、A100 都可以搭載。

許多業(yè)者對(duì)于機(jī)器人端側(cè)的算力也保持樂(lè)觀態(tài)度,在他們看來(lái),機(jī)器人端的算力限制其實(shí)沒(méi)有手機(jī)那么強(qiáng),能搭載的算力選擇更多,隨著芯片的進(jìn)一步發(fā)展,或許千億級(jí)別的模型也能夠在端側(cè)落地。

不過(guò),需要看到的是,機(jī)器人廠商普遍傾向于用低功耗芯片,現(xiàn)在很多機(jī)器人廠商都還在用驍龍 6,而驍龍 6 每年的出貨量上千萬(wàn)臺(tái),相當(dāng)于在近五六年里,中低端芯片占據(jù)了芯片市場(chǎng)的主流。

其不愿意選擇高算力的 GPU 的原因在于,從實(shí)踐中來(lái)看,一般情況下,人形機(jī)器人脫離電源后能堅(jiān)持一個(gè)小時(shí),一旦加了高算力板卡,可能 20 分鐘就會(huì)沒(méi)電。

但是,端側(cè)模型要跑在較低功耗的 CPU 上是非常難的,因?yàn)樗懔Σ粔颍?/p>

業(yè)內(nèi)基于 Transformer 架構(gòu)跑 3B 大小的模型,在驍龍 7 上跑不了,在驍龍 8 上跑起來(lái)則需要做量化和壓縮,一旦如此操作,多模態(tài)能力便會(huì)出現(xiàn)大幅下降,需要在能力和算力需求之間尋求平衡點(diǎn),這會(huì)進(jìn)一步阻止機(jī)器人廠商采購(gòu)模型的動(dòng)力。

從當(dāng)前情況來(lái)看,許多模型廠商正在做這方面的權(quán)衡取舍,在此之中關(guān)鍵則在于推理優(yōu)化水平的高低:模型做小、落在端側(cè)上,需要工程人員將模型優(yōu)化,使其在量化后仍能保持性能、速度和對(duì)算力的要求。

有機(jī)器人領(lǐng)域從業(yè)者向 AI 科技評(píng)論透露,像智譜、百川這樣的大模型基座,不是不考慮端側(cè),而是做不了的問(wèn)題,現(xiàn)在手機(jī)廠商與機(jī)器人的廠商,基本在 RockAI、面壁與通義三者中選擇。

回到芯片的問(wèn)題,就算是機(jī)器人廠商愿意用高算力 CPU 或者 GPU,也會(huì)面臨成本問(wèn)題:

從手機(jī)廠商的例子中來(lái)看,小米使用高通 8 的手機(jī)都是售價(jià) 5000 塊以上,如果疊加大模型,價(jià)格或許會(huì)接近一萬(wàn),而高端機(jī)的消費(fèi)人群也是少數(shù)。要等到聯(lián)發(fā)科 9400 或者驍龍 8 占領(lǐng)市場(chǎng),還有三至五年的時(shí)間窗口。

值得一提的是,機(jī)器人端大模型還面臨著本體的挑戰(zhàn),業(yè)內(nèi)研究有發(fā)現(xiàn)本體是一個(gè)特別大的瓶頸,更有觀點(diǎn)認(rèn)為,整個(gè)行業(yè)可能還沒(méi)到模型、數(shù)據(jù)挑戰(zhàn)階段。


如何跳出「死循環(huán)」?


機(jī)器人大模型要向前邁進(jìn)需要倚靠三方合力,不能只是大模型廠商的一廂情愿,而是要同機(jī)器人廠商、芯片廠商聯(lián)合起來(lái),共同鑿開(kāi)一條光明之路。

當(dāng)前,也有不少大模型廠商給出了解決方案,比如以智源、智譜等為代表的單位就設(shè)計(jì)了一個(gè)端云協(xié)作的大小模型協(xié)同訓(xùn)練和部署的方式:

首先在云端訓(xùn)練大模型,然后通過(guò)知識(shí)蒸餾、模型量化等方式得到一個(gè)小模型,再把這個(gè)輕量化的小模型部署在終端上,如果終端搭載一個(gè)英偉達(dá)的板卡,就可以部署一個(gè)小如 1B 的模型。目前理想汽車就已經(jīng)能夠在英偉達(dá)的板卡上部署 2B 的模型。

這種做法既能保持住大模型的能力,也可以更高效地部署。

也有像 RockAI 這樣的廠商,基于非 Transformer 架構(gòu)在一些搭載了純 CPU 或 CPU+NPU(低端芯片)的機(jī)器人上跑起來(lái),來(lái)降低算力要求和功耗。(關(guān)于非 Transformer 架構(gòu)的更多內(nèi)容,可以閱讀 AI 科技評(píng)論往期報(bào)道:《誰(shuí)將替代 Transformer?》)

另外,由于芯片有迭代周期,需要三年、五年甚至更長(zhǎng)的時(shí)間。雖然有說(shuō)法認(rèn)為,小模型跑在端側(cè)上的壁壘是芯片,但并不是說(shuō)芯片廠商研發(fā)出了最新的芯片,第二年所有設(shè)備廠商就會(huì)更新?lián)Q代。

基于此,市場(chǎng)的機(jī)遇則在于存量市場(chǎng),換言之就是,有沒(méi)有大模型廠商能在現(xiàn)有算力的基礎(chǔ)上滿足機(jī)器人的智能需求。

RockAI 也在做這方面的布局,鄒佳思告訴 AI 科技評(píng)論,「我們現(xiàn)在做端側(cè)和高通、聯(lián)發(fā)科、英特爾、ARM、華為的芯片都有適配過(guò),用了四個(gè)月時(shí)間完成了華為昇騰 910 和 310 系列芯片的適配工作,包括訓(xùn)練卡和推理卡?!?/p>

「樂(lè)聚之所以選擇與我們合作,也是因?yàn)槲覀兡茏鏊麄兊拇媪渴袌?chǎng)。這意味著他們不需要等高通或英特爾發(fā)布更高性能的芯片才能跑模型,這樣是有問(wèn)題的,因?yàn)橄喈?dāng)于還得等硬件先發(fā)展?!?/p>

所謂芯片適配,其實(shí)是現(xiàn)階段為了對(duì)芯片的 AI 算力進(jìn)行充分利用,讓模型運(yùn)行更加高效,必須針對(duì)模型架構(gòu)、依托芯片計(jì)算單元特點(diǎn),對(duì)推理框架進(jìn)行優(yōu)化。

這項(xiàng)優(yōu)化工作不僅需要對(duì)芯片計(jì)算單元、推理算子有足夠的理解,還需要對(duì)模型結(jié)構(gòu)有足夠的認(rèn)知,因此需要芯片廠商與模型公司共同協(xié)作才能快速推進(jìn)。

也有觀點(diǎn)認(rèn)為,現(xiàn)在很多端側(cè)模型無(wú)法落地,不是因?yàn)闄C(jī)器人的硬件不行或需求不足,而是大模型的技術(shù)還不夠成熟和完善,所以無(wú)法觸及到那么大的市場(chǎng)。

不過(guò),雖然通過(guò)現(xiàn)有芯片也能做許多圖像、音頻等處理,但有些任務(wù)還是需要突破芯片困局后才能進(jìn)一步實(shí)現(xiàn),比如實(shí)時(shí)捕捉視頻、識(shí)別實(shí)時(shí)視頻流這一點(diǎn),依靠現(xiàn)階段的芯片性能便無(wú)法實(shí)現(xiàn)。

舉例來(lái)看,讓機(jī)器人描述在環(huán)境里看到了什么,它實(shí)際上看到的是一張照片,如果在它面前做一個(gè)打叉的手勢(shì),因?yàn)檫@個(gè)手勢(shì)是連貫的動(dòng)作,機(jī)器人可能捕捉不到(因?yàn)橹荒茏R(shí)別圖片),只能捕捉到其中一個(gè)動(dòng)作,那么它也許就無(wú)法理解這個(gè)動(dòng)作的意思。

而要想識(shí)別視頻流、捕捉中間動(dòng)作過(guò)程,則對(duì)算力有著極高的要求。

「視覺(jué)這塊我們現(xiàn)在做不上去,有更高算力芯片后就會(huì)好辦了。哪怕是基于 9400 芯片,當(dāng)前的大模型廠商都很難把視頻能力放上去。」有機(jī)器人領(lǐng)域從業(yè)者告訴 AI 科技評(píng)論。

所以,芯片廠商實(shí)現(xiàn)高端芯片的突破,將芯片做到高算力、低功耗并行也是當(dāng)下所需,芯片的躍升會(huì)給模型帶來(lái)更多機(jī)會(huì)。

值得一提的是,電池廠商輔助延長(zhǎng)續(xù)航也十分關(guān)鍵,但遺憾的是,如今的電池廠商在機(jī)器人市場(chǎng)還未發(fā)力,這歸根到底是機(jī)器人市場(chǎng)不夠廣闊所致。

有業(yè)者向 AI 科技評(píng)論透露,「目前發(fā)展較好的機(jī)器人廠商一年出貨量能有幾百臺(tái)已經(jīng)算很高了,但對(duì)于電池廠商而言,這種程度的出貨量遠(yuǎn)遠(yuǎn)不夠,在他們看來(lái)不值得投入大量金錢與人力去做技術(shù)突破?!?/p>

最終,回歸到出貨量的破局,這方面還得靠機(jī)器人廠商自身拿主意,首先就是要本體做得足夠更好,穩(wěn)定性高,能克服各種復(fù)雜惡劣地形,覆蓋多種場(chǎng)景等。

目前,PC、手機(jī)端也有端側(cè)模型,但后者的出貨量很顯然遠(yuǎn)大于機(jī)器人,數(shù)據(jù)量也會(huì)更大。

如此來(lái)看,端側(cè)芯片的迭代會(huì)更多放在手機(jī)、PC 等硬件設(shè)備上,機(jī)器人側(cè)的芯片迭代速度會(huì)更慢,無(wú)法支撐模型需求,模型的迭代也會(huì)受險(xiǎn)阻,而算法迭代減緩,機(jī)器人智能水平迭代減緩,出貨量就更小。

在業(yè)內(nèi)的構(gòu)想中,如果能解決出貨量的問(wèn)題,之后量產(chǎn)得到提升,隨之場(chǎng)景也能增多,如若一年能量產(chǎn)上千上萬(wàn)臺(tái),自然而然會(huì)有上游廠商找過(guò)來(lái),資源也會(huì)跟著涌進(jìn)來(lái)。

不過(guò),值得一提的是,PC、手機(jī)端的競(jìng)爭(zhēng)正逐步走向白熱化,因?yàn)槠涠藗?cè)模型已經(jīng)走向自研。據(jù) AI 科技評(píng)論了解,vivo 的云端模型是基于智譜做的,但本地是完全自研的。

這也意味著機(jī)器人側(cè)大模型的創(chuàng)業(yè)空間會(huì)比較大:在對(duì)于端側(cè)模型的需求上,機(jī)器人最主要的交互方式是語(yǔ)音和視覺(jué),核心訴求是實(shí)現(xiàn)擬人化,即整個(gè)交互下來(lái)機(jī)器人更像是個(gè)人,手機(jī)則無(wú)需特別擬人,主要是完成日常工作,目前發(fā)力點(diǎn)在于打通系統(tǒng)應(yīng)用。

長(zhǎng)期來(lái)看,模型廠商、芯片廠商與機(jī)器人廠商都還有很大的探索提升空間,面對(duì)當(dāng)下存在的量產(chǎn)不足、芯片困境以及數(shù)據(jù)量不足,以至于難以提升智能水平的閉環(huán)問(wèn)題上,亟需三方積極向彼此靠攏,并有一方跳出來(lái)主動(dòng)破局。雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng))雷峰網(wǎng)

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。

機(jī)器人端側(cè)模型的十字路口

分享:
相關(guān)文章
最新文章
請(qǐng)?zhí)顚懮暾?qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說(shuō)