若愚科技：基于多模態(tài)大模型的機器人“大腦”領(lǐng)導者

本文作者：我在思考中

2023-11-15 17:05

導語：機器人產(chǎn)業(yè)鏈上下游企業(yè)迎來重大利好，特別是針對機器人“大腦”提出更高要求。

當前，“四肢發(fā)達、頭腦簡單”的傳統(tǒng)機器人已經(jīng)無法滿足千行百業(yè)“機器代人”的需求，迫切期待機器人從單一場景自動化向復雜場景智能化的拐點出現(xiàn)。傳統(tǒng)機器人實現(xiàn)高階智能的關(guān)鍵是更加智能的機器人“大腦”。近日，工業(yè)和信息化部印發(fā)了《人形機器人創(chuàng)新發(fā)展指導意見》（以下簡稱《指導意見》），機器人產(chǎn)業(yè)鏈上下游企業(yè)迎來重大利好，特別是針對機器人“大腦”提出更高要求。

在此背景下，由哈爾濱工業(yè)大學（深圳）（以下簡稱“哈工深”）創(chuàng)立的多模態(tài)大模型研發(fā)企業(yè)——深圳若愚科技有限公司（以下簡稱“若愚科技”），以其卓越的技術(shù)實力和前瞻性的市場洞察力，引起了業(yè)界的廣泛關(guān)注。若愚科技與哈工深共建人工智能聯(lián)合實驗室，形成由頂尖專家領(lǐng)銜的多層次、多學科研究團隊，在多模態(tài)大模型、自然語言處理、具身智能和大模型量化與壓縮等各個領(lǐng)域均有著深入的研究和理解。同時，團隊依托深圳哈深資產(chǎn)經(jīng)營管理公司孵化，享受學校政策支持和資源保障，機器人學科一直是哈工大的優(yōu)勢學科，學校持股團隊為團隊發(fā)展提供了穩(wěn)定的資金來源和豐富的機器人上下游資源。團隊的可靠背景也為合作伙伴提供了信心和保障。

面對機遇與挑戰(zhàn)，若愚科技認為，將機器人“大腦”作為落地載體，是以新一代多模態(tài)大模型技術(shù)為底座的AI公司的“最佳選擇”。多模態(tài)大模型技術(shù)將推動機器人“大腦”快速升級，其進化速度遠超機器人本體，或?qū)⒃谖磥?至3年內(nèi)越過技術(shù)成熟點，進入規(guī)?；a(chǎn)業(yè)落地階段。

將機器人“大腦”作為落地載體成“最佳選擇”

目前，人工智能技術(shù)的發(fā)展正面臨著大量跨模態(tài)任務(wù)的挑戰(zhàn)，“基于多模態(tài)的預(yù)訓練大模型將成為人工智能基礎(chǔ)設(shè)施”，這一觀點成為業(yè)內(nèi)共識。市面上的大模型把提升多模態(tài)和多任務(wù)方面能力作為主要發(fā)力方向，而這也是機器人“大腦”在實際應(yīng)用中“得分高低”的重要衡量指標，將機器人“大腦”（尤其是人形機器人“大腦”）作為落地載體，往往成為以新一代大模型技術(shù)為底座的AI公司的“最佳選擇”。

機器人“大腦”可以利用多模態(tài)大模型技術(shù)，實現(xiàn)視覺、聽覺、觸覺、語言等多種信息的融合和處理，從而提高機器人的智能水平和交互能力。這與《指導意見》提出的“開發(fā)基于人工智能大模型的人形機器人‘大腦’，增強環(huán)境感知、行為控制、人機交互能力，推動云端和邊緣端智能協(xié)同部署”的目標是一致的。

但從現(xiàn)實發(fā)展狀況來看，現(xiàn)有的機器人公司往往依賴于外部的大型模型工具，如GPT-3、GPT-4等，然而這些外部模型并未針對機器人的特定數(shù)據(jù)進行訓練，因此機器人的指令分解能力和執(zhí)行成功率相對較低。外部大模型工具自身能力有限，使得機器人也受到相應(yīng)的限制，無法實現(xiàn)真正的自主可控。所以表現(xiàn)優(yōu)秀的大模型工具成為行業(yè)的焦點。

針對當前機器人行業(yè)深度發(fā)展所面臨的諸多問題，若愚科技與哈工深共同研發(fā)具有完全自主知識產(chǎn)權(quán)的語言大模型和多模態(tài)大模型，掌握從0到1自主訓練語言大模型與多模態(tài)大模型的技術(shù)，并得到工信部認證。其中，“若愚-九天”首次參評即連續(xù)數(shù)月登頂OpenCompass多模態(tài)大模型榜單，展現(xiàn)出若愚科技的強大研發(fā)實力。

以“若愚-九天”大模型為基底的機器人“大腦”在多個領(lǐng)域中展現(xiàn)出色的“智能”能力?！?23億參數(shù)”“1億2千萬圖文對”“1.5萬億tokens”……一串串數(shù)字背后，是“若愚-九天”多模態(tài)大模型在各個維度的突破和優(yōu)化。無論是邏輯推理、關(guān)系推理，還是感知能力方面，“若愚-九天”都能夠準確地理解響應(yīng)用戶需求，甚至超越用戶期待。

“早在成立之初，若愚科技便瞄準了機器人‘大腦’的方向，致力于為整個機器人生態(tài)賦能。”若愚科技CEO孫騰指出，《指導意見》提出的“開發(fā)基于人工智能大模型的人形機器人‘大腦’”和“圍繞動態(tài)開放環(huán)境下人形機器人感知與控制”兩個方面，與若愚科技深耕領(lǐng)域相匹配。

值得關(guān)注的是，相對于落地C端的激烈競爭，以及對超大規(guī)模數(shù)據(jù)、超強算力、超大規(guī)模用戶觸達的剛需，機器人“大腦”正處于起步階段，未來上限更高、行業(yè)跨度更大、專業(yè)要求更高，競爭格局將會相對分散，這也從另一角度印證了選擇機器人“大腦”為落地載體的合理性。

多模態(tài)大模型技術(shù)將推動機器人“大腦”快速升級

正如人類的“五感”互相連通、緊密協(xié)作，共同構(gòu)成了人們對世界的認知體驗，人工智能也朝著類似的方向發(fā)展，文字、語言、圖像等不同數(shù)據(jù)類型（模態(tài)）的邊界逐漸變得模糊。伴隨著AI感知、交互和生成能力的快速發(fā)展，多模態(tài)大模型技術(shù)將推動機器人“大腦”快速升級。多模態(tài)大模型技術(shù)推動機器人“大腦”快速迭代升級的根本原因在于，模擬人類大腦處理信息方式是多模態(tài)模型技術(shù)的核心目標。通過融合不同感知模態(tài)，使機器人可以像人類一樣來理解世界，以更為綜合的方式來感知和生成信息，滿足不同場景條件的實際需求。具體來講，多模態(tài)大模型技術(shù)可以利用海量多媒體數(shù)據(jù)，實現(xiàn)對不同模態(tài)信息的深度理解和生成，提高機器人的認知能力和創(chuàng)造能力；可以利用強化學習和元學習等方法，實現(xiàn)對不同場景和任務(wù)的快速適應(yīng)和優(yōu)化，提高機器人的決策能力和執(zhí)行能力；可以利用對話系統(tǒng)和情感分析等技術(shù)，實現(xiàn)對人類的語言和情感的理解和響應(yīng)，提高機器人的溝通能力和共情能力。

從當前多模態(tài)大模型在現(xiàn)實場景中的表現(xiàn)可以證明，其運用在機器人“大腦”將大幅提高機器人環(huán)境感知、肢體運動、人機交互、任務(wù)規(guī)劃等核心能力。例如，今年3 月份谷歌聯(lián)合柏林工業(yè)大學團隊推出的PaLM-E，是一種多模態(tài)具身視覺語言模型，不僅可以理解圖像，還能理解、生成語言，可執(zhí)行各種復雜的機器人指令而無需重新訓練。PaLM-E還表現(xiàn)出了“正遷移”能力，即它可以將從一項任務(wù)中學到的知識和技能遷移到另一項任務(wù)中，從而與單任務(wù)機器人模型相比具有“顯著更高的性能”。

對于若愚科技而言，多模態(tài)大模型“若愚-九天”能夠處理文本、圖像、音頻和視頻等不同類型數(shù)據(jù)的同時，還能打破各模態(tài)間的信息壁壘，將不同類型數(shù)據(jù)在“九天”中進行有效的整合交互，從而實現(xiàn)更深層次的信息理解，做到更加自然順暢的人機對話。此外，若愚科技還實現(xiàn)了從人類知識到機器人世界的跨越。若愚科技聯(lián)合哈工深把含有大量人類通用知識的語言基座大模型和多模態(tài)基座大模型對齊到以機器人為中心的世界，構(gòu)建了多模態(tài)具身決策大模型，可充分利用基座模型中的人類知識，迅速泛化到不同機器人場景，實現(xiàn)了從人類知識到機器人世界的跨越。通過聯(lián)合規(guī)劃大模型與決策大模型，若愚科技成功突破了機器人的智能可控，為人工智能領(lǐng)域帶來了新的突破口。

機器人“大腦”進化速度將遠超機器人本體

機器人“大腦”的進化速度主要取決于大模型技術(shù)的發(fā)展速度，而大模型技術(shù)的發(fā)展速度又由計算能力和數(shù)據(jù)量的增長速度決定。目前這兩者都呈現(xiàn)出加速的趨勢，推動機器人“大腦”進化加速。機器人本體的進化速度主要取決于機械、電子、材料等領(lǐng)域的技術(shù)創(chuàng)新，而這些領(lǐng)域的技術(shù)突破受到物理、化學、生物等學科的限制，導致機器人本體的進化速度難以突破瓶頸。人類發(fā)育的規(guī)律和目前的AGI范式都表明“大腦”的技術(shù)進化速度會先于本體，再延伸至后續(xù)的商業(yè)化也是相同的發(fā)展路徑。若愚科技預(yù)測，機器人‘大腦’技術(shù)成熟點將在未來2至3年內(nèi)實現(xiàn)，從而進入到規(guī)?；a(chǎn)業(yè)落地階段。屆時，機器人將在制造業(yè)、民生領(lǐng)域等多個領(lǐng)域和場景中發(fā)揮重要作用。

“從產(chǎn)品化進程的角度看，目前人形機器人還處在早期，除部分細分領(lǐng)域如科研、接待展示等小規(guī)模落地外，其他場景都沒有規(guī)?；涞兀枰M一步探索落地場景和商業(yè)模式?！惫ど钐仄感ｉL助理，若愚科技首席科學家張民表示。目前，基于“若愚-九天”多模態(tài)大模型基座的垂直細分領(lǐng)域定制化模型已開始在各垂直領(lǐng)域陸續(xù)應(yīng)用。例如，在智能撿練領(lǐng)域，多模態(tài)大模型具有自動識別各種顏色、形狀等屬性物體的能力，可提升工作效率；在工業(yè)組裝領(lǐng)域，多模態(tài)大模型具有大量人類知識，可以自由切換產(chǎn)線，降低成本。這與《指導意見》提出的“聚焦3C、汽車等制造業(yè)重點領(lǐng)域，提升人形機器人工具操作與任務(wù)執(zhí)行能力，打造人形機器人示范產(chǎn)線和工廠，在典型制造場景實現(xiàn)深度應(yīng)用”的目標相符合，未來人形機器人將在制造業(yè)領(lǐng)域發(fā)揮重要作用。

新一代具身智能機器人必將成為人工智能領(lǐng)域的重要發(fā)展方向?！吨笇б庖姟返念C布為人形機器人產(chǎn)業(yè)發(fā)展提供了政策引導、技術(shù)支撐、市場空間等多方面保障，有助于推動整個機器人產(chǎn)業(yè)實現(xiàn)規(guī)?；⒏哔|(zhì)量、可持續(xù)的發(fā)展。未來，若愚科技將積極響應(yīng)，加強技術(shù)創(chuàng)新和產(chǎn)品研發(fā)，拓展機器人的應(yīng)用場景和市場空間，以機器人“大腦”為切入點為整個行業(yè)賦能，同時期待與更多合作伙伴共同探索機器人的發(fā)展可能性和潛在價值，為人類社會進步發(fā)展提供新動力和新選擇。

雷峰網(wǎng)(公眾號：雷峰網(wǎng))

雷峰網(wǎng)版權(quán)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

0人收藏

相關(guān)文章

我在思考中

運營

發(fā)私信

當月熱門文章