0
本文作者: 我在思考中 | 2023-11-15 17:05 |
當前,“四肢發(fā)達、頭腦簡單”的傳統(tǒng)機器人已經(jīng)無法滿足千行百業(yè)“機器代人”的需求,迫切期待機器人從單一場景自動化向復雜場景智能化的拐點出現(xiàn)。傳統(tǒng)機器人實現(xiàn)高階智能的關(guān)鍵是更加智能的機器人“大腦”。近日,工業(yè)和信息化部印發(fā)了《人形機器人創(chuàng)新發(fā)展指導意見》(以下簡稱《指導意見》),機器人產(chǎn)業(yè)鏈上下游企業(yè)迎來重大利好,特別是針對機器人“大腦”提出更高要求。
在此背景下,由哈爾濱工業(yè)大學(深圳)(以下簡稱“哈工深”)創(chuàng)立的多模態(tài)大模型研發(fā)企業(yè)——深圳若愚科技有限公司(以下簡稱“若愚科技”),以其卓越的技術(shù)實力和前瞻性的市場洞察力,引起了業(yè)界的廣泛關(guān)注。若愚科技與哈工深共建人工智能聯(lián)合實驗室,形成由頂尖專家領(lǐng)銜的多層次、多學科研究團隊,在多模態(tài)大模型、自然語言處理、具身智能和大模型量化與壓縮等各個領(lǐng)域均有著深入的研究和理解。同時,團隊依托深圳哈深資產(chǎn)經(jīng)營管理公司孵化,享受學校政策支持和資源保障,機器人學科一直是哈工大的優(yōu)勢學科,學校持股團隊為團隊發(fā)展提供了穩(wěn)定的資金來源和豐富的機器人上下游資源。團隊的可靠背景也為合作伙伴提供了信心和保障。
面對機遇與挑戰(zhàn),若愚科技認為,將機器人“大腦”作為落地載體,是以新一代多模態(tài)大模型技術(shù)為底座的AI公司的“最佳選擇”。多模態(tài)大模型技術(shù)將推動機器人“大腦”快速升級,其進化速度遠超機器人本體,或?qū)⒃谖磥?至3年內(nèi)越過技術(shù)成熟點,進入規(guī)?;a(chǎn)業(yè)落地階段。
將機器人“大腦”作為落地載體成“最佳選擇”
目前,人工智能技術(shù)的發(fā)展正面臨著大量跨模態(tài)任務(wù)的挑戰(zhàn),“基于多模態(tài)的預(yù)訓練大模型將成為人工智能基礎(chǔ)設(shè)施”,這一觀點成為業(yè)內(nèi)共識。市面上的大模型把提升多模態(tài)和多任務(wù)方面能力作為主要發(fā)力方向,而這也是機器人“大腦”在實際應(yīng)用中“得分高低”的重要衡量指標,將機器人“大腦”(尤其是人形機器人“大腦”)作為落地載體,往往成為以新一代大模型技術(shù)為底座的AI公司的“最佳選擇”。
機器人“大腦”可以利用多模態(tài)大模型技術(shù),實現(xiàn)視覺、聽覺、觸覺、語言等多種信息的融合和處理,從而提高機器人的智能水平和交互能力。這與《指導意見》提出的“開發(fā)基于人工智能大模型的人形機器人‘大腦’,增強環(huán)境感知、行為控制、人機交互能力,推動云端和邊緣端智能協(xié)同部署”的目標是一致的。
但從現(xiàn)實發(fā)展狀況來看,現(xiàn)有的機器人公司往往依賴于外部的大型模型工具,如GPT-3、GPT-4等,然而這些外部模型并未針對機器人的特定數(shù)據(jù)進行訓練,因此機器人的指令分解能力和執(zhí)行成功率相對較低。外部大模型工具自身能力有限,使得機器人也受到相應(yīng)的限制,無法實現(xiàn)真正的自主可控。所以表現(xiàn)優(yōu)秀的大模型工具成為行業(yè)的焦點。
針對當前機器人行業(yè)深度發(fā)展所面臨的諸多問題,若愚科技與哈工深共同研發(fā)具有完全自主知識產(chǎn)權(quán)的語言大模型和多模態(tài)大模型,掌握從0到1自主訓練語言大模型與多模態(tài)大模型的技術(shù),并得到工信部認證。其中,“若愚-九天”首次參評即連續(xù)數(shù)月登頂OpenCompass多模態(tài)大模型榜單,展現(xiàn)出若愚科技的強大研發(fā)實力。
以“若愚-九天”大模型為基底的機器人“大腦”在多個領(lǐng)域中展現(xiàn)出色的“智能”能力?!?23億參數(shù)”“1億2千萬圖文對”“1.5萬億tokens”……一串串數(shù)字背后,是“若愚-九天”多模態(tài)大模型在各個維度的突破和優(yōu)化。無論是邏輯推理、關(guān)系推理,還是感知能力方面,“若愚-九天”都能夠準確地理解響應(yīng)用戶需求,甚至超越用戶期待。
“早在成立之初,若愚科技便瞄準了機器人‘大腦’的方向,致力于為整個機器人生態(tài)賦能。”若愚科技CEO孫騰指出,《指導意見》提出的“開發(fā)基于人工智能大模型的人形機器人‘大腦’”和“圍繞動態(tài)開放環(huán)境下人形機器人感知與控制”兩個方面,與若愚科技深耕領(lǐng)域相匹配。
值得關(guān)注的是,相對于落地C端的激烈競爭,以及對超大規(guī)模數(shù)據(jù)、超強算力、超大規(guī)模用戶觸達的剛需,機器人“大腦”正處于起步階段,未來上限更高、行業(yè)跨度更大、專業(yè)要求更高,競爭格局將會相對分散,這也從另一角度印證了選擇機器人“大腦”為落地載體的合理性。
多模態(tài)大模型技術(shù)將推動機器人“大腦”快速升級
正如人類的“五感”互相連通、緊密協(xié)作,共同構(gòu)成了人們對世界的認知體驗,人工智能也朝著類似的方向發(fā)展,文字、語言、圖像等不同數(shù)據(jù)類型(模態(tài))的邊界逐漸變得模糊。伴隨著AI感知、交互和生成能力的快速發(fā)展,多模態(tài)大模型技術(shù)將推動機器人“大腦”快速升級。多模態(tài)大模型技術(shù)推動機器人“大腦”快速迭代升級的根本原因在于,模擬人類大腦處理信息方式是多模態(tài)模型技術(shù)的核心目標。通過融合不同感知模態(tài),使機器人可以像人類一樣來理解世界,以更為綜合的方式來感知和生成信息,滿足不同場景條件的實際需求。具體來講,多模態(tài)大模型技術(shù)可以利用海量多媒體數(shù)據(jù),實現(xiàn)對不同模態(tài)信息的深度理解和生成,提高機器人的認知能力和創(chuàng)造能力;可以利用強化學習和元學習等方法,實現(xiàn)對不同場景和任務(wù)的快速適應(yīng)和優(yōu)化,提高機器人的決策能力和執(zhí)行能力;可以利用對話系統(tǒng)和情感分析等技術(shù),實現(xiàn)對人類的語言和情感的理解和響應(yīng),提高機器人的溝通能力和共情能力。
從當前多模態(tài)大模型在現(xiàn)實場景中的表現(xiàn)可以證明,其運用在機器人“大腦”將大幅提高機器人環(huán)境感知、肢體運動、人機交互、任務(wù)規(guī)劃等核心能力。例如,今年3 月份谷歌聯(lián)合柏林工業(yè)大學團隊推出的PaLM-E,是一種多模態(tài)具身視覺語言模型,不僅可以理解圖像,還能理解、生成語言,可執(zhí)行各種復雜的機器人指令而無需重新訓練。PaLM-E還表現(xiàn)出了“正遷移”能力,即它可以將從一項任務(wù)中學到的知識和技能遷移到另一項任務(wù)中,從而與單任務(wù)機器人模型相比具有“顯著更高的性能”。
對于若愚科技而言,多模態(tài)大模型“若愚-九天”能夠處理文本、圖像、音頻和視頻等不同類型數(shù)據(jù)的同時,還能打破各模態(tài)間的信息壁壘,將不同類型數(shù)據(jù)在“九天”中進行有效的整合交互,從而實現(xiàn)更深層次的信息理解,做到更加自然順暢的人機對話。此外,若愚科技還實現(xiàn)了從人類知識到機器人世界的跨越。若愚科技聯(lián)合哈工深把含有大量人類通用知識的語言基座大模型和多模態(tài)基座大模型對齊到以機器人為中心的世界,構(gòu)建了多模態(tài)具身決策大模型,可充分利用基座模型中的人類知識,迅速泛化到不同機器人場景,實現(xiàn)了從人類知識到機器人世界的跨越。通過聯(lián)合規(guī)劃大模型與決策大模型,若愚科技成功突破了機器人的智能可控,為人工智能領(lǐng)域帶來了新的突破口。
機器人“大腦”進化速度將遠超機器人本體
機器人“大腦”的進化速度主要取決于大模型技術(shù)的發(fā)展速度,而大模型技術(shù)的發(fā)展速度又由計算能力和數(shù)據(jù)量的增長速度決定。目前這兩者都呈現(xiàn)出加速的趨勢,推動機器人“大腦”進化加速。機器人本體的進化速度主要取決于機械、電子、材料等領(lǐng)域的技術(shù)創(chuàng)新,而這些領(lǐng)域的技術(shù)突破受到物理、化學、生物等學科的限制,導致機器人本體的進化速度難以突破瓶頸。人類發(fā)育的規(guī)律和目前的AGI范式都表明“大腦”的技術(shù)進化速度會先于本體,再延伸至后續(xù)的商業(yè)化也是相同的發(fā)展路徑。若愚科技預(yù)測,機器人‘大腦’技術(shù)成熟點將在未來2至3年內(nèi)實現(xiàn),從而進入到規(guī)?;a(chǎn)業(yè)落地階段。屆時,機器人將在制造業(yè)、民生領(lǐng)域等多個領(lǐng)域和場景中發(fā)揮重要作用。
“從產(chǎn)品化進程的角度看,目前人形機器人還處在早期,除部分細分領(lǐng)域如科研、接待展示等小規(guī)模落地外,其他場景都沒有規(guī)?;涞兀枰M一步探索落地場景和商業(yè)模式?!惫ど钐仄感iL助理,若愚科技首席科學家張民表示。目前,基于“若愚-九天”多模態(tài)大模型基座的垂直細分領(lǐng)域定制化模型已開始在各垂直領(lǐng)域陸續(xù)應(yīng)用。例如,在智能撿練領(lǐng)域,多模態(tài)大模型具有自動識別各種顏色、形狀等屬性物體的能力,可提升工作效率;在工業(yè)組裝領(lǐng)域,多模態(tài)大模型具有大量人類知識,可以自由切換產(chǎn)線,降低成本。這與《指導意見》提出的“聚焦3C、汽車等制造業(yè)重點領(lǐng)域,提升人形機器人工具操作與任務(wù)執(zhí)行能力,打造人形機器人示范產(chǎn)線和工廠,在典型制造場景實現(xiàn)深度應(yīng)用”的目標相符合,未來人形機器人將在制造業(yè)領(lǐng)域發(fā)揮重要作用。
新一代具身智能機器人必將成為人工智能領(lǐng)域的重要發(fā)展方向?!吨笇б庖姟返念C布為人形機器人產(chǎn)業(yè)發(fā)展提供了政策引導、技術(shù)支撐、市場空間等多方面保障,有助于推動整個機器人產(chǎn)業(yè)實現(xiàn)規(guī)?;⒏哔|(zhì)量、可持續(xù)的發(fā)展。未來,若愚科技將積極響應(yīng),加強技術(shù)創(chuàng)新和產(chǎn)品研發(fā),拓展機器人的應(yīng)用場景和市場空間,以機器人“大腦”為切入點為整個行業(yè)賦能,同時期待與更多合作伙伴共同探索機器人的發(fā)展可能性和潛在價值,為人類社會進步發(fā)展提供新動力和新選擇。
雷峰網(wǎng)(公眾號:雷峰網(wǎng))
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。