0
本文作者: 我在思考中 | 2023-11-15 17:05 |
當(dāng)前,“四肢發(fā)達(dá)、頭腦簡(jiǎn)單”的傳統(tǒng)機(jī)器人已經(jīng)無(wú)法滿足千行百業(yè)“機(jī)器代人”的需求,迫切期待機(jī)器人從單一場(chǎng)景自動(dòng)化向復(fù)雜場(chǎng)景智能化的拐點(diǎn)出現(xiàn)。傳統(tǒng)機(jī)器人實(shí)現(xiàn)高階智能的關(guān)鍵是更加智能的機(jī)器人“大腦”。近日,工業(yè)和信息化部印發(fā)了《人形機(jī)器人創(chuàng)新發(fā)展指導(dǎo)意見》(以下簡(jiǎn)稱《指導(dǎo)意見》),機(jī)器人產(chǎn)業(yè)鏈上下游企業(yè)迎來(lái)重大利好,特別是針對(duì)機(jī)器人“大腦”提出更高要求。
在此背景下,由哈爾濱工業(yè)大學(xué)(深圳)(以下簡(jiǎn)稱“哈工深”)創(chuàng)立的多模態(tài)大模型研發(fā)企業(yè)——深圳若愚科技有限公司(以下簡(jiǎn)稱“若愚科技”),以其卓越的技術(shù)實(shí)力和前瞻性的市場(chǎng)洞察力,引起了業(yè)界的廣泛關(guān)注。若愚科技與哈工深共建人工智能聯(lián)合實(shí)驗(yàn)室,形成由頂尖專家領(lǐng)銜的多層次、多學(xué)科研究團(tuán)隊(duì),在多模態(tài)大模型、自然語(yǔ)言處理、具身智能和大模型量化與壓縮等各個(gè)領(lǐng)域均有著深入的研究和理解。同時(shí),團(tuán)隊(duì)依托深圳哈深資產(chǎn)經(jīng)營(yíng)管理公司孵化,享受學(xué)校政策支持和資源保障,機(jī)器人學(xué)科一直是哈工大的優(yōu)勢(shì)學(xué)科,學(xué)校持股團(tuán)隊(duì)為團(tuán)隊(duì)發(fā)展提供了穩(wěn)定的資金來(lái)源和豐富的機(jī)器人上下游資源。團(tuán)隊(duì)的可靠背景也為合作伙伴提供了信心和保障。
面對(duì)機(jī)遇與挑戰(zhàn),若愚科技認(rèn)為,將機(jī)器人“大腦”作為落地載體,是以新一代多模態(tài)大模型技術(shù)為底座的AI公司的“最佳選擇”。多模態(tài)大模型技術(shù)將推動(dòng)機(jī)器人“大腦”快速升級(jí),其進(jìn)化速度遠(yuǎn)超機(jī)器人本體,或?qū)⒃谖磥?lái)2至3年內(nèi)越過技術(shù)成熟點(diǎn),進(jìn)入規(guī)?;a(chǎn)業(yè)落地階段。
將機(jī)器人“大腦”作為落地載體成“最佳選擇”
目前,人工智能技術(shù)的發(fā)展正面臨著大量跨模態(tài)任務(wù)的挑戰(zhàn),“基于多模態(tài)的預(yù)訓(xùn)練大模型將成為人工智能基礎(chǔ)設(shè)施”,這一觀點(diǎn)成為業(yè)內(nèi)共識(shí)。市面上的大模型把提升多模態(tài)和多任務(wù)方面能力作為主要發(fā)力方向,而這也是機(jī)器人“大腦”在實(shí)際應(yīng)用中“得分高低”的重要衡量指標(biāo),將機(jī)器人“大腦”(尤其是人形機(jī)器人“大腦”)作為落地載體,往往成為以新一代大模型技術(shù)為底座的AI公司的“最佳選擇”。
機(jī)器人“大腦”可以利用多模態(tài)大模型技術(shù),實(shí)現(xiàn)視覺、聽覺、觸覺、語(yǔ)言等多種信息的融合和處理,從而提高機(jī)器人的智能水平和交互能力。這與《指導(dǎo)意見》提出的“開發(fā)基于人工智能大模型的人形機(jī)器人‘大腦’,增強(qiáng)環(huán)境感知、行為控制、人機(jī)交互能力,推動(dòng)云端和邊緣端智能協(xié)同部署”的目標(biāo)是一致的。
但從現(xiàn)實(shí)發(fā)展?fàn)顩r來(lái)看,現(xiàn)有的機(jī)器人公司往往依賴于外部的大型模型工具,如GPT-3、GPT-4等,然而這些外部模型并未針對(duì)機(jī)器人的特定數(shù)據(jù)進(jìn)行訓(xùn)練,因此機(jī)器人的指令分解能力和執(zhí)行成功率相對(duì)較低。外部大模型工具自身能力有限,使得機(jī)器人也受到相應(yīng)的限制,無(wú)法實(shí)現(xiàn)真正的自主可控。所以表現(xiàn)優(yōu)秀的大模型工具成為行業(yè)的焦點(diǎn)。
針對(duì)當(dāng)前機(jī)器人行業(yè)深度發(fā)展所面臨的諸多問題,若愚科技與哈工深共同研發(fā)具有完全自主知識(shí)產(chǎn)權(quán)的語(yǔ)言大模型和多模態(tài)大模型,掌握從0到1自主訓(xùn)練語(yǔ)言大模型與多模態(tài)大模型的技術(shù),并得到工信部認(rèn)證。其中,“若愚-九天”首次參評(píng)即連續(xù)數(shù)月登頂OpenCompass多模態(tài)大模型榜單,展現(xiàn)出若愚科技的強(qiáng)大研發(fā)實(shí)力。
以“若愚-九天”大模型為基底的機(jī)器人“大腦”在多個(gè)領(lǐng)域中展現(xiàn)出色的“智能”能力?!?23億參數(shù)”“1億2千萬(wàn)圖文對(duì)”“1.5萬(wàn)億tokens”……一串串?dāng)?shù)字背后,是“若愚-九天”多模態(tài)大模型在各個(gè)維度的突破和優(yōu)化。無(wú)論是邏輯推理、關(guān)系推理,還是感知能力方面,“若愚-九天”都能夠準(zhǔn)確地理解響應(yīng)用戶需求,甚至超越用戶期待。
“早在成立之初,若愚科技便瞄準(zhǔn)了機(jī)器人‘大腦’的方向,致力于為整個(gè)機(jī)器人生態(tài)賦能。”若愚科技CEO孫騰指出,《指導(dǎo)意見》提出的“開發(fā)基于人工智能大模型的人形機(jī)器人‘大腦’”和“圍繞動(dòng)態(tài)開放環(huán)境下人形機(jī)器人感知與控制”兩個(gè)方面,與若愚科技深耕領(lǐng)域相匹配。
值得關(guān)注的是,相對(duì)于落地C端的激烈競(jìng)爭(zhēng),以及對(duì)超大規(guī)模數(shù)據(jù)、超強(qiáng)算力、超大規(guī)模用戶觸達(dá)的剛需,機(jī)器人“大腦”正處于起步階段,未來(lái)上限更高、行業(yè)跨度更大、專業(yè)要求更高,競(jìng)爭(zhēng)格局將會(huì)相對(duì)分散,這也從另一角度印證了選擇機(jī)器人“大腦”為落地載體的合理性。
多模態(tài)大模型技術(shù)將推動(dòng)機(jī)器人“大腦”快速升級(jí)
正如人類的“五感”互相連通、緊密協(xié)作,共同構(gòu)成了人們對(duì)世界的認(rèn)知體驗(yàn),人工智能也朝著類似的方向發(fā)展,文字、語(yǔ)言、圖像等不同數(shù)據(jù)類型(模態(tài))的邊界逐漸變得模糊。伴隨著AI感知、交互和生成能力的快速發(fā)展,多模態(tài)大模型技術(shù)將推動(dòng)機(jī)器人“大腦”快速升級(jí)。多模態(tài)大模型技術(shù)推動(dòng)機(jī)器人“大腦”快速迭代升級(jí)的根本原因在于,模擬人類大腦處理信息方式是多模態(tài)模型技術(shù)的核心目標(biāo)。通過融合不同感知模態(tài),使機(jī)器人可以像人類一樣來(lái)理解世界,以更為綜合的方式來(lái)感知和生成信息,滿足不同場(chǎng)景條件的實(shí)際需求。具體來(lái)講,多模態(tài)大模型技術(shù)可以利用海量多媒體數(shù)據(jù),實(shí)現(xiàn)對(duì)不同模態(tài)信息的深度理解和生成,提高機(jī)器人的認(rèn)知能力和創(chuàng)造能力;可以利用強(qiáng)化學(xué)習(xí)和元學(xué)習(xí)等方法,實(shí)現(xiàn)對(duì)不同場(chǎng)景和任務(wù)的快速適應(yīng)和優(yōu)化,提高機(jī)器人的決策能力和執(zhí)行能力;可以利用對(duì)話系統(tǒng)和情感分析等技術(shù),實(shí)現(xiàn)對(duì)人類的語(yǔ)言和情感的理解和響應(yīng),提高機(jī)器人的溝通能力和共情能力。
從當(dāng)前多模態(tài)大模型在現(xiàn)實(shí)場(chǎng)景中的表現(xiàn)可以證明,其運(yùn)用在機(jī)器人“大腦”將大幅提高機(jī)器人環(huán)境感知、肢體運(yùn)動(dòng)、人機(jī)交互、任務(wù)規(guī)劃等核心能力。例如,今年3 月份谷歌聯(lián)合柏林工業(yè)大學(xué)團(tuán)隊(duì)推出的PaLM-E,是一種多模態(tài)具身視覺語(yǔ)言模型,不僅可以理解圖像,還能理解、生成語(yǔ)言,可執(zhí)行各種復(fù)雜的機(jī)器人指令而無(wú)需重新訓(xùn)練。PaLM-E還表現(xiàn)出了“正遷移”能力,即它可以將從一項(xiàng)任務(wù)中學(xué)到的知識(shí)和技能遷移到另一項(xiàng)任務(wù)中,從而與單任務(wù)機(jī)器人模型相比具有“顯著更高的性能”。
對(duì)于若愚科技而言,多模態(tài)大模型“若愚-九天”能夠處理文本、圖像、音頻和視頻等不同類型數(shù)據(jù)的同時(shí),還能打破各模態(tài)間的信息壁壘,將不同類型數(shù)據(jù)在“九天”中進(jìn)行有效的整合交互,從而實(shí)現(xiàn)更深層次的信息理解,做到更加自然順暢的人機(jī)對(duì)話。此外,若愚科技還實(shí)現(xiàn)了從人類知識(shí)到機(jī)器人世界的跨越。若愚科技聯(lián)合哈工深把含有大量人類通用知識(shí)的語(yǔ)言基座大模型和多模態(tài)基座大模型對(duì)齊到以機(jī)器人為中心的世界,構(gòu)建了多模態(tài)具身決策大模型,可充分利用基座模型中的人類知識(shí),迅速泛化到不同機(jī)器人場(chǎng)景,實(shí)現(xiàn)了從人類知識(shí)到機(jī)器人世界的跨越。通過聯(lián)合規(guī)劃大模型與決策大模型,若愚科技成功突破了機(jī)器人的智能可控,為人工智能領(lǐng)域帶來(lái)了新的突破口。
機(jī)器人“大腦”進(jìn)化速度將遠(yuǎn)超機(jī)器人本體
機(jī)器人“大腦”的進(jìn)化速度主要取決于大模型技術(shù)的發(fā)展速度,而大模型技術(shù)的發(fā)展速度又由計(jì)算能力和數(shù)據(jù)量的增長(zhǎng)速度決定。目前這兩者都呈現(xiàn)出加速的趨勢(shì),推動(dòng)機(jī)器人“大腦”進(jìn)化加速。機(jī)器人本體的進(jìn)化速度主要取決于機(jī)械、電子、材料等領(lǐng)域的技術(shù)創(chuàng)新,而這些領(lǐng)域的技術(shù)突破受到物理、化學(xué)、生物等學(xué)科的限制,導(dǎo)致機(jī)器人本體的進(jìn)化速度難以突破瓶頸。人類發(fā)育的規(guī)律和目前的AGI范式都表明“大腦”的技術(shù)進(jìn)化速度會(huì)先于本體,再延伸至后續(xù)的商業(yè)化也是相同的發(fā)展路徑。若愚科技預(yù)測(cè),機(jī)器人‘大腦’技術(shù)成熟點(diǎn)將在未來(lái)2至3年內(nèi)實(shí)現(xiàn),從而進(jìn)入到規(guī)?;a(chǎn)業(yè)落地階段。屆時(shí),機(jī)器人將在制造業(yè)、民生領(lǐng)域等多個(gè)領(lǐng)域和場(chǎng)景中發(fā)揮重要作用。
“從產(chǎn)品化進(jìn)程的角度看,目前人形機(jī)器人還處在早期,除部分細(xì)分領(lǐng)域如科研、接待展示等小規(guī)模落地外,其他場(chǎng)景都沒有規(guī)?;涞?,需要進(jìn)一步探索落地場(chǎng)景和商業(yè)模式。”哈工深特聘校長(zhǎng)助理,若愚科技首席科學(xué)家張民表示。目前,基于“若愚-九天”多模態(tài)大模型基座的垂直細(xì)分領(lǐng)域定制化模型已開始在各垂直領(lǐng)域陸續(xù)應(yīng)用。例如,在智能撿練領(lǐng)域,多模態(tài)大模型具有自動(dòng)識(shí)別各種顏色、形狀等屬性物體的能力,可提升工作效率;在工業(yè)組裝領(lǐng)域,多模態(tài)大模型具有大量人類知識(shí),可以自由切換產(chǎn)線,降低成本。這與《指導(dǎo)意見》提出的“聚焦3C、汽車等制造業(yè)重點(diǎn)領(lǐng)域,提升人形機(jī)器人工具操作與任務(wù)執(zhí)行能力,打造人形機(jī)器人示范產(chǎn)線和工廠,在典型制造場(chǎng)景實(shí)現(xiàn)深度應(yīng)用”的目標(biāo)相符合,未來(lái)人形機(jī)器人將在制造業(yè)領(lǐng)域發(fā)揮重要作用。
新一代具身智能機(jī)器人必將成為人工智能領(lǐng)域的重要發(fā)展方向?!吨笇?dǎo)意見》的頒布為人形機(jī)器人產(chǎn)業(yè)發(fā)展提供了政策引導(dǎo)、技術(shù)支撐、市場(chǎng)空間等多方面保障,有助于推動(dòng)整個(gè)機(jī)器人產(chǎn)業(yè)實(shí)現(xiàn)規(guī)?;?、高質(zhì)量、可持續(xù)的發(fā)展。未來(lái),若愚科技將積極響應(yīng),加強(qiáng)技術(shù)創(chuàng)新和產(chǎn)品研發(fā),拓展機(jī)器人的應(yīng)用場(chǎng)景和市場(chǎng)空間,以機(jī)器人“大腦”為切入點(diǎn)為整個(gè)行業(yè)賦能,同時(shí)期待與更多合作伙伴共同探索機(jī)器人的發(fā)展可能性和潛在價(jià)值,為人類社會(huì)進(jìn)步發(fā)展提供新動(dòng)力和新選擇。
雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng))
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。