0
大模型一聲炮響,掀起了機(jī)器人的革命浪潮。
這一變革率先發(fā)生在人機(jī)交互上。以ChatGPT為代表的LLM模型第一次在人與機(jī)器間建立起高效的溝通方式,從根本上打破人機(jī)之間的語義隔離,進(jìn)而賦予機(jī)器人快速向人類學(xué)習(xí)的能力,使其以更快地速度學(xué)習(xí)并執(zhí)行相關(guān)任務(wù)。
傳統(tǒng)的人機(jī)交互模式,機(jī)器人只能機(jī)械地執(zhí)行人類設(shè)定好的程序。這一模式局限性非常大。比如,需要有專業(yè)的工程師將知識(shí)“翻譯”給機(jī)器人,機(jī)器人才能執(zhí)行具體任務(wù),溝通效率低且人力成本極高,限制了機(jī)器人的落地應(yīng)用。
在大模型強(qiáng)大的理解能力加持下,機(jī)器人能更智能地“聽懂人話”。人機(jī)交互不再需要專業(yè)的知識(shí)門檻,可以用自然語言、肢體動(dòng)作等類人行為進(jìn)行交流,大幅降低人類使用機(jī)器人的門檻,進(jìn)而使得機(jī)器人的廣泛落地變成可能。
“機(jī)器人融入大模型是發(fā)展趨勢(shì)?!?/strong>全國機(jī)器人標(biāo)準(zhǔn)化技術(shù)委員會(huì)委員趙勇表示。
作為AI技術(shù)的進(jìn)階態(tài),大模型強(qiáng)大的泛化能力,讓機(jī)器人在“類人”的道路上更進(jìn)一步。如果把機(jī)器人視為一個(gè)智能體,大模型則是這個(gè)智能體的技術(shù)底座,為機(jī)器人走向「具身智能」奠定了基礎(chǔ)。
如今,大模型在機(jī)器人領(lǐng)域的應(yīng)用正在不斷拓展,各行各業(yè)正面臨一次“重鑄”。其中,工業(yè)機(jī)器人作為應(yīng)用較為廣泛的品類,也迎來了一次深刻技術(shù)與范式蝶變。微億智造CTO趙何博士以具身智能理論作為指導(dǎo),將成熟的工業(yè)機(jī)器人與新興的人工智能技術(shù)融合,首次提出了“具身智能工業(yè)機(jī)器人”(Embodied Intelligent Industrial Robots, EIIR)這一概念。至此,EIIR正式走上了歷史舞臺(tái)。
理解EIIR之前,首先要搞清楚,什么是具身智能,以及什么是具身智能機(jī)器人。
具身智能理論根源于“具身認(rèn)知”,其主張智能體的認(rèn)知能力由其自身結(jié)構(gòu)決定,這種認(rèn)知又直接反過來影響智能體的高級(jí)心理活動(dòng),諸如:推理,決策等。并且,智能體根據(jù)自身的軀體結(jié)構(gòu)來構(gòu)建自己的世界模型,從認(rèn)知產(chǎn)生的機(jī)制到智能體決策依賴的世界模型,均受制于智能體具體的物質(zhì)形態(tài)。
比如,嬰兒早期的學(xué)習(xí)行為,例如爬、抓取、行走等,本質(zhì)上是智能體在主動(dòng)探索周邊環(huán)境,來形成對(duì)外界的認(rèn)知,并構(gòu)建基礎(chǔ)的世界模型,形成了一套普適的方法論。
智能體的認(rèn)知過程遵循"探索﹣利用"( exploration - exploitation )的范式,通過自己的"軀體"與外界環(huán)境進(jìn)行互動(dòng),從外界對(duì)智能體的動(dòng)作產(chǎn)生反饋獲取信息,建立起自身的認(rèn)知模式。
在具體系統(tǒng)構(gòu)成方面,智能體核心包括三部分:感知系統(tǒng)、運(yùn)動(dòng)系統(tǒng)和世界模型。與傳統(tǒng)認(rèn)知不同,感知和運(yùn)動(dòng)系統(tǒng)并不孤立,二者同樣參與認(rèn)知過程,世界模型則是智能體基于自身結(jié)構(gòu)特點(diǎn)而構(gòu)建,用于解釋世界的認(rèn)知框架。
如果將這一理論應(yīng)用到機(jī)器人行業(yè),理論與技術(shù)相結(jié)合,便產(chǎn)生了具身智能機(jī)器人(EIR)??梢灶A(yù)見,未來所有機(jī)器人都將面臨一次「范式變革」。從第一性原理出發(fā),具身智能機(jī)器人存在諸多共性,主要體現(xiàn)為五大能力,分別是——
1、多模態(tài)環(huán)境認(rèn)知、交互能力;
2、智能的任務(wù)學(xué)習(xí)和理解能力;
3、高度自主的智能決策能力;
4、智能高效的單任務(wù)執(zhí)行能力;
5、多任務(wù)切換能力。
這些能力構(gòu)成了具身智能機(jī)器人的基礎(chǔ)。在具身智能理論框架下,“智能體”和“環(huán)境”是矛盾的兩個(gè)方面,它們之間的對(duì)立統(tǒng)產(chǎn)生了智能體的認(rèn)知,孵化了智能。因此,從一開始設(shè)計(jì)機(jī)器人時(shí),不能把機(jī)器人從任務(wù)環(huán)境中剝離出來。
當(dāng)這一理論被應(yīng)用于工業(yè),具身智能工業(yè)機(jī)器人(EIIR)便呼之欲出了。作為EIR在工業(yè)場(chǎng)景下的外延,EIIR的生存環(huán)境,無容置疑就是工業(yè)生產(chǎn)環(huán)境。
過去幾年,AI技術(shù)的應(yīng)用,從某種程度上推動(dòng)了工業(yè)機(jī)器人的智能化提升。
比如,圖像識(shí)別技術(shù)在圖像分類、目標(biāo)檢測(cè)和圖像生成方面取得的長足進(jìn)步,使得計(jì)算機(jī)對(duì)圖像的識(shí)別理解能力已經(jīng)超越了人類,對(duì)應(yīng)的技術(shù)被應(yīng)用到工業(yè)質(zhì)檢這一環(huán)節(jié)中,大幅提高了企業(yè)生產(chǎn)制造的質(zhì)檢效率和質(zhì)量。
又比如,Slam算法被用于機(jī)器人導(dǎo)航,通過計(jì)算機(jī)視覺和機(jī)器視覺等技術(shù),從而提高工業(yè)AGV/AMR的靈活度,最終提高運(yùn)輸效率,降低人力成本。
而今,在以大模型為代表的AI技術(shù)賦能下,具身智能工業(yè)機(jī)器人(EIIR)成為工業(yè)機(jī)器人的新方向。
“EIIR可以理解為EIR在工業(yè)場(chǎng)景的外延,但形態(tài)并非是人形?!蔽|智造CTO趙何博士表示。
EIIR的生存環(huán)境就是工業(yè)生產(chǎn)環(huán)境。相對(duì)于自然環(huán)境,生產(chǎn)環(huán)境是一個(gè)閉合、簡單的環(huán)境。從邏輯上講,“人形”作為開放環(huán)境下的產(chǎn)物天然不會(huì)是閉合環(huán)境最佳的軀體形態(tài)。而且,人在很多工業(yè)場(chǎng)景存在天然的“缺陷”,在靈活度、精準(zhǔn)度上,很難與機(jī)器相提并論。如果可以由機(jī)器自主完成而不需要人的參與,那么對(duì)應(yīng)的生產(chǎn)環(huán)境可以設(shè)計(jì)成對(duì)機(jī)器更加友好,而完全不用考慮人類體形的局限,從而讓生產(chǎn)過程更加高效可靠。
EIIR需要替代的是人在生產(chǎn)過程中被異化后的投影,不是人的本質(zhì),更不是人的外形。將人類從生產(chǎn)活動(dòng)中解放出來,必然存在多種形態(tài)。因此,“EIIR和人形機(jī)器人并不能直接劃等號(hào)”。
EIIR本質(zhì)上,目的是“超越人”和“解放人”。相比精確的自動(dòng)化控制,EIIR可以更好的實(shí)現(xiàn)真正的無人化生產(chǎn)。
原因主要有三點(diǎn)——
一是生產(chǎn)場(chǎng)景的不確定性。整個(gè)工業(yè)環(huán)境,場(chǎng)景非常多樣化,存在諸多不確定性,屬于定量開放環(huán)境,需要有EIIR這類具備靈活智能能力的機(jī)器人來應(yīng)對(duì)。
二是生產(chǎn)環(huán)境閉合邊界不一。不同生產(chǎn)任務(wù)都有與之對(duì)應(yīng)確定的生產(chǎn)環(huán)境,它們之間閉合邊界不具備一致性。這就要求足夠高的智能水平或在少量人類幫助下,完成這種環(huán)境的切換和適應(yīng)。
三是標(biāo)準(zhǔn)產(chǎn)品具有標(biāo)準(zhǔn)智能。使得標(biāo)準(zhǔn)的EIIR產(chǎn)品具有一定水平的標(biāo)準(zhǔn)智能,不僅能減少 EIIR 從制造到應(yīng)用的成本,并盡可能的適用于不同生產(chǎn)場(chǎng)景、適配具體任務(wù),使其大規(guī)模應(yīng)用成為可能。
一言以蔽之,EIIR的出現(xiàn)是市場(chǎng)環(huán)境與技術(shù)迭代共同作用的結(jié)果,又將反過來解決市場(chǎng)痛點(diǎn)。在這個(gè)相互作用的過程中,機(jī)器人能夠?qū)崿F(xiàn)“自我進(jìn)化”,成為新的生產(chǎn)工具,進(jìn)一步推動(dòng)社會(huì)生產(chǎn)力的發(fā)展。
作為具身智能的實(shí)體表現(xiàn)形式之一,EIIR必然遵循具身智能的一般規(guī)律,整個(gè)智能體由感知系統(tǒng)、運(yùn)動(dòng)系統(tǒng)和世界模型三部分組成。
感知系統(tǒng)
EIIR 的感知系統(tǒng)是一個(gè)多模態(tài)泛傳感器系統(tǒng)。該系統(tǒng)配備多種傳感器,具備比人類感知器官更精準(zhǔn)的信息收集能力。這些信息相互補(bǔ)充、交叉驗(yàn)證,為EIIR的決策提供輸入信息。并且,感知系統(tǒng)除了對(duì)周邊環(huán)境進(jìn)行連續(xù)動(dòng)態(tài)檢測(cè)以外,還要對(duì)自身進(jìn)行不間斷地狀態(tài)感知,為EIIR的決策、與環(huán)境的互動(dòng)提供感知基礎(chǔ)。
例如,在工業(yè)質(zhì)檢領(lǐng)域,傳統(tǒng)的機(jī)器質(zhì)檢雖然能夠大幅提高檢測(cè)效率,但模型依賴于工程師的不斷調(diào)優(yōu),柔性較差,部署成本也比較高。而EIIR則能夠識(shí)別和分析對(duì)象的姿態(tài)和特征,自主生成檢測(cè)序列,以高精度的圖像傳感器追蹤形態(tài)不定、位置不定的缺陷,實(shí)現(xiàn)柔性的、超越人類的缺陷檢測(cè)能力。
通過“感知系統(tǒng)”,對(duì)環(huán)境及自身持續(xù)采樣,并基于聯(lián)合認(rèn)知進(jìn)行決策
運(yùn)動(dòng)系統(tǒng)
EIIR 的運(yùn)動(dòng)系統(tǒng)首先是一個(gè)閉環(huán)控制系統(tǒng),其一般原理是通過反饋環(huán)路,比較被控狀態(tài)量的實(shí)際值和設(shè)定值之間的誤差,作為輸入送到控制器進(jìn)行計(jì)算,控制器的輸出控制執(zhí)行器動(dòng)作,直到被控量的實(shí)際值達(dá)到設(shè)定值為止。EIIR 的運(yùn)動(dòng)系統(tǒng)會(huì)包含很多個(gè)這樣的閉環(huán)控制系統(tǒng),這些系統(tǒng)必須共同協(xié)作才能滿足 EIIR 靈活、精準(zhǔn)、快速的要求。
以“關(guān)節(jié)電機(jī)”為例,其“視覺伺服”系統(tǒng)由多個(gè)控制器、按層級(jí)嵌套組合而成,每一層都有自身需要優(yōu)化的控制指標(biāo)與對(duì)象。只有從整體到局部逐層細(xì)化,才能實(shí)現(xiàn)閉環(huán)控制。EIIR能夠根據(jù)控制系統(tǒng),實(shí)時(shí)地結(jié)合動(dòng)力學(xué)、運(yùn)動(dòng)學(xué)算法,計(jì)算時(shí)間和狀態(tài)最優(yōu)的運(yùn)動(dòng)軌跡,并以毫秒級(jí)速度閉環(huán)運(yùn)動(dòng)控制、使用圖像模型,完成閉環(huán)運(yùn)動(dòng)規(guī)劃。
通過“視覺伺服”,實(shí)現(xiàn)感知系統(tǒng)與運(yùn)動(dòng)系統(tǒng)的閉環(huán)控制
世界模型
世界模型是智能體根據(jù)自身結(jié)構(gòu)特點(diǎn)構(gòu)建起來、用于解釋世界的認(rèn)知框架,會(huì)隨著智能體與環(huán)境的互動(dòng)而動(dòng)態(tài)變化。該模型由以大模型技術(shù)為主的“基礎(chǔ)模型”疊加智能體在面臨具體任務(wù)時(shí)的知識(shí)形成,二者通過“探索-利用”的范式構(gòu)建起一個(gè)服務(wù)于具體任務(wù)的世界模型。
更具體一點(diǎn),“基礎(chǔ)模型”賦予了EIIR強(qiáng)大的理解能力,能夠通過人類習(xí)慣的模式與人類進(jìn)行信息交換。人類只需輸入自然語言、圖片、視頻、動(dòng)作示教等知識(shí),就可與EIIR建立起“示教-學(xué)習(xí)-反饋”的互動(dòng)模式,將知識(shí)進(jìn)行傳遞。如此一來,EIIR在基礎(chǔ)模型和具體任務(wù)知識(shí)的訓(xùn)練下,通過不斷地自我學(xué)習(xí)和進(jìn)化,便能實(shí)現(xiàn)獨(dú)立運(yùn)行。
通過“基礎(chǔ)世界模型”,建立“示教-學(xué)習(xí)-反饋”的互動(dòng)模式
“具身智能工業(yè)機(jī)器人(EIIR)是現(xiàn)代制造業(yè)的杰出代表,它們通過高度的自動(dòng)化和智能化,極大地提升了生產(chǎn)效率和質(zhì)量?!敝袊磐ㄔ喝A東分院、人工智能與大數(shù)據(jù)事業(yè)部主任陳俊琰表示,“隨著多模態(tài)大模型、人機(jī)自然交互等技術(shù)的進(jìn)步,EIIR夠適應(yīng)更復(fù)雜的工作環(huán)境,進(jìn)行自我學(xué)習(xí)和優(yōu)化,是“人工智能+”的積極探索實(shí)踐,也為工業(yè)生產(chǎn)帶來革命性的變化?!?nbsp;
EIIR 的發(fā)展將是一個(gè)循序漸進(jìn)的過程,將主要分三個(gè)階段——
前期。EIIR 和人類共處在同一個(gè)生產(chǎn)環(huán)境下,人機(jī)協(xié)同是 EIIR 需要重點(diǎn)解決的問題。
中期。在新技術(shù)的賦能下,EIIR的人機(jī)交互水平提高,人機(jī)協(xié)作更加高效智能。但在這個(gè)階段,EIIR 本質(zhì)上還是附屬于人類的智能機(jī)器。
后期。EIIR 的智能化程度越來越高,能夠獨(dú)立完成任務(wù),人類逐漸淡出生產(chǎn)環(huán)境,“無人工廠”將得以實(shí)現(xiàn)。
這也將會(huì)是一個(gè)漫長的過程,但技術(shù)已經(jīng)點(diǎn)亮了勝利的火焰。雷峰網(wǎng)雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng))
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。