丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能 正文
發(fā)私信給饒舒瑋
發(fā)送

0

專訪聯(lián)想集團(tuán) CTO 芮勇:智能體是具身智能的基礎(chǔ)|具身智能十人談

本文作者: 饒舒瑋 2024-06-12 15:40
導(dǎo)語(yǔ):蘋果砸到機(jī)器人頭上,它能像牛頓那樣悟到萬(wàn)有引力嗎?

作者丨饒舒瑋

編輯丨岑峰

在遼闊的未知海域,作為首席技術(shù)官的芮勇是決定聯(lián)想集團(tuán)這座巨輪技術(shù)路線的掌舵人之一。

擁有七大國(guó)內(nèi)外知名學(xué)會(huì)會(huì)士( Fellow) 桂冠、曾在微軟工作近18年,芮勇在2016年選擇了聯(lián)想集團(tuán)作為自己職業(yè)生涯的下一站。同年,聯(lián)想集團(tuán)聘用多位 AI 領(lǐng)域大牛,發(fā)力人工智能領(lǐng)域,從一家做設(shè)備的公司向一家設(shè)備+云服務(wù)的公司加速轉(zhuǎn)型。聯(lián)想研究院人工智能實(shí)驗(yàn)室開(kāi)始籌備成立,芮勇也在朋友圈中廣發(fā)英雄帖,招攬有識(shí)之士加入團(tuán)隊(duì)。

如今,從 All in AI 到 AI for all,聯(lián)想集團(tuán)正沿著既定道路穩(wěn)步前行。在采訪中,每當(dāng)提到聯(lián)想集團(tuán)在 AI 領(lǐng)域的前瞻性和發(fā)展?jié)摿Γ怯碌淖院栏幸缬谘员?。比如他們很早就關(guān)注到了 OpenAI,并快速跟進(jìn)了他們的研發(fā)技術(shù);在業(yè)界還在關(guān)注大模型的時(shí)候,聯(lián)想集團(tuán)早已經(jīng)開(kāi)始了智能體的研究。

多年投身人工智能領(lǐng)域的經(jīng)驗(yàn)和軟硬件結(jié)合的基因給了聯(lián)想集團(tuán)不做盲目從眾者的底氣。這點(diǎn)從這波大模型的熱潮中就有所體現(xiàn)。聯(lián)想集團(tuán)堅(jiān)定地“舍棄”了公共大模型這一擁擠的賽道,轉(zhuǎn)身投入更具有“私”性質(zhì)的面向企業(yè)的私有大模型和面向設(shè)備的個(gè)人大模型。在大模型資源“蛋糕”不斷做大的未來(lái),為每個(gè)人和每個(gè)企業(yè)提供量身定制的服務(wù),注定是大模型這一處理海量數(shù)據(jù)工具的價(jià)值點(diǎn)。

大模型做好了,那么下一步是什么?芮勇的回答是智能體。在他看來(lái),AI發(fā)展的三部曲是從小模型到大模型,再到智能體。“智能體基于大模型而又超越于大模型,智能體同時(shí)也是離身智能和具身智能的基礎(chǔ)。”

面對(duì) AI 領(lǐng)域的下一個(gè)風(fēng)潮——具身智能,芮勇的態(tài)度是積極擁抱。得益于多學(xué)科背景,芮勇在具身智能領(lǐng)域的研究得心應(yīng)手。說(shuō)到多學(xué)科背景,我們把時(shí)間拉回到上世紀(jì)八九十年代。芮勇在清華期間學(xué)習(xí)自動(dòng)化控制,后赴美師從計(jì)算機(jī)視覺(jué)領(lǐng)域泰斗美國(guó)工程院院士、中國(guó)科學(xué)院工程院雙外籍院士黃煦濤教授 (Prof. Thomas S. Huang),從而打下了芮勇在人工智能和自動(dòng)控制兩個(gè)領(lǐng)域的堅(jiān)實(shí)基礎(chǔ)。

上世紀(jì)九十年代,多媒體檢索成為當(dāng)時(shí)的新興科研領(lǐng)域,而芮勇則是當(dāng)時(shí)全球第一批探索多媒體檢索的先行者。在1998年,芮勇借鑒了控制理論中的反饋概念,通過(guò)對(duì)多媒體特征和人類感知相似度的建模從根本上打破了之前單純依賴圖像特征的多媒體搜索框架。他的兩篇早期論文已經(jīng)成為了這一領(lǐng)域的世界級(jí)經(jīng)典論文:《Relevance Feedback: A Power Tool in Interactive Content-Based Image Retrieval》成為IEEE TCSVT 當(dāng)年引用率排名第一的論文,《Image Retrieval: Current Techniques, Promising Directions and Open Issues》榮獲JVCIR 2010年頒發(fā)的“十年最高引用論文獎(jiǎng)”。

此外,芮勇在人工智能和自動(dòng)控制兩個(gè)領(lǐng)域還貢獻(xiàn)了如人工智能圖像與文本自動(dòng)排版,圖像搜索多角度特征重排序,基于多模態(tài)稀疏編碼的圖像搜索點(diǎn)擊預(yù)估,相關(guān)性多標(biāo)注的視頻分類等開(kāi)創(chuàng)性的科研成果。

而創(chuàng)新領(lǐng)域的下一個(gè)風(fēng)潮——具身智能,剛好又是這兩個(gè)領(lǐng)域的結(jié)合。當(dāng)初跨領(lǐng)域研究的選擇,多年后的芮勇用“幸運(yùn)”一言以概之。

作為人工智能領(lǐng)域的研究者,芮勇一直認(rèn)為現(xiàn)在的工作都是為了以后,一個(gè)人工智能與人類和平共處的未來(lái)。那時(shí),人類因?yàn)樯朴萌斯ぶ悄?,已?jīng)從重復(fù)性、無(wú)意義的繁重工作中得以解脫,可以更好地享受生活。

近日,雷峰網(wǎng)-AI科技評(píng)論有幸邀請(qǐng)到聯(lián)想集團(tuán) CTO 、高級(jí)副總裁、聯(lián)想技術(shù)委員會(huì)副主席芮勇與我們就具身智能這一主題展開(kāi)討論,同時(shí)對(duì)近年聯(lián)想集團(tuán)在 AI 領(lǐng)域的布局、未來(lái)研發(fā)方向以及人工智能行業(yè)趨勢(shì)等話題進(jìn)行了一次深入對(duì)話,雷峰網(wǎng)-AI科技評(píng)論做了不改原意的編輯:


大模型、智能體兩手抓

AI科技評(píng)論:您近期的演講中涉及智能體的內(nèi)容比較多,目前聯(lián)想集團(tuán)對(duì)于智能體的研發(fā)投入如何?聯(lián)想集團(tuán)將最核心的技術(shù)投入放在了哪一塊?

芮勇:如果說(shuō)去年聯(lián)想集團(tuán)花了很多時(shí)間在看大模型的話,今年大家花最多時(shí)間看的就是智能體。我們可能也是在業(yè)界較早對(duì)智能體這一概念展開(kāi)比較多討論的企業(yè)。今年4月在上海舉行的聯(lián)想創(chuàng)新科技大會(huì) (Tech World) 主題基本就是圍繞智能體展開(kāi)?,F(xiàn)在重要的一定是智能體,因?yàn)楣庥写竽P图夹g(shù),我們覺(jué)得已經(jīng)不夠了,所以智能體在聯(lián)想集團(tuán)的研發(fā)業(yè)務(wù)中是處于一個(gè)核心技術(shù)的位置。但也不是把大模型徹底扔了,而且大模型是開(kāi)發(fā)智能體的基礎(chǔ),所以我們兩手都要抓,兩手都要硬。左手抓大模型,右手抓智能體。

在我們看來(lái),下一步就是掌握智能體幾個(gè)核心技術(shù)。我覺(jué)得有幾大模塊非常重要,首先是智能體的大腦,也就是大模型,相當(dāng)于控制中樞,所以要增強(qiáng)大模型本身的能力。

其次,智能體需要知道自己的能力邊界。人就是一個(gè)智能體,人知道自己的能力邊界。比如你問(wèn)我兩位數(shù)的加減法,我可以心算很快給出答案。如果遇到8位數(shù)、9位數(shù)的加減法,我會(huì)想到使用合適的工具,比如找計(jì)算器來(lái)計(jì)算,把答案告訴你。

所以,智能體一個(gè)關(guān)鍵的能力是對(duì)自我能力邊界的認(rèn)知,知道什么時(shí)候應(yīng)該調(diào)用工具,調(diào)用什么樣的工具。今天的大模型有時(shí)候會(huì)非常自信地告訴你一個(gè)錯(cuò)誤答案。大模型其實(shí)不想騙你,它只是不知道自己的能力邊界在哪里。

此外,對(duì)復(fù)雜任務(wù)的理解與規(guī)劃也是智能體的關(guān)鍵能力。我們?nèi)祟惷鎸?duì)一個(gè)復(fù)雜任務(wù),會(huì)全局地考慮問(wèn)題,包括優(yōu)化目標(biāo),限制條件,可能的方案。然后理出思路,面對(duì)多步驟操作會(huì)清楚先做什么后做什么,對(duì)于未知情況如何去嘗試,對(duì)于多種路徑如何擇優(yōu)。大模型本質(zhì)上是在做下一個(gè)單詞的預(yù)測(cè),它很適合直覺(jué)類任務(wù),并不適合需要統(tǒng)籌規(guī)劃的復(fù)雜任務(wù)。

AI科技評(píng)論:在您看來(lái),智能體與具身智能之間有什么聯(lián)系? 

芮勇:我認(rèn)為,智能體是一個(gè)統(tǒng)籌的概念。智能體基于大模型而又超越于大模型,智能體同時(shí)也是離身智能和具身智能的基礎(chǔ)。智能體既可以存在于數(shù)字空間(cyberspace),也可以存在于物理空間(physical space),和各種設(shè)備結(jié)合。在數(shù)字空間的智能體,我們一般稱為離身智能(Disembodied AI);存在于物理空間的智能體就是具身智能(Embodied AI)。具身智能包括在機(jī)器人方向的具身智能,也包括了車和其他設(shè)備。

具身智能和離身智能概念的第一次出現(xiàn),是1950年前后,那時(shí)候 AI 還沒(méi)有真正出現(xiàn),正處在萌芽期。Alan Turing 在他那篇著名的論文《計(jì)算機(jī)器與智能(Computing machinery and intelligence)》結(jié)尾思考了未來(lái)人工智能的發(fā)展道路,一個(gè)方向是發(fā)展為能夠進(jìn)行像下棋類的抽象活動(dòng)所需的智能,另一條方向則是為機(jī)器人配備傳感器,讓它們像孩子一樣去接觸世界,認(rèn)識(shí)世界。這就是離身智能和具身智能的前身。

目前可以看到的是,如果智能體光靠一個(gè)大模型支撐是遠(yuǎn)遠(yuǎn)不夠的。因?yàn)榇竽P捅旧砟芰τ邢?,單憑一個(gè)大模型很難再往下發(fā)展。現(xiàn)在大模型就遇到了一些瓶頸,比如它對(duì)自身能力的認(rèn)識(shí)很不足,對(duì)于到底自己能干什么、不能干什么、什么時(shí)候要調(diào)用工具、什么時(shí)候可以自己干這些問(wèn)題都不清楚。此外,還有它的長(zhǎng)短期記憶、對(duì)于復(fù)雜意圖的理解以及分解復(fù)雜任務(wù)等等,這些都是尚待解決的問(wèn)題。

AI科技評(píng)論:在研究智能體時(shí)遇到的問(wèn)題對(duì)于研究具身智能有何幫助? 

芮勇:因?yàn)榫呱碇悄苁腔谥悄荏w發(fā)展出來(lái)的,中間很多部分和智能體是一樣的,比如說(shuō)他們都會(huì)有一個(gè)大模型的大腦,都會(huì)有對(duì)場(chǎng)景的理解和主動(dòng)感知,都會(huì)有對(duì)復(fù)雜任務(wù)的理解、分解和規(guī)劃,以及對(duì)知識(shí)庫(kù)和工具的調(diào)用。

但是除了這些以外,具身智能還有它自己的特點(diǎn),有一些新的問(wèn)題要解決:

? 智能體的控制中樞部分,在原來(lái)的語(yǔ)言大模型和視覺(jué)大模型之外,還要加入動(dòng)作大模型;

? 場(chǎng)景理解和主動(dòng)感知組件部分,需要加入3D語(yǔ)義地圖生成,和環(huán)境與地形感知;

? 在自主行走與操作控制上,需要視覺(jué)落腳點(diǎn)規(guī)劃、基于強(qiáng)化學(xué)習(xí)的地形適應(yīng)行走,以及自主定位、導(dǎo)航與探索;

? 具身載體和執(zhí)行器部分,需要通用足式機(jī)器人和力控驅(qū)動(dòng)單元。

說(shuō)到載體,聯(lián)想集團(tuán)近日發(fā)布了通用型六足晨星機(jī)器人,這里面涉及到仿生學(xué)、物理運(yùn)動(dòng)等等,這些都是離身智能不太關(guān)心,但在具身智能領(lǐng)域非常重要的知識(shí)。此外,比如同樣是對(duì)知識(shí)庫(kù)和工具庫(kù)的調(diào)用,離身智能和具身智能所調(diào)用的庫(kù)是完全不一樣的。

AI科技評(píng)論:您認(rèn)為具身智能最適合的載體是什么樣的?

芮勇:具身智能的載體多種多樣,既可以是人形機(jī)器人,也可以也是其它形態(tài),場(chǎng)景不同,載體則不同。

比如需要陪伴老人或者小朋友的場(chǎng)景,最適合的就是人形機(jī)器人。但像是安保、野外作業(yè)的場(chǎng)景,反而是多足機(jī)器人合適,因?yàn)榉€(wěn)定,并且載重量大。我們都知道,三角形是最穩(wěn)定的結(jié)構(gòu),六足的話就是多組三角形輪流著地,能夠最大程度地保證穩(wěn)定性。這也是為什么聯(lián)想集團(tuán)選擇研發(fā)六足機(jī)器人的原因。

像聯(lián)想集團(tuán)其他的一些產(chǎn)品,比如說(shuō)車計(jì)算,甚至我們不同型號(hào)的筆記本電腦等等,其實(shí)這些形態(tài)也是適用于不同場(chǎng)景。像是電腦,我認(rèn)為它是介于具身智能和離身智能之間的智能體,因?yàn)殡娔X里面有很多傳感器、輸入設(shè)備等等,所以它對(duì)環(huán)境有一定的感知和理解,其實(shí)有了具身智能一部分的能力。但是它可能更側(cè)重于作為離身智能存在,因?yàn)樵诙藗?cè)的大模型是跑在電腦上的,能夠使你的生活更加愉快,使你的工作變得更加有效率。

AI科技評(píng)論:從某種意義上來(lái)說(shuō),具身智能因?yàn)榫哂泻臀锢憝h(huán)境進(jìn)行交互的特點(diǎn),應(yīng)該是更高級(jí)的一種智能形態(tài),您如何看待具身智能和 AGI 之間的關(guān)系?

芮勇:
我覺(jué)得 AGI 跟離身智能、具身智能都有關(guān)系。有人覺(jué)得已經(jīng)基本上能看到 AGI 出現(xiàn)了,但我沒(méi)有那么樂(lè)觀,我認(rèn)為我們當(dāng)下的技術(shù)水平離 AGI 還有距離。無(wú)論是 AGI、具身智能還是離身智能,我覺(jué)得還有好多的事情要去做。

圖靈獎(jiǎng)得主 Yoshua Bengio 所提出的五個(gè)層次 World Scope 理論給出了通往AGI的路徑。

第一個(gè)層次是小數(shù)據(jù)訓(xùn)練小模型,過(guò)去幾十年的傳統(tǒng)方法都處于這個(gè)階段。

第二個(gè)層次是用互聯(lián)網(wǎng)規(guī)模的海量數(shù)據(jù)訓(xùn)練大模型,以GPT-3為代表。

第三個(gè)層次是從單模態(tài)到多模態(tài),比如GPT-4o和Gemini是文字視覺(jué)語(yǔ)音的多模態(tài)大模型。

第四個(gè)層次是從開(kāi)環(huán)系統(tǒng)到閉環(huán)控制,就是說(shuō)考慮環(huán)境反饋并結(jié)合自身狀態(tài),給出下一步操作對(duì)環(huán)境產(chǎn)生影響同時(shí)更新自身狀態(tài),比如以AutoGPT為代表的智能體和具身智能機(jī)器人。

第五個(gè)層次是從單智能體到多智能體協(xié)作,也包括機(jī)器與人類的協(xié)作,由群體智能完成復(fù)雜任務(wù),比如多智能體原型AutoGen模擬軟件公司的不同職位協(xié)作從而實(shí)現(xiàn)高質(zhì)量的代碼自動(dòng)開(kāi)發(fā)和文檔自動(dòng)生成。

我覺(jué)得我們現(xiàn)在大概處于在第三層次(多模態(tài))和第四層次(和物理世界的交互)位置,其實(shí)第四層次都還沒(méi)有真正做到。

在我看來(lái),如果有一個(gè)模型,它上知天文,下知地理,那只能說(shuō)明它的記憶力很強(qiáng),不代表它有智能。怎么樣算是有智能?我認(rèn)為擁有自我意識(shí),有自我學(xué)習(xí)的能力才能稱得上有智能。蘋果砸到機(jī)器人頭上,它能像牛頓那樣悟到萬(wàn)有引力嗎? 

所以我認(rèn)為,如果機(jī)器能發(fā)現(xiàn)人類還沒(méi)發(fā)現(xiàn)的東西,才算真正的 AGI。機(jī)器的知識(shí)多,并不代表它就有智能。我們現(xiàn)在是往 AGI 的方向在走,但是離  AGI 還有距離。


聯(lián)想集團(tuán)的 AI 版圖

AI科技評(píng)論:我們都知道,聯(lián)想集團(tuán)在2017年提出 All in AI 戰(zhàn)略,又在2023年升級(jí)為 AI for all,可以看到聯(lián)想集團(tuán)以 AI 驅(qū)動(dòng)企業(yè)智能化轉(zhuǎn)型的決心。作為一家同時(shí)擁有硬件基因和軟件實(shí)力的企業(yè),聯(lián)想集團(tuán)在策略上對(duì)于 AI 有怎樣的布局?

芮勇:我覺(jué)得策略的制定需要參考兩個(gè)方向,其一是要結(jié)合企業(yè)本身的特點(diǎn),其二是要結(jié)合 AI 技術(shù)的發(fā)展趨勢(shì)。把這兩件事考慮清楚了,企業(yè)應(yīng)該怎么去做其實(shí)就很明了了。

首先聯(lián)想集團(tuán)在硬件設(shè)備方面,無(wú)論是前端還是后端都做得非常強(qiáng)大。聯(lián)想集團(tuán)的PC 是全球第一,平板是全球前三,手機(jī)在南美和北美成績(jī)也不錯(cuò),數(shù)據(jù)中心大概全球前五,高性能計(jì)算應(yīng)該是全球第一。這是聯(lián)想集團(tuán)的一個(gè)特點(diǎn)。轉(zhuǎn)變?yōu)?AI for all 的整個(gè)發(fā)展過(guò)程就是結(jié)合了聯(lián)想集團(tuán)上述的特點(diǎn)和 AI 技術(shù)的發(fā)展趨勢(shì)。

其實(shí)我們很早就開(kāi)始研究端側(cè)相關(guān)的模型,這類模型能自動(dòng)檢測(cè)電腦是否開(kāi)啟高性能模式,然后去釋放最大的能量,使得電腦能夠滿足當(dāng)下的算力需求;如果判斷出只是在瀏覽網(wǎng)頁(yè),則會(huì)去優(yōu)化電池的使用時(shí)間。

在邊側(cè),我們最重要的研究就是關(guān)于小樣本的學(xué)習(xí)。無(wú)論是在次品的檢測(cè),還是其他方面,小樣本都比大樣本要難。而且次品的樣本非常少,如何在小樣本情況下訓(xùn)練好模型?這是我們研究的課題。在云側(cè)或者是服務(wù)器集群這一側(cè),我們做的是一個(gè)分布式 AI 訓(xùn)練推理平臺(tái)。所以不論是在端側(cè)、邊側(cè),還是在云側(cè),聯(lián)想集團(tuán)其實(shí)很早就已經(jīng)下大功夫在做了,第一步以小模型為主,為之后大模型的研發(fā)埋下伏筆。

兩年前 OpenAI 真正的起飛之前,我們投入了一些跟大模型相關(guān)的關(guān)鍵技術(shù),比如小樣本學(xué)習(xí)(few-shot learning)。像 GPT-3文章的標(biāo)題是Language Models are Few-Shot Learners ,它講的是上下文小樣本學(xué)習(xí)技術(shù)(few-shot in-context learning)。在這方面他們和我們有異曲同工之妙。當(dāng)時(shí)我們?cè)谧鲞吘墏?cè) AI 的時(shí)候,也是同樣的做法。我們?cè)?019年就已經(jīng)在關(guān)注 Open AI 這家企業(yè),關(guān)注它所研發(fā)的大模型技術(shù),一方面是我們自己在做小模型,另一方面也是在積累做大模型的經(jīng)驗(yàn)。

等到 OpenAI 真正起飛的時(shí)候,我們也很快速地跟進(jìn)了。在這次大模型里程碑式的浪潮中,每個(gè)企業(yè)各自擁抱大模型的姿勢(shì)都都會(huì)基于各自的強(qiáng)項(xiàng)而不盡相同。如果每個(gè)企業(yè)擁抱的姿勢(shì)一樣,那就錯(cuò)了。一年多以前,我們就根據(jù)聯(lián)想集團(tuán)自身特點(diǎn)制定了目標(biāo)計(jì)劃。如果聯(lián)想集團(tuán)要做大模型的話,就要按照混合 AI 的大框架去做。

我們把大模型分為不同的類型,像是 Open AI 做的 ChatGPT ,就屬于公共大模型。公共大模型,對(duì)于知識(shí)類的東西非常擅長(zhǎng)。它在互聯(lián)網(wǎng)上看了很多天文地理、天南海北、古今中外的書,這是它的強(qiáng)項(xiàng)。

但除了公共大模型,還有私有大模型。這類大模型一般就是用在企業(yè)內(nèi)部,它通過(guò)企業(yè)內(nèi)部的數(shù)據(jù)進(jìn)行優(yōu)化訓(xùn)練。因?yàn)槠髽I(yè)內(nèi)部有很多關(guān)鍵、敏感的數(shù)據(jù)和信息,而且要在企業(yè)內(nèi)網(wǎng)跑,所以不可能使用公共大模型。

還有一類,就是跑在設(shè)備端的個(gè)人模型。個(gè)人模型可以很大程度上滿足個(gè)性化需求,比如滿足喜好的出行計(jì)劃,但是公共大模型就沒(méi)辦法做到這樣,它只能給出千篇一律的答案,完全不具有針對(duì)性。它完全不知道你最喜歡的航空公司是哪一家?喜歡上午飛還是下午飛?喜歡什么酒店?只有建立在個(gè)人信息數(shù)據(jù)基礎(chǔ)上的個(gè)人大模型才能夠?yàn)橛脩籼峁┧饺硕ㄖ啤?/p>

其實(shí)我們很早就看到有不同類型的大模型,我們把它稱作混合 AI。在我們的設(shè)想中,公共大模型跑在公有云上,私有大模型跑在企業(yè)內(nèi)網(wǎng),個(gè)人大模型跑在個(gè)人的設(shè)備側(cè)。

最近我看到公共大模型都開(kāi)始爭(zhēng)相降價(jià),甚至免費(fèi)使用。聯(lián)想集團(tuán)從以前就很清楚自己的定位,這些公共大模型就讓做公共大模型的廠商去做。我們主要聚焦兩類,一類是面向企業(yè)的私有大模型,一類是面向設(shè)備的個(gè)人大模型,這是我們的強(qiáng)項(xiàng)。

上述也只是我們制定大模型方案的第一部分,第二部分則是我近一年一直在強(qiáng)調(diào)的,重要的不是建大模型,而是用大模型,一定要有好的應(yīng)用場(chǎng)景才能讓商業(yè)模式真正落地?;ヂ?lián)網(wǎng)這么火不是因?yàn)榛ヂ?lián)網(wǎng)建好了這么火,而是因?yàn)榛ヂ?lián)網(wǎng)上的應(yīng)用很多,所以才紅火;移動(dòng)互聯(lián)網(wǎng)也一樣,AI 同理。

所以說(shuō),我們從 2017 年的 All in AI 到現(xiàn)在的AI for all,其中的發(fā)展歷程是:最早投入研究小模型,然后開(kāi)始關(guān)注大模型,積累有關(guān)大模型的關(guān)鍵技術(shù),在大模型起飛后結(jié)合聯(lián)想集團(tuán)本身企業(yè)側(cè)和端側(cè)的優(yōu)勢(shì)進(jìn)行大模型的場(chǎng)景化應(yīng)用,這就是三部曲。

AI科技評(píng)論:從投資層面來(lái)看,聯(lián)想創(chuàng)投也有人形機(jī)器人方面的布局,你們關(guān)心的是創(chuàng)業(yè)者的哪一個(gè)指標(biāo)?同時(shí),你們還看好哪些技術(shù)/產(chǎn)品趨勢(shì)?

芮勇:
過(guò)去這幾年聯(lián)想創(chuàng)投的回報(bào)都不錯(cuò),他們對(duì)某一個(gè)企業(yè)和創(chuàng)業(yè)者的核心指標(biāo)的考察非常清晰,比如會(huì)關(guān)注創(chuàng)業(yè)者或企業(yè)對(duì)于整個(gè)產(chǎn)業(yè)協(xié)作的把控力,從產(chǎn)品進(jìn)程和技術(shù)發(fā)展兩個(gè)維度進(jìn)行判斷,光會(huì)做產(chǎn)品或是光有技術(shù)都不行,創(chuàng)投在這兩方面的平衡做得非常好。

聯(lián)想創(chuàng)投在機(jī)器人領(lǐng)域已經(jīng)布局了 20 多家的公司,也涵蓋了很多方面,包括像核心部件、本體以及執(zhí)行器。這幾年聯(lián)想創(chuàng)投主要是在移動(dòng)和服務(wù)類型的機(jī)器人領(lǐng)域進(jìn)行了投入,在人形機(jī)器人方面也有所投入。

從趨勢(shì)來(lái)看,具身智能之后會(huì)發(fā)展出幾個(gè)比較重要的方向,同時(shí)也是很具有挑戰(zhàn)的領(lǐng)域,比如底層的通用算法和硬件平臺(tái),包括最底層這種模塊化電機(jī)、電機(jī)減速器和控制器;往上細(xì)數(shù),還有靈巧手、雙臂、輪式、足式等等。如果更細(xì)分的話,機(jī)器人的電子皮膚也是進(jìn)行精細(xì)操作的關(guān)鍵組成部分。所以,在大方向上,聯(lián)想創(chuàng)投關(guān)注人形還有服務(wù)型機(jī)器人,同時(shí)還對(duì)很多關(guān)鍵的通用軟件和硬件設(shè)備有所關(guān)注。

AI科技評(píng)論:您認(rèn)為什么樣的算法體系架構(gòu)能更好地支撐大模型和智能體技術(shù)的落地?

芮勇:我覺(jué)得滿足需求一定需要云邊端協(xié)同的體系架構(gòu)和算法平臺(tái)。如果用戶問(wèn)百科知識(shí)類的問(wèn)題,那么將問(wèn)題發(fā)送到 ChatGPT 這類的云側(cè)大模型最合適。如果用戶要執(zhí)行工作中的一個(gè)任務(wù),涉及企業(yè)數(shù)據(jù)和公司業(yè)務(wù),那么就需要運(yùn)行在企業(yè)邊緣服務(wù)器的私有大模型處理。如果用戶需要問(wèn)題涉及個(gè)人偏好和隱私信息,比如網(wǎng)頁(yè)瀏覽歷史、購(gòu)物記錄、私人文檔,那么需要使用設(shè)備本地的小模型。其實(shí)這就是剛才我提到的聯(lián)想集團(tuán)混合式 AI 框架的理念,我們也正是以這樣的方式構(gòu)建企業(yè)智能體和個(gè)人智能體。這樣整體 AI 工作負(fù)載增強(qiáng),用戶體驗(yàn)也好很多。


AI是工具不是威脅

AI科技評(píng)論:據(jù)了解,研究具身智能的從業(yè)者里有硬件出身的,比如機(jī)器人方向,也有 AI 背景的,您覺(jué)得這樣不同背景的兩撥人做事時(shí)各自有哪些側(cè)重點(diǎn)?

芮勇:把具身智能給做好,必須要有這兩批人。光有機(jī)器人背景的人對(duì) AI的了解可能不那么深刻,不懂 AI 就不懂大模型,不懂大模型就不懂離身智能,自然就很難做具身智能。光有 AI 背景也不夠,做AI的人基本上是搞軟件出身,他們不知道如何讓機(jī)器人去和環(huán)境進(jìn)行交互,如何利用傳感器抓回信息。所以研究具身智能需要這兩批人緊密的合作。

但是研究背景不一樣,側(cè)重點(diǎn)自然也不一樣。比如有機(jī)器人背景的人,他們會(huì)對(duì)傳感器非常了解。傳感器就像我們?nèi)说奈骞偃ジ兄囊曈X(jué)、聽(tīng)覺(jué)、觸覺(jué)等等,相當(dāng)于機(jī)器人的輸入。輸入之外還有輸出。具身智能有具體的物理形態(tài),在物理世界里它需要去探索世界,去運(yùn)動(dòng)、抓取東西,這就涉及到執(zhí)行器方面的知識(shí)。

而 AI 背景的人基本上是跟機(jī)器人的大腦有關(guān)系。他們就負(fù)責(zé)對(duì)上面提到的傳感器數(shù)據(jù)進(jìn)行分析,從這些數(shù)據(jù)中去學(xué)習(xí),為智能體進(jìn)行畫像,進(jìn)行復(fù)雜任務(wù)分解。比如通過(guò)這個(gè)傳感器能知道環(huán)境是什么樣的,是在屋子里面還是屋子外邊,周圍有沒(méi)有障礙物等等,分析清楚之后生成一個(gè)最優(yōu)的輸出指令。所輸出的指令再通過(guò)執(zhí)行器進(jìn)行自主定位、自我行走、落腳點(diǎn)的規(guī)劃、步態(tài)動(dòng)作等等步驟。這兩批人都非常重要,他們的側(cè)重點(diǎn)不一樣而已,但是一定要相互配合協(xié)作。

AI科技評(píng)論:您認(rèn)為,對(duì)于 AI 的研究來(lái)說(shuō),具身智能這個(gè)概念還能熱多久?它是否會(huì)成為未來(lái)主要的發(fā)展趨勢(shì)?

芮勇:
就像剛才談到的,從小模型到大模型,大模型再到智能體,智能體包括離身智能、具身智能,這一發(fā)展脈絡(luò)還是挺清晰的,所以我不覺(jué)得具身智能會(huì)是曇花一現(xiàn),現(xiàn)在具身智能確實(shí)是一個(gè)主流的研究方向。

過(guò)去機(jī)器人沒(méi)有做好,是因?yàn)樗拇竽X不夠發(fā)達(dá),所用的模型太小,每一個(gè)都只能干一點(diǎn)事?,F(xiàn)在大模型出現(xiàn)了以后,就會(huì)類似從猴子的大腦變成人類大腦。隨著大模型和智能體的能力越來(lái)越強(qiáng),具身智能也會(huì)變得越來(lái)越成為主流。

具身智能是生活和生產(chǎn)中一直以來(lái)的需求。最開(kāi)始,機(jī)械臂在固定產(chǎn)線做固定動(dòng)作,比如產(chǎn)品裝配、工件焊接,我們定義為機(jī)器人1.0時(shí)代。

后來(lái),人們對(duì)機(jī)器人發(fā)展的訴求就與運(yùn)動(dòng)相關(guān),希望機(jī)器人移動(dòng)起來(lái)去完成一個(gè)任務(wù),比如設(shè)備巡檢、酒店送餐。但這個(gè)任務(wù)有個(gè)前提條件,要知道環(huán)境的地圖,對(duì)環(huán)境中的物體有先驗(yàn)知識(shí),機(jī)器人才能在其中執(zhí)行任務(wù),我們定義為機(jī)器人2.0時(shí)代。

當(dāng)大模型和強(qiáng)化學(xué)習(xí)技術(shù)發(fā)展以后,我們可以讓機(jī)器人在未知環(huán)境中執(zhí)行之前沒(méi)有見(jiàn)過(guò)的任務(wù),比如應(yīng)急救援、野外探測(cè),我們定義為機(jī)器人3.0時(shí)代。從機(jī)器人1.0, 到機(jī)器人2.0, 再到3.0, 具身智能越來(lái)越聰明。而且隨著技術(shù)的進(jìn)步,具身智能的應(yīng)用范圍越來(lái)越廣泛,機(jī)器人會(huì)普及到越來(lái)越多的領(lǐng)域。

AI科技評(píng)論:在這次人工智能的浪潮中,有沒(méi)有哪些需要大家重視的問(wèn)題?

芮勇:
我比較關(guān)注人工智能發(fā)展帶來(lái)的安全問(wèn)題?,F(xiàn)在大模型可以生成非常逼真的語(yǔ)音和視頻,有些人就利用這點(diǎn)來(lái)行騙,所以我們一定要加強(qiáng)人工智能的安全監(jiān)管,這是一方面。

另一方面,我認(rèn)為在推動(dòng)智能化發(fā)展的進(jìn)程中,無(wú)論是具身智能還是離身智能,最終目的是為人類服務(wù)。如果發(fā)展到對(duì)人類產(chǎn)生威脅,或者它們的存在讓人類感到被敵視,我覺(jué)得就出現(xiàn)問(wèn)題了。

人工智能,無(wú)論如何都只是我們?nèi)祟惖囊粋€(gè)工具。如果因?yàn)楣ぞ叻炊讶颂蕴?,那么我們?yōu)槭裁匆プ鲞@個(gè)事情?我們希望人工智能、智能體或是具身智能,能把我們從一些繁瑣的、重復(fù)性的工作里解放出來(lái)。所以發(fā)展AI不是為了淘汰人類,而是為了解放人類,讓人類更好地享受生活,不能本末倒置,這樣我們現(xiàn)在做的這些工作才有意義。

此外,在具身智能方面,我還關(guān)注到物理世界里機(jī)器人對(duì)人類的安全風(fēng)險(xiǎn)問(wèn)題。我認(rèn)為需要為機(jī)器人建立一套行為規(guī)范和道德準(zhǔn)則,比如說(shuō)服從人類命令,永遠(yuǎn)不能傷害人類,盡可能保護(hù)自己的生存安全等等。

AI科技評(píng)論:歷史上每一種新興技術(shù)的出現(xiàn)都引起很大討論。像是 AlexNet 的出現(xiàn)帶動(dòng)了對(duì)深度學(xué)習(xí)的研究浪潮。您認(rèn)為在具身智能領(lǐng)域,“里程碑”式的新興技術(shù)就是什么?現(xiàn)在出現(xiàn)了嗎?對(duì)這一領(lǐng)域,您有哪些技術(shù)期待?

芮勇:我覺(jué)得利用多模態(tài)生成式大模型實(shí)現(xiàn)端到端的具身智能是一個(gè)“里程碑”式的新興技術(shù)。利用這個(gè)技術(shù),動(dòng)作(action)也被認(rèn)為是一種模態(tài),也可以轉(zhuǎn)換成tokens,和語(yǔ)言、圖像的tokens一起參與大模型的訓(xùn)練。

例如,去年Google發(fā)布的RT-2是個(gè)視覺(jué)語(yǔ)言動(dòng)作(Vision-Language-Action, VLA)大模型,它能夠根據(jù)用戶的自然語(yǔ)言指令和環(huán)境的圖像,直接操控機(jī)械臂完成任務(wù)。類似地,Tesla FSD之前的版本采用模塊化的設(shè)計(jì),包括感知、規(guī)劃、控制等部分,而最新版的V12采用多模態(tài)大模型實(shí)現(xiàn)端到端的自動(dòng)駕駛,從8個(gè)攝像頭觀察到的環(huán)境圖像直接生成加速、剎車、方向控制指令。

這種端到端系統(tǒng)更像是人類司機(jī),根據(jù)觀察到的路況直接控制車輛。從用戶反饋來(lái)看,Tesla FSD V12表現(xiàn)出近乎完美的駕駛水準(zhǔn)。同時(shí)整個(gè)系統(tǒng)重構(gòu),原來(lái)的30萬(wàn)行控制代碼可以減少兩個(gè)數(shù)量級(jí),極大地降低了工程開(kāi)發(fā)成本。

然而,大模型這種端到端的數(shù)據(jù)驅(qū)動(dòng)方法需要海量的訓(xùn)練數(shù)據(jù),包括真實(shí)場(chǎng)景采集數(shù)據(jù)和模擬場(chǎng)景合成數(shù)據(jù)。即便有了海量訓(xùn)練數(shù)據(jù),這種方法對(duì)未知場(chǎng)景和未知任務(wù)的泛化能力仍然不足。所以說(shuō),大模型是否學(xué)習(xí)到了完備的世界模型,或者說(shuō)是否接近人類的認(rèn)知,目前在業(yè)界爭(zhēng)議很大。

而且現(xiàn)在的大模型對(duì)物體空間關(guān)系和物理世界規(guī)律的理解還比較有限,就如我們看到 OpenAI Sora 生成的違背常識(shí)規(guī)律的視頻。所以,要想實(shí)現(xiàn)具身智能,還需要在空間理解和與三維世界互動(dòng)方面取得突破。是沿著規(guī)模定律(scaling law) 發(fā)展的端到端方式的大模型路線,還是需要大模型與控制論方法相結(jié)合,才能得到完美解決方案,我們拭目以待。

人也是一個(gè)具身智能,我們既是一個(gè)智能體,又有物理的形態(tài)。簡(jiǎn)而言之,我認(rèn)為,什么時(shí)候大模型驅(qū)動(dòng)的具身智能能夠達(dá)到人類的這種水平,我覺(jué)得真正劃時(shí)代的關(guān)鍵點(diǎn)就到了。

雷峰網(wǎng) 雷峰網(wǎng) 雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng)) 

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知

專訪聯(lián)想集團(tuán) CTO 芮勇:智能體是具身智能的基礎(chǔ)|具身智能十人談

分享:
相關(guān)文章
當(dāng)月熱門文章
最新文章
請(qǐng)?zhí)顚懮暾?qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說(shuō)