丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
機(jī)器人 正文
發(fā)私信給任平
發(fā)送

0

專訪優(yōu)必選龐建新:在大模型時(shí)代推動(dòng)機(jī)器人智能化|GAIR live

本文作者: 任平 2024-04-03 15:44
導(dǎo)語:未來幾年,AI+人形機(jī)器人領(lǐng)域?qū)⒚媾R哪些顛覆性的技術(shù)變革?

“大模型怎么融進(jìn)人形機(jī)器人里?”這是龐建新最近一直在琢磨的核心問題。

作為優(yōu)必選副總裁、研究院副院長(zhǎng),龐建新正領(lǐng)導(dǎo)團(tuán)隊(duì),將大模型技術(shù)應(yīng)用于人形機(jī)器人的多模態(tài)感知和決策規(guī)劃中,提升人形機(jī)器人智能化水平。

在從業(yè)的近三十年里,他的專業(yè)背景橫跨語音處理、計(jì)算機(jī)視覺,再到人形機(jī)器人技術(shù);從中科大的博士,到中國科學(xué)院深圳先進(jìn)技術(shù)研究院的PI,再到優(yōu)必選的技術(shù)高管,他的職業(yè)生涯,已然是中國智能科技崛起的一個(gè)縮影。

現(xiàn)如今,大模型的橫空出世,除了讓龐建新看到了一些可能性,更多是冷靜。

他坦陳,“因?yàn)樵诩夹g(shù)快速發(fā)展時(shí),整個(gè)技術(shù)路線和應(yīng)用場(chǎng)景還存在不確定性,但同時(shí)也正是國內(nèi)人形機(jī)器人企業(yè)快速發(fā)展的最佳時(shí)期?!?/p>

這是一種強(qiáng)烈的矛盾感。

在談及大模型技術(shù)對(duì)人形機(jī)器人智能化進(jìn)程的影響時(shí),龐建新提出了自己的見解。

他認(rèn)為,大模型技術(shù)的核心是其能夠融合大量知識(shí)和數(shù)據(jù),這對(duì)于人形機(jī)器人領(lǐng)域來說是一個(gè)巨大的機(jī)遇,但同時(shí)也帶來了新的挑戰(zhàn)。比如如何將大語言模型技術(shù)(可理解為“大腦”)與人形機(jī)器人的“小腦”(控制大模型)和“本體”結(jié)合,以及如何處理大語言模型可能產(chǎn)生的“幻覺”問題等等。

而要落到實(shí)際操作層面,龐建新表示,優(yōu)必選的策略是雙管齊下,既要一種分層結(jié)構(gòu)的解決方案,同時(shí)也不能放棄端到端的解決方案。

前者是將大模型分為處理知識(shí)、常識(shí)推理的“大腦”層,指導(dǎo)動(dòng)作規(guī)劃的“小腦”層,以及直接與控制相結(jié)合的動(dòng)作執(zhí)行層。這種分層解耦的方法,使得每一層都可以專注于其特定的任務(wù)和數(shù)據(jù)需求,提高了技術(shù)的應(yīng)用效率。

后者則是從感知直接到控制的全過程,這種方法導(dǎo)致數(shù)據(jù)獲取更為復(fù)雜,卻能夠提供更為直接的解決方案。

針對(duì)大模型與機(jī)器人智能化現(xiàn)狀,龐建新說了四個(gè)字:百花齊放。

“當(dāng)下人工智能和人形機(jī)器人技術(shù)的結(jié)合正處于一個(gè)開放性問題的時(shí)期。”這正是當(dāng)下人形機(jī)器人從業(yè)者的樂趣所在。而換句話說,這也意味著目前技術(shù)尚未開始收斂,仍需在一些小規(guī)模場(chǎng)景中進(jìn)行實(shí)驗(yàn)和測(cè)試。

今年2月,優(yōu)必選與新能源車廠的合作,正是他們?cè)诙嗄B(tài)感知決策技術(shù)應(yīng)用實(shí)訓(xùn)方面的一次嘗試。龐建新堅(jiān)信,大模型技術(shù)將是推動(dòng)未來技術(shù)進(jìn)步和產(chǎn)業(yè)化的關(guān)鍵。

近期在與雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng))-AI科技評(píng)論的對(duì)話中,龐建新分享他對(duì)于大模型技術(shù)推動(dòng)人形機(jī)器人智能化進(jìn)程的見解,以及國內(nèi)企業(yè)如何在技術(shù)快速發(fā)展的背景下把握機(jī)遇。

以下為對(duì)話(經(jīng)編輯):

4月8日(周一)20:00-22:00,雷峰網(wǎng)將舉辦主題為「大模型時(shí)代,機(jī)器人的技術(shù)革新與場(chǎng)景落地」的線上圓桌論壇,屆時(shí)龐博士將分享更多前沿觀察。

01 尋找最適合機(jī)器人的大模型

雷峰網(wǎng):首先請(qǐng)問龐博,您的團(tuán)隊(duì)目前在AI+人形機(jī)器人領(lǐng)域有哪些探索,有哪些不錯(cuò)的技術(shù)成果可以分享?

龐建新:我們確實(shí)有一些頗具前瞻性的課題項(xiàng)目,在近期進(jìn)展不錯(cuò)。

眾所周知,當(dāng)前人工智能已經(jīng)邁入了一個(gè)嶄新的時(shí)代,其中大模型、多模態(tài)技術(shù)以及具身智能等重要進(jìn)展,對(duì)于機(jī)器人領(lǐng)域產(chǎn)生了深遠(yuǎn)影響。這些變革性的技術(shù)正在推動(dòng)著許多傳統(tǒng)觀念的更新?lián)Q代。

我們的團(tuán)隊(duì)也致力于類似的研究工作,特別是在如何運(yùn)用大型模型和具身智能,來解決以往基于傳統(tǒng)DNN、CNN方法所無法克服的問題。

我們的研究重點(diǎn)之一是多模態(tài)感知問題。

傳統(tǒng)上,感知技術(shù)往往專注于單任務(wù),并且只在決策層面進(jìn)行信息融合。而現(xiàn)在,我們希望能夠?qū)⒍嗄B(tài)技術(shù)應(yīng)用到人形機(jī)器人技術(shù)中,將視覺感知、語音感知、上下文信息以及相關(guān)知識(shí)等統(tǒng)一作為輸入,以促進(jìn)人形機(jī)器人的決策過程。

此外,我們還關(guān)注于人形機(jī)器人的決策和任務(wù)規(guī)劃。

通過多模態(tài)感知信息的整合,我們期望引導(dǎo)人形機(jī)器人進(jìn)行更為高效的決策。傳統(tǒng)的決策過程往往較為復(fù)雜,依賴于狀態(tài)轉(zhuǎn)移和條件判斷。而我們現(xiàn)在正嘗試?yán)么笮湍P偷募夹g(shù),充分發(fā)揮大模型的邏輯和推理能力,以解決人形機(jī)器人在決策和推理方面的挑戰(zhàn)。

具體到人形機(jī)器人的能力方面,因?yàn)槿诵螜C(jī)器人通常需要具備幾大核心能力:人機(jī)交互、對(duì)話、移動(dòng)和操作能力。這些能力在傳統(tǒng)上對(duì)于人形機(jī)器人而言并不容易自主實(shí)現(xiàn),往往需要憑借大量的外部輸入和條件限制。而我們現(xiàn)在的研究,正是通過大型模型技術(shù)的應(yīng)用,充分利用大模型內(nèi)含的知識(shí)邏輯和推理能力,提升人形機(jī)器人的自主性和智能化水平,把機(jī)器人各種能力鏈接起來。

雷峰網(wǎng):大模型這項(xiàng)技術(shù)將如何影響人形機(jī)器人的智能化進(jìn)程?相應(yīng)地,大模型對(duì)人形機(jī)器人來說是否也帶來了新的挑戰(zhàn)?

龐建新:將大模型技術(shù)融入人形機(jī)器人領(lǐng)域,確實(shí)存在一些挑戰(zhàn)和問題,我們?cè)谧鰧?shí)際項(xiàng)目時(shí)就能感受到。

首先,大模型的核心是在于其能夠集成大量知識(shí),供人類使用。然而在人形機(jī)器人領(lǐng)域,許多場(chǎng)景與知識(shí)并無直接關(guān)聯(lián)。

許多行為,如人類的本能反應(yīng)或動(dòng)作智能,并不完全依賴于顯性的知識(shí)。比如說我們?cè)谧ト∥矬w或在不平坦地面行走時(shí),往往不需要經(jīng)過深思熟慮,身體能夠自動(dòng)適應(yīng)環(huán)境。

在人形機(jī)器人的設(shè)計(jì)中,我們可以將其分為“大腦”、“小腦”和“軀體”三部分。小腦部分與大模型中的知識(shí)學(xué)習(xí)并不直接相關(guān)。因此,在大模型技術(shù)落地時(shí),我們需要解決如何將大腦與小腦結(jié)合,以及如何通過小腦驅(qū)動(dòng)軀體的問題。

其次,大模型依賴數(shù)據(jù),當(dāng)任務(wù)與數(shù)據(jù)關(guān)系不大,或者數(shù)據(jù)難以采集和學(xué)習(xí)時(shí),這構(gòu)成了一個(gè)重大挑戰(zhàn)。大模型訓(xùn)練和推理的高算力要求也是一個(gè)問題,特別是當(dāng)應(yīng)用場(chǎng)景對(duì)實(shí)時(shí)性有高要求時(shí)。

第三個(gè)挑戰(zhàn)是大模型本身的特性,伴隨著“涌現(xiàn)”的同時(shí),這也可能導(dǎo)致“幻覺”問題。如何抑制這些幻覺,通過各種方式抑制或者控制大模型輸出錯(cuò)誤信息,是我們需要克服的難題。

此外,大模型的成功率或者有效率問題也至關(guān)重要。對(duì)于大多數(shù)用戶,往往需要多次嘗試輸入才能得到有效答案,如何盡可能降低使用者的專業(yè)水平,比如通過自動(dòng)生成相關(guān)提示語高效地獲得正確結(jié)果,也是當(dāng)前大模型需要解決的重要問題。

雷峰網(wǎng):大模型與人形機(jī)器人的結(jié)合正在發(fā)展期,是否分化為幾種不同流派?

龐建新:我個(gè)人認(rèn)為,可能有兩種流派。

一種流派采用分層結(jié)構(gòu),將大模型分為三個(gè)層次:

第一層與大腦相關(guān),主要處理知識(shí)、常識(shí)推理等;

第二層與動(dòng)作決策和任務(wù)規(guī)劃相關(guān),類似于小腦的功能,指導(dǎo)動(dòng)作的規(guī)劃;

第三層則直接與控制相結(jié)合,處理動(dòng)作的規(guī)劃與控制。

這種分層解耦的方法,使得每一層都可以專注于其特定的任務(wù)和數(shù)據(jù)需求。

在大腦層面,可以使用現(xiàn)有的大模型數(shù)據(jù),如與場(chǎng)景相關(guān)的知識(shí)和數(shù)據(jù)。

而在動(dòng)作規(guī)劃層面,由于大語言模型中缺乏這方面的內(nèi)容,我們需要在仿真環(huán)境或物理環(huán)境中采集新的數(shù)據(jù),以豐富這一層次的數(shù)據(jù)集。

至于控制層面,可能需要通過強(qiáng)化學(xué)習(xí)等技術(shù),在虛擬或物理環(huán)境中生成所需數(shù)據(jù)。

另一種流派則追求端到端的解決方案,即從感知直接到控制的全過程。

這種方法雖然數(shù)據(jù)更為復(fù)雜,但能夠提供更為直接的解決方案。然而,這種端到端的數(shù)據(jù)同樣難以獲取。

在實(shí)踐中,我們的選擇并不局限于單一流派。我們同時(shí)探索了解耦的分層方法和端到端的技術(shù),以技術(shù)儲(chǔ)備和實(shí)際應(yīng)用需求為導(dǎo)向。也就是說,由于人形機(jī)器人存在特殊的非剛體特性,我們目前更傾向于采用解耦的分層方法。同時(shí),我們也在進(jìn)行端到端技術(shù)的探索和研究,以適應(yīng)未來可能的需求和發(fā)展。

雷峰網(wǎng):最近我們對(duì)孫宇教授做了專訪。孫教授的研究重點(diǎn)在于將大型語言模型應(yīng)用于具體的機(jī)器人任務(wù)中,例如廚房烹飪場(chǎng)景。他的研究使得機(jī)器人能夠創(chuàng)造出知識(shí)庫中未包含的新菜單。此外,GPT-4通過精心設(shè)計(jì)的提示工程,能夠生成多個(gè)不同的高級(jí)任務(wù)規(guī)劃,并將其轉(zhuǎn)化為可執(zhí)行的低級(jí)PDDL計(jì)劃。請(qǐng)問,優(yōu)必選在這一領(lǐng)域的研究是否有相似之處,或者存在某些差異?

龐建新:孫教授的研究實(shí)際上涉及到了高層決策和任務(wù)規(guī)劃。

當(dāng)我們?nèi)祟悎?zhí)行一個(gè)任務(wù)時(shí),通常會(huì)將其分解為一系列子任務(wù),這個(gè)過程可能是下意識(shí)的,不一定由大腦直接完成,也可能是小腦參與其中,因?yàn)槿祟惖恼J(rèn)知過程相當(dāng)復(fù)雜。

例如,當(dāng)我們想要拿一瓶水時(shí),我們自然而然地知道水可能在冰箱里,于是我們會(huì)走向冰箱,打開門,通過視覺找到水,然后抓取并帶回。這個(gè)過程就是一個(gè)任務(wù)流。

所以抽象來看,人類執(zhí)行任務(wù)時(shí),將其拆解為各個(gè)子任務(wù)本身就是一種知識(shí)。這種知識(shí)可以通過推理或場(chǎng)景驅(qū)動(dòng)來實(shí)現(xiàn)。這表明,大模型在理解和生成任務(wù)規(guī)劃方面具有巨大的潛力,尤其是在與具體場(chǎng)景和知識(shí)庫相結(jié)合時(shí)。

當(dāng)前的AI技術(shù),正是通過大模型,包括GPT或其他模型,處理這種任務(wù)流,進(jìn)行決策,并將任務(wù)分解為子任務(wù),再由人形機(jī)器人執(zhí)行。

我們的一些研究工作與孫教授的研究類似,也是在特定場(chǎng)景中進(jìn)行。例如,我們?cè)?023年世界機(jī)器人大會(huì)上展示的“人形機(jī)器人多模態(tài)具身智能系統(tǒng)”,就涉及到更高層次的決策和任務(wù)拆解。

雷峰網(wǎng):我追問一個(gè)問題,大模型與人形機(jī)器人的結(jié)合,是否能夠幫助機(jī)器人向人類智能邁出關(guān)鍵一步?

龐建新:首先,我們需要認(rèn)識(shí)到,大模型的應(yīng)用不僅僅是關(guān)于知識(shí)的問題,它還涉及到上下文和環(huán)境的問題。

當(dāng)我們考慮將大模型應(yīng)用于人形機(jī)器人時(shí),目前還是會(huì)采用多個(gè)模型的集成應(yīng)用,我們通常會(huì)將其分為幾類:

基于語言的大模型、基于視覺的小模型、語音的小模型、多模態(tài)的大模型,以及通過強(qiáng)化學(xué)習(xí)等方式學(xué)習(xí)到的動(dòng)作規(guī)劃,以及控制策略的方面的大模型等等,它們?cè)趯W(xué)習(xí)方式和應(yīng)用上的差異是顯著的。

一般看來,人們通常將大模型與基于生成式的語言大模型聯(lián)系在一起。然而,在人形機(jī)器人的控制和規(guī)劃領(lǐng)域,它們有自己獨(dú)特的模型體系,這些模型與語言處理的并不是完全一樣。

但無論是哪一種大模型,它們能與人形機(jī)器人結(jié)合的原因在于,人形機(jī)器人需要在復(fù)雜多變的環(huán)境中進(jìn)行有效的交互和操作。那么,多模態(tài)大模型和基于知識(shí)的大模型,能夠?yàn)闄C(jī)器人提供豐富的上下文信息和環(huán)境理解能力,從而提高其適應(yīng)性和決策質(zhì)量。此外,通過強(qiáng)化學(xué)習(xí)等技術(shù)學(xué)到的動(dòng)作規(guī)劃策略,可以增強(qiáng)人形機(jī)器人的動(dòng)作協(xié)調(diào)性和任務(wù)執(zhí)行能力,通過將這些模型進(jìn)行融合,從而提升了人形機(jī)器人與物理世界的交互能力和智能化水平。

雷峰網(wǎng):那么您的團(tuán)隊(duì)在融合大模型技術(shù)時(shí),在分工上如何安排?

龐建新:優(yōu)必選在這方面采取了一種靈活而協(xié)同的工作方式。

由于大模型技術(shù)涉及的領(lǐng)域廣泛,公司在進(jìn)行相關(guān)項(xiàng)目時(shí)通常會(huì)組織多個(gè)團(tuán)隊(duì)聯(lián)合作業(yè)。這些團(tuán)隊(duì)可能包括視覺感知、控制和語言處理等領(lǐng)域的專家。這樣的跨領(lǐng)域合作模式已經(jīng)成為優(yōu)必選的標(biāo)準(zhǔn)做法。

而且與傳統(tǒng)的深度學(xué)習(xí)項(xiàng)目不同,大模型技術(shù)的應(yīng)用已經(jīng)超越了單一工種的界限,需要多個(gè)團(tuán)隊(duì)的緊密協(xié)作。

這種跨團(tuán)隊(duì)的合作模式并不是新的組織結(jié)構(gòu),而是大模型技術(shù)發(fā)展至今的必然結(jié)果。技術(shù)的多樣性和復(fù)雜性要求不同領(lǐng)域的專家共同參與,來實(shí)現(xiàn)項(xiàng)目的成功。

雷峰網(wǎng):當(dāng)前優(yōu)必選推動(dòng)技術(shù)成果產(chǎn)業(yè)化方面,有哪些計(jì)劃或正在進(jìn)行的項(xiàng)目?

龐建新:今年2月底,我的團(tuán)隊(duì)與新能源車廠合作開展了一項(xiàng)實(shí)訓(xùn)工作。這項(xiàng)工作涉及到了我們多模感知決策技術(shù)的一部分應(yīng)用。然而,我們也認(rèn)識(shí)到,盡管這是一個(gè)很好的開始,但要實(shí)現(xiàn)AI大模型與人機(jī)協(xié)作的深度融合,我們?nèi)孕韫タ艘恍┖诵募夹g(shù)難題。

人工智能技術(shù),特別是大模型的應(yīng)用,已經(jīng)與我們的研究和實(shí)際項(xiàng)目緊密結(jié)合。

近期,優(yōu)必選也跟百度達(dá)成了合作,將文心大模型接入人形機(jī)器人Walker S ,共同探索中國AI大模型+人形機(jī)器人的應(yīng)用。

伴隨著大模型技術(shù)的賦能,人形機(jī)器人的產(chǎn)業(yè)化進(jìn)程將加快,未來“降本增效”的人形機(jī)器人將在工業(yè)制造、商用服務(wù)和家庭陪伴等多個(gè)場(chǎng)景實(shí)現(xiàn)落地應(yīng)用,解決勞動(dòng)力短缺,提高生產(chǎn)效率,讓人類生活變得更加美好。我們堅(jiān)信,這項(xiàng)技術(shù)將是未來長(zhǎng)期發(fā)展的重要方向。我們將繼續(xù)致力于這一領(lǐng)域的研究和開發(fā),以推動(dòng)技術(shù)的進(jìn)步和產(chǎn)業(yè)化進(jìn)程。

02 優(yōu)必選技術(shù)高管的身份背后

雷峰網(wǎng):能介紹下您的研究背景嗎,是什么激發(fā)了您對(duì)AI與機(jī)器人技術(shù)結(jié)合的興趣?

龐建新:我本科是在中科大,這段時(shí)期專注于語音信號(hào)處理,而科大訊飛正是在我所在的語音實(shí)驗(yàn)室孵化出來的。后來我又在中科大完成了計(jì)算機(jī)視覺方向的博士學(xué)習(xí)。

2011年,我加入中國科學(xué)院深圳先進(jìn)技術(shù)研究院,一邊做科研,一邊做產(chǎn)業(yè)。因項(xiàng)目合作,參與到與騰訊公司的合作中,研發(fā)了名為“小Q”智能機(jī)器人的產(chǎn)品系列。也就是那時(shí)候我正式從AI研究轉(zhuǎn)向機(jī)器人研發(fā),將人工智能與機(jī)器人相結(jié)合。

當(dāng)我2015年加入優(yōu)必選時(shí),我專注于將人工智能技術(shù)與機(jī)器人融合,推動(dòng)機(jī)器人技術(shù)的研發(fā)和應(yīng)用落地。

所以總結(jié)來說,我的經(jīng)驗(yàn)涵蓋了語音處理、視覺識(shí)別到機(jī)器人技術(shù)等多個(gè)領(lǐng)域,這些都是當(dāng)前人工智能和機(jī)器人發(fā)展的關(guān)鍵領(lǐng)域。

雷峰網(wǎng):為什么看中了優(yōu)必選?加入已經(jīng)近十年時(shí)間了,這種專注來源于什么?

龐建新:我加入優(yōu)必選確實(shí)有一段奇妙的經(jīng)歷。

2014年,在前海深港青年夢(mèng)工廠開業(yè)典禮上的一次展覽,我和團(tuán)隊(duì)代表中國科學(xué)院深圳先進(jìn)技術(shù)研究院,展示了我們的產(chǎn)品,而優(yōu)必選的展位就在隔壁。

后來我了解到,優(yōu)必選在做國內(nèi)自主研發(fā)的人形機(jī)器人,也了解到了公司創(chuàng)始人周劍對(duì)于人形機(jī)器人的愿景和夢(mèng)想,發(fā)現(xiàn)這個(gè)與自己的夢(mèng)想高度契合,所以選擇加入了優(yōu)必選。

那時(shí)候,我住在寶安西鄉(xiāng),每天往返近100公里,到龍崗上班。因?yàn)槲壹尤牍颈容^早,參與了公司早期和中期的多個(gè)項(xiàng)目,將這些技術(shù)轉(zhuǎn)化為公司的眾多產(chǎn)品。這就是熱情所在。

實(shí)際上我從未真正離開過工業(yè)界。在我加入中科院之前,曾在一家外資企業(yè)從事計(jì)算機(jī)視覺算法的研發(fā)工作,后來這家企業(yè)在國內(nèi)科創(chuàng)板上市。我在中科院的工作中,一半的精力用于技術(shù)轉(zhuǎn)化,孵化了幾個(gè)有影響力的產(chǎn)品,另一半則致力于前沿科研。這些年來,我的工作始終圍繞著如何將最新技術(shù)轉(zhuǎn)化為實(shí)際產(chǎn)品。

雷峰網(wǎng):自2015年加入優(yōu)必選以來,你眼中的公司經(jīng)歷了哪幾個(gè)發(fā)展階段?

龐建新:優(yōu)必選從未局限于單一的技術(shù)研發(fā)或產(chǎn)品開發(fā)。公司始終堅(jiān)持技術(shù)和產(chǎn)品同步發(fā)展的戰(zhàn)略,這也是優(yōu)必選吸引我的地方。我認(rèn)為,只專注于技術(shù)可能會(huì)導(dǎo)致與實(shí)際應(yīng)用脫節(jié),而只關(guān)注產(chǎn)品則可能失去技術(shù)優(yōu)勢(shì)和市場(chǎng)競(jìng)爭(zhēng)力。

在2015年加入優(yōu)必選后,在 CTO 熊友軍博士的帶領(lǐng)下,我們共同推動(dòng)了研究院的成立,目的是將技術(shù)研發(fā)和產(chǎn)品開發(fā)緊密結(jié)合。

我們公司內(nèi)部要求,研究院除了支持產(chǎn)品進(jìn)行技術(shù)研發(fā),還要投入資源跟進(jìn)最新技術(shù),根據(jù)技術(shù)發(fā)展趨勢(shì)和未來場(chǎng)景中可能遇到的關(guān)鍵技術(shù)進(jìn)行研發(fā)。

從2016年開始,優(yōu)必選著手研發(fā)大型人形機(jī)器人,并以此平臺(tái)為基礎(chǔ),將技術(shù)成果轉(zhuǎn)化為各業(yè)務(wù)線的產(chǎn)品支持。公司始終堅(jiān)持兩條腿走路的策略,不偏重任何一方。

優(yōu)必選在技術(shù)投入上非常聚焦,始終思考機(jī)器人技術(shù)的未來發(fā)展趨勢(shì)和應(yīng)用場(chǎng)景。基于這些長(zhǎng)期趨勢(shì)和應(yīng)用場(chǎng)景的考量,公司有針對(duì)性地尋找和研發(fā)適合的技術(shù)。因此,優(yōu)必選很少會(huì)受到外部研究熱點(diǎn)的影響,而是堅(jiān)持沿著既定的技術(shù)發(fā)展路徑和應(yīng)用場(chǎng)景進(jìn)行研發(fā)。

雷峰網(wǎng):研究成果轉(zhuǎn)化為實(shí)際產(chǎn)品,您有哪些心得?

龐建新:科研人員往往專注于技術(shù)創(chuàng)新和獨(dú)特性,以解決科學(xué)問題為導(dǎo)向,追求學(xué)術(shù)上的突破和理論上的完備解或最優(yōu)解。

而在工業(yè)產(chǎn)品開發(fā)中,我們更多的是尋找和解決已經(jīng)存在的關(guān)鍵問題。目標(biāo)是找到與工業(yè)場(chǎng)景、成本、軟硬件匹配度以及研發(fā)周期最相匹配的解決方案。這意味著在工業(yè)界,我們需要更多地考慮產(chǎn)品的實(shí)際應(yīng)用和市場(chǎng)的需求。

此外,在面向產(chǎn)品或特定場(chǎng)景的工作中,還需要建立一套標(biāo)準(zhǔn)化的思路。這涉及到如何將場(chǎng)景中的各種元素?cái)?shù)字化、標(biāo)準(zhǔn)化或規(guī)范化,確保技術(shù)的長(zhǎng)期積累和持續(xù)改進(jìn)。

盡管科研和工業(yè)界的目標(biāo)和思路有所不同,但解決挑戰(zhàn)的方法和路徑在本質(zhì)上是類似的。

雷峰網(wǎng):以大模型這個(gè)熱點(diǎn)技術(shù)舉例,業(yè)界對(duì)其的廣泛關(guān)注始于2022年底,當(dāng)時(shí)ChatGPT的發(fā)布引發(fā)了眾多討論。在優(yōu)必選是什么時(shí)候討論大模型?

龐建新:我們對(duì)大模型技術(shù)的重視可以追溯到更早的時(shí)期。優(yōu)必選在2022年,甚至在2021年上半年,就已經(jīng)注意到了大模型技術(shù)的潛力。

最初,大模型技術(shù)主要應(yīng)用于視覺領(lǐng)域,許多國內(nèi)外的科研機(jī)構(gòu)和大型企業(yè)都在探索,如何利用視覺大模型進(jìn)行識(shí)別和檢測(cè)。

隨著時(shí)間的推移,當(dāng)語言大模型開始出現(xiàn)時(shí),優(yōu)必選內(nèi)部已經(jīng)開展了類似的項(xiàng)目,并在內(nèi)部開展了小規(guī)模的研究項(xiàng)目來深入探索這些技術(shù)。

到了2023年和2024年,優(yōu)必選迅速將這些技術(shù)應(yīng)用到了機(jī)器人領(lǐng)域。通過自身的研究,優(yōu)必選在技能上也進(jìn)行了一些創(chuàng)新應(yīng)用,將大模型技術(shù)融入到產(chǎn)品開發(fā)中,提升產(chǎn)品的性能和智能化水平。

這次,優(yōu)必選Walker S與百度文心大模型進(jìn)行深度融合,進(jìn)行任務(wù)調(diào)度應(yīng)用開發(fā),快速構(gòu)建了任務(wù)規(guī)劃與執(zhí)行能力,并完成柔軟物體操作和物體干擾分揀等任務(wù),也是這種技術(shù)應(yīng)用的一次體現(xiàn)。

03 機(jī)器人如何進(jìn)化?

雷峰網(wǎng):您認(rèn)為當(dāng)前市場(chǎng)對(duì)機(jī)器人的需求主要集中在哪?是否有特定的場(chǎng)景,為您的技術(shù)和產(chǎn)品研發(fā)提供了啟發(fā)?

龐建新:在大模型技術(shù)出現(xiàn)之后,整個(gè)行業(yè)對(duì)大模型及其在各種場(chǎng)景中的應(yīng)用提出了明確的需求。因?yàn)榇竽P图夹g(shù)正在重塑我們的生產(chǎn)方式,改變了生產(chǎn)力的構(gòu)成。

人們可能會(huì)思考,是否可以通過人形機(jī)器人結(jié)合大模型技術(shù),來解決工業(yè)制造中的問題?打造教育領(lǐng)域的潛在應(yīng)用?

傳統(tǒng)上,計(jì)算機(jī)教育可能側(cè)重于采用編程的教學(xué)方法,但隨著大模型技術(shù)的發(fā)展,我們現(xiàn)在可以探索低代碼甚至零代碼的方式來解決問題。這可能為教育帶來新的范式,使得更多人能夠通過使用這項(xiàng)技術(shù)來滿足他們的生產(chǎn)力需求。

除了工業(yè)制造和人工智能教育,優(yōu)必選也在探索大模型技術(shù)在人機(jī)對(duì)話、康養(yǎng)以及其他應(yīng)用場(chǎng)景中的潛力。

雷峰網(wǎng):國內(nèi)外對(duì)于機(jī)器人的較量到了什么階段?對(duì)于AI前沿技術(shù)的把控會(huì)最終是如何影響大機(jī)器人開發(fā)上?

龐建新:國內(nèi)外在機(jī)器人的研究思路上存在一些區(qū)別。中國企業(yè)的研究思路更加面向?qū)嶋H應(yīng)用場(chǎng)景,而海外企業(yè),如OpenAI等,在得到大量資金的支持下,能夠進(jìn)行更多開放式的科學(xué)研究。

中國學(xué)術(shù)界和產(chǎn)業(yè)界曾經(jīng)經(jīng)歷過一段跟隨階段,尤其是在大模型等技術(shù)領(lǐng)域跟隨歐美的研究趨勢(shì)。

但中國的跟隨步伐相對(duì)緊湊,尤其在面向產(chǎn)品應(yīng)用開發(fā)方面。盡管在某些領(lǐng)域,如芯片和GPU等與大模型密切相關(guān)的技術(shù),中國可能會(huì)面臨一些挑戰(zhàn),但我認(rèn)為這種跟隨是必須的。

因?yàn)樵诩夹g(shù)快速發(fā)展時(shí),整個(gè)技術(shù)路線和應(yīng)用場(chǎng)景還存在不確定性,當(dāng)前正是國內(nèi)機(jī)器人企業(yè)快速發(fā)展的最佳時(shí)期。

雷峰網(wǎng):國內(nèi)有哪些企業(yè)在機(jī)器人和大模型結(jié)合方面做得比較好?

龐建新:從全球范圍來看,大模型與具體行業(yè)的結(jié)合還處于非常早期階段。盡管大模型技術(shù)取得了很多進(jìn)步,但它在商業(yè)應(yīng)用方面的轉(zhuǎn)化還處于早期。

當(dāng)技術(shù)進(jìn)入平臺(tái)期,真正的應(yīng)用才會(huì)開始。也就是說,目前技術(shù)尚未開始收斂,當(dāng)技術(shù)開始收斂時(shí),才意味著它真正準(zhǔn)備好進(jìn)行大規(guī)模應(yīng)用。目前可能還處于小規(guī)模場(chǎng)景或特定場(chǎng)景的實(shí)驗(yàn)和測(cè)試階段。

此外,大模型技術(shù)發(fā)展迅速,但應(yīng)用仍面臨一些挑戰(zhàn),如算力和數(shù)據(jù)的高要求,以及效率、成本和幻覺等問題。

雷峰網(wǎng):在AI+機(jī)器人領(lǐng)域,未來幾年可能會(huì)出現(xiàn)哪些顛覆性的技術(shù)變革?除了大模型技術(shù)之外,還有哪些值得關(guān)注的發(fā)展趨勢(shì)?

龐建新:仿真技術(shù)可能是未來人形機(jī)器人領(lǐng)域一個(gè)潛在的顛覆性變化。由于人形機(jī)器人控制和操作相關(guān)的數(shù)據(jù)難以構(gòu)建,仿真技術(shù)的發(fā)展將對(duì)人形機(jī)器人領(lǐng)域產(chǎn)生重大影響。通過高效的仿真技術(shù),我們可以構(gòu)建大量用于人形機(jī)器人應(yīng)用的數(shù)據(jù)和虛擬場(chǎng)景,這對(duì)于人形機(jī)器人技術(shù)的進(jìn)步非常重要。

當(dāng)前階段,人工智能和人形機(jī)器人技術(shù)的結(jié)合正處于一個(gè)開放性問題的時(shí)期。

無論是在高層決策應(yīng)用、底層控制,還是場(chǎng)景構(gòu)建和仿真等方面,都呈現(xiàn)出多樣化的發(fā)展態(tài)勢(shì)。雖然已經(jīng)在特定場(chǎng)景中看到了一些成果,但這些成果是否足夠泛化,是否能夠在人形機(jī)器人上直接進(jìn)行使用,仍然是一個(gè)挑戰(zhàn)。

總之,AI增強(qiáng)人形機(jī)器人領(lǐng)域正處于一個(gè)充滿活力和創(chuàng)新的時(shí)期,未來幾年可能會(huì)出現(xiàn)多項(xiàng)顛覆性的技術(shù)變革。仿真技術(shù)、大模型以及其他AI技術(shù)的發(fā)展,將為人形機(jī)器人領(lǐng)域帶來新的機(jī)遇和挑戰(zhàn)。

在這個(gè)百花齊放的階段,我們需要持續(xù)關(guān)注技術(shù)的發(fā)展動(dòng)態(tài),并積極探索如何將這些技術(shù)應(yīng)用于實(shí)際場(chǎng)景中。

本文作者 吳彤,長(zhǎng)期關(guān)注AI4S,歡迎添加微信 (icedaguniang)互通有無。

|GAIR live 圓桌預(yù)告

4月8日(周一)晚間8點(diǎn)~10點(diǎn),雷峰網(wǎng)將舉辦一場(chǎng)主題為「大模型時(shí)代,機(jī)器人的技術(shù)革新與場(chǎng)景落地」的線上圓桌論壇。

本次論壇的嘉賓有:南佛羅里達(dá)大學(xué)孫宇教授、武漢大學(xué)李淼教授、逐際動(dòng)力張巍博士、優(yōu)必選科技龐建新博士。

“全球人工智能與機(jī)器人大會(huì)”(GAIR)始于2016年雷峰網(wǎng)與中國計(jì)算機(jī)學(xué)會(huì)(CCF)合作創(chuàng)立的CCF-GAIR大會(huì),旨在打造人工智能浪潮下,連接學(xué)術(shù)界、產(chǎn)業(yè)界、投資界的新平臺(tái),而雷峰網(wǎng)“連接三界”的全新定位也在此大會(huì)上得以確立。

經(jīng)過幾年發(fā)展,GAIR大會(huì)已成為行業(yè)標(biāo)桿,是目前為止粵港澳大灣區(qū)人工智能領(lǐng)域規(guī)模最大、規(guī)格最高、跨界最廣的學(xué)術(shù)、工業(yè)和投資領(lǐng)域盛會(huì)。

GAIR Live作為雷峰網(wǎng)旗下視頻直播品牌,旨在輸出新鮮、深度、原創(chuàng)的大咖訪談與對(duì)話內(nèi)容,打造輻射產(chǎn)、學(xué)、研、投的特色線上平臺(tái)。


|AI+機(jī)器人相關(guān)資料

1,Consolidating Trees of Robotic Plans Generated Using Large Language Models to Improve Reliabilityhttps://gairdao.com/doi/10.1142/S2972335324500029

2,《對(duì)話南佛羅里達(dá)大學(xué)孫宇教授:當(dāng)大語言模型用于機(jī)器人任務(wù)規(guī)劃丨IJAIRR》https://mp.weixin.qq.com/s/vrTMsssLQvmI11kX38Jvog


雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

分享:
相關(guān)文章
當(dāng)月熱門文章
最新文章
請(qǐng)?zhí)顚懮暾?qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說