專訪優(yōu)必選龐建新：在大模型時代推動機器人智能化｜GAIR live

本文作者：任平

2024-04-03 15:44

導語：未來幾年，AI+人形機器人領(lǐng)域?qū)⒚媾R哪些顛覆性的技術(shù)變革？

“大模型怎么融進人形機器人里？”這是龐建新最近一直在琢磨的核心問題。

作為優(yōu)必選副總裁、研究院副院長，龐建新正領(lǐng)導團隊，將大模型技術(shù)應用于人形機器人的多模態(tài)感知和決策規(guī)劃中，提升人形機器人智能化水平。

在從業(yè)的近三十年里，他的專業(yè)背景橫跨語音處理、計算機視覺，再到人形機器人技術(shù)；從中科大的博士，到中國科學院深圳先進技術(shù)研究院的PI，再到優(yōu)必選的技術(shù)高管，他的職業(yè)生涯，已然是中國智能科技崛起的一個縮影。

現(xiàn)如今，大模型的橫空出世，除了讓龐建新看到了一些可能性，更多是冷靜。

他坦陳，“因為在技術(shù)快速發(fā)展時，整個技術(shù)路線和應用場景還存在不確定性，但同時也正是國內(nèi)人形機器人企業(yè)快速發(fā)展的最佳時期?！?/p>

這是一種強烈的矛盾感。

在談及大模型技術(shù)對人形機器人智能化進程的影響時，龐建新提出了自己的見解。

他認為，大模型技術(shù)的核心是其能夠融合大量知識和數(shù)據(jù)，這對于人形機器人領(lǐng)域來說是一個巨大的機遇，但同時也帶來了新的挑戰(zhàn)。比如如何將大語言模型技術(shù)（可理解為“大腦”）與人形機器人的“小腦”（控制大模型）和“本體”結(jié)合，以及如何處理大語言模型可能產(chǎn)生的“幻覺”問題等等。

而要落到實際操作層面，龐建新表示，優(yōu)必選的策略是雙管齊下，既要一種分層結(jié)構(gòu)的解決方案，同時也不能放棄端到端的解決方案。

前者是將大模型分為處理知識、常識推理的“大腦”層，指導動作規(guī)劃的“小腦”層，以及直接與控制相結(jié)合的動作執(zhí)行層。這種分層解耦的方法，使得每一層都可以專注于其特定的任務和數(shù)據(jù)需求，提高了技術(shù)的應用效率。

后者則是從感知直接到控制的全過程，這種方法導致數(shù)據(jù)獲取更為復雜，卻能夠提供更為直接的解決方案。

針對大模型與機器人智能化現(xiàn)狀，龐建新說了四個字：百花齊放。

“當下人工智能和人形機器人技術(shù)的結(jié)合正處于一個開放性問題的時期?！边@正是當下人形機器人從業(yè)者的樂趣所在。而換句話說，這也意味著目前技術(shù)尚未開始收斂，仍需在一些小規(guī)模場景中進行實驗和測試。

今年2月，優(yōu)必選與新能源車廠的合作，正是他們在多模態(tài)感知決策技術(shù)應用實訓方面的一次嘗試。龐建新堅信，大模型技術(shù)將是推動未來技術(shù)進步和產(chǎn)業(yè)化的關(guān)鍵。

近期在與雷峰網(wǎng)-AI科技評論的對話中，龐建新分享他對于大模型技術(shù)推動人形機器人智能化進程的見解，以及國內(nèi)企業(yè)如何在技術(shù)快速發(fā)展的背景下把握機遇。

以下為對話（經(jīng)編輯）：

4月8日（周一）20:00-22:00，雷峰網(wǎng)將舉辦主題為「大模型時代，機器人的技術(shù)革新與場景落地」的線上圓桌論壇，屆時龐博士將分享更多前沿觀察。

01 尋找最適合機器人的大模型

雷峰網(wǎng)：首先請問龐博，您的團隊目前在AI+人形機器人領(lǐng)域有哪些探索，有哪些不錯的技術(shù)成果可以分享？

龐建新：我們確實有一些頗具前瞻性的課題項目，在近期進展不錯。

眾所周知，當前人工智能已經(jīng)邁入了一個嶄新的時代，其中大模型、多模態(tài)技術(shù)以及具身智能等重要進展，對于機器人領(lǐng)域產(chǎn)生了深遠影響。這些變革性的技術(shù)正在推動著許多傳統(tǒng)觀念的更新?lián)Q代。

我們的團隊也致力于類似的研究工作，特別是在如何運用大型模型和具身智能，來解決以往基于傳統(tǒng)DNN、CNN方法所無法克服的問題。

我們的研究重點之一是多模態(tài)感知問題。

傳統(tǒng)上，感知技術(shù)往往專注于單任務，并且只在決策層面進行信息融合。而現(xiàn)在，我們希望能夠?qū)⒍嗄B(tài)技術(shù)應用到人形機器人技術(shù)中，將視覺感知、語音感知、上下文信息以及相關(guān)知識等統(tǒng)一作為輸入，以促進人形機器人的決策過程。

此外，我們還關(guān)注于人形機器人的決策和任務規(guī)劃。

通過多模態(tài)感知信息的整合，我們期望引導人形機器人進行更為高效的決策。傳統(tǒng)的決策過程往往較為復雜，依賴于狀態(tài)轉(zhuǎn)移和條件判斷。而我們現(xiàn)在正嘗試利用大型模型的技術(shù)，充分發(fā)揮大模型的邏輯和推理能力，以解決人形機器人在決策和推理方面的挑戰(zhàn)。

具體到人形機器人的能力方面，因為人形機器人通常需要具備幾大核心能力：人機交互、對話、移動和操作能力。這些能力在傳統(tǒng)上對于人形機器人而言并不容易自主實現(xiàn)，往往需要憑借大量的外部輸入和條件限制。而我們現(xiàn)在的研究，正是通過大型模型技術(shù)的應用，充分利用大模型內(nèi)含的知識邏輯和推理能力，提升人形機器人的自主性和智能化水平，把機器人各種能力鏈接起來。

雷峰網(wǎng)：大模型這項技術(shù)將如何影響人形機器人的智能化進程？相應地，大模型對人形機器人來說是否也帶來了新的挑戰(zhàn)？

龐建新：將大模型技術(shù)融入人形機器人領(lǐng)域，確實存在一些挑戰(zhàn)和問題，我們在做實際項目時就能感受到。

首先，大模型的核心是在于其能夠集成大量知識，供人類使用。然而在人形機器人領(lǐng)域，許多場景與知識并無直接關(guān)聯(lián)。

許多行為，如人類的本能反應或動作智能，并不完全依賴于顯性的知識。比如說我們在抓取物體或在不平坦地面行走時，往往不需要經(jīng)過深思熟慮，身體能夠自動適應環(huán)境。

在人形機器人的設(shè)計中，我們可以將其分為“大腦”、“小腦”和“軀體”三部分。小腦部分與大模型中的知識學習并不直接相關(guān)。因此，在大模型技術(shù)落地時，我們需要解決如何將大腦與小腦結(jié)合，以及如何通過小腦驅(qū)動軀體的問題。

其次，大模型依賴數(shù)據(jù)，當任務與數(shù)據(jù)關(guān)系不大，或者數(shù)據(jù)難以采集和學習時，這構(gòu)成了一個重大挑戰(zhàn)。大模型訓練和推理的高算力要求也是一個問題，特別是當應用場景對實時性有高要求時。

第三個挑戰(zhàn)是大模型本身的特性，伴隨著“涌現(xiàn)”的同時，這也可能導致“幻覺”問題。如何抑制這些幻覺，通過各種方式抑制或者控制大模型輸出錯誤信息，是我們需要克服的難題。

此外，大模型的成功率或者有效率問題也至關(guān)重要。對于大多數(shù)用戶，往往需要多次嘗試輸入才能得到有效答案，如何盡可能降低使用者的專業(yè)水平，比如通過自動生成相關(guān)提示語高效地獲得正確結(jié)果，也是當前大模型需要解決的重要問題。

雷峰網(wǎng)：大模型與人形機器人的結(jié)合正在發(fā)展期，是否分化為幾種不同流派？

龐建新：我個人認為，可能有兩種流派。

一種流派采用分層結(jié)構(gòu)，將大模型分為三個層次：

第一層與大腦相關(guān)，主要處理知識、常識推理等；

第二層與動作決策和任務規(guī)劃相關(guān)，類似于小腦的功能，指導動作的規(guī)劃；

第三層則直接與控制相結(jié)合，處理動作的規(guī)劃與控制。

這種分層解耦的方法，使得每一層都可以專注于其特定的任務和數(shù)據(jù)需求。

在大腦層面，可以使用現(xiàn)有的大模型數(shù)據(jù)，如與場景相關(guān)的知識和數(shù)據(jù)。

而在動作規(guī)劃層面，由于大語言模型中缺乏這方面的內(nèi)容，我們需要在仿真環(huán)境或物理環(huán)境中采集新的數(shù)據(jù)，以豐富這一層次的數(shù)據(jù)集。

至于控制層面，可能需要通過強化學習等技術(shù)，在虛擬或物理環(huán)境中生成所需數(shù)據(jù)。

另一種流派則追求端到端的解決方案，即從感知直接到控制的全過程。

這種方法雖然數(shù)據(jù)更為復雜，但能夠提供更為直接的解決方案。然而，這種端到端的數(shù)據(jù)同樣難以獲取。

在實踐中，我們的選擇并不局限于單一流派。我們同時探索了解耦的分層方法和端到端的技術(shù)，以技術(shù)儲備和實際應用需求為導向。也就是說，由于人形機器人存在特殊的非剛體特性，我們目前更傾向于采用解耦的分層方法。同時，我們也在進行端到端技術(shù)的探索和研究，以適應未來可能的需求和發(fā)展。

雷峰網(wǎng)(公眾號：雷峰網(wǎng))：最近我們對孫宇教授做了專訪。孫教授的研究重點在于將大型語言模型應用于具體的機器人任務中，例如廚房烹飪場景。他的研究使得機器人能夠創(chuàng)造出知識庫中未包含的新菜單。此外，GPT-4通過精心設(shè)計的提示工程，能夠生成多個不同的高級任務規(guī)劃，并將其轉(zhuǎn)化為可執(zhí)行的低級PDDL計劃。請問，優(yōu)必選在這一領(lǐng)域的研究是否有相似之處，或者存在某些差異？

龐建新：孫教授的研究實際上涉及到了高層決策和任務規(guī)劃。

當我們?nèi)祟悎?zhí)行一個任務時，通常會將其分解為一系列子任務，這個過程可能是下意識的，不一定由大腦直接完成，也可能是小腦參與其中，因為人類的認知過程相當復雜。

例如，當我們想要拿一瓶水時，我們自然而然地知道水可能在冰箱里，于是我們會走向冰箱，打開門，通過視覺找到水，然后抓取并帶回。這個過程就是一個任務流。

所以抽象來看，人類執(zhí)行任務時，將其拆解為各個子任務本身就是一種知識。這種知識可以通過推理或場景驅(qū)動來實現(xiàn)。這表明，大模型在理解和生成任務規(guī)劃方面具有巨大的潛力，尤其是在與具體場景和知識庫相結(jié)合時。

當前的AI技術(shù)，正是通過大模型，包括GPT或其他模型，處理這種任務流，進行決策，并將任務分解為子任務，再由人形機器人執(zhí)行。

我們的一些研究工作與孫教授的研究類似，也是在特定場景中進行。例如，我們在2023年世界機器人大會上展示的“人形機器人多模態(tài)具身智能系統(tǒng)”，就涉及到更高層次的決策和任務拆解。

雷峰網(wǎng)：我追問一個問題，大模型與人形機器人的結(jié)合，是否能夠幫助機器人向人類智能邁出關(guān)鍵一步？

龐建新：首先，我們需要認識到，大模型的應用不僅僅是關(guān)于知識的問題，它還涉及到上下文和環(huán)境的問題。

當我們考慮將大模型應用于人形機器人時，目前還是會采用多個模型的集成應用，我們通常會將其分為幾類：

基于語言的大模型、基于視覺的小模型、語音的小模型、多模態(tài)的大模型，以及通過強化學習等方式學習到的動作規(guī)劃，以及控制策略的方面的大模型等等，它們在學習方式和應用上的差異是顯著的。

一般看來，人們通常將大模型與基于生成式的語言大模型聯(lián)系在一起。然而，在人形機器人的控制和規(guī)劃領(lǐng)域，它們有自己獨特的模型體系，這些模型與語言處理的并不是完全一樣。

但無論是哪一種大模型，它們能與人形機器人結(jié)合的原因在于，人形機器人需要在復雜多變的環(huán)境中進行有效的交互和操作。那么，多模態(tài)大模型和基于知識的大模型，能夠為機器人提供豐富的上下文信息和環(huán)境理解能力，從而提高其適應性和決策質(zhì)量。此外，通過強化學習等技術(shù)學到的動作規(guī)劃策略，可以增強人形機器人的動作協(xié)調(diào)性和任務執(zhí)行能力，通過將這些模型進行融合，從而提升了人形機器人與物理世界的交互能力和智能化水平。

雷峰網(wǎng)：那么您的團隊在融合大模型技術(shù)時，在分工上如何安排？

龐建新：優(yōu)必選在這方面采取了一種靈活而協(xié)同的工作方式。

由于大模型技術(shù)涉及的領(lǐng)域廣泛，公司在進行相關(guān)項目時通常會組織多個團隊聯(lián)合作業(yè)。這些團隊可能包括視覺感知、控制和語言處理等領(lǐng)域的專家。這樣的跨領(lǐng)域合作模式已經(jīng)成為優(yōu)必選的標準做法。

而且與傳統(tǒng)的深度學習項目不同，大模型技術(shù)的應用已經(jīng)超越了單一工種的界限，需要多個團隊的緊密協(xié)作。

這種跨團隊的合作模式并不是新的組織結(jié)構(gòu)，而是大模型技術(shù)發(fā)展至今的必然結(jié)果。技術(shù)的多樣性和復雜性要求不同領(lǐng)域的專家共同參與，來實現(xiàn)項目的成功。

雷峰網(wǎng)：當前優(yōu)必選推動技術(shù)成果產(chǎn)業(yè)化方面，有哪些計劃或正在進行的項目？

龐建新：今年2月底，我的團隊與新能源車廠合作開展了一項實訓工作。這項工作涉及到了我們多模感知決策技術(shù)的一部分應用。然而，我們也認識到，盡管這是一個很好的開始，但要實現(xiàn)AI大模型與人機協(xié)作的深度融合，我們?nèi)孕韫タ艘恍┖诵募夹g(shù)難題。

人工智能技術(shù)，特別是大模型的應用，已經(jīng)與我們的研究和實際項目緊密結(jié)合。

近期，優(yōu)必選也跟百度達成了合作，將文心大模型接入人形機器人Walker S ，共同探索中國AI大模型+人形機器人的應用。

伴隨著大模型技術(shù)的賦能，人形機器人的產(chǎn)業(yè)化進程將加快，未來“降本增效”的人形機器人將在工業(yè)制造、商用服務和家庭陪伴等多個場景實現(xiàn)落地應用，解決勞動力短缺，提高生產(chǎn)效率，讓人類生活變得更加美好。我們堅信，這項技術(shù)將是未來長期發(fā)展的重要方向。我們將繼續(xù)致力于這一領(lǐng)域的研究和開發(fā)，以推動技術(shù)的進步和產(chǎn)業(yè)化進程。

02 優(yōu)必選技術(shù)高管的身份背后

雷峰網(wǎng)：能介紹下您的研究背景嗎，是什么激發(fā)了您對AI與機器人技術(shù)結(jié)合的興趣？

龐建新：我本科是在中科大，這段時期專注于語音信號處理，而科大訊飛正是在我所在的語音實驗室孵化出來的。后來我又在中科大完成了計算機視覺方向的博士學習。

2011年，我加入中國科學院深圳先進技術(shù)研究院，一邊做科研，一邊做產(chǎn)業(yè)。因項目合作，參與到與騰訊公司的合作中，研發(fā)了名為“小Q”智能機器人的產(chǎn)品系列。也就是那時候我正式從AI研究轉(zhuǎn)向機器人研發(fā)，將人工智能與機器人相結(jié)合。

當我2015年加入優(yōu)必選時，我專注于將人工智能技術(shù)與機器人融合，推動機器人技術(shù)的研發(fā)和應用落地。

所以總結(jié)來說，我的經(jīng)驗涵蓋了語音處理、視覺識別到機器人技術(shù)等多個領(lǐng)域，這些都是當前人工智能和機器人發(fā)展的關(guān)鍵領(lǐng)域。

雷峰網(wǎng)：為什么看中了優(yōu)必選？加入已經(jīng)近十年時間了，這種專注來源于什么？

龐建新：我加入優(yōu)必選確實有一段奇妙的經(jīng)歷。

2014年，在前海深港青年夢工廠開業(yè)典禮上的一次展覽，我和團隊代表中國科學院深圳先進技術(shù)研究院，展示了我們的產(chǎn)品，而優(yōu)必選的展位就在隔壁。

后來我了解到，優(yōu)必選在做國內(nèi)自主研發(fā)的人形機器人，也了解到了公司創(chuàng)始人周劍對于人形機器人的愿景和夢想，發(fā)現(xiàn)這個與自己的夢想高度契合，所以選擇加入了優(yōu)必選。

那時候，我住在寶安西鄉(xiāng)，每天往返近100公里，到龍崗上班。因為我加入公司比較早，參與了公司早期和中期的多個項目，將這些技術(shù)轉(zhuǎn)化為公司的眾多產(chǎn)品。這就是熱情所在。

實際上我從未真正離開過工業(yè)界。在我加入中科院之前，曾在一家外資企業(yè)從事計算機視覺算法的研發(fā)工作，后來這家企業(yè)在國內(nèi)科創(chuàng)板上市。我在中科院的工作中，一半的精力用于技術(shù)轉(zhuǎn)化，孵化了幾個有影響力的產(chǎn)品，另一半則致力于前沿科研。這些年來，我的工作始終圍繞著如何將最新技術(shù)轉(zhuǎn)化為實際產(chǎn)品。

雷峰網(wǎng)：自2015年加入優(yōu)必選以來，你眼中的公司經(jīng)歷了哪幾個發(fā)展階段？

龐建新：優(yōu)必選從未局限于單一的技術(shù)研發(fā)或產(chǎn)品開發(fā)。公司始終堅持技術(shù)和產(chǎn)品同步發(fā)展的戰(zhàn)略，這也是優(yōu)必選吸引我的地方。我認為，只專注于技術(shù)可能會導致與實際應用脫節(jié)，而只關(guān)注產(chǎn)品則可能失去技術(shù)優(yōu)勢和市場競爭力。

在2015年加入優(yōu)必選后，在 CTO 熊友軍博士的帶領(lǐng)下，我們共同推動了研究院的成立，目的是將技術(shù)研發(fā)和產(chǎn)品開發(fā)緊密結(jié)合。

我們公司內(nèi)部要求，研究院除了支持產(chǎn)品進行技術(shù)研發(fā)，還要投入資源跟進最新技術(shù)，根據(jù)技術(shù)發(fā)展趨勢和未來場景中可能遇到的關(guān)鍵技術(shù)進行研發(fā)。

從2016年開始，優(yōu)必選著手研發(fā)大型人形機器人，并以此平臺為基礎(chǔ)，將技術(shù)成果轉(zhuǎn)化為各業(yè)務線的產(chǎn)品支持。公司始終堅持兩條腿走路的策略，不偏重任何一方。

優(yōu)必選在技術(shù)投入上非常聚焦，始終思考機器人技術(shù)的未來發(fā)展趨勢和應用場景。基于這些長期趨勢和應用場景的考量，公司有針對性地尋找和研發(fā)適合的技術(shù)。因此，優(yōu)必選很少會受到外部研究熱點的影響，而是堅持沿著既定的技術(shù)發(fā)展路徑和應用場景進行研發(fā)。

雷峰網(wǎng)：研究成果轉(zhuǎn)化為實際產(chǎn)品，您有哪些心得？

龐建新：科研人員往往專注于技術(shù)創(chuàng)新和獨特性，以解決科學問題為導向，追求學術(shù)上的突破和理論上的完備解或最優(yōu)解。

而在工業(yè)產(chǎn)品開發(fā)中，我們更多的是尋找和解決已經(jīng)存在的關(guān)鍵問題。目標是找到與工業(yè)場景、成本、軟硬件匹配度以及研發(fā)周期最相匹配的解決方案。這意味著在工業(yè)界，我們需要更多地考慮產(chǎn)品的實際應用和市場的需求。

此外，在面向產(chǎn)品或特定場景的工作中，還需要建立一套標準化的思路。這涉及到如何將場景中的各種元素數(shù)字化、標準化或規(guī)范化，確保技術(shù)的長期積累和持續(xù)改進。

盡管科研和工業(yè)界的目標和思路有所不同，但解決挑戰(zhàn)的方法和路徑在本質(zhì)上是類似的。

雷峰網(wǎng)：以大模型這個熱點技術(shù)舉例，業(yè)界對其的廣泛關(guān)注始于2022年底，當時ChatGPT的發(fā)布引發(fā)了眾多討論。在優(yōu)必選是什么時候討論大模型？

龐建新：我們對大模型技術(shù)的重視可以追溯到更早的時期。優(yōu)必選在2022年，甚至在2021年上半年，就已經(jīng)注意到了大模型技術(shù)的潛力。

最初，大模型技術(shù)主要應用于視覺領(lǐng)域，許多國內(nèi)外的科研機構(gòu)和大型企業(yè)都在探索，如何利用視覺大模型進行識別和檢測。

隨著時間的推移，當語言大模型開始出現(xiàn)時，優(yōu)必選內(nèi)部已經(jīng)開展了類似的項目，并在內(nèi)部開展了小規(guī)模的研究項目來深入探索這些技術(shù)。

到了2023年和2024年，優(yōu)必選迅速將這些技術(shù)應用到了機器人領(lǐng)域。通過自身的研究，優(yōu)必選在技能上也進行了一些創(chuàng)新應用，將大模型技術(shù)融入到產(chǎn)品開發(fā)中，提升產(chǎn)品的性能和智能化水平。

這次，優(yōu)必選Walker S與百度文心大模型進行深度融合，進行任務調(diào)度應用開發(fā)，快速構(gòu)建了任務規(guī)劃與執(zhí)行能力，并完成柔軟物體操作和物體干擾分揀等任務，也是這種技術(shù)應用的一次體現(xiàn)。

03 機器人如何進化？

雷峰網(wǎng)：您認為當前市場對機器人的需求主要集中在哪？是否有特定的場景，為您的技術(shù)和產(chǎn)品研發(fā)提供了啟發(fā)？

龐建新：在大模型技術(shù)出現(xiàn)之后，整個行業(yè)對大模型及其在各種場景中的應用提出了明確的需求。因為大模型技術(shù)正在重塑我們的生產(chǎn)方式，改變了生產(chǎn)力的構(gòu)成。

人們可能會思考，是否可以通過人形機器人結(jié)合大模型技術(shù)，來解決工業(yè)制造中的問題？打造教育領(lǐng)域的潛在應用？

傳統(tǒng)上，計算機教育可能側(cè)重于采用編程的教學方法，但隨著大模型技術(shù)的發(fā)展，我們現(xiàn)在可以探索低代碼甚至零代碼的方式來解決問題。這可能為教育帶來新的范式，使得更多人能夠通過使用這項技術(shù)來滿足他們的生產(chǎn)力需求。

除了工業(yè)制造和人工智能教育，優(yōu)必選也在探索大模型技術(shù)在人機對話、康養(yǎng)以及其他應用場景中的潛力。

雷峰網(wǎng)：國內(nèi)外對于機器人的較量到了什么階段？對于AI前沿技術(shù)的把控會最終是如何影響大機器人開發(fā)上？

龐建新：國內(nèi)外在機器人的研究思路上存在一些區(qū)別。中國企業(yè)的研究思路更加面向?qū)嶋H應用場景，而海外企業(yè)，如OpenAI等，在得到大量資金的支持下，能夠進行更多開放式的科學研究。

中國學術(shù)界和產(chǎn)業(yè)界曾經(jīng)經(jīng)歷過一段跟隨階段，尤其是在大模型等技術(shù)領(lǐng)域跟隨歐美的研究趨勢。

但中國的跟隨步伐相對緊湊，尤其在面向產(chǎn)品應用開發(fā)方面。盡管在某些領(lǐng)域，如芯片和GPU等與大模型密切相關(guān)的技術(shù)，中國可能會面臨一些挑戰(zhàn)，但我認為這種跟隨是必須的。

因為在技術(shù)快速發(fā)展時，整個技術(shù)路線和應用場景還存在不確定性，當前正是國內(nèi)機器人企業(yè)快速發(fā)展的最佳時期。

雷峰網(wǎng)：國內(nèi)有哪些企業(yè)在機器人和大模型結(jié)合方面做得比較好？

龐建新：從全球范圍來看，大模型與具體行業(yè)的結(jié)合還處于非常早期階段。盡管大模型技術(shù)取得了很多進步，但它在商業(yè)應用方面的轉(zhuǎn)化還處于早期。

當技術(shù)進入平臺期，真正的應用才會開始。也就是說，目前技術(shù)尚未開始收斂，當技術(shù)開始收斂時，才意味著它真正準備好進行大規(guī)模應用。目前可能還處于小規(guī)模場景或特定場景的實驗和測試階段。

此外，大模型技術(shù)發(fā)展迅速，但應用仍面臨一些挑戰(zhàn)，如算力和數(shù)據(jù)的高要求，以及效率、成本和幻覺等問題。

雷峰網(wǎng)：在AI+機器人領(lǐng)域，未來幾年可能會出現(xiàn)哪些顛覆性的技術(shù)變革？除了大模型技術(shù)之外，還有哪些值得關(guān)注的發(fā)展趨勢？

龐建新：仿真技術(shù)可能是未來人形機器人領(lǐng)域一個潛在的顛覆性變化。由于人形機器人控制和操作相關(guān)的數(shù)據(jù)難以構(gòu)建，仿真技術(shù)的發(fā)展將對人形機器人領(lǐng)域產(chǎn)生重大影響。通過高效的仿真技術(shù)，我們可以構(gòu)建大量用于人形機器人應用的數(shù)據(jù)和虛擬場景，這對于人形機器人技術(shù)的進步非常重要。

當前階段，人工智能和人形機器人技術(shù)的結(jié)合正處于一個開放性問題的時期。

無論是在高層決策應用、底層控制，還是場景構(gòu)建和仿真等方面，都呈現(xiàn)出多樣化的發(fā)展態(tài)勢。雖然已經(jīng)在特定場景中看到了一些成果，但這些成果是否足夠泛化，是否能夠在人形機器人上直接進行使用，仍然是一個挑戰(zhàn)。

總之，AI增強人形機器人領(lǐng)域正處于一個充滿活力和創(chuàng)新的時期，未來幾年可能會出現(xiàn)多項顛覆性的技術(shù)變革。仿真技術(shù)、大模型以及其他AI技術(shù)的發(fā)展，將為人形機器人領(lǐng)域帶來新的機遇和挑戰(zhàn)。

在這個百花齊放的階段，我們需要持續(xù)關(guān)注技術(shù)的發(fā)展動態(tài)，并積極探索如何將這些技術(shù)應用于實際場景中。

本文作者吳彤，長期關(guān)注AI4S，歡迎添加微信（icedaguniang）互通有無。

｜GAIR live 圓桌預告

4月8日（周一）晚間8點～10點，雷峰網(wǎng)將舉辦一場主題為「大模型時代，機器人的技術(shù)革新與場景落地」的線上圓桌論壇。

本次論壇的嘉賓有：南佛羅里達大學孫宇教授、武漢大學李淼教授、逐際動力張巍博士、優(yōu)必選科技龐建新博士。

“全球人工智能與機器人大會”（GAIR）始于2016年雷峰網(wǎng)與中國計算機學會（CCF）合作創(chuàng)立的CCF-GAIR大會，旨在打造人工智能浪潮下，連接學術(shù)界、產(chǎn)業(yè)界、投資界的新平臺，而雷峰網(wǎng)“連接三界”的全新定位也在此大會上得以確立。

經(jīng)過幾年發(fā)展，GAIR大會已成為行業(yè)標桿，是目前為止粵港澳大灣區(qū)人工智能領(lǐng)域規(guī)模最大、規(guī)格最高、跨界最廣的學術(shù)、工業(yè)和投資領(lǐng)域盛會。

GAIR Live作為雷峰網(wǎng)旗下視頻直播品牌，旨在輸出新鮮、深度、原創(chuàng)的大咖訪談與對話內(nèi)容，打造輻射產(chǎn)、學、研、投的特色線上平臺。

｜AI+機器人相關(guān)資料

1，Consolidating Trees of Robotic Plans Generated Using Large Language Models to Improve Reliabilityhttps://gairdao.com/doi/10.1142/S2972335324500029

2，《對話南佛羅里達大學孫宇教授：當大語言模型用于機器人任務規(guī)劃丨IJAIRR》https://mp.weixin.qq.com/s/vrTMsssLQvmI11kX38Jvog

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

0人收藏

相關(guān)文章