0
本文作者: 吳華秀 | 2025-06-17 11:19 |
在具身智能快速崛起的當下,靈巧手作為連接數(shù)字智能與物理世界的關鍵載體,正從傳統(tǒng)的執(zhí)行終端躍升為人工智能落地的核心突破口。
2025 年 5 月 25 日,雷峰網(wǎng)、AI 科技評論、GAIR Live 品牌舉辦了一場主題為“具身智能之靈巧手的探索與應用“線上圓桌沙龍。
圓桌主持人為元禾原點合伙人樂金鑫,同時圓桌還邀請了新加坡國立大學助理教授 & RoboScience創(chuàng)始人邵林、上海交通大學副教授 & 千覺機器人創(chuàng)始人馬道林、浙江大學控制科學與工程學院百人計劃研究員 & 博士生導師葉琦,共同開展一場深度交流。
會上,嘉賓們各自分享了與靈巧手的故事,并圍繞靈巧手軟硬件挑戰(zhàn)、數(shù)據(jù)與模型、落地與應用等多個方面發(fā)表獨特見解。其中,三位嘉賓圍繞如何靈巧手數(shù)據(jù)難題,分別給出了意見與想法。
馬道林指出,當前靈巧手、夾爪相關的采集數(shù)據(jù)及其訓練出的模型,仍處于整個具身智能領域的初期階段,而且數(shù)據(jù)模態(tài)更多是視覺和動作方面,還未涵蓋觸覺。接下來一方面要采集更多多模態(tài)數(shù)據(jù),另一方面是解決采集后不同模態(tài)數(shù)據(jù)的處理以及融合等問題。
邵林表示,數(shù)據(jù)難題早在 5 年、10 年,甚至 20 年前便存在,當下隨著更多資源的投入,有望將數(shù)據(jù)規(guī)模跑起來。不過,數(shù)據(jù)的多樣性分布難以改變,這需要一個海納百川的框架,能將不同數(shù)據(jù)囊括其中,從而達到數(shù)據(jù)飛輪的啟動階段。
葉琦認為,過往受限于不同形態(tài)的機器人本體,難以有統(tǒng)一數(shù)據(jù)集、Benchmark 及統(tǒng)一平臺來比較算法優(yōu)劣,而開源機器人本體和數(shù)據(jù)集有助于為學術界提供研究算法及進行算法迭代的可能性,打破以往研究數(shù)據(jù)不足的問題。如果單靠研究員自己采集數(shù)據(jù),始終只能在小規(guī)模數(shù)據(jù)集上進行驗證,很難知道在更大規(guī)模的場景里是否依然有效。
以下是此次圓桌的精彩分享,AI 科技評論進行了不改原意的編輯整理:
樂金鑫:我們討論的話題是具身智能之靈巧手的探索與應用,我是元禾原點合伙人樂金鑫,我們是一家在國內(nèi) AI 板塊活躍的早期投資機構,隸屬于蘇州元禾控股,專注早期投資。今天我們也邀請了三位嘉賓一同交流, 請各位老師先簡單自我介紹一下。
邵林:大家好,我是新加坡國立大學助理教授邵林,也是 RobotScience 創(chuàng)始人,我們主要關注具身操作、物體操作和具身系統(tǒng)的構建上。
馬道林:大家好,我是上海交通大學副教授馬道林,回國前曾在 MIT 做博士后,2021 年回國,去年我們創(chuàng)辦了千覺機器人,主要做觸覺感知,為夾爪和靈巧手提供多模態(tài)觸覺感知能力,讓大家能夠采到高質(zhì)量觸覺數(shù)據(jù)。
葉琦:大家好,我在浙江大學控制學院做機器人相關研究。與邵老師、馬老師不一樣的地方是,他們可能從博士到現(xiàn)在所做的方向都有比較大相似性,但我中間有過轉(zhuǎn)向。我讀博時,包括在微軟亞洲研究院所做的工作都是偏視覺方向,做人手動作感知。進入浙大后,一方面是延續(xù)做三維視覺、三維場景感知、三維重建;另一方面是在靈巧手的工作基礎上繼續(xù)往前開拓,包括手部動作的生成,目標是實現(xiàn)靈巧手與物理世界的泛化操作。
樂金鑫:今天的話題是靈巧手,請各位老師先談談自己對靈巧手的理解與認識,與靈巧手之間有哪些故事,是如何專注于靈巧手領域?
葉琦:我原本從事的方向并非機器人領域,而是人的靈巧手感知方向。進入浙大控制學院后,我開始思考向機器人方向結合。當時,計算機視覺已經(jīng)發(fā)展多年,在人臉識別、手勢跟蹤、智能眼鏡等領域應用逐漸成熟。我認為視覺雖仍有問題待解,但未來幾年的新突破點可能相對有限。
于是,我想結合控制學院在機器人方面的優(yōu)勢,將視覺向?qū)嶓w遷移,比如人手動作。當時很多人形機器人動作生成研究致力于讓生成的動作符合物理約束,那我就在想能不能在仿真環(huán)境中符合物理約束?更進一步能不能在實際環(huán)境中更符合物理約束?這成為我的轉(zhuǎn)折點——從計算機視覺轉(zhuǎn)向更注重物理約束和與物理世界接觸的方向,進而進入現(xiàn)在的行業(yè)。
我希望從讓靈巧手操作在物理層面實現(xiàn)更多泛化的角度出發(fā)。目前,仿真環(huán)境中動作生成大多表現(xiàn)還可以,但在物理世界中,即使是抓取動作也很難實現(xiàn)。因此,我認為靈巧手的關鍵在于在物理世界中受物理約束并與物理世界交互,這是它與大部分生成式 AI 的不同之處,也是最困難的地方。
樂金鑫:感謝葉老師的回答,您剛剛提到的“物理約束”能再展開談一談嗎?它更多是針對手部結構和能力本身,還是說真實物理世界?這兩者之間的互動關系是什么?
葉琦:我感覺兩者都有,比如先不考慮實際物理,先單純看仿真環(huán)境中的物理層面,這時候更看重手部精細結構,像我們現(xiàn)在做的任務,比如旋轉(zhuǎn)擰瓶蓋,完成動作本身肯定是沒問題的,也可以用 AI 生成手部視頻,但手部與物體接觸瞬間,你能不能接觸到,是第一點,這是大部分工作所面臨的問題。
比如 Machine Learning 的方法大多數(shù)是充當 Approximator(擬合器),如果你要大規(guī)模擬合數(shù)據(jù),就很難在局部保證精度,這就是擬合數(shù)據(jù)的誤差。擬合數(shù)據(jù)與真實接觸的問題,是現(xiàn)在大多數(shù)單純生成式的方法難以去解決的。
我個人覺得,所有通過生成式 AI 的方法,要在毫米級或更細微精度下同時兼顧動作多樣性和局部精度,單純在沒有物理約束技術下,是很難實現(xiàn)的。
第二點,比如一個細微的轉(zhuǎn)動,接觸時用多大的力,很難單純通過視覺外觀的數(shù)據(jù)獲取,而現(xiàn)在很多 AI 生成的數(shù)據(jù)都是從外觀獲取,缺乏物理交互中的力反饋信息,也難以通過單一場景自動推導力控參數(shù)。
此外,機器人本體構型差異會進一步影響數(shù)據(jù)遷移后的操作精度,當前單純依賴生成式 AI 的方法受限于數(shù)據(jù)來源和模型特性,難以解決上述物理約束問題。
樂金鑫:葉老師分享了關于物理約束相關問題,現(xiàn)在將問題拋給馬老師,請馬老師分享與靈巧手之間的故事,介紹相關研究。
馬道林:與其說我們選擇了靈巧手方向,不如說是我們一直以來堅持做機器人操作,而機器人操作的核心目標選擇了以靈巧手作為執(zhí)行器。我們,這里指的是包括我回國前后的團隊,始終圍繞靈巧手與夾爪等末端執(zhí)行器開展研究,核心方向是觸覺感知。
因為 2017 年參加亞馬遜機器人挑戰(zhàn)賽(日本站奪冠)時我們發(fā)現(xiàn),純靠視覺完成抓取放置(pick and place)的成功率很難突破 70%+。現(xiàn)在很多具身智能公司也在做抓取放置任務,大家現(xiàn)在能做到 90% 左右。
在當時,我們發(fā)現(xiàn)純靠視覺很難提升成功率。許多失敗案例源于執(zhí)行器缺乏與物體接觸瞬間及后續(xù)短時間內(nèi)的感知,視覺易受遮擋、視角等限制。因此我們意識到必須為末端執(zhí)行器賦予觸覺感知能力,讓靈巧手、夾爪能像人類一樣,在接觸物體時感知接觸力、紋理、溫度、滑動、運動等多模態(tài)觸覺信息。
近兩年人形機器人熱潮帶動靈巧手成為焦點,我們對此既感欣喜也保持冷靜。靈巧手是具身機器人系統(tǒng)中最復雜且關鍵的模組。如果從單臂加手部的執(zhí)行機構看,其自由度占整個系統(tǒng)的 80% 以上,動作自由度高、協(xié)同邏輯復雜、控制難度極大。正如剛才葉老師所言,高自由度的靈巧手在有限空間內(nèi)與物體進行物理交互時,僅從運動控制精度層面便面臨嚴峻挑戰(zhàn):如何在接觸瞬間使生成模型精準預判接觸狀態(tài),以及接觸后通過微小動作影響目標物體?
我一直覺得這一控制復雜度遠超 Locomotion ——盡管 Locomotion 對物理環(huán)境的感知具有不確定性,但它的核心是圍繞自身狀態(tài)進行確定性調(diào)控,例如質(zhì)心平衡、傾斜度等,有一個明確的目標;而靈巧手操作的控制目標高度依賴場景和操作對象。在此過程中,單純依靠視覺、動作感知或局部觸覺信息,難以完成任務,因為各類信息不僅模態(tài)不同,信息流特征也存在顯著差異,必須實現(xiàn)多源信息的有效融合。
視覺獲取的全局信息通常呈連貫狀態(tài),比如視頻中每兩幀或一段時間內(nèi)的數(shù)據(jù)流相對連續(xù);而觸覺在與物體真實接觸前幾乎無感知,接觸后才觸發(fā)局部信號——每個手指僅能感知所在區(qū)域的觸覺,且需在同一框架內(nèi)實現(xiàn)多手指信號的協(xié)同與互補。
二者在感知特性上差異顯著。視覺對物體位置的感知精度可達毫米級,而觸覺往往需要微米級、至少 0.0 幾毫米的精度。面對這類精度不同、模態(tài)各異、連續(xù)性狀態(tài)有別的多源信息,首先需解決高效采集問題,其次要將其有效整合到融合模型中,當前熱議的 VLA 模型未來可能進一步升級為包含觸覺的 VTLA 模型,以突破信息融合的技術瓶頸。
在靈巧手的多模態(tài)信息處理中,如何通過網(wǎng)絡架構實現(xiàn)信息編碼與協(xié)同、生成控制信號以及設定控制目標等問題,蘊含相當多的技術難點。當前 VLA 模型的進展很大程度依賴模仿學習(Imitation Learning),需采集大量數(shù)據(jù)支撐,但向強化學習進階時又面臨新挑戰(zhàn)。
總體而言,靈巧手不僅硬件復雜度高,需要攻克可靠性、耐用性、易用性等難題,其數(shù)據(jù)獲取與組織更是核心挑戰(zhàn)。
樂金鑫:馬老師,今天談到靈巧手,也會討論兩指、三指、五指,既有數(shù)據(jù)、模型等層面的訓練,也有構型上的選擇,從你們研究重點的邏輯順序來看,是否會有一個先后循序?哪一個可能更重要?
馬道林:我覺得都重要,這可能是分工的問題。
樂金鑫:接下來請邵老師分享一下你們與靈巧手的故事,分別做了哪些工作。
邵林:剛才葉老師和馬老師都分享了非常精彩的故事,我的故事也很久了。當時在斯坦福 AI lab 讀博,那時斯坦福有各種各樣的靈巧手設備,我開始思考如何讓靈巧手具備抓取任意物體的能力。值得注意的是,斯坦福當時不止一款靈巧手,是有多種不同構型的設備,這引發(fā)了我們最初的思考:是否存在統(tǒng)一的構型或框架,讓不同靈巧手完成對物體的抓取與操作?
我們的核心關注點是物體操作,靈巧手只是其中一個切入點。正如馬老師所說,靈巧手基本是機器人應用系統(tǒng)中最復雜的體系之一,它集成并代表了具身智能與物體操作領域的各類挑戰(zhàn)——從數(shù)據(jù)收集、感知到多模態(tài)融合等難點均蘊含其中。這也正是靈巧手兼具趣味性、巨大挑戰(zhàn)性與未來機遇的原因,也是我們持續(xù)圍繞這一方向展開各類研究的初衷。
樂金鑫:邵老師你們聚焦在操作上,當下有做了哪些具體工作嗎?你們是怎么看待靈巧手的?
邵林:我們希望抓取模型的軟件層能適配各類硬件層,這是我們關注的模式。由于硬件迭代速度遠快于軟件,如果軟件能適配硬件會是很好的選擇,這也是我們很早就開展相關工作的原因。
早在斯坦福時,我們就提出了較早期的數(shù)據(jù)驅(qū)動靈巧手工作 UniGrasp ,并測試了多種不同靈巧手。目前該方向研究持續(xù)推進,近期在 ICRA 會議上,我們的工作 D(R,O)Grasp 榮獲機器人操作和運動領域最佳論文獎,這是對我們的認可,我們也會繼續(xù)努力。
樂金鑫:邵老師,你們從軟件角度做了很多適配硬件的工作。剛才我問馬老師的最后一個問題也在探討,構型在不同任務場景中千差萬別,還沒最終確定,那在這種現(xiàn)狀下,軟件層面要做哪些工作?是做好中間層去適配所有可能出現(xiàn)的不同構型的靈巧手,還是掌握一套方法論,讓整個體系更高效有效地運行?
邵林:我們不光做算法,也參與硬件設計。之前和斯坦福的朋友Shenli Yuan做過 Rolller Grasper v2 和 v3 相關工作。Shenli當時把靈巧手的指尖從簡單接觸面換成小球這種構型,這是很有創(chuàng)意的想法。我們覺得這種構型對于手內(nèi)操作有獨特優(yōu)勢,所以我們在硬件、軟件方面都有思考與經(jīng)驗。
關于如何回答剛才提到的問題,實際要分兩部分來看。一部分是以物體為中心去描述如何抓取物體,本質(zhì)就是機器人手對物體不同區(qū)域施加操作,使物體狀態(tài)改變,這是從物體視角考慮的。從機器人本體視角考慮,則要關注各種構型,以及如何設計其運動空間與運動模式。
我們要做的是將兩者結合,因為本質(zhì)上是機器人的手通過與物體接觸來改變物體狀態(tài),所以我們考慮的是如何從交互角度去設計靈巧手的各類算法。
樂金鑫:把靈巧手概念泛化,從執(zhí)行末端角度看,這個領域有沒有亮眼、前沿的研究或解決方法?前段時間網(wǎng)上傳播的中科大相關研究,像章魚手之類的軟體方案。這是個比較開放的話題,老師們怎么看?
邵林:很開心看到靈巧手受到了社會各界越來越多的關注,對于我們研究這個領域的人來說,是一件令人高興的事。就像您剛才提到的柔性手,它有著自身獨特的優(yōu)勢,無論是抓取方式還是接觸穩(wěn)定性方面,都有可取之處。
靈巧手其實是個很復雜的系統(tǒng),需要硬件、軟件、電子等各方向的人共同努力。我覺得比較關鍵的一點是要有一個方便高效的交流平臺,這對促進整個行業(yè)、整個領域向前發(fā)展極為重要。像柔性夾爪、各類傳感器,還有感知以及生成各種各樣的位姿合成(pose synthesis)這些方面,不同背景的人對它們的理解都會有各自獨特的見解。那如何融會、綜合并收集不同領域人的認知?我覺得這是推動這個領域繼續(xù)發(fā)展的一個關鍵方向。
馬道林:在這個領域中我們特別關注到,不同生態(tài)位的公司和學術團隊都在做事,畢竟這是個很復雜的事,需要多領域協(xié)同合作。
在這兩年大家對靈巧手高度關注的形勢下,我們能看到其產(chǎn)生的牽引作用,上游的零部件企業(yè)開始為這個領域打下基礎,比如在驅(qū)動單元方面,無論是做靈巧手整體設計的,還是研究團隊自己要搭建相關硬件平臺的,都有了很好的選擇。以前大家可能只能用舵機或者別的電機來做驅(qū)動,而現(xiàn)在,在有效需求的牽引下,產(chǎn)業(yè)鏈上游能為大家提供很不錯的驅(qū)動設備了。
我們自身從傳感器角度出發(fā),也在努力為靈巧手的感知提供能獲取高質(zhì)量觸覺數(shù)據(jù)的硬件和算法。從整體來看,這是很有益的。而且有不少年輕團隊在做靈巧手相關的創(chuàng)業(yè)項目。
這個領域高度工程化,存在諸多工程化挑戰(zhàn)。我覺得學校團隊就別去攢靈巧手的硬件了,不妨等著產(chǎn)業(yè)界做出便宜又好用的硬件來使用。學校里的老師更應該從更深刻、更底層的前沿研究入手,前瞻性地去發(fā)現(xiàn)其中的科學問題以及有挑戰(zhàn)性的地方。
就像葉老師剛才講的,對于接觸、約束這些內(nèi)容,該如何有效地建模,又怎樣在擬合器、仿真器、生成器里進行處理?我覺得這得往產(chǎn)業(yè)界前沿去探尋。
我在 MIT 的時候,受益很深的一點是我導師 Alberto Rodriguez 說的話,他如今是波士頓動力 Manipulation 方向的負責人。當時他講,博士生或者學術領域的年輕人在選題時,要選未來 5 到 10 年有重要需求的方向,如果當下已經(jīng)有公司在做的事,從研究角度來說,就別涉足了。要看得更遠,要有前瞻性的判斷,看到 5 到 10 年之后所需的事,無論是在理論方面、算法層面,還是更高層級的控制模型層面。這本身就是學術研究的意義所在,要做基礎性、前瞻性的研究,也要敢于做有風險的研究。
葉琦:剛才馬老師說的話讓我挺有感觸的。就拿谷歌的 RT 系列來說,在它通過 VLA 采集數(shù)據(jù)之前,我們其實也考慮過用遙操的方式去采數(shù)據(jù),比如做一些演示數(shù)據(jù),我們課題組也有老師在做這方面工作。
我自己也嘗試過用遙操去抓取,可嘗試之后,我就感覺這不是我們課題組短期內(nèi)能做成的事。后來 RT 火了,很多創(chuàng)業(yè)公司按此技術路徑采集數(shù)據(jù),我去不少工廠參觀,也用了他們的遙操設備,結果發(fā)現(xiàn)也挺難的,我大概操作了一分鐘,都沒能采出一條 Pick and Place(拾取和放置)的軌跡來。
所以從這個角度來看,大公司通過 VLA 去采集數(shù)據(jù),或者采用眾包(cloud sourcing)這種方式,把現(xiàn)有的數(shù)據(jù)融合起來,確實是很不錯的途徑。但我自己覺得,像馬老師說的,這些事可以由能集成很多資源的公司去做。
對于高校而言,像這種大規(guī)模的數(shù)據(jù)采集工作,我們很難去做。所以我就一直在思考,怎樣用更高效的方式去獲取數(shù)據(jù),以此來解決相關問題。
近些年來,尤其是近一年,我看到了一些挺亮眼的工作。一方面,我原本就一直秉持從人的角度去采集數(shù)據(jù)的思路,畢竟人是天然的智能體,向人學習是很自然的事。最近我學生跟我分享了一些工作,比如做三維視覺的老師,他們從人的角度出發(fā),學習人在操作過程中的動作軌跡,把動作軌跡拼湊出來,再提取出接觸區(qū)域,然后用這些數(shù)據(jù)去訓練,全程沒有用到一點機器人的數(shù)據(jù),卻能直接讓機器人實現(xiàn)相應操作,雖說不是特別復雜的操作,但這恰恰體現(xiàn)了研究界的可貴之處,通過這樣的 demo,為我們指明了一種可能性,也就是不一定要通過遙操作去做這件事,我覺得這是挺亮眼的一項工作。
另一方面,之前我們邀請邵老師來我們課題組做報告,邵老師介紹了他的一項工作,是用視頻生成的方式,去生成機械爪或者人在操作過程中的下一幀視頻。當時我就特別喜歡這項工作,后來我思考了很久,對于這個領域來講,包括現(xiàn)在說到的 World model 視頻生成,以及黃仁勛的一些觀念,都挺值得贊同。
從更長遠的未來來看,如果視頻生成能夠做到生成任意操作實例,那就意味著這個模型其實是隱含式地學習到了人該如何操作的相關信息。至于后續(xù)怎么從視頻里把這些信息提取出來,那是另外一回事,或許還需要做大量工作。但模型本身吸納了這么多人操作(無論是人操作還是機械爪操作)的數(shù)據(jù),它其實就蘊含了對這些操作的理解。
我個人覺得,上述這兩方面的工作是我目前非常喜歡的。一方面是從人的角度出發(fā),利用人的數(shù)據(jù),而且不一定要通過遙操作,畢竟遙操作很難規(guī)?;A硪环矫媸菑囊曨l生成角度入手,直接基于視頻,模型里蘊含著對視覺方面的理解。相較于現(xiàn)在很火的 VLA 來說,我覺得這兩方面的工作挺不錯的。
樂金鑫:對靈巧手而言,數(shù)據(jù)是一難題,關于數(shù)據(jù)的來源、成本、獲取方法以及未來數(shù)據(jù)沉淀的安全性等問題,老師們怎么看?
馬道林:我們自己還沒有采集大量的數(shù)據(jù),尤其在操作任務層面。我們在實驗室做研究時,采集的數(shù)據(jù)規(guī)模比較小。
我們也看到這個領域里很強的團隊,像斯坦福團隊,還有他們開源的 PI 模型,大家采集的是以視覺動作類為主的遙操作數(shù)據(jù)。同時,也有國內(nèi)外的一些公司,從互聯(lián)網(wǎng)積累了幾十年的視頻數(shù)據(jù)里去提煉數(shù)據(jù),就跟挖礦一樣,盡可能把動作數(shù)據(jù)以及與周圍環(huán)境交互的數(shù)據(jù)中有價值的信息提取出來。
正如葉老師講的,要通過這些讓其學習到,比如對世界模型的部分理解,還有對周圍物理世界的認知。
從數(shù)據(jù)角度來講,我很認可這個領域里其他學者提出的數(shù)據(jù)金字塔說法?;ヂ?lián)網(wǎng)數(shù)據(jù)作為底座,它的精度或許沒那么高,但量足夠大,涵蓋的場景、任務也足夠多,所以對泛化性的貢獻很大,而且目前獲取成本相對比較可控。
再往上就是仿真數(shù)據(jù),獲取仿真數(shù)據(jù)的成本要比直接從互聯(lián)網(wǎng)“挖礦”更難一些,得有仿真器,還要有好的控制器,甚至仿真器里還得涉及遙操作等等。而真機數(shù)據(jù)成本就更高了,要有足夠的硬件、操作工人等,一系列問題也會隨之衍生出來。
實際上,不僅最底層的互聯(lián)網(wǎng)數(shù)據(jù)需要提煉挖掘的過程,仿真數(shù)據(jù)、真實數(shù)據(jù)也并非采集完就行,采集后還需進行后端加工、質(zhì)檢等諸多流程,數(shù)據(jù)生產(chǎn)包含很多環(huán)節(jié)。數(shù)據(jù)數(shù)量固然重要,但質(zhì)量更為關鍵,高質(zhì)量數(shù)據(jù)是決定未來模型表現(xiàn)的重要要素。
只不過當下,大家只能在相對有限的數(shù)據(jù)及質(zhì)量條件下展示一些成果。目前不管是靈巧手的采集數(shù)據(jù)及其訓練出的模型,還是夾爪采集的數(shù)據(jù)及相應模型,都還處于整個具身領域非常初期的階段。
當大家真正能建立起可持續(xù)的數(shù)據(jù)飛輪,形成持續(xù)積累海量數(shù)據(jù)的模式后,我們相信無論是具身模型的規(guī)模,還是其表現(xiàn),都會比現(xiàn)在好得多。
目前來看,大家采集的數(shù)據(jù)模態(tài)更多是視覺和動作方面的數(shù)據(jù),還沒把多模態(tài)的觸覺數(shù)據(jù)納入進來。一方面要將多模態(tài)的數(shù)據(jù)采集出來,另一方面采集后還會涉及不同模態(tài)數(shù)據(jù)的編碼以及它們之間的融合等諸多問題。
而且就當下的數(shù)據(jù)存量而言,把互聯(lián)網(wǎng)數(shù)據(jù)當作底座的話,它本身是沒有觸覺數(shù)據(jù)這個模態(tài)的。鑒于數(shù)據(jù)本身有諸多需求,所以在仿真端,生成觸覺數(shù)據(jù)的必要性和壓力,其實比生成動作數(shù)據(jù)對仿真的需求還要高些。
當然,真機數(shù)據(jù)不管是動作數(shù)據(jù)、視覺數(shù)據(jù)還是觸覺數(shù)據(jù),都很珍貴、很重要,只是成本也比較高。此外,我們也看到一種新形態(tài),就是大家通過商業(yè)方式去降低數(shù)據(jù)采集成本,這里面存在不少值得大家探索的機會。
邵林:葉老師和馬老師已經(jīng)總結得很到位了,馬老師把數(shù)據(jù)金字塔講完后,我其實沒什么額外要補充的了。
我們也覺得,如何獲取海量數(shù)據(jù)是比較關鍵的一點,也很樂意看到越來越多的努力和工作投入到這個方向,比如去生成大量的靈巧手操作數(shù)據(jù)等等。葉老師團隊最近在這個方向就有很棒的工作。
同時,對于像馬老師提到的觸覺方向的數(shù)據(jù),獲取更多這類數(shù)據(jù)也是很關鍵的一點。不過我更想說的是,這些問題在 5 年前、10 年前甚至 20 年前就存在了,數(shù)據(jù)的分布并沒有太大變化。只是近期有更多資源投入到這個方向,我們有可能把相關工作做得更具規(guī)模,這是比較關鍵的一點。
而且,數(shù)據(jù)的多樣性分布實際上沒辦法改變,這就意味著需要一個海納百川的框架,能將各種不同的數(shù)據(jù)囊括在一個系統(tǒng)里,讓它能夠逐漸達到數(shù)據(jù)飛輪的啟動階段,也就是把數(shù)據(jù)流轉(zhuǎn)起來,這一點極為關鍵。一旦數(shù)據(jù)流轉(zhuǎn)起來,就會形成正反饋,有了數(shù)據(jù)驅(qū)動的仿真加入進來,收集數(shù)據(jù)的代價會逐漸降低,數(shù)據(jù)量會逐漸增多,像視頻數(shù)據(jù)、模型產(chǎn)生的各類數(shù)據(jù)等,都能逐漸整合起來,這點非常關鍵。
樂金鑫:評論區(qū)有一位觀眾留言,想問問老師們怎么看待開源數(shù)據(jù)集?
葉琦:我覺得開源數(shù)據(jù)集很有價值,整個操作領域,雖說已經(jīng)研究了好些年,但仍處于比較初始的階段。在機器人領域,以前受限于每個人的機器本體形態(tài)不同,很難有統(tǒng)一的數(shù)據(jù)集、統(tǒng)一的基準(Benchmark)以及統(tǒng)一的平臺來做比較。
現(xiàn)在有了一些公開數(shù)據(jù)集,這對學術界來說意義重大??赡芄I(yè)界不太看重這些數(shù)據(jù)集,畢竟他們自己能獲取的數(shù)據(jù)量或許更大。但對于學術界而言,要是讓老師們?nèi)ゲ杉瘮?shù)據(jù)集,那難度可不小。有了這些公開數(shù)據(jù)集,就好比巧婦有了米,學術界可以基于它們?nèi)ピu測、去研究算法了,能在算法層面推動向前發(fā)展。
我覺得這就是公開數(shù)據(jù)集特別有價值的地方,它為學術界這些像“小作坊”一樣的老師們提供了研究算法以及進行算法迭代的可能性。
樂金鑫:剛才葉老師分享的時候,我原本覺得做前沿研究應該沒那么多束縛,可聽下來好像現(xiàn)在我們在研究方面,不管是經(jīng)費還是別的各種問題,反倒給我們的研究工作帶來了不少束縛。葉老師會不會覺得商業(yè)化獲取資金更容易?
葉琦:這確實挺實際的,在高校做研究,經(jīng)費很重要。像實驗室的水電費這些都得操心,更別說其他事。哪怕只是做一些概念驗證(proof concept)這樣簡單的驗證,也得自己去采集些數(shù)據(jù)。
要是沒有現(xiàn)在的公開數(shù)據(jù)集或者 VLA 數(shù)據(jù)集,沒有眾多研究人員把數(shù)據(jù)匯總起來供我們使用,單靠每個研究者自己的話,始終只能在小規(guī)模數(shù)據(jù)集上驗證。那樣的話,即便算法在小數(shù)據(jù)里驗證沒問題,效果各方面都好,可我們也很難知道這個算法放到更大規(guī)模場景里是否依然有效。畢竟測試的場景比較有限,這樣的算法也就很難被大家廣泛認同。
所以對于學術界來說,經(jīng)費以及商業(yè)合作肯定是有促進作用的,尤其在當下大模型時代,我們得抱緊工業(yè)界的“大腿”,多合作才行。工業(yè)界有數(shù)據(jù)、有資源,而且他們對產(chǎn)業(yè)問題的認識在很多時候能激發(fā)我們做更多事,也會給我們帶來不少靈感,讓我們知道該去關注哪些問題,我覺得這非常重要。
馬道林:對于開源數(shù)據(jù)集或者開源工具這類事,我淺顯地認為,從商業(yè)理性角度看它是合理的。采集到的數(shù)據(jù)雖不會全部公開,像有些公司分享出的數(shù)據(jù)量挺大,但他們自己掌握的數(shù)據(jù)量更多,而且還會按場景區(qū)分,對商業(yè)落地重要的數(shù)據(jù)可能就不公布,相對寬泛的數(shù)據(jù)則會公布出來,不過這些公布的數(shù)據(jù)依然很有價值,畢竟采集數(shù)據(jù)成本頗高。
這些數(shù)據(jù)提供給公共平臺,對像葉老師提到的高校里相關領域做研究的老師來說很有價值。因為讓學生搭建平臺、采集數(shù)據(jù),再形成一套數(shù)據(jù)質(zhì)量管理機制等,要耗費大量時間、精力以及經(jīng)費。
如果商業(yè)化的大平臺能提供這類公共產(chǎn)品,最終它也是受益方。高校的研究成果會以論文等形式呈現(xiàn),但最核心的產(chǎn)出其實是人才,從高校走出來的人才會反哺到行業(yè)中,尤其會進入行業(yè)里的頭部企業(yè)。這就是為什么頭部企業(yè)有動力、有社會責任去做這類事,像國外很多大企業(yè)會給高校捐贈、支持高?;A研究,我在 MIT 時,拿到的一些企業(yè)資助甚至都沒合同,就是純粹的饋贈,可隨意使用。很明顯,作為行業(yè)龍頭企業(yè),最終能吸納人才,也是技術成果的最大受益者。
所以從整個生態(tài)來講,這是有益的事。尤其從高校老師角度看,合理、有效地利用這些數(shù)據(jù)集開展前沿研究、前瞻性研究,也是發(fā)揮自身特長。高校老師做研究、帶學生做研究時,對創(chuàng)新的追求很高,而創(chuàng)新往往意味著追求不確定性,大家都在追求這種不確定性高但一旦做成影響力就很大的事。企業(yè)很多時候得追求確定性,畢竟風險高,需要控制風險,去做更可控的事。我覺得這種機制正好能協(xié)調(diào)雙方,讓大家以合理的方式做合理的事。
邵林:我也覺得開源數(shù)據(jù)集挺好的,很鼓勵高校、研究機構能開源數(shù)據(jù)集。不過,數(shù)據(jù)集的發(fā)布和維護確實是挺頭疼的事,要是有個更好的平臺,能協(xié)調(diào)數(shù)據(jù)格式以及負責后期的數(shù)據(jù)維護,那對整個行業(yè)的發(fā)展就非常重要了。
樂金鑫:接下來圍繞各位老師在研究或創(chuàng)業(yè)中,面對具體需求和場景落地需解決的問題展開。我們先聊聊靈巧手落地整體情況,寬泛來說,就是靈巧手面向場景需求解決問題的效果及未解決好的問題,老師們怎么看?
邵林:我覺得靈巧手落地的前景挺廣闊的,接下來這段時間,應該考慮一些落地場景,充分發(fā)揮靈巧手的高自由度,這是它相較于其他類型執(zhí)行模塊的優(yōu)勢所在。
在這個過程中,觸覺融合是個很關鍵的點,另外,靈巧手硬件本體的發(fā)展也是我們十分期待的一個方向。
樂金鑫:您剛提到高自由度,面向場景落地時,一旦涉及場景,就得考慮成本、投資回報率(ROI)等問題。那這高自由度,到底多高才算高?大家對此有共識嗎?
邵林:這其實取決于不同的落地場景。不過我要強調(diào)的是,靈巧手的高自由度有著自身獨特優(yōu)勢,我們得選擇合適的場景,讓這些優(yōu)勢能夠充分放大,這才是最關鍵的一點。
馬道林:從落地角度看,靈巧手目前面臨的一大挑戰(zhàn)就是如何向終端客戶交付價值,也就是要明確在什么場景下能讓靈巧手得到應用?,F(xiàn)階段這都還處于很初步的階段,畢竟靈巧手自身在硬件、軟件、算法方面的完善程度還不夠高,導致其下游的一些應用也處在起步階段,具身相關的公司目前也沒辦法在面向家庭的 C 端客戶,或是面向工業(yè)的 B 端場景里交付靈巧手的使用。
所以,這個領域落地的關鍵在于進一步打通整個鏈路,而這需要上下游協(xié)同配合,各自做好分內(nèi)之事。比如做硬件設計的,要提升硬件的可靠性、控制的穩(wěn)定性以及精度等。從感知角度來講,我們得為大家提供好傳感器采集數(shù)據(jù)的精度、一致性、質(zhì)量以及采集工具。
現(xiàn)在靈巧手即便把硬件做出來了,像葉老師一開始說的,單純靠遙操作來采集數(shù)據(jù)是有局限的,采集靈巧手的數(shù)據(jù)時,哪怕是用遙操作來采集單向、無反饋的數(shù)據(jù),不管是采用視覺(region)的方式還是手套的方式,目前來看,其精度、自由度以及可靠性都會存在一定限制。
所以,怎么協(xié)同做好數(shù)據(jù)采集這一端,讓具身公司能采集到優(yōu)質(zhì)數(shù)據(jù)很關鍵,畢竟這些具身公司也在做自己的硬件,只有硬件數(shù)據(jù)好了,后續(xù)算法模型部署等相關事宜才能順利開展,整個鏈路打通了,靈巧手才能真正在工業(yè)和生活中落地,我覺得這里面的挑戰(zhàn)還是蠻大。
樂金鑫:如果您站在 B 端客戶的角度,比如說是一家車廠,它需要一個靈巧手概念的執(zhí)行末端,那您覺得這個價格處在什么區(qū)間比較合適呢? C 端呢?
馬道林:這個問題太難了[捂臉]。也許,對于工業(yè)客戶而言,如果其能夠做到使用壽命能達到幾年以上,不用一兩年就更換,那么包含控制算法,與手臂集成的整套系統(tǒng),在當前市場環(huán)境下,30 萬到 40 萬我覺得是可以接受的。
不過隨著市場競爭加劇,往后大家對成本把控會更嚴,成本肯定還會進一步下降。要是扣除機械臂等成本,單就靈巧手這塊,畢竟還涉及采集大量數(shù)據(jù)訓練算法、輸入模型等情況,大概在工業(yè)上能接受的成本得在 10 萬左右。
而面向 C 端的情況大概率要比 B 端更晚實現(xiàn),并且C端對成本的承受能力也更低。我感覺未來要是面向 C 端的話,一個靈巧手的價格可能得控制在一兩萬以內(nèi),說不定一對靈巧手加起來都不到 1 萬,不過這是比較遠期的情況了。
邵林:與此同時,價格下降其實類似一種規(guī)模效應(scaling law)的概念,當部署的量增加后,價格就會快速下降。
葉琦:之前總有人跟我聊這行業(yè)很火,可我卻常常給他們“潑冷水”,因為我個人切實感受到,從算法、硬件平臺,到傳感等各方面,雖然幾位老師也都提到了相關內(nèi)容,但我還想再強調(diào)一下仿真技術。
我覺得在未來整個技術路線的發(fā)展中,仿真是不可或缺的。就像馬老師講過互聯(lián)網(wǎng)仿真數(shù)據(jù)、真機數(shù)據(jù),數(shù)據(jù)確實可以先離線采集下來再提供給模型。但既然是離線采集,那為何不讓智能體直接進入環(huán)境去交互,還可以大規(guī)模并行地去探索,這樣帶來的收益是很大的。
畢竟很多時候,數(shù)據(jù)采集要覆蓋現(xiàn)實生活場景里各種各樣的可能性挺難的。而在仿真環(huán)境里去制造各種情況就相對簡單些,雖說也不是輕而易舉,但可以做很多隨機化的操作,比如今天把場景顏色換一下,明天換個別的顏色,或者把摩擦力調(diào)大調(diào)小等等,能制造出很多可能性。
在現(xiàn)實生活場景里,要把所有變量組合都采集起來是有難度的。未來真要面向落地的時候,不能是發(fā)現(xiàn)一個問題就去采集一波數(shù)據(jù),那樣太難了??梢宰龅氖?,當發(fā)現(xiàn)用戶有某個問題時,給他構造一個仿真環(huán)境,讓他自己去探索,要是光線方面有問題,那就再給他渲染出合適的光線情況。
所以我覺得仿真平臺在之前提到的硬件、算法以及感知層面之上,未來是需要去補充和發(fā)展的。 機器本體在仿真平臺里進行探索是很重要的一點。
說到落地情況,現(xiàn)在很多資本市場覺得操作機器人、機器人領域存在泡沫,我倒不這么認為。只是目前技術確實沒發(fā)展到那一步,但資本市場看重的就是可能性,人類生活的發(fā)展也是著眼于未來的可能性,所以才有了如今的發(fā)展態(tài)勢。
以靈巧手為例,四五年前我們采購機械手時,國內(nèi)雖說也有不少公司在做,但數(shù)量沒現(xiàn)在這么多,而且靈巧度也不太理想,那時我們大多只能采購國外的靈巧手。
不過,從前一兩年開始,國家推動這個方向發(fā)展,資本紛紛進入這個領域,涌現(xiàn)出很多創(chuàng)業(yè)公司,你看現(xiàn)在,國內(nèi)做靈巧手的硬件本體的公司已經(jīng)有很多了,雖說它們的產(chǎn)品可能還沒經(jīng)過市場的考驗,但起碼做出了 demo,產(chǎn)品形態(tài)也出來了。僅僅一兩年或者兩三年的時間,就有這么多靈巧手可供我們選用了。所以,之前大家覺得是泡沫,可資本一進入,短短兩三年就有這么多靈巧手涌現(xiàn)出來,我覺得未來特別值得期待。
后續(xù)要是有更多資本涌入,就會推動人才往這個方向匯聚。雖說目前受各方面技術限制,各方面都存在不足,但發(fā)展態(tài)勢著實讓我欣慰又激動。
我覺得五年之后,或許在某個場景里,就像掃地機器人那樣,會出現(xiàn)面向特定領域、能開始干活的機器人,雖說可能還稍顯笨拙。而十年之后,說不定就能出現(xiàn)面向特定領域、操作比較嫻熟的人形靈巧手或者人形機器人形態(tài)了。
所以說,雖然目前靈巧手落地在各方面都還需要大力發(fā)展,但在未來五年、十年內(nèi),它在特定行業(yè)落地是很有可能性的。這就是我的看法,不過具體到這個行業(yè)未來具體會怎樣,我確實不太確定。
樂金鑫:葉老師,據(jù)我了解,目前高校可能是靈巧手比較大的一個客戶場景。從使用者的角度來講,您覺得現(xiàn)在買的靈巧手價格貴不貴?
葉琦:其實我們是2020年開始采購的,當時買的都是國外的靈巧手,那價格真是太貴了。不過現(xiàn)在我們也希望能和國內(nèi)的一些廠商、單位合作來做這事,只是我們抱著比較謹慎的心態(tài),畢竟國內(nèi)新生產(chǎn)出來的靈巧手可能還有很多需要優(yōu)化的地方,像穩(wěn)定性等各方面都得好好考察一番。
相對于國外的或者一些開源性質(zhì)的靈巧手,比如邵老師推薦的一些,很多老師用過后覺得不錯,主要是價格便宜,還比較耐用,對我們來說挺重要的。而且學生去學習使用它的成本也不高,沒太多問題,有沒有開源的、有沒有使用經(jīng)驗以及有沒有社區(qū)能供大家相互討論,這些都很關鍵。
以前我們買的靈巧手本體都非常貴,畢竟是三四年前、四五年前買的?,F(xiàn)在價格雖然降下來了一些,但對我們的經(jīng)費來說,還是挺有壓力的。哪怕是現(xiàn)在,一些帶有觸覺傳感器的手也挺貴,可能一雙也將近10萬。而且往往一雙手不夠用,要是這雙手壞了,在要產(chǎn)出論文或者做相關工作的時候,總不能干等著它修好,肯定得準備備用的,那就是得再加 10 萬。要是加上整套研究系統(tǒng),相對來說,一套下來四五十萬是常有的事,這對高校老師來講,確實是有一定壓力的。
樂金鑫:最后再拋一個更開放的話題,想請各位老師對比中美在各自相關領域(靈巧手或具身領域)是否存在差距,如果有,具體體現(xiàn)在哪及差距大小。另外,各位老師回國后,在創(chuàng)業(yè)或研究中,相較于國外,國內(nèi)有哪些好的地方?
邵林:我覺得在當前環(huán)境下,我們更要強調(diào)大家協(xié)同做事,也特別希望中美之間能有更開放、多元且充分的交流。
說到差異,我覺得具身領域就像一片大海,大家有著不同能量,在這片大海里會有各種各樣的協(xié)作方式,這才是很重要的。我們期望大家都能抱著合作的心態(tài)去做事,畢竟整個行業(yè)的發(fā)展必須得有開放的心態(tài)。
我覺得在大層面上不存在什么差異,只是不同的研究團隊、不同的機構可能會有自己的想法,對于行業(yè)怎么發(fā)展、技術如何迭代以及具體怎么做等方面,每個人都會有不同的視角,這種開放多元的情況是挺好的,要是所有人對同一件事的看法和做法都一樣,那整個行業(yè)的發(fā)展可就容易陷入瓶頸期了。
樂金鑫:那從更關注國內(nèi)的角度來講,對于咱們整個行業(yè)以及從業(yè)者,您覺得咱們中國這股力量在哪些方面能夠做得更突出些?您對此有什么期待?
邵林:我希望大家能對這個行業(yè)抱著樂觀、開放的心態(tài),并且能有更多支持投入到這個方向上來,畢竟這不是短期內(nèi)就能完成的事,它所產(chǎn)生的影響以及帶來的價值也不是短期內(nèi)就能顯現(xiàn)的。
馬道林:相對邵老師,我回國工作的時間相對長一點,就稍微比較下兩邊的情況吧。
從具身智能是人工智能衍生的角度,按照人工智能的三大要素,也就是數(shù)據(jù)、算力、算法這三塊來說。在數(shù)據(jù)方面,咱們國內(nèi)是有優(yōu)勢的,不管是采集數(shù)據(jù)的成本,還是開發(fā)采集數(shù)據(jù)的硬件相關工具,國內(nèi)都相對更勝一籌。尤其具身智能要將人工智能融入物理實體、走向現(xiàn)實世界,必然會涉及深刻的硬件迭代,而硬件迭代這塊,咱們國內(nèi)產(chǎn)業(yè)鏈的迭代效率比較高。
在算力和算法層面,咱們跟美國或許存在一點差距,但這差距并非本質(zhì)性的。
說到人才方面,近些年來國內(nèi)有不少從海外回來的年輕老師,他們帶著自己的團隊在做這個領域最前沿的工作。雖說暫時在影響力上可能比不上海外一些知名團隊,但大家緊跟最新方向,做創(chuàng)新性工作,咱們國內(nèi)團隊多次能在國際會議上做出很開創(chuàng)性的成果。所以我覺得國內(nèi)人才濟濟,聰明又有才華的學生也很多,這方面情況挺好的。
從創(chuàng)新創(chuàng)業(yè)的產(chǎn)業(yè)氛圍來看,兩邊都挺熱鬧的。
我覺得在咱們國內(nèi)這個領域,大家要是協(xié)同起來,能形成更完整的閉環(huán)鏈條。就拿上下游協(xié)同來說,國外的團隊基本還得靠國內(nèi)廠商供應一些基礎設備或者研發(fā)的硬件,而咱們國內(nèi)自己就能形成這樣的閉環(huán)。并且,咱們國內(nèi)頭部的具身公司也在努力打造生態(tài)。
從另一個角度看,國內(nèi)有著非常好的應用場景,畢竟有著龐大的制造業(yè),能為大家提供極為寬廣的應用場景,市場規(guī)模相當大,就看大家能不能從中找到屬于自己的機會了。
我認為具身智能行業(yè)目前還處于很早期的階段,雖然也存在競爭,但更多的還是要先練好自己的基本功,然后在這么大的市場需求以及現(xiàn)有的資本環(huán)境、政策環(huán)境下,努力把自己的事情做好。
葉琦:關于中美差距這個問題,我覺得差距在一定程度上確實是存在的。畢竟美國發(fā)展了這么多年,過去那些年還吸引了全世界的人才,也有一些實力很強的企業(yè),這確實是它的優(yōu)勢。
不過,我個人看到近年來國內(nèi)的研究界有了很大變化。咱們國家過去幾十年一直在推行各類獎學金計劃送人才出去同時引進人才回國的舉措,再加上當下中美關系的情況,有不少人才回歸國內(nèi)。對比我以前讀書時國內(nèi)和國外研究的氛圍及各方面情況,現(xiàn)在已經(jīng)有了非常大的改變。
從研究組的情況來看,我覺得很多國內(nèi)的研究組和國外那些非常有名的研究組相比,差異已經(jīng)不那么明顯了,甚至可以說差不多了。我一直覺得人才是基礎,現(xiàn)在國內(nèi)有大量人才,他們有過留學經(jīng)歷,既吸收了西方先進的思想,又結合了國內(nèi)先進的做法,在這樣龐大的人才儲備基礎上,從研究角度來講,我感覺中美之間的差距好像在慢慢縮小,基本處于一個逐漸持平的階段了。
當然,美國也有它的優(yōu)勢,而在國內(nèi)的產(chǎn)業(yè)界,我感覺就像馬老師說的那樣,供應鏈是非常全面的。畢竟具身智能離不開本體制造,而美國并非制造業(yè)強國,這方面和咱們國內(nèi)是有區(qū)別的。 供應鏈完整是中國發(fā)展多年積累下來的巨大優(yōu)勢,對未來具身智能的發(fā)展來說更是如此。
另外,國內(nèi)還有個更好的機會體現(xiàn),我有個朋友從帝國理工畢業(yè)時,本來可以去美國,但他沒去,我問他為啥,他說美國沒那么多創(chuàng)業(yè)機會,他是浙江溫州人,本身就有創(chuàng)業(yè)想法,所以就決定回國回溫州了,從個人角度就能很強烈地感受到中美之間這些細微變化。
所以我覺得國內(nèi)有著很好的創(chuàng)業(yè)環(huán)境,而且國家對于我們現(xiàn)在從事的具身智能這類方向也在大力推動,在這樣的情況下,大家都是受益者,我對此感受挺深刻的。
除了本身良好的創(chuàng)業(yè)生態(tài),還有國家助力行業(yè)向前發(fā)展,這都是很好的地方。
說到對這個行業(yè)的長期期望,我其實沒怎么接觸產(chǎn)業(yè),理解沒邵老師、馬老師那么深。我覺得雖然我們確實需要積極進取、快速發(fā)展,但也要認清,不管是具身智能還是靈巧手操作,目前都還處于發(fā)展初期階段。用客觀的技術發(fā)展眼光來看,看工業(yè)界和學術界展現(xiàn)的 demo,以及其他一些領域外的聽著好像已經(jīng)落地的事情,都是挺正常的。
有時候一個 demo 可能反復調(diào)試很多次才做出來,甚至有些情況下還不奏效,這些都很正常。整個行業(yè)的發(fā)展不是看兩三年,可能得從 5 到 10 年的跨度去考量,從這個角度看待問題的話,或許我們做決策時,對其他一些情況的容忍度也就能更高一些。
樂金鑫:好的,謝謝老師。不知不覺間,兩個小時就過去了,期間是思想的碰撞與認知的交匯。今天我們?nèi)患钨e,來自不同的高校,有著不同的創(chuàng)業(yè)背景,感謝邵老師、馬老師、葉老師在一起碰撞出了不少精彩的火花。
雷峰網(wǎng)(公眾號:雷峰網(wǎng))雷峰網(wǎng)雷峰網(wǎng)
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。