0
本文作者: 我在思考中 | 2022-05-05 11:58 |
編譯|OGAI
近年來,以物體為中心的多傳感器學(xué)習(xí)顯示出了巨大的潛力。然而,以往的物體建模工作與現(xiàn)實(shí)的差距還很大。為此,李飛飛團(tuán)隊曾發(fā)布 OBJECTFOLDER 1.0 據(jù)集,包含 100 個具有視覺、聽覺和觸覺數(shù)據(jù)的虛擬物體。然而,該數(shù)據(jù)集的規(guī)模較小,多傳感器數(shù)據(jù)的質(zhì)量較低,讓利用該數(shù)據(jù)集訓(xùn)練的模型不能很好地泛化到現(xiàn)實(shí)場景中。
在本文中,李飛飛、吳佳俊團(tuán)隊重磅發(fā)布了大規(guī)模的多感官家居物品數(shù)據(jù)集 OBJECTFOLDER 2.0,這些數(shù)據(jù)以一種隱式神經(jīng)表征的形式存在。相較于 OBJECTFOLDER 1.0,該數(shù)據(jù)集有三大提升:(1)數(shù)據(jù)集的規(guī)模為前者的 10 倍,渲染時間也快了幾個數(shù)量級(2)顯著提升了所有三種模態(tài)的多感官渲染質(zhì)量(3)作者說明了,利用該數(shù)據(jù)集中的虛擬物體學(xué)習(xí)的模型可以成功地在三個具有挑戰(zhàn)性的任務(wù)(物體尺寸估計、觸點(diǎn)定位、形狀重建)。OBJECTFOLDER 2.0 為計算機(jī)視覺和機(jī)器人技術(shù)領(lǐng)域的多感官學(xué)習(xí)提供了新的研究途徑和測試平臺。
代碼地址:https://github.com/rhgao/ObjectFolder
在日常生活中,我們會感知和操作各種各樣的物體。這些物品的三維形狀、外觀、材料類型等物理屬性各異,具有獨(dú)特的感覺模式,都有非常不同的物理屬性——3d形狀、外觀和材料類型,這導(dǎo)致它們具有獨(dú)特的感覺模式:鬧鐘看起來是圓的、光滑的,用叉子敲擊盤子時會發(fā)出「叮當(dāng)聲」,觸摸刀片時會感到刀的鋒利。
然而,以往建模真實(shí)世界物體的工作較為局限,與真實(shí)世界的差距較大。在計算機(jī)視覺領(lǐng)域中,我們往往在二維空間中建模物體,重點(diǎn)關(guān)注在靜態(tài)圖像中識別、定位它們。早先的形狀建模工作則構(gòu)建物體的 3D CAD 模型,但是往往只關(guān)注其幾何特性,物體的視覺紋理質(zhì)量也較低。此外,大多數(shù)工作都沒有關(guān)注完整的物理物體屬性,只關(guān)注單一模態(tài)(通常是視覺)。
圖 1:OBJECTFOLDER 2.0 數(shù)據(jù)集。
我們旨在構(gòu)建一個大型的逼真、多感官器的 3D 物體模型數(shù)據(jù)集,使利用該數(shù)據(jù)集中的虛擬物體學(xué)習(xí)的模型可以被泛化到真實(shí)世界的對應(yīng)物體上。如圖 1 所示,我們利用真實(shí)世界物體的現(xiàn)有的高質(zhì)量掃描,提取其物理特征(例如,視覺紋理、材料類型,3D 形狀)。接著,我們根據(jù)物體的固有物理屬性,對其視覺、聽覺、觸覺數(shù)據(jù)進(jìn)行仿真,并使用了一個隱式神經(jīng)表征網(wǎng)絡(luò)「Object File」對仿真的多感官數(shù)據(jù)進(jìn)行編碼。如果感知到的數(shù)據(jù)足夠逼真,利用這些虛擬物體學(xué)習(xí)到的模型就可以被遷移到包含這些物體的真實(shí)世界任務(wù)中。
圖 2:OBJECTFOLDER 2.0 數(shù)據(jù)集中的物體示例。
為此,OBJECTFOLDER 2.0 數(shù)據(jù)集應(yīng)運(yùn)而生。該數(shù)據(jù)集包含從網(wǎng)絡(luò)資源中收集到的 1,000 個高質(zhì)量的 3D 物體。其中,100 個物體來自 OBJECTFOLDER 1.0 數(shù)據(jù)集,855 個物體來自 ABO 數(shù)據(jù)集,45 個物體來自 Google Scanned Objects 數(shù)據(jù)集。相較之下,OBJECTFOLDER 2.0 相較于 1.0 版的渲染速度更快、多感官仿真質(zhì)量更高。我們改進(jìn)了聽覺和觸覺仿真架構(gòu),從而渲染出更逼真的多感官數(shù)據(jù)。此外,我們提出了一種新的隱式神經(jīng)表征網(wǎng)絡(luò),可以實(shí)時地基于任意的外部參數(shù)渲染視覺、聽覺、觸覺感官數(shù)據(jù),這些數(shù)據(jù)具有目前最佳的質(zhì)量。我們成功地將利用我們的虛擬物體學(xué)習(xí)到的模型遷移到了三項(xiàng)具有挑戰(zhàn)性的現(xiàn)實(shí)世界任務(wù)(物體尺寸估計、觸點(diǎn)定位、形狀重建)上。
具體而言,我們?yōu)槊總€物體構(gòu)建的「元數(shù)據(jù)」包含從真實(shí)產(chǎn)品的公開網(wǎng)頁上獲取的物體的類型、材料、顏色、尺寸等信息。我們根據(jù)物體的材料類型清洗了數(shù)據(jù)集,只保留下材料類型為「陶瓷、玻璃、木材、塑料、鐵、聚碳酸酯、鋼」的物體,并對數(shù)據(jù)的正確性進(jìn)行了人工驗(yàn)證。
本文的主要貢獻(xiàn)如下:
(1)發(fā)布了一個新的大型 3D 物體多感官數(shù)據(jù)集,物體以隱式神經(jīng)保證的形式存在,該數(shù)據(jù)集的規(guī)模是現(xiàn)有的 OBJECTFOLDER 1.0 的十倍。我們顯著提升了視覺、聽覺、觸覺的多感官渲染質(zhì)量,渲染速度快了數(shù)個數(shù)量級。
(2)我們說明了,使用本數(shù)據(jù)集學(xué)習(xí)的模型可以被成功遷移到一系列真實(shí)世界任務(wù)上,為計算機(jī)視覺和機(jī)器人學(xué)的多感官學(xué)習(xí)提供了新的研究路徑和測試平臺。
如圖 1 所示,相較于離散的傳統(tǒng)信號表征,隱式表征具有許多優(yōu)勢。我們可以將每個感官模態(tài)參數(shù)化表示為一個連續(xù)函數(shù),該函數(shù)將外部參數(shù)(例如,視覺上的相機(jī)視角、光照條件,聽覺上的沖擊強(qiáng)度,觸覺上的凝膠變形)映射為特定位置或條件下相應(yīng)的感官信號。隱式神經(jīng)表征是我們通過神經(jīng)網(wǎng)絡(luò)得到的對該連續(xù)函數(shù)的近似,這使得存儲原始感觀數(shù)據(jù)的內(nèi)存與外部參數(shù)相互獨(dú)立,用戶可以輕松地獲取隱式表征。此外,由于隱式神經(jīng)表征是連續(xù)的,我們可以以任意分辨率對感觀數(shù)據(jù)進(jìn)行采樣。
圖 3:用于生成隱式表征的「Object File」網(wǎng)絡(luò)包含三個子網(wǎng)絡(luò):VisionNet、AudioNet、TouchNet。
與 OBJECTFOLDER 1.0 相比,我們通過用數(shù)千個獨(dú)立的多層感知機(jī)(MLP)表征每個物體加速了 VisionNet 的推理;就 AudioNet 而言,我們只預(yù)測信號中與位置相關(guān)的部分,而不是直接預(yù)測聲波頻譜圖,大大提高了渲染質(zhì)量,同時加快了推理速度;新的 TouchNet 可以渲染具有各種旋轉(zhuǎn)角度和凝膠變形的觸覺讀數(shù),而 OBJECTFOLDER 1.0 的每個頂點(diǎn)只能渲染單個觸覺圖像。
圖 4:OBJECTFOLDER 2.0 中的視覺、聽覺、觸覺數(shù)據(jù)渲染結(jié)果相較于 OBJECTFOLDER 1.0 有顯著提升(以 YCB 數(shù)據(jù)集中的杯子為例)。
視覺——VisionNet
我們在 KiloNeRF 的基礎(chǔ)上構(gòu)建了 KiloOSF 作為 VisionNet。KiloNeRF 使用了多個獨(dú)立的小 MLP 表征靜態(tài)場景,而不是使用單個 MLP 表征整個場景。每個獨(dú)立的 MLP 處理場景的一小部分,足以進(jìn)行逼真的圖像渲染。
類似地,我們將每個物體細(xì)分為均勻分辨率的網(wǎng)格,每個網(wǎng)格單元的 3D 索引為
。從位置 x 到索引 i 的映射 m 可以表示為:
其中,和
分別為軸對齊邊界框(AABB)的最小和最大界。對于每個網(wǎng)格單元,我們利用帶有參數(shù)
的 MLP 網(wǎng)絡(luò)表征相應(yīng)的物體部分。接著,我們首先確定包含點(diǎn) x 的網(wǎng)格單元的索引
,然后查詢相應(yīng)的小 MLP,就可以得該點(diǎn)的 r 方向上的顏色和密度值:
參考 KiloNeRF,我們使用了「基于蒸餾的學(xué)習(xí)」策略避免在渲染時產(chǎn)生偽影。我們首先針對每個物體訓(xùn)練了一個普通的「以物體為中心的神經(jīng)散射函數(shù)」(OSF),然后將每個教師模型的知識蒸餾到 KiloOSF 模型中。我們還使用了空的空間跳轉(zhuǎn)和早期光線終止提升渲染的效率。
聽覺——AudioNet
我們使用為自然環(huán)境下的物體網(wǎng)格設(shè)計的序貫法將每個對象的表面網(wǎng)格轉(zhuǎn)換為一個體積二階四面體網(wǎng)格。接著,我們使用有限元方法(FEM)對生成的四面體網(wǎng)格和有限元分析軟件「Abaqus」中的二階元素執(zhí)行上述模態(tài)分析過程。我們對在各軸向上以單位力觸碰四面體網(wǎng)格各頂點(diǎn)的振動模式進(jìn)行了仿真。接著,我們訓(xùn)練了一個以四面體網(wǎng)格頂點(diǎn)坐標(biāo)作為輸入的多層感知機(jī),并預(yù)測該頂點(diǎn)在各軸向上被單位力觸碰時每個模式下的增益向量。
在推理時,我們可以首先利用網(wǎng)絡(luò)預(yù)測每個模態(tài)下的的增益,然后對利用網(wǎng)絡(luò)預(yù)測出的增益
和通過模態(tài)分析得到的頻率
、阻尼
參數(shù)化的指數(shù)衰減正弦曲線求和,從而預(yù)測出物體的脈沖響應(yīng)。我們進(jìn)一步將每個頂點(diǎn)上的外部力 f 分解為沿著三個正交軸方向上的單位力的線性組合。最終的聲波可以被表示為:
在 OBJECTFOLDER 1.0 中,我們使用了體積六面體網(wǎng)格記性模態(tài)分析,而 2.0 中使用的更高階的四面體網(wǎng)格,從而在表征大小相同的情況下,捕獲到更精細(xì)的特征和表面曲率,也得到了更精確的彈性形變。因此,AudioNet 2.0 可以對物體的聲學(xué)屬性進(jìn)行更加精確的建模。此外,AudioNet 1.0 直接預(yù)測復(fù)雜的聲波頻譜,其維度過高,局限于固定的分辨率和時長。AudioNet 2.0 則只預(yù)測與位置相關(guān)的部分信號,然后通過解析獲得其它的模式信號。
觸覺——TouchNet
我們使用「GelSight」觸覺傳感器的幾何測量值作為觸覺讀數(shù)。為此,我們需要同時對接觸的形變和對于形變的光學(xué)相應(yīng)進(jìn)行仿真。我們的觸覺仿真需要實(shí)現(xiàn)以下三個目標(biāo):(1)針對接觸的位置、方向、按壓深度靈活地渲染觸覺讀數(shù)(2)為訓(xùn)練 TouchNet 高效地渲染數(shù)據(jù)(3)使仿真盡可能與現(xiàn)實(shí)情況相近,從而泛化到真實(shí)世界的觸覺傳感器中。
為此,我們采用了下面的雙階段方法來渲染逼真的觸覺信號:首先,我們模擬接觸區(qū)域內(nèi)的物體形狀和非接觸區(qū)域內(nèi)的凝膠墊的形狀的接觸形變圖,從而表示接觸點(diǎn)的局部形狀。我們使用 Pyrender 對傳感器和物體的交互進(jìn)行仿真,使用 GPU 加速的 OpenGL 渲染形變圖,實(shí)現(xiàn)了 700 幀/秒的數(shù)據(jù)生成。
我們使用 TouchNet 對接觸物體各頂點(diǎn)的形變圖編碼,將每個物體的觸覺讀數(shù)表征為一個 8 維函數(shù)。該函數(shù)的輸入為物體坐標(biāo)系中的 3D 位置 ,3D 單元接觸方向通過
參數(shù)化,物體陷入凝膠的深度為 p,形變圖中的空間位置為
。該網(wǎng)絡(luò)的輸出為接觸的形變圖的像素值。在渲染形變圖之后,我們利用目前最先進(jìn)的 GelSight 仿真框架 Taxim 根據(jù)形變圖渲染觸覺 RGB 圖像。
相較之下,OBJECTFOLDER 1.0 中的 TouchNet 智能沿著每個頂點(diǎn)的法線方向渲染單張觸覺圖像,新設(shè)計的 TouchNet 可以生成旋轉(zhuǎn)角度在 15° 以內(nèi)、按壓深度在 0.5-2mm 之間的觸覺輸出。此外,在 Taxim 的幫助下,形變圖到觸覺光學(xué)輸出的映射可以很容易地校準(zhǔn)到不同的基于視覺的觸覺傳感器,產(chǎn)生逼真的觸覺光學(xué)輸出,從而實(shí)現(xiàn) Sim2Real 的遷移。
我們希望利用 OBJECTFOLDER 2.0 中的虛擬物體學(xué)習(xí)的模型可以泛化到真實(shí)世界的物體上。為此,我們測評了模型在物體尺寸估計、觸點(diǎn)定位、形狀重建這三個任務(wù)上的遷移性能,說明了數(shù)據(jù)集的有效性。
物體尺寸估計
物體的所有感官模態(tài)都與尺寸緊密相關(guān)。我們利用 OBJECTFOLDER 2.0 數(shù)據(jù)集中渲染的多感官數(shù)據(jù)訓(xùn)練模型,用 8 個具有視覺、聽覺、觸覺真實(shí)感官數(shù)據(jù)的物體進(jìn)行測試。針對視覺和聽覺,我們訓(xùn)練了一個 ResNet-18 預(yù)測物體尺寸,其輸入為物體的 RGB 圖像或撞擊聲的幅度頻譜。針對觸覺,我們使用循環(huán)神經(jīng)網(wǎng)絡(luò)融合 10 次連續(xù)觸摸的讀數(shù),實(shí)現(xiàn)了基于觸覺的尺寸預(yù)測。
表 1:物體尺寸預(yù)測結(jié)果。
「Random」表示在與我們的模型相同的范圍內(nèi)隨機(jī)預(yù)測尺寸的對比基線。使用 OBJECTFOLDER 2.0 中的多感官數(shù)據(jù)訓(xùn)練的模型可以更好地泛化到真實(shí)世界物體上,證明了仿真的真實(shí)性和隱式表征網(wǎng)絡(luò)編碼的準(zhǔn)確性。
「觸覺-聽覺」觸點(diǎn)定位
在與形狀已知的物體交互時,準(zhǔn)確識別交互的位置是十分重要的。碰撞提供了關(guān)于接觸位置的局部信息,而在不同表面位置的碰撞會產(chǎn)生不同的模態(tài)增益。我們研究了使用碰撞聲和/或與接觸相關(guān)的觸覺讀數(shù)進(jìn)行觸點(diǎn)定位的可能性。
我們通過粒子濾波(particle filtering)定位接觸位置的序列,收集這些位置的觸覺讀數(shù)或碰撞聲音。對于觸覺,我們使用一個預(yù)訓(xùn)練的 FCRN 網(wǎng)絡(luò)中提取特征,用于根據(jù)觸覺圖像進(jìn)行深度預(yù)測。對于聽覺,我們從每 3 秒的碰撞聲中提取 MFCC 特征。我們將這些特征與代表候選接觸位置的物體表面采樣的粒子進(jìn)行比較。與實(shí)際的觸覺傳感器讀數(shù)或碰撞聲音特征相似度得分高的粒子被認(rèn)為更有可能是真正的接觸位置。
表 2:「聽覺-觸覺」觸點(diǎn)定位。
我們使用與真實(shí)標(biāo)注觸點(diǎn)位置的平均歐氏距離作為評估度量。實(shí)驗(yàn)結(jié)果表明,基于觸覺的觸點(diǎn)定位相較于基于聽覺的定位更加準(zhǔn)確。
圖 5:基于觸覺和聽覺的觸點(diǎn)定位的可視化結(jié)果。
「視覺-觸覺」形狀重建
單圖像形狀重建在視覺領(lǐng)域被廣泛研究。然而,在有遮擋的情況下,觸覺信號對于感知物體形狀則極具價值。視覺可以提供粗略的全局上下文,而觸覺提供精確的局部幾何特性。在這里,我們訓(xùn)練模型根據(jù)包含物體和/或物體表面的一系列觸覺讀數(shù)的單張 RGB 圖像重建三維對象的形狀。
我們使用 PCN 網(wǎng)絡(luò)作為該任務(wù)的測試平臺。對于觸覺,我們使用 32 個觸覺讀數(shù),并根據(jù)相應(yīng)的觸摸姿勢將相關(guān)的變形映射到稀疏的點(diǎn)云上。將稀疏的點(diǎn)云作為 PCN 網(wǎng)絡(luò)的輸入,生成密集完整的點(diǎn)云。在視覺方面,我們沒有使用一系列局部觸點(diǎn)圖作為物體的部分觀測數(shù)據(jù),而是使用 ResNet-18 網(wǎng)絡(luò)根據(jù)包含物體的單張圖像中提取的全局特征來監(jiān)督形狀補(bǔ)全過程。對于基于視覺和觸覺的形狀重建,我們使用雙流網(wǎng)絡(luò),使用全連接層將根據(jù)兩種模態(tài)預(yù)測的點(diǎn)云合并,以預(yù)測最終的密集點(diǎn)云。
表 3:基于視覺和觸覺的形狀重建。
與使用 6 個物體的平均真實(shí)網(wǎng)格作為預(yù)測的平均對比基線相比,使用單張圖像的形狀重建和使用觸摸讀數(shù)序列的重建效果要好得多。結(jié)合來自兩種模式的幾何線索通??梢垣@得最佳的 Sim2Real 遷移性能。
圖 6:基于視覺和觸覺的形狀重建可視化結(jié)果。
雷峰網(wǎng)雷峰網(wǎng)(公眾號:雷峰網(wǎng))
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。