丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能學(xué)術(shù) 正文
發(fā)私信給我在思考中
發(fā)送

0

培育強(qiáng)人工智能的「ImageNet」:上海交大盧策吾組提出鉸接物體知識(shí)庫 AKB-48

本文作者: 我在思考中 2022-03-28 10:51
導(dǎo)語:上海交大盧策吾組近日重磅推出了大型真實(shí)世界鉸接物體知識(shí)庫 AKB-48!
培育強(qiáng)人工智能的「ImageNet」:上海交大盧策吾組提出鉸接物體知識(shí)庫 AKB-48
ImageNet 的出現(xiàn)極大推動(dòng)了計(jì)算機(jī)視覺領(lǐng)域的發(fā)展。在通往強(qiáng)人工智能的路上,我們還需要考慮物體的外觀、結(jié)構(gòu)、物理性質(zhì)、語義等因素。為此,上海交大盧策吾組近日重磅推出了大型真實(shí)世界鉸接物體知識(shí)庫 AKB-48!

編譯 | OGAI

編輯 | 陳彩嫻

鉸接物體在我們的生活中無處不在。全面理解這些鉸接物體的外觀、結(jié)構(gòu)、物理性質(zhì)和語義,對于研究社區(qū)是大有助益的。

目前的鉸接物體理解方法通常是基于不考慮物理特性的 CAD 模型的合成物體數(shù)據(jù)集,這不利于視覺和機(jī)器人任務(wù)中從仿真環(huán)境到實(shí)際應(yīng)用的泛化。

為了彌補(bǔ)這一差距,我們提出了AKB-48:一個(gè)大規(guī)模的鉸接物體知識(shí)庫,它包含 48 個(gè)類別的 2,037 個(gè)真實(shí)世界中的三維鉸接物體模型。

我們通過鉸接知識(shí)圖譜 ArtiKG 描述每個(gè)物體。為了構(gòu)建 AKB-48,我們提出了一個(gè)快速鉸接知識(shí)建模流程(FArM),可以在 10-15 分鐘內(nèi)構(gòu)建鉸接物體的 ArtiKG,在很大程度上降低了在現(xiàn)實(shí)世界中對物體建模的開銷。在該數(shù)據(jù)的基礎(chǔ)上,我們提出了一個(gè)新穎的集成網(wǎng)絡(luò)框架 AKBNet,用于類別級(jí)的視覺鉸接操作(C-VAM)任務(wù)。我們提出了三個(gè)對比基準(zhǔn)子任務(wù),即姿態(tài)估計(jì),物體重建和控制。

培育強(qiáng)人工智能的「ImageNet」:上海交大盧策吾組提出鉸接物體知識(shí)庫 AKB-48

論文地址:https://arxiv.org/pdf/2202.08432v1.pdf

代碼地址:https://liuliu66.github.io/articulationobjects/



1

引言

鉸接物體是由多個(gè)關(guān)節(jié)連接的剛性部分組成的,可以在三維空間中進(jìn)行旋轉(zhuǎn)或平移運(yùn)動(dòng)。有關(guān)鉸接物體的知識(shí)對于許多研究社區(qū)(如計(jì)算機(jī)視覺、機(jī)器人和具身人工智能)都是有所助益的?,F(xiàn)有的鉸接物體數(shù)據(jù)集包括 PartNet-Mobility、ReArt-48、RBO 等。

然而,這些數(shù)據(jù)集大多更加關(guān)注結(jié)構(gòu)信息(例如,部位分割、運(yùn)動(dòng)結(jié)構(gòu)),但是很少注意外形(例如,紋理、細(xì)致的幾何信息),也很少注意物理特性(例如,每個(gè)部位的質(zhì)量、慣量、材料和摩擦力),也很少涉及語義(例如,類別、功能可供性)。然而,有一些重要的任務(wù)非常依賴于這些信息,例如:目標(biāo)檢測依賴于「紋理」,三維重建依賴于「細(xì)致幾何信息」,目標(biāo)控制依賴于「物理特性」,缺乏這些物體知識(shí)不利于學(xué)習(xí)模型的泛化。

為了推動(dòng)對鉸接物體的研究,本文提出了 AKB-48:一個(gè)包含 48 個(gè)類別、2,037 個(gè)實(shí)例的大規(guī)模真實(shí)鉸接知識(shí)庫。對于每個(gè)實(shí)例,我們根據(jù)相應(yīng)的真實(shí)物體掃描出物體的模型,并手動(dòng)細(xì)化。物體知識(shí)會(huì)被組織到一個(gè)鉸接知識(shí)圖譜(ArtiKG)中,它包含各種物體屬性和特征的詳細(xì)標(biāo)注。為了在大數(shù)據(jù)集上進(jìn)行掃描和標(biāo)注,我們提出了快速鉸接知識(shí)建模(FArM)流程。

具體而言,我們利用三維傳感器和轉(zhuǎn)臺(tái)、集成了結(jié)構(gòu)和語義標(biāo)注的 GUI、用于物理屬性標(biāo)注的標(biāo)準(zhǔn)真實(shí)世界實(shí)驗(yàn)開發(fā)了一個(gè)物體記錄系統(tǒng)。該系統(tǒng)節(jié)省了大量用于建?,F(xiàn)實(shí)世界鉸接物體的時(shí)間和金錢和成本(每個(gè)物體的標(biāo)注成本為 3 美元,耗時(shí) 10-15 分鐘)。本文對比了 CAD 建模與反向掃描??偠灾摿鞒痰馁Y金和時(shí)間預(yù)算分別僅為前者的 1/33 和 1/5。

我們利用 AKB-48 數(shù)據(jù)集提出了AKBNet,這是一種用于類別級(jí)視覺鉸接控制(C-VAM)任務(wù)的新型集成架構(gòu)。為了解決 C-VAM 任務(wù),視覺系統(tǒng) AKBNet 需要能夠估計(jì)物體的姿態(tài),重建物體的幾何形狀,并在推理類別級(jí)的控制策略。因此,它由三個(gè)感知子模塊組成:

(1)用于類別級(jí)鉸接物體姿態(tài)估計(jì)的「姿態(tài)模塊」:該模塊旨在估計(jì)某類中未曾見過的鉸接物體的每個(gè)部位的 6D 姿態(tài)。然而,以往的研究通常針對于運(yùn)動(dòng)類別,定義某個(gè)類別的物體具有相同的運(yùn)動(dòng)結(jié)構(gòu)。我們的姿態(tài)模塊將「類別」的概念擴(kuò)展到「語義類別」,同一類物體可以具有不同的運(yùn)動(dòng)結(jié)構(gòu)。

(2)用于鉸接物體重建的「形狀模塊」:獲得姿態(tài)后,我們再對輸入圖像進(jìn)行形狀編碼,重建每個(gè)部位的形狀。完整的幾何信息對于決定在哪里進(jìn)行交互控制至關(guān)重要。

(3)用于鉸接物體控制的「控制模塊」:通過感知獲得鉸接信息(例如,部位分割、各部位姿態(tài)、鉸接屬性、完整網(wǎng)格)后,就可以根據(jù)觀察結(jié)果推斷出交互策略。我們設(shè)置了「打開」和「拉動(dòng)」的操作任務(wù),分別對應(yīng)于轉(zhuǎn)動(dòng)鉸接和移動(dòng)鉸接。

針對每個(gè)模塊評(píng)估時(shí),我們假設(shè)模塊的輸入是上一個(gè)模塊的 Ground Truth。針對整個(gè)系統(tǒng)評(píng)估時(shí),輸入是上一個(gè)模塊的輸出。顯然,我們不能對 AKB-48 支持的所有任務(wù)進(jìn)行基準(zhǔn)測試。我們希望它能成為未來計(jì)算機(jī)視覺和機(jī)器人領(lǐng)域中的鉸接研究的良好平臺(tái)。

本文的貢獻(xiàn)包括以下三點(diǎn):

(1)提出了 AKB-48 數(shù)據(jù)集,它包含 48 個(gè)類別的 2,037 個(gè)鉸接模型,我們采用了一個(gè)多模態(tài)知識(shí)圖 ArtiKG 來組織豐富的標(biāo)注信息。該數(shù)據(jù)集有助于縮小當(dāng)前的視覺和具身人工智能研究之間的差距。據(jù)我們所知,這是第一個(gè)從現(xiàn)實(shí)世界收集到的具有豐富標(biāo)準(zhǔn)信息的大規(guī)模鉸接數(shù)據(jù)集。

(2)提出了一種快速鉸接知識(shí)物體建模流程 FArM,使得從現(xiàn)實(shí)世界中收集鉸接物體信息更加容易。在構(gòu)建真實(shí)世界的三維模型數(shù)據(jù)集時(shí),該流程可以大大降低時(shí)間和金錢成本阿。

(3)提出了一種用于整體類別級(jí)視覺鉸接操作(C-VAM)任務(wù)的新型架構(gòu) AKBNet。實(shí)驗(yàn)表明,該架構(gòu)的各個(gè)部件和整體模型在現(xiàn)實(shí)世界中是有效的。



2

鉸接知識(shí)庫:AKB-48

在構(gòu)建知識(shí)庫時(shí),我們需要回答三個(gè)問題:(1)我們應(yīng)該標(biāo)注物體的什么類型的知識(shí)?(2)我們應(yīng)該標(biāo)注什么物體,物體來自真實(shí)世界還是模擬世界?(3)如何高效地標(biāo)注物體知識(shí)?

鉸接式物體知識(shí)圖譜 ArtiKG

不同的任務(wù)需要不同種類的物體知識(shí),為了統(tǒng)一標(biāo)注的表征,我們將其組織成一個(gè)多模態(tài)知識(shí)圖譜 ArtiKG。ArtiKG 由四個(gè)主要部分組成,即外觀、結(jié)構(gòu)、物理屬性和語義。

培育強(qiáng)人工智能的「ImageNet」:上海交大盧策吾組提出鉸接物體知識(shí)庫 AKB-48

圖注:AKB-48 數(shù)據(jù)集中定義的鉸接只是圖譜(ArtiKG)。

外觀

我們將每個(gè)實(shí)例的形狀與網(wǎng)格數(shù)據(jù)結(jié)構(gòu)以及紋理存儲(chǔ)在一起。從現(xiàn)實(shí)世界中掃描對象時(shí),我們也會(huì)收集對象的多視圖 RGB-D 快照。

結(jié)構(gòu)

鉸接物體和剛體物體的關(guān)鍵區(qū)別在于運(yùn)動(dòng)結(jié)構(gòu)。被鉸接的物體有關(guān)節(jié)和部位這樣的概念,這些概念對于剛體來說是沒有意義的。對于每個(gè)關(guān)節(jié),我們標(biāo)注了關(guān)節(jié)的類型、參數(shù)和運(yùn)動(dòng)限制。對于每個(gè)部位,我們將每個(gè)運(yùn)動(dòng)部位分割出來。

語義

在對基本的幾何和結(jié)構(gòu)信息進(jìn)行標(biāo)注之后,我們以從粗到細(xì)的過程為物體賦予語義信息。我們?yōu)槊總€(gè)實(shí)例賦予了一個(gè) uuid。接著,我們根據(jù) WordNet 為物體分配類別。此外,我們還標(biāo)記了部位的語義。雖然我們已經(jīng)標(biāo)注了運(yùn)動(dòng)學(xué)上的部位,但它與語義部位并不完全相同。以帶把手的馬克杯為例,把手并不是通過關(guān)節(jié)附著在馬克杯本體上,因此它不是一個(gè)運(yùn)動(dòng)學(xué)上的部位,而是一個(gè)語義上的部位,因?yàn)樗砻髁巳祟愅ǔWト●R克杯的位置。

物理屬性

真實(shí)的物體存在于物理世界中,通常具有物理屬性,這對于精確仿真、真實(shí)世界中的控制和鉸接物體的交互是很重要的。因此,我們?yōu)槟P痛鎯?chǔ)物理屬性的標(biāo)注,包括每個(gè)部位的質(zhì)量、慣量、材料和表面摩擦力。



3

物體選擇:真實(shí)世界掃描 vs. CAD 建模

本文從標(biāo)注的準(zhǔn)確性、時(shí)間和金錢成本兩個(gè)方面對比真實(shí)世界掃描和 CAD 建模。

標(biāo)注準(zhǔn)確性

根據(jù) ArtiKG 的內(nèi)容,我們可以看到,相較于 CAD 建模,從真實(shí)世界中掃描的物體具有很多優(yōu)勢(例如,外觀和物理性質(zhì))。但不可否認(rèn)的是,CAD 模型可以模擬內(nèi)部結(jié)構(gòu),而掃描技術(shù)更多地關(guān)注物體表面。幸運(yùn)的是,大多數(shù)日常用品都可以拆卸,所以掃描技術(shù)可以很好地處理它們。

時(shí)間與金錢成本

在研究新的類別或運(yùn)動(dòng)學(xué)結(jié)構(gòu)時(shí),ShapeNet 類型的模型收集范式局限于構(gòu)建手工 CAD 模型所需的大量時(shí)間和金錢成本。另一方面,日常生活中,許多鉸接物體價(jià)格偏移,可以被外行人掃描。就 CAD 而言,淘寶上的外包服務(wù)價(jià)格如下表所示(單位:美元)。

培育強(qiáng)人工智能的「ImageNet」:上海交大盧策吾組提出鉸接物體知識(shí)庫 AKB-48



4

快速鉸接知識(shí)建模(FArM)

模型獲取設(shè)備

為了高效收集現(xiàn)實(shí)世界的鉸接模型,我們設(shè)置了一個(gè)如下圖所示的記錄系統(tǒng):

培育強(qiáng)人工智能的「ImageNet」:上海交大盧策吾組提出鉸接物體知識(shí)庫 AKB-48

圖注:(1)用于多尺度物體的旋轉(zhuǎn)轉(zhuǎn)臺(tái)(2)是一個(gè)跟蹤標(biāo)記(3)吸光項(xiàng)(4)升降支架(5)Shining 3D 掃描儀(6-8)用于捕獲多視圖物體數(shù)據(jù)的英特爾 RealSenseL515相機(jī)。

關(guān)節(jié)建模

我們?yōu)闃?biāo)注開發(fā)了一個(gè)鉸接物體建模的三維 GUI。建模過程包含三個(gè)部分:物體對齊、部位分割、關(guān)節(jié)標(biāo)注(詳情請參閱原文)。

物理標(biāo)注

現(xiàn)實(shí)世界中的鉸接物體存在于物理世界中,具有物理屬性。為了使 AKB-48 可以被用于現(xiàn)實(shí)世界的機(jī)器人控制和交互任務(wù),我們還為鉸接物體的每個(gè)部分標(biāo)注了以下物理屬性:各部位質(zhì)量、各部位慣性力矩、各部位材料和摩擦力。

數(shù)據(jù)集分析

物體類別

在構(gòu)建 AKB-48 數(shù)據(jù)集的過程中,我們考慮了以下要求:(1)通用性。AKB-48 能夠涵蓋日常生活中常見場景中的大部分鉸接物類別。(2)多樣性。每個(gè)類別中的物體有各種各樣的形狀,形變能力、紋理和運(yùn)動(dòng)結(jié)構(gòu)。(3)用例。所選物體應(yīng)該包含各種使用上的功能。此外,完成控制性能的能力是需要優(yōu)先考慮的。

統(tǒng)計(jì)信息

培育強(qiáng)人工智能的「ImageNet」:上海交大盧策吾組提出鉸接物體知識(shí)庫 AKB-48

圖注:AKB-48 與其它流行的模型數(shù)據(jù)集對比。

我們的 AKB-48 數(shù)據(jù)集在 ArtiKG 中提供了四種豐富的標(biāo)注信息:外觀、結(jié)構(gòu)、語義和物理屬性。AV:平均頂點(diǎn)數(shù)。AT:三角形的平均數(shù)目。ST:語義分類。PS:各部位語義標(biāo)簽。PM:各部位質(zhì)量。PI:各部位慣性力矩。PF:各部位的摩擦力。

AKBNet

AKBNet 是一個(gè)用于 C-VAM 任務(wù)的集成架構(gòu)。AKBNet 的輸入是單張帶有檢測到的二維邊界框的 RGB-D 圖像。AKBNet 中構(gòu)建了三個(gè)子模塊,旨在估計(jì)各部位的 6D 姿態(tài),重構(gòu)鉸接物體的完整幾何形狀,并根據(jù)感知信息推理交互策略。

培育強(qiáng)人工智能的「ImageNet」:上海交大盧策吾組提出鉸接物體知識(shí)庫 AKB-48

圖注:AKBNet 架構(gòu)示意圖。

姿態(tài)模塊

給定帶有二維邊界框的圖像,我們可以獲取部分點(diǎn)云 P。我們首先通過 Pointnet++提取點(diǎn)云特征,然后建立了用于預(yù)測逐點(diǎn)分割 S 和部位級(jí)歸一化物體坐標(biāo)空間(NOCS)圖的兩個(gè)分支。為了解決為止運(yùn)動(dòng)結(jié)構(gòu)和關(guān)節(jié)類型的問題,我們在特征提取器上引入了三個(gè)分支,根據(jù)相應(yīng)的部位對關(guān)節(jié)類型分類,并預(yù)測關(guān)節(jié)的屬性(位置,軸)。最后,我們通過帶有運(yùn)動(dòng)約束的姿態(tài)優(yōu)化算法恢復(fù)出每個(gè)剛性部位的 6D 姿態(tài)。

形狀模塊

給定部分點(diǎn)云 P,形狀模塊旨在恢復(fù)出完整的幾何外形和相應(yīng)的關(guān)節(jié)狀態(tài)。我們利用 A-SDF 構(gòu)建了一個(gè)特征提取器用來處理連接后的部分點(diǎn)云和高斯初始化的形狀嵌入、關(guān)節(jié)嵌入。

控制模塊

控制模塊執(zhí)行兩項(xiàng)任務(wù):分別對應(yīng)于鉸接結(jié)構(gòu)中的轉(zhuǎn)動(dòng)關(guān)節(jié)和移動(dòng)關(guān)節(jié)的打開和拉動(dòng)。為了完成這些任務(wù),我們訓(xùn)練了兩個(gè)強(qiáng)化學(xué)習(xí)智能體。

我們給出了兩種狀態(tài)表征:(1)對象狀態(tài)(2)智能體狀態(tài)。動(dòng)作包括智能體末端執(zhí)行器的三維平移和夾持器的打開寬度。獎(jiǎng)勵(lì)函數(shù)是轉(zhuǎn)動(dòng)關(guān)節(jié)沿目標(biāo)部件關(guān)節(jié)軸方向的旋轉(zhuǎn)角度,移動(dòng)關(guān)節(jié)沿目標(biāo)部件關(guān)節(jié)軸方向的移動(dòng)距離。我們使用兩種常用的強(qiáng)化學(xué)習(xí)基線(帶有 HER 的 TQC 和 SAC)訓(xùn)練。



5

實(shí)驗(yàn)結(jié)果

姿態(tài)模塊性能

我們在真實(shí)世界測試集上評(píng)估了 NPCS、A-NCSH 和 AKBNet 在類別級(jí)關(guān)節(jié)姿態(tài)估計(jì)任務(wù)中的作用。

培育強(qiáng)人工智能的「ImageNet」:上海交大盧策吾組提出鉸接物體知識(shí)庫 AKB-48

圖注:類別級(jí)鉸接姿態(tài)估計(jì)結(jié)果。

在姿態(tài)估計(jì)方面,AKBNet 在旋轉(zhuǎn)、平移和 3D IoU 指標(biāo)上的誤差分別為 9.8、0.021 和 53.6,高于 NPCS 和 A-NCSH。在關(guān)節(jié)相關(guān)的評(píng)估方面,AKBNet 可以精確預(yù)測未見過的鉸接物體的關(guān)節(jié)類型,準(zhǔn)確率為 94.6%。此外,AKBNet 在關(guān)節(jié)軸和位置預(yù)測方面分別具有 8.1 和 0.019 的誤差。

形狀模塊性能

培育強(qiáng)人工智能的「ImageNet」:上海交大盧策吾組提出鉸接物體知識(shí)庫 AKB-48

圖注:鉸接物體重建結(jié)果。

給定真實(shí)的關(guān)節(jié)狀態(tài),形狀模塊可以以 4.2 Chamfer-l1 距離重建出關(guān)節(jié)物體。另一方面,在給定預(yù)測關(guān)節(jié)狀態(tài)的情況下,系統(tǒng)地評(píng)估形狀模塊,該狀態(tài)是由姿態(tài)模塊預(yù)測的相連的兩部分的姿態(tài)推導(dǎo)出來的。Chamfe-l1 距離比真實(shí)的關(guān)節(jié)狀態(tài)下高 3.3,說明所預(yù)測的姿態(tài)對重建性能影響較大。

控制模塊性能

培育強(qiáng)人工智能的「ImageNet」:上海交大盧策吾組提出鉸接物體知識(shí)庫 AKB-48

圖注:鉸接物體控制任務(wù)的成功率。

我們比較了 TQC+HER 訓(xùn)練算法與 SAC+HER 訓(xùn)練算法在 AKBNet 控制模塊上進(jìn)行打開和拉動(dòng)任務(wù)的性能。給定真實(shí)的物體狀態(tài)時(shí),AKBNet 完成打開和拉動(dòng)任務(wù)的成功率分別為 72.5% 和 98.7%。然而,當(dāng)使用預(yù)測的物體狀態(tài)時(shí),我們的方法只有 40.2% 和 44.6% 的成功率。

培育強(qiáng)人工智能的「ImageNet」:上海交大盧策吾組提出鉸接物體知識(shí)庫 AKB-48

雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng))

雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

培育強(qiáng)人工智能的「ImageNet」:上海交大盧策吾組提出鉸接物體知識(shí)庫 AKB-48

分享:
當(dāng)月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡介
為了您的賬戶安全,請驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說