作者 | 李一鳴
編輯 | 楊怡
抓取是人類和物體最基礎(chǔ)的交互方式,機(jī)器人和物體之間的關(guān)系也是一樣。然而,讓機(jī)器人具有比肩人類的抓取能力并非易事,尤其是雜亂場景下對通用物體的抓取能力,該方向的研究也引起了學(xué)術(shù)界和工業(yè)界的廣泛關(guān)注。
就整理桌面而言,機(jī)器人看到雜亂的桌面場景,需要確認(rèn)待抓取的物體,估計準(zhǔn)確的抓取姿態(tài),進(jìn)行無碰撞的抓取規(guī)劃并最終執(zhí)行,是一項(xiàng)非常具有挑戰(zhàn)性的任務(wù)。
本文將介紹的這篇工作便致力于提升機(jī)器人在雜亂場景下的語義理解及抓取能力,文本提出一種帶語義及碰撞檢測的機(jī)器人抓取姿態(tài)估計方法,能夠端到端地從單視角點(diǎn)云中同時學(xué)習(xí)實(shí)例分割、抓取姿態(tài)及可能存在的碰撞,輸出物體級別的無碰撞抓取配置,最終交由機(jī)器人執(zhí)行。Simultaneous Semantic and Collision Learning for 6-DoF Grasp Pose Estimation (IROS 2021)https://arxiv.org/abs/2108.02425
機(jī)器人抓取物體的通常做法是從視覺角度出發(fā),對目標(biāo)物體進(jìn)行檢測、識別和定位,然后將機(jī)械臂移動到目標(biāo)位置實(shí)施抓取。然而,由于物體的形狀、類別具有不確定性,該做法往往只適用于已知的物體的抓取,缺乏一定的通用性。此外,物體在實(shí)際場景的擺放經(jīng)常具有一定的雜亂性,在實(shí)際抓取過程中,還需要考慮機(jī)器人的運(yùn)動規(guī)劃及控制等問題。
圖1 聯(lián)合實(shí)例分割及碰撞檢測的機(jī)器人抓取姿態(tài)估計示意圖算法將雜亂場景下的機(jī)器人抓取作為一個多任務(wù)學(xué)習(xí)的問題,通過實(shí)例分割、抓取姿態(tài)和碰撞檢測三個分支進(jìn)行聯(lián)合優(yōu)化。圖2 聯(lián)合實(shí)例分割及碰撞檢測的機(jī)器人抓取姿態(tài)估計算法框圖作者采用先提取特征后聚類的方式進(jìn)行桌面物體的實(shí)例分割。具體做法是,同時提取場景點(diǎn)云的語義特征和實(shí)例特征,其中語義特征用來進(jìn)行前景和背景的分割。對于前景點(diǎn),使用判別損失函數(shù)對其類別進(jìn)行監(jiān)督。該判別損失函數(shù)由類內(nèi)方差、類間距離及正則化項(xiàng)組成。類內(nèi)方差約束屬于同一物體的點(diǎn)特征盡可能相近,類間距離約束不同物體的特征中心盡可能遠(yuǎn),正則化項(xiàng)用于約束特征中心接近于原點(diǎn)以確??梢员患せ?。圖3 用于實(shí)例分割的判別損失函數(shù)圖解對于六自由度抓取姿態(tài)估計,作者將三維空間中的抓取配置用可抓取點(diǎn)坐標(biāo)、旋轉(zhuǎn)矩陣、抓取深度、抓取寬度及抓取質(zhì)量表示,同時將點(diǎn)云分為可抓點(diǎn)和不可抓點(diǎn)兩種。作者假定每個可抓點(diǎn)只對應(yīng)一個最優(yōu)的抓取配置。訓(xùn)練階段,只有可抓點(diǎn)的抓取配置用于監(jiān)督。作者采用交叉熵?fù)p失函數(shù)監(jiān)督場景點(diǎn)云中每個點(diǎn)是否可抓。對每個可抓點(diǎn),使用均方誤差損失函數(shù)監(jiān)督抓取深度、抓取寬度及抓取質(zhì)量。對于三維旋轉(zhuǎn),作者將旋轉(zhuǎn)矩陣分解為夾爪趨近方向(Approach)和閉合方向(Close)的單位向量,分別施加位置約束、余弦距離約束和正交約束。作者還增加了一個碰撞檢測的分支,用于預(yù)測夾爪和場景可能存在的潛在碰撞,并通過交叉熵?fù)p失函數(shù)進(jìn)行監(jiān)督。最終生成的抓取由實(shí)例分割、抓取姿態(tài)估計和碰撞檢測三個分支合并加上物體級的非極大值抑制得到。算法在公開數(shù)據(jù)集 Graspnet-1Billion 上評測,達(dá)到了業(yè)界領(lǐng)先水平:圖 5 GraspNet-1Billion數(shù)據(jù)集實(shí)驗(yàn)結(jié)果同時作者使用Kinova Jaco2機(jī)器人及Realsense在真實(shí)場景中進(jìn)行評測,同樣優(yōu)于 Baseline 方法:圖 6 實(shí)際機(jī)器人平臺實(shí)驗(yàn)結(jié)果
這篇工作將雜亂場景下的機(jī)器人抓取問題分為實(shí)例分割、抓取姿態(tài)估計及碰撞檢測三個子任務(wù)并進(jìn)行聯(lián)合優(yōu)化學(xué)習(xí)。實(shí)驗(yàn)表明,算法能夠在雜亂場景中準(zhǔn)確地估計出物體級別、無碰撞的六自由度抓取姿態(tài),達(dá)到業(yè)界領(lǐng)先水平。[1] Fang, Hao-Shu, et al. "Graspnet-1billion: A large-scale benchmark for general object grasping."Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2020.[2] Qin, Yuzhe, et al. "S4g: Amodal single-view single-shot se (3) grasp detection in cluttered scenes." Conference on robot learning. PMLR, 2020.[3] Ten Pas, Andreas, et al. "Grasp pose detection in point clouds." The International Journal of Robotics Research 36.13-14 (2017): 1455-1473.[4] De Brabandere, Bert, Davy Neven, and Luc Van Gool. "Semantic instance segmentation with a discriminative loss function." arXiv preprint arXiv:1708.02551 (2017).
雷鋒網(wǎng)雷鋒網(wǎng)雷鋒網(wǎng)
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。