0
本文作者: AI研習(xí)社-譯站 | 2020-09-10 11:36 |
字幕組雙語原文:KeyPose:從立體圖像估計(jì)透明物體3D姿態(tài)
英語原文:KeyPose: Estimating the 3D Pose of Transparent Objects from Stereo
翻譯:雷鋒字幕組(小哲)
在增強(qiáng)現(xiàn)實(shí),機(jī)器人操控等涉及對象級物品感知的計(jì)算機(jī)視覺的應(yīng)用中,3D物體的位置與姿勢評估是一個(gè)核心的難題。在這些應(yīng)用中,重要的是要知道物體的在實(shí)際世界中的三維位置信息,要么直接影響他們,要么正確的放置相似的物品在這些物體周圍。雖然使用機(jī)器學(xué)習(xí)的技術(shù)特別是深度網(wǎng)絡(luò),在相應(yīng)的主題上有很多的研究,但是,他們中的大多數(shù)都依賴于深度傳感器設(shè)備,例如Kinect,這些設(shè)備可以直接給出目標(biāo)的位置測量信息.對于有光澤或透明的物體,直接深度感測效果不佳。例如下邊這張包含了很多物品的圖(左邊),其中有兩個(gè)物體是透明的,深度設(shè)備不能找到這些物體很好的深度信息,并且實(shí)際的三維重構(gòu)效果非常差。(右邊)
左邊: 透明物體的RGB圖像. 右邊:四個(gè)面板的圖像顯示了左邊場景的重構(gòu)的深度圖像, 上邊的一行顯示了重構(gòu)圖像,下邊的一行顯示了三維點(diǎn)云. 左邊面板圖像采用深度相機(jī),右邊的面板利用ClearGrasp模型輸出結(jié)果. 注意,雖然ClearGraph修復(fù)了恒星的深度,但它會錯(cuò)誤地顯示最右邊的一個(gè)的實(shí)際深度。
對于這個(gè)難題的一個(gè)解決方案, 例如ClearGrasp提出的方案, 就是使用深度神經(jīng)網(wǎng)絡(luò)去修復(fù)受損的透明物體的深度圖。給定透明物體的RGB-D圖像, ClearGrasp使用深度神經(jīng)網(wǎng)絡(luò)推測物體表面法線、透明表面的掩模和遮擋邊界,用于優(yōu)化場景中所有透明曲面的初始深度估計(jì)(上圖中最右側(cè)).這種方法非常有前景的, 并且允許利用依賴于深度的姿勢估計(jì)的方法處理透明物體的場景.但是修復(fù)可能很難辦, 特別是完全使用合成的圖像進(jìn)行訓(xùn)練時(shí),可能會導(dǎo)致深度的錯(cuò)誤。
在于斯坦福AI實(shí)驗(yàn)室聯(lián)合發(fā)表在CVPR2020上的文章, " 在與KeyPose:從立體圖者估計(jì)透明物體的三維姿態(tài)" 中, 我們介紹了一個(gè)ML系統(tǒng),直接預(yù)測三維關(guān)鍵點(diǎn)來評估透明物體的深度。 為了訓(xùn)練這個(gè)系統(tǒng),我們自用自動的方式采集了一個(gè)搭的真實(shí)世界透明物體數(shù)據(jù)集,并且利用手工選定的三維關(guān)鍵點(diǎn)高效的標(biāo)注他們的姿勢.然后我們訓(xùn)練深度模型(稱為KeyPose)來從單目或立體圖像中端到端地估計(jì)3D關(guān)鍵點(diǎn),而不需要顯式地計(jì)算深度. 在訓(xùn)練過程中,模型可以處理可見和不可見的對象,包括單個(gè)對象和對象類別。雖然KeyPose可以處理單目圖像,但立體圖像提供的額外信息使其能夠在單目圖像輸入的基礎(chǔ)上將結(jié)果提高兩倍, 根據(jù)對象的不同,典型誤差從5毫米到10毫米不等。它在這些物體的姿態(tài)估計(jì)方面比最先進(jìn)的方法有了實(shí)質(zhì)性的改進(jìn),即使競爭性的方法提供了真實(shí)深度。我們正在發(fā)布keypoint標(biāo)記的透明對象的數(shù)據(jù)集,供研究團(tuán)體使用。
為了構(gòu)建收集高質(zhì)量的真實(shí)圖像, 我們構(gòu)建了機(jī)器人數(shù)據(jù)收集系統(tǒng),著這個(gè)系統(tǒng)中,機(jī)械臂通過一個(gè)軌跡移動,同時(shí)用兩個(gè)設(shè)備拍攝視頻,一個(gè)是立體攝像頭,一個(gè)是Kinect Azure深度攝像頭。
使用帶有立體攝像機(jī)與Azure Kinect設(shè)備的機(jī)械臂自動圖像序列捕捉
目標(biāo)上的AprilTags可以精確跟蹤攝像機(jī)的姿態(tài)。通過在每個(gè)視頻中用2D關(guān)鍵點(diǎn)手工標(biāo)記少數(shù)圖像,我們可以使用多視圖幾何體為視頻的所有幀提取3D關(guān)鍵點(diǎn),從而將標(biāo)記效率提高了100倍。
我們使用10中不同的背景紋理和四種不同的姿勢,捕捉15個(gè)不同的透明物體, 得到一共600個(gè)視頻序列壓縮為48k立體與深度圖像. 我們對于不透明版本的物體捕捉相似的圖像,從而提升真實(shí)深度圖像的精度. 所有的圖像都標(biāo)注三維關(guān)鍵點(diǎn), 我們將公開發(fā)布這個(gè)真實(shí)世界圖像的數(shù)據(jù)集,以補(bǔ)充與之共享相似對象的合成ClearGrap數(shù)據(jù)集。
直接使用立體圖像進(jìn)行關(guān)鍵點(diǎn)估計(jì)的想法的發(fā)展是獨(dú)立于我們這個(gè)項(xiàng)目之外的;它近年來出現(xiàn)在手追蹤的場景中, 下圖顯示了基本思想:在對象周圍裁剪立體相機(jī)的兩幅圖像,并輸入到KeyPose網(wǎng)絡(luò)中,KeyPose網(wǎng)絡(luò)預(yù)測一組稀疏的3D關(guān)鍵點(diǎn),這些關(guān)鍵點(diǎn)代表對象的3D姿勢。網(wǎng)絡(luò)通過使用標(biāo)簽3D關(guān)鍵點(diǎn)的監(jiān)督進(jìn)行訓(xùn)練。
立體KeyPose的一個(gè)關(guān)鍵方面是使用早期融合來混合立體圖像,并允許網(wǎng)絡(luò)隱式地計(jì)算視差,而后期融合則是分別預(yù)測每個(gè)圖像的關(guān)鍵點(diǎn),然后進(jìn)行組合。如下圖所示,KeyPose的輸出是圖像平面中的2D關(guān)鍵點(diǎn)熱圖以及每個(gè)關(guān)鍵點(diǎn)的視差(即逆深度)熱圖。這兩個(gè)熱圖的組合生成每個(gè)關(guān)鍵點(diǎn)的關(guān)鍵點(diǎn)的三維坐標(biāo)。
Keypose系統(tǒng)的圖解. 立體圖像傳入CNN模型來為每個(gè)關(guān)鍵點(diǎn)產(chǎn)生一個(gè)可能性熱圖. 這個(gè)熱圖為每個(gè)關(guān)鍵點(diǎn)給出了二維圖像的坐標(biāo)U, V. CNN模型也為每個(gè)關(guān)鍵點(diǎn)產(chǎn)生視差(逆深度)熱圖, 當(dāng)混合U, V坐標(biāo)之后,就可以給出三維位置(X,Y,Z)。
與后期融合或單目輸入相比,早期融合立體像的精度通常是后者的兩倍。
下邊的圖像顯示了KeyPose在單個(gè)物體上的定性結(jié)果.左邊時(shí)原始立體圖像,;中間是投影到物體上的預(yù)測的三維關(guān)鍵點(diǎn);右邊,我們將瓶子的三維模型中的點(diǎn)可視化,放置在由預(yù)測的3D關(guān)鍵點(diǎn)確定的姿勢上. 網(wǎng)絡(luò)非常高效準(zhǔn)確, 對于這個(gè)瓶子的預(yù)測關(guān)鍵點(diǎn)MAE為5.2mm, 馬克杯為10.1mm,在一個(gè)標(biāo)準(zhǔn)的GPU上僅僅需要5毫秒。
接下來的一張表格顯示了KeyPose的類別層面的估計(jì)結(jié)果. 測試集使用了訓(xùn)練集中不存在的背景紋理。注意,MAE在5.8 mm到9.9 mm之間變化,顯示了該方法的準(zhǔn)確性。
KeyPose與最先進(jìn)的DenseFusion系統(tǒng)在類別級數(shù)據(jù)上的定量比較。我們?yōu)镈enseFusion提供兩種深度版本,一種來自透明對象,另一種來自不透明對象。<2cm是誤差小于2cm的估計(jì)值的百分比。MAE是關(guān)鍵點(diǎn)的平均絕對誤差,單位為mm。
關(guān)于定量結(jié)果的完整統(tǒng)計(jì),以及 ablation studies ,請參閱論文和補(bǔ)充材料以及KeyPose網(wǎng)站。
這篇文章展示了,不依賴于深度圖像來估計(jì)透明物體的三維姿態(tài)是可能的。 它驗(yàn)證了使用例題圖像作為融合深度網(wǎng)絡(luò)的輸入, 訓(xùn)練這個(gè)網(wǎng)絡(luò)直接從力圖圖像對中提取稀疏的三維關(guān)鍵點(diǎn),。我們希望一個(gè)廣泛,有標(biāo)注的透明物體數(shù)據(jù)集的可以促進(jìn)這個(gè)領(lǐng)域的發(fā)展。最后雖然我們使用了半自動的方法高效的標(biāo)注數(shù)據(jù)集,但是在未來的工作中我們希望采用自監(jiān)督的方式來代替手工的標(biāo)注。
我想要感謝我的共同作者, Xingyu Liu of Stanford University, and Rico Jonschkowski and Anelia Angelova; 也有那些在項(xiàng)目實(shí)施與論文寫作過程中,幫助我們的人, 包括: Andy Zheng, Shuran Song, Vincent Vanhoucke, Pete Florence, and Jonathan Tompson。
雷鋒字幕組是一個(gè)由 AI 愛好者組成的翻譯團(tuán)隊(duì),匯聚五百多位志愿者的力量,分享最新的海外AI資訊,交流關(guān)于人工智能技術(shù)領(lǐng)域的行業(yè)變革與技術(shù)創(chuàng)新的見解。
團(tuán)隊(duì)成員有大數(shù)據(jù)專家、算法工程師、圖像處理工程師、產(chǎn)品經(jīng)理、產(chǎn)品運(yùn)營、IT咨詢?nèi)?、在校師生;志愿者們來自IBM、AVL、Adobe、阿里、百度等知名企業(yè),北大、清華、港大、中科院、南卡羅萊納大學(xué)、早稻田大學(xué)等海內(nèi)外高校研究所。
如果,你也是位熱愛分享的AI愛好者。歡迎與雷鋒字幕組一起,學(xué)習(xí)新知,分享成長。
雷鋒網(wǎng)雷鋒網(wǎng)
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。