0
雷鋒網(wǎng)AI科技評論按:伯克利AI實驗室最新發(fā)文公布了用于機(jī)器人抓取的Dexterity Network (Dex-Net) 2.0數(shù)據(jù)集,這些數(shù)據(jù)集可以用來訓(xùn)練根據(jù)實際機(jī)器人的點云做抓取規(guī)劃的神經(jīng)網(wǎng)絡(luò)。
本文作者為加州大學(xué)伯克利分校博士后研究員Jeff Mahler。雷鋒網(wǎng)全文翻譯如下:
由于傳感器噪聲和遮擋的存在,物體的形狀、位置和質(zhì)量往往不能被精準(zhǔn)確定,因此讓機(jī)器人能夠可靠地抓取各種不同的物體是很大的一項挑戰(zhàn)。
Dexterity Network(Dex-Net)2.0是一個以魯棒機(jī)器人抓取的物理模型為核心的項目,通過多達(dá)上千種3D CAD物體模型,生成了海量的平口鉗抓取數(shù)據(jù)集。
這些數(shù)據(jù)集可以用來訓(xùn)練根據(jù)一個實際機(jī)器人的點云做抓取規(guī)劃的神經(jīng)網(wǎng)絡(luò),這個實體機(jī)器人可以拿取、運(yùn)輸各種物體。
為了提高重現(xiàn)性,助力將來的研究,在這里公開如下三個數(shù)據(jù)庫:
1、Dexterity Network (Dex-Net) 2.0數(shù)據(jù)集:670萬對帶有魯棒標(biāo)簽的合成點云和抓取數(shù)據(jù)。
2、Grasp Quality CNN (GQ-CNN)模型:在Dex-Net 2.0數(shù)據(jù)集中訓(xùn)練的1800萬個參數(shù)。
3、GQ-CNN Python 程序包: 包含代碼,可以復(fù)現(xiàn)我們用生成的數(shù)據(jù)訓(xùn)練GQ-CNN網(wǎng)絡(luò)的結(jié)果。(點我打開)(注意下面的系統(tǒng)需求)
在這篇文章中,我們也概述了支持Dex-Net 2.0的方法,在實際機(jī)器人上的實驗結(jié)果,以及數(shù)據(jù)集、模型和代碼的細(xì)節(jié)。
關(guān)于Dexterity Network的研究論文和額外信息可以在這個項目的網(wǎng)站上找到。網(wǎng)址如下:https://berkeleyautomation.github.io/dex-net
Dex-Net是加州大學(xué)伯克利分校AUTOLAB實驗室的研究項目,由Ken Goldberg教授指導(dǎo)。
抓取的背景
由于傳感器噪聲和遮擋,很難精確的推斷物體的形狀、位姿、材料、質(zhì)量以及手指與物體之間接觸點的位置等物理性質(zhì),因此讓機(jī)器人能夠抓取各種不同的物體很困難。
最近的研究結(jié)果表明,通過大量人類抓取標(biāo)簽(human grasp labels)或者真實系統(tǒng)上嘗試抓取的數(shù)據(jù)訓(xùn)練的深度神經(jīng)網(wǎng)絡(luò)可以成功地對許多種不同的物體做抓取規(guī)劃,甚至都不需要對被抓取的物體做清晰的建模,就像曾在計算機(jī)視覺領(lǐng)域里看到過的泛化結(jié)果一樣。
然而,生成訓(xùn)練數(shù)據(jù)集可能需要耗費(fèi)大量時間。
為了減少訓(xùn)練時間,可以利用云計算的方法,基于物理抓取模型對大量物體的網(wǎng)格模型快速進(jìn)行抓取計算。
這些方法通過一個叫抓取魯棒性(the grasp robustness)的參數(shù)來排序抓取動作,這個參數(shù)是通過力學(xué)模型預(yù)測出的抓取成功率。通過基于物體位置、表面摩擦等屬性計算出的概率分布,判斷抓取動作對任意的力和力矩的抵抗能力。
不過,這些方法對感知系統(tǒng)提出了很高的要求,需要能夠完美地估算上述屬性或是根據(jù)已知的高斯分布來估算屬性。實際中的感知系統(tǒng)很緩慢,容易出錯,可能不能很好地擴(kuò)展到新的物體上。
盡管經(jīng)過了30多年的研究,通過試探法(heuristics)進(jìn)行抓取規(guī)劃仍很常見,例如圓柱體探測(detecting cylinders)在家庭整理(home decluttering)和亞馬遜挑揀大賽(the Amazon Picking Challenge)中的應(yīng)用。
靈敏網(wǎng)絡(luò) (Dex-Net) 2.0
不同于試圖通過圖形來估算3D物體的形狀和位姿,Dex-Net 2.0使用概率模型來從數(shù)據(jù)集生成綜合點云、抓取規(guī)劃以及抓取魯棒標(biāo)簽(grasp robustness labels),這個數(shù)據(jù)集是基于物理的抓取、圖像渲染和相機(jī)噪聲模型生成的3D物體網(wǎng)格。
我們設(shè)計這個方法主要考慮到的是:魯棒性地用平口鉗抓取物體與物體的形狀息息相關(guān)。
把手和圓柱體這樣適合抓取的幾何特征可以在部分點云中看到,它們和抓取之間的關(guān)聯(lián)性也可以在模型生成的樣本中觀察到。
我們假設(shè)具有多層濾波器的深度CNN模型可以學(xué)到這些關(guān)聯(lián)性,從而識別出幾何體,與用于圖像分類的CNN模型可以學(xué)到類Gabor濾波器類似。
在 “Dex-Net 2.0:借助生成的點云和抓取度量分析,用深度學(xué)習(xí)規(guī)劃魯棒抓取” 這篇論文中,我們正則化了這個方法并對其進(jìn)行研究。
在論文中,我們詳述了Dexterity Network (Dex-Net )2.0,這是一個擁有670萬魯棒抓取和點云的數(shù)據(jù)集,數(shù)據(jù)中帶有我們的概率模型生成的噪音,這個概率模型是我們用平口鉗在桌面上抓取剛性物體得到的。
我們開發(fā)了一種深度抓取質(zhì)量卷積神經(jīng)網(wǎng)絡(luò)(GQ-CNN)模型,并在Dex-Net 2.0上對它進(jìn)行訓(xùn)練,用候選抓取規(guī)劃和點云估算抓取的魯棒性(grasp robustness)。
利用GQ-CNN模型,可以從帶有邊緣檢測的輸入點云得到候選抓取方案,通過對這些候選抓取方案進(jìn)行采樣,以及執(zhí)行GQ-CNN估計得到的最魯棒的抓取,就可以在實際機(jī)器人上規(guī)劃抓?。?/p>
在Dex-Net 2.0上進(jìn)行訓(xùn)練的時候,GQ-CNN學(xué)到了一組看起來可以對不同尺寸圖像檢測梯度的低層次濾波器。
濾波器可以分為兩類:一類是用于估算夾鉗和物體之間碰撞的粗導(dǎo)向梯度濾波器(coarse oriented gradient filters),另一類是用于估算手指和物體之間接觸點表面法向量的精細(xì)垂直濾波器(fine vertical filters):
在ABB YuMi上進(jìn)行了如下實驗
為了評估基于GQ-CNN進(jìn)行抓取規(guī)劃的實際機(jī)器人,我們對 ABB YuMi進(jìn)行了超過1000次的抓取實驗。主要是研究以下兩個指標(biāo):
1、模型性能:用一組已知的物體生成數(shù)據(jù),只用這些數(shù)據(jù)訓(xùn)練的GQ-CNN模型能否讓實際的機(jī)器人成功抓取這些物體?
2、普遍性: GQ-CNN模型能否成功地抓取在訓(xùn)練中沒有出現(xiàn)的新物體?
模型性能
首先,我們測量了這個抓取規(guī)劃方法的能力——當(dāng)用夾鉗舉起、運(yùn)輸和搖動物體時,是否能一直保持對物體控制。
我們使用了一組8個已知形狀、質(zhì)心和摩擦特性的3D打印物體,來突出我們的物理模型和實際機(jī)器人抓取之間的差異。
為了對失敗模式進(jìn)行探討,我們?yōu)槎种缸ナ诌x擇具有對抗性的幾何形狀(adversarial geometry)的物體來進(jìn)行抓取,比如表面光滑或彎曲,開口的狹小物體。
我們發(fā)現(xiàn)Dex-Net 2.0抓取規(guī)劃器(grasp planner)用于實際機(jī)器人上可以取得高達(dá)93%的成功率,比將精確的物體形狀與點云相匹配的方法快了3倍。
結(jié)果表明:1,當(dāng)物體屬性已知時,我們的物理模型能有效的預(yù)測實際機(jī)器人的抓取結(jié)果;2,GQ-CNN模型能被用于規(guī)劃更高精確度的抓取。
下圖是一個例子:
普遍性
我們還測試了一組40個新的有可活動部件或者會變形的物體,例如開罐器和毛巾,從而評估了將抓取規(guī)劃泛化到先前從未見過的物體的能力。
在進(jìn)一步分析數(shù)據(jù)之后,我們發(fā)現(xiàn)了一個令人驚訝的結(jié)果:在69次預(yù)測能夠成功的抓取中,GQ-CNN模型只出現(xiàn)了一次誤報。
99%的精確度非常重要,因為它表明機(jī)器人可以根據(jù)它的信心標(biāo)簽(confidence labels)來預(yù)測失敗,并執(zhí)行諸如戳目標(biāo)物體或向人求助等恢復(fù)動作。
局限
用Dex-Net 2.0抓取規(guī)劃的結(jié)果表明,只在利用抓取和圖像形成(image formation)的物理模型產(chǎn)生的數(shù)據(jù)上訓(xùn)練神經(jīng)網(wǎng)絡(luò),對于很多種不同的物體都可以進(jìn)行高可靠性的抓取。然而,當(dāng)前的方法有幾個局限。
1、傳感器精度。實際的深度相機(jī)上,缺失數(shù)據(jù)之類的噪聲源在Dex-Net 2.0模型中沒有被考慮進(jìn)來。此外,深度照相機(jī)不能識別桌上的透明物體或平面物體。
2、模型局限:Dex-Net 2.0中使用的物理抓取模型考慮到了對剛體的指尖抓取,我們沒有囊括用夾持器夾起一張平的紙或用一個指頭勾起物體的抓取策略。
3、單一物體。該方法只能抓取一個單獨的物體,目前我們正在擴(kuò)展Dex-Net 2.0模型功能,研究如何從一堆物體中抓取對象。
4、獨立任務(wù)。用這種方法規(guī)劃抓取可以穩(wěn)定的拿取和運(yùn)輸物體,但沒有考慮到在裝配時對物體的精確定位、堆疊或是連接到另一個物體的用例,這時可能需要更精確的抓取。我們正在通過基于任務(wù)的抓取質(zhì)量值(task-based grasp quality metrics)、動態(tài)仿真和演示學(xué)習(xí)研究可能的擴(kuò)展功能。
數(shù)據(jù)集和代碼發(fā)布
2017年夏天,我們發(fā)布了我們的代碼、數(shù)據(jù)集和經(jīng)過GQ-CNN權(quán)重訓(xùn)練的一個子集,我們希望這將有助于進(jìn)一步的研究和對比。
現(xiàn)在我們發(fā)布Dex-Net 2.0的訓(xùn)練數(shù)據(jù)集和代碼,其中包括了包含670萬個合成數(shù)據(jù)集的dex-net 2.0數(shù)據(jù)集,從論文中預(yù)先訓(xùn)練過的gq-cnn模型,以及gqcnn Python包,用于復(fù)制我們的實驗,將健壯的掌握在gq-cnn的合成數(shù)據(jù)上。
我們希望這將有助于開發(fā)新的GQ-CNN架構(gòu)和訓(xùn)練方法,這些方法將在生成的數(shù)據(jù)集和我們的機(jī)器人已經(jīng)收集到的數(shù)據(jù)集上都能運(yùn)行得更好。
系統(tǒng)需求
這里有一點需要注意,使用這個特定的數(shù)據(jù)集進(jìn)行訓(xùn)練的機(jī)器人具有強(qiáng)大的性能,但并不代表其他機(jī)器人也會具有這樣的性能,因為這個數(shù)據(jù)集是對以下的組件專用的:
1) ABB YuMi夾持器,數(shù)據(jù)集中使用了它的碰撞幾何外型。
2) Primesense Carmine 1.08傳感器,數(shù)據(jù)集的渲染中使用了它的相機(jī)參數(shù)。
3) 相機(jī)相對于桌子的空間位置: 在桌子上方50-70厘米范圍內(nèi)直接朝下攝像。
盡管如此,支撐這個數(shù)據(jù)集的算法可以為相關(guān)的其他二手指夾持器、相機(jī)和相機(jī)位置產(chǎn)生新的數(shù)據(jù)集。
我們假設(shè),如果訓(xùn)練數(shù)據(jù)集是根據(jù)硬件配置中的夾具幾何結(jié)構(gòu)(gripper geometry)、相機(jī)內(nèi)部函數(shù)(intrinsics)和相機(jī)位置而專門生成的,基于GQ-CNN的抓取規(guī)劃將會表現(xiàn)得最好。
ABB YuMi Benchmark
我們最佳的模型在合成數(shù)據(jù)上只能達(dá)到93%的分類精度,為了研究改進(jìn)GQ-CNN架構(gòu),我們計劃在Dex-Net 2.0數(shù)據(jù)集上做一個表現(xiàn)排行榜(leaderboard of performance)。
由于數(shù)據(jù)集是針對硬件配置專用的,我們很樂意在我們的實際機(jī)器人上對用合成數(shù)據(jù)訓(xùn)練的、表現(xiàn)明顯高出其它方法的模型做benchmark。
歡迎任何學(xué)科或背景的研究人員加入我們。
Python包
為了幫助訓(xùn)練GQ-CNN模型,我們開發(fā)了 gqcnn Python包。
通過gqcnn,你可以馬上在Dex-Net 2.0生成的數(shù)據(jù)集上開始訓(xùn)練GQ-CNN模型。
在我們的RSS論文中有教你復(fù)現(xiàn)結(jié)果的教程,我們還邀請研究人員在合成數(shù)據(jù)集和通過ABB YuMi機(jī)器人收集的抓取數(shù)據(jù)集(datasets of grasps)上進(jìn)行研究,改善分類性能。
我們還使用ROS服務(wù)來進(jìn)行GQ-CNN的抓取規(guī)劃。ROS包能使用戶看到在GQ-CNN上對自定的點云的抓取規(guī)劃的結(jié)果。
我們鼓勵有興趣的同行在桌面上方約50-70厘米的范圍內(nèi)安裝一個Primesense Carmine 1.08或Microsoft Kinect for Xbox 360,通過基于GQ-CNN的抓取規(guī)劃器進(jìn)行抓取。
雖然我們的數(shù)據(jù)集不能推廣到上面提到的其他硬件配置上,但希望通過進(jìn)一步的研究,能夠做到利用GQ-CNN模型讓其他機(jī)器人抬舉和運(yùn)輸物品。
如果你對這一項目的研究合作感興趣,請給Jeff Mahler發(fā)郵件(jmahler@berkeley.edu)。
未來的發(fā)布計劃
我們還計劃在2017年如下日期發(fā)布Dex-Net系統(tǒng)的附加數(shù)據(jù)和功能:
Dex-Net Object Mesh Dataset v1.1:在RSS論文中使用的Dex-Net 1.0系統(tǒng)中1500個3D物體模型的子集,這些子集帶有ABB YuMi平口鉗抓取的標(biāo)簽。2017年7月12號發(fā)布。
Dex-Net as a Service: 通過HTTP網(wǎng)絡(luò)API對自定義3D模型創(chuàng)建新的數(shù)據(jù)集并計算抓取魯棒性值(grasp robustness metrics)。2017年秋發(fā)布。
Via:http://bair.berkeley.edu/blog/2017/06/27/dexnet-2.0/,雷鋒網(wǎng)編譯。
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。