0
雷鋒網(wǎng)AI科技評(píng)論按:伯克利AI實(shí)驗(yàn)室最新發(fā)文公布了用于機(jī)器人抓取的Dexterity Network (Dex-Net) 2.0數(shù)據(jù)集,這些數(shù)據(jù)集可以用來(lái)訓(xùn)練根據(jù)實(shí)際機(jī)器人的點(diǎn)云做抓取規(guī)劃的神經(jīng)網(wǎng)絡(luò)。
本文作者為加州大學(xué)伯克利分校博士后研究員Jeff Mahler。雷鋒網(wǎng)全文翻譯如下:
由于傳感器噪聲和遮擋的存在,物體的形狀、位置和質(zhì)量往往不能被精準(zhǔn)確定,因此讓機(jī)器人能夠可靠地抓取各種不同的物體是很大的一項(xiàng)挑戰(zhàn)。
Dexterity Network(Dex-Net)2.0是一個(gè)以魯棒機(jī)器人抓取的物理模型為核心的項(xiàng)目,通過(guò)多達(dá)上千種3D CAD物體模型,生成了海量的平口鉗抓取數(shù)據(jù)集。
這些數(shù)據(jù)集可以用來(lái)訓(xùn)練根據(jù)一個(gè)實(shí)際機(jī)器人的點(diǎn)云做抓取規(guī)劃的神經(jīng)網(wǎng)絡(luò),這個(gè)實(shí)體機(jī)器人可以拿取、運(yùn)輸各種物體。
為了提高重現(xiàn)性,助力將來(lái)的研究,在這里公開(kāi)如下三個(gè)數(shù)據(jù)庫(kù):
1、Dexterity Network (Dex-Net) 2.0數(shù)據(jù)集:670萬(wàn)對(duì)帶有魯棒標(biāo)簽的合成點(diǎn)云和抓取數(shù)據(jù)。
2、Grasp Quality CNN (GQ-CNN)模型:在Dex-Net 2.0數(shù)據(jù)集中訓(xùn)練的1800萬(wàn)個(gè)參數(shù)。
3、GQ-CNN Python 程序包: 包含代碼,可以復(fù)現(xiàn)我們用生成的數(shù)據(jù)訓(xùn)練GQ-CNN網(wǎng)絡(luò)的結(jié)果。(點(diǎn)我打開(kāi))(注意下面的系統(tǒng)需求)
在這篇文章中,我們也概述了支持Dex-Net 2.0的方法,在實(shí)際機(jī)器人上的實(shí)驗(yàn)結(jié)果,以及數(shù)據(jù)集、模型和代碼的細(xì)節(jié)。
關(guān)于Dexterity Network的研究論文和額外信息可以在這個(gè)項(xiàng)目的網(wǎng)站上找到。網(wǎng)址如下:https://berkeleyautomation.github.io/dex-net
Dex-Net是加州大學(xué)伯克利分校AUTOLAB實(shí)驗(yàn)室的研究項(xiàng)目,由Ken Goldberg教授指導(dǎo)。
抓取的背景
由于傳感器噪聲和遮擋,很難精確的推斷物體的形狀、位姿、材料、質(zhì)量以及手指與物體之間接觸點(diǎn)的位置等物理性質(zhì),因此讓機(jī)器人能夠抓取各種不同的物體很困難。
最近的研究結(jié)果表明,通過(guò)大量人類抓取標(biāo)簽(human grasp labels)或者真實(shí)系統(tǒng)上嘗試抓取的數(shù)據(jù)訓(xùn)練的深度神經(jīng)網(wǎng)絡(luò)可以成功地對(duì)許多種不同的物體做抓取規(guī)劃,甚至都不需要對(duì)被抓取的物體做清晰的建模,就像曾在計(jì)算機(jī)視覺(jué)領(lǐng)域里看到過(guò)的泛化結(jié)果一樣。
然而,生成訓(xùn)練數(shù)據(jù)集可能需要耗費(fèi)大量時(shí)間。
為了減少訓(xùn)練時(shí)間,可以利用云計(jì)算的方法,基于物理抓取模型對(duì)大量物體的網(wǎng)格模型快速進(jìn)行抓取計(jì)算。
這些方法通過(guò)一個(gè)叫抓取魯棒性(the grasp robustness)的參數(shù)來(lái)排序抓取動(dòng)作,這個(gè)參數(shù)是通過(guò)力學(xué)模型預(yù)測(cè)出的抓取成功率。通過(guò)基于物體位置、表面摩擦等屬性計(jì)算出的概率分布,判斷抓取動(dòng)作對(duì)任意的力和力矩的抵抗能力。
不過(guò),這些方法對(duì)感知系統(tǒng)提出了很高的要求,需要能夠完美地估算上述屬性或是根據(jù)已知的高斯分布來(lái)估算屬性。實(shí)際中的感知系統(tǒng)很緩慢,容易出錯(cuò),可能不能很好地?cái)U(kuò)展到新的物體上。
盡管經(jīng)過(guò)了30多年的研究,通過(guò)試探法(heuristics)進(jìn)行抓取規(guī)劃仍很常見(jiàn),例如圓柱體探測(cè)(detecting cylinders)在家庭整理(home decluttering)和亞馬遜挑揀大賽(the Amazon Picking Challenge)中的應(yīng)用。
靈敏網(wǎng)絡(luò) (Dex-Net) 2.0
不同于試圖通過(guò)圖形來(lái)估算3D物體的形狀和位姿,Dex-Net 2.0使用概率模型來(lái)從數(shù)據(jù)集生成綜合點(diǎn)云、抓取規(guī)劃以及抓取魯棒標(biāo)簽(grasp robustness labels),這個(gè)數(shù)據(jù)集是基于物理的抓取、圖像渲染和相機(jī)噪聲模型生成的3D物體網(wǎng)格。
我們?cè)O(shè)計(jì)這個(gè)方法主要考慮到的是:魯棒性地用平口鉗抓取物體與物體的形狀息息相關(guān)。
把手和圓柱體這樣適合抓取的幾何特征可以在部分點(diǎn)云中看到,它們和抓取之間的關(guān)聯(lián)性也可以在模型生成的樣本中觀察到。
我們假設(shè)具有多層濾波器的深度CNN模型可以學(xué)到這些關(guān)聯(lián)性,從而識(shí)別出幾何體,與用于圖像分類的CNN模型可以學(xué)到類Gabor濾波器類似。
在 “Dex-Net 2.0:借助生成的點(diǎn)云和抓取度量分析,用深度學(xué)習(xí)規(guī)劃魯棒抓取” 這篇論文中,我們正則化了這個(gè)方法并對(duì)其進(jìn)行研究。
在論文中,我們?cè)斒隽薉exterity Network (Dex-Net )2.0,這是一個(gè)擁有670萬(wàn)魯棒抓取和點(diǎn)云的數(shù)據(jù)集,數(shù)據(jù)中帶有我們的概率模型生成的噪音,這個(gè)概率模型是我們用平口鉗在桌面上抓取剛性物體得到的。
我們開(kāi)發(fā)了一種深度抓取質(zhì)量卷積神經(jīng)網(wǎng)絡(luò)(GQ-CNN)模型,并在Dex-Net 2.0上對(duì)它進(jìn)行訓(xùn)練,用候選抓取規(guī)劃和點(diǎn)云估算抓取的魯棒性(grasp robustness)。
利用GQ-CNN模型,可以從帶有邊緣檢測(cè)的輸入點(diǎn)云得到候選抓取方案,通過(guò)對(duì)這些候選抓取方案進(jìn)行采樣,以及執(zhí)行GQ-CNN估計(jì)得到的最魯棒的抓取,就可以在實(shí)際機(jī)器人上規(guī)劃抓?。?/p>
在Dex-Net 2.0上進(jìn)行訓(xùn)練的時(shí)候,GQ-CNN學(xué)到了一組看起來(lái)可以對(duì)不同尺寸圖像檢測(cè)梯度的低層次濾波器。
濾波器可以分為兩類:一類是用于估算夾鉗和物體之間碰撞的粗導(dǎo)向梯度濾波器(coarse oriented gradient filters),另一類是用于估算手指和物體之間接觸點(diǎn)表面法向量的精細(xì)垂直濾波器(fine vertical filters):
在ABB YuMi上進(jìn)行了如下實(shí)驗(yàn)
為了評(píng)估基于GQ-CNN進(jìn)行抓取規(guī)劃的實(shí)際機(jī)器人,我們對(duì) ABB YuMi進(jìn)行了超過(guò)1000次的抓取實(shí)驗(yàn)。主要是研究以下兩個(gè)指標(biāo):
1、模型性能:用一組已知的物體生成數(shù)據(jù),只用這些數(shù)據(jù)訓(xùn)練的GQ-CNN模型能否讓實(shí)際的機(jī)器人成功抓取這些物體?
2、普遍性: GQ-CNN模型能否成功地抓取在訓(xùn)練中沒(méi)有出現(xiàn)的新物體?
模型性能
首先,我們測(cè)量了這個(gè)抓取規(guī)劃方法的能力——當(dāng)用夾鉗舉起、運(yùn)輸和搖動(dòng)物體時(shí),是否能一直保持對(duì)物體控制。
我們使用了一組8個(gè)已知形狀、質(zhì)心和摩擦特性的3D打印物體,來(lái)突出我們的物理模型和實(shí)際機(jī)器人抓取之間的差異。
為了對(duì)失敗模式進(jìn)行探討,我們?yōu)槎种缸ナ诌x擇具有對(duì)抗性的幾何形狀(adversarial geometry)的物體來(lái)進(jìn)行抓取,比如表面光滑或彎曲,開(kāi)口的狹小物體。
我們發(fā)現(xiàn)Dex-Net 2.0抓取規(guī)劃器(grasp planner)用于實(shí)際機(jī)器人上可以取得高達(dá)93%的成功率,比將精確的物體形狀與點(diǎn)云相匹配的方法快了3倍。
結(jié)果表明:1,當(dāng)物體屬性已知時(shí),我們的物理模型能有效的預(yù)測(cè)實(shí)際機(jī)器人的抓取結(jié)果;2,GQ-CNN模型能被用于規(guī)劃更高精確度的抓取。
下圖是一個(gè)例子:
普遍性
我們還測(cè)試了一組40個(gè)新的有可活動(dòng)部件或者會(huì)變形的物體,例如開(kāi)罐器和毛巾,從而評(píng)估了將抓取規(guī)劃泛化到先前從未見(jiàn)過(guò)的物體的能力。
在進(jìn)一步分析數(shù)據(jù)之后,我們發(fā)現(xiàn)了一個(gè)令人驚訝的結(jié)果:在69次預(yù)測(cè)能夠成功的抓取中,GQ-CNN模型只出現(xiàn)了一次誤報(bào)。
99%的精確度非常重要,因?yàn)樗砻鳈C(jī)器人可以根據(jù)它的信心標(biāo)簽(confidence labels)來(lái)預(yù)測(cè)失敗,并執(zhí)行諸如戳目標(biāo)物體或向人求助等恢復(fù)動(dòng)作。
局限
用Dex-Net 2.0抓取規(guī)劃的結(jié)果表明,只在利用抓取和圖像形成(image formation)的物理模型產(chǎn)生的數(shù)據(jù)上訓(xùn)練神經(jīng)網(wǎng)絡(luò),對(duì)于很多種不同的物體都可以進(jìn)行高可靠性的抓取。然而,當(dāng)前的方法有幾個(gè)局限。
1、傳感器精度。實(shí)際的深度相機(jī)上,缺失數(shù)據(jù)之類的噪聲源在Dex-Net 2.0模型中沒(méi)有被考慮進(jìn)來(lái)。此外,深度照相機(jī)不能識(shí)別桌上的透明物體或平面物體。
2、模型局限:Dex-Net 2.0中使用的物理抓取模型考慮到了對(duì)剛體的指尖抓取,我們沒(méi)有囊括用夾持器夾起一張平的紙或用一個(gè)指頭勾起物體的抓取策略。
3、單一物體。該方法只能抓取一個(gè)單獨(dú)的物體,目前我們正在擴(kuò)展Dex-Net 2.0模型功能,研究如何從一堆物體中抓取對(duì)象。
4、獨(dú)立任務(wù)。用這種方法規(guī)劃抓取可以穩(wěn)定的拿取和運(yùn)輸物體,但沒(méi)有考慮到在裝配時(shí)對(duì)物體的精確定位、堆疊或是連接到另一個(gè)物體的用例,這時(shí)可能需要更精確的抓取。我們正在通過(guò)基于任務(wù)的抓取質(zhì)量值(task-based grasp quality metrics)、動(dòng)態(tài)仿真和演示學(xué)習(xí)研究可能的擴(kuò)展功能。
數(shù)據(jù)集和代碼發(fā)布
2017年夏天,我們發(fā)布了我們的代碼、數(shù)據(jù)集和經(jīng)過(guò)GQ-CNN權(quán)重訓(xùn)練的一個(gè)子集,我們希望這將有助于進(jìn)一步的研究和對(duì)比。
現(xiàn)在我們發(fā)布Dex-Net 2.0的訓(xùn)練數(shù)據(jù)集和代碼,其中包括了包含670萬(wàn)個(gè)合成數(shù)據(jù)集的dex-net 2.0數(shù)據(jù)集,從論文中預(yù)先訓(xùn)練過(guò)的gq-cnn模型,以及gqcnn Python包,用于復(fù)制我們的實(shí)驗(yàn),將健壯的掌握在gq-cnn的合成數(shù)據(jù)上。
我們希望這將有助于開(kāi)發(fā)新的GQ-CNN架構(gòu)和訓(xùn)練方法,這些方法將在生成的數(shù)據(jù)集和我們的機(jī)器人已經(jīng)收集到的數(shù)據(jù)集上都能運(yùn)行得更好。
系統(tǒng)需求
這里有一點(diǎn)需要注意,使用這個(gè)特定的數(shù)據(jù)集進(jìn)行訓(xùn)練的機(jī)器人具有強(qiáng)大的性能,但并不代表其他機(jī)器人也會(huì)具有這樣的性能,因?yàn)檫@個(gè)數(shù)據(jù)集是對(duì)以下的組件專用的:
1) ABB YuMi夾持器,數(shù)據(jù)集中使用了它的碰撞幾何外型。
2) Primesense Carmine 1.08傳感器,數(shù)據(jù)集的渲染中使用了它的相機(jī)參數(shù)。
3) 相機(jī)相對(duì)于桌子的空間位置: 在桌子上方50-70厘米范圍內(nèi)直接朝下攝像。
盡管如此,支撐這個(gè)數(shù)據(jù)集的算法可以為相關(guān)的其他二手指夾持器、相機(jī)和相機(jī)位置產(chǎn)生新的數(shù)據(jù)集。
我們假設(shè),如果訓(xùn)練數(shù)據(jù)集是根據(jù)硬件配置中的夾具幾何結(jié)構(gòu)(gripper geometry)、相機(jī)內(nèi)部函數(shù)(intrinsics)和相機(jī)位置而專門生成的,基于GQ-CNN的抓取規(guī)劃將會(huì)表現(xiàn)得最好。
ABB YuMi Benchmark
我們最佳的模型在合成數(shù)據(jù)上只能達(dá)到93%的分類精度,為了研究改進(jìn)GQ-CNN架構(gòu),我們計(jì)劃在Dex-Net 2.0數(shù)據(jù)集上做一個(gè)表現(xiàn)排行榜(leaderboard of performance)。
由于數(shù)據(jù)集是針對(duì)硬件配置專用的,我們很樂(lè)意在我們的實(shí)際機(jī)器人上對(duì)用合成數(shù)據(jù)訓(xùn)練的、表現(xiàn)明顯高出其它方法的模型做benchmark。
歡迎任何學(xué)科或背景的研究人員加入我們。
Python包
為了幫助訓(xùn)練GQ-CNN模型,我們開(kāi)發(fā)了 gqcnn Python包。
通過(guò)gqcnn,你可以馬上在Dex-Net 2.0生成的數(shù)據(jù)集上開(kāi)始訓(xùn)練GQ-CNN模型。
在我們的RSS論文中有教你復(fù)現(xiàn)結(jié)果的教程,我們還邀請(qǐng)研究人員在合成數(shù)據(jù)集和通過(guò)ABB YuMi機(jī)器人收集的抓取數(shù)據(jù)集(datasets of grasps)上進(jìn)行研究,改善分類性能。
我們還使用ROS服務(wù)來(lái)進(jìn)行GQ-CNN的抓取規(guī)劃。ROS包能使用戶看到在GQ-CNN上對(duì)自定的點(diǎn)云的抓取規(guī)劃的結(jié)果。
我們鼓勵(lì)有興趣的同行在桌面上方約50-70厘米的范圍內(nèi)安裝一個(gè)Primesense Carmine 1.08或Microsoft Kinect for Xbox 360,通過(guò)基于GQ-CNN的抓取規(guī)劃器進(jìn)行抓取。
雖然我們的數(shù)據(jù)集不能推廣到上面提到的其他硬件配置上,但希望通過(guò)進(jìn)一步的研究,能夠做到利用GQ-CNN模型讓其他機(jī)器人抬舉和運(yùn)輸物品。
如果你對(duì)這一項(xiàng)目的研究合作感興趣,請(qǐng)給Jeff Mahler發(fā)郵件(jmahler@berkeley.edu)。
未來(lái)的發(fā)布計(jì)劃
我們還計(jì)劃在2017年如下日期發(fā)布Dex-Net系統(tǒng)的附加數(shù)據(jù)和功能:
Dex-Net Object Mesh Dataset v1.1:在RSS論文中使用的Dex-Net 1.0系統(tǒng)中1500個(gè)3D物體模型的子集,這些子集帶有ABB YuMi平口鉗抓取的標(biāo)簽。2017年7月12號(hào)發(fā)布。
Dex-Net as a Service: 通過(guò)HTTP網(wǎng)絡(luò)API對(duì)自定義3D模型創(chuàng)建新的數(shù)據(jù)集并計(jì)算抓取魯棒性值(grasp robustness metrics)。2017年秋發(fā)布。
Via:http://bair.berkeley.edu/blog/2017/06/27/dexnet-2.0/,雷鋒網(wǎng)編譯。
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。