0
為了輔助人類,AI已經(jīng)練就了「十八般武藝」
如寫詩作詞、繪畫、修圖,編輯視頻等等,樣樣精通。
但如果人類只想——在凌亂的櫥柜里找到一罐豆子?AI還能幫上忙嗎?
也許真的可以!
近日,加州大學(xué)伯克利研究團(tuán)隊(duì)公布了一項(xiàng)最新成果,他們開發(fā)了一種AI系統(tǒng),
“該系統(tǒng)將預(yù)測目標(biāo)物體位置的可感知管道與機(jī)械搜索策略相結(jié)合,可依次選擇遮擋物體并推到一邊,以盡可能的展示目標(biāo)物體?!?/p>
簡單來說,就是他們訓(xùn)練了一個AI機(jī)器人可以在狹窄的空間內(nèi)移除遮擋物,并找到目標(biāo)物體。
他們還提供了一段Demo示例:
圖中,AI機(jī)器臂順利移開了前面白色和紅色的遮擋物,發(fā)現(xiàn)了隱藏背后的豆子罐頭,研究人人員介紹,目前該系統(tǒng)的準(zhǔn)確率最高可達(dá)到87%以上。
看到這里你可能會好奇,為什么要研發(fā)這個看起來很簡單又很日常的AI呢?
事實(shí)上,復(fù)雜環(huán)境中的目標(biāo)對象搜索是AI機(jī)器人技術(shù)的重點(diǎn)研究方向之一,其相關(guān)研究成果也不再少數(shù),但總體而言,針對諸如貨架、廚房、壁櫥等環(huán)境下的研究卻很少。
然而,它卻在現(xiàn)實(shí)世界中有著廣泛的應(yīng)用場景。
例如,醫(yī)院藥房的服務(wù)機(jī)器人可能需要從櫥柜中找到耗材;工業(yè)機(jī)器人可能需要從倉庫貨架上找到成套工具;又或者零售商店的服務(wù)機(jī)器人可能需要在貨架上搜索所需物品等。
這項(xiàng)研究是伯克利和Google研究團(tuán)隊(duì)共同開展的,Google研究人員稱:
我們一直在研究將AI應(yīng)用于最日常的活動場景中去,因?yàn)楦纳扑阉骱瓦x擇對象的方法是工業(yè)應(yīng)用,科學(xué)實(shí)驗(yàn),醫(yī)療保健,零售業(yè)務(wù)以及無數(shù)商業(yè)場景和制造過程的核心。
需要說明的是,以上看似簡單的操作背后有著復(fù)雜的技術(shù)需求。
如研究人員介紹,醫(yī)院、倉庫或零售貨架等場景,因?yàn)榭臻g有限、存在視野障礙,為AI系統(tǒng)的搜索與檢測任務(wù)帶來了極大的挑戰(zhàn)。
為此,他們提出了一種新型預(yù)測目標(biāo)位置系統(tǒng):LAX-RAY(Lateral Access maXimal Reduction of occupancY),該系統(tǒng)支持查找貨架上被遮擋的物體,并解決物體之間“密集接觸”的操縱任務(wù)。
具體來說,研究人員基于該系統(tǒng)提出了:分布區(qū)域縮減(DAR),分布熵縮減(DER),以及Uniform三種搜索策略。
為了測試這些策略的性能,研究人員利用一個開放框架——一階貨架模擬器(FOSS)生成了800個難度各異的隨機(jī)貨架環(huán)境,然后將LAX-RAY系統(tǒng)和嵌入式深度感應(yīng)攝像頭部署到了Fetch機(jī)器人中進(jìn)行了測試。
結(jié)果顯示,與DER相比,DAR和DER-MT策略的表現(xiàn)更好。在模擬中,LAX-RAY系統(tǒng)準(zhǔn)確度達(dá)到了87.3%。而在實(shí)際應(yīng)用環(huán)境中,準(zhǔn)確率也達(dá)到了大約80%。這表明LAX-RAY可以在現(xiàn)實(shí)環(huán)境中有效地查找被遮擋的目標(biāo)對象。
LAX-RAY檢測系統(tǒng)分為兩個主要部分,一是預(yù)測目標(biāo)物體空間占有率感知管道;二是利用該信息有效地解決查找問題的搜索策略。搜索策略結(jié)合感知模塊的輸出結(jié)果和每個步驟的觀察結(jié)果做出移除動作,從而可以有效地發(fā)現(xiàn)目標(biāo)對象。
在感知管道預(yù)測之前,需要對被遮擋物體進(jìn)行深度識別和目標(biāo)對象分割。在這里,研究人員從Google掃描數(shù)據(jù)集中,渲染了5個目標(biāo)物體的30000多個圖像進(jìn)行了訓(xùn)練,其中,大約50%的圖像包含完全遮擋的目標(biāo)物體。
此外,研究人員還從一組單獨(dú)的目標(biāo)模型中渲染了10000幅圖像,這些目標(biāo)與測試集具有相似的縱橫比。
如圖,測試數(shù)據(jù)集中的遮擋對象具有不同的類別和不同的形狀。研究人員使用動量為0.99的隨機(jī)梯度下降法訓(xùn)練了一個完全連接的網(wǎng)絡(luò)(FCN),該網(wǎng)絡(luò)以目標(biāo)物體分割掩模和當(dāng)前貨架的深度圖像為輸入,可輸出目標(biāo)物體的位置分布密度圖。
實(shí)驗(yàn)結(jié)果如下:
研究人員把隨機(jī)的物體放在一個白色的架子上,使用嵌入在機(jī)器人上的PrimeSense RGBD相機(jī)來獲得顏色和深度圖像。在彩色圖像上使用一種顏色檢測算法,通過設(shè)置RGB值的閾值來檢測被涂成綠色的目標(biāo)對象。
如下圖顯示了在完全遮擋情況下,架子上隨機(jī)排列的目標(biāo)對象的預(yù)測結(jié)果。
圖中,5個不同的目標(biāo)物體(長寬比為1:2到4:1)。左側(cè)顯示了隨機(jī)物體在架子上的顏色和PrimeSense相機(jī)拍攝的深度圖像。第一行顯示了來自預(yù)訓(xùn)練模型的二維占用率分布,第二行顯示了覆蓋深度觀測的1D占用率分布。
在實(shí)際應(yīng)用中,每個長寬比的預(yù)測值有顯著差異,再次驗(yàn)證了預(yù)訓(xùn)練模型的準(zhǔn)確性。
基于感知位置信息,研究人員提出了三種搜索策略:
分布區(qū)域縮減(DAR):使用當(dāng)前深度圖像對可用操作進(jìn)行排序,并針對每個對象計(jì)算對象掩碼,預(yù)測最小位置分布的重疊區(qū)域。
分布熵縮減(DER-n):通過在當(dāng)前深度圖像上分割掩模的深度值來預(yù)測P?t+n,可得到新的深度圖像的占有率分布,從而得到預(yù)測狀態(tài)。
Uniform:通過DAR中預(yù)測的占用率分布來創(chuàng)建均勻分布,以代替具有遮擋對象的位置。
實(shí)驗(yàn)結(jié)果如下:
研究人員在800個場景上測試了DER-n(n∈{1,2,3})DAR和Uniform策略。目標(biāo)物體使用的是長寬比為1:1的綠色立方體。如果在10個操作中至少有90%的目標(biāo)物體展示出來,則認(rèn)為策略成功。
表中可以看出,DAR、DER-n策略的性能優(yōu)于Uniform策略,尤其是當(dāng)對象數(shù)量增加時。當(dāng)遮擋對象數(shù)目增加時,所有策略的性能都會下降,因?yàn)锳I機(jī)器臂需要更多的操作步驟來顯示目標(biāo)。
當(dāng)遮擋對象少于6個時,DAR的性能最好。但在6個及更多個對象的場景中,DER-2表現(xiàn)最好,達(dá)到了最高87.3%。其中,與DER-2相比,DER-1的性能較差,是因?yàn)闆]有足夠的目標(biāo)信息被預(yù)測出來,而DER-3較差的原因,是由于預(yù)測誤差的累積。
也就是說,當(dāng)遮擋對象數(shù)較少時,預(yù)測誤差占主導(dǎo)地位,這可以解釋DAR比DER-2性能更好的原因。
以下是DER-1查找9個遮擋物中的目標(biāo)物體的序列圖。
頂部綠色箭頭的RGB圖像,表示推動方向和距離。底部是占用率分布的深度圖像。
每個深度圖像底部繪制的占用率分布包括三部分:上一個時間步長的預(yù)測分布(藍(lán)色)、當(dāng)前時間步長的預(yù)測分布(黃色)以及兩個分布中的最小值(白色)。
總之,本次研究證明了基于LAX-RAY系統(tǒng)檢測策略的可行性和準(zhǔn)確性。研究人員表示,在未來的工作中計(jì)劃研究更復(fù)雜的深度模型,并使用平行于相機(jī)的推力來為側(cè)向推力創(chuàng)造空間,或者使用氣動吸盤來拉動雜亂貨架上遮擋物體。
更多論文詳細(xì)內(nèi)容,請參見:https://arxiv.org/abs/2011.11696
引用鏈接:
https://techxplore.com/news/2020-11-ai-items-constricted-regions.html
https://venturebeat.com/2020/11/26/robotics-researchers-propose-ai-that-locates-items-on-shelves-and-moves-objects-without-tipping-them/
http://ai.stanford.edu/mech-search/shelf/
雷鋒網(wǎng)雷鋒網(wǎng)雷鋒網(wǎng)
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。