0
本文作者: 晟煒 | 編輯:郭奕欣 | 2017-05-31 09:35 | 專題:ICRA 2017:創(chuàng)新、創(chuàng)業(yè)和解決方法 |
雷鋒網(wǎng)AI科技評論按:ICRA全稱為“IEEE International Conference on Robotics and Automation”(機(jī)器人與自動化會議),是機(jī)器人技術(shù)領(lǐng)域最有影響力的國際學(xué)術(shù)會議之一。ICRA 2017于5月29日至6月4日舉行,雷鋒網(wǎng)AI科技評論從新加坡帶來一線報(bào)道。該會議舉辦期間,雷鋒網(wǎng)將圍繞會議議程及獲獎(jiǎng)?wù)撐恼归_系列專題報(bào)道,敬請期待。
認(rèn)知機(jī)器人領(lǐng)域共有四篇入圍最佳論文,雷鋒網(wǎng)將做逐一介紹。
使用分?jǐn)?shù)空間描述引導(dǎo)任務(wù)和運(yùn)動規(guī)劃問題的研究
來自麻省理工大學(xué)的研究者,Kim, Beomjoon; Kaelbling, Leslie; Lozano-Perez, Tomas提出了一種算法來加速任務(wù)和運(yùn)動規(guī)劃中的搜索速度。算法針對如何在學(xué)習(xí)中提高效率的三個(gè)不同的挑戰(zhàn):預(yù)測什么?如何描述一個(gè)規(guī)劃任務(wù)實(shí)例?怎樣將知識從一個(gè)問題實(shí)例傳遞到另一個(gè)?我們提出了一種方法。它能基于對規(guī)劃問題實(shí)例的普遍描述,預(yù)測搜索空間的約束。這被叫做分?jǐn)?shù)空間。用現(xiàn)有方法的性能來表示這些問題實(shí)例。使用這種描述方法,將知識從在分?jǐn)?shù)空間中基于相似性的問題,以約束的形式進(jìn)行傳遞。他們設(shè)計(jì)了一種序列算法,能高效地進(jìn)行約束預(yù)測,并使用三個(gè)不同的具有挑戰(zhàn)性的任務(wù)和運(yùn)動規(guī)劃問題進(jìn)行了評估。結(jié)果顯示,與無引導(dǎo)規(guī)劃相比,他們的方法在速度上有了量級上的提高。
原文鏈接:http://lis.csail.mit.edu/pubs/kim-icra17.pdf
關(guān)于部分可觀察任務(wù)中力反饋表示的研究
觸覺是人類最早發(fā)展出來的感知系統(tǒng)。它在我們?nèi)粘Ec環(huán)境交互過程中扮演重要的角色。為了成功完成一項(xiàng)任務(wù),在操作過程中需要引入力反饋。然而,人工設(shè)計(jì)一個(gè)反饋機(jī)制極具挑戰(zhàn)。來自康奈爾大學(xué)的研究者,Sung, Jaeyong; Salisbury, Kenneth; Ashutosh Saxena設(shè)想一個(gè)操作任務(wù)需要引入觸覺傳感器反饋,以此來修正已有的規(guī)劃。對于部分可觀測任務(wù),他們使用一個(gè)新的架構(gòu),任務(wù)模型是一個(gè)部分可觀測馬爾科夫決策過程(POMDP)。并將力反饋的適當(dāng)表達(dá)作為POMDP模型中的狀態(tài)進(jìn)行研究。模型使用循環(huán)神經(jīng)網(wǎng)絡(luò)進(jìn)行參數(shù)化,使用變分貝葉斯方法優(yōu)化近似后驗(yàn)。最后,他們建立深度Q學(xué)習(xí)來選擇每個(gè)狀態(tài)下的最優(yōu)行動,而不使用仿真器。他們使用模型,在PR2機(jī)器人進(jìn)行了多次旋動旋鈕直到到位的測試。
原文鏈接:https://arxiv.org/pdf/1705.06243.pdf
深度多模型嵌入:使用點(diǎn)云、語言和軌跡來操作新的對象
機(jī)器人需要根據(jù)各種感知形式,比如視覺,語言和運(yùn)動軌跡才能在真實(shí)世界的環(huán)境里進(jìn)行活動。但是,要通過人工設(shè)計(jì)的方式把這些分散的感知形式聯(lián)系起來是極具挑戰(zhàn)的。來自康奈爾大學(xué)的研究者,Sung, Jaeyong; Lenz, Ian; Ashutosh Saxena介紹了一種算法,學(xué)習(xí)如何將點(diǎn)云,自然語言和操作軌跡等數(shù)據(jù)通過深度神經(jīng)網(wǎng)絡(luò)引入一個(gè)共享的嵌入空間。通過他們的網(wǎng)絡(luò)可以在語義上有意義的空間進(jìn)行學(xué)習(xí)。他們使用基于損失的邊界將相關(guān)的對拉得更近,同時(shí)將相關(guān)性較低的放得更遠(yuǎn)。他們同時(shí)使用兩者在較低層次進(jìn)行預(yù)訓(xùn)練,在最后的嵌入空間進(jìn)行精調(diào),從而實(shí)現(xiàn)更加動態(tài)的表達(dá)。他們使用這個(gè)算法執(zhí)行操作新的對象和裝置的測試。測試中的經(jīng)驗(yàn)來自于之前在其他對象上的測試。在一個(gè)巨大的數(shù)據(jù)包中,相比于以前的技術(shù),他們在精確性和運(yùn)行時(shí)間上有了顯著的進(jìn)步。他們也在PR2機(jī)器人上使用學(xué)習(xí)到的嵌入空間進(jìn)行了端到端的試驗(yàn)。
原文鏈接:https://arxiv.org/pdf/1509.07831.pdf
機(jī)器人運(yùn)動規(guī)劃的深度視覺預(yù)見方法
提高機(jī)器人學(xué)習(xí)技能和環(huán)境能力的一個(gè)巨大挑戰(zhàn)是徹底放棄人類監(jiān)督。這樣機(jī)器人可以在不受人類價(jià)值反饋的限制下收集它們需要的數(shù)據(jù),并提高它們的性能。基于模型的強(qiáng)化學(xué)習(xí)方法有望使它具有預(yù)測自己行為結(jié)果的能力。它可以在沒有人類監(jiān)督的情況下,針對各種任務(wù)和環(huán)境提供一個(gè)靈活的可預(yù)測模型。來自伯克利的兩位研究者,F(xiàn)inn, Chelsea; Levine, Sergey提出一種方法,它把以行動為條件的深度視覺運(yùn)動模型和可預(yù)測模型控制結(jié)合起來,完全使用沒有經(jīng)過標(biāo)簽的訓(xùn)練數(shù)據(jù)。他們的方法并不需要經(jīng)過校準(zhǔn)的相機(jī),經(jīng)過調(diào)試的訓(xùn)練集,或者精確的感知和驅(qū)動。結(jié)果顯示,通過他們的方法可以讓機(jī)器人完成非抓取操作,推動對象。并且在訓(xùn)練中可以在沒有看到對象的情況下操作新的對象。
原文鏈接:https://arxiv.org/pdf/1610.00696.pdf
相關(guān)視頻:https://wn.com/deep_visual_foresight_for_planning_robot_motion
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。
本專題其他文章