0
本文作者: 楊曉凡 | 2019-03-12 19:05 |
雷鋒網(wǎng) AI 科技評論按:可以智能自主導(dǎo)航的機(jī)器人其實(shí)可以為人類提供很多便利、很多幫助。僅僅在美國就有三百萬人由于殘疾而不便移動(dòng),甚至無法踏出自己的家門一步。能進(jìn)行自主長距離導(dǎo)航、行動(dòng)的服務(wù)機(jī)器人可以大大提升他們的獨(dú)立生活能力,可以幫他們運(yùn)送生活物品、藥品、行李等等。目前的研究表明,強(qiáng)化學(xué)習(xí)這種方法很適合把原始的傳感器輸入映射為機(jī)器人的動(dòng)作,比如學(xué)習(xí)抓取物體、比如整個(gè)機(jī)器人的運(yùn)動(dòng)控制。然而強(qiáng)化學(xué)習(xí)智能體通常不具備較大空間的理解能力,但這卻是運(yùn)動(dòng)中無需人類幫助、安全穿梭長距離、輕松適應(yīng)新的空間所必須的。
谷歌的機(jī)器人和 AI 研究人員們近期就研究了這個(gè)問題,提出了把深度強(qiáng)化學(xué)習(xí)和長距離運(yùn)動(dòng)規(guī)劃相結(jié)合的機(jī)器人自主控制算法,而且它還具有很強(qiáng)的自適應(yīng)能力。在下面三篇論文中,谷歌 AI 的研究人員們逐步把深度強(qiáng)化學(xué)習(xí)和長距離運(yùn)動(dòng)規(guī)劃結(jié)合起來,探索了更容易適應(yīng)新環(huán)境的機(jī)器人自動(dòng)控制方案。
首先,他們訓(xùn)練的本地規(guī)劃智能體可以執(zhí)行基本的導(dǎo)航動(dòng)作,安全地穿越較短的地形,不和其它的運(yùn)動(dòng)物體發(fā)生碰撞。這些局部規(guī)劃器可以接受來自有噪聲的傳感器的輸入,比如一維激光雷達(dá)的深度數(shù)據(jù)可以提供到障礙物的距離,規(guī)劃器可以由此算出機(jī)器人控制所需的線速度和角速度。谷歌 AI 的研究人員們在模擬環(huán)境中用自動(dòng)強(qiáng)化學(xué)習(xí) AutoRL 訓(xùn)練局部規(guī)劃器,AutoRL 的作用是可以自動(dòng)搜索強(qiáng)化學(xué)習(xí)反饋以及神經(jīng)網(wǎng)絡(luò)架構(gòu)。盡管局部規(guī)劃器的訓(xùn)練距離只有 10~15 米,它們也可以很好地遷移到真實(shí)的機(jī)器人以及從未見過的環(huán)境中。
這樣,這些局部規(guī)劃器就可以作為大尺度空間中導(dǎo)航的基礎(chǔ)部件。研究人員們隨后構(gòu)建了一個(gè)路線圖,在這個(gè)圖(graph)中,不同的節(jié)點(diǎn)是不同的位置,接著,在模仿真實(shí)機(jī)器人的有噪聲的傳感器和控制條件下訓(xùn)練出的局部規(guī)劃器如果能夠在某兩個(gè)節(jié)點(diǎn)之間可靠地往來導(dǎo)航,這兩個(gè)節(jié)點(diǎn)就會(huì)用邊連接起來。
雷鋒網(wǎng) AI 科技評論把這三篇論文的內(nèi)容簡單介紹如下
Learning Navigation Behaviors End-to-End with AutoRL
通過 AutoRL (自動(dòng)強(qiáng)化學(xué)習(xí))學(xué)習(xí)端到端的導(dǎo)航行為
內(nèi)容簡介:這篇論文中,研究人員們在小尺寸、靜態(tài)的環(huán)境中訓(xùn)練局部規(guī)劃智能體。在強(qiáng)化學(xué)習(xí)框架下,深度確定性策略梯度(DDPG)等標(biāo)準(zhǔn)的深度強(qiáng)化學(xué)習(xí)算法面對的是一個(gè)非常稀疏的反饋“是否到達(dá)了終點(diǎn)”,實(shí)際使用中會(huì)需要大量的迭代嘗試、消耗許多手工調(diào)節(jié)反饋的人力;此外研究人員們還需要在沒有多少先例可參考的情況下選擇最佳的網(wǎng)絡(luò)結(jié)構(gòu);最后,DDPG 之類的算法不僅學(xué)習(xí)過程不穩(wěn)定,還會(huì)出現(xiàn)災(zāi)難性的遺忘癥狀。
所以研究人員們采用了 AutoRL,這是一種圍繞深度強(qiáng)化學(xué)習(xí)設(shè)計(jì)的進(jìn)化性自動(dòng)化層,它借助大規(guī)模參數(shù)優(yōu)化,自動(dòng)搜索最佳的反饋和網(wǎng)絡(luò)結(jié)構(gòu)。并且最終 DDPG 不會(huì)再表現(xiàn)出災(zāi)難性遺忘的癥狀,最終學(xué)習(xí)到的策略也有更高的質(zhì)量,對于傳感器、運(yùn)動(dòng)器和定位噪聲都更為魯棒,對新環(huán)境的泛化能力也更好。不過,AutoRL 也有樣本效率低的問題。
這樣訓(xùn)練出的智能體只能執(zhí)行局部導(dǎo)航任務(wù),不過它們對障礙有較好的魯棒性,尤其是,即便是在靜態(tài)障礙的環(huán)境中訓(xùn)練的,它們也可以正確應(yīng)對移動(dòng)的障礙,還很好地遷移到真實(shí)的機(jī)器人上。下一步就是探索更長距離的導(dǎo)航。
PRM-RL: Long-Range Robotic Navigation Tasks by Combining Reinforcement Learning and Sampling-based Planning
PRM-RL:通過組合強(qiáng)化學(xué)習(xí)和基于采樣的規(guī)劃,完成長距離機(jī)器人導(dǎo)航任務(wù)
ICRA 2018 最佳論文
內(nèi)容簡介:基于采樣的規(guī)劃器一般用于長距離規(guī)劃,它們的工作方式是逼近計(jì)算機(jī)器人的動(dòng)作。比如,概率地圖(probabilistic roadmaps,PRMs)方法中就對機(jī)器人的姿態(tài)采樣,把這些采樣用可行的變換連接起來,最終形成一個(gè)包括了機(jī)器人在大范圍空間中運(yùn)動(dòng)的地圖。在這篇論文中,研究人員們嘗試把手工調(diào)節(jié)的基于強(qiáng)化學(xué)習(xí)的局部規(guī)劃器(這里并沒有使用 AutoRL)和 PRMs 結(jié)合起來,對機(jī)器人的訓(xùn)練目標(biāo)是,在某個(gè)局部訓(xùn)練,但訓(xùn)練結(jié)束以后就可以適應(yīng)多種不同的環(huán)境。
Long-Range Indoor Navigation with PRM-RL
基于 PRM-RL 的長距離室內(nèi)導(dǎo)航
內(nèi)容簡介:這篇論文在前一篇的 PRM-RL 基礎(chǔ)上又做出了多項(xiàng)改進(jìn)。首先,把手工調(diào)節(jié)的強(qiáng)化學(xué)習(xí)局部規(guī)劃器替換為了 AutoRL 訓(xùn)練的,這提高了長距離導(dǎo)航的表現(xiàn)。其次,系統(tǒng)中現(xiàn)在加入了 SLAM 地圖,機(jī)器人在導(dǎo)航過程中將進(jìn)行同步的定位和地圖重建,這可以作為運(yùn)動(dòng)概率地圖重建的資源。由于 SLAM 地圖是帶有噪聲的,這一變化也補(bǔ)上了模擬環(huán)境和真實(shí)環(huán)境中的機(jī)器人由于噪聲程度不同帶來的性能區(qū)別,實(shí)際上,虛擬環(huán)境中導(dǎo)航的成功率和真實(shí)機(jī)器人上的實(shí)驗(yàn)成功率幾乎相同。最后,研究人員們還增加了分布式地圖構(gòu)建,這極大增加了機(jī)器人最大可以支持的地圖大小,最多可以達(dá)到 70 萬個(gè)節(jié)點(diǎn)。
更具體的介紹可以參見谷歌技術(shù)博客 ai.googleblog.com,雷鋒網(wǎng) AI 科技評論編譯
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。