1
本文作者: AI研習(xí)社-譯站 | 2018-06-25 10:23 | 專題:ICRA 2017:創(chuàng)新、創(chuàng)業(yè)和解決方法 |
雷鋒網(wǎng)按:這里是,雷鋒字幕組編譯的 ICRA 2018 系列,帶你了解機(jī)器人與自動(dòng)化領(lǐng)域的最新研究成果。
原標(biāo)題 :Reinforcement Learning of Depth Stabilization with a Micro Diving Agent
翻譯 | 張哥華 整理 | 凡江
強(qiáng)化學(xué)習(xí)是機(jī)器人在與環(huán)境交互中解決控制問題的方法。本論文中,我們將要學(xué)習(xí)基于模型值函數(shù)的強(qiáng)化學(xué)習(xí)方法,這種方法適用于部分機(jī)器人和光嵌入式系統(tǒng)。
一開始,我們設(shè)計(jì)了一個(gè)潛水體,它利用強(qiáng)化學(xué)習(xí)來模擬水下的穩(wěn)定性。我們還利用試驗(yàn)來展示了一個(gè)小的潛水體對任務(wù)的學(xué)習(xí)能力,我們將這個(gè)潛水體設(shè)置成——它的狀態(tài)被取決于它的深度和速度。
潛水體包含一個(gè)固定容量的的儲水倉和一個(gè)可變?nèi)萘康膬λ畟},后者用于驅(qū)動(dòng)本體。
我們對其深度的穩(wěn)定性的目標(biāo)是,控制其可變儲水容量以維持一個(gè)期望的深度。通過強(qiáng)化學(xué)習(xí)方法來解決這個(gè)控制問題,而不需要有系統(tǒng)先驗(yàn)知識或者是有驅(qū)動(dòng)器動(dòng)力知識。這種方法的挑戰(zhàn)在于未知的流體效應(yīng),以及緩慢的非線性變化的驅(qū)動(dòng)器動(dòng)力。體積調(diào)整的時(shí)間常數(shù)與系統(tǒng)的動(dòng)力匹配,可變?nèi)萘績λ畟}相對于固定容量儲水倉也是很小的,所以系統(tǒng)的最大控制力和最大約束力也是很小的。
在狀態(tài)空間中包含了潛水體的深度和速度,這個(gè)圖表就展示了其狀態(tài)空間,在目標(biāo)深度附近的區(qū)域決定了算法學(xué)習(xí)的區(qū)域,在這個(gè)分布里包含了 101 個(gè)狀態(tài)。在此區(qū)域之外的每一個(gè)點(diǎn)都被當(dāng)做是終止?fàn)顟B(tài)。
動(dòng)作空間包含了兩部分:一部分是減少可變儲水倉的水量來提供浮力,另一部分增加可變儲水倉的水量,來讓潛水體算法收到一個(gè)損失,這個(gè)損失會懲罰潛水體,讓其向期望的深度移動(dòng)。除此之外,如果潛水體到達(dá)終止?fàn)顟B(tài)的位置,為了通過試驗(yàn)驗(yàn)證強(qiáng)化學(xué)習(xí)算法,一個(gè)小潛水體被設(shè)計(jì)和制造了出來。它的運(yùn)行時(shí)間大約是 90 分鐘,非易失性內(nèi)存是 512 KB。
我們證明了在一個(gè)試驗(yàn)中,潛水體是能夠從零學(xué)習(xí)到關(guān)于自身穩(wěn)定性的規(guī)則。在左下角的圖表中顯示了潛水體在學(xué)習(xí)區(qū)域成功學(xué)習(xí)的運(yùn)動(dòng)軌跡。
視頻鏈接:https://www.youtube.com/watch?v=F7g3K0PXWX4&t=5s
雷鋒網(wǎng)雷鋒網(wǎng)
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。
本專題其他文章