丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
人工智能 正文
發(fā)私信給汪思穎
發(fā)送

0

最前沿:從虛擬到現(xiàn)實,DRL 讓小狗機器人跑起來了

本文作者: 汪思穎 2018-05-06 18:01
導(dǎo)語:Google最新的一篇paper告訴我們:DRL在真實機器人上面是可行的,只要我們盡可能減小 reality gap。

雷鋒網(wǎng) AI 研習(xí)社按,本文首發(fā)于知乎專欄智能單元,作者 Flood Sung,雷鋒網(wǎng) AI 研習(xí)社獲其授權(quán)轉(zhuǎn)載。

1. 前言

深度增強學(xué)習(xí) DRL 在仿真機器人已經(jīng)取得了很大的成功,同時,也在真實的機器人抓?。≧obotic Manipulation)問題上有了很大的進展。然而依然會有很多搞機器人的朋友會質(zhì)疑深度增強學(xué)習(xí)(Deep Reinforcement Learning)在真實機器人上的可行性,比如說能在大狗機器人上面通過 DRL 來實現(xiàn)嗎?老實說我也覺得困難重重,最主要的問題就是所謂的 reality gap:真實機器人和仿真機器人存在很多的差別,在仿真中能夠 work,大概率不能在真實環(huán)境中 work。

然而,Google 最新的一篇 paper 告訴我們:不!DRL 在真實機器人上面是可行的,只要我們盡可能的減小這個 reality gap:

論文地址:https://arxiv.org/abs/1804.10332

看了上面的視頻,不知道大家會不會被驚訝到?以前需要巨量人工來調(diào)整的控制算法,現(xiàn)在用一個兩層的神經(jīng)網(wǎng)絡(luò)實現(xiàn)了!可能沒有搞過機器人控制的朋友不太理解,就單單在四軸飛行器上調(diào)一個 PID 控制器都要調(diào)到崩潰!所以當(dāng)真正在真實的四足機器人上用神經(jīng)網(wǎng)絡(luò)實現(xiàn)運動控制的時候,感覺真的有點難以置信!

如果我們要簡單的說一下,未來就是機器人全神經(jīng)網(wǎng)絡(luò)化,全部不需要復(fù)雜人工編程,全部通過自己學(xué)習(xí)的方式來掌握運動是完全可能的!并且,可以比傳統(tǒng)機器人控制算法做得更好!

下面我們來稍微說一下這篇 paper 的一些思想方法。

2. 構(gòu)建一個足夠接近真實的仿真環(huán)境就好!

四足機器人不同于機械臂,能夠直接在真實環(huán)境中進行 DRL 訓(xùn)練,四足機器人訓(xùn)練成本顯然要高太多,因為它到底要摔多少次才能走起來?就算土豪如 Google 也沒那個錢來燒!所以,直接在真實環(huán)境中用 DRL 訓(xùn)練四足機器人是基本不可能的,那么我們能做的顯然就只有在仿真環(huán)境中訓(xùn)練,然后遷移到真實機器人上了。那么,這里的核心就是 Reality Gap 的問題,如何減少 Reality Gap,讓仿真環(huán)境足夠真實?

這篇文章處理了以下幾個部分:

1)構(gòu)建一個更接近真實的仿真四足機器人模型。這個很好理解,比如讓仿真機器人的尺寸,重心等等都和真實機器人基本一致。

2)構(gòu)建一個更好的驅(qū)動器模型(Actuator Model)。這里的實驗采用的是位置控制,也就是頂層的神經(jīng)網(wǎng)絡(luò)只輸出目標位置,下層的執(zhí)行還是實驗傳統(tǒng) PD 控制器。所以呢,那就在仿真環(huán)境中調(diào)一個和真實差不多的電機控制器唄。

3)模擬好延遲 Latency。這一點對于機器人控制很重要,真實機器人在控制時由于硬件數(shù)據(jù)傳輸,延遲是不一樣的,所以要在仿真中模擬好延遲。

對于仿真環(huán)境也就是上面三部分的處理。那么,接下來就是怎么訓(xùn)練的問題了。

3. 加點訓(xùn)練技巧 tricks 讓神經(jīng)網(wǎng)絡(luò)的泛化能力加強

訓(xùn)練也是需要精細化調(diào)整的。這個工作直接使用 PPO 來訓(xùn)練,兩層的神經(jīng)網(wǎng)絡(luò),位置控制,為了使得訓(xùn)練效果更好,又做了下面三個處理技巧:

1)隨機化動態(tài)參數(shù)(Dynamic Parameters),也就是仿真機器人中的各種參數(shù)數(shù)據(jù),比如重量,摩擦力,IMU 的誤差等等。

2)加上隨機外部擾動(Random Perturbations), 上一條是機器人內(nèi)部參數(shù),這一條則是在外部施加一個額外的擾動力,比如模擬一下風(fēng)什么的。

3)使用一個合適的觀察空間(Observation Space),這一條則是針對具體的訓(xùn)練,一個合適的觀察空間對于訓(xùn)練效果影響很大,特別如果維度太高的話就很難訓(xùn)練。所以這個工作僅僅使用了四足機器人基座的俯仰角,傾斜角,基座的角速度及 8 個電機的角度。而這就足夠來訓(xùn)練。

上面的處理技巧很好理解,特別是前兩個,就是通過隨機化讓神經(jīng)網(wǎng)絡(luò)的 generalization 泛化能力變強,這樣的話即使遷移到真實環(huán)境,也能有較好的適應(yīng)!

4. 一點小結(jié)

這個工作是一個極其工程化的工作,上面我們分析的這篇文章的主要方法其實都非常好理解,甚至談不上所謂的創(chuàng)新。但是對于這種工作,能夠 work 才是關(guān)鍵。Work 就是一切!Google 的這個工作可以進一步的提升大家對于深度學(xué)習(xí)應(yīng)用到機器人上面的信心!相信接下來 Robot Learning 這個領(lǐng)域必然會有更大的發(fā)展!

雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

最前沿:從虛擬到現(xiàn)實,DRL 讓小狗機器人跑起來了

分享:
相關(guān)文章

編輯

關(guān)注AI學(xué)術(shù),例如論文
當(dāng)月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說