丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
人工智能 正文
發(fā)私信給楊曉凡
發(fā)送

0

用強(qiáng)化學(xué)習(xí)轉(zhuǎn)雞蛋、轉(zhuǎn)筆,OpenAI 發(fā)起新的機(jī)械手挑戰(zhàn)

本文作者: 楊曉凡 編輯:郭奕欣 2018-02-28 10:37
導(dǎo)語:一起來教機(jī)械手轉(zhuǎn)筆吧

用強(qiáng)化學(xué)習(xí)轉(zhuǎn)雞蛋、轉(zhuǎn)筆,OpenAI 發(fā)起新的機(jī)械手挑戰(zhàn)

雷鋒網(wǎng) AI 科技評論按:富有挑戰(zhàn)的新測試環(huán)境和任務(wù),極具競爭力的基準(zhǔn)模型,你感到興奮和壓力了嗎?

為了方便快速開發(fā)迭代以及對比測試,各大人工智能機(jī)構(gòu)都會在專門開發(fā)的模擬器(實驗平臺)內(nèi)布置測試環(huán)境和測試任務(wù),然后后續(xù)研究就只需要關(guān)注算法本身。OpenAI 就在自己的 Gym 平臺中搭建了許多實驗環(huán)境,包括 Atari 2600 游戲系列、MuJoCo 物理模擬器、Toy text 文本環(huán)境等等。

用強(qiáng)化學(xué)習(xí)轉(zhuǎn)雞蛋、轉(zhuǎn)筆,OpenAI 發(fā)起新的機(jī)械手挑戰(zhàn)

隨著近期 PPO (Proximal Policy Optimization,近端策略優(yōu)化)這類新控制算法的出現(xiàn),在 OpenAI 看來 MuJoCo 中現(xiàn)有的幾個四足機(jī)器人、半獵豹機(jī)器人、仿人機(jī)器人的連續(xù)運(yùn)動控制任務(wù)都已經(jīng)可以輕松解決了,甚至參照真實機(jī)器人(波士頓動力 Atlas)設(shè)計的具有 30 個自由度的仿真模型都已經(jīng)可以順暢地跑起來了(上圖,具體參見雷鋒網(wǎng) AI 科技評論往期文章),DeepMind 也展示了自己的訓(xùn)練結(jié)果,視頻放在 Youtube 后獲得了極高的瀏覽量。既然以前的問題已經(jīng)得到了不錯的解決,OpenAI 現(xiàn)在也就結(jié)合自己過去一年的研究進(jìn)展放出了一組八個新的機(jī)器人控制任務(wù),作為領(lǐng)域內(nèi)新的標(biāo)桿和其它研究者們共同嘗試攻破。

新的機(jī)器人連續(xù)控制任務(wù)

同樣是借助 MuJoCo 物理模擬器,這次 OpenAI 在 Gym 中搭建了兩組共八個新環(huán)境 & 新任務(wù)。這些任務(wù)不僅難度要比之前 MuJoCo 中的任務(wù)明顯高一些,而且需要控制的是來自真實機(jī)器人結(jié)構(gòu)設(shè)計的仿真模型,要實現(xiàn)的也是一些現(xiàn)實世界的任務(wù)。

這八個任務(wù)都是默認(rèn)為稀疏反饋的,目標(biāo)未達(dá)成則反饋為 -1,在允許的誤差內(nèi)達(dá)成則為 0。環(huán)境中也帶有密集反饋的版本,但是 OpenAI 的研究人員們認(rèn)為稀疏反饋的情況更接近于機(jī)器人在實際使用中會遇到的狀況,所以希望大家還是以稀疏反饋的版本為主。

Fetch 機(jī)械臂

基于 Fetch 機(jī)械臂的末端運(yùn)動控制,共有末端位置、撥動冰球、推箱子、舉箱子四個任務(wù)。

用強(qiáng)化學(xué)習(xí)轉(zhuǎn)雞蛋、轉(zhuǎn)筆,OpenAI 發(fā)起新的機(jī)械手挑戰(zhàn)

左:FetchReach,「末端位置」,控制機(jī)械臂,讓末端到達(dá)指定的空間位置(紅點)

右:FetchSlide,「撥動圓盤」,控制機(jī)械臂撥動圓盤,讓它在桌子上滑動,最后到達(dá)指定位置

用強(qiáng)化學(xué)習(xí)轉(zhuǎn)雞蛋、轉(zhuǎn)筆,OpenAI 發(fā)起新的機(jī)械手挑戰(zhàn)

左:FetchPush,「推箱子」,控制機(jī)械臂推動一個盒子,讓它到達(dá)指定位置

右:FetchPickAndPlace,「舉箱子」,通過機(jī)械臂末端的平行夾鉗從桌子上拿起盒子,讓它到達(dá)桌子上方指定的空間位置

OpenAI 已經(jīng)研究了這些問題一段時間了。比如對于 FetchSlide「撥動圓盤」任務(wù),OpenAI 在 2017 年 10 月的一篇博客中介紹道,他們完全在模擬環(huán)境中訓(xùn)練了控制算法,然后把它部署在機(jī)器人上。為了讓機(jī)器人能夠正常運(yùn)行,以及應(yīng)對環(huán)境中的隨機(jī)變化,他們還為之新設(shè)計了閉環(huán)控制系統(tǒng),讓完全在模擬器中訓(xùn)練的控制算法結(jié)合一部分來自真實世界反饋的矯正。在下面動圖里的實驗,算法不僅運(yùn)行在真實機(jī)器人上,而且還在圓盤下面墊了一個薯片袋子,改變了圓盤的運(yùn)動特性(與模擬器中訓(xùn)練時、直接布置的真實環(huán)境都有區(qū)別),而閉環(huán)控制的機(jī)械臂仍然可以適應(yīng)這一隨機(jī)改變,把圓盤送到指定位置(紅點處)。相比之下一個傳統(tǒng)的開環(huán)(前饋)控制算法連不做改變的真實環(huán)境都適應(yīng)不了。

用強(qiáng)化學(xué)習(xí)轉(zhuǎn)雞蛋、轉(zhuǎn)筆,OpenAI 發(fā)起新的機(jī)械手挑戰(zhàn)

ShadowHand 機(jī)械手

機(jī)械手模型參照的是 Shadow Dexterous Hand,這是一個完全仿照人手設(shè)計的具有 20 個驅(qū)動自由度、4 個半驅(qū)動自由度、共 24 個關(guān)節(jié)的機(jī)械手,它的大小也和人手大小相同?;?ShadowHand 機(jī)械手的四個任務(wù)為手指捏合、控制方塊、控制雞蛋和控制筆。OpenAI 也已經(jīng)給出了一些自己的控制雞蛋和筆的學(xué)習(xí)成果視頻,看起來還挺順溜的。

用強(qiáng)化學(xué)習(xí)轉(zhuǎn)雞蛋、轉(zhuǎn)筆,OpenAI 發(fā)起新的機(jī)械手挑戰(zhàn)

左:HandReach,「手指捏合」,要讓大拇指和另一根指定的手指在手掌上方某個指定的位置接觸

右:HandManipulateBlock,「控制方塊」,控制一個方塊讓它達(dá)到指定的位置和方向

用強(qiáng)化學(xué)習(xí)轉(zhuǎn)雞蛋、轉(zhuǎn)筆,OpenAI 發(fā)起新的機(jī)械手挑戰(zhàn)

左:HandManipulateEgg,「控制雞蛋」,控制一個雞蛋讓它達(dá)到指定的位置和方向

用強(qiáng)化學(xué)習(xí)轉(zhuǎn)雞蛋、轉(zhuǎn)筆,OpenAI 發(fā)起新的機(jī)械手挑戰(zhàn)

右:HandManipulatePen,「控制筆」,控制一枝筆讓它達(dá)到指定的位置和方向

用強(qiáng)化學(xué)習(xí)轉(zhuǎn)雞蛋、轉(zhuǎn)筆,OpenAI 發(fā)起新的機(jī)械手挑戰(zhàn)

新的基準(zhǔn)算法:HER

隨著新的機(jī)器人環(huán)境發(fā)布,OpenAI 也同步發(fā)布了 Hindsight Experience Replay(后見經(jīng)驗重放,HER)算法的代碼作為環(huán)境的基準(zhǔn)模型之一。HER 來自論文 https://arxiv.org/abs/1707.01495 ,這是一種可以從失敗經(jīng)驗中學(xué)習(xí)的強(qiáng)化學(xué)習(xí)算法。OpenAI 的實驗表明 HER 只依靠稀疏反饋就可以針對多數(shù)新的機(jī)器人控制問題學(xué)習(xí)到成功的策略。

HER 簡述

用強(qiáng)化學(xué)習(xí)轉(zhuǎn)雞蛋、轉(zhuǎn)筆,OpenAI 發(fā)起新的機(jī)械手挑戰(zhàn)

OpenAI 以 FetchSlide 任務(wù)為例介紹了 HER 算法的核心思想?,F(xiàn)在需要用機(jī)械臂的末端撥動圓盤讓它到目標(biāo)位置。對于強(qiáng)化學(xué)習(xí)模型來說,初次嘗試基本是注定失敗的;如果不是特別的幸運(yùn),接下來的幾次嘗試也同樣會失敗。典型的強(qiáng)化學(xué)習(xí)算法是無法從這些失敗經(jīng)驗中學(xué)習(xí)的,因為它們一直接收到固定的失?。?1)反饋,也就不含有任何可以指導(dǎo)學(xué)習(xí)的信號。

人類在執(zhí)行任務(wù)的時候其實有一個直覺的感受是:即便我沒有達(dá)成原來那個給定的目標(biāo),我起碼還是完成了另外一個目標(biāo)的。HER 的核心思想就是把這一人類直覺公式化。在這里,HER 會把實際達(dá)到的目標(biāo)暫且看成要達(dá)到的目標(biāo);進(jìn)行這個替換以后,算法認(rèn)為自己畢竟達(dá)到了某個目標(biāo),從而可以得到一個學(xué)習(xí)信號進(jìn)行學(xué)習(xí),即便達(dá)到的目標(biāo)并不是最開始任務(wù)要求的那個目標(biāo)。如果持續(xù)進(jìn)行這個過程,最終算法可以學(xué)會達(dá)成任意一個目標(biāo),其中也自然就包括了我們最開始要求的目標(biāo)。

依靠這樣的辦法,即便最開始的時候機(jī)械臂根本就碰不到圓盤、以及反饋是稀疏的,最終它也學(xué)會了如何把圓盤撥到桌子上的指定位置。這個算法之所以稱為 Hindsight Experience Replay 后見經(jīng)驗重放,就是因為它是在完成了一次動作之后再選定目標(biāo)、重放經(jīng)驗進(jìn)行學(xué)習(xí)(重放經(jīng)驗的方法在 DQN、DDPG 等策略無關(guān)的強(qiáng)化學(xué)習(xí)算法中經(jīng)常用到)。也所以,HER 可以和任何策略無關(guān)的強(qiáng)化學(xué)習(xí)算法結(jié)合起來使用,比如 DDPG+HER。

HER 測試結(jié)果

經(jīng)過測試,OpenAI 的研究員們發(fā)現(xiàn) HER 在基于任務(wù)、反饋稀疏的環(huán)境中有著異常好的表現(xiàn)。原本不做任何改變的 DDPG 在稀疏和密集反饋兩種情況下都幾乎無法完成任務(wù), DDPG + HER 在稀疏反饋下不僅具有極高的成功率,甚至還大幅超過密集反饋下的 DDPG + HER (稀疏反饋的結(jié)果好于密集反饋,這真是耐人尋味)。在 OpenAI 的其它實驗中,DDPG + HER 多數(shù)時候也都有最好的表現(xiàn)。

用強(qiáng)化學(xué)習(xí)轉(zhuǎn)雞蛋、轉(zhuǎn)筆,OpenAI 發(fā)起新的機(jī)械手挑戰(zhàn)

和 OpenAI 一同改進(jìn) HER

雖然 HER 在稀疏反饋環(huán)境下學(xué)習(xí)復(fù)雜的目標(biāo)指向任務(wù)已經(jīng)顯示出了不錯的潛力,OpenAI 認(rèn)為它還有很大的提升空間。和以往一樣,OpenAI 邀請更多研究者和他們一起改進(jìn) HER,以及考慮其它一些強(qiáng)化學(xué)習(xí)總體的問題。

  • 自動創(chuàng)建后見目標(biāo):目前 OpenAI 用手工編寫的固定策略代碼選擇要替換的后見目標(biāo),如果這個策略可以自行學(xué)習(xí)就會很有意思。

  • 無偏 HER:后見目標(biāo)替換的過程其實會不受約束地改變模型學(xué)到的經(jīng)驗的分布。理論上這種偏倚可能會導(dǎo)致一定的不穩(wěn)定性。雖然 OpenAI 目前的實際實驗中還沒發(fā)現(xiàn)這種問題,但確實最好能夠改進(jìn)出無偏版本的 HER。

  • HER + HRLOpenAI 之前已經(jīng)有了層次化強(qiáng)化學(xué)習(xí)(hierarchical reinforcement learning)方面的一些研究成果。那么除了直接對任務(wù)目標(biāo)應(yīng)用 HER,OpenAI 認(rèn)為也有機(jī)會把它應(yīng)用于動作上,讓策略產(chǎn)生更好的動作。比如高層次模型要求低層次模型達(dá)到某個任務(wù) A 的時候,就可以利用 HER 進(jìn)行高效學(xué)習(xí)。

  • 更豐富的評價函數(shù):如果把額外的輸入作為價值函數(shù)的條件會發(fā)生什么呢?比如縮小系數(shù)或者成功率閾值,甚至還可以考慮把他們也作為后見中替換的目標(biāo)。

  • 更快的信息傳播:多數(shù)策略無關(guān)的深度強(qiáng)化學(xué)習(xí)算法都需要使用一群目標(biāo)網(wǎng)絡(luò)來提高訓(xùn)練穩(wěn)定性。然而,由于發(fā)生改變后傳播需要時間,這將會限制訓(xùn)練速度,OpenAI 的研究人員們就已經(jīng)發(fā)現(xiàn)這經(jīng)常是他們的 DDPG+HER 訓(xùn)練中影響訓(xùn)練速度的最重要因素。那么也就很值得考慮有沒有其它能穩(wěn)定訓(xùn)練過程但不造成如此明顯速度下降的方法。

  • HER + 多步反饋:由于其中含有目標(biāo)替換,所以 HER 中使用的經(jīng)驗是高度策略無關(guān)的。那這樣就讓 HER 很難和多步操作后獲得反饋值的算法共同使用。然而,我們很多時候更希望使用多步操作的方法,因為它們能讓關(guān)于反饋值的信息傳播得快得多。

  • 包含策略的 HER:同樣是由于含有目標(biāo)替換,所以 HER 目前只能和策略無關(guān)的算法一同使用。然而目前最先進(jìn)的 PPO 之類的算法都表現(xiàn)出了非常好的穩(wěn)定性。如果能想辦法把這樣的策略相關(guān)的算法和 HER 結(jié)合起來使用肯定很有意思。這個方向目前已經(jīng)有一些初步的研究成果,比如 https://arxiv.org/abs/1711.06006 。

  • 頻繁動作的強(qiáng)化學(xué)習(xí):目前的強(qiáng)化學(xué)習(xí)算法都對動作頻率非常敏感,這也是為什么 Atari 游戲的算法中經(jīng)常用到跳幀技巧的原因。在連續(xù)控制領(lǐng)域,隨著模型動作的頻率逐漸提升到無限大,模型的表現(xiàn)會逐漸下降到 0。這其中有兩個原因:探索行為的不連貫性,以及為了及時傳播反饋中的信息需要引導(dǎo)更多次。如何設(shè)計一個可以高效利用樣本、而且即便動作頻率上升到無限大也能保持表現(xiàn)的算法呢?

  • 把 HER 和強(qiáng)化學(xué)習(xí)的近期進(jìn)展結(jié)合起來:目前有許許多多的研究在嘗試提升強(qiáng)化學(xué)習(xí)的各個方面。目前作為開頭,HER 已經(jīng)可以和優(yōu)先經(jīng)驗重放(Prioritized Experience Replay, https://arxiv.org/abs/1511.05952)、分布式強(qiáng)化學(xué)習(xí)(https://arxiv.org/abs/1707.06887)、熵正則化強(qiáng)化學(xué)習(xí)(entropy-regularized RL,https://arxiv.org/abs/1704.06440)以及反向過程生成(reverse curriculum generation,https://arxiv.org/abs/1707.05300  )等方法結(jié)合起來。

新的八個環(huán)境已經(jīng)可以在 https://gym.openai.com/envs/#robotics 詳細(xì)查看,新的 HER 基準(zhǔn)算法代碼也已經(jīng)和以往的 A2C、ACER、DDPG、DQN、PPO、TRPO 等基準(zhǔn)算法一起開源在 https://github.com/openai/baselines 。另外 OpenAI 也單獨撰寫了一篇正式的文檔介紹這一整件事情。

對于新任務(wù)和新算法,我們和 OpenAI 一同期待更精彩的后續(xù)研究。

via OpenAI Blog,雷鋒網(wǎng) AI 科技評論編譯

相關(guān)文章:

OpenAI提出層級強(qiáng)化學(xué)習(xí),給長序列動作學(xué)習(xí)帶來新的曙光

這里有一篇深度強(qiáng)化學(xué)習(xí)勸退文

邀請函or挑戰(zhàn)書?OpenAI 喊你研究 7 個未解 AI 問題

「我想要MAC」說的是口紅還是電腦?OpenAI 的 AI 可能比你男朋友更清楚

OpenAI等機(jī)構(gòu)發(fā)布《人工智能惡意使用》報告,利用AI來犯罪只是時間問題

雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

用強(qiáng)化學(xué)習(xí)轉(zhuǎn)雞蛋、轉(zhuǎn)筆,OpenAI 發(fā)起新的機(jī)械手挑戰(zhàn)

分享:
相關(guān)文章

讀論文為生

日常笑點滴,學(xué)術(shù)死腦筋
當(dāng)月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說