丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
人工智能學術(shù) 正文
發(fā)私信給MrBear
發(fā)送

0

深度強化學習一定要用到獎勵工程嗎?伯克利 AI 研究院:并不需要

本文作者: MrBear 編輯:幸麗娟 2019-06-25 09:53
導語:機器人系統(tǒng)也朝著終生學習的目標邁進了一步!

雷鋒網(wǎng) AI 科技評論按:近年來,強化學習技術(shù)在控制領(lǐng)域大放異彩。然而,獎勵函數(shù)的設(shè)計問題一直以來都是困擾著人們的「老大難」問題。近期,伯克利的研究人員提出了一種基于「事件變分逆控制」的端到端深度強化學習范式,使機器人無需依賴獎勵工程便能實現(xiàn)高效的深度強化學習,成功地在機器人控制問題上取得了重大突破。伯克利 AI 研究院將相關(guān)成果發(fā)布在博客上,雷鋒網(wǎng) AI 科技評論編譯如下。

將任務(wù)的目標告知他人是件很容易的事:我們可以使用語言向他們描述希望得到的結(jié)果,向他們展示一段教學視頻,或者綜合使用這些方法。但在另一方面,為機器人指定一項強化學習任務(wù)則是一件需要付出巨大努力的事。在先前大量的工作中,研究者們已經(jīng)將深度強化學習技術(shù)應(yīng)用于真實的機器人上,而這些工作使用的是特定的傳感器來獲得獎勵或?qū)W習任務(wù),在這些任務(wù)中,機器人的內(nèi)部傳感器可以被用來衡量獎勵。例如,使用熱成像儀跟蹤液體流動(https://arxiv.org/abs/1608.00887),或者使用專門構(gòu)建的計算機視覺系統(tǒng)來跟蹤物體(https://arxiv.org/abs/1707.01495)。由于對于任何我們希望學習的新任務(wù)來說,首先都需要準備好這些儀器環(huán)境,這就使我們在廣泛將強化學習技術(shù)應(yīng)用于機器人時遇到了重大的瓶頸,并且我們難以在缺乏這些儀器的開放世界環(huán)境中直接使用這些方法。

為此,我們開發(fā)出了一種端到端的方法,它使機器人可以在不需要任何手動的獎勵工程的情況下,從描述了如何完成一個任務(wù)的適當數(shù)量的圖像中學習。機器人僅僅從這些信息(大約 80 張圖像)中開始學習,且偶爾向用戶查詢額外的標簽。在查詢過程中,機器人會向用戶展示一張圖像并要求用戶為該圖像打上標簽,從而確定該圖像是否代表任務(wù)已被成功完成。用戶需要提供此類查詢的次數(shù)并不多(大約 25-75 次),而機器人則能通過使用這些查詢結(jié)果,在 1-4 小時的交互時間內(nèi)直接在真實世界中學習,最終結(jié)果顯示,這種方法是最高效的適用于真實世界的基于圖像的機器人強化學習方法之一。我們已經(jīng)對該方法進行開源,地址如下:

https://github.com/avisingh599/reward-learning-rl。

深度強化學習一定要用到獎勵工程嗎?伯克利 AI 研究院:并不需要

深度強化學習一定要用到獎勵工程嗎?伯克利 AI 研究院:并不需要

深度強化學習一定要用到獎勵工程嗎?伯克利 AI 研究院:并不需要

我們提出的方法使我們能夠以端到端方式利用圖像像素數(shù)據(jù)解決諸多基于現(xiàn)實世界的機器人問題,且無需任何人為設(shè)計的獎勵函數(shù)。

基于分類器的獎勵

雖然我們先前的大多數(shù)的工作都傾向于利用專門構(gòu)建的系統(tǒng)來獲取獎勵,從而解決所面臨的任務(wù),同時此前也曾探索了一種簡單的替代方案。我們可以使用一組目標圖像來指定任務(wù),而后訓練分類器來區(qū)分目標圖像與非目標圖像。接著,該分類器分類成功的概率可以被用作訓練強化學習智能體來實現(xiàn)該目標的獎勵。

深度強化學習一定要用到獎勵工程嗎?伯克利 AI 研究院:并不需要

通過示例圖像指定任務(wù)通常是非常直接的。如上圖所示,任務(wù)可能是將與圖片中同樣多的葡萄酒倒入玻璃杯中、像圖片中一樣將衣服疊起來,以及按照圖中的樣式擺放餐具。

分類器存在的問題

盡管分類器是在現(xiàn)實世界中為強化學習智能體指定任務(wù)的最直觀、最直接的解決方案,但它們在應(yīng)用于現(xiàn)實世界中的問題上時也會產(chǎn)生不少問題。然而,使用目標分類器來指定任務(wù)的用戶,不僅需要為該任務(wù)提供正樣本,而且還需要提供負樣本。此外,這組負樣本必須足夠詳盡,同時涵蓋機器人可能到達經(jīng)過的所有空間區(qū)域。如果該組負樣本提供的信息不夠詳盡,那么強化學習算法可能會通過找出分類器在訓練期間未曾見過的場景而輕易騙過分類器。下方的示例展示了「分類器利用(exploitation)」這一問題: 

深度強化學習一定要用到獎勵工程嗎?伯克利 AI 研究院:并不需要

在這個任務(wù)中,機器人的目標是將綠色的物體推到紅色標記上方。我們使用一個分類器作為獎勵函數(shù),通過強化學習來訓練該機器人。右下角可以看到分類器成功分類的概率隨時間變化的可視化結(jié)果。正如我們看到的,即便分類器輸出的成功概率為 1.0,機器人也仍然無法完成這個任務(wù)。而強化學習算法已經(jīng)成功地以一種特殊的方式移動機器臂,從而騙過了分類器,這是因為該分類器并沒有在這種特定的負樣本上被訓練過。

攻克「分類器利用」問題

我們采用的最新方法被稱為「事件變分逆控制」(variational inverse control with events,VICE,https://sites.google.com/view/inverse-event),它試圖通過取代以對抗式的方式來挖掘分類器所需要的負樣本來解決這個問題。該方法在一開始會隨機初始化分類器和策略。首先,它會調(diào)整分類器并更新策略,從而最大化獎勵;接下來,它會訓練分類器將用戶所提供的目標示例與通過強化策略收集到的樣本區(qū)分開來。然后,強化學習算法會利用更新后的分類器作為學習策略的獎勵,從而實現(xiàn)希望實現(xiàn)的目標;這一迭代過程將持續(xù)到策略收集到的樣本與用戶提供的目標示例無法被區(qū)分開來。這一過程類似于生成對抗網(wǎng)絡(luò)(https://papers.nips.cc/paper/5423-generative-adversarial-nets.pdf),并且基于某種逆強化學習(https://arxiv.org/abs/1710.11248)的一種形式(https://arxiv.org/abs/1611.03852)。但與標準的逆強化學習不同,這種方法不需要示例演示——而僅需要在分類器開始訓練時提供成功完成任務(wù)的示例圖像。VICE(如下圖所示)能夠有效解決初始分類器的利用問題,而用戶則不再需要提供任何負樣本示例。 

深度強化學習一定要用到獎勵工程嗎?伯克利 AI 研究院:并不需要

我們看到,分類器學習的成功概率與實際成功情況密切相關(guān),這使得機器人可以學會成功完成任務(wù)的策略。

利用主動學習

雖然 VICE 能夠在無需任何獎勵工程的前提下,學會用于解決現(xiàn)實世界中的機器人任務(wù)的端到端的策略,但它其仍然有著自己的局限性:VICE 需要事先得到數(shù)千個正樣本才能完成學習,這會大大增加人類用戶的工作量。為了解決這個問題,我們開發(fā)出了一種新方法,它使機器人能夠在除了使用適量的初始目標示例之外,還能夠向用戶提出的標簽查詢。我們將這種方法稱為「利用主動目標查詢的強化學習」(RAQ,https://sites.google.com/view/reward-learning-rl/)。在這些主動查詢過程中,機器人會向用戶展示一張圖像并要求用戶為該圖像打標簽,以確認該圖像是否表示任務(wù)已被成功完成。雖然這種主動請求用戶為每個狀態(tài)打標簽的作法實際上相當于要求用戶手動提供獎勵信號,但該方法只需要用戶給機器人在訓練期間看到的一小部分圖像打標簽,對于在無需手動設(shè)計獎勵的情況  言下學習機器人技能的任務(wù)而言,這是一種高效且實用的方法。

深度強化學習一定要用到獎勵工程嗎?伯克利 AI 研究院:并不需要

在這個任務(wù)中,我們的目標是將書籍放入書架中的任意一個空槽內(nèi)。該圖展示了我們的算法所做出的一些查詢示例。該算法根據(jù)在學習解決任務(wù)的過程中積累的經(jīng)驗挑選出了以上幾幅圖像(使用學到的分類器得出的概率估計),并由用戶為這些圖像打上二分類的「成功/失敗」的標簽。

我們將這種組合方法稱為 VICE-RAQ,在事先擁有 80 張目標示例圖像、后續(xù)進行 25-75 次主動查詢的情況下,它能夠完成現(xiàn)實世界中的機器人任務(wù)。我們采用了最近提出的「soft actor-critic」算法(https://bair.berkeley.edu/blog/2018/12/14/sac/)來進行策略優(yōu)化,可以在與現(xiàn)實世界交互的大約 1-4 小時內(nèi)完成任務(wù),這比先前在圖像上進行端到端的策略訓練的方法要快得多。

深度強化學習一定要用到獎勵工程嗎?伯克利 AI 研究院:并不需要

我們的方法能夠在一個小時多一點的交互時間內(nèi)學會完成將物體推到指定地點的任務(wù)(目標是將杯子推到白色杯托之上),而且只需要進行 25 次查詢。即使對于更為復雜的書架擺放和布簾覆蓋任務(wù),我們的方法也只需要不到 4 個小時的交互時間,以及不到 75 次的主動查詢。

解決涉及可形變目標的任務(wù)

由于我們在本任務(wù)中基于圖像像素學習獎勵函數(shù),因此可以解決那些難以手動指定獎勵函數(shù)的任務(wù)。我們進行的實驗任務(wù)之一,是將布覆蓋在一個盒子上——這實際上是用桌布覆蓋桌面任務(wù)的一種簡化版本。為了成功完成任務(wù),機器人必須平穩(wěn)地覆蓋布料,不能壓皺布料也不能讓任何地方起褶皺。我們發(fā)現(xiàn)我們的方法能夠成功地解決這項任務(wù)。為了展示本任務(wù)所面臨的挑戰(zhàn),我們評估了另一種僅使用機器人末端效應(yīng)器的位置作為觀測數(shù)據(jù)、并基于該測量數(shù)據(jù)(與目標的歐氏距離)手動定義獎勵函數(shù)的方法。我們觀察到,這種對比基準方法并不能實現(xiàn)該任務(wù)的既定目標,因為它只會簡單地以直線運動的方式將末端效應(yīng)器移動至目標位置,然而直線軌跡并不能解決這項任務(wù)。

深度強化學習一定要用到獎勵工程嗎?伯克利 AI 研究院:并不需要

深度強化學習一定要用到獎勵工程嗎?伯克利 AI 研究院:并不需要

上圖:使用機械臂的位置作為觀測數(shù)據(jù)手動定義獎勵函數(shù)的策略的實驗結(jié)果。下圖:使用基于像素學習到的獎勵函數(shù)的策略的實驗結(jié)果。

解決帶有多目標條件的問題

分類器描述一個任務(wù)的表達能力要遠遠強于目標圖像,這一點在有多張描述目標的圖片的任務(wù)中可以很好地體現(xiàn)出來。在我們實驗的書架擺放任務(wù)當中,目標是將書籍插入書架上的空槽處。機械臂拿起書籍的初始位置是隨機的,任務(wù)要求機器人能夠從任意的起始位置成功地完成任務(wù)。最重要的是,書架上有若干個空槽,意味著不同的起始位置可能對應(yīng)不同的最優(yōu)目標空槽。在這里,我們看到我們的方法學到了一種能夠根據(jù)書籍在軌跡中的初始位置將其插入不同空槽的策略。機器人通常更傾向于將書放入最近的槽中,因為這能夠最大化其從分類器那里獲得的獎勵。 

深度強化學習一定要用到獎勵工程嗎?伯克利 AI 研究院:并不需要

深度強化學習一定要用到獎勵工程嗎?伯克利 AI 研究院:并不需要

上圖:機器人選擇將書籍插入左側(cè)的空槽。下圖:機器人選擇將書籍插入右側(cè)的空槽。

相關(guān)工作

近年來,研究人員提出了多種數(shù)據(jù)驅(qū)動型方法來解決獎勵規(guī)范問題(reward specification problem),其中逆強化學習(IRL,https://ai.stanford.edu/~ang/papers/icml00-irl.pdf)是一種性能較為突出的方法。VICE 與最近提出的 IRL 方法密切相關(guān),例如:帶引導機制的成本學習(https://arxiv.org/abs/1603.00448)與對抗逆強化學習(https://arxiv.org/abs/1710.11248)。 IRL 方法要求人類專家提供實現(xiàn)正確的(狀態(tài)、動作)對軌跡,而 VICE 只需要最終希望實現(xiàn)的狀態(tài),這就使得任務(wù)指定變得簡單得多,同時也讓強化學習算法能夠自主發(fā)現(xiàn)更多能夠完成任務(wù)的新穎方式(而非簡單模仿專家的行為)。

我們的方法還與生成對抗網(wǎng)絡(luò)(https://arxiv.org/abs/1406.2661)相關(guān)。受到生成對抗網(wǎng)絡(luò)(GAN,https://arxiv.org/abs/1606.03476)啟發(fā)的各類技術(shù)已被廣泛應(yīng)用于控制問題,但是與前面提到的逆強化學習技術(shù)一樣,這些技術(shù)也要求我們事先擁有「專家軌跡」(expert trajectories)數(shù)據(jù)。我們的方法表明,這種對抗性學習框架可以被擴展至無需專家演示引導的體系當中,而我們只需要給出想要達到的理想狀態(tài)的示例即可。

在過去幾年當中,用于機器人的端到端感知與控制技術(shù)獲得了極大的關(guān)注,但初步的方法要么要求能夠在訓練過程中利用低維狀態(tài)(例如,對象的位置,https://arxiv.org/abs/1504.00702)、要么需要單獨訓練機器人的中間表征(https://arxiv.org/abs/1509.06113)。而最近,研究者提出的一些方法(https://bair.berkeley.edu/blog/2018/12/14/sac/)能夠直接通過像素學習策略,而無需依賴于訓練過程中的低維狀態(tài),但它們?nèi)匀恍枰@取獎勵的儀器。我們的方法在這方面有了進一步的提升——能夠直接根據(jù)像素學習策略與獎勵函數(shù)。這種方法使我們能夠解決那些較難指定獎勵的任務(wù),例如:機器臂蓋桌布任務(wù)。

結(jié)語

通過使機器人能夠在無需用戶對獎勵函數(shù)或?qū)<已菔具M行編程的情況下實現(xiàn)強化學習,我們堅信我們的方法讓強化學習在成為機器人實現(xiàn)全能型操作的實用、自動和易用的工具的道路上,前進了一大步。通過使機器人在無需任何儀器或手動獎勵設(shè)計的條件下就能夠直接在現(xiàn)實世界環(huán)境中提升技能,我們亦堅信我們的方法也意味著,直接從現(xiàn)實環(huán)境中學習的機器人系統(tǒng)也朝著終生學習的目標邁進了一步。在未來,這種能力可以使機器人得以通過與現(xiàn)實世界的交互直接獲取廣泛且高度泛化的技能。  

本文參考論文:

End-to-End Robotic Reinforcement Learning without Reward Engineering(RSS 2019)

Variational Inverse Control with Events: A General Framework for Data-Driven Reward Definition(NeurIPS 2018)

via https://bair.berkeley.edu/blog/2019/05/28/end-to-end/  雷鋒網(wǎng)

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

深度強化學習一定要用到獎勵工程嗎?伯克利 AI 研究院:并不需要

分享:
相關(guān)文章

知情人士

當月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說