0
本文作者: 三川 | 2016-11-18 18:49 |
DeepMind 最近的論文《非監(jiān)督輔助任務(wù)中的強(qiáng)化學(xué)習(xí)》(”REINFORCEMENT LEARNING WITH UNSUPERVISED AUXILIARY TASKS”)介紹了一種極大提高代理學(xué)習(xí)速度和最終成效的方法。研究人員通過讓代理在訓(xùn)練中執(zhí)行兩個(gè)附加任務(wù),來(lái)對(duì)標(biāo)準(zhǔn)的深度強(qiáng)化學(xué)習(xí)方法進(jìn)行增強(qiáng)”
Deepmind 表示:“我們的目標(biāo)是開拓 AI 領(lǐng)域的最前沿,開發(fā)出能通過學(xué)習(xí)解決任何難題,而無(wú)須人類教它怎么做的程序。我們的強(qiáng)化學(xué)習(xí)代理(agent)已經(jīng)在圍棋和雅利達(dá) 2600 (Atari 2600, 1970年代的游戲主機(jī))的游戲中有了重大突破。然而,這些游戲需要很多數(shù)據(jù)和很長(zhǎng)的時(shí)間來(lái)學(xué)習(xí)。所以我們一直在尋找提高通用學(xué)習(xí)算法的途徑?!?/p>
DeepMind 代理在迷宮游戲中執(zhí)行搜索任務(wù)的演示如下圖:
第一個(gè)任務(wù)涉及,讓代理學(xué)習(xí)怎樣控制屏幕上的像素(通過移動(dòng)看到不同的東西)。這強(qiáng)調(diào)了對(duì)迷宮游戲中“行動(dòng)影響你所看到的東西”這一原則的學(xué)習(xí),而不是僅僅做出預(yù)測(cè)。這類似于嬰兒學(xué)習(xí)控制他們手臂的過程:試圖移動(dòng)雙手,觀察做出的動(dòng)作,然后進(jìn)行調(diào)整。通過學(xué)習(xí)怎么移動(dòng)來(lái)改變屏幕顯示的東西,DeepMind 代理學(xué)會(huì)了對(duì)玩這個(gè)游戲很有用的視覺輸入,并且拿到更高的得分。
在第二個(gè)任務(wù)中,代理被訓(xùn)練,怎樣從簡(jiǎn)短的歷史背景中預(yù)測(cè)一系列即將獲得的獎(jiǎng)勵(lì)。為了更好地處理這個(gè)情況。當(dāng)獎(jiǎng)勵(lì)很少時(shí),開發(fā)人員向代理按照同等的比例,展示過去獲得獎(jiǎng)勵(lì)和沒有獲得獎(jiǎng)勵(lì)的歷史。更高頻率地學(xué)習(xí)獎(jiǎng)勵(lì)的歷史之后,這個(gè)代理能更快速地發(fā)現(xiàn)會(huì)帶來(lái)預(yù)期獎(jiǎng)勵(lì)的視覺信號(hào)。
這兩個(gè)附加任務(wù)的組合,還有 DeepMind 之前的 A3C 研究成就了他們的全新“非監(jiān)督強(qiáng)化和附加學(xué)習(xí)代理”(UNREAL agent,UNsupervised REinforcement and Auxiliary Learning agent,下文簡(jiǎn)稱 UNREAL 代理) 。DeepMind 在 57 個(gè)雅利達(dá)游戲,和一個(gè) 叫“迷宮”的 13 層 3D 環(huán)境中測(cè)試了這個(gè)代理。在所有的游戲中,基于原始圖像輸出, UNREAL 代理被用同樣的方式訓(xùn)練。目的是讓它做出使游戲得分和獎(jiǎng)勵(lì)最大化的行動(dòng)。
為獲得游戲獎(jiǎng)勵(lì)而需要作出的行動(dòng)很復(fù)雜,從撿起 3D 地圖中的蘋果到玩“外星入侵”(Space Invaders)。UNREAL 算法經(jīng)常學(xué)著玩這些游戲,學(xué)著學(xué)著就達(dá)到、甚至超越人類的水平。部分結(jié)果和可視化展示呈現(xiàn)在下面的視頻:
在“迷宮”游戲中,使用兩項(xiàng)附加任務(wù)(控制屏幕上像素和預(yù)測(cè)獎(jiǎng)勵(lì)何時(shí)發(fā)生)的效果出奇的好。UNREAL 代理能夠以超出 DeepMind 現(xiàn)役最好的 A3C 代理十倍的速度學(xué)習(xí),并且有遠(yuǎn)遠(yuǎn)更好得表現(xiàn) (游戲得分和獎(jiǎng)勵(lì))。Deepmind 的代理平均在每個(gè)迷宮層中達(dá)到人類專家水平的 87% ,并在一部分迷宮層中有超人類的水平。在雅利達(dá)游戲中,這個(gè)代理平均達(dá)到人類水的九倍。Deepmind 表示,他們希望這項(xiàng)研究能讓他們繼續(xù)提高代理的水平,讓它完成更的復(fù)雜任務(wù)。
附:有興趣的技術(shù)宅們請(qǐng)點(diǎn)此查看 DeepMind 論文原文 “REINFORCEMENT LEARNING WITH UNSUPERVISED AUXILIARY TASKS”。
via deepmind
【招聘】雷鋒網(wǎng)堅(jiān)持在人工智能、無(wú)人駕駛、VR/AR、Fintech、未來(lái)醫(yī)療等領(lǐng)域第一時(shí)間提供海外科技動(dòng)態(tài)與資訊。我們需要若干關(guān)注國(guó)際新聞、具有一定的科技新聞選題能力,翻譯及寫作能力優(yōu)良的外翻編輯加入。工作地點(diǎn)深圳。簡(jiǎn)歷投遞至 guoyixin@leiphone.com 。兼職及實(shí)習(xí)均可。
推薦閱讀:
Google Deepmind大神David Silver帶你認(rèn)識(shí)強(qiáng)化學(xué)習(xí)
AlphaGo 將在 2017 年重磅復(fù)出,業(yè)內(nèi)人士怎么看?
谷歌 DeepMind 宣布與暴雪合作,開發(fā)人工智能挑戰(zhàn)《星際爭(zhēng)霸》| 雷鋒早報(bào)
只訓(xùn)練一次數(shù)據(jù)就能識(shí)別出物體,谷歌全新 AI 算法“單次學(xué)習(xí)”
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。