丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預覽,將在時失效
人工智能 正文
發(fā)私信給劉肉醬
發(fā)送

0

多任務智能體的一大步:DeepMind 一次搞定 57 種 Atari 游戲的 PopArt

本文作者: 劉肉醬 編輯:楊曉凡 2018-09-24 19:09
導語:那么它能學會自己找彩蛋嗎?

多任務智能體的一大步:DeepMind 一次搞定 57 種 Atari 游戲的 PopArt

雷鋒網(wǎng) AI 科技評論按:多任務學習,也就是讓單個智能體學習解決許多不同的問題,是人工智能研究中的長期目標。最近,該領域取得了許多重大進展,DQN 等智能體可以使用相同的算法玩不同的游戲,包括 Atari 游戲「Breakout」(打磚塊)和「Pong」(乒乓球)游戲。這些算法以前為每項任務分別訓練不同的智能體。隨著人工智能研究深入到更多復雜的現(xiàn)實世界領域,構建單個通用智能體(與多個分別擅長不同任務的智能體相反)來學習完成多個任務將變得至關重要。然而,截至目前,這一任務依然是一個重大挑戰(zhàn)。DeepMind 近期的一項研究就提出了自己的重大改進。雷鋒網(wǎng) AI 科技評論把研究介紹編譯如下。

要做出能掌握多種不同任務的智能體的難點之一在于,強化學習智能體用來判斷成功的獎勵等級往往有所不同,導致他們將注意力集中在獎勵更高的任務上。拿「Pong」(乒乓球)游戲來舉例,智能體每一步有三種可能的獎勵:-1(AI沒接住對方發(fā)來的球,不僅沒掙分,反而倒貼一分)、0(AI接住了球,進入了敵我雙反循環(huán)往復的彈球過程,費了老勁卻沒有任何回報)、+1(AI終于扳回了一局,才能得1分,實屬得之不易);但在吃豆人(Ms. Pac-Man)這個游戲里面就不同了,只要一出門,就可以吃到一連串的豆豆,因而智能體可以在單個步驟中獲得數(shù)百或數(shù)千分。即使單次獲得的獎勵的大小可以比較,但隨著智能體不斷進化,獎勵的頻率可能會隨著時間發(fā)生變化。這意味著,只要不被敵人抓到,吃豆的獎勵明顯比打乒乓球高得多。那么,智能體當然會沉迷吃豆(得分高的任務),全然忘記自己還肩負學會其它得分不易游戲的重任。

「PopArt」

為了不放任智能體胡來,DeepMind推出了 PopArt。這一技術可以讓不同游戲的獎勵尺度互相適應起來,無論每個特定游戲中可以得到的獎勵有多大,智能體都會認為每個游戲具有同等的學習價值。研究人員用 PopArt 的正態(tài)化方法調(diào)整了當前最先進的強化學習智能體,使得一個 AI 可以學會多達 57 種不同的 Atari 游戲了,而且在這些游戲中的得分也超過了人類得分的中位數(shù)。

從廣義上來說,深度學習依賴于神經(jīng)網(wǎng)絡權重更新,其輸出不斷逼近理想目標輸出。神經(jīng)網(wǎng)絡用于深度強化學習中時也是如此。PopArt 的工作原理,就是估算各種目標的均值以及分散程度(比如把游戲中的得分作為目標)。然后,在更新權重之前,用這些統(tǒng)計數(shù)據(jù),把更新網(wǎng)絡權重時作為參考的目標歸一化。這樣一來,學習過程就會變得比較穩(wěn)定,不容易因為獎勵尺度之類的因素改變而發(fā)生改變。為了得到準確的估計(如預期未來分數(shù)),網(wǎng)絡的輸出可以通過反轉歸一化過程縮放到真實目標范圍。

如果按照這樣的想法直接去做的話,目標統(tǒng)計數(shù)據(jù)的每次更新都將改變所有未歸一化的輸出,包括那些已經(jīng)很好的輸出,這樣會造成表現(xiàn)的下降。DeepMind 研究人員的解決方案是,一旦統(tǒng)計數(shù)據(jù)有更新,他們就把網(wǎng)絡向著相反的方向更新;而這種做法是可以準確地執(zhí)行的。這意味著我們既可以獲得尺度準確的更新的好處,又能保持以前學習到的輸出不變。正是出于這些原因,該方法被命名為 PopArt:它在運行中既能精確地保持輸出,又能自適應地重新縮放目標。

PopArt 作為修剪獎勵的替代方案

一般來說,研究人員會通過在強化學習算法中使用獎勵修剪來克服變化獎勵范圍的問題。這種修剪方法把太大的和太小的,都裁剪到 [-1, 1] 的區(qū)間里,粗略地歸一化期望獎勵。雖然這個方法會讓學習過程變得容易,但它也會讓學習目標發(fā)生變化。仍然以吃豆人(Ms. Pac-Man)舉例,智能體的目標就是吃豆和吃敵人,每顆豆 10 分,而每吃掉一個敵人會獲得 200 到 1600 不等的分數(shù)。如果用獎勵裁剪的話,吃豆和吃敵人可能就沒區(qū)別了。這樣訓練出來的AI,很可能只吃豆,完全不去追敵人,畢竟吃豆容易。如下圖所示。

多任務智能體的一大步:DeepMind 一次搞定 57 種 Atari 游戲的 PopArt

當移除獎勵裁剪方案,并使用 PopArt 歸一化代替剪裁步驟之后,訓練效果就截然不同了。智能體會去追敵人了,得的分數(shù)也高了許多。

多任務智能體的一大步:DeepMind 一次搞定 57 種 Atari 游戲的 PopArt

利用 PopArt 進行多任務深度強化學習

DeepMind 將 PopArt 應用于Importance-weighted Actor-Learner Architecture (IMPALA)上,這是 DeepMind此前提出的、最常用的深度強化學習智能體。在實驗中,與沒有使用 PopArt 的基線智能體相比,PopArt 顯著提升了智能體的性能。不論仍然有獎勵修剪和還是去除了獎勵修剪,PopArt 智能體游戲得分的中位數(shù)都超越了人類玩家得分的中位數(shù)。這遠遠高于有著獎勵修剪的基線智能體,而直接去掉了獎勵修剪的基線智能體完全無法達到有意義的性能,因為它無法有效地處理游戲中獎勵規(guī)模的大范圍變化。

多任務智能體的一大步:DeepMind 一次搞定 57 種 Atari 游戲的 PopArt

57 個 Atari 游戲上的中位數(shù)標準化性能。每一條線對應單個智能體使用同一個神經(jīng)網(wǎng)絡在所有游戲中得到的中位數(shù)性能。實線代表使用了獎勵修剪的智能體。虛線代表未使用獎勵修剪的智能體。

這是首次使用單個智能體在這種多任務環(huán)境中實現(xiàn)超越人類的表現(xiàn),表明 PopArt 可以為這樣的開放性研究問題提供線索,即如何在沒有手動修剪或縮放獎勵的情況下平衡不同的目標函數(shù)。PopArt 實現(xiàn)在學習的同時自動適應歸一化的能力在應用 AI 到更加復雜的多模態(tài)領域時可能是很重要的,其中智能體必須學會權衡多個不同的具備變化獎勵的目標函數(shù)。

via deepmind.com,雷鋒網(wǎng) AI 科技評論編譯

雷峰網(wǎng)版權文章,未經(jīng)授權禁止轉載。詳情見轉載須知。

多任務智能體的一大步:DeepMind 一次搞定 57 種 Atari 游戲的 PopArt

分享:
相關文章
當月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設置密碼以方便用郵箱登錄
立即設置 以后再說