0
本文作者: 隔壁王大喵 | 編輯:郭奕欣 | 2017-04-24 11:50 | 專題:ICLR 2017 |
雷鋒網(wǎng)AI科技評(píng)論按:ICLR 2017 將于4月24-26日在法國(guó)土倫舉行,屆時(shí)雷鋒網(wǎng)AI科技評(píng)論的編輯們也將前往法國(guó)帶來(lái)一線報(bào)道。在這個(gè)深度學(xué)習(xí)會(huì)議舉辦之前,雷鋒網(wǎng)也將圍繞會(huì)議議程及論文介紹展開一系列的覆蓋和專題報(bào)道,敬請(qǐng)期待。
盡管目前強(qiáng)化學(xué)習(xí)(Reinforcenment learning)已經(jīng)取得了重大的進(jìn)展,但是依然存在兩個(gè)關(guān)鍵性挑戰(zhàn)。
一個(gè)是在復(fù)雜和動(dòng)態(tài)的三維環(huán)境下從原生的感覺輸入中實(shí)現(xiàn)感覺運(yùn)動(dòng)控制(Sensorimotor control),以實(shí)現(xiàn)直接從經(jīng)驗(yàn)中進(jìn)行學(xué)習(xí);
另一個(gè)則是獲得可以靈活部署以實(shí)現(xiàn)大量動(dòng)態(tài)目標(biāo)任務(wù)的通用技能。
因此本文的作者提出了一種旨在輔助進(jìn)步的感覺運(yùn)動(dòng)控制方法,以克服強(qiáng)化學(xué)習(xí)的兩大挑戰(zhàn)。
以下為雷鋒網(wǎng)AI科技評(píng)論據(jù)論文內(nèi)容進(jìn)行的部分編譯。
據(jù)雷鋒網(wǎng)了解,來(lái)自英特爾實(shí)驗(yàn)室(Intel Labs)的兩名研究員Alexey Dosovitskiy和Vladlen Koltum提出了一種在沉浸式環(huán)境中實(shí)現(xiàn)感覺運(yùn)動(dòng)控制(Sensorimotor control)的方法。據(jù)悉,該方法有效地綜合利用了高維度的感官流(high-dimensional sensory stream)和較低維度的測(cè)量流(lower-dimensional measurement stream)。
圖1:網(wǎng)絡(luò)結(jié)構(gòu)。s表示圖像數(shù)據(jù),m表示測(cè)量,g表示目標(biāo)。s,m,g首先通過(guò)三個(gè)輸入模塊分別進(jìn)行處理。然后這些輸入模塊的輸出結(jié)果將被連接成一個(gè)聯(lián)合表示j。之后聯(lián)合表示j被送入了兩個(gè)并行的計(jì)算流進(jìn)行單獨(dú)處理,這兩個(gè)計(jì)算流分別用于預(yù)測(cè)測(cè)量期望E(j)和歸一化動(dòng)作條件差異。最后兩個(gè)計(jì)算流的輸出將被組合到一起以獲得針對(duì)每個(gè)動(dòng)作的最終預(yù)測(cè)。
這些流的時(shí)間結(jié)構(gòu)提供了豐富的監(jiān)控信號(hào),這使得可以通過(guò)與環(huán)境交互的方式訓(xùn)練運(yùn)動(dòng)控制模型。該模型通過(guò)監(jiān)督學(xué)習(xí)技術(shù)進(jìn)行訓(xùn)練,但是沒有用到外部監(jiān)督。它從來(lái)自于復(fù)雜三維環(huán)境的原始感官輸入中學(xué)習(xí)動(dòng)作。該方案使得模型在訓(xùn)練過(guò)程中不用設(shè)定固定的學(xué)習(xí)目標(biāo),并且在測(cè)試的時(shí)候可以探索動(dòng)態(tài)變化的目標(biāo)。
據(jù)悉,研究員們?cè)诮?jīng)典的第一視角游戲——Doom所提供的的三維模擬環(huán)境中進(jìn)行了大量的實(shí)驗(yàn)。而實(shí)驗(yàn)結(jié)果表明,英特爾實(shí)驗(yàn)室研究員所提出的方法優(yōu)于先前提出的其它復(fù)雜方法,這一點(diǎn)在具有挑戰(zhàn)性的任務(wù)中體現(xiàn)得更加明顯。實(shí)驗(yàn)結(jié)果還表明訓(xùn)練好的模型在環(huán)境與目標(biāo)之間具有很好的泛化能力。除此之外,通過(guò)該方法訓(xùn)練出來(lái)的模型還贏得了Full Deathmatch track of the Visual Doom AI Competition的勝利,該競(jìng)賽是在一個(gè)對(duì)于模型而言完全陌生的環(huán)境下舉辦的。
圖2:展示了來(lái)自于四個(gè)場(chǎng)景的樣例。D1展示了在一個(gè)正方形房間里收集醫(yī)療包(“Basic”)。D2展示了在迷宮中收集醫(yī)療包并且還要避開毒藥(“Navigation”)。D3展示了在迷宮中收集醫(yī)療包和彈藥并同時(shí)攻擊敵人(“Battle”)。D4展示了在一個(gè)更加復(fù)雜的迷宮中收集醫(yī)療包和彈藥并同時(shí)攻擊敵人(“Battle 2”)。
圖3:不同方法在訓(xùn)練中的表現(xiàn)。DQN,A3C和DFP在基礎(chǔ)的場(chǎng)景中都取得了類似的表現(xiàn)結(jié)果。但是DFP在其它三個(gè)場(chǎng)景中取得的表現(xiàn)結(jié)果都超過(guò)了另外三個(gè)方法。并且在最復(fù)雜的兩個(gè)場(chǎng)景下(D3與D4),DFP的表現(xiàn)結(jié)果遠(yuǎn)遠(yuǎn)優(yōu)于另外三個(gè)方法。
ICLR委員會(huì)最終決定
評(píng)價(jià):這篇論文詳細(xì)介紹了作者在VizDoom競(jìng)賽中獲勝的方法。這是一種預(yù)測(cè)輔助變量的策略性強(qiáng)化學(xué)習(xí)方法,并且使用了內(nèi)在動(dòng)機(jī)。同時(shí)該方法也是通用價(jià)值函數(shù)的一種特殊情況。該方法事實(shí)上是其它不同策略的一個(gè)集合,但是它產(chǎn)生了令人印象深刻的實(shí)驗(yàn)結(jié)果,并且論文也寫的很清晰。
決定:接受(Oral)
令人信服的經(jīng)驗(yàn)驅(qū)動(dòng)成果
打分:7分:好論文,接受
評(píng)價(jià):深度強(qiáng)化學(xué)習(xí)(在強(qiáng)化學(xué)習(xí)算法中使用深度神經(jīng)網(wǎng)絡(luò)進(jìn)行函數(shù)近似)在解決大規(guī)模狀態(tài)空間下的強(qiáng)化學(xué)習(xí)問(wèn)題中已經(jīng)取得了許多的成功。而這種經(jīng)驗(yàn)驅(qū)動(dòng)的工作正是建立在這些方法的基礎(chǔ)之上進(jìn)行的。這篇論文介紹了一種新穎的算法,該算法在原生感覺數(shù)據(jù)(Raw sensory data)的全新3D環(huán)境中表現(xiàn)得更好,并且能在目標(biāo)和環(huán)境之間獲得更好的泛化能力。值得注意的是,該算法可是Visual Doom AI競(jìng)賽的獲勝者。
(沒有標(biāo)題)
打分:8分:在所有被接受的論文中排前50%,確定接受
評(píng)價(jià):本文提出了一種具有附加輔助內(nèi)在變量的策略深度強(qiáng)化學(xué)習(xí)方法。
該方法是一種基于通用價(jià)值函數(shù)方法的特殊例子,并且作者也在引用中標(biāo)注出了正確的參考。也許這篇文章最大的技術(shù)貢獻(xiàn)是提煉了許多現(xiàn)有的方法來(lái)解決3D導(dǎo)航問(wèn)題。我認(rèn)為論文的貢獻(xiàn)應(yīng)該在摘要中更加詳細(xì)地論述出來(lái)。
我本來(lái)希望看到該方法的失敗模式。就是在什么情況下該模型會(huì)出現(xiàn)改變目標(biāo)的問(wèn)題?并且因?yàn)檫@是一種策略性的方法,所以還存在其它的概念問(wèn)題。比如,如果算法中的代理不在過(guò)去的目標(biāo)上反復(fù)進(jìn)行訓(xùn)練的話,將會(huì)出現(xiàn)災(zāi)難性的遺忘。
由于本文的主要貢獻(xiàn)是整合了幾個(gè)關(guān)鍵思想并且展示了經(jīng)驗(yàn)的優(yōu)勢(shì),所以我還希望看到其它領(lǐng)域的測(cè)試結(jié)果,比如Atari(也許使用ROM作為內(nèi)在變量)。
總而言之,我認(rèn)為這篇論文確實(shí)展現(xiàn)了利用所提出的潛在公式的明顯經(jīng)驗(yàn)優(yōu)勢(shì),并且本文的實(shí)驗(yàn)見解可能對(duì)未來(lái)的代理研究具有價(jià)值。
(沒有標(biāo)題)
打分:8分:在所有被接受的論文中排前50%,確定接受
評(píng)論:這篇論文提出了一種策略性方法來(lái)預(yù)測(cè)未來(lái)的內(nèi)在測(cè)量。所有的實(shí)驗(yàn)都是在名為Doom(更準(zhǔn)確來(lái)說(shuō)是vizDoom)的這款游戲上展開的。與一般性地預(yù)測(cè)游戲輸贏或者是游戲得分不同,本文的作者訓(xùn)練了模型來(lái)預(yù)測(cè)一系列的三元組(健康,彈藥,得分),并且由作為輸入提供的一系列“目標(biāo)”三元組加權(quán)。改變目標(biāo)三元組的加權(quán)是執(zhí)行/指導(dǎo)探索的一種方式。在測(cè)試期間,只能通過(guò)最大化長(zhǎng)期目標(biāo)來(lái)實(shí)現(xiàn)代理的行動(dòng)。
這個(gè)結(jié)果令人印象深刻,因?yàn)樵撃P挖A得了2016年vizDoom大賽。并且本文的實(shí)驗(yàn)部分看起來(lái)很合理:
實(shí)驗(yàn)中包含了DFP與A3C、DQN方法的比較,而且也嘗試了同DSR方法(與本文相類似的一種方法,由Kulkarni等人在2016年提出)進(jìn)行比較。DFP方法在各個(gè)實(shí)驗(yàn)中都超越(或者至少也是持平)了其它方法。
有一項(xiàng)消融研究(Ablation study)能夠證明文中所有對(duì)模型“增加復(fù)雜性”的做法都是有效的。
預(yù)測(cè)內(nèi)在動(dòng)機(jī)(Singh et al. 2004)、輔助變量和前向建模都是強(qiáng)化學(xué)習(xí)中有著較好研究成果的領(lǐng)域。我閱讀的那個(gè)版本(12月4日修訂版)中充分參考了以前的工作,雖然還沒有做到非常全面。
我認(rèn)為這篇應(yīng)該被接受。可能有些人認(rèn)為該論文的實(shí)驗(yàn)可以在不同的環(huán)境下進(jìn)行或者新穎性有限,但是我認(rèn)為這篇“正確的”并且“里程碑式的”論文應(yīng)該得到發(fā)表。
Via Learning to Act by Predicting the Future,雷鋒網(wǎng)編譯
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。
本專題其他文章