英特爾通過預測變量實現(xiàn)策略性強化學習，奪冠 Doom 游戲競賽 | ICLR 2017

本文作者：隔壁王大喵

編輯：郭奕欣

2017-04-24 11:50

專題：ICLR 2017

導語：英特爾提出了一種旨在輔助進步的感覺運動控制方法，以克服強化學習的兩大挑戰(zhàn)。

雷鋒網(wǎng)AI科技評論按：ICLR 2017 將于4月24-26日在法國土倫舉行，屆時雷鋒網(wǎng)AI科技評論的編輯們也將前往法國帶來一線報道。在這個深度學習會議舉辦之前，雷鋒網(wǎng)也將圍繞會議議程及論文介紹展開一系列的覆蓋和專題報道，敬請期待。

英特爾通過預測變量實現(xiàn)策略性強化學習，奪冠 Doom 游戲競賽 | ICLR 2017

盡管目前強化學習（Reinforcenment learning）已經(jīng)取得了重大的進展，但是依然存在兩個關(guān)鍵性挑戰(zhàn)。

一個是在復雜和動態(tài)的三維環(huán)境下從原生的感覺輸入中實現(xiàn)感覺運動控制（Sensorimotor control），以實現(xiàn)直接從經(jīng)驗中進行學習；
另一個則是獲得可以靈活部署以實現(xiàn)大量動態(tài)目標任務(wù)的通用技能。

因此本文的作者提出了一種旨在輔助進步的感覺運動控制方法，以克服強化學習的兩大挑戰(zhàn)。

以下為雷鋒網(wǎng)AI科技評論據(jù)論文內(nèi)容進行的部分編譯。

論文摘要

據(jù)雷鋒網(wǎng)了解，來自英特爾實驗室（Intel Labs）的兩名研究員Alexey Dosovitskiy和Vladlen Koltum提出了一種在沉浸式環(huán)境中實現(xiàn)感覺運動控制（Sensorimotor control）的方法。據(jù)悉，該方法有效地綜合利用了高維度的感官流（high-dimensional sensory stream）和較低維度的測量流（lower-dimensional measurement stream）。

英特爾通過預測變量實現(xiàn)策略性強化學習，奪冠 Doom 游戲競賽 | ICLR 2017

圖1：網(wǎng)絡(luò)結(jié)構(gòu)。s表示圖像數(shù)據(jù)，m表示測量，g表示目標。s,m,g首先通過三個輸入模塊分別進行處理。然后這些輸入模塊的輸出結(jié)果將被連接成一個聯(lián)合表示j。之后聯(lián)合表示j被送入了兩個并行的計算流進行單獨處理，這兩個計算流分別用于預測測量期望E(j)和歸一化動作條件差異。最后兩個計算流的輸出將被組合到一起以獲得針對每個動作的最終預測。

這些流的時間結(jié)構(gòu)提供了豐富的監(jiān)控信號，這使得可以通過與環(huán)境交互的方式訓練運動控制模型。該模型通過監(jiān)督學習技術(shù)進行訓練，但是沒有用到外部監(jiān)督。它從來自于復雜三維環(huán)境的原始感官輸入中學習動作。該方案使得模型在訓練過程中不用設(shè)定固定的學習目標，并且在測試的時候可以探索動態(tài)變化的目標。

據(jù)悉，研究員們在經(jīng)典的第一視角游戲——Doom所提供的的三維模擬環(huán)境中進行了大量的實驗。而實驗結(jié)果表明，英特爾實驗室研究員所提出的方法優(yōu)于先前提出的其它復雜方法，這一點在具有挑戰(zhàn)性的任務(wù)中體現(xiàn)得更加明顯。實驗結(jié)果還表明訓練好的模型在環(huán)境與目標之間具有很好的泛化能力。除此之外，通過該方法訓練出來的模型還贏得了Full Deathmatch track of the Visual Doom AI Competition的勝利，該競賽是在一個對于模型而言完全陌生的環(huán)境下舉辦的。

論文結(jié)果展示

英特爾通過預測變量實現(xiàn)策略性強化學習，奪冠 Doom 游戲競賽 | ICLR 2017

圖2：展示了來自于四個場景的樣例。D1展示了在一個正方形房間里收集醫(yī)療包（“Basic”）。D2展示了在迷宮中收集醫(yī)療包并且還要避開毒藥（“Navigation”）。D3展示了在迷宮中收集醫(yī)療包和彈藥并同時攻擊敵人（“Battle”）。D4展示了在一個更加復雜的迷宮中收集醫(yī)療包和彈藥并同時攻擊敵人（“Battle 2”）。

英特爾通過預測變量實現(xiàn)策略性強化學習，奪冠 Doom 游戲競賽 | ICLR 2017

圖3：不同方法在訓練中的表現(xiàn)。DQN,A3C和DFP在基礎(chǔ)的場景中都取得了類似的表現(xiàn)結(jié)果。但是DFP在其它三個場景中取得的表現(xiàn)結(jié)果都超過了另外三個方法。并且在最復雜的兩個場景下（D3與D4），DFP的表現(xiàn)結(jié)果遠遠優(yōu)于另外三個方法。

ICLR評論

ICLR委員會最終決定

評價：這篇論文詳細介紹了作者在VizDoom競賽中獲勝的方法。這是一種預測輔助變量的策略性強化學習方法，并且使用了內(nèi)在動機。同時該方法也是通用價值函數(shù)的一種特殊情況。該方法事實上是其它不同策略的一個集合，但是它產(chǎn)生了令人印象深刻的實驗結(jié)果，并且論文也寫的很清晰。

決定：接受（Oral）

令人信服的經(jīng)驗驅(qū)動成果

打分：7分：好論文，接受

評價：深度強化學習（在強化學習算法中使用深度神經(jīng)網(wǎng)絡(luò)進行函數(shù)近似）在解決大規(guī)模狀態(tài)空間下的強化學習問題中已經(jīng)取得了許多的成功。而這種經(jīng)驗驅(qū)動的工作正是建立在這些方法的基礎(chǔ)之上進行的。這篇論文介紹了一種新穎的算法，該算法在原生感覺數(shù)據(jù)（Raw sensory data）的全新3D環(huán)境中表現(xiàn)得更好，并且能在目標和環(huán)境之間獲得更好的泛化能力。值得注意的是，該算法可是Visual Doom AI競賽的獲勝者。

（沒有標題）

打分：8分：在所有被接受的論文中排前50%，確定接受

評價：本文提出了一種具有附加輔助內(nèi)在變量的策略深度強化學習方法。

該方法是一種基于通用價值函數(shù)方法的特殊例子，并且作者也在引用中標注出了正確的參考。也許這篇文章最大的技術(shù)貢獻是提煉了許多現(xiàn)有的方法來解決3D導航問題。我認為論文的貢獻應(yīng)該在摘要中更加詳細地論述出來。
我本來希望看到該方法的失敗模式。就是在什么情況下該模型會出現(xiàn)改變目標的問題？并且因為這是一種策略性的方法，所以還存在其它的概念問題。比如，如果算法中的代理不在過去的目標上反復進行訓練的話，將會出現(xiàn)災難性的遺忘。
由于本文的主要貢獻是整合了幾個關(guān)鍵思想并且展示了經(jīng)驗的優(yōu)勢，所以我還希望看到其它領(lǐng)域的測試結(jié)果，比如Atari（也許使用ROM作為內(nèi)在變量）。

總而言之，我認為這篇論文確實展現(xiàn)了利用所提出的潛在公式的明顯經(jīng)驗優(yōu)勢，并且本文的實驗見解可能對未來的代理研究具有價值。

（沒有標題）

打分：8分：在所有被接受的論文中排前50%，確定接受

評論：這篇論文提出了一種策略性方法來預測未來的內(nèi)在測量。所有的實驗都是在名為Doom（更準確來說是vizDoom）的這款游戲上展開的。與一般性地預測游戲輸贏或者是游戲得分不同，本文的作者訓練了模型來預測一系列的三元組（健康，彈藥，得分），并且由作為輸入提供的一系列“目標”三元組加權(quán)。改變目標三元組的加權(quán)是執(zhí)行/指導探索的一種方式。在測試期間，只能通過最大化長期目標來實現(xiàn)代理的行動。

這個結(jié)果令人印象深刻，因為該模型贏得了2016年vizDoom大賽。并且本文的實驗部分看起來很合理：

實驗中包含了DFP與A3C、DQN方法的比較，而且也嘗試了同DSR方法（與本文相類似的一種方法，由Kulkarni等人在2016年提出）進行比較。DFP方法在各個實驗中都超越（或者至少也是持平）了其它方法。
有一項消融研究（Ablation study）能夠證明文中所有對模型“增加復雜性”的做法都是有效的。

預測內(nèi)在動機（Singh et al. 2004）、輔助變量和前向建模都是強化學習中有著較好研究成果的領(lǐng)域。我閱讀的那個版本（12月4日修訂版）中充分參考了以前的工作，雖然還沒有做到非常全面。

我認為這篇應(yīng)該被接受。可能有些人認為該論文的實驗可以在不同的環(huán)境下進行或者新穎性有限，但是我認為這篇“正確的”并且“里程碑式的”論文應(yīng)該得到發(fā)表。

Via Learning to Act by Predicting the Future，雷鋒網(wǎng)編譯

雷峰網(wǎng)版權(quán)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。