用深度Q網(wǎng)絡玩電子游戲

本文作者： AI研習社-譯站

2019-03-07 10:29

導語：我愛死玩電子游戲了。

用深度Q網(wǎng)絡玩電子游戲

本文為 AI 研習社編譯的技術(shù)博客，原標題：
Beating Video Games with Deep-Q-Networks
作者 | Liam Hinzman
翻譯 | ceroo
校對 | 斯蒂芬?二狗子審核 | 醬番梨整理 | 立魚王
原文鏈接：
https://towardsdatascience.com/beating-video-games-with-deep-q-networks-7f73320b9592

我愛死玩電子游戲了。

我每天都玩，然而，乒乓球我連10歲妹妹都打不贏。

蠻挫敗的，所以我決定建立一個深度Q網(wǎng)絡，用這個網(wǎng)絡學習如何在任一電子游戲中打敗我的妹妹。

經(jīng)過幾天的不間斷編程（夜不能寐），這就是我用Deep-Q-Networks所能達成的實踐：

用深度Q網(wǎng)絡玩電子游戲

偷偷看下我的DQN模型的結(jié)果（綠色球拍）

綠色球拍由DQN模型控制，完全靠它自我對弈，以此學習如何玩乒乓球。

隨后，我會詳細說說我的結(jié)果，但首先...

什么是DQN（Deep-Q-Networks）,它是如何工作的？

簡單說：DQN結(jié)合了深度學習和強化學習來學習如何玩電子游戲，并超過人類水平。

用深度Q網(wǎng)絡玩電子游戲

DQNs結(jié)合強化學習和深度學習來玩視頻游戲

你所需要知道的是，深度學習（理解DQN）是一種使用神經(jīng)網(wǎng)絡來模仿人類大腦工作的計算架構(gòu)。其中，神經(jīng)網(wǎng)絡的輸入和輸出都是數(shù)字。神經(jīng)網(wǎng)絡可以學習像房價預測或識別腫瘤圖像等任務。

現(xiàn)在，我們繼續(xù)回到DQN這條主線...

快速學會強化學習

那么什么是強化學習呢？

強化學習是一種機器學習技術(shù)，它通過采取行動來學習如何最大化獎勵。

一條狗可能會嘗試學習，如何最大限度地通過它的吠叫來誘導主人撫摸它的肚皮，或一只貓可能會嘗試學習，如何最大限度地通過它的跳躍“作”得一手好死。這兩種動物都是根據(jù)它們當前的狀態(tài)采取行動的智能體，試圖最大化某種獎勵。

讓我們更深入地了解這些術(shù)語對于一個“吃豆人”游戲的含義。

用深度Q網(wǎng)絡玩電子游戲

PacMan（吃豆人）（黃色圓圈）是智能體，這是玩家在游戲中控制的。狀態(tài)一般指是游戲中的某個一個時刻，在這里狀態(tài)是游戲中的某一幀。智能體可以選擇進入哪個方向（操作），并使用這些操作來避免死于鬼魂（負獎勵）和吃更多的點（正獎勵）。PacMan的目標是最大化你的得分（獎勵）。

重要的強化學習術(shù)語

Agent 智能體：計算機控制的內(nèi)容（pac man）
State 狀態(tài)：游戲中的當前時刻（PacMan中的單幀圖像）
Action 行動：由代理人作出的決定（PAC人員向左或向右移動）
Reward 獎勵：智能體試圖最大化的價值（在pac man中得分）

你還需要了解一件關(guān)于強化學習理解深層Q網(wǎng)絡的事情：Q值

Q值，即深度Q網(wǎng)絡中的Q值，是一個動作在給定狀態(tài)下的“質(zhì)量”。如果一個行動具有高的預期長期價值，那么它就是高質(zhì)量的。

睡前給媽媽一個擁抱（動作）可能不會馬上給我“獎勵”，但從長遠來看，它會給我很多愛（獎勵），所以這個狀態(tài)動作對的Q值很高（我在心里計算每晚擁抱媽媽的Q值）。

你需要知道這些強化學習的概念，并以此了解DQN！

深入深度Q網(wǎng)絡

那么，我是如何讓一臺電腦學習如何比別人更好地玩電子游戲的（并在乒乓球中擊敗我的妹妹）？

我使用DQN網(wǎng)絡！

DQNs使用Q-learning學習給定狀態(tài)下要采取的最佳行動（q值），并使用卷積網(wǎng)絡作為Q-learning的近似值函數(shù)。

以下是要記住的關(guān)鍵點：

深度學習+強化學習=深度Q網(wǎng)絡(DQN)

而不是為屏幕上的每個像素組合記憶不同的Q值（有十億?。┪覀兪褂镁矸e網(wǎng)絡在相似狀態(tài)下推理出類似的Q值。

卷積網(wǎng)絡可以告訴玩電子游戲的'Agent'：“是的，這個位置基本上和另一個相同，向上移動”。這使得'Agent'的工作變得容易多了。它不需要數(shù)十億個不同游戲狀態(tài)的Q值才能學會，只需要幾百萬個Q值來學習。

下面是我的DQN的卷積網(wǎng)絡在代碼中的樣子：

用深度Q網(wǎng)絡玩電子游戲

下面是此代碼塊的作用：

將當前屏幕（狀態(tài)）作為輸入
通過3個卷積層傳遞輸入（用于在圖像中查找位置圖案）
注意：不使用池化操作（空間位置在游戲中很重要，我們想知道球在哪里?。?nbsp;
卷積層的輸出被送入2個全連接層。
線性層的輸出則給出了DQN在當前狀態(tài)下采取某種行動的概率。

預處理

我也做了一些游戲圖像的預處理。Atari游戲通常是210x160像素大小，有128種不同的顏色。為了使我的DQN的工作更容易，我將圖像的采樣率降低到84x84，并使其灰度化。

用深度Q網(wǎng)絡玩電子游戲

預處理過圖像不再明亮和多彩，但更容易被我的DQN識別。

損失函數(shù)

現(xiàn)在我們需要一些方法來評估DQN。情況如何？它在學習什么嗎？我們?nèi)绾握{(diào)整它使它更好，得到更高的分數(shù)？

要知道所有這些，我們需要一個損失函數(shù)。

唯一的問題是我們不知道最好的答案是什么，agent應該做什么。DQN如何學習才能比人類玩的更好，因此即使我們想模型達到這樣，我們也無法制作出完美的標記數(shù)據(jù)集。

相反，我們使用這個損失方程來評估DQN自身：

用深度Q網(wǎng)絡玩電子游戲

DQN的損失函數(shù)

這個Q網(wǎng)絡Q-Network是給出要采取什么行動的網(wǎng)絡。目標網(wǎng)絡Target Network是給出我們使用的“ground truth”的近似值。

如果Q-Network預測在某一狀態(tài)下的正確動作是以60%的確定性（概率）向上移動，而目標網(wǎng)絡告訴我們“你應該向上移動”，我們將使用反向傳播調(diào)整Q-Network的參數(shù)，使其更可能預測在該狀態(tài)下的“向上移動”。

我們通過DQN反向傳播這種損失，并稍微調(diào)整Q網(wǎng)絡的權(quán)重以減少損失。

該損失函數(shù)試圖使DQN輸出的移動概率更接近于目標網(wǎng)絡給出的“正確選擇”，即接近100%確定性。

經(jīng)驗回放

現(xiàn)在DQNs好像就是Q學習和卷積網(wǎng)絡的結(jié)合，基本上可以這樣看。這個想法很簡單，為什么它只在2015年被DeepMind研究人員引入？

神經(jīng)網(wǎng)絡不能很好地進行強化學習。

為什么神經(jīng)網(wǎng)絡和強化學習不能融洽相處？

兩個原因

高度相關(guān)數(shù)據(jù)
非平穩(wěn)分布

在有監(jiān)督學習中，數(shù)據(jù)是不相關(guān)和固定的。當圖像分類器正在學習什么使一只貓成為一只貓時，顯示給它的每個圖像都將顯著不同，數(shù)據(jù)是不相關(guān)的。此外，網(wǎng)絡的預測（通常）不會影響下一步將看到的圖像，數(shù)據(jù)集是固定的，并且是從中隨機抽樣的。靜止的不相關(guān)數(shù)據(jù)與神經(jīng)網(wǎng)絡很好地配合。

在強化學習中，數(shù)據(jù)是高度相關(guān)和非平穩(wěn)的。當pac man移到右邊時，板看起來基本相同，數(shù)據(jù)高度相關(guān)。此外，網(wǎng)絡的決定影響下一個狀態(tài)，這使得數(shù)據(jù)分布非平穩(wěn)。如果馬里奧右移，他會看到新的硬幣。這些硬幣會讓馬里奧認為向右移動總是個好主意，也許他永遠不會發(fā)現(xiàn)他左邊的秘密通道。

經(jīng)驗回放Experience Replay讓神經(jīng)網(wǎng)絡能很好地進行強化學習。

‘Agent’獲得的每個經(jīng)驗（包括當前狀態(tài)、動作、獎勵和下一個狀態(tài)）都存儲在所謂的經(jīng)驗回放內(nèi)存中。

這種訓練方式與DQN網(wǎng)絡在當前學習中所獲得樣本來訓練不同，是從重放存儲器中隨機抽取“回放”來訓練網(wǎng)絡。

用深度Q網(wǎng)絡玩電子游戲