丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
人工智能 正文
發(fā)私信給AI研習(xí)社-譯站
發(fā)送

0

用深度Q網(wǎng)絡(luò)玩電子游戲

本文作者: AI研習(xí)社-譯站 2019-03-07 10:29
導(dǎo)語:我愛死玩電子游戲了。

用深度Q網(wǎng)絡(luò)玩電子游戲

本文為 AI 研習(xí)社編譯的技術(shù)博客,原標(biāo)題 :

Beating Video Games with Deep-Q-Networks

作者 | Liam Hinzman

翻譯 | ceroo           

校對 | 斯蒂芬?二狗子        審核 | 醬番梨       整理 | 立魚王

原文鏈接:

https://towardsdatascience.com/beating-video-games-with-deep-q-networks-7f73320b9592


我愛死玩電子游戲了。 

我每天都玩,然而,乒乓球我連10歲妹妹都打不贏。

蠻挫敗的,所以我決定建立一個深度Q網(wǎng)絡(luò),用這個網(wǎng)絡(luò)學(xué)習(xí)如何在任一電子游戲中打敗我的妹妹。 

經(jīng)過幾天的不間斷編程(夜不能寐),這就是我用Deep-Q-Networks所能達(dá)成的實(shí)踐:

用深度Q網(wǎng)絡(luò)玩電子游戲

偷偷看下我的DQN模型的結(jié)果(綠色球拍)

  綠色球拍由DQN模型控制,完全靠它自我對弈 ,以此學(xué)習(xí)如何玩乒乓球。

隨后,我會詳細(xì)說說我的結(jié)果,但首先...

什么是DQN(Deep-Q-Networks),它是如何工作的?

簡單說:DQN結(jié)合了深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)來學(xué)習(xí)如何玩電子游戲,并超過人類水平。

用深度Q網(wǎng)絡(luò)玩電子游戲

DQNs結(jié)合強(qiáng)化學(xué)習(xí)和深度學(xué)習(xí)來玩視頻游戲

你所需要知道的是,深度學(xué)習(xí)(理解DQN)是一種使用神經(jīng)網(wǎng)絡(luò)來模仿人類大腦工作的計算架構(gòu)。其中,神經(jīng)網(wǎng)絡(luò)的輸入和輸出都是數(shù)字。神經(jīng)網(wǎng)絡(luò)可以學(xué)習(xí)像房價預(yù)測或識別腫瘤圖像等任務(wù)。

現(xiàn)在,我們繼續(xù)回到DQN這條主線...


  快速學(xué)會強(qiáng)化學(xué)習(xí)

那么什么是強(qiáng)化學(xué)習(xí)呢?

強(qiáng)化學(xué)習(xí)是一種機(jī)器學(xué)習(xí)技術(shù),它通過采取行動來學(xué)習(xí)如何最大化獎勵。

一條狗可能會嘗試學(xué)習(xí),如何最大限度地通過它的吠叫來誘導(dǎo)主人撫摸它的肚皮,或一只貓可能會嘗試學(xué)習(xí),如何最大限度地通過它的跳躍“作”得一手好死。這兩種動物都是根據(jù)它們當(dāng)前的狀態(tài)采取行動的智能體,試圖最大化某種獎勵。

讓我們更深入地了解這些術(shù)語對于一個“吃豆人”游戲的含義。

用深度Q網(wǎng)絡(luò)玩電子游戲

PacMan(吃豆人)(黃色圓圈)是智能體,這是玩家在游戲中控制的。狀態(tài)一般指是游戲中的某個一個時刻,在這里狀態(tài)是游戲中的某一幀。智能體可以選擇進(jìn)入哪個方向(操作),并使用這些操作來避免死于鬼魂(負(fù)獎勵)和吃更多的點(diǎn)(正獎勵)。PacMan的目標(biāo)是最大化你的得分(獎勵)。

重要的強(qiáng)化學(xué)習(xí)術(shù)語

  • Agent  智能體:計算機(jī)控制的內(nèi)容(pac man) 

  • State   狀態(tài):游戲中的當(dāng)前時刻(PacMan中的單幀圖像) 

  • Action 行動:由代理人作出的決定(PAC人員向左或向右移動) 

  • Reward 獎勵: 智能體試圖最大化的價值(在pac man中得分)

你還需要了解一件關(guān)于強(qiáng)化學(xué)習(xí)理解深層Q網(wǎng)絡(luò)的事情:Q值

Q值,即深度Q網(wǎng)絡(luò)中的Q值,是一個動作在給定狀態(tài)下的“質(zhì)量”。如果一個行動具有高的預(yù)期長期價值,那么它就是高質(zhì)量的。

睡前給媽媽一個擁抱(動作)可能不會馬上給我“獎勵”,但從長遠(yuǎn)來看,它會給我很多愛(獎勵),所以這個狀態(tài)動作對的Q值很高(我在心里計算每晚擁抱媽媽的Q值)。

你需要知道這些強(qiáng)化學(xué)習(xí)的概念,并以此了解DQN!


   深入深度Q網(wǎng)絡(luò)

那么,我是如何讓一臺電腦學(xué)習(xí)如何比別人更好地玩電子游戲的(并在乒乓球中擊敗我的妹妹)?

我使用DQN網(wǎng)絡(luò)!

DQNs使用Q-learning學(xué)習(xí)給定狀態(tài)下要采取的最佳行動(q值),并使用卷積網(wǎng)絡(luò)作為Q-learning的近似值函數(shù)。

以下是要記住的關(guān)鍵點(diǎn):

深度學(xué)習(xí)+強(qiáng)化學(xué)習(xí)=深度Q網(wǎng)絡(luò)(DQN)

而不是為屏幕上的每個像素組合記憶不同的Q值(有十億?。┪覀兪褂镁矸e網(wǎng)絡(luò)在相似狀態(tài)下推理出類似的Q值。

卷積網(wǎng)絡(luò)可以告訴玩電子游戲的'Agent':“是的,這個位置基本上和另一個相同,向上移動”。這使得'Agent'的工作變得容易多了。它不需要數(shù)十億個不同游戲狀態(tài)的Q值才能學(xué)會,只需要幾百萬個Q值來學(xué)習(xí)。

下面是我的DQN的卷積網(wǎng)絡(luò)在代碼中的樣子:

用深度Q網(wǎng)絡(luò)玩電子游戲

下面是此代碼塊的作用:

  • 將當(dāng)前屏幕(狀態(tài))作為輸入 

  • 通過3個卷積層傳遞輸入(用于在圖像中查找位置圖案) 

  • 注意:不使用池化操作(空間位置在游戲中很重要,我們想知道球在哪里!) 

  • 卷積層的輸出被送入2個全連接層。 

  • 線性層的輸出則給出了DQN在當(dāng)前狀態(tài)下采取某種行動的概率。


  預(yù)處理

我也做了一些游戲圖像的預(yù)處理。Atari游戲通常是210x160像素大小,有128種不同的顏色。為了使我的DQN的工作更容易,我將圖像的采樣率降低到84x84,并使其灰度化。

用深度Q網(wǎng)絡(luò)玩電子游戲

預(yù)處理過圖像不再明亮和多彩,但更容易被我的DQN識別。


  損失函數(shù)

現(xiàn)在我們需要一些方法來評估DQN。情況如何?它在學(xué)習(xí)什么嗎?我們?nèi)绾握{(diào)整它使它更好,得到更高的分?jǐn)?shù)?

要知道所有這些,我們需要一個損失函數(shù)。

唯一的問題是我們不知道最好的答案是什么,agent應(yīng)該做什么。DQN如何學(xué)習(xí)才能比人類玩的更好,因此即使我們想模型達(dá)到這樣,我們也無法制作出完美的標(biāo)記數(shù)據(jù)集。

相反,我們使用這個損失方程來評估DQN自身:

用深度Q網(wǎng)絡(luò)玩電子游戲

DQN的損失函數(shù)

這個Q網(wǎng)絡(luò)Q-Network是給出要采取什么行動的網(wǎng)絡(luò)。目標(biāo)網(wǎng)絡(luò)Target Network是給出我們使用的“ground truth”的近似值。

如果Q-Network預(yù)測在某一狀態(tài)下的正確動作是以60%的確定性(概率)向上移動,而目標(biāo)網(wǎng)絡(luò)告訴我們“你應(yīng)該向上移動”,我們將使用反向傳播調(diào)整Q-Network的參數(shù),使其更可能預(yù)測在該狀態(tài)下的“向上移動”。

我們通過DQN反向傳播這種損失,并稍微調(diào)整Q網(wǎng)絡(luò)的權(quán)重以減少損失。

該損失函數(shù)試圖使DQN輸出的移動概率更接近于目標(biāo)網(wǎng)絡(luò)給出的“正確選擇”,即接近100%確定性。


  經(jīng)驗回放

現(xiàn)在DQNs好像就是Q學(xué)習(xí)和卷積網(wǎng)絡(luò)的結(jié)合,基本上可以這樣看。這個想法很簡單,為什么它只在2015年被DeepMind研究人員引入?

神經(jīng)網(wǎng)絡(luò)不能很好地進(jìn)行強(qiáng)化學(xué)習(xí)。

為什么神經(jīng)網(wǎng)絡(luò)和強(qiáng)化學(xué)習(xí)不能融洽相處?

兩個原因

  • 高度相關(guān)數(shù)據(jù)

  • 非平穩(wěn)分布

在有監(jiān)督學(xué)習(xí)中,數(shù)據(jù)是不相關(guān)和固定的。當(dāng)圖像分類器正在學(xué)習(xí)什么使一只貓成為一只貓時,顯示給它的每個圖像都將顯著不同,數(shù)據(jù)是不相關(guān)的。此外,網(wǎng)絡(luò)的預(yù)測(通常)不會影響下一步將看到的圖像,數(shù)據(jù)集是固定的,并且是從中隨機(jī)抽樣的。靜止的不相關(guān)數(shù)據(jù)與神經(jīng)網(wǎng)絡(luò)很好地配合。

在強(qiáng)化學(xué)習(xí)中,數(shù)據(jù)是高度相關(guān)和非平穩(wěn)的。當(dāng)pac man移到右邊時,板看起來基本相同,數(shù)據(jù)高度相關(guān)。此外,網(wǎng)絡(luò)的決定影響下一個狀態(tài),這使得數(shù)據(jù)分布非平穩(wěn)。如果馬里奧右移,他會看到新的硬幣。這些硬幣會讓馬里奧認(rèn)為向右移動總是個好主意,也許他永遠(yuǎn)不會發(fā)現(xiàn)他左邊的秘密通道。

經(jīng)驗回放Experience Replay讓神經(jīng)網(wǎng)絡(luò)能很好地進(jìn)行強(qiáng)化學(xué)習(xí)。

‘Agent’獲得的每個經(jīng)驗(包括當(dāng)前狀態(tài)、動作、獎勵和下一個狀態(tài))都存儲在所謂的經(jīng)驗回放內(nèi)存中。

這種訓(xùn)練方式與DQN網(wǎng)絡(luò)在當(dāng)前學(xué)習(xí)中所獲得樣本來訓(xùn)練不同,是從重放存儲器中隨機(jī)抽取“回放”來訓(xùn)練網(wǎng)絡(luò)。

用深度Q網(wǎng)絡(luò)玩電子游戲

經(jīng)驗回放讓深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)成為兄弟。

與標(biāo)準(zhǔn)Q學(xué)習(xí)相比,經(jīng)驗回放有三個優(yōu)勢:

  • 更高數(shù)據(jù)利用

  • 使數(shù)據(jù)不相關(guān)

  • 平均數(shù)據(jù)分布

首先,每個經(jīng)驗都可能被用于對DQN的神經(jīng)網(wǎng)絡(luò)進(jìn)行多次訓(xùn)練,從而提高數(shù)據(jù)效率。

第二,隨機(jī)抽取經(jīng)驗樣本對DQN神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,打破了經(jīng)驗之間的相關(guān)性,減少了訓(xùn)練更新時的方差。

第三,當(dāng)從經(jīng)驗中學(xué)習(xí)時,一旦獲得經(jīng)驗(稱為策略學(xué)習(xí)),當(dāng)前參數(shù)就決定了參數(shù)所訓(xùn)練的下一個數(shù)據(jù)樣本。例如,如果最好的行動是將Pac Man向左移動,那么訓(xùn)練樣本將由來自經(jīng)驗池中向左運(yùn)動相關(guān)樣本為主。

這種行為可能會導(dǎo)致DQN陷入糟糕的局部最小值,甚至使其發(fā)生災(zāi)難性的偏離(比我更糟糕)。

用深度Q網(wǎng)絡(luò)玩電子游戲

如果你不使用經(jīng)驗回放,模型會經(jīng)??吹竭@個畫面。

通過使用經(jīng)驗回放,用來訓(xùn)練DQN的經(jīng)驗來自許多不同的時間點(diǎn)。這樣可以消除學(xué)習(xí)障礙,避免災(zāi)難性的失敗。

這種簡單的經(jīng)驗概念解決了神經(jīng)網(wǎng)絡(luò)在強(qiáng)化學(xué)習(xí)中的問題?,F(xiàn)在他們可以融洽相處地一起玩了!


  擊敗電子游戲

我在pytorch創(chuàng)建了一個DQN,并訓(xùn)練它玩乒乓球。

起初,我的DQN只能隨意地玩乒乓球,但經(jīng)過3個小時的訓(xùn)練,它學(xué)會了如何比人類玩得更好!

用深度Q網(wǎng)絡(luò)玩電子游戲

綠色槳是由我的超級棒DQN控制的


最瘋狂的事情是我不需要更改一行代碼就可以訓(xùn)練DQN來玩另一個游戲,并且,就可以在該游戲中到達(dá)超過人類的游戲水平。

這意味著,同樣的算法,教計算機(jī)控制這個綠色的乒乓球拍,也可以教計算機(jī)如何在毀滅戰(zhàn)士中射擊惡魔。

用深度Q網(wǎng)絡(luò)玩電子游戲

DQN最酷的一點(diǎn)是他們可以學(xué)習(xí)我甚至不知道的游戲策略。在款游戲beakout中,DQN學(xué)會怎么樣繞過邊路快速到達(dá)頂部,并獲得大量的積分。

我創(chuàng)造了這個DQN,它學(xué)到了我甚至不知道的東西!

用深度Q網(wǎng)絡(luò)玩電子游戲

DQN可以發(fā)現(xiàn)其創(chuàng)建者從未知道的策略!

這意味著計算機(jī)現(xiàn)在可以幫助我們學(xué)習(xí)最喜愛的電子游戲的新策略。也許DQNS會想辦法在《超級馬里奧兄弟》中快速到達(dá)World 9關(guān)卡。


  關(guān)鍵的收獲

  • 使用DQNs電腦可以學(xué)習(xí)如何比人類更好地玩電子游戲。

  • 在DQNs中,經(jīng)驗回放讓神經(jīng)網(wǎng)絡(luò)和強(qiáng)化學(xué)習(xí)協(xié)同工作。

  • DQN可以學(xué)習(xí)他們的創(chuàng)建者不知道的策略。

有了DQNs,我可以在和ai玩電子游戲時打敗我10歲的妹妹,那么下一步該怎么辦呢?

也許我會訓(xùn)練一個人工智能來說服她把電視遙控器給我(這是一項更艱巨的任務(wù))。


  最后

  • 在 Google Colab  查看我的DQN的所有代碼

  • 訪問我的個人網(wǎng)站

  • 注冊我的每月通訊

感謝 Aadil A..

想要繼續(xù)查看該篇文章相關(guān)鏈接和參考文獻(xiàn)?

點(diǎn)擊【用深度Q網(wǎng)絡(luò)玩電子游戲】或長按下方地址:

https://ai.yanxishe.com/page/TextTranslation/1512

AI研習(xí)社今日推薦:雷鋒網(wǎng)雷鋒網(wǎng)雷鋒網(wǎng)

伯克利大學(xué) CS 294-112 《深度強(qiáng)化學(xué)習(xí)課程》為官方開源最新版本,由伯克利大學(xué)該門課程授課講師 Sergey Levine 授權(quán) AI 研習(xí)社翻譯。

加入小組免費(fèi)觀看視頻:https://ai.yanxishe.com/page/groupDetail/30

用深度Q網(wǎng)絡(luò)玩電子游戲


雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知

用深度Q網(wǎng)絡(luò)玩電子游戲

分享:
相關(guān)文章

知情人士

AI研習(xí)社(yanxishe.com)譯站頻道,傳播前沿人工智能知識,讓語言不再成為學(xué)習(xí)知識的門檻。(原雷鋒字幕組)
當(dāng)月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說