使用Unity ml-agent進行深度強化學(xué)習(xí)

本文作者： AI研習(xí)社-譯站

2019-06-24 16:35

導(dǎo)語：Unity ml-agents是一個“用游戲和模擬環(huán)境來訓(xùn)練智能體的開源Unity插件，”。

本文為 AI 研習(xí)社編譯的技術(shù)博客，原標(biāo)題：
Deep Reinforcement Learning using Unity ml-agents
作者 | Jo?o Ramos
翻譯 | 通夜編輯 | 王立魚
原文鏈接：
https://towardsdatascience.com/deep-reinforcement-learning-using-unity-ml-agents-8af8d407dd5a

大家好！

最近，我和我的兩個同事佩德羅·昆塔斯和佩德羅·卡爾代拉做了一些實驗，使用的是Unity的ml -agents，我認為這是一個偉大的時刻，我希望與社區(qū)分享我們的結(jié)果，并向你展示如何擴展你的強化學(xué)習(xí)知識。

如果你不知道Unity ml-agents是什么，讓我給你一個簡單的介紹。Unity ml-agents是一個“用游戲和模擬環(huán)境來訓(xùn)練智能體的開源Unity插件，”。在我看來，這是一個可以對開始學(xué)習(xí)深度學(xué)習(xí)和強化學(xué)習(xí)來說很好的框架，因為它可以看到正在發(fā)生的事情，而不僅僅是在終端上看到數(shù)字和字母。

在開始展示我們的小項目之前，讓我先展示一下框架已經(jīng)創(chuàng)建的一些場景。

使用Unity ml-agent進行深度強化學(xué)習(xí)

好了，現(xiàn)在您已經(jīng)了解了這個工具的功能和外觀，讓我們來討論一下這個項目!

我們使用了Unity ml-agents創(chuàng)建的一個智能體。它基本上是一只蜘蛛，但只有四條腿。然后我們?yōu)檫@只小“蜘蛛”創(chuàng)造了一個移動平臺來讓它四處移動。

使用Unity ml-agent進行深度強化學(xué)習(xí)

那只是Unity的搭建，讓我們談?wù)剰娀瘜W(xué)習(xí)吧!一開始，和往常一樣，蜘蛛(agent)只知道它在平臺上的位置和方向。因為我們的目標(biāo)是讓兩只蜘蛛互相爭斗(不告訴它們該做什么)，所以他必須設(shè)法教它們。這時強化學(xué)習(xí)就開始起作用了。我假設(shè)在讀這篇文章的你知道強化學(xué)習(xí)背后的基本理論。如果你是新手，這里有一個初學(xué)者指南：

https://skymind.ai/wiki/deep-reinforcement-learning

所以，就像任何一個普通的“愚蠢的智能體”一樣，我們必須“教”它。我們通過當(dāng)他們有好的行為時給予好的獎勵，當(dāng)他們有壞的行為時給予壞的獎勵來教我們的智能體。經(jīng)過反復(fù)試驗，智能體們終于學(xué)會了如何站立和行走!基本上，每次他們的身體接觸到地面，我們都會給他們不好的獎勵。因為如果它們的身體在地上，這意味著它們的四條腿不在地上，或者它們的腿沒有產(chǎn)生足夠的力。(他們應(yīng)該站起來)。通過給壞的獎勵，我們告訴他們這些行為不好，他們應(yīng)該避免。

讓我們概括一下到目前為止我們所做的:

-我們使用ml-agents創(chuàng)建了一個Unity環(huán)境。
-我們教我們的蜘蛛站起來，平衡它的腳來走路。

下一步是教他們打架!為了改變蜘蛛的行為使它們能夠戰(zhàn)斗，我們必須改變它們的獎勵。所以，如果其中一只蜘蛛離開了平臺，或者被尸體碰在地上，它將會得到一個非常糟糕的獎勵。

另外，如果當(dāng)它們做了我們想讓它們做的，而我們沒有給它們一個好的獎勵，它們就不會繼續(xù)重復(fù)那些行為。所以當(dāng)一只蜘蛛面對另一只蜘蛛時，我們給了它們很好的獎勵，當(dāng)蜘蛛朝著另一只蜘蛛的方向前進時，我們給了它們更好的獎勵。這使得兩只蜘蛛朝著另一只蜘蛛的方向前進，在某個時候，其中一只蜘蛛會把另一只蜘蛛扔出平臺。(這只是一個簡單的例子來證明我的觀點)

此外，他們自己也學(xué)會了用拳頭把對方打在地上就能贏。所以在同一時刻，他們開始“摔跤”。這是一個非常有趣的觀察。

使用Unity ml-agent進行深度強化學(xué)習(xí)