如何訓(xùn)練出專屬的 OpenAI Five ？

本文作者：黃善清

2019-04-17 14:42

導(dǎo)語：作為競爭性 AI 的 OpenAI Five 已經(jīng)退役了，但它所取得的進(jìn)步與技術(shù)進(jìn)展將繼續(xù)推動未來的工作發(fā)展

雷鋒網(wǎng) AI 科技評論：上周末，成功擊敗 Dota 2 世界冠軍團(tuán)隊 OG 的 OpenAI Five 再次贏得全球矚目。勝利的背后，OpenAI Five 的背后有哪些不為人知的故事呢？OpenAI 官方博客近日發(fā)布了一篇涉及幕后的解讀文章，雷鋒網(wǎng) AI 科技評論將之編譯如下。

OpenAI Five 是首個成功在電子競技游戲中擊敗世界冠軍的人工智能，在本周末與 Dota 2 世界冠軍團(tuán)隊 OG 的最終對決中，接連贏得了兩場比賽。在過去，無論 OpenAI Five 還是 DeepMind 的 AlphaStar 都曾私下?lián)魯∵^優(yōu)秀的職業(yè)選手，卻輸?shù)衄F(xiàn)場的職業(yè)比賽，因此，我們也可以將該事件視作 AI 第一次在直播中擊敗電子競技專家。

在 OpenAI Five 與人類世界冠軍的最終對決中，我們發(fā)現(xiàn)了兩個意外的驚喜：

OpenAI Five 自行發(fā)展出與人類隊友打配合的基本能力，盡管我們的訓(xùn)練過程主要專注于如何擊敗其他機(jī)器人。這種將競爭性 AI 轉(zhuǎn)變?yōu)楹献餍?AI 的可能性，讓我們對未來 AI 系統(tǒng)將如何通過積極的開發(fā)工作造福人類充滿了希望。
4 月 18 日——4 月 21 日期間，我們將 OpenAI Five 對全世界的 DOTA2 玩家開放，每個人都可以和 OpenAI Five 在線對戰(zhàn)，無論是作為競爭者亦或是還是合作者。最終的測試結(jié)果將能回答一個重要的研究問——OpenAI Five 可以在多大的程度上被人類所利用與依靠。這可能是有史以來最大規(guī)模的高強(qiáng)度深層強(qiáng)化學(xué)習(xí) agent 的部署行為，人們可以有意識地與之進(jìn)行交互。

感興趣的童鞋可點擊以下網(wǎng)址與 OpenAI Five 一同比賽：
https://arena.openai.com/#/

為何是 Dota？

我們之所以啟動 OpenAI Five 研究，目的是解決現(xiàn)有深度強(qiáng)化學(xué)習(xí)算法無法實現(xiàn)的問題。我們希望在這個當(dāng)前方法所無法解決的問題上努力，原以為需要大幅提升工具的性能，比如復(fù)雜的算法思想（例如：分層強(qiáng)化學(xué)習(xí)），但我們卻對最終的發(fā)現(xiàn)感到驚訝：該問題所需的根本改進(jìn)在于規(guī)模。如何實現(xiàn)該規(guī)模并加以運(yùn)用，其實并不容易，也是我們研究工作的主要內(nèi)容！

如何訓(xùn)練出專屬的 OpenAI Five ？

OpenAI Five 將世界視作一堆必須破譯的數(shù)字，使用的是同樣的通用學(xué)習(xí)代碼，無論這些數(shù)字代表的究竟是 Dota（約 20,000 個數(shù)字）還是機(jī)器臂（約 200 個數(shù)字）。

為了打造 OpenAI Five，我們創(chuàng)建一個名為 Rapid 的系統(tǒng)，可以讓我們以前所未有的規(guī)模來運(yùn)行 PPO。最終結(jié)果超出了我們最高期望值，我們成功打造出世界級別的 Dota 機(jī)器人，基本不存在任何的基本性能限制。

當(dāng)今 RL 算法令人驚嘆的強(qiáng)大能力是以大量的經(jīng)驗作為代價的，要想脫離游戲或模擬環(huán)境來實現(xiàn)是不切實際的。當(dāng)然，這種局限可能并沒有聽起來的那么糟糕——比如我們可以通過 Rapid 系統(tǒng)控制機(jī)械臂以靈巧地移動方塊，首先在全模擬環(huán)境中進(jìn)行訓(xùn)練，然后在物理機(jī)器人上執(zhí)行。不過，我們認(rèn)為如何減少對經(jīng)驗的依賴是 RL 的下一個挑戰(zhàn)。

我們今天宣布，作為競爭性 AI 的 OpenAI Five 已經(jīng)退役了，但它所取得的進(jìn)步與技術(shù)進(jìn)展將繼續(xù)推動我們未來的工作發(fā)展。總之，這不是我們 Dota 工作的終點——我們認(rèn)為，比起現(xiàn)在慣用的標(biāo)準(zhǔn)環(huán)境，Dota 對于 RL 開發(fā)而言更具有趣味性與難度（如今已很好理解?。?。

計算力

將 OpenAI Five 周六的勝利與 The International 2018 的 losses 相比，會發(fā)現(xiàn)勝利是基于該項重大變化：增加了 8 倍的訓(xùn)練計算量。在項目的許多前期階段，我們都是通過提升訓(xùn)練規(guī)模來推動研究進(jìn)程。但在 The International 以后，我們已將項目的絕大部分算力用于培訓(xùn)單一的 OpenAI Five 模型。因此，我們只能以唯一可行的方式來增加計算規(guī)模：更長的訓(xùn)練時間。

如何訓(xùn)練出專屬的 OpenAI Five ？

OpenAI Five 的 TrueSkill，由于增加了額外的訓(xùn)練算力，其中線條劃分了主要系統(tǒng)的變化（轉(zhuǎn)向單一快遞;將 LSTM 的大小增加至 4096 units；升級至 7.20 和 7.21 補(bǔ)丁版本;以及開始學(xué)習(xí) buyback）。該圖大致上是線性的，這意味著 OpenAI Five 從額外的算力中不斷受益（請注意，這是一個對數(shù) - 對數(shù)圖，x 軸是計算的對數(shù)，而 TrueSkill 大致對應(yīng)于指數(shù)的進(jìn)展）。該圖表評估了在最終游戲規(guī)則（1 個 courier，7.21 補(bǔ)丁，等）上所有機(jī)器人的表現(xiàn)——包括那些在舊游戲規(guī)則上進(jìn)行訓(xùn)練過的機(jī)器人。任何在這些之后的陡坡則表明 OpenAI Five 適應(yīng)了這種變化;根據(jù)這種變化，該評估可能對早前版本的有些不公平。

總的來說，當(dāng)前版本的 OpenAI Five 已經(jīng)消耗了 800 petaflop / s-days，并且在 10 個實時月的時間內(nèi)經(jīng)歷了大約 45,000 年的 Dota 自行游戲（從 The International 的 1.5 個實時月份開始算起的話，大約晉級了 10,000 年），即是平均每天 250 年的模擬經(jīng)驗。總決賽版本的 OpenAI Five 與 TI 版本相比，勝率為 99.9％。

遷移學(xué)習(xí)

盡管模型大小和游戲規(guī)則發(fā)生了變化（包括一些相當(dāng)大的游戲補(bǔ)丁更新和新實現(xiàn)的功能），但自 2018 年 6 月以來，當(dāng)前版本的 OpenAI Five 一直在持續(xù)訓(xùn)練。在每一種情況下，我們都能夠轉(zhuǎn)移模型，并繼續(xù)對其他領(lǐng)域的 RL 進(jìn)行訓(xùn)練，這是一個開放的挑戰(zhàn)。據(jù)我們所知，這是第一次對 RL 代理進(jìn)行長期訓(xùn)練。

為了實現(xiàn)這一點，我們繼續(xù)完善我們的工具，這樣我們就可以從經(jīng)過訓(xùn)練的參數(shù)開始，直至從根本上更改架構(gòu)。

更多英雄

我們看到從 5 到 18 位英雄的訓(xùn)練速度幾乎沒有慢下來。我們假設(shè)更多的英雄也會有同樣的情況，而在國際上，我們投入了大量的努力來整合新的英雄。

我們花了幾周時間訓(xùn)練多達(dá) 25 個英雄的英雄池，使這些英雄達(dá)到大約 5 千 MMR（約 95% 的 DOTA 玩家的水平）。雖然他們還在進(jìn)步，但他們的學(xué)習(xí)速度不夠快，無法在決賽前達(dá)到專業(yè)水平。我們還沒有時間來調(diào)查原因，但我們認(rèn)為原因可能是模型能力、需要更好地匹配擴(kuò)展的英雄池、需要更多的訓(xùn)練時間讓新英雄趕上舊英雄等。

我們相信這些問題是可以從根本上解決的，解決它們本身就很有趣。總決賽版本與 17 個英雄一起比賽，我們移除了巫妖，因為他的能力在 DOTA7.20 版本中發(fā)生了顯著變化。

合作模式

感覺真好，我的冥界亞龍在某個時刻為我獻(xiàn)出了生命。他試圖幫助我，他認(rèn)為「我確定她知道她在做什么」，但顯然我不知道。但你知道，他非常信任我。我對（人類）隊友不太了解。——Sheever

如何訓(xùn)練出專屬的 OpenAI Five ？

OpenAI Five 與人類一起玩的能力為人類和人工智能交互的未來提供了一個美好的愿景，在未來，人工智能系統(tǒng)將與人類協(xié)作并增強(qiáng)人類體驗。我們的測試人員說，他們感覺得到了機(jī)器人隊友的支持，他們從與這些先進(jìn)系統(tǒng)一起玩的過程中學(xué)到了經(jīng)驗，總體來說，這是一次有趣的體驗。

值得注意的是，OpenAI Five 展示了零樣本遷移學(xué)習(xí)——它被訓(xùn)練為讓所有英雄都由自己的副本控制，但是可以控制英雄的一個子集，與人類是戰(zhàn)友或者敵人。我們很驚訝這項工作做得這么好。事實上，我們曾經(jīng)考慮過在國際比賽中舉行一場合作賽，但這需要進(jìn)行專門的訓(xùn)練。

Arena

我們將推出 OpenAI Five Arena，這是一個公共實驗，我們將讓任何人以競爭和合作的方式玩 OpenAI Five。我們的 1v1 機(jī)器人可以通過巧妙的策略加以利用，但我們不知道 OpenAI Five 在多大程度上可以做到這樣，我們很高興邀請社區(qū)幫助我們發(fā)現(xiàn)這一點！

Arena 將于太平洋時間 4 月 18 日下午 6 點開放，并將于 4 月 21 日下午 11:59 關(guān)閉。請注冊賬號，以便我們確保您所在地區(qū)有足夠的服務(wù)器容量！所有比賽的結(jié)果將自動報告到 Arena 的公共排行榜。

如何訓(xùn)練出專屬的 OpenAI Five ？

我們非常感謝 DOTA 社區(qū)在過去兩年里給予我們的所有支持，我們希望 Arena 也能成為回報的社區(qū)的一個小途徑。玩得開心！

接來下是什么

我們回顧了 Openai Five Arena 的成果，接下來，我們將發(fā)布 Openai Five 的更加技術(shù)性的分析。

之后，我們將繼續(xù)在 OpenAI 中使用 DOTA2 環(huán)境。在過去兩年，我們見證了 RL 能力的快速發(fā)展，我們認(rèn)為 DOTA 2 將繼續(xù)幫助我們推進(jìn)未來的研究——無論是用更少的數(shù)據(jù)獲得更好的表現(xiàn)，亦或是真正實現(xiàn)人和人工智能的合作。

via https://openai.com/blog/how-to-train-your-openai-five/

雷鋒網(wǎng) AI 科技評論

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

3人收藏

相關(guān)文章

黃善清

編輯

發(fā)私信

當(dāng)月熱門文章

如何訓(xùn)練出專屬的 OpenAI Five ？

如何訓(xùn)練出專屬的 OpenAI Five ？