啟元世界獲 NeurIPS 2018 多智能體競(jìng)賽Learning組冠軍，決策智能平臺(tái)價(jià)值凸顯

本文作者：楊曉凡

2018-12-21 18:16

專(zhuān)題：NeurIPS 2018

導(dǎo)語(yǔ)：讓強(qiáng)化學(xué)習(xí)決策系統(tǒng)落地

雷鋒網(wǎng) AI 科技評(píng)論按：近日，國(guó)際人工智能頂級(jí)學(xué)術(shù)會(huì)議 NeurIPS 2018 順利落幕。八千多位來(lái)自全世界的人工智能研究人員齊聚加拿大蒙特利爾，討論分享過(guò)去一年全世界在人工智能的各個(gè)領(lǐng)域的最新進(jìn)展，該會(huì)議舉辦了一系列競(jìng)賽來(lái)鼓勵(lì)學(xué)術(shù)界和工業(yè)界一起解決最有挑戰(zhàn)性的人工智能難題。作為人工智能領(lǐng)域歷史最悠久的學(xué)術(shù)會(huì)議之一，會(huì)議成果被視作人工智能領(lǐng)域的研究「風(fēng)向標(biāo)」。（雷鋒網(wǎng) AI 科技評(píng)論正會(huì)報(bào)道文章見(jiàn) 這里）

其中，由谷歌大腦、Facebook、牛津大學(xué)及在游戲AI界久負(fù)盛名的紐約大學(xué)等機(jī)構(gòu)聯(lián)合舉辦的多智能體競(jìng)賽——炸彈人團(tuán)隊(duì)賽（The NeurIPS 2018 Pommerman Competition）尤其引人矚目。來(lái)自中國(guó)啟元世界的彭鵬博士、中科院計(jì)算所助理研究員龐亮博士和北師大的袁鈺峰組成的賽隊(duì)，與美國(guó)、歐洲、日本、中國(guó)的24支一流隊(duì)伍進(jìn)行了激烈角逐，最終基于啟元決策智能平臺(tái)訓(xùn)練的 Navocado 雙智能體能力穩(wěn)定提升，奪得了比賽 Learning 組冠軍，展現(xiàn)了來(lái)自中國(guó)的決策智能團(tuán)隊(duì)具備的世界級(jí)技術(shù)實(shí)力。

啟元世界是一家2017年成立的以認(rèn)知決策智能技術(shù)為核心的公司，由前阿里、Netflix、IBM 的科學(xué)家和高管發(fā)起，并擁有伯克利、CMU 等知名機(jī)構(gòu)的特聘顧問(wèn)。團(tuán)隊(duì)核心能力以深度學(xué)習(xí)、強(qiáng)化學(xué)習(xí)、超大規(guī)模并行計(jì)算為基礎(chǔ)，擁有互聯(lián)網(wǎng)、游戲等眾多領(lǐng)域的成功經(jīng)驗(yàn)。

決策智能目前是一個(gè)世界級(jí)的技術(shù)難題，決策過(guò)程也是人腦中最復(fù)雜的一種功能。由于在游戲、交通、電力等領(lǐng)域具備極大的應(yīng)用前景，決策智能近年也成為全球人工智能研究的熱點(diǎn)，DeepMind、Facebook、OpenAI、微軟、亞馬遜等科技巨頭都成立了實(shí)驗(yàn)室進(jìn)行相關(guān)研究。相較于單智能體，多智能體博弈的難度更是指數(shù)級(jí)增加。此次 NeurIPS 多智能體競(jìng)賽是 NeurIPS 會(huì)議上首次開(kāi)設(shè)多智能體競(jìng)賽，將多智能體協(xié)作、非完全信息博弈以及持續(xù)學(xué)習(xí)等關(guān)鍵問(wèn)題濃縮到炸彈人這款游戲中，鼓勵(lì)全世界優(yōu)秀的研發(fā)人員一起參加解決技術(shù)挑戰(zhàn)。

此次 NeurIPS 多智能體競(jìng)賽采用激烈雙淘汰機(jī)制（Double Elimination），25 支參賽隊(duì)分別提供 2 個(gè)智能體參加 2v2 對(duì)抗賽。參賽隊(duì)伍的每個(gè)智能體初始都被困在一個(gè)封閉的區(qū)間中，智能體只有炸開(kāi)附近的木箱才能進(jìn)去其他區(qū)域；而且智能也只具有整個(gè)地區(qū)的一部分視野。在幾乎所有障礙物都被清理干凈后，智能體進(jìn)入到對(duì)抗階段，所有智能體都可以自由地在全局活動(dòng)，這個(gè)階段智能體的主要目標(biāo)就是炸掉對(duì)手。

啟元世界獲 NeurIPS 2018 多智能體競(jìng)賽Learning組冠軍，決策智能平臺(tái)價(jià)值凸顯

圖1：多智能體競(jìng)賽－炸彈人團(tuán)隊(duì)賽

競(jìng)賽過(guò)程中需要智能體完成：1）清除障礙物，2）躲避自己的炸彈火焰，3）收集裝備，4）躲避自己和其他人的炸彈火焰，5）放炸彈殺死對(duì)手，6) 避免放炸彈殺死隊(duì)友。整個(gè)過(guò)程，對(duì)智能體有效甄別和提取有效信息，同時(shí)對(duì)未知信息進(jìn)行推理和假設(shè)，以及多智能體協(xié)作都提出了很高的技術(shù)要求。

啟元決策智能平臺(tái)訓(xùn)練的 Navocado 雙智能體在比賽中的部分表現(xiàn)如下圖：

啟元世界獲 NeurIPS 2018 多智能體競(jìng)賽Learning組冠軍，決策智能平臺(tái)價(jià)值凸顯

同隊(duì)炸彈人聯(lián)手，在對(duì)手的兩側(cè)放炸彈圍堵，將其困在中間地帶后摧毀對(duì)手

啟元世界獲 NeurIPS 2018 多智能體競(jìng)賽Learning組冠軍，決策智能平臺(tái)價(jià)值凸顯

炸彈人通過(guò)靈活的移動(dòng)及時(shí)躲避炸彈爆炸

啟元世界獲 NeurIPS 2018 多智能體競(jìng)賽Learning組冠軍，決策智能平臺(tái)價(jià)值凸顯

炸彈人主動(dòng)將炸彈朝對(duì)手方向踢出，精確擊潰對(duì)手

啟元世界獲 NeurIPS 2018 多智能體競(jìng)賽Learning組冠軍，決策智能平臺(tái)價(jià)值凸顯

炸彈人學(xué)會(huì)準(zhǔn)確的炸箱子，并且通過(guò)最短路徑尋路吃增強(qiáng)藥

每個(gè)賽隊(duì)線下有 2 個(gè)月的時(shí)間進(jìn)行模型訓(xùn)練。最終基于啟元決策智能平臺(tái)訓(xùn)練的 Navocado 戰(zhàn)勝了來(lái)自加拿大的 Skynet，拿下 Learning 組冠軍。Skynet 的團(tuán)隊(duì)來(lái)自加拿大近百人規(guī)模的科技公司 Borealis.ai。從對(duì)戰(zhàn)過(guò)程來(lái)看，啟元的 Navocado 智能體的主動(dòng)進(jìn)攻能力明顯強(qiáng)于對(duì)手。從 Skynet 在官網(wǎng)公開(kāi)的實(shí)現(xiàn)方案來(lái)看，Skynet 模型在決策過(guò)程中加入了很多人工干預(yù)（比如限制炸彈人不能往火焰里走），這和 Navocado 模型在整個(gè)訓(xùn)練和決策過(guò)程中不加人工干預(yù)、自主學(xué)會(huì)各項(xiàng)技能的方式也有較大的差距。

啟元世界獲 NeurIPS 2018 多智能體競(jìng)賽Learning組冠軍，決策智能平臺(tái)價(jià)值凸顯

圖2：Navocado智能體持續(xù)訓(xùn)練過(guò)程中的效果提升曲線

啟元從 2017 年起打造的決策智能平臺(tái)在這次賽事奪冠的智能體訓(xùn)練中起到了關(guān)鍵作用。強(qiáng)化學(xué)習(xí)作為決策智能的核心技術(shù)，也是極具挑戰(zhàn)的一種機(jī)器學(xué)習(xí)方法。由于強(qiáng)化學(xué)習(xí)涉及到的鏈路很長(zhǎng)，而強(qiáng)化學(xué)習(xí)算法本身對(duì)超參十分敏感，學(xué)術(shù)界中各人不同的實(shí)現(xiàn)或配置都很容易導(dǎo)致出現(xiàn)訓(xùn)練結(jié)果不可復(fù)現(xiàn)的現(xiàn)象。強(qiáng)化學(xué)習(xí)技術(shù)在可復(fù)現(xiàn)性、可復(fù)用性和魯棒性方面存在著挑戰(zhàn)。

借助平臺(tái)化的力量，啟元決策智能平臺(tái)運(yùn)用強(qiáng)化學(xué)習(xí)解決復(fù)雜決策問(wèn)題，證明了強(qiáng)化學(xué)習(xí)的可行性。啟元決策智能平臺(tái)搭建了支持多智能體博弈的基礎(chǔ)架構(gòu)，能夠通過(guò)競(jìng)技的方式實(shí)現(xiàn)多智能體持續(xù)學(xué)習(xí)的能力。平臺(tái)還支持包括自動(dòng)化資源調(diào)度和自動(dòng)調(diào)參的元學(xué)習(xí)，使得模型的訓(xùn)練更加高效。

啟元世界彭鵬博士介紹，「啟元團(tuán)隊(duì)對(duì)強(qiáng)化學(xué)習(xí)這個(gè)領(lǐng)域都很有 Passion。這次我們?cè)?NeurIPS 多智能體競(jìng)賽奪冠的智能體，在每個(gè)階段的訓(xùn)練過(guò)程沒(méi)有人工干預(yù)，學(xué)習(xí)曲線非常漂亮，進(jìn)一步驗(yàn)證了這套體系的有效性和魯棒性，驗(yàn)證了強(qiáng)化學(xué)習(xí)技術(shù)的價(jià)值?！?/p>

從平臺(tái)架構(gòu)設(shè)計(jì)到底層實(shí)現(xiàn)上，啟元都做了很多細(xì)致的工作，力求在包括環(huán)境模擬、模型預(yù)估和訓(xùn)練等各個(gè)決策智能相關(guān)的環(huán)節(jié)都做到完美。啟元賽隊(duì)基于決策智能平臺(tái)分階段設(shè)計(jì)了獎(jiǎng)勵(lì)機(jī)制以及調(diào)整超參。在使用啟元決策智能平臺(tái)的過(guò)程中，賽隊(duì)可以快速地調(diào)度所需資源進(jìn)行任務(wù)部署，配置對(duì)戰(zhàn)所需的智能體，并且在訓(xùn)練過(guò)程實(shí)時(shí)觀察不同模型的對(duì)戰(zhàn)情況和勝率曲線，從而做出最快的調(diào)整。

啟元世界獲 NeurIPS 2018 多智能體競(jìng)賽Learning組冠軍，決策智能平臺(tái)價(jià)值凸顯

圖3：?jiǎn)⒃獩Q策智能平臺(tái)架構(gòu)

在此次 NeurIPS 多智能體競(jìng)賽中，啟元決策智能平臺(tái)提供了三大助力：

第一，支持智能體持續(xù)學(xué)習(xí)的能力。

持續(xù)學(xué)習(xí)的能力是智能體訓(xùn)練中關(guān)鍵的一環(huán)。在訓(xùn)練階段，炸彈人競(jìng)賽中的智能體需要在學(xué)習(xí)新技能的過(guò)程中保留過(guò)去學(xué)會(huì)的技能，才能達(dá)到很高的水平。啟元決策智能平臺(tái)通過(guò)智能體群體匹配競(jìng)技的方式實(shí)現(xiàn)「自然選擇」，從而達(dá)到持續(xù)學(xué)習(xí)的效果。在競(jìng)技過(guò)程中，強(qiáng)者留存，弱者被淘汰。在弱者被淘汰之后，空出來(lái)的位置被強(qiáng)者的克隆體代替，而強(qiáng)者的克隆體則根據(jù)新的超參設(shè)定持續(xù)進(jìn)化。在固定計(jì)算資源預(yù)算的情況下，啟元決策智能平臺(tái)通過(guò)這套機(jī)制在探索新強(qiáng)者 (exploration) 和深挖舊強(qiáng)者（exploitation）之間平衡對(duì)計(jì)算資源的使用情況。

第二，支持復(fù)雜場(chǎng)景的多智能體聯(lián)合訓(xùn)練。

在多智能體博弈問(wèn)題中，不同智能體之間的相互克制較為常見(jiàn)，其收斂可能性極為復(fù)雜。在炸彈人競(jìng)賽中，不同隊(duì)伍的智能體風(fēng)格迥異，有的善攻，有的善守?；凇个T魚(yú)效應(yīng)」的思想（指通過(guò)引入強(qiáng)者，激發(fā)弱者變強(qiáng)的效應(yīng)），啟元決策智能平臺(tái)在訓(xùn)練初期引入基于規(guī)則的高階對(duì)手，激發(fā)初期較弱的智能體在與強(qiáng)者的對(duì)決中學(xué)會(huì)各種基本技能，迅速提升變強(qiáng)；隨著訓(xùn)練階段的深入，啟元決策智能平臺(tái)同時(shí)訓(xùn)練多個(gè)智能體，使其在激烈的相互對(duì)抗中完善自我。

第三，支持基于私有云集群的大規(guī)模、高并發(fā)的模擬和大規(guī)模訓(xùn)練。

啟元決策智能平臺(tái)將架構(gòu)圖中所示的多個(gè)模塊進(jìn)行組件化，并封裝到了容器中。通過(guò)云端自動(dòng)化的方式管理數(shù)百 CPU 以及 GPU 資源并實(shí)現(xiàn)容器編排，降低了調(diào)度數(shù)十個(gè)炸彈人訓(xùn)練任務(wù)的成本。大規(guī)模、高并發(fā)的模擬計(jì)算以及大規(guī)模的訓(xùn)練同時(shí)在私有云集群中進(jìn)行。另外，啟元決策智能平臺(tái)提供分布式存儲(chǔ)方案，并配置成共享模型池，為炸彈人智能體模型群體的持久化和共享提供支持。

啟元決策智能平臺(tái) v0.8 版本目前已用于游戲、網(wǎng)絡(luò)智能及仿真等場(chǎng)景中。基于為客戶(hù)提供的高附加值服務(wù)，啟元世界在 2018 年商業(yè)化上小試牛刀，即已取得不錯(cuò)的營(yíng)收。2019 年，啟元世界計(jì)劃發(fā)布第一版啟元決策智能平臺(tái)型產(chǎn)品，為更多行業(yè)客戶(hù)、終端用戶(hù)帶去高體驗(yàn)的服務(wù)。

關(guān)于此次競(jìng)賽方案的更多細(xì)節(jié)，啟元世界也撰寫(xiě)了技術(shù)報(bào)告，感興趣的讀者可以參見(jiàn) https://arxiv.org/abs/1812.07297。

基于監(jiān)督學(xué)習(xí)的智能決策系統(tǒng)常見(jiàn)，但基于強(qiáng)化學(xué)習(xí)的智能決策系統(tǒng)不常見(jiàn)。雷鋒網(wǎng) AI 科技評(píng)論很感興趣他們是如何看待并應(yīng)對(duì)強(qiáng)化學(xué)習(xí)固有的一系列技術(shù)挑戰(zhàn)的。后續(xù)報(bào)告請(qǐng)繼續(xù)關(guān)注我們。

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。