Facebook 開源 AI 圍棋源代碼，擊敗職業(yè)棋手只需一塊GPU

本文作者： camel

2018-05-04 13:40

導(dǎo)語：以后的圍棋入門，寫代碼會(huì)不會(huì)成為必修課？

雷鋒網(wǎng) AI 科技評(píng)論消息：5 月 2 日，F(xiàn)acebook AI Research（FAIR）官網(wǎng)博客中宣布開源其 AI 圍棋機(jī)器人 ELF OpenGo（包括源代碼和一個(gè)訓(xùn)練好的模型），該機(jī)器人是基于 ELF 平臺(tái)研發(fā)而成，曾擊敗了 4 位世界排名前 30 的圍棋棋手。

據(jù)雷鋒網(wǎng)了解，該工作主要是受啟于 DeepMind 的工作。今年早些時(shí)候 FAIR 啟動(dòng)了該項(xiàng)工作，期望基于其進(jìn)行強(qiáng)化學(xué)習(xí)研究而開發(fā)的可擴(kuò)展、輕量級(jí)框架（Extensible Lightweight Framework，ELF）再現(xiàn) AlphaGoZero 最近的結(jié)果。其目的則是創(chuàng)建一個(gè)開源實(shí)現(xiàn)的系統(tǒng)，該系統(tǒng)能夠自學(xué)圍棋進(jìn)而達(dá)到人類職業(yè)棋手的水平或更高水平；同時(shí)他們也希望通過發(fā)布的代碼和模型，激勵(lì)更多的人去思考這項(xiàng)技術(shù)新的應(yīng)用和研究方向。

Facebook 開源 AI 圍棋源代碼，擊敗職業(yè)棋手只需一塊GPU

據(jù)這個(gè)項(xiàng)目的負(fù)責(zé)人田淵棟介紹，他們用了兩千塊 GPU 訓(xùn)練該模型，約兩到三周后得到當(dāng)前版本的圍棋 AI模型，該模型基本上超過了強(qiáng)職業(yè)棋手的水平。ELF OpenGo 在與世界排名前 30 的四位職業(yè)圍棋棋手（金志錫，申真谞，樸永訓(xùn)及崔哲瀚）的對(duì)弈中，OpenGo 以 14：0 的成績贏得了所有的比賽；在比賽中OpenGo使用單塊 GPU 每步50秒的搜索時(shí)間（每步搜索 8 萬個(gè)局面），而人類棋手可以有任意長時(shí)間的思考。

另外，ELF OpenGo 在與目前公開可用的、最強(qiáng)的圍棋機(jī)器人 LeelaZero 的對(duì)一種，后者采用了除ponder外的缺省配置，以及公開權(quán)重（192x15，158603eb, Apr. 25, 2018），結(jié)果 OpenGo 贏得了全部 200 場比賽。

田淵棟博士隨后在知乎上發(fā)表的一篇感想文章中提到，OpenGo 這個(gè)項(xiàng)目「不是為了做最好的圍棋程序，不是說要打敗誰」。之所以做這個(gè)項(xiàng)目有三個(gè)目的：

(1) AlphaGoZero/AlphaZero 算法很有意思，我們想知道為什么它有效果，是怎么會(huì)有效果的，是不是如同宣傳的那樣是百試百靈的通用算法，是不是只要堆機(jī)器，強(qiáng)人工智能馬上就來了？還是說其實(shí)這個(gè)算法有什么問題和弱點(diǎn)？DeepMind 不開源也不透露細(xì)節(jié)，文章里面一些地方也沒有寫得很清楚。我之前寫過 Blog 討論過，但是沒有第一手經(jīng)驗(yàn)總不是很踏實(shí)。所以本著研究目的，我們需要復(fù)現(xiàn)一下，先有復(fù)現(xiàn)，才有創(chuàng)新，這個(gè)是做研究的習(xí)慣。
(2) 今年年初我重寫了 ELF 的核心代碼，另外也加了分布式訓(xùn)練，需要找個(gè)具體應(yīng)用來測試一下。站在這個(gè)角度上，AlphaGoZero/AlphaZero 是個(gè)完美的選擇，再說之前也有 DarkForest 的代碼和圍棋程序的經(jīng)驗(yàn)，所以把它們拼起來不用花太多力氣。
(3) 不管是通用算法還是分布式平臺(tái)，都可以用來干很多別的事情，不一定是圍棋，不一定是游戲。如果我們?nèi)タ?ELF OpenGo 的代碼，會(huì)發(fā)現(xiàn)其實(shí)很大一部分和圍棋一點(diǎn)關(guān)系也沒有，完全適用于其它方向的工作。而圍棋對(duì)我們來說，只是一個(gè)把算法和平臺(tái)做好的手段。在這一點(diǎn)上，花點(diǎn)時(shí)間把圍棋做好是值得的。

田淵棟博士表示，隨著今天 ELF OpenGo 的發(fā)布，這三個(gè)目的都已達(dá)到。當(dāng)然，他們更希望的是能夠借此機(jī)會(huì)推廣一下 ELF 平臺(tái)和 PyTorch 深度學(xué)習(xí)框架，讓更多的人使用和完善它。

代碼見：https://github.com/pytorch/ELF

模型見：https://github.com/pytorch/ELF/releases

英文 blog 見：https://research.fb.com/facebook-open-sources-elf-opengo/

ELF 平臺(tái)

ELF 平臺(tái)是一個(gè)可擴(kuò)展、輕量級(jí)且非常靈活的游戲研究平臺(tái)，尤其適用于實(shí)時(shí)戰(zhàn)略（RTS）游戲的研究，于 2016 年 6 月首次發(fā)布。

Facebook 開源 AI 圍棋源代碼，擊敗職業(yè)棋手只需一塊GPU

在 C++端，ELF 與 C++線程同時(shí)托管多個(gè)游戲；而在 Python 端，ELF 可以一次返回一批游戲狀態(tài)，這使得其對(duì)現(xiàn)代的強(qiáng)化學(xué)習(xí)非常友好。相比之下，其他平臺(tái)（例如 OpenAI Gym）則只是使用一個(gè) Python 界面封裝一個(gè)單一的游戲，這種情況使得并發(fā)游戲（許多現(xiàn)代的強(qiáng)化學(xué)習(xí)算法都有此要求）的執(zhí)行就變得比較復(fù)雜。

ELF 具有以下特征：

端到端：ELF 為游戲研究提供了端到端的解決方案。它提供微型實(shí)時(shí)策略游戲環(huán)境、并行模擬、直觀的 API、基于 Web 的可視化，并且還具有由 Pytorch 授權(quán)的強(qiáng)化學(xué)習(xí)后端，資源需求最少。
可擴(kuò)展性：任何具有 C / C ++接口的游戲都可以通過編寫一個(gè)簡單的包裝器插入到這個(gè)框架中。
輕量級(jí)：ELF 運(yùn)行速度非常快，開銷很小。在一臺(tái) MacBook Pro 上，基于 RTS 引擎構(gòu)建的簡單游戲（MiniRTS）使用 ELF 平臺(tái)，能夠單核每秒運(yùn)行 40K 幀；而只使用 6 塊 CPU+1 塊 GPU 從零開始訓(xùn)練 MiniRTS，也只需要六天。
靈活性：環(huán)境和參與者之間的配對(duì)非常靈活。例如單個(gè) agent 與單個(gè)環(huán)境（例如 Vanilla A3C）、多個(gè) agent 與單個(gè)環(huán)境（Self-play/MCTS），或者單個(gè) agent 與多個(gè)環(huán)境（BatchA3C、GA3C）等。而且，任何構(gòu)建在 RTS 引擎之上的游戲都可以完全訪問其內(nèi)部表示和動(dòng)態(tài)。

隨著這次 OpenGo 的開源，F(xiàn)AIR 也對(duì) ELF 平臺(tái)進(jìn)行了改進(jìn)，升級(jí)了更高效、更友好的 API 以及支持對(duì)數(shù)千臺(tái)計(jì)算機(jī)進(jìn)行分布式計(jì)算的框架。作為 PyTorch 的一部分，ELF 能夠是研究人員能輕松地嘗試不同的強(qiáng)化學(xué)習(xí)思想，并進(jìn)行快速、靈活的實(shí)驗(yàn)。

雷鋒網(wǎng)報(bào)道。

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。