圍棋 AI ELF OpenGo 迎來更新，另有田淵棟呈上開源項目的詳細解讀

本文作者：叢末

2019-02-15 09:54

導(dǎo)語：并一同發(fā)布了新的研究成果以及可在 Windows 上運行的機器人版本。

雷鋒網(wǎng) AI 科技評論按： Facebook 人工智能研究院（FAIR）于去年開源的 ELF OpenGo 日前再度迎來更新，本次 FAIR 不僅發(fā)布了該系統(tǒng)新的功能和研究成果，還發(fā)布了可在 Windows 上運行的 AI 版本，讓圍棋棋手能更易于使用該系統(tǒng)來幫助自己訓(xùn)練。以下是田淵棟等人對該開源項目的詳細解讀，原文發(fā)布在 FAIR 的官方博客上。

自去年 Facebook 人工智能研究院（FAIR）發(fā)布了 ELF OpenGo，AI 研究人員就利用該圍棋 AI 來更好地理解 AI 系統(tǒng)是如何學(xué)習(xí)的，同時圍棋愛好者也將它作為一位最先進的 AI 對手進行對戰(zhàn)來測試自己的水平。這個開源 AI 在與人類的對戰(zhàn)中表現(xiàn)非常出色，其中就包括以 20：0 的戰(zhàn)績擊敗了圍棋職業(yè)棋手，同時，它也已被 AI 研究界廣泛應(yīng)用于執(zhí)行圍棋實驗，并重新產(chǎn)生了其他結(jié)果。ELF OpenGo 在基于 AI 的圍棋比賽中也已經(jīng)對戰(zhàn)了從它自身修改而來的多個版本。同時，它也作為人類的隊友參加了圍棋比賽，包括參加美國圍棋大會混雙賽，在這個比賽中，每個隊由一位人類選手和一個 ELF OpenGo 系統(tǒng)組成，他們共同對戰(zhàn)另一個人類與 AI 聯(lián)合組成的戰(zhàn)隊。

日前，我們對 ELF OpenGo 進行了更新，并發(fā)布了其新的功能和研究成果，包括從頭開始重新訓(xùn)練的經(jīng)過更新的模型。同時，我們還發(fā)布了可在 Windows 上運行的 AI 版本，讓圍棋棋手能更易于使用該系統(tǒng)來幫助自己訓(xùn)練，另外，系統(tǒng)對于這些棋手來說也是一個獨一無二的「檔案館」，里面展現(xiàn)了 ELF OpenGo 對 87,000 場圍棋職業(yè)比賽的分析?，F(xiàn)在，棋手們可以也看到系統(tǒng)是如何排出 18 世紀的最佳職業(yè)棋手，如何對這些棋手的表現(xiàn)進行細致的評估，并最終回歸到特定的比賽中的個人表現(xiàn)。我們非常高興看到這個通用平臺經(jīng)過改進，能夠幫助研究者更好地理解 AI 以及圍棋界的棋手們也可以使用該平臺來磨煉他們的技能并研究圍棋賽事。

韓國棋院的公關(guān)助力總監(jiān) Beomgeun Cho 就曾表示：「我可以肯定地說，ELF OpenGo 開源項目給韓國的圍棋界帶來了巨大的影響。自它問世以來，韓國幾乎每一位競賽型職業(yè)棋手都在使用 ELF Go 程序來分析他們自己以及其他棋手的對戰(zhàn)情況。并且正是因為這樣，不僅韓國的圍棋水平得到提高，整個世界的圍棋水平也得以明顯提升?！?/p>

讓每個人都能用到強大的 AI

當(dāng) DeepMind 在 2017 年發(fā)布 AlphaGo Zero 時，就展示了擁有 4000 年歷史的圍棋作為深度強化學(xué)習(xí)（RL）相關(guān)研究者的試驗臺的價值。由于其高分支乘數(shù)、卷積交互及復(fù)雜模式，有效的圍棋 AI 必須泛化到?jīng)]見過的復(fù)雜場景中，來探索并找到新的策略。它提供了一個上百萬種潛在的移動組合環(huán)境，不過缺少了隱藏的或基于偶然性的游戲機制（例如滾動式骰子或洗牌）。不過雖然 AlphaGo Zero 和它的進化版本 AlphaZero 都已經(jīng)證明了 AI 系統(tǒng)經(jīng)過訓(xùn)練后可以持續(xù)地打敗人類圍棋棋手，但是對于更廣大的 AI 研究界來說，它們的作用更多地是作為一個深度強化學(xué)習(xí)的成功案例而非一種工具。

作為其開放科學(xué)實施中的一部分，F(xiàn)AIR 去年發(fā)布了 AlphaZero 的另一種實現(xiàn)方式——ELF OpenGo，讓其他研究實驗室能夠更加深入地了解這些方法的工作原理。該模型的開源同樣為未來的研究工作提供了一個必不可少的基準(zhǔn)。然而 FAIR 也意識到，由于該模型需要巨大的計算資源，大多數(shù)的研究者即便使用開源的代碼也無法獲得與其相同的結(jié)果。這就是為什么我們再度發(fā)表一篇新論文（論文查看地址：https://dl.fbaipublicfiles.com/elfopengo/pdf/arxiv.pdf），基于從頭開始進行重新訓(xùn)練的 ELF OpenGo 與大家分享一些新的思想。這篇論文很好地解釋了為什么 AI 在與人類棋手的對戰(zhàn)中有這么強大的表現(xiàn)，并闡明了科技的局限性，而這種局限性是可以幫助研究者更好地理解 AI 系統(tǒng)的潛在機制并將其應(yīng)用到其他的場景中的。

對于研究界來說，我們更新后的模型和代碼是 ELF OpenGo 迄今為止最好的版本，同時通過發(fā)布由 2000 萬局自我對弈的棋局和 1500 個用來生成這些棋局的中間模型組成的數(shù)據(jù)集，我們也進一步降低了模型對計算資源的要求（在訓(xùn)練過程中，自我對弈是對硬件資源要求最高的環(huán)節(jié)）。并且對于那些想要深入挖掘基于強化學(xué)習(xí)的圍棋 AI 是怎樣學(xué)習(xí)和下棋的研究人員來說，我們的這篇論文也詳細介紹了大量消融實驗（ablation experiments）的結(jié)果，并在評估中更改了個體特征以更好地理解這些算法種類的屬性。

揭示深度強化學(xué)習(xí)的優(yōu)勢和局限性

ELF OpenGo 擁有強大性能的關(guān)鍵就在于它不像人類一樣學(xué)習(xí)。深度強化學(xué)習(xí)反復(fù)試錯的屬性（即系統(tǒng)探索各種不同的動作，得到失敗案例也得到成功案例，并從這些案例中學(xué)習(xí)來采取接下來的行動）類似于人類一般意義上的學(xué)習(xí)，不過特定的機制是非常不同的。例如，ELF OpenGo 可能僅僅從它贏得或敗掉的比賽或者自我對弈棋局的知識范圍中學(xué)習(xí)。它不知道哪步特定的棋會對它的輸贏產(chǎn)生最大的影響。與人類棋手不同，ELF OpenGo 無法從知道每步棋的好壞的水平更高的棋手那里獲得建議，也沒有機會去與比它自身的更強棋手進行對戰(zhàn)。FAIR 的最終模型是 2000 萬局自我對弈棋局的結(jié)果。

當(dāng)我們使用這一模型去分析人類職業(yè)棋手所下的棋局時，它在整個訓(xùn)練時長 10% 的時間內(nèi)，就能夠在其學(xué)習(xí)過程中早早地預(yù)測到怎樣落棋子以達到平衡。但是當(dāng)模型繼續(xù)訓(xùn)練時，它的下棋水平也會繼續(xù)提升，并最終在 60% 的訓(xùn)練時長中擊敗更早版本的原型 ELF OpenGo 模型。這個原型系統(tǒng)已經(jīng)超越了人類專家，曾以 20：0 的成績擊敗了位列全球 Top 30 棋手的 4 位圍棋職業(yè)棋手。ELF OpenGo 進一步證實了 AlphaZero 此前的發(fā)現(xiàn)：很多人的棋法——即便是最專業(yè)的棋手，都不是最優(yōu)的。

不過正如夸大 AI 在其他領(lǐng)域中超越人類的表現(xiàn)，F(xiàn)AIR 在對 ELF OpenGo 學(xué)習(xí)過程的探索中也發(fā)現(xiàn)了其在深度強化學(xué)習(xí)中特定的重要局限性。像 AlphaZero 一樣，ELF OpenGo 系統(tǒng)無法完全掌握「征（ladder）」這一概念，而這個概念是圍棋初學(xué)者也能夠理解的最基礎(chǔ)的入門技巧，即一位棋手用一個在棋盤上以對角的形式延展的長編隊來圍困對手的棋子（最終被吃掉的棋子就像階梯的梯級一樣）。這種棋法更多地依賴于預(yù)測而不是進行大量其他的排序。雖然對于人類圍棋棋手來說，預(yù)測未來 30 步或更多步棋是順手拈來的，但 DeepMind 曾指出這些預(yù)測是在模型在訓(xùn)練后期才能學(xué)到的。

圍棋 AI ELF OpenGo 迎來更新，另有田淵棟呈上開源項目的詳細解讀

在這張圖中，黑子試圖用「征」來圍困白子，不過白子順利逃脫了。人類棋手可以快速地學(xué)到征這種棋法的模式，但是機器人學(xué)得更慢得多，并且無法從某個使用「征」的示例中泛化到其他棋局中。

為了進一步研究其弱點，我們策劃了一個有著 100 個「征」方案的數(shù)據(jù)集，并評估了 ELF OpenGo 使用這些方案下棋的表現(xiàn)。在當(dāng)前模型設(shè)計的情況下，方案是模型通過蠻力學(xué)到的（例如每個征的增加長度都要求另外訓(xùn)練），而不是作為系統(tǒng)能夠泛化到未見過的場景中的模式。ELF OpenGo 依賴于蒙特卡洛樹搜索（MCTS）的方法來來預(yù)測之后的動作。人類可以很快理解「征」會形成一個非常特別的移動陣列，并能快速分析出最終結(jié)果。MCTS 是一個概率方法，意味著即使每個棋子的正確移動有很高的概率，在一個長的陣列中實現(xiàn)所有棋子的正確移動的概率也是低的。

更廣泛地說，ELF OpenGo 讓其他 AI 研究人員能夠獲得關(guān)于這些系統(tǒng)如何工作的第一手經(jīng)驗。這可以幫助研究界從理論上提高對模型訓(xùn)練程序的理解，發(fā)現(xiàn)這些算法的新弱點，并最終以更低的計算能力實現(xiàn)更好的性能。

有趣的是，ELF OpenGo 以與人類棋手相反的方式學(xué)習(xí)下圍棋，其基于強化學(xué)習(xí)的方法更多地關(guān)注棋局的后期階段，而不是開局或中間階段。通過設(shè)置激勵 AI 獲勝的動作，強化學(xué)習(xí)促使 ELF OpenGo 更多地了解棋局如何結(jié)束而不是如何開始。與此同時，人類則傾向于即刻開始評估當(dāng)前的棋局，重點關(guān)注近期和局部的勝利，同時保持不斷推進棋局。雖然 FAIR 的研究結(jié)果僅限于圍棋，不過它表明了強化學(xué)習(xí)有著不少局限性，這可能導(dǎo)致這樣的結(jié)果：雖然其整體表現(xiàn)令人印象深刻，但如果過分關(guān)注最終結(jié)果而忽視近期的勝利則可能會遭遇失敗或被（對手）利用。

使用 AI 來評估圍棋的歷史

在重新訓(xùn)練和執(zhí)行 ELF OpenGo 的過程中，我們意識到它不僅僅會影響到目前的 AI 棋手，同時也是了解過去四個世紀競技性圍棋歷史的窗口。為什么不發(fā)掘一下 ELF OpenGo 在專門分析這些圍棋歷史和棋手上的潛力呢？

圍棋 AI ELF OpenGo 迎來更新，另有田淵棟呈上開源項目的詳細解讀

這盤圍棋顯示了日本 19 世紀的一位職業(yè)圍棋棋手——Honinbo Shusaku 所下出的「ear-reddening」棋局。Shusaku 著名的一步棋落于「a」區(qū)域，不過 ELF OpenGo 很自信地認為應(yīng)該落在「b!」區(qū)域。

這種覺悟帶來的成果就是一個交互工具（工具地址：https://dl.fbaipublicfiles.com/elfopengo/analysis/www/index.html），它基于 ELF OpenGo 對人類對弈的 87,000 場圍棋的分析。這個數(shù)據(jù)集的時間跨度為 1700 年到 2018 年，這個系統(tǒng)則基于機器人和人類對未來落棋的預(yù)測的一致性來評估個體的棋法水平。雖然這個工具鼓勵深入到特定的圍棋賽事進行分析，但它同樣也看重圍棋的重要發(fā)展趨勢。在對 300 多年時間里進行過的圍棋賽事的分析中，AI 發(fā)現(xiàn)圍棋的平均水平正在穩(wěn)步提升。其他的評估方法，例如，據(jù) ELF OpenGo，歷史比賽過程中最糟糕的一步棋（這步棋往往與獲勝概率的最大降幅息息相關(guān)）反反復(fù)復(fù)地或得到提高或變得更糟，其中 19 世紀末期和 21 世紀的表現(xiàn)是最好的。同時，F(xiàn)AIR 也對個人棋手進行了分析，例如在對圍棋史上最著名的棋手 Honinbo Shusaku 的分析中，他的落棋方式與 ELF OpenGo 所推薦的落棋方式不一致。他早期的落棋方法隨著時間的推移與 ELF OpenGo 是背離的，不過中期的落棋方式與 ELF OpenGo 更加一致。他們還對 Honinbo Shusaku 在 17 歲對戰(zhàn) Gennan Inseki 這位更加成熟的圍棋棋手時所下出的著名的「ear-reddening」棋局進行了分析，結(jié)果顯示 ELF OpenGo 反而更偏愛 Gennan Inseki 的棋法。

圍棋 AI ELF OpenGo 迎來更新，另有田淵棟呈上開源項目的詳細解讀

從 1700 年到 2018 年，圍棋比賽中間階段（第 60 步到 120 步）圍棋職業(yè)棋手的落棋方式與 ELF OpenGo 所推薦的落棋方式的一致性百分比。

圍棋 AI ELF OpenGo 迎來更新，另有田淵棟呈上開源項目的詳細解讀

圍棋比賽中，圍棋職業(yè)棋手最糟糕的一步棋給其獲勝概率帶來的最大降幅（圍棋比賽的時間跨度為 1700 年到 2018 年間；數(shù)值越低越好。）

圍棋 AI ELF OpenGo 迎來更新，另有田淵棟呈上開源項目的詳細解讀

日本 19 世紀的一位職業(yè)圍棋棋手 Honinbo Shusaku 早期的落棋方式與 ELF OpenGo 所推薦的落棋方式的一致性百分比。

圍棋 AI ELF OpenGo 迎來更新，另有田淵棟呈上開源項目的詳細解讀

圍棋比賽中間階段，Honinbo Shusaku 落棋方式與 ELF OpenGo 所推薦的落棋方式的一致性百分比。

ELF OpenGo 同時也強調(diào)了 AI 對圍棋的明顯影響。例如，ELF OpenGo 的一致性概率隨著時間的推移趨于增加，這表明了圍棋的總體水平與日提升。

該系統(tǒng)對特定棋手的評估也會隨著時間的推移而提高，這表明了他們在職業(yè)發(fā)展過程中的進步。事后看來，這些觀察結(jié)果可能是顯而易見的，但 ELF OpenGo 量化了這些進展，并發(fā)現(xiàn)了個人的圍棋水平明顯會隨著時間而發(fā)生變化。2016 年棋手的落棋方式與 ELF OpenGo 推薦的的落棋方式的一致性突然而全面地增加，也會增強人類的這一信念：引入強大的 AI 對手有利于提升職業(yè)棋手的水平。這種顯著的相關(guān)性不是決定性的——人類的圍棋水平也有可能由于其他原因顯著提高，但作為一個案例，從現(xiàn)在以及歷史角度來看，它都很好地體現(xiàn)了一個經(jīng)過訓(xùn)練來執(zhí)行指定任務(wù)的系統(tǒng)也可以對更廣泛的領(lǐng)域進行更廣泛的分析。

圍棋 AI 下一步該怎么發(fā)展？

雖然 ELF OpenGo 已經(jīng)被世界各地的研究團隊和棋手廣泛應(yīng)用，但我們也很高興將去年的版本擴展為更廣泛的一項開源資源。對于圍棋愛好者來說，該系統(tǒng)對職業(yè)圍棋比賽的分析可以作為一種新型的訓(xùn)練輔助工具，能為他們提供一個超越人類的 AI 棋手在圍棋不同階段的表現(xiàn)參考。此外，我們出于訓(xùn)練目的，還增加了 AI 本身的開放性，并發(fā)布了圍棋棋手可以下載并進行對局的可在 Windows 上運行的 AI 版本。

不過，無論是對于 ELF OpenGo，還是在開發(fā)能向人類一樣有效學(xué)習(xí)的 AI 的更大項目中，F(xiàn)AIR 還有很多工作要做。ELF OpenGo 能夠擊敗人類專家，但這僅僅只能在其與自己對弈百萬場比賽之后才能實現(xiàn)。它如何從眾多案例中的一小部分中學(xué)習(xí)，同時更快地掌握「征」等概念并最終實現(xiàn)更好的表現(xiàn)？通過將我們的工具和分析全面開放給大家，我們希望能夠加速 AI 界更快地追尋到這些問題的答案。

via：https://ai.facebook.com/blog/open-sourcing-new-elf-opengo-bot-and-go-research/?ref=shareable 雷鋒網(wǎng)雷鋒網(wǎng)

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。