AlphaZero制勝解讀，通用強化學習算法自我對弈 | 2分鐘論文

本文作者： AI研習社-譯站

2018-01-02 10:58

導語：雷鋒字幕組出品系列短視頻《 2 分鐘論文》，帶大家用碎片時間閱覽前沿技術，了解 AI 領域的最新研究成果。

雷鋒網(wǎng)：雷鋒字幕組出品系列短視頻《 2 分鐘論文》，帶大家用碎片時間閱覽前沿技術，了解 AI 領域的最新研究成果。

本期論文：用通用強化學習算法自我對弈，掌握國際象棋和將棋

Mastering Chess and Shogi by Self-Play with a General Reinforcement Learning Algorithm

? 觀看論文解讀大概需要 6 分鐘

回顧AlphaZero

回望2017，DeepMind的AlphaGo是不可跳過的關鍵詞。在這一年，AlphaGo沒有止步不前，還實現(xiàn)了驚人的飛躍。

在打敗幾乎所有高段位圍棋專業(yè)選手后，谷歌DeepMind現(xiàn)在開始進軍象棋領域。12月，DeepMind在NIPS大會期間發(fā)布了AlpahZero，這是一個通用棋類AI，不僅輕松擊敗了最強國際象棋AI和將棋AI，訓練34小時的AlphaZero也勝過了訓練72小時的AlphaGo Zero。

AlphaZero 完全無需人工特征、無需任何人類棋譜、甚至無需任何特定優(yōu)化，只需要幾個小時的訓練時間，就可以超越此前最好的算法甚至人類世界冠軍，這是算法和計算資源的勝利，更是人類的頂尖研究成果。

完全自主練習的AlphaZero

AlphaZero是以神經(jīng)網(wǎng)絡和強化學習為基礎的，在給定比賽規(guī)則后，完全通過自主練習進行訓練。

這不同于讓AlphaGo Zero下圍棋，AlphaZero涉及到全新的算法，它和AlphaGo Zero區(qū)別在于：第一，象棋的規(guī)則是不對稱的，比如，卒只能向前移動，國王和王后一側的王車易位不同，這意味著基于神經(jīng)網(wǎng)絡的技術效率會變差；第二，落子時，算法不僅要預測二進制的輸贏幾率，還可能出現(xiàn)平局，這也要考慮在內(nèi)。實際上，有時平局是能實現(xiàn)的最好結果。AlphaZero對之前的算法有諸多改進。

要想理解AlphaZero的制勝方式，這里簡要介紹一下ENO評分，ENO評分是一個評估選手技術水平的數(shù)字。目前Magnus Karlssen是ENO評分最高的人類選手，分數(shù)在2800左右。幾年前，他在維也納蒙住眼睛同時對戰(zhàn)10名選手并贏得了多數(shù)比賽。而Stockfish是目前最好的圍棋引擎之一，ELO評分超過3300分。兩者間500 ELO點數(shù)的差距意味著Stockfish和Magnus Karlssen比賽，100場能贏95場。需要注意的是，規(guī)則規(guī)定相差400點就會取消比賽。

算法對決：AlphaZero VS Stockfish

AlphaZero 和 Stockfish進行了100場比賽。AlphaZero 贏 28場，平72場，輸0場。AlphaZero與Stockfish的對弈過程中，每一步棋都有60秒進行思考，因為兩種算法每走一步最多需要10秒時間，所以時間完全夠用。在硬件配置同為含4個Tenzer處理器的機器的情況下，

AlphaZero僅僅花了4個小時的學習就拿了個大滿貫。

需要注意，Stockfish采用的不是機器學習，而是手寫算法。人們喜歡類比電腦游戲中的AI，但它們沒有做任何類型的學習。最讓人稱道的是，AlphaZero是一種更通用的算法，還能以極高的水準玩將棋，也就是所謂的日本象棋。這才是最有趣的。因為所用的是通用學習算法，能夠在不投入顯著人力的情況下完成任務，所以相比Stockfish，AlphaZero實用性更強。

論文花絮

關于論文還有兩個更有趣的花絮：一是該算法得出的所有領域知識，都是明確給出的；二是有人可能認為隨著計算機和運算能力的提高，我們所要做的只是提高算法的強度，增加更多要評估的點。我們注意到AlphaZero能穩(wěn)定擊敗Stockfish的關鍵在于，也許在于AI等效直覺，也就是AlphaZero能夠確認少量的有效走法并且專注其中。

雷鋒網(wǎng)本篇視頻解釋運用了大量材料，里面有Danny Okink大師和國際象棋大師Daniel Ranch的有趣分析，以及YouTube頻道、網(wǎng)絡圍棋等高質(zhì)量材料。DeepMind告訴我們，這只是論文的最初版本，所以現(xiàn)在我們先做一個初步觀察，也許在最終論文完成后，再制作第二段視頻反映最新結果。

雷鋒網(wǎng)的學霸們還請自行閱讀論文以獲得更多細節(jié)

論文原址：arxiv.org/pdf/1712.01815.pdf

來源 / Two Minute Papers

翻譯 / 安妍

校對 / 凡江

整理 / 孫云 AlphaZero制勝解讀，通用強化學習算法自我對弈 | 2分鐘論文