100:0！Deepmind Nature論文揭示最強AlphaGo Zero，無需人類知識

本文作者：岑大師

2017-10-19 03:57

導語：AlphaGo“退役”了，但Deepmind在圍棋上的探索并沒有停止。

AlphaGo“退役”了，但Deepmind在圍棋上的探索并沒有停止。

今年5月的烏鎮(zhèn)大會的“人機對局”中，中國棋手、世界冠軍柯潔9段以0:3不敵AlphaGo。隨后Deepmind創(chuàng)始人Hassabis宣布，AlphaGo將永久退出競技舞臺，不再進行比賽。同時Hassbis表示：“我們計劃在今年稍晚時候發(fā)布最后一篇學術論文，詳細介紹我們在算法效率上所取得的一系列進展，以及應用在其他更全面領域中的可能性。就像第一篇 AlphaGo 論文一樣，我們希望更多的開發(fā)者能夠接過接力棒，利用這些全新的進展開發(fā)出屬于自己的強大圍棋程序?！?/p>

今天，Deepmind在如約在Nature發(fā)布了這篇論文——在這篇名為《Mastering the game of Go without human knowledge》（不使用人類知識掌握圍棋）的論文中，Deepmind展示了他們更強大的新版本圍棋程序“AlphaGo Zero”，驗證了即使在像圍棋這樣最具挑戰(zhàn)性的領域，也可以通過純強化學習的方法自我完善達到目的。

100:0！Deepmind Nature論文揭示最強AlphaGo Zero，無需人類知識

摘要

人工智能的一個長期目標是通過后天的自主學習（雷鋒網注：tabula rasa，意為“白板”，指所有的知識都是逐漸從他們的感官和經驗而來），在一個具有挑戰(zhàn)性的領域創(chuàng)造出超越人類的精通程度學習的算法。此前，AlphaGo成為首個戰(zhàn)勝人類圍棋世界冠軍的程序，當時的AlphaGo通過深層神經網絡進行決策，并使用人類專家下棋的數據進行監(jiān)督學習，同時也通過自我對弈進行強化學習。在這篇論文中，我們將介紹一種僅基于強化學習的算法，而不使用人類的數據、指導或規(guī)則以外的領域知識。AlphaGo成為自己的老師，這一神經網絡被訓練用于預測AlphaGo自己的落子選擇，提高了樹搜索的強度，使得落子質量更高，具有更強的自我對弈迭代能力。從一塊白板開始，我們的新程序AlphaGo Zero表現驚人，并以100：0擊敗了此前版本的AlphaGo。

全新強化學習算法：無需任何人類指導

雷鋒網發(fā)現，這篇論文的最大亮點，在于無需任何人類指導，通過全新的強化學習方式自己成為自己的老師，在圍棋這一最具挑戰(zhàn)性的領域達到超過人類的精通程度。相比起之前使用人類對弈的數據，這一算法訓練時間更短，僅用3天時間就達到了擊敗李世石的AlphaGo Lee的水平，21天達到了之前擊敗柯潔的AlphaGo Master的水平。

在3天內——也就是AlphaGo Zero在擊敗AlphaGo Lee之前，曾進行過490萬次自我對弈練習。相比之下，AlphaGo Lee的訓練時間長達數月之久。AlphaGo Zero不僅發(fā)現了人類數千年來已有的許多圍棋策略，還設計了人類玩家以前未知的的策略。

100:0！Deepmind Nature論文揭示最強AlphaGo Zero，無需人類知識

據Deepmind博客介紹，AlphaGo Zero采用了新的強化學習方法，從一個不知道圍棋游戲規(guī)則的神經網絡開始，然后通過將這個神經網絡與強大的搜索算法結合，然后就可以實現自我對弈了。在這樣的訓練過程中，神經網絡被更新和調整，并用于預測下一步落子和最終的輸贏。

這一更新后的神經網絡將再度與搜索算法組合，這一過程將不斷重復，創(chuàng)建出一個新的、更強大版本的AlphaGo Zero。在每次迭代中，系統(tǒng)的性能和自我對弈的質量均能夠有部分提高?！叭展耙蛔?，功不唐捐”，最終的神經網絡越來越精確，AlphaGo Zero也變得更強。

Alpha Zero與之前版本有如下不同：

AlphaGo Zero 只使用棋盤上的黑子和白子作為輸入，而之前版本AlphaGo的輸入均包含部分人工特征；
AlphaGo Zero使用一個神經網絡而不是之前的兩個。以前版本的 AlphaGo 使用一個“策略網絡”來選擇落子的位置，并使用另一個“價值網絡”來預測游戲的輸贏結果。而在AlphaGo Zero中下一步落子的位置和輸贏評估在同一個神經網絡中進行，從而使其可以更好地進行訓練和評估。
AlphaGo Zero 無需進行隨機推演（Rollout）——這是一種在其他圍棋程序中廣泛使用于勝負的快速隨機策略，從而通過比較確定每一手之后輸贏的概率選擇最佳落子位置，相反，它依賴于高質量的神經網絡來評估落子位置。

上述差異均有主于提高系統(tǒng)的性能和通用性，但使最關鍵的仍是算法上的改進，不僅使得AlphaGo Zero更加強大，在功耗上也更為高效。

100:0！Deepmind Nature論文揭示最強AlphaGo Zero，無需人類知識

AlphaGo不同版本所需的GPU/TPU資源，雷鋒網整理

技術細節(jié)

新方法使用了一個具有參數θ的深層神經網絡fθ。這個神經網絡將棋子的位置和歷史狀態(tài)s作為輸入，并輸出下一步落子位置的概率，用, (p, v) = fθ(s)表示。落子位置概率向量p代表每一步棋（包括不應手）的概率，數值v是一個標量估值，代表棋手下在當前位置s的獲勝概率。

AlphaGo Zero的神經網絡通過新的自我對弈數據進行訓練，在每個位置s，神經網絡fθ都會進行蒙特卡洛樹（MCTS）搜索，得出每一步落子的概率π。這一落子概率通常優(yōu)于原始的落子概率向量p，在自我博弈過程中，程序通過基于蒙特卡洛樹的策略來選擇下一步，并使用獲勝者z作為價值樣本，這一過程可被視為一個強有力的評估策略操作。在這一過程中，神經網絡參數不斷更新，落子概率和價值 (p,v)= fθ(s)也越來越接近改善后的搜索概率和自我對弈勝者 (π, z)，這些新的參數也會被用于下一次的自我對弈迭代以增強搜索的結果，下圖即為自我訓練的流程圖。

100:0！Deepmind Nature論文揭示最強AlphaGo Zero，無需人類知識

AlphaGo Zero 自我對弈訓練的流程示意圖

（完整論文可點此下載）

雖然這一技術還處于早期階段，但AlphaGo Zero的突破使得我們在未來面對人類面對的一些重大挑戰(zhàn)（如蛋白質折疊、減少能源消耗、尋找革命性的新材料等）充滿信心。眾所周知，深度學習需要大量的數據，而在很多情況下，獲得大量人類數據的成本過于高昂，甚至根本難以獲得。如果將該技術應用到其他問題上，將會有可能對我們的生活產生根本性的影響。

雷峰網原創(chuàng)文章，未經授權禁止轉載。詳情見轉載須知。

15人收藏

岑大師

發(fā)私信

當月熱門文章

100:0！Deepmind Nature論文揭示最強AlphaGo Zero，無需人類知識

摘要

全新強化學習算法：無需任何人類指導

技術細節(jié)

100:0！Deepmind Nature論文揭示最強AlphaGo Zero，無需人類知識