28天自制你的AlphaGo（四）：結(jié)合強(qiáng)化學(xué)習(xí)與深度學(xué)習(xí)的Policy Gradient（左右互搏自我進(jìn)化的基礎(chǔ)）

本文作者：彭博

2017-02-23 13:54

導(dǎo)語(yǔ)：強(qiáng)化學(xué)習(xí)在 AlphaGo 中究竟是怎么用的？

雷鋒網(wǎng)注：本文作者彭博，Blink·稟臨科技聯(lián)合創(chuàng)始人。文章由雷鋒網(wǎng)整理自作者知乎專欄，獲授權(quán)發(fā)布。

本篇提前回答一個(gè)大家經(jīng)常問(wèn)的問(wèn)題：強(qiáng)化學(xué)習(xí)在 AlphaGo 中究竟是怎么用的？比如說(shuō)，SL策略網(wǎng)絡(luò)，是怎么變成 RL 策略網(wǎng)絡(luò)的？

| Policy Gradient：簡(jiǎn)單而有效

很有意思的是，很少見(jiàn)到有人回答上述問(wèn)題（可能是因?yàn)?AlphaGo 論文在此寫(xiě)得很簡(jiǎn)略）。其實(shí)，這個(gè)問(wèn)題的答案特別簡(jiǎn)單：

如果我贏了棋，就說(shuō)明這次我選擇的策略是正確的。所以可以對(duì)于這次所經(jīng)歷的每一個(gè)局面，都加強(qiáng)選擇這局的走法的概率。
如果我輸了棋，就說(shuō)明這次我選擇的策略是錯(cuò)誤的。所以可以對(duì)于這次所經(jīng)歷的每一個(gè)局面，都減少選擇這局的走法的概率。

舉個(gè)例子，比如說(shuō)電腦左右互搏，黑棋開(kāi)局走星位，白棋回應(yīng)走小目，最后白棋輸了，那么黑棋就加強(qiáng)開(kāi)局走星位的概率（以及后續(xù)的每一步選擇這局的走法的概率），白棋就減少在黑棋開(kāi)局走星位的情況下走小目的概率（以及后續(xù)的每一步選擇這局的走法的概率）。

等一下，這里好像有問(wèn)題。這是不是太傻了？也許白棋并不是敗在開(kāi)局，而是敗在中盤(pán)的某一步？也許黑棋并不是真的這次走對(duì)了策略，而是白棋看漏了一步（而且白棋如果走對(duì)是可以贏的）？

以上說(shuō)的很正確。但是，反過(guò)來(lái)想，如果黑棋的走法可以讓白棋后面打勺的概率增加，那也不錯(cuò)啊。另一方面，如果白棋發(fā)現(xiàn)自己目前的策略容易進(jìn)入自己不容易掌握的局面，那么盡管確實(shí)可能有完美的招數(shù)隱藏在里面，那白棋也不妨一開(kāi)始就去避免這種局面吧。而且，勝和負(fù)的影響可以相互抵消，所以在經(jīng)過(guò)大量對(duì)局后，這個(gè)過(guò)程是比較穩(wěn)定的。比如說(shuō)如果某個(gè)開(kāi)局的后續(xù)勝率經(jīng)統(tǒng)計(jì)是50%，那它就不會(huì)被改變；但如果不是50%，這種改變就有一定道理。

這個(gè)過(guò)程，有點(diǎn)像人類棋手的“找到適合自己的棋風(fēng)”的過(guò)程。毫無(wú)疑問(wèn)，現(xiàn)在的 AlphaGo 已經(jīng)找到了十分適合自己的棋風(fēng)，它確實(shí)是會(huì)揚(yáng)長(zhǎng)避短的。

以上是最簡(jiǎn)單的 Policy Gradient 的例子，它的問(wèn)題是有可能陷入局部的最優(yōu)（對(duì)付自己有效，不代表對(duì)付其他人有效），因此 AlphaGo 論文中會(huì)建立一個(gè)對(duì)手池（包括整個(gè)進(jìn)化過(guò)程中形成的所有策略），保證新策略盡量對(duì)于不同對(duì)手都有效。在這個(gè)基礎(chǔ)上，可以做各種各樣的改進(jìn)，例如配合未來(lái)的價(jià)值網(wǎng)絡(luò)，更清楚地看到自己的敗著在哪里，而不是傻傻地把所有概率都同樣修改。

| Deepmind 的相關(guān)研究

其實(shí) Deepmind 自創(chuàng)始以來(lái)就在做類似的研究，在此簡(jiǎn)單說(shuō)說(shuō)。經(jīng)典的一系列論文是學(xué)會(huì)玩 Atari 游戲：

Playing Atari with Deep Reinforcement Learning

Human-level control through deep reinforcement learning

例如最經(jīng)典的 Pong：

28天自制你的AlphaGo（四）：結(jié)合強(qiáng)化學(xué)習(xí)與深度學(xué)習(xí)的Policy Gradient（左右互搏自我進(jìn)化的基礎(chǔ)）

這里也有一個(gè)策略網(wǎng)絡(luò)，它輸入的是目前的屏幕圖像（實(shí)際上要輸入幾幅圖像，或者前后兩幅圖像的差，用于判斷運(yùn)動(dòng)情況），輸出的是此時(shí)應(yīng)該往上移動(dòng)的概率。用這里所說(shuō)的訓(xùn)練方法就可以讓它無(wú)師自通，自己學(xué)會(huì)玩游戲，最終達(dá)到相當(dāng)高的水準(zhǔn)（可以想象，這個(gè)學(xué)習(xí)過(guò)程會(huì)比較慢）。

但是如果我們仔細(xì)想想，這個(gè)辦法恐怕很難自己學(xué)會(huì)玩好星際！一個(gè)重要原因是星際的決策中有太復(fù)雜的“層次結(jié)構(gòu)”。因此盡管 Deepmind 此前說(shuō)星際是下一個(gè)目標(biāo)，目前我們尚未看到 Deepmind 在這方面發(fā)表的進(jìn)展。如果真的成功實(shí)現(xiàn)，將是相當(dāng)大的成就。

最后，如果對(duì)于這方面感興趣，這是一篇很好的介紹：

Deep Reinforcement Learning: Pong from Pixels

相關(guān)閱讀：

28 天自制你的 AlphaGo（一）

28 天自制你的 AlphaGo（二）：訓(xùn)練策略網(wǎng)絡(luò)，真正與之對(duì)弈

28天自制你的AlphaGo（三）：對(duì)策略網(wǎng)絡(luò)的深入分析以及它的弱點(diǎn)所在

雷峰網(wǎng)版權(quán)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。