DeepMind 推出 AlphaGo 圍棋教學(xué)工具，圍棋學(xué)習(xí)新紀(jì)元來(lái)啦？

本文作者：汪思穎

編輯：郭奕欣

2017-12-13 10:23

導(dǎo)語(yǔ)：柯潔第一時(shí)間表示——重新學(xué)圍棋

雷鋒網(wǎng) AI 科技評(píng)論消息，北京時(shí)間 12 月 11 日晚，DeepMind 在 twitter 上宣布推出圍棋教學(xué)工具 AlphaGo Teach。

DeepMind 推出 AlphaGo 圍棋教學(xué)工具，圍棋學(xué)習(xí)新紀(jì)元來(lái)啦？

上圖中，標(biāo)有白圈的黑子表示上一手，虛線圓圈表示 AlphaGo 下一步可能的走法，實(shí)線圓圈表示人類選手下一步可能的走法，圓圈中的數(shù)字表示 AlphaGo 評(píng)估的黑子勝率。

從官網(wǎng)上可以看到，該工具通過利用 231000 盤人類棋手對(duì)局、75 盤 AlphaGo 與人類棋手對(duì)局的數(shù)據(jù)，能對(duì)圍棋近代史上 6000 種比較常見的開局給出分析。通過這個(gè)工具，大家可以探索圍棋奧妙，比較 AlphaGo 的下棋路數(shù)與專業(yè)選手、業(yè)余選手的不同點(diǎn)，從中學(xué)習(xí)。

官網(wǎng)上對(duì)于工具的使用也有相關(guān)說明：

如何使用這一工具？

點(diǎn)擊棋盤上的彩色圓圈，或使用棋盤下方的導(dǎo)航工具，即可探索不同的開局變化，以及 AlphaGo 對(duì)于每一步棋的黑棋勝率預(yù)測(cè)。

圓圈中的數(shù)字代表了該步棋的黑棋勝率。當(dāng)輪到黑棋落子時(shí)，數(shù)值越接近 100 表示黑棋優(yōu)勢(shì)越大；當(dāng)輪到白棋落子時(shí)，數(shù)值越接近 0 表示白棋優(yōu)勢(shì)越大。50 則表示均勢(shì)。

了解 AlphaGo 的勝率預(yù)測(cè)

AlphaGo 的下法不一定總是具有最高的勝率，這是因?yàn)槊恳粋€(gè)下法的勝率都是得自于單獨(dú)的一個(gè) 1000 萬(wàn)次模擬的搜索。AlphaGo 的搜索有隨機(jī)性，因此 AlphaGo 在不同的搜索可能會(huì)選擇勝率接近的另一種下法。

除了官網(wǎng)上的簡(jiǎn)單介紹，作為 DeepMind 圍棋大使、AlphaGo 的「教練」，樊麾也在其個(gè)人微博上宣布「AlphaGo 教學(xué)工具終于上線?！?/p>

DeepMind 推出 AlphaGo 圍棋教學(xué)工具，圍棋學(xué)習(xí)新紀(jì)元來(lái)啦？

他表示，

教學(xué)工具共有兩萬(wàn)多個(gè)變化，三十七萬(wàn)多步棋組成，通過 AlphaGo 的視角，分析并建議圍棋開局的諸多下法。同時(shí)每步棋 AlphaGo 都會(huì)給出自己的勝率分析，希望 AlphaGo 對(duì)圍棋的獨(dú)特理解可以給我們一些啟發(fā)。
本教學(xué)工具使用的版本是 AlphaGo Master。具體信息可以在主頁(yè)上看到，工具設(shè)有包括中文簡(jiǎn)體在內(nèi)的多個(gè)語(yǔ)言。

同時(shí)，樊麾也從 AlphaGo 的教學(xué)中舉了幾個(gè)有意思的例子，并進(jìn)行了幽默地解說?！赶逻叺膸讉€(gè)圖是我從萬(wàn)千變化圖中發(fā)現(xiàn)比較有沖擊力的幾個(gè)，類似的變化圖有很多很多，大家可以自己找找?！?/p>

DeepMind 推出 AlphaGo 圍棋教學(xué)工具，圍棋學(xué)習(xí)新紀(jì)元來(lái)啦？

原來(lái)二路虎不見得好！

DeepMind 推出 AlphaGo 圍棋教學(xué)工具，圍棋學(xué)習(xí)新紀(jì)元來(lái)啦？

對(duì)付迷你中國(guó)流的新辦法！

DeepMind 推出 AlphaGo 圍棋教學(xué)工具，圍棋學(xué)習(xí)新紀(jì)元來(lái)啦？

小林流也不是只有大飛掛！

DeepMind 推出 AlphaGo 圍棋教學(xué)工具，圍棋學(xué)習(xí)新紀(jì)元來(lái)啦？

原來(lái)這里還可以飛！

DeepMind 推出 AlphaGo 圍棋教學(xué)工具，圍棋學(xué)習(xí)新紀(jì)元來(lái)啦？

妖刀定式！

而在看到樊麾老師的微博之后，大家也開始了各色各樣的調(diào)侃。

@ 樓天，「有 21 天從入門到精通系列課程嗎？」
@ 我就是那一片浮云，「完了，十段棋手猛烈增加。」
@ 自動(dòng)高速公路，「做成 app 就可以成為圍棋比賽作弊器了。」
@ 于縛風(fēng)，「圍棋輔導(dǎo)班的老師沒法講課了?！梗▏謇蠋煴硎究迺炘趲?/p>

看完了大家的調(diào)侃，來(lái)看看專業(yè)棋手們?cè)趺凑f。

世界圍棋冠軍、職業(yè)九段棋手常昊表示，教學(xué)工具不一定是標(biāo)準(zhǔn)答案，更多的是給予了我們無(wú)限的思考空間。

首屆百靈愛透杯世界圍棋公開賽冠軍周睿羊說到，「定式什么的還是不要隨便學(xué)了，看到工具一些高級(jí)下法之后，感覺到又可以起飛了?！?/p>

第 3 屆鉆石杯龍星戰(zhàn)冠軍，圍棋國(guó)手李喆也對(duì)這一教學(xué)工具發(fā)表中肯評(píng)價(jià)：很多人會(huì)擔(dān)心今后布局的標(biāo)準(zhǔn)化，其實(shí)不必?fù)?dān)心。教學(xué)工具并不是告訴大家「只能這么下」，而是告訴大家「有些下法不太好」以及「可以這么下」。有些圖中沒有的下法只是因?yàn)槟M的隨機(jī)性而未被收錄，它們之中包含很多高勝率的選點(diǎn)，仍可以大膽嘗試。

此外，今年五月份被 AlphaGo Master 打敗的柯潔第一時(shí)間轉(zhuǎn)發(fā)微博表示「重新學(xué)圍棋。」（還用了一個(gè)賤賤的 doge 表情）

DeepMind 推出 AlphaGo 圍棋教學(xué)工具，圍棋學(xué)習(xí)新紀(jì)元來(lái)啦？

而這個(gè)工具到底好不好用，大家可以去自行體驗(yàn)。

官網(wǎng)英文地址如下：https://alphagoteach.deepmind.com/

中文地址如下：https://alphagoteach.deepmind.com/zh-hans

附 David Silver 介紹 AlphaGo Master 的研發(fā)關(guān)鍵：

AlphaGo Master 為何如此厲害呢？

我們讓 AlphaGo 跟自己對(duì)弈。這是基于強(qiáng)化學(xué)習(xí)的，我們已經(jīng)不再拿人類的棋局給它學(xué)習(xí)了。AlphaGo 自己訓(xùn)練自己，自己從自己身上學(xué)習(xí)。通過強(qiáng)化學(xué)習(xí)的形式，它學(xué)到如何提高。

在棋局的每一回合，AlphaGo 運(yùn)行火力全開（full power）的搜索以生成對(duì)落子的建議，即計(jì)劃。當(dāng)它選擇這一步落子、實(shí)施、并到一個(gè)新回合時(shí)，會(huì)再一次運(yùn)行搜索，仍然是基于策略網(wǎng)絡(luò)和價(jià)值網(wǎng)絡(luò)、火力全開的搜索，來(lái)生成下一步落子的計(jì)劃，如此循環(huán)，直到一局棋結(jié)束。它會(huì)無(wú)數(shù)次重復(fù)這一過程，來(lái)產(chǎn)生海量訓(xùn)練數(shù)據(jù)。隨后，我們用這些數(shù)據(jù)來(lái)訓(xùn)練新的神經(jīng)網(wǎng)絡(luò)。

首先，當(dāng) AlphaGo 和它自己下棋時(shí)，用這些訓(xùn)練數(shù)據(jù)來(lái)訓(xùn)練一個(gè)新策略網(wǎng)絡(luò)。事實(shí)上，在 AlphaGo 運(yùn)行搜索、選擇一個(gè)落子的方案之前，這些是我們能獲取的最高質(zhì)量的數(shù)據(jù)。
下一步，讓策略網(wǎng)絡(luò)只用它自己、不用任何搜索，來(lái)看它是否能產(chǎn)生同樣的落子的方案。這里的思路是：讓策略網(wǎng)絡(luò)只靠它自己，試圖計(jì)算出和整個(gè) AlphaGo 的火力全開搜索結(jié)果一樣的落子方案。這樣一來(lái)，這樣的策略網(wǎng)絡(luò)就比之前版本的 AlphaGo 要厲害得多。
我們還用類似的方式訓(xùn)練價(jià)值網(wǎng)絡(luò)。它用最好的策略數(shù)據(jù)來(lái)訓(xùn)練，而這些數(shù)據(jù)，是出于完全版本的 AlphaGo 自己和自己下棋時(shí)的贏家數(shù)據(jù)。你可以想象，AlphaGo 自己和自己下了非常多盤棋。其中最有代表性的棋局被選取出來(lái)提取贏家數(shù)據(jù)。因此，這些贏家數(shù)據(jù)是棋局早期回合步法的非常高質(zhì)量的評(píng)估。
最后，我們重復(fù)這一過程許多遍，最終得到全新的策略和價(jià)值網(wǎng)絡(luò)。比起舊版本，它們要強(qiáng)大得多。然后再把新版本的策略、價(jià)值網(wǎng)絡(luò)整合到 AlphaGo 里面，得到新版本的、比之前更強(qiáng)大的 AlphaGo。這導(dǎo)致樹搜索中更好的決策、更高質(zhì)量的結(jié)果和數(shù)據(jù)，再循環(huán)得到新的、更強(qiáng)大的策略、價(jià)值網(wǎng)絡(luò)，再次導(dǎo)致更強(qiáng)大的 AlphaGo，如此不斷提升。

更多詳細(xì)信息，可以參見雷鋒網(wǎng) AI科技評(píng)論此前發(fā)文：現(xiàn)場(chǎng)｜David Silver原文演講：揭秘新版AlphaGo算法和訓(xùn)練細(xì)節(jié)

雷鋒網(wǎng) AI科技評(píng)論后續(xù)也會(huì)帶來(lái)持續(xù)報(bào)導(dǎo)。

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

1人收藏

相關(guān)文章

汪思穎

編輯

關(guān)注AI學(xué)術(shù)，例如論文

發(fā)私信

當(dāng)月熱門文章

DeepMind 推出 AlphaGo 圍棋教學(xué)工具，圍棋學(xué)習(xí)新紀(jì)元來(lái)啦？

DeepMind 推出 AlphaGo 圍棋教學(xué)工具，圍棋學(xué)習(xí)新紀(jì)元來(lái)啦？