丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能 正文
發(fā)私信給彭博
發(fā)送

0

28天自制你的AlphaGo(三):對(duì)策略網(wǎng)絡(luò)的深入分析以及它的弱點(diǎn)所在

本文作者: 彭博 2017-02-21 11:58
導(dǎo)語(yǔ):圍棋中的人機(jī)對(duì)抗遠(yuǎn)沒(méi)有結(jié)束。

雷鋒網(wǎng)注:本文作者彭博,Blink·稟臨科技聯(lián)合創(chuàng)始人。文章由雷鋒網(wǎng)整理自作者知乎專(zhuān)欄,獲授權(quán)發(fā)布,未經(jīng)允許禁止轉(zhuǎn)載。

一、神經(jīng)網(wǎng)絡(luò)在圍棋中的歷史

再次回顧 AlphaGo v13 的三大組件:

MCTS(蒙特卡洛樹(shù)搜索)

CNN (卷積神經(jīng)網(wǎng)絡(luò),包括:策略網(wǎng)絡(luò) policy network、快速走子網(wǎng)絡(luò) playout network、價(jià)值網(wǎng)絡(luò) value network)

RL (強(qiáng)化學(xué)習(xí))

在上世紀(jì)90年代初期,大家就已經(jīng)開(kāi)始實(shí)驗(yàn)將神經(jīng)網(wǎng)絡(luò)(當(dāng)時(shí)是淺層的)與強(qiáng)化學(xué)習(xí)應(yīng)用于棋類(lèi)游戲。最著名的例子是西洋雙陸棋 Backgammon 的 TD-Gammon,它在自我對(duì)弈了150萬(wàn)局后,就達(dá)到了相當(dāng)強(qiáng)的棋力,摘選 Wikipedia 中的一段:

Backgammon expert Kit Woolsey found that TD-Gammon's positional judgement, especially its weighing of risk against safety, was superior to his own or any human's.


TD-Gammon's excellent positional play was undercut by occasional poor endgame play. The endgame requires a more analytic approach, sometimes with extensive lookahead. TD-Gammon's limitation to two-ply lookahead put a ceiling on what it could achieve in this part of the game. TD-Gammon's strengths and weaknesses were the opposite of symbolic artificial intelligence programs and most computer software in general: it was good at matters that require an intuitive "feel", but bad at systematic analysis.

28天自制你的AlphaGo(三):對(duì)策略網(wǎng)絡(luò)的深入分析以及它的弱點(diǎn)所在

簡(jiǎn)單地說(shuō),就是"大局觀"特別強(qiáng)(比當(dāng)時(shí)所有人類(lèi)都強(qiáng),不過(guò),后來(lái)人也學(xué)習(xí)它的招法,人也進(jìn)步了!),但是"官子弱"。這恰好和許多圍棋 AI 給人的感覺(jué)完全一致。

然而神經(jīng)網(wǎng)絡(luò)(淺層的)在圍棋中的應(yīng)用卻遇到很大的困難。例如90年代就有一個(gè)神經(jīng)網(wǎng)絡(luò)圍棋叫 NeuroGo:The Integration of A Priori Knowledge into a Go Playing Neural Network 它的架構(gòu)(如下圖)也經(jīng)過(guò)不少考慮,但棋力很低,10K的水平:

28天自制你的AlphaGo(三):對(duì)策略網(wǎng)絡(luò)的深入分析以及它的弱點(diǎn)所在

二、策略網(wǎng)絡(luò)的工作原理

究其原因,我們看策略網(wǎng)絡(luò)的輸入(很多年來(lái)大家使用的輸入都大同小異,最重要的是把棋子按氣的口數(shù)分類(lèi),如1口氣的,2口氣的,3口氣的,4口和更多氣的):

28天自制你的AlphaGo(三):對(duì)策略網(wǎng)絡(luò)的深入分析以及它的弱點(diǎn)所在

策略網(wǎng)絡(luò)的目的,簡(jiǎn)單說(shuō)是快速預(yù)測(cè)雙方的下一手的位置,類(lèi)似于棋手的第一感。實(shí)際上,策略網(wǎng)絡(luò)的第一層是類(lèi)似于這樣的規(guī)則的集合(為方便非程序員理解,這里舉一個(gè)特別的例子):

"如果這個(gè)位置的上面有一個(gè)1口氣的對(duì)方棋子,左下區(qū)域的2口氣以上的本方棋子密度為某某某,右邊某某區(qū)域本方的棋子密度按氣加權(quán)為某某某,......,那么將以上事實(shí)加權(quán)算出有xx%的幾率在這里落子"

看上去,這種規(guī)則更像是能預(yù)測(cè)某些局部的棋形情況,不像能準(zhǔn)確地預(yù)測(cè)下一手。現(xiàn)代的圍棋策略網(wǎng)絡(luò)為何取得大的進(jìn)展,是因?yàn)槭褂昧?卷積神經(jīng)網(wǎng)絡(luò) + 深度神經(jīng)網(wǎng)絡(luò) 的思想。

如果我們只看 AlphaGo v13 的第一層和最后一層神經(jīng)網(wǎng)絡(luò),那么它的運(yùn)作是:

1. 使用了 192 條類(lèi)似的規(guī)則(由棋譜自動(dòng)訓(xùn)練出來(lái))(規(guī)則的數(shù)量太少固然不行,太多也會(huì)慢同時(shí)容易走入誤區(qū)),然后在全棋盤(pán)掃描每個(gè)點(diǎn)(這就是卷積神經(jīng)網(wǎng)絡(luò)的思想),計(jì)算由所有規(guī)則綜合得到的權(quán)值。

2. 再輸入“1x1卷積核”網(wǎng)絡(luò)(通俗地說(shuō),就是將每個(gè)點(diǎn)的上面算出的 192 種模式權(quán)值綜合考慮,得出最終的落子幾率),算出棋盤(pán)每個(gè)點(diǎn)作為走子的幾率。如果也舉個(gè)特別的例子,這類(lèi)似于:

"如果要判斷是否在這里走一個(gè)子,就會(huì)將【這里符合 A模式的程度】*0.8,【這里符合 B模式的程度】*0.4,【這里符合 C模式的程度】*(-0.2),等等等等,綜合考慮,得出一個(gè)落子機(jī)率。"

3. 上述具體的訓(xùn)練過(guò)程,就是每見(jiàn)到一個(gè)情況就加強(qiáng)這個(gè)情況的權(quán)值。因此越經(jīng)常出現(xiàn)的情況就會(huì)越被加強(qiáng)。

三、深度神經(jīng)網(wǎng)絡(luò)為何有效

如果只有兩層網(wǎng)絡(luò),在看棋譜時(shí),對(duì)于對(duì)弈者的下一手的位置,只能達(dá)到 35% 左右的正確率:cs.utoronto.ca/

但是,通過(guò)使用深度神經(jīng)網(wǎng)絡(luò),也就是多層的網(wǎng)絡(luò),AlphaGo v13 可以達(dá)到 55% 左右的預(yù)測(cè)正確率。這有兩個(gè)原因:

一,是概念層面的。舉例,人在選點(diǎn)時(shí),會(huì)考慮附近的雙方棋子的"厚薄",但"厚薄"是個(gè)高級(jí)概念,大致可以認(rèn)為是棋塊的"安定性"與"棋形"的結(jié)合。那么我們可以想象,如果第一層的規(guī)則,包括一部分專(zhuān)門(mén)負(fù)責(zé)"安定性"的規(guī)則,和一部分專(zhuān)門(mén)負(fù)責(zé)"棋形"的規(guī)則,再往上一層就可以通過(guò)加權(quán)考慮這兩種規(guī)則的結(jié)果,得出類(lèi)似"厚薄"的概念。然后再往上一層,就可以再運(yùn)用之前得出的棋盤(pán)每個(gè)位置的"厚薄"情況,進(jìn)行進(jìn)一步的決策。

深度神經(jīng)網(wǎng)絡(luò)的最有趣之處在于,并不需要特別告訴它存在這樣的概念的層次,它會(huì)自動(dòng)從數(shù)據(jù)中形成這樣的層次。

二,與棋盤(pán)和卷積神經(jīng)網(wǎng)絡(luò)的性質(zhì)有關(guān)。第一層的規(guī)則,最好是局部的規(guī)則,因?yàn)檫@樣的規(guī)則的泛化能力較高。譬如 AlphaGo v13 第一層使用的是 5x5 的局部,然后在第二層中再考慮 3x3 個(gè) 5x5 的局部,由于這些 5x5 的局部之間有重疊部分,就會(huì)形成一個(gè) 7x7 的局部。通過(guò)一層層往上加,最終可覆蓋整個(gè) 19x19 的棋盤(pán)(如果你喜歡,可以繼續(xù)往上加)。這符合我們的一種直覺(jué):棋形會(huì)從里向外輻射一層層的影響,先看 5x5 ,然后看看周邊的棋子就是 7x7 的情況,然后繼續(xù)看下去。

四、新發(fā)展:殘差網(wǎng)絡(luò)

自然的問(wèn)題是,如果這么說(shuō),是不是層越多就越好?

從前大家認(rèn)為不是,因?yàn)樘鄬雍蠛茈y訓(xùn)練,有時(shí)在訓(xùn)練集上的準(zhǔn)確度已經(jīng)會(huì)變差。

但是,如果仔細(xì)想想,這有點(diǎn)問(wèn)題。我們不妨假設(shè)新加的一層就是一個(gè)不變變換,就是什么都不改變,就把上一層的輸入做為輸出。那么,此時(shí)的模型不會(huì)變好也不會(huì)變差。換而言之,增加層數(shù),是永遠(yuǎn)不應(yīng)該變差的!(這里的意思是,在訓(xùn)練集上的準(zhǔn)確度不應(yīng)該下降。在測(cè)試集上的準(zhǔn)確度可能會(huì)由于過(guò)擬合而下降)

這就是 ResNet 殘差網(wǎng)絡(luò)的思想: 通過(guò)使用它,網(wǎng)絡(luò)可以加到上千層也沒(méi)有問(wèn)題,幾乎是一個(gè)免費(fèi)的午餐:

28天自制你的AlphaGo(三):對(duì)策略網(wǎng)絡(luò)的深入分析以及它的弱點(diǎn)所在

通過(guò)運(yùn)用殘差網(wǎng)絡(luò)和少量 MCTS 模擬,策略網(wǎng)絡(luò)的準(zhǔn)確度可達(dá) 58% 以上:https://openreview.net/pdf?id=Bk67W4Yxl 。這近乎于理論最高值了,因?yàn)槿说淖咂宀煌昝?,同樣的局面可以有不同的走法?/p>

五、策略網(wǎng)絡(luò)的弱點(diǎn)

然而策略網(wǎng)絡(luò)是有弱點(diǎn)的。我在此更具體地說(shuō)明幾種情況。

第一,學(xué)習(xí)的棋譜數(shù)量有限,因此會(huì)有未見(jiàn)過(guò)的局面;同時(shí),有時(shí)會(huì)知其然而不知其所以然,只學(xué)到了表面。這個(gè)問(wèn)題很有趣,譬如,很多人發(fā)現(xiàn) Zen6 (包括 DeepZenGo)有時(shí)會(huì)在征子上短路。下圖是 2016/11/27 07:43 日 EWZGDXFEZ 與 Zen19L 在 KGS 的對(duì)局,黑棋是 Zen19L,走出了驚世駭俗的一步 M4,并認(rèn)為自己的勝率高達(dá) 70% 以上:

28天自制你的AlphaGo(三):對(duì)策略網(wǎng)絡(luò)的深入分析以及它的弱點(diǎn)所在

結(jié)果被白棋直接在 N4 征死(同時(shí)勝率立刻掉到17%...)。這到底是為什么?我們可以打開(kāi) Zen6 的策略網(wǎng)絡(luò)顯示(Hotspots 菜單):

28天自制你的AlphaGo(三):對(duì)策略網(wǎng)絡(luò)的深入分析以及它的弱點(diǎn)所在

非常有趣。Zen6 認(rèn)為白棋最可能的下一步是在 G2(概率大小是按紅橙黃綠藍(lán)紫排列,最不可能的是無(wú)色),而 N4 是它眼中白棋最不可能下的棋。它根本想不到白棋會(huì)走 N4。這個(gè)問(wèn)題的成因是明顯的:

在人類(lèi)高手的對(duì)弈中,很少出現(xiàn)一方對(duì)另一方進(jìn)行征子,因?yàn)榱硪环綍?huì)預(yù)先避免對(duì)方征子成功。而策略網(wǎng)絡(luò)在學(xué)習(xí)中,卻不可能看到如此高的概念,它只能看到,如果有一方走出看似可以被征的棋形,另一方不會(huì)去征,于是,它所學(xué)到的,就是大家都不會(huì)去征對(duì)方的子。

著名的第 78 手與此也有類(lèi)似的原因(區(qū)別是隱蔽得多)。同樣,機(jī)器很難理解人為什么會(huì)"保留",因?yàn)槿?quot;保留"的原因是另一個(gè)層次的(例如作為劫材)。當(dāng)然,人的"保留"也不見(jiàn)得都對(duì)。

解決這個(gè)現(xiàn)象,初級(jí)的辦法是加入手動(dòng)的處理,更好的辦法是通過(guò)自我對(duì)弈學(xué)習(xí)更多的局面。AlphaGo 比其它各路狗強(qiáng)大的重要原因,在于經(jīng)過(guò)了上億盤(pán)的左右互搏學(xué)習(xí),見(jiàn)過(guò)的局面太多了。

第二,由于輸入中缺乏對(duì)于多口氣的精確區(qū)分(請(qǐng)思考為什么沒(méi)有精確區(qū)分),可以說(shuō)它不會(huì)精確數(shù)氣,對(duì)于對(duì)殺和死活容易犯暈。這一般可以被蒙特卡洛樹(shù)搜索糾正,但總會(huì)有糾正不了的情況。不過(guò),雖然其它各路狗在此都經(jīng)常會(huì)犯錯(cuò),但 Master 卻還沒(méi)有被人抓到,有可能在于它已經(jīng)學(xué)會(huì)有意避免這種局面,就像傳說(shuō)它會(huì)有意避免某些大型變化。

第三,靠感覺(jué)是不會(huì)精確收官和打劫,因此許多狗的官子和打劫有缺陷(換而言之,人可以靠官子和打劫逆轉(zhuǎn))。不過(guò)目前看來(lái) AlphaGo 的新版已經(jīng)專(zhuān)門(mén)為此做過(guò)額外處理,不會(huì)讓人抓到這么明顯的漏洞。我的一個(gè)猜測(cè)是,新版 AlphaGo 可能也建立了一個(gè)以"贏的子數(shù)"作為目標(biāo)的價(jià)值網(wǎng)絡(luò),并且在適當(dāng)?shù)臅r(shí)候會(huì)參考它的結(jié)果。

許多人可能會(huì)很好奇,為什么各路狗都是用"勝率"而不是"贏的子數(shù)"作為目標(biāo)。這是因?yàn)榇蠹野l(fā)現(xiàn)以"勝率"為標(biāo)準(zhǔn),得到的勝率更高(這看似是廢話,其實(shí)不是廢話)。說(shuō)到這個(gè),我見(jiàn)過(guò)網(wǎng)上有人提為什么不在穩(wěn)贏的時(shí)候改變貼目,盡量贏得更多一些,棋走得更好看;這個(gè)想法其實(shí)大家早就試過(guò)了,叫 Dynamic Komi 動(dòng)態(tài)貼目,后果也是會(huì)稍微降低勝率。

不過(guò),電腦的保守,有時(shí)候可以被人類(lèi)利用。譬如,在電腦的棋有潛在缺陷的時(shí)候,可以先故意不走,等到收官階段,電腦認(rèn)為必勝(并且退讓了很多)的時(shí)候再走,讓電腦措手不及。最近陳耀燁就通過(guò)類(lèi)似的辦法連贏了國(guó)產(chǎn)狗好幾盤(pán),而 DeepZenGo 也被某位棋手抓到了一個(gè)漏洞連贏了好幾盤(pán)(而這兩位狗對(duì)付其它職業(yè)棋手的勝率已經(jīng)相當(dāng)高了)。圍棋確實(shí)很有趣。我相信人機(jī)對(duì)抗并沒(méi)有結(jié)束,還會(huì)繼續(xù)下去,因?yàn)殡p方都會(huì)不斷進(jìn)步。

相關(guān)閱讀:

28 天自制你的 AlphaGo(一):圍棋AI基礎(chǔ)及版本安裝

28 天自制你的 AlphaGo(二):訓(xùn)練策略網(wǎng)絡(luò),真正與之對(duì)弈

雷峰網(wǎng)特約稿件,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。

28天自制你的AlphaGo(三):對(duì)策略網(wǎng)絡(luò)的深入分析以及它的弱點(diǎn)所在

分享:
相關(guān)文章

專(zhuān)欄作者

Blink·稟臨科技 聯(lián)合創(chuàng)始人
當(dāng)月熱門(mén)文章
最新文章
請(qǐng)?zhí)顚?xiě)申請(qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說(shuō)