人機大戰(zhàn)第二場綜述：“自我強化”比2:0更值得注意

本文作者：溫曉樺

2016-03-10 19:22

導語：由于AlphaGo執(zhí)黑的先手權，我們也看到了它學習和創(chuàng)新能力的一面。

via medium

今日，圍棋“人機大戰(zhàn)”第二場于北京時間中午12點開戰(zhàn)。下午4點半，韓國棋手李世乭九段再次輸給 Google 的圍棋程序 AlphaGo。本輪對戰(zhàn)的結果雖然還是讓人震驚，但人們更多地也開始感嘆AlphaGo的優(yōu)異之處。

今日，AlphaGo的表現(xiàn)中，計算力的先決優(yōu)勢依然不變，同時，由于AlphaGo執(zhí)黑的先手權，我們也看到了它學習能力和創(chuàng)新能力的一面。

AlphaGo的“特異功能”：自我強化

在DeepMind，愛丁堡和Facebook，研究人員希望神經(jīng)網(wǎng)絡能像人類選手一樣，通過觀看棋盤學習圍棋。Facebook在最新的研究中表明，這種方法確實可行。結合深度學習與蒙特卡洛樹搜索方法，F(xiàn)acebook打敗了一些人類選手，雖然并非是Crazystone和其他頂尖選手。

但DeepMind走得更遠。在經(jīng)過3000萬步人類走法的訓練后，它的神經(jīng)網(wǎng)絡能以57%的準確度（此前記錄是44%）預測人類的下一步。然后Hassabis和團隊通過強化學習技術，讓這一神經(jīng)網(wǎng)絡與它自己的另一個稍有區(qū)別的版本對戰(zhàn)。兩者互搏中，系統(tǒng)會評估哪一步效果最好，即占領更多棋盤區(qū)域。最終，神經(jīng)網(wǎng)絡在判斷哪一步更好時會越來越優(yōu)秀。

DeepMind的研究者David Silver表示，“在與其它神經(jīng)網(wǎng)絡和它自己對戰(zhàn)數(shù)百萬局后，AlphaGo學會了自己發(fā)現(xiàn)新策略?！?/p>

正是這種方法，AlphaGo超越了其它圍棋AI系統(tǒng)，并讓戰(zhàn)勝人類選手成為可能。那么，在今天的表現(xiàn)中，AlphaGo如何體現(xiàn)出這樣的能力呢？

讓人意外的開局

今天的第二局中， AlphaGo執(zhí)黑先手，眾人也紛紛猜測：它會如何開局？會走公認有優(yōu)勢的中國流嗎？然而，兩手之后，AlphaGo沒有選擇中國流，而直接掛角。

人機大戰(zhàn)第二場綜述：“自我強化”比2:0更值得注意

隨后，按照這種定式，職業(yè)棋手通常會先在下邊完成拆邊的定型。不過，AlphaGo并沒有這么做，而是走出令人眼前一亮的走法：黑棋脫先，還原成中國流布局。

人機大戰(zhàn)第二場綜述：“自我強化”比2:0更值得注意

為何要脫先？為何要用這種方式完成中國流布局？在AlphaGo數(shù)據(jù)庫中，應該有更多的選擇來參考變化。而根據(jù)接下來十幾手毫不示弱的走法看，這手脫先也許代表著機器人對布局有了新的理解。

出其不意攻其不備

除了開局的策略展示出計算機圍棋的另類，AlphaGo在開局后的走子也時常走出出人意料的招數(shù)，形成一股“機器風”。

比如，下圖黑1的這一手，飄防的走法在過去的棋譜中較為罕見，但其妙處也給了人們新的啟發(fā)。這手最新的黑1余此前J16的一手遙相呼應，防守中做好進攻的勢來。李喆六段表示：“對于黑方這步棋，作為棋手，我的震撼比看到外星人還要大?！边@一手讓對手李世乭長考了一陣。

人機大戰(zhàn)第二場綜述：“自我強化”比2:0更值得注意

由于掌握先手，AlphaGo進取的一面也更清楚地展現(xiàn)了出來。比如，在左下方的局部爭奪上，擁有強大計算力的AlphaGo應戰(zhàn)積極，非常自信。

人機大戰(zhàn)第二場綜述：“自我強化”比2:0更值得注意

最優(yōu)化計算：無劫爭是必然還是偶然？

今天，許多人都提出了一個疑問：為何兩局結束后還沒有出現(xiàn)劫爭的情形？甚至推論AlphaGo不懂得打劫，且Google方面可以隱瞞。我們暫且不去猜測這種可能性，不妨看看它與AlphaGo走子毫不保留之間的聯(lián)系。

人機大戰(zhàn)第二場綜述：“自我強化”比2:0更值得注意

AlphaGo今天表現(xiàn)出一個特點是：毫不保留。如上圖黑2，又是一手把變化走干凈的棋，與職業(yè)選手喜歡有所保留的習慣不同。對此，小編有兩個想法：一是，正因為AlphaGo精密的計算力以及作為機器以最強點為首的原則，所以它才會每一步都走到盡，才會走出許多的“怪棋”。二是，也因為如此才導致局面缺乏劫材。

曹大元九段表示，極度復雜打劫的情況本身千年難遇，哪怕是人與人之間的對弈。

人機大戰(zhàn)第二場綜述：“自我強化”比2:0更值得注意

AlphaGo能給人類圍棋帶來啟發(fā)嗎？

經(jīng)此一弈，AlphaGo在許多地方走出特別的一手，給人類棋手帶來新的思考。某些也許是失誤（但究竟什么是失誤，誰知道呢），但某些地方，直播中的曹大元表示：不可思議，我要報警了！不過，這對職業(yè)棋手也有很大的啟發(fā)，可以進行深度研究。互聯(lián)網(wǎng)進化論提出者劉鋒則表示，通過這些跡象，也能幫助我們更好地研究AlphaGo。

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權禁止轉載。詳情見轉載須知。

1人收藏