棋手眼中，AlphaGo對抗李世石用了哪些奇招 | 雷鋒網(wǎng)公開課

本文作者：吳德新

2016-03-11 20:45

專題：雷峰網(wǎng)公開課

導(dǎo)語：雷鋒網(wǎng)按：本文來自硬創(chuàng)公開課 | AlphaGo專場的分享。分享嘉賓：業(yè)余圍棋5段，高飛龍。

雷鋒網(wǎng)按：本文來自硬創(chuàng)公開課 | AlphaGo專場的分享。

分享嘉賓：業(yè)余圍棋5段，高飛龍。一并感謝業(yè)余圍棋6段，鮑云對本次分享的友情支持。

棋手眼中，AlphaGo對抗李世石用了哪些奇招 | 雷鋒網(wǎng)公開課

一、圍棋圈內(nèi)怎么看待前兩場的勝負(fù)

第一局比賽，過程中大部分棋手很可能出現(xiàn)了相當(dāng)程度的誤判，認(rèn)為李世石一度占優(yōu)，而第二局比賽后，職業(yè)高手們對AI的決策原理了解的越來越多，判斷也不斷地在改變。

第一局輸?shù)艉螅蠹业那榫w都很低落，雖然知道這一天早晚會來，但事前都認(rèn)為沒這么快，人類應(yīng)該還能抵抗一段時間，但第二局結(jié)束后，大家對AI的實力判斷普遍調(diào)高，很多人甚至認(rèn)為柯潔現(xiàn)在上了也未必能贏。當(dāng)晚，大量的職業(yè)高手就進(jìn)行了深度的反思和討論，尤其是李喆六段。

（根據(jù)我得到的信息）AlphaGo在第一局中，對自身獲勝概率的判斷應(yīng)該始終高于半數(shù)，也就是我們說的始終優(yōu)勢，而第二局中，它反而在中盤有一段時間認(rèn)為獲勝概率為半數(shù)，也就是預(yù)測和棋，這和大部分人類高手在解說時的判斷完全不同，是一個非常有趣的現(xiàn)象。

但賽后經(jīng)過深入的分析，我聽到的聲音越來越傾向于支持電腦的判斷，也就是說，第一局棋，李世石的確沒有優(yōu)勢過，而我們要重新審視電腦下出的那些“緩手”和“錯著”。

二、如何評價此前大家認(rèn)為兩局中人和機(jī)器雙方的“失誤”？

首先，正如我前面所說，我個人認(rèn)同第一局中，李世石始終沒有占據(jù)優(yōu)勢，所以，也就沒有所謂轉(zhuǎn)折點的說法。

電腦的確下出了一些從普通棋理來看有問題的下法，并且取得了勝利，但這不一定說明棋理完全是錯的。

我想重復(fù)一下很多人都已經(jīng)提過的一點，這也是我們審視棋局非常重要的信息：電腦行棋的決策，是依據(jù)對落點后續(xù)變化的獲勝概率來判斷的。

這里我想引用一下李喆六段在第一天晚上復(fù)盤的講解：

棋手眼中，AlphaGo對抗李世石用了哪些奇招 | 雷鋒網(wǎng)公開課

電腦的這一步長，當(dāng)場被所有人視為緩手。但是復(fù)盤時李喆認(rèn)為，這一手棋不一定不好，甚至在電腦的決策中，這已經(jīng)是最好的一手（其實這是肯定的，因為電腦就是這樣選擇的）。

棋手眼中，AlphaGo對抗李世石用了哪些奇招 | 雷鋒網(wǎng)公開課

如果電腦不補(bǔ)棋，黑棋在左上的出動可能極為嚴(yán)厲，當(dāng)然這不是說白棋就一定不能這么下，只是這后面的變化相當(dāng)復(fù)雜，電腦應(yīng)該判斷這樣的獲勝概率不如實戰(zhàn)的下法，所以選擇了實戰(zhàn)的“緩手”補(bǔ)棋。

緊接著，還有一個關(guān)鍵處，當(dāng)時所有人都認(rèn)為電腦的下法簡直不可理喻，但我們還是順著電腦的邏輯來復(fù)盤，就有辦法理解：

棋手眼中，AlphaGo對抗李世石用了哪些奇招 | 雷鋒網(wǎng)公開課

這步斷，直接將大空送給黑棋，局部來說，是嚴(yán)重虧損的下法，但電腦選擇了這個下法，然后所有人都認(rèn)為黑棋已經(jīng)明顯優(yōu)勢，可局后AG團(tuán)隊卻說AG始終判斷自己優(yōu)勢，為什么？

棋手眼中，AlphaGo對抗李世石用了哪些奇招 | 雷鋒網(wǎng)公開課

左下白棋損了一大把，然后做了幾個簡單的準(zhǔn)備性交換之后，下出了右邊的點，這步點被所有人認(rèn)為是精彩的“勝負(fù)手”，局后也認(rèn)為是妙手，但我們可能忽略了一個可能：電腦早就將這步棋和其導(dǎo)致的后續(xù)變化算在了形勢判斷中。

也就是說，電腦知道這以后它將在右邊一代走成后續(xù)的變化，這是它的“權(quán)利”，所以即使左下角白棋嚴(yán)重虧損，但搶到先手之后將右邊的“權(quán)利”兌現(xiàn)，白棋仍然是優(yōu)勢。

而左下局部虧損的下法，可能讓它贏的更少，但卻縮小了棋盤，令盤上剩余的空間和變化都大大減少了，用人類的說法，就是縮小了棋盤并接近終點，這和AG的邏輯是一樣的，只不過AG可以通過獲勝概率來更精準(zhǔn)的判斷這一點。

所以AG在選擇左上的緩手補(bǔ)棋，選擇左下的虧損變化搶先手的時候，已經(jīng)考慮了這所有的變化并將后續(xù)在右邊點入占到的便宜計入形勢判斷，所有這些走完之后，棋盤大幅度減小并且白棋局面領(lǐng)先，從電腦的角度來看，自己的獲勝概率一直在提高。

（當(dāng)然，這里包含了一些我從他人處看來的觀點，還包含了我個人的一些猜想式的判斷，可能會過于高估電腦，但我認(rèn)為我們應(yīng)該高估而不應(yīng)該低估，更何況從結(jié)果來看，這種猜想很可能是對的，AG就是看了這么遠(yuǎn)）

二、如何看待外界評價對弈中沒有“打劫”的問題？

打劫包含很多轉(zhuǎn)換的可能，對電腦來說可能會降低獲勝概率，哪怕只是從90%降低到80%，所以它不選擇打劫。即使對人來說也是這樣，在贏棋的局面下，講究簡化局面減少變化，盡量不選擇復(fù)雜的打劫，增加獲勝的可能。

沒打劫的棋也多了，沒什么特別離奇的，打了也輸，就是李沒拼顯得有點沒骨氣，很多人覺得他沒有表現(xiàn)出人類的風(fēng)采。（鮑云觀點）

三、AlphaGo與人類走子的差異

很多人說AG和人類棋手下的不是一種圍棋，它是以獲勝概率為指向，而人是以局部賺幾目虧幾目來判斷，其實不是這么簡單。這種說法其實對人類圍棋的高水平段不太了解。

正如我回答前一個問題所說，人類也會在逼近終局的時候，選擇虧損但是縮小棋盤減少變化的方式，來逼近終點。這就是典型的以減少獲勝目數(shù)來提高獲勝概率的決策。只不過人類對概率的判斷基于經(jīng)驗和直覺，應(yīng)該比不上成熟之后的電腦的判斷準(zhǔn)確度。

但如果是最優(yōu)解，也就是我們說的“圍棋上帝”，很可能于此不同。我們現(xiàn)在的對局，是單一的全局獲勝就全部獲勝，輸贏的目數(shù)多少其實沒有意義。而人會失誤，所以出現(xiàn)了我前述所言的目數(shù)換概率的決策方式。但如果現(xiàn)在有一個“神”，它窮盡了圍棋所有的變化，根本不會失誤，那當(dāng)他跟李世石下的時候，會這樣嗎？

當(dāng)然，無論如何他都能贏，那么從追求圍棋最優(yōu)解的角度來說，他就可能不使用目數(shù)換概率的決策，因為他獲勝的概率一定是百分之百，那么對他來說，最優(yōu)解就應(yīng)該是盡量提高獲勝目數(shù)。

這里我想舉兩個例子。

棋手眼中，AlphaGo對抗李世石用了哪些奇招 | 雷鋒網(wǎng)公開課

白棋136，按照最優(yōu)解應(yīng)該下在A位，在這樣的相對封閉空間里，電腦應(yīng)該不會在手段和目數(shù)的計算上出現(xiàn)失誤。

但它這樣決策，就說明它認(rèn)為，雖然虧了一目，但這樣的下法后續(xù)更不容易出現(xiàn)失誤（或者類似），所以獲勝概率提高了。還有一個讓所有人頭疼的例子：

棋手眼中，AlphaGo對抗李世石用了哪些奇招 | 雷鋒網(wǎng)公開課

如果說電腦前半盤的“緩手”當(dāng)天還可以很快解釋，那么右下角的這個“失誤”就讓很多人難以理解，只能認(rèn)為電腦確實算錯了，或者判斷錯了~由此認(rèn)為電腦不是無懈可擊。

這步棋按照人的思路，只需要跳在一四，黑棋將輸?shù)母臁?/span>

棋手眼中，AlphaGo對抗李世石用了哪些奇招 | 雷鋒網(wǎng)公開課

黑2是我隨便擺的，意思是脫先。白1跳在這里，黑棋如果脫先，則白棋保留這樣救出上方三子的手段，黑棋輸?shù)母鼞K。如果黑棋補(bǔ)棋，則丟掉先手，一樣比實戰(zhàn)慘。

可電腦為什么沒有這么下？看過第二盤之后，我們對電腦的計算力有了新的認(rèn)識，更多的人認(rèn)為，電腦的計算水平應(yīng)該不至于算不到這個變化，而是認(rèn)為這個變化獲勝的概率不如實戰(zhàn)。

這同樣是一個封閉空間，人類提出的下法是最優(yōu)下法，這沒有疑問，因為在這個空間里，人類可以窮盡所有變化。但是AG呢？它肯定也能。

我第一天晚上始終對這個局部想不明白，認(rèn)為是電腦的失誤，但第二日后慢慢覺得，它的決策模型，雖然我不知道怎么判斷的概率，一定認(rèn)為這些后續(xù)變化降低了獲勝概率。

四、如何預(yù)測下一場比賽的勝負(fù)？

不知道。如果按照以上這些分析的判斷，我會高估電腦一些。

也就是電腦很可能全勝，但出于感情，我支持李世石贏一盤。

我們看到電腦有些局部可能不選擇最優(yōu)解，這種“失誤”到底是不是“失誤”，在于有沒有“人”能利用其獲勝。

我有一個大膽的猜想，如果想要打敗這一代的AI，很可能會是下一代的AI，而不是人類高手。

五、AlphaGo的圍棋觀和人類的不同

電腦從開始到最后，一直是獲勝概率導(dǎo)向的，而人因為很難準(zhǔn)確的判斷概率，會以大量的棋理和判斷來進(jìn)行決策，但這些本身就包含獲勝的概率。人類總結(jié)出的棋理，本就是獲勝概率最高（人的判斷）的下法。至于目數(shù)的賺和損，只是一些同質(zhì)化的判斷方式。

如果棋理的獲勝概率被證明不夠高，說明棋理不夠好，人家的棋理本身就是在不斷革新，逼近最優(yōu)解的，所以一些所謂電腦不看棋理的說法其實沒有意義，選擇最優(yōu)的規(guī)律，本身就是理，人將之用人類可以理解的方式解釋出來，就成了棋理。只不過人類對圍棋規(guī)律的發(fā)掘還不夠深，我們并不是所有的一切認(rèn)識都是對的。

簡單一句話吧，不同地方太多了，但客觀講，程序下的有道理，人應(yīng)該好好分析學(xué)習(xí)，當(dāng)然，程序下的還不是完美的圍棋，批判著學(xué)吧。（鮑云觀點）

讀者提問：

“人們一直覺得圍棋太復(fù)雜，計算機(jī)無法駕馭，結(jié)果忽然發(fā)現(xiàn)自己才是那個無法駕馭它的?！痹趺纯?？

李理：我覺得是有一定道理的，其實以后人類也可以利用計算機(jī)來幫助訓(xùn)練棋感，從而離最優(yōu)走法更近一步。現(xiàn)在中國象棋很多職業(yè)選手就利用了計算機(jī)來”做功課“，開發(fā)一些之前認(rèn)為”不好“的走法。

我覺得人類應(yīng)該要勇敢的承認(rèn)自己的不足，然后利用自己的優(yōu)勢。而不是一定要跟機(jī)器比計算。用中國古代的觀點，就是天人合一，人本身也是宇宙的一部分。

高飛龍：我一直以來的觀點都可以解釋。遠(yuǎn)在AlphaGo面試之前：

圍棋的規(guī)律是客觀存在的，人類更像是“發(fā)現(xiàn)”了圍棋而不是“創(chuàng)造”了圍棋，所以人類圍棋的發(fā)展史就是不斷逼近最優(yōu)解，不斷發(fā)現(xiàn)逼近最優(yōu)解的“規(guī)律”的歷史。

一代又一代頂尖棋手，不斷的提高人類圍棋水平的峰值，就是這么一個過程。

也因此，很多外行問棋手，歷史上的某某和某某誰更強(qiáng)的類似問題，大家都會回答，后面的更強(qiáng)（一般都是）。

現(xiàn)在我們的計算工具已經(jīng)如此發(fā)達(dá)，達(dá)到或超過了人類頂峰的水平，將來我們可以借助工具，更好的探索圍棋規(guī)律，也因此，我個人很希望將來可以有一兩臺訓(xùn)練好的圍棋程序供大家來學(xué)習(xí)（雖然我知道谷歌和臉書都是降維打擊，志在人工智能而非志在圍棋）。

高飛龍：至于一些各個角度進(jìn)行嘲諷的聲音，我認(rèn)為口水終將湮沒在歷史的塵埃中。