5
本文作者: 吳德新 | 2016-03-11 20:45 | 專題:雷峰網(wǎng)公開課 |
雷鋒網(wǎng)按:本文來自 硬創(chuàng)公開課 | AlphaGo專場的分享。
分享嘉賓:業(yè)余圍棋5段,高飛龍。一并感謝業(yè)余圍棋6段,鮑云對本次分享的友情支持。
第一局比賽,過程中大部分棋手很可能出現(xiàn)了相當程度的誤判,認為李世石一度占優(yōu),而第二局比賽后,職業(yè)高手們對AI的決策原理了解的越來越多,判斷也不斷地在改變。
第一局輸?shù)艉?,大家的情緒都很低落,雖然知道這一天早晚會來,但事前都認為沒這么快,人類應該還能抵抗一段時間,但第二局結束后,大家對AI的實力判斷普遍調高,很多人甚至認為柯潔現(xiàn)在上了也未必能贏。當晚,大量的職業(yè)高手就進行了深度的反思和討論,尤其是李喆六段。
(根據(jù)我得到的信息)AlphaGo在第一局中,對自身獲勝概率的判斷應該始終高于半數(shù),也就是我們說的始終優(yōu)勢,而第二局中,它反而在中盤有一段時間認為獲勝概率為半數(shù),也就是預測和棋,這和大部分人類高手在解說時的判斷完全不同,是一個非常有趣的現(xiàn)象。
但賽后經(jīng)過深入的分析,我聽到的聲音越來越傾向于支持電腦的判斷,也就是說,第一局棋,李世石的確沒有優(yōu)勢過,而我們要重新審視電腦下出的那些“緩手”和“錯著”。
首先,正如我前面所說,我個人認同第一局中,李世石始終沒有占據(jù)優(yōu)勢,所以,也就沒有所謂轉折點的說法。
電腦的確下出了一些從普通棋理來看有問題的下法,并且取得了勝利,但這不一定說明棋理完全是錯的。
我想重復一下很多人都已經(jīng)提過的一點,這也是我們審視棋局非常重要的信息:電腦行棋的決策,是依據(jù)對落點后續(xù)變化的獲勝概率來判斷的。
這里我想引用一下李喆六段在第一天晚上復盤的講解:
電腦的這一步長,當場被所有人視為緩手。但是復盤時李喆認為,這一手棋不一定不好,甚至在電腦的決策中,這已經(jīng)是最好的一手(其實這是肯定的,因為電腦就是這樣選擇的)。
如果電腦不補棋,黑棋在左上的出動可能極為嚴厲,當然這不是說白棋就一定不能這么下,只是這后面的變化相當復雜,電腦應該判斷這樣的獲勝概率不如實戰(zhàn)的下法,所以選擇了實戰(zhàn)的“緩手”補棋。
緊接著,還有一個關鍵處,當時所有人都認為電腦的下法簡直不可理喻,但我們還是順著電腦的邏輯來復盤,就有辦法理解:
這步斷,直接將大空送給黑棋,局部來說,是嚴重虧損的下法,但電腦選擇了這個下法,然后所有人都認為黑棋已經(jīng)明顯優(yōu)勢,可局后AG團隊卻說AG始終判斷自己優(yōu)勢,為什么?
左下白棋損了一大把,然后做了幾個簡單的準備性交換之后,下出了右邊的點,這步點被所有人認為是精彩的“勝負手”,局后也認為是妙手,但我們可能忽略了一個可能:電腦早就將這步棋和其導致的后續(xù)變化算在了形勢判斷中。
也就是說,電腦知道這以后它將在右邊一代走成后續(xù)的變化,這是它的“權利”,所以即使左下角白棋嚴重虧損,但搶到先手之后將右邊的“權利”兌現(xiàn),白棋仍然是優(yōu)勢。
而左下局部虧損的下法,可能讓它贏的更少,但卻縮小了棋盤,令盤上剩余的空間和變化都大大減少了,用人類的說法,就是縮小了棋盤并接近終點,這和AG的邏輯是一樣的,只不過AG可以通過獲勝概率來更精準的判斷這一點。
所以AG在選擇左上的緩手補棋,選擇左下的虧損變化搶先手的時候,已經(jīng)考慮了這所有的變化并將后續(xù)在右邊點入占到的便宜計入形勢判斷,所有這些走完之后,棋盤大幅度減小并且白棋局面領先,從電腦的角度來看,自己的獲勝概率一直在提高。
(當然,這里包含了一些我從他人處看來的觀點,還包含了我個人的一些猜想式的判斷,可能會過于高估電腦,但我認為我們應該高估而不應該低估,更何況從結果來看,這種猜想很可能是對的,AG就是看了這么遠)
打劫包含很多轉換的可能,對電腦來說可能會降低獲勝概率,哪怕只是從90%降低到80%,所以它不選擇打劫。即使對人來說也是這樣,在贏棋的局面下,講究簡化局面減少變化,盡量不選擇復雜的打劫,增加獲勝的可能。
沒打劫的棋也多了,沒什么特別離奇的,打了也輸,就是李沒拼顯得有點沒骨氣,很多人覺得他沒有表現(xiàn)出人類的風采。(鮑云觀點)
很多人說AG和人類棋手下的不是一種圍棋,它是以獲勝概率為指向,而人是以局部賺幾目虧幾目來判斷,其實不是這么簡單。這種說法其實對人類圍棋的高水平段不太了解。
正如我回答前一個問題所說,人類也會在逼近終局的時候,選擇虧損但是縮小棋盤減少變化的方式,來逼近終點。這就是典型的以減少獲勝目數(shù)來提高獲勝概率的決策。只不過人類對概率的判斷基于經(jīng)驗和直覺,應該比不上成熟之后的電腦的判斷準確度。
但如果是最優(yōu)解,也就是我們說的“圍棋上帝”,很可能于此不同。我們現(xiàn)在的對局,是單一的全局獲勝就全部獲勝,輸贏的目數(shù)多少其實沒有意義。而人會失誤,所以出現(xiàn)了我前述所言的目數(shù)換概率的決策方式。但如果現(xiàn)在有一個“神”,它窮盡了圍棋所有的變化,根本不會失誤,那當他跟李世石下的時候,會這樣嗎?
當然,無論如何他都能贏,那么從追求圍棋最優(yōu)解的角度來說,他就可能不使用目數(shù)換概率的決策,因為他獲勝的概率一定是百分之百,那么對他來說,最優(yōu)解就應該是盡量提高獲勝目數(shù)。
這里我想舉兩個例子。
白棋136,按照最優(yōu)解應該下在A位,在這樣的相對封閉空間里,電腦應該不會在手段和目數(shù)的計算上出現(xiàn)失誤。
但它這樣決策,就說明它認為,雖然虧了一目,但這樣的下法后續(xù)更不容易出現(xiàn)失誤(或者類似),所以獲勝概率提高了。還有一個讓所有人頭疼的例子:
如果說電腦前半盤的“緩手”當天還可以很快解釋,那么右下角的這個“失誤”就讓很多人難以理解,只能認為電腦確實算錯了,或者判斷錯了~由此認為電腦不是無懈可擊。
這步棋按照人的思路,只需要跳在一四,黑棋將輸?shù)母臁?/span>
黑2是我隨便擺的,意思是脫先。白1跳在這里,黑棋如果脫先,則白棋保留這樣救出上方三子的手段,黑棋輸?shù)母鼞K。如果黑棋補棋,則丟掉先手,一樣比實戰(zhàn)慘。
可電腦為什么沒有這么下?看過第二盤之后,我們對電腦的計算力有了新的認識,更多的人認為,電腦的計算水平應該不至于算不到這個變化,而是認為這個變化獲勝的概率不如實戰(zhàn)。
這同樣是一個封閉空間,人類提出的下法是最優(yōu)下法,這沒有疑問,因為在這個空間里,人類可以窮盡所有變化。但是AG呢?它肯定也能。
我第一天晚上始終對這個局部想不明白,認為是電腦的失誤,但第二日后慢慢覺得,它的決策模型,雖然我不知道怎么判斷的概率,一定認為這些后續(xù)變化降低了獲勝概率。
不知道。如果按照以上這些分析的判斷,我會高估電腦一些。
也就是電腦很可能全勝,但出于感情,我支持李世石贏一盤。
我們看到電腦有些局部可能不選擇最優(yōu)解,這種“失誤”到底是不是“失誤”,在于有沒有“人”能利用其獲勝。
我有一個大膽的猜想,如果想要打敗這一代的AI,很可能會是下一代的AI,而不是人類高手。
電腦從開始到最后,一直是獲勝概率導向的,而人因為很難準確的判斷概率,會以大量的棋理和判斷來進行決策,但這些本身就包含獲勝的概率。人類總結出的棋理,本就是獲勝概率最高(人的判斷)的下法。至于目數(shù)的賺和損,只是一些同質化的判斷方式。
如果棋理的獲勝概率被證明不夠高,說明棋理不夠好,人家的棋理本身就是在不斷革新,逼近最優(yōu)解的,所以一些所謂電腦不看棋理的說法其實沒有意義,選擇最優(yōu)的規(guī)律,本身就是理,人將之用人類可以理解的方式解釋出來,就成了棋理。只不過人類對圍棋規(guī)律的發(fā)掘還不夠深,我們并不是所有的一切認識都是對的。
簡單一句話吧,不同地方太多了,但客觀講,程序下的有道理,人應該好好分析學習,當然,程序下的還不是完美的圍棋,批判著學吧。(鮑云觀點)
李理:我覺得是有一定道理的,其實以后人類也可以利用計算機來幫助訓練棋感,從而離最優(yōu)走法更近一步。現(xiàn)在中國象棋很多職業(yè)選手就利用了計算機來”做功課“,開發(fā)一些之前認為”不好“的走法。
我覺得人類應該要勇敢的承認自己的不足,然后利用自己的優(yōu)勢。而不是一定要跟機器比計算。用中國古代的觀點,就是天人合一,人本身也是宇宙的一部分。
高飛龍:我一直以來的觀點都可以解釋。遠在AlphaGo面試之前:
圍棋的規(guī)律是客觀存在的,人類更像是“發(fā)現(xiàn)”了圍棋而不是“創(chuàng)造”了圍棋,所以人類圍棋的發(fā)展史就是不斷逼近最優(yōu)解,不斷發(fā)現(xiàn)逼近最優(yōu)解的“規(guī)律”的歷史。
一代又一代頂尖棋手,不斷的提高人類圍棋水平的峰值,就是這么一個過程。
也因此,很多外行問棋手,歷史上的某某和某某誰更強的類似問題,大家都會回答,后面的更強(一般都是)。
現(xiàn)在我們的計算工具已經(jīng)如此發(fā)達,達到或超過了人類頂峰的水平,將來我們可以借助工具,更好的探索圍棋規(guī)律,也因此,我個人很希望將來可以有一兩臺訓練好的圍棋程序供大家來學習(雖然我知道谷歌和臉書都是降維打擊,志在人工智能而非志在圍棋)。
高飛龍:至于一些各個角度進行嘲諷的聲音,我認為口水終將湮沒在歷史的塵埃中。
高飛龍:概率導向導致它可能不選擇最優(yōu),所以局部變化可能出“錯”,當然這兩盤棋里,ag出現(xiàn)這種下法都是在贏定的情況下才下的,所以對人類來說沒有意義,人類無法利用這些“錯”獲勝。
這種類似人類的“損目換縮小棋盤”的下法,需要強大的控制力,而它正顯示了自己的控制力。
而前半盤,它的概率判斷也同樣可能有問題,但現(xiàn)在來看,似乎不見得比人類頂峰差,甚至更好~所以我想它的弱點,可能就在于它還不是“圍棋上帝”。
(這對于被甩在身后的我們來說,似乎不像是弱點)隨著它的變強,人類頂峰利用這些縫隙獲勝的機會或越來越小,大致如此。
題圖來自:wordpress.com
歡迎掃描二維碼,加入硬創(chuàng)公開課的公開分享群,我們也期待在后續(xù)的直播中繼續(xù)切磋交流。也歡迎推薦和自薦分享嘉賓。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權禁止轉載。詳情見轉載須知。