丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
專欄 正文
發(fā)私信給Ticwear
發(fā)送

6

AlphaGo兩次提前30分鐘確信必勝,殘局計(jì)算能力的差距或是關(guān)鍵

導(dǎo)語(yǔ):我們重新審視了AlphaGo的兩大核心技術(shù),認(rèn)為殘局是AlphaGo制勝的關(guān)鍵。作為人類選手,應(yīng)該怎么和AlphaGo下棋呢?

按:作者李理,出門(mén)問(wèn)問(wèn)NLP工程師。

AlphaGo兩次提前30分鐘確信必勝,殘局計(jì)算能力的差距或是關(guān)鍵

(via wildfirepr.com)

比賽之前根據(jù)論文里的技術(shù)來(lái)分析AlphaGo能否戰(zhàn)勝李世石,我們可能太過(guò)關(guān)注深度神經(jīng)網(wǎng)絡(luò)而忽視了MCTS的重要性,尤其是它在殘局里的重要性。前天比賽結(jié)束后我們重新審視了AlphaGo的兩大核心技術(shù),認(rèn)為殘局是AlphaGo制勝的關(guān)鍵。昨天晚上看到新聞?wù)fAlphaGo在比賽結(jié)束前就確認(rèn)了必勝的結(jié)果,更加證實(shí)了這個(gè)想法可能是對(duì)的,所以想把這個(gè)觀點(diǎn)分享出來(lái)。

下面是具體的內(nèi)容:

經(jīng)過(guò)第二局比賽之后,我已經(jīng)變得悲觀了。因?yàn)槲矣X(jué)得在殘局的計(jì)算能力上人類與AlphaGo的差距太大了。

1. 上帝眼中的圍棋

從數(shù)學(xué)上來(lái)講,圍棋有個(gè)最優(yōu)的走法,也就是用mini-max搜索到游戲結(jié)束時(shí)的一條最優(yōu)路徑(也許有多條,但至少有一條),然后就能知道最優(yōu)的情況下黑棋勝白棋多少目(也許是白棋勝黑棋?直覺(jué)上和經(jīng)驗(yàn)上來(lái)說(shuō)黑棋先手是占優(yōu)的,但是好像也沒(méi)有誰(shuí)證明過(guò)這個(gè)問(wèn)題?),那么黑棋對(duì)白棋的貼目就應(yīng)該是這個(gè)最優(yōu)值。

2. AlphaGo的殘局計(jì)算

和人類相比,AlphaGo的殘局計(jì)算有點(diǎn)太Bug了。

比如說(shuō)AlphaGo可以計(jì)算出最后50步棋(這里只是假設(shè)的步數(shù),而且MCTS不是完全搜索所有可能,而是根據(jù)先驗(yàn)概率和搜索結(jié)果調(diào)整策略,搜索“重要”的子樹(shù)),而人類只能計(jì)算最后30步棋。那么即使在第50步的時(shí)候人類選手領(lǐng)先10目(已經(jīng)去掉貼目),那么也只是說(shuō)人類在100%精確地走好每一步的時(shí)候才能勝。但是圍棋很復(fù)雜,也許走第50步時(shí)走個(gè)次優(yōu)的走法,領(lǐng)先就變成了8目,如果再走得緩一點(diǎn),可能就只領(lǐng)先6目了。而因?yàn)槿祟愔荒苡?jì)算最后30步棋,那么這50-31步的一點(diǎn)點(diǎn)失誤可能都會(huì)造成最終的失利。

當(dāng)然我對(duì)圍棋不懂,也許圍棋沒(méi)有想象的復(fù)雜,它的估值函數(shù)還是比較平滑的,或者在這50-31步中大部分局面都很容易直接找到最優(yōu)解,但是某些局面就困難一些(也就是關(guān)鍵的點(diǎn))。但是我覺(jué)得這樣的關(guān)鍵點(diǎn)還是很多的,因?yàn)閲搴拖笃宀煌?,圍棋隨便挪動(dòng)一個(gè)棋子,對(duì)全局都是有影響的。象棋雖然在某些特殊情況下一個(gè)棋子的位置會(huì)影響最后的勝負(fù),但是大部分局面下走一步閑棋影響都不大,尤其是雙方棋子較少的中殘局。

比如說(shuō)人類高手的判斷局面的準(zhǔn)確率是AlphaGo的90%(90%能不計(jì)算憑“感覺(jué)”直接找到當(dāng)前局面的最優(yōu)解,1是AlphaGo的準(zhǔn)確度,上帝可能是2?),那么20步全部正確的概率只有0.12(相對(duì)于Alphago來(lái)說(shuō))。如果兩個(gè)人殘局的計(jì)算能力差太遠(yuǎn),而且積累的優(yōu)勢(shì)不是太多的話,除非碰到的殘局很簡(jiǎn)單,第50步-31步憑感覺(jué)就能找到最優(yōu)解(或者次優(yōu)解與最優(yōu)解的差別很小,但感覺(jué)上圍棋不像象棋。象棋如果優(yōu)勢(shì),比如比對(duì)方多兩個(gè)兵,那么走一兩步緩手(只要?jiǎng)e太差,讓人吃子了),最終還是很可能會(huì)贏(當(dāng)然也有某些特殊的局面必須要走的精確)。但圍棋如果稍微幾個(gè)緩手,優(yōu)勢(shì)就丟了很多。

所以如果殘局計(jì)算力差太多的話,前中盤(pán)有差不太多的話,那么人類是不太可能勝利的。

3. AlphaGo的開(kāi)局呢?

AlphaGo的計(jì)算有兩個(gè)關(guān)鍵,一個(gè)是Value Network,也就是給定一個(gè)局面,不計(jì)算,直接判斷它的好壞(也就是上帝的視角來(lái)看,大家都下得完美,黑棋能比白棋多/少多少目),另外一個(gè)就是通過(guò)不斷的蒙特卡羅模擬比賽到游戲結(jié)束(rollout)。

這其實(shí)和人類的搜索有些類似:比如當(dāng)前局面下有10種走法,我們根據(jù)好壞(alphago是rollout Policy,這個(gè)需要非??欤┙o它計(jì)算一個(gè)概率,比如0.4,0.3,0.1,.....,那么它就會(huì)以較大的概率選擇0.4的走法來(lái)嘗試,當(dāng)然也有0.3的概率走第二個(gè)。之后每一步都是一樣的方法選擇走法直到游戲結(jié)束,然后就能判斷這個(gè)游戲結(jié)束局面的準(zhǔn)確值。比如我方勝利了,那么就會(huì)backup回去,讓我們下次選擇0.4的概率更大一點(diǎn),也許變成了0.45,0.28, 0.09,...。經(jīng)過(guò)大量的模擬,我們就能知道選擇第一個(gè)走法的是否“好”。

這兩個(gè)得分value network(評(píng)估局面)和rollout(蠻力計(jì)算)是加權(quán)平均起來(lái)的,論文里好像說(shuō)最優(yōu)值是0.5?也就是兩個(gè)因素都很重要。

所以可以看出,越到后面殘局,變化就越少,模擬的步數(shù)也越少,就越準(zhǔn)確。而開(kāi)局的話rollout肯定不準(zhǔn),那么更多的是靠人類高手棋譜對(duì)局學(xué)出來(lái)的“大局觀”,而越到后面計(jì)算就越準(zhǔn)了,它就起主要作用了(那理論上是不是兩者的權(quán)重動(dòng)態(tài)調(diào)整會(huì)更好?)

所以我覺(jué)得AlphaGo的開(kāi)局在上帝看了應(yīng)該也是挺弱的,也許上帝在它下了一步之后就呵呵一笑:你輸了1目棋了。

4. 那人類的開(kāi)局呢?

我覺(jué)得人類超一流的高手可能比AlphaGo強(qiáng)那么一點(diǎn)點(diǎn)(畢竟AlphaGo只是用大量一流高手的對(duì)局),但是在上帝看來(lái)可能比隨機(jī)下棋只是好那么一點(diǎn)點(diǎn)。所以經(jīng)常會(huì)出現(xiàn)這樣的情況:這個(gè)布局之前很流行,大家都認(rèn)為很好,但過(guò)了若干年后又認(rèn)為不好了。

5. 人類/機(jī)器是怎么自學(xué)提高自己呢?

理論上如果計(jì)算和存儲(chǔ)資源足夠,比如最后10步可以精確計(jì)算,那么我們就可以存儲(chǔ)所有10步之內(nèi)結(jié)束的局面的結(jié)果(有點(diǎn)像殘局庫(kù)),但是這個(gè)局面太多,只能用一個(gè)模型來(lái)“壓縮”這些結(jié)果,提取一些重要的feature來(lái)代表局面,這些feature可能就是我們說(shuō)的勢(shì)啊,厚薄等等(當(dāng)然也可能機(jī)器學(xué)到的feature完全不同)。假設(shè)這個(gè)模型能99%的準(zhǔn)確率預(yù)測(cè)最終得分。然后再計(jì)算11步的所有局面(用的是模型來(lái)打分,因此準(zhǔn)確率99%),然后又得到更多的訓(xùn)練數(shù)據(jù),重新調(diào)整模型,這個(gè)時(shí)候可能就只有98%的準(zhǔn)確率了(因?yàn)榫置孀兌啵?,再加上之前累?jì)的誤差,總的準(zhǔn)確率是99% * 98%,...,然后不斷的反向傳播到開(kāi)局。如果這么一算,我們開(kāi)局第一步能算準(zhǔn)的概率基本就是0了。

所以我們?nèi)祟愡@么幾千年這樣學(xué)習(xí)得出的一些經(jīng)驗(yàn)會(huì)經(jīng)常被推翻,幾十年前認(rèn)為好的開(kāi)局可能現(xiàn)在認(rèn)為不好,但過(guò)幾十年可能又認(rèn)為好。說(shuō)白了就是我們離上帝的距離有些太遠(yuǎn)。

6. AlphaGo強(qiáng)在哪?

從上面的AlphaGo原理的分析來(lái)看,AlphaGo比人類強(qiáng)的也只是在計(jì)算力上面,但是圍棋的分支因子太大,步數(shù)又多,而且估值函數(shù)太復(fù)雜,所以只能在殘局上體現(xiàn)出計(jì)算力的優(yōu)勢(shì)。而開(kāi)局甚至中局計(jì)算力都不行,因此早期基于mini-max(alpha-beta)的搜索根本不行,后來(lái)出現(xiàn)了MCTS,但開(kāi)局和中局虧得太多,所以基本沒(méi)到殘局就游戲結(jié)束了。

AlphaGo的特點(diǎn)是開(kāi)局和中局模擬人類,從上帝的角度來(lái)說(shuō)不一定好,但是至少在人類高手看來(lái)還可以(即使會(huì)下一些人類認(rèn)為“業(yè)余”的走法,但也不至于太離譜),只要不在殘局前崩盤(pán),輸?shù)貌惶?,那么殘局它總是能追回?lái)。

7. MCTS和深度神經(jīng)網(wǎng)絡(luò)(CNN)哪個(gè)重要?

因?yàn)樯疃壬窠?jīng)網(wǎng)絡(luò)非常火,大家可能覺(jué)得它是AlphaGo能贏的關(guān)鍵,其實(shí)我覺(jué)得不是這樣。

根據(jù)Tian yuandong和AlphaGo的論文,如果不做任何搜索,只是根據(jù)“棋感”(其實(shí)就是估值函數(shù)),CNN最好能達(dá)到KGS 3d的水平,我估計(jì)也就業(yè)余1段的水平。而MCTS算法在沒(méi)有Value Network的情況下在9*9的棋盤(pán)上能戰(zhàn)勝人類高手,其實(shí)這也間接印證了AlphaGo在殘局的實(shí)力是搜索(計(jì)算)起重要作用。原來(lái)基于搜索的軟件在開(kāi)局和中局就崩盤(pán)或者虧太多了,所以就不能體現(xiàn)搜索的優(yōu)勢(shì)了,另外AlphaGo使用了Value Network,這保證即使搜索有一些小問(wèn)題,從人類學(xué)來(lái)的棋感也能保證不至于偏差太大。

AlphaGo的特點(diǎn)是:開(kāi)局和中局依靠人類的棋譜學(xué)習(xí)棋感(可以理解為背棋譜,不過(guò)比死記硬背好一點(diǎn),有一定的泛化能力),然后殘局的計(jì)算能力碾壓人類,就好像以前的李昌鎬,前面看不出什么好來(lái),但官子你就是下不過(guò)他,沒(méi)辦法,不服不行。

8. AlphaGo能成為圍棋上帝嗎?

我認(rèn)為AlphaGo離上帝(最優(yōu)解)其實(shí)還是差得老遠(yuǎn)的,尤其是開(kāi)局和中局。其實(shí)這也間接的說(shuō)明人類在開(kāi)局上其實(shí)也離最優(yōu)解差得太遠(yuǎn)。人類幾千年也下不了多少盤(pán)棋(而且水平越差的人的棋對(duì)整個(gè)人類圍棋沒(méi)有太大幫助),我們認(rèn)為一個(gè)開(kāi)局是否好,只能更加水平相似的高手下這個(gè)布局的勝率來(lái)推測(cè)它的好壞。但如果我們?cè)谧詈?0步的時(shí)候誤差就很大,那么往前傳播時(shí)積累的誤差就更大了,我們可能經(jīng)常忽略了一個(gè)看起來(lái)不好的走法,而這個(gè)走法可能就是“支持”這個(gè)開(kāi)局的關(guān)鍵。

當(dāng)然AlphaGo的殘局比人厲害,那么就可以通過(guò)自己對(duì)弈來(lái)學(xué)習(xí),然后往前傳播誤差。

但是由于這個(gè)問(wèn)題本質(zhì)是NP的,即使它用了MCTS的方法來(lái)避免“明顯不好”的走法。但是由于圍棋的復(fù)雜性,可能某個(gè)“看起來(lái)不好”的走法可能恰恰是一個(gè)關(guān)鍵的勝負(fù)手呢?另外根據(jù)之前的分析,即使每步都能99%的準(zhǔn)確,那么往前推100步準(zhǔn)確的可能性也基本是0了。

因此如果人類不能解決NP問(wèn)題,不能提出計(jì)算能力超過(guò)圖靈機(jī)的計(jì)算模型,那么人類制造的機(jī)器也是不太可能解決這個(gè)問(wèn)題的(當(dāng)然這只是我的直覺(jué),不知道能不能數(shù)學(xué)上證明)。不過(guò)即使這樣,能制造和人類一樣,雖然質(zhì)不能超越人類,但量能超越人類的機(jī)器也是很有意義的。

9. 怎么能驗(yàn)證你的這些看法?

新聞?wù)fAlphaGo提前30分鐘認(rèn)為自己必勝,這是個(gè)很強(qiáng)有力的證據(jù),我們看看30分鐘還有多少棋,可以估算AlphaGo自認(rèn)為能算準(zhǔn)多少步。

方法一,看接下來(lái)3盤(pán)棋,如果都是人類覺(jué)得李世石走得還可以或者稍微領(lǐng)先,最后都翻盤(pán),那么就是一個(gè)證據(jù)。


方法二,人類和AlphaGo下開(kāi)局和中局,然后到了AlphaGo認(rèn)為可以比較準(zhǔn)確計(jì)算的時(shí)候讓它來(lái)評(píng)估好壞。


方法三,找一盤(pán)人類認(rèn)為可以但是被翻盤(pán)的局面,然后人類和AlphaGo換個(gè)顏色來(lái)下,如果還是AlphaGo獲勝,那么也是一個(gè)證據(jù)。


方法四,看AlphaGo對(duì)自己的打分,是不是有出現(xiàn)過(guò)認(rèn)為自己落后,后來(lái)又領(lǐng)先。

那么作為人類選手,應(yīng)該怎么和AlphaGo下棋呢?

我覺(jué)得可以試試的策略就是中前期利用自己超一流的棋感盡量占優(yōu),然后殘局導(dǎo)向簡(jiǎn)單變化的局面。開(kāi)局不要被怪招嚇到,我們認(rèn)為是弱手就要嚴(yán)厲打擊,我覺(jué)得機(jī)器的開(kāi)局不怎么樣。當(dāng)然我不懂圍棋,只是從程序員的角度的個(gè)人看法。

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知

AlphaGo兩次提前30分鐘確信必勝,殘局計(jì)算能力的差距或是關(guān)鍵

分享:
相關(guān)文章

知情人士

Ticwear是由人工智能公司出門(mén)問(wèn)問(wèn)于2014年12月19日發(fā)布的全球首款中文智能手表操作系統(tǒng),得到了媒體和用戶的一致好評(píng)。出門(mén)問(wèn)問(wèn)一直在尋找人工智能在可穿戴設(shè)備上的最佳落地方式,以及最適合自然語(yǔ)音交互的載體。Ticwear用到的“神經(jīng)網(wǎng)絡(luò)”、“自然語(yǔ)言”、“深度學(xué)習(xí)”、“語(yǔ)音識(shí)別”等技術(shù),比所謂機(jī)器人的人工智能在技術(shù)層面上一樣都不少。
當(dāng)月熱門(mén)文章
最新文章
請(qǐng)?zhí)顚?xiě)申請(qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說(shuō)