AlphaGo連贏兩局該如何尋找它的破綻？

本文作者：宗仁

2016-03-11 21:30

導(dǎo)語：承認(rèn)失敗從來不是人類的常態(tài)。

昨天人機(jī)大戰(zhàn)的第二場，AlphaGo又贏了，一些人工智能方面的專家開始坦白地承認(rèn)——技術(shù)的發(fā)展超出了我們的想象。態(tài)度更明確的，比如在騰訊直播室觀戰(zhàn)的余凱則表示“我的結(jié)論是計(jì)算機(jī)已經(jīng)超過了人類”。

但承認(rèn)失敗從來不是人類的常態(tài)，失敗后找出破綻再次出發(fā)才是，以一種不屈不撓的挑戰(zhàn)者精神來說，就算接下來的三盤李世石輸了，還有中國的柯潔；就算柯潔也被AlphaGo超越了，我們也不會(huì)承認(rèn)AlphaGo的智力已經(jīng)全部輾壓人類，因?yàn)樗褪俏覀冏约涸斐鰜淼模驗(yàn)樗@次連贏兩場是有客觀條件的。

知己知彼，才有勝算

先從它的從GPU說起。

眼尖的人會(huì)發(fā)現(xiàn)，之前的IBM深藍(lán)不管在計(jì)算力上多么厲害，它都沒法像AlphaGo下地這么像人類的棋著，好比直播時(shí)新浪網(wǎng)友一邊看一邊驚呼“實(shí)戰(zhàn)中李世石在黑3頂?shù)臅r(shí)候，毅然搶占下邊的大官子。本以為AlphaGo要對(duì)中腹白龍展開猛攻，誰知AlphaGo竟然11位本本分分地虎一手，仔細(xì)一判斷，竟然全局還是黑棋優(yōu)勢(shì)，AlphaGo的全局判斷力非常準(zhǔn)確。”

但從機(jī)器的角度，AlphaGo無論下地如何像人都不會(huì)有靈魂在指導(dǎo)的，有的只是基于強(qiáng)大CPU集群的基礎(chǔ)上多了一個(gè)強(qiáng)大的GPU集群，這些才是讓它依托其其深度學(xué)習(xí)能力能表現(xiàn)地如此像人的本質(zhì)所在。至于它這一次為什么表現(xiàn)地這么出色，據(jù)王小川3月9號(hào)的表述，此次谷歌此次動(dòng)用了上萬臺(tái)的機(jī)器，對(duì)外宣稱1200臺(tái)，2000個(gè)GPU，比深藍(lán)計(jì)算力提高了3萬倍。

很多人不解，最初用于渲染游戲圖像的GPU怎么就會(huì)被發(fā)現(xiàn)適合深度學(xué)習(xí)呢？對(duì)此，圖靈機(jī)器人聯(lián)合創(chuàng)始人楊釗告訴雷鋒網(wǎng)

相比CPU設(shè)計(jì)為通用的計(jì)算處理，GPU更適合處理并行的相同的計(jì)算；一般情況下，GPU的核數(shù)更多，在并行處理大量數(shù)據(jù)時(shí)優(yōu)勢(shì)更加明顯；深度學(xué)習(xí)需要大量的數(shù)據(jù)運(yùn)算，典型的深度神經(jīng)網(wǎng)絡(luò)有很多節(jié)點(diǎn)，每個(gè)節(jié)點(diǎn)又有很多連接，需要并在學(xué)習(xí)的過程中不斷更新迭代，這種情況下GPU更具優(yōu)勢(shì)；

如果要舉一個(gè)形象的例子，按小智機(jī)器人何勇的說法

在串行架構(gòu)下，計(jì)算兩個(gè)長度為1000向量的加法需要循環(huán)計(jì)算1000次，而用GPU一次就可以完成計(jì)算。

普通人都知道，GPU的全名是“圖形處理器”，按理說它應(yīng)該不是這次人機(jī)大戰(zhàn)的動(dòng)力主角，但因?yàn)槠湓诖笠?guī)模并行運(yùn)算環(huán)境中的出色表現(xiàn)，對(duì)需要大量使用張量計(jì)算的深度學(xué)習(xí)來說能夠起到明顯的加速作用，反而使得它成為此次人機(jī)大戰(zhàn)中的耀眼新星。另外一個(gè)讓雷鋒網(wǎng)覺得有意思的東西，是余凱在解讀昨天的人機(jī)大戰(zhàn)時(shí)，提到“Alphago似乎可以掌握局面。因?yàn)榛谏疃葘W(xué)習(xí)里面采用卷積神經(jīng)網(wǎng)絡(luò)，就是拿很多的濾波器，掃描棋盤，它可能拿成千上百個(gè)濾波器，得到分層的理解，上面再來一層掃描，這個(gè)機(jī)制跟人眼睛的視覺神經(jīng)網(wǎng)絡(luò)是完全一樣的。這里面很巧妙的，卷集神經(jīng)網(wǎng)絡(luò)是模擬人整個(gè)大腦的視覺神經(jīng)網(wǎng)絡(luò)的機(jī)制。”

人類臉上的一雙眼睛，比其它任何五官部位都能有助于迅速掌握全局，但這個(gè)卷積神經(jīng)網(wǎng)絡(luò)沒用攝像頭、也沒有雷達(dá)掃描。只是用一雙沒有眼睛的“眼睛”（基于模擬人整個(gè)大腦的視覺神經(jīng)網(wǎng)絡(luò)的機(jī)制），讓AlphaGo有了比賽中表現(xiàn)的“全局觀”，這似乎是非常有意思的一件事。

它跟真人神經(jīng)網(wǎng)絡(luò)的差距在哪里

AlphaGo的計(jì)算能力比人強(qiáng)已經(jīng)是板上釘釘?shù)氖聦?shí)，它的“思維能力”也在趕超人類的路上，但這次人機(jī)大戰(zhàn)展開的初衷，就是我們深信它的“神經(jīng)網(wǎng)絡(luò)”跟我們真人的神經(jīng)網(wǎng)絡(luò)是有差距的，所以我們不斷測(cè)試。那它跟真人神經(jīng)網(wǎng)絡(luò)相比，還有哪些差距呢？

楊釗：
規(guī)模遠(yuǎn)沒有人腦大，人腦800多億個(gè)神經(jīng)元，整體性能比人腦稍慢；
功耗的問題；
泛化能力（舉一反三的能力）；

何勇：
目前科學(xué)界對(duì)大腦的結(jié)構(gòu)認(rèn)知還是非常有限的，當(dāng)前的人工神經(jīng)網(wǎng)絡(luò)就是建立在這個(gè)有限的認(rèn)知上設(shè)計(jì)出來的一個(gè)高度簡化的人腦模型，所以相比人腦而言，還有很大差距。舉個(gè)簡單的例子，其“智能”的遷移性相對(duì)于人腦有非常大的距離，比如，一個(gè)能夠擊敗人類棋手的AI很難去學(xué)習(xí)怎么去理解一篇簡單的文章。

而思必馳CTO周偉達(dá)博士則從AlphaGo的主動(dòng)和被動(dòng)性上分析了這個(gè)問題——與人類相比，AlphaGO需要改進(jìn)的地方還有很多方面，目前深度學(xué)習(xí)大多采用有監(jiān)督的學(xué)習(xí)，在無監(jiān)督學(xué)習(xí)，半監(jiān)督學(xué)習(xí)和自學(xué)能力方面需要加強(qiáng)；同樣由于目前深度學(xué)習(xí)大多從以往的棋局中進(jìn)行學(xué)習(xí)，在聯(lián)想記憶、創(chuàng)新、和推廣能力不足，等人類逐漸熟悉其棋路后，其這方面的弱勢(shì)也會(huì)顯露無遺，所以其創(chuàng)新和推廣能力方面還需要加強(qiáng)。

如何尋找它的破綻

在正式比賽前，有人就已經(jīng)關(guān)注到AlphaGo先讀取KGS(一個(gè)網(wǎng)絡(luò)圍棋對(duì)戰(zhàn)平臺(tái))上面近16萬局共3000多萬步的人類走法，但這種簡單復(fù)制Copy的能力還不能滿足AlphaGo飛速進(jìn)化的需求，按出門問問NLP工程師Jason的說法，它只是“基于這個(gè)在人類棋局上學(xué)習(xí)出來的SL Policy Network, 然后使用強(qiáng)化學(xué)習(xí)（Reinforcement Learning）的方法通過自己跟自己對(duì)弈，來進(jìn)一步優(yōu)化Policy Network?！?/p>

而從李世石在前兩局的“異常棋風(fēng)”表現(xiàn)中，我們這里不妨推測(cè)出李世石已經(jīng)意識(shí)到AlphaGo已經(jīng)對(duì)自己的棋風(fēng)相當(dāng)了解，他本人正在極力求變，而不是職業(yè)棋手認(rèn)為的他在“消極應(yīng)戰(zhàn)”，因?yàn)槲覀兿嘈乓砸粋€(gè)圍棋冠軍的智商，他絕對(duì)知道找出對(duì)手破綻的重要性，即使這個(gè)對(duì)手不是人。

至于如何保證跟自己對(duì)弈的過程中學(xué)到東西（不下一樣的棋），業(yè)余5段趙治勛表示

在算法里這個(gè)叫做加強(qiáng)學(xué)習(xí)，通過對(duì)弈提升棋力。我學(xué)過這個(gè)算法，認(rèn)為它可信而且有用。通俗來講，人不可以復(fù)制，但機(jī)器可以。兩只阿爾法圍棋的復(fù)制品0號(hào)機(jī)和1號(hào)機(jī)對(duì)弈互不干擾這樣的學(xué)習(xí)就是有用的而人并不能分身自我對(duì)弈干擾嚴(yán)重，因此不能學(xué)東西。

知己知彼，方有勝算，在知道AlphaGo在此番競賽中，它擅長的是記住棋譜+加強(qiáng)學(xué)習(xí)+計(jì)算能力，那如果按武俠小說破招的思路，人類應(yīng)該干啥來破招？

從招式上，楊釗表示有3點(diǎn) 1 盡可能地使用冷招，進(jìn)入冷僻局面；2 在前期利用人腦的大局觀建立優(yōu)勢(shì)，否則到了后期搜索空間變小，計(jì)算機(jī)更具優(yōu)勢(shì)； 3 創(chuàng)新棋局理論，讓其之前學(xué)習(xí)到的棋局能力減效(挺難的)。

從心理上，何勇表示AI的優(yōu)勢(shì)在于精準(zhǔn)的計(jì)算，不像人類棋手會(huì)受生理和心理因素影響，出現(xiàn)失誤。而劣勢(shì)也顯而易見，缺乏對(duì)全局的掌控，AI的走法，更多的是基于當(dāng)前棋局做出的一個(gè)短期判斷。所以，如果跟一個(gè)善于全局布局的高手對(duì)弈，勝的可能性相對(duì)較低。

從可能性上，出門問問李理表示，很難，從我程序員的角度看，因?yàn)闅埦值牟罹嗵罅耍懊孀咦訖C(jī)器也不會(huì)太差。我覺得可以試試的策略就是中前期占優(yōu)勢(shì)，然后殘局導(dǎo)向簡單變化的局面。開局不要被怪招嚇到，認(rèn)為是弱手就要嚴(yán)厲打擊，機(jī)器的開局不怎么樣。

從本質(zhì)上，周博士表示，目前機(jī)器智能還處在初始發(fā)展階段，機(jī)器憑借其海量的存儲(chǔ)能力和快速的邏輯計(jì)算能力獲得了一定的優(yōu)勢(shì)，同時(shí)在智能方面通過人工智能專家的設(shè)計(jì)具備了一定的學(xué)習(xí)能力，但其與人類相比還有很大的差距，人類并不需要太大驚小怪。人類只需要更多地了解目前機(jī)器智能的本質(zhì)，在實(shí)際對(duì)弈中去了解機(jī)器的強(qiáng)項(xiàng)和弱勢(shì)，相信人類很快能找到發(fā)揮人類優(yōu)勢(shì)戰(zhàn)勝機(jī)器的方法。

小結(jié)：

也許后面李世石接著輸了，也許柯潔也被AlphaGo超越了，也許以后博弈類的游戲人類再也不是機(jī)器的對(duì)手了，但我們依然覺得，把AlphaGo的原理搞清楚了，像IBM的深藍(lán)一樣讓我們對(duì)它知根知底，就是它最大的破綻。

目前網(wǎng)上分析AlphaGo的文章一大推，因?yàn)榛逎y懂，引發(fā)了人類對(duì)它的敬畏，或者說對(duì)它的恐懼，但我們?nèi)舭阉唵卫锟础?/p>

1997年的IBM深藍(lán)依靠計(jì)算力和暴力窮舉，超越了人類在國際象棋上的局限。

2009年的時(shí)候，一個(gè)叫做Hinton的老頭第一次把他研究了近30年的深度神經(jīng)網(wǎng)絡(luò)介紹給了做語音識(shí)別的學(xué)者，到了第二年語音識(shí)別領(lǐng)域就發(fā)生了巨大的突破。

于是深度學(xué)習(xí)網(wǎng)絡(luò)像開了掛一樣開始向人工智能的各個(gè)領(lǐng)域蔓延，并開始出現(xiàn)CNN、RNN等更多具體的變種。

直到2016年3月，它用在圍棋游戲上跟人類對(duì)弈。

那怎么簡單描述深度網(wǎng)絡(luò)在圍棋上的應(yīng)用呢？

“我的理解，兩個(gè)深度網(wǎng)絡(luò)的工具，Policy Network+Value Network通過評(píng)估每一步收益，用來簡化蒙特卡洛樹（AI框架）的搜索空間，取得落子最優(yōu)和時(shí)間消耗的平衡?！睏钺撊缡钦f。

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

1人收藏

相關(guān)文章

專題

人工智能和李世石的世紀(jì)之戰(zhàn)

本專題其他文章

宗仁

專注AIR(人工智能+機(jī)器人)

專注人工智能+機(jī)器人報(bào)道，經(jīng)驗(yàn)分享請(qǐng)加微信keatslee8（請(qǐng)注明原因）。科學(xué)的本質(zhì)是：問一個(gè)不恰當(dāng)?shù)膯栴}，于是走上了通往恰當(dāng)答案的路。

掃描關(guān)注作者微信

發(fā)私信

當(dāng)月熱門文章

AlphaGo連贏兩局 該如何尋找它的破綻？

知己知彼，才有勝算

先從它的從GPU說起。