0
雷鋒網(wǎng) AI科技評(píng)論消息,北京時(shí)間10月19日凌晨,Deepmind在Nature上發(fā)布論文《Mastering the game of Go without human knowledge》(不使用人類知識(shí)掌握圍棋),在這篇論文中,Deepmind展示了他們更強(qiáng)大的新版本圍棋程序“AlphaGo Zero”,驗(yàn)證了即使在像圍棋這樣最具挑戰(zhàn)性的領(lǐng)域,也可以通過(guò)純強(qiáng)化學(xué)習(xí)的方法自我完善達(dá)到目的。據(jù)介紹,AlphaGo Zero僅經(jīng)過(guò)三天訓(xùn)練,就能以100:0擊敗此前擊敗李世石的AlphaGo Lee,經(jīng)過(guò)21天訓(xùn)練,就能達(dá)到擊敗柯潔的AlphaGo Master的水平。
毫無(wú)疑問(wèn),這又一次引起了學(xué)界大牛的大討論,李開(kāi)復(fù)、馬少平、田淵棟、周志華也紛紛發(fā)表言論。雷鋒網(wǎng) AI科技評(píng)論將他們的觀點(diǎn)整合如下:
李開(kāi)復(fù):不要低估AI發(fā)展速度,正視中美學(xué)術(shù)差距
創(chuàng)新工場(chǎng)董事長(zhǎng)李開(kāi)復(fù)老師看到AlphaGo Zero的消息之后,短短兩句話總結(jié)了他的觀點(diǎn):
一是AI前進(jìn)的速度比想象中更快,即便是行業(yè)內(nèi)的人士都被AlphaGo Zero跌破眼鏡;
二是要正視中國(guó)在人工智能學(xué)術(shù)方面和英美的差距。
隨后,他又發(fā)表文章補(bǔ)充分享了對(duì)AlphaGo Zero的觀點(diǎn)。他表示,雖然AlphaGo Zero的技術(shù)革新并非適用于所有人工智能領(lǐng)域,并且此次沒(méi)有新的巨大的理論突破,但這次它帶來(lái)的影響力也是巨大的。原文如下:
一方面,AlphaGo Zero的自主學(xué)習(xí)帶來(lái)的技術(shù)革新并非適用于所有人工智能領(lǐng)域。圍棋是一種對(duì)弈游戲,是信息透明,有明確結(jié)構(gòu),而且可用規(guī)則窮舉的。對(duì)弈之外,AlphaGo Zero的技術(shù)可能在其他領(lǐng)域應(yīng)用,比如新材料開(kāi)發(fā),新藥的化學(xué)結(jié)構(gòu)探索等,但這也需要時(shí)間驗(yàn)證。而且語(yǔ)音識(shí)別、圖像識(shí)別、自然語(yǔ)音理解、無(wú)人駕駛等領(lǐng)域,數(shù)據(jù)是無(wú)法窮舉,也很難完全無(wú)中生有。AlphaGo Zero的技術(shù)可以降低數(shù)據(jù)需求(比如說(shuō)WayMo的數(shù)據(jù)模擬),但是依然需要大量的數(shù)據(jù)。
另一方面,AlphaGo Zero里面并沒(méi)有新的巨大的理論突破。它使用的Tabula Rosa learning(白板學(xué)習(xí),不用人類知識(shí)),是以前的圍棋系統(tǒng)Crazy Stone最先使用的。AlphaGo Zero里面最核心使用的技術(shù)ResNet,是微軟亞洲研究院的孫劍發(fā)明的。孫劍現(xiàn)任曠視科技Face++首席科學(xué)家。
雖然如此,這篇論文的影響力也是巨大的。AlphaGo Zero 能夠完美集成這些技術(shù),本身就具有里程碑意義。DeepMind的這一成果具有指向標(biāo)意義,證明這個(gè)方向的可行性。
在科研工程領(lǐng)域,探索前所未知的方向是困難重重的,一旦有了可行性證明,跟隨者的風(fēng)險(xiǎn)就會(huì)巨幅下降。我相信從昨天開(kāi)始,所有做圍棋對(duì)弈的研究人員都在開(kāi)始學(xué)習(xí)或復(fù)制AlphaGo Zero。材料、醫(yī)療領(lǐng)域的很多研究員也開(kāi)始探索。
AlphaGo Zero的工程和算法確實(shí)非常厲害。但千萬(wàn)不要對(duì)此產(chǎn)生誤解,認(rèn)為人工智能是萬(wàn)能的,所有人工智能都可以無(wú)需人類經(jīng)驗(yàn)從零學(xué)習(xí),得出人工智能威脅論。AlphaGo Zero證明了AI 在快速發(fā)展,也驗(yàn)證了英美的科研能力,讓我們看到在有些領(lǐng)域可以不用人類知識(shí)、人類數(shù)據(jù)、人類引導(dǎo)就做出頂級(jí)的突破。
但是,AlphaGo Zero只能在單一簡(jiǎn)單領(lǐng)域應(yīng)用,更不具有自主思考、設(shè)定目標(biāo)、創(chuàng)意、自我意識(shí)。即便聰明如 AlphaGo Zero,也是在人類給下目標(biāo),做好數(shù)字優(yōu)化而已。
馬少平:AlphaGo Zero已經(jīng)將計(jì)算機(jī)圍棋做到極致,但也有其局限性
清華大學(xué)計(jì)算機(jī)系教授馬少平也在博客上評(píng)價(jià)了AlphaGo Zero,他表示AlphaGo Zero把計(jì)算機(jī)圍棋做到了極致,隨后將其與之前的版本進(jìn)行了充分對(duì)比,另外,他也表示AlphaGo Zero有其應(yīng)用局限性:
從早上開(kāi)始,就被AlphaGo Zero的消息刷屏了,DeepMind公司最新的論文顯示,最新版本的AlphaGo,完全拋棄了人類棋譜,實(shí)現(xiàn)了從零開(kāi)始學(xué)習(xí)。
對(duì)于棋類問(wèn)題來(lái)說(shuō),在蒙特卡洛樹(shù)搜索的框架下,實(shí)現(xiàn)從零開(kāi)始學(xué)習(xí),我一直認(rèn)為是可行的,也多次與別人討論這個(gè)問(wèn)題,當(dāng)今年初Master推出時(shí),就曾預(yù)測(cè)這個(gè)新系統(tǒng)可能實(shí)現(xiàn)了從零開(kāi)始學(xué)習(xí),可惜根據(jù)DeepMind后來(lái)透露的消息,Master并沒(méi)有完全拋棄人類棋譜,而是在以前系統(tǒng)的基礎(chǔ)上,通過(guò)強(qiáng)化學(xué)習(xí)提高系統(tǒng)的水平,雖然人類棋譜的作用越來(lái)越弱,但是啟動(dòng)還是學(xué)習(xí)了人類棋譜,并沒(méi)有實(shí)現(xiàn)“冷”啟動(dòng)。
根據(jù)DeepMind透露的消息,AlphaGo Zero不但拋棄了人類棋譜,實(shí)現(xiàn)了從零開(kāi)始學(xué)習(xí),連以前使用的人類設(shè)計(jì)的特征也拋棄了,直接用棋盤(pán)上的黑白棋作為輸入,可以說(shuō)是把人類拋棄的徹徹底底,除了圍棋規(guī)則外,不使用人類的任何數(shù)據(jù)和知識(shí)了。僅通過(guò)3天訓(xùn)練,就可以戰(zhàn)勝和李世石下棋時(shí)的AlphaGo,而經(jīng)過(guò)40天的訓(xùn)練后,則可以打敗與柯潔下棋時(shí)的AlphaGo了。
真是佩服DeepMind的這種“把革命進(jìn)行到底”的作風(fēng),可以說(shuō)是把計(jì)算機(jī)圍棋做到了極致。
那么AlphaGo Zero與AlphaGo(用AlphaGo表示以前的版本)都有哪些主要的差別呢?
1、在訓(xùn)練中不再依靠人類棋譜。AlphaGo在訓(xùn)練中,先用人類棋譜進(jìn)行訓(xùn)練,然后再通過(guò)自我互博的方法自我提高。而AlphaGo Zero直接就采用自我互博的方式進(jìn)行學(xué)習(xí),在蒙特卡洛樹(shù)搜索的框架下,一點(diǎn)點(diǎn)提高自己的水平。
2、不再使用人工設(shè)計(jì)的特征作為輸入。在AlphaGo中,輸入的是經(jīng)過(guò)人工設(shè)計(jì)的特征,每個(gè)落子位置,根據(jù)該點(diǎn)及其周圍的棋的類型(黑棋、白棋、空白等)組成不同的輸入模式。而AlphaGo Zero則直接把棋盤(pán)上的黑白棋作為輸入。這一點(diǎn)得益于后邊介紹的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的變化,使得神經(jīng)網(wǎng)絡(luò)層數(shù)更深,提取特征的能力更強(qiáng)。
3、將策略網(wǎng)絡(luò)和價(jià)值網(wǎng)絡(luò)合二為一。在AlphaGo中,使用的策略網(wǎng)絡(luò)和價(jià)值網(wǎng)絡(luò)是分開(kāi)訓(xùn)練的,但是兩個(gè)網(wǎng)絡(luò)的大部分結(jié)構(gòu)是一樣的,只是輸出不同。在AlphaGo Zero中將這兩個(gè)網(wǎng)絡(luò)合并為一個(gè),從輸入到中間幾層是共用的,只是后邊幾層到輸出層是分開(kāi)的。并在損失函數(shù)中同時(shí)考慮了策略和價(jià)值兩個(gè)部分。這樣訓(xùn)練起來(lái)應(yīng)該會(huì)更快吧?
4、網(wǎng)絡(luò)結(jié)構(gòu)采用殘差網(wǎng)絡(luò),網(wǎng)絡(luò)深度更深。AlphaGo Zero在特征提取層采用了多個(gè)殘差模塊,每個(gè)模塊包含2個(gè)卷積層,比之前用了12個(gè)卷積層的AlphaGo深度明顯增加,從而可以實(shí)現(xiàn)更好的特征提取。
5、不再使用隨機(jī)模擬。在AlphaGo中,在蒙特卡洛樹(shù)搜索的過(guò)程中,要采用隨機(jī)模擬的方法計(jì)算棋局的勝率,而在AlphaGo Zero中不再使用隨機(jī)模擬的方法,完全依靠神經(jīng)網(wǎng)絡(luò)的結(jié)果代替隨機(jī)模擬。這應(yīng)該完全得益于價(jià)值網(wǎng)絡(luò)估值的準(zhǔn)確性,也有效加快了搜索速度。
6、只用了4塊TPU訓(xùn)練72小時(shí)就可以戰(zhàn)勝與李世石交手的AlphaGo。訓(xùn)練40天后可以戰(zhàn)勝與柯潔交手的AlphaGo。
對(duì)于計(jì)算機(jī)圍棋來(lái)說(shuō),以上改進(jìn)無(wú)疑是個(gè)重要的突破,但也要正確認(rèn)識(shí)這些突破。比如,之所以可以實(shí)現(xiàn)從零開(kāi)始學(xué)習(xí),是因?yàn)槠孱悊?wèn)題的特點(diǎn)所決定的,是個(gè)水到渠成的結(jié)果。因?yàn)槠孱悊?wèn)題一個(gè)重要的特性就是可以讓機(jī)器自動(dòng)判別最終結(jié)果的勝負(fù),這樣才可以不用人類數(shù)據(jù),自己實(shí)現(xiàn)產(chǎn)生數(shù)據(jù),自我訓(xùn)練,自我提高下棋水平。但是這種方式很難推廣到其他領(lǐng)域,不能認(rèn)為人工智能的數(shù)據(jù)問(wèn)題就解決了。
周志華:?jiǎn)l(fā)式搜索可能因此發(fā)生巨變
南京大學(xué)計(jì)算機(jī)系教授周志華在微博上也第一時(shí)間發(fā)表了他的觀點(diǎn),從多個(gè)方面對(duì)Alphago Zero進(jìn)行了評(píng)價(jià)。
花半小時(shí)看了下文章,說(shuō)點(diǎn)個(gè)人淺見(jiàn),未必正確僅供批評(píng):
1、別幻想什么無(wú)監(jiān)督學(xué)習(xí),監(jiān)督信息來(lái)自精準(zhǔn)規(guī)則,非常強(qiáng)的監(jiān)督信息。
2、不再把圍棋當(dāng)作從數(shù)據(jù)中學(xué)習(xí)的問(wèn)題,回歸到啟發(fā)式搜索這個(gè)傳統(tǒng)棋類解決思路。這里機(jī)器學(xué)習(xí)實(shí)質(zhì)在解決搜索樹(shù)啟發(fā)式評(píng)分函數(shù)問(wèn)題。
3、如果說(shuō)深度學(xué)習(xí)能在模式識(shí)別應(yīng)用中取代人工設(shè)計(jì)特征,那么這里顯示出強(qiáng)化學(xué)習(xí)能在啟發(fā)式搜索中取代人工設(shè)計(jì)評(píng)分函數(shù)。這個(gè)意義重大。啟發(fā)式搜索這個(gè)人工智能傳統(tǒng)領(lǐng)域可能因此巨變,或許不亞于模式識(shí)別計(jì)算機(jī)視覺(jué)領(lǐng)域因深度學(xué)習(xí)而產(chǎn)生的巨變。機(jī)器學(xué)習(xí)進(jìn)一步蠶食其他人工智能技術(shù)領(lǐng)域。
4、類似想法以往有,但常見(jiàn)于小規(guī)模問(wèn)題。沒(méi)想到圍棋這種狀態(tài)空間巨大的問(wèn)題其假設(shè)空間竟有強(qiáng)烈的結(jié)構(gòu),存在統(tǒng)一適用于任意多子局面的評(píng)價(jià)函數(shù)。巨大的狀態(tài)空間誘使我們自然放棄此等假設(shè),所以這個(gè)嘗試相當(dāng)大膽。
5、工程實(shí)現(xiàn)能力超級(jí)強(qiáng),別人即便跳出盲點(diǎn),以啟發(fā)式搜索界的工程能力也多半做不出來(lái)。
6、目前并非普適,只適用于狀態(tài)空間探索幾乎零成本且探索過(guò)程不影響假設(shè)空間的任務(wù)。
田淵棟:AlphaGo Zero 證明了從理論上理解深度學(xué)習(xí)算法的重要性
Facebook 人工智能組研究員田淵棟也在知乎上發(fā)文闡述了他的觀點(diǎn)。他表示,這一方法將成為經(jīng)典。在文中,他也闡述了此次有哪些震驚到他的地方,以及一些推論。
他的原文如下:
老實(shí)說(shuō)這篇Nature要比上一篇好很多,方法非常干凈標(biāo)準(zhǔn),結(jié)果非常好,以后肯定是經(jīng)典文章了。
Policy network和value network放在一起共享參數(shù)不是什么新鮮事了,基本上現(xiàn)在的強(qiáng)化學(xué)習(xí)算法都這樣做了,包括我們這邊拿了去年第一名的Doom Bot,還有ELF里面為了訓(xùn)練微縮版星際而使用的網(wǎng)絡(luò)設(shè)計(jì)。另外我記得之前他們已經(jīng)反復(fù)提到用Value network對(duì)局面進(jìn)行估值會(huì)更加穩(wěn)定,所以最后用完全不用人工設(shè)計(jì)的default policy rollout也在情理之中。
讓我非常吃驚的是僅僅用了四百九十萬(wàn)的自我對(duì)局,每步僅用1600的MCTS rollout,Zero就超過(guò)了去年三月份的水平。并且這些自我對(duì)局里有很大一部分是完全瞎走的。這個(gè)數(shù)字相當(dāng)有意思。想一想圍棋所有合法狀態(tài)的數(shù)量級(jí)是10^170(見(jiàn)Counting Legal Positions in Go:https://tromp.github.io/go/legal.html),五百萬(wàn)局棋所能覆蓋的狀態(tài)數(shù)目也就是10^9這個(gè)數(shù)量級(jí),這兩個(gè)數(shù)之間的比例比宇宙中所有原子的總數(shù)還要多得多。僅僅用這些樣本就能學(xué)得非常好,只能說(shuō)明卷積神經(jīng)網(wǎng)絡(luò)(CNN)的結(jié)構(gòu)非常順應(yīng)圍棋的走法,說(shuō)句形象的話,這就相當(dāng)于看了大英百科全書(shū)的第一個(gè)字母就能猜出其所有的內(nèi)容。用ML的語(yǔ)言來(lái)說(shuō),CNN的inductive bias(模型的適用范圍)極其適合圍棋漂亮精致的規(guī)則,所以稍微給點(diǎn)樣本水平就上去了。反觀人類棋譜有很多不自然的地方,CNN學(xué)得反而不快了。我們經(jīng)??匆?jiàn)跑KGS或者GoGoD的時(shí)候,最后一兩個(gè)百分點(diǎn)費(fèi)老大的勁,也許最后那點(diǎn)時(shí)間完全是花費(fèi)在過(guò)擬合奇怪的招法上。
如果這個(gè)推理是對(duì)的話,那么就有幾點(diǎn)推斷。
一是對(duì)這個(gè)結(jié)果不能過(guò)分樂(lè)觀。我們假設(shè)換一個(gè)問(wèn)題(比如說(shuō)protein folding),神經(jīng)網(wǎng)絡(luò)不能很好擬合它而只能采用死記硬背的方法,那泛化能力就很弱,Self-play就不會(huì)有效果。事實(shí)上這也正是以前圍棋即使用Self-play都沒(méi)有太大進(jìn)展的原因,大家用手調(diào)特征加上線性分類器,模型不對(duì)路,就學(xué)不到太好的東西。一句話,重點(diǎn)不在左右互搏,重點(diǎn)在模型對(duì)路。
二是或許卷積神經(jīng)網(wǎng)絡(luò)(CNN)系列算法在圍棋上的成功,不是因?yàn)樗_(dá)到了圍棋之神的水平,而是因?yàn)槿祟惼迨忠彩怯肅NN的方式去學(xué)棋去下棋,于是在同樣的道路上,或者說(shuō)同樣的inductive bias下,計(jì)算機(jī)跑得比人類全體都快得多。假設(shè)有某種外星生物用RNN的方式學(xué)棋,換一種inductive bias,那它可能找到另一種(可能更強(qiáng)的)下棋方式。Zero用CNN及ResNet的框架在自學(xué)習(xí)過(guò)程中和人類世界中圍棋的演化有大量的相似點(diǎn),在側(cè)面上印證了這個(gè)思路。在這點(diǎn)上來(lái)說(shuō),說(shuō)窮盡了圍棋肯定是還早。
三就是更證明了在理論上理解深度學(xué)習(xí)算法的重要性。對(duì)于人類直覺(jué)能觸及到的問(wèn)題,機(jī)器通過(guò)采用有相同或者相似的inductive bias結(jié)構(gòu)的模型,可以去解決。但是人不知道它是如何做到的,所以除了反復(fù)嘗試之外,人并不知道如何針對(duì)新問(wèn)題的關(guān)鍵特性去改進(jìn)它。如果能在理論上定量地理解深度學(xué)習(xí)在不同的數(shù)據(jù)分布上如何工作,那么我相信到那時(shí)我們回頭看來(lái),針對(duì)什么問(wèn)題,什么數(shù)據(jù),用什么結(jié)構(gòu)的模型會(huì)是很容易的事情。我堅(jiān)信數(shù)據(jù)的結(jié)構(gòu)是解開(kāi)深度學(xué)習(xí)神奇效果的鑰匙。
另外推測(cè)一下為什么要用MCTS而不用強(qiáng)化學(xué)習(xí)的其它方法(我不是DM的人,所以肯定只能推測(cè)了)。MCTS其實(shí)是在線規(guī)劃(online planning)的一種,從當(dāng)前局面出發(fā),以非參數(shù)方式估計(jì)局部Q函數(shù),然后用局部Q函數(shù)估計(jì)去決定下一次rollout要怎么走。既然是規(guī)劃,MCTS的限制就是得要知道環(huán)境的全部信息,及有完美的前向模型(forward model),這樣才能知道走完一步后是什么狀態(tài)。圍棋因?yàn)橐?guī)則固定,狀態(tài)清晰,有完美快速的前向模型,所以MCTS是個(gè)好的選擇。但要是用在Atari上的話,就得要在訓(xùn)練算法中內(nèi)置一個(gè)Atari模擬器,或者去學(xué)習(xí)一個(gè)前向模型(forward model),相比actor-critic或者policy gradient可以用當(dāng)前狀態(tài)路徑就地取材,要麻煩得多。但如果能放進(jìn)去那一定是好的,像Atari這樣的游戲,要是大家用MCTS我覺(jué)得可能不用學(xué)policy直接當(dāng)場(chǎng)planning就會(huì)有很好的效果。很多文章都沒(méi)比,因?yàn)楸攘司筒缓猛媪恕?/p>
另外,這篇文章看起來(lái)實(shí)現(xiàn)的難度和所需要的計(jì)算資源都比上一篇少很多,我相信過(guò)不了多久就會(huì)有人重復(fù)出來(lái),到時(shí)候應(yīng)該會(huì)有更多的insight。大家期待一下吧。
幾位大牛從各個(gè)方面,全方位對(duì)AlphaGo Zero進(jìn)行了分析??赐赀@些分析的你,想必對(duì)AlphaGo Zero有了更深層次的理解。更多資訊敬請(qǐng)關(guān)注雷鋒網(wǎng) AI科技評(píng)論。
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。