機(jī)器自學(xué)72小時(shí)堪比國(guó)際大師，深度學(xué)習(xí)到底有多厲害？

本文作者：小芹菜

2016-01-28 11:45

導(dǎo)語(yǔ)：電腦與真人對(duì)戰(zhàn)時(shí)，它相當(dāng)于FIDE（世界國(guó)際象棋聯(lián)合會(huì)）國(guó)際大師水平，位列國(guó)際象棋錦標(biāo)賽選手的前2.2%。

【編者按】本文是雷鋒網(wǎng)2015年9月份發(fā)出的文章，由知社學(xué)術(shù)圈王鵬編譯，原標(biāo)題《深度學(xué)習(xí)機(jī)器自學(xué)國(guó)際象棋72小時(shí)，媲美國(guó)際大師》，文章來(lái)源：MIT Technology Review。

谷歌旗下Deep MInd創(chuàng)始人宣布了谷歌在人工智能領(lǐng)域取得重要進(jìn)展：開(kāi)發(fā)出一款能夠在圍棋中擊敗職業(yè)選手的程序——AlphaGo，《Nature》雜志也以封面論文的形式，介紹了AlphaGo擊敗歐洲圍棋冠軍樊麾，并將在 3 月和世界冠軍李世乭對(duì)戰(zhàn)。在此之前，有專家提到人工智能機(jī)器——“長(zhǎng)頸鹿”，它可以通過(guò)自學(xué)從而像人類那樣通過(guò)評(píng)估局勢(shì)來(lái)下棋，這完全顛覆了傳統(tǒng)象棋程序。

機(jī)器自學(xué)72小時(shí)堪比國(guó)際大師，深度學(xué)習(xí)到底有多厲害？

自IBM研發(fā)的超級(jí)計(jì)算機(jī)深藍(lán)首次在標(biāo)準(zhǔn)錦標(biāo)賽規(guī)則下?lián)魯?guó)際象棋世界冠軍加里·卡斯帕羅夫至今已近20年。從那時(shí)以來(lái)，電腦象棋選手不斷完善強(qiáng)大，以致頂尖人類棋手在面對(duì)一臺(tái)運(yùn)行現(xiàn)代象棋程序的智能手機(jī)時(shí)，恐怕也機(jī)會(huì)渺茫。

雖然計(jì)算機(jī)的運(yùn)行速度越來(lái)越快，但象棋程序的工作模式并沒(méi)有改變。他們的強(qiáng)大始終依賴于窮舉法，即遍歷所有未來(lái)可能性以選擇最佳棋路的過(guò)程。

當(dāng)然，沒(méi)有哪個(gè)人類可以做到這一點(diǎn)，哪怕做得接近也絕無(wú)可能。當(dāng)深藍(lán)以每秒2億步的速度進(jìn)行搜索計(jì)算的時(shí)候，卡斯帕羅夫可能頂多在進(jìn)行著每秒5步的思考。不過(guò)他依然可以下出同樣的水準(zhǔn)。顯然，人類掌握著計(jì)算機(jī)所尚未精通的奧妙。

問(wèn)題的關(guān)鍵在于評(píng)估盤面局勢(shì)并縮減最優(yōu)棋路的搜索。這將大幅簡(jiǎn)化計(jì)算工作，好比代表棋路可能性的繁茂大樹(shù)被修剪到只剩幾條枝干。

計(jì)算機(jī)向來(lái)不擅長(zhǎng)這樣的工作，但今天憑借帝國(guó)理工學(xué)院馬修·萊的努力，事情有了改變。

萊制造了一臺(tái)人工智能機(jī)器并取名為長(zhǎng)頸鹿，它可以通過(guò)自學(xué)從而像人類那樣通過(guò)評(píng)估局勢(shì)來(lái)下棋，這完全顛覆了傳統(tǒng)象棋程序。

直接應(yīng)用的結(jié)果就是，這臺(tái)新機(jī)器與頂級(jí)傳統(tǒng)象棋程序達(dá)到同一水平，而這些傳統(tǒng)程序多年來(lái)已有所優(yōu)化。同真人對(duì)戰(zhàn)時(shí)，它相當(dāng)于FIDE（世界國(guó)際象棋聯(lián)合會(huì)）國(guó)際大師水平，位列國(guó)際象棋錦標(biāo)賽選手的前2.2%。

萊的新機(jī)器背后所依靠的技術(shù)是神經(jīng)網(wǎng)絡(luò)系統(tǒng)。這是一種以人類大腦為原型的信息處理模式。它包含多層節(jié)點(diǎn)，節(jié)點(diǎn)彼此連結(jié)并可通過(guò)訓(xùn)練對(duì)系統(tǒng)變化作出反饋。該訓(xùn)練過(guò)程采用了大量實(shí)例對(duì)節(jié)點(diǎn)連結(jié)進(jìn)行微調(diào)，使神經(jīng)網(wǎng)絡(luò)可以根據(jù)特定的輸入產(chǎn)生特定輸出。例如，在圖片中進(jìn)行面部識(shí)別。

機(jī)器自學(xué)72小時(shí)堪比國(guó)際大師，深度學(xué)習(xí)到底有多厲害？

近幾年，神經(jīng)網(wǎng)絡(luò)的迅猛發(fā)展得益于兩項(xiàng)進(jìn)步。首先是隨著神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)，對(duì)如何進(jìn)行微調(diào)有了進(jìn)一步理解。這要部分歸功于運(yùn)算更快的計(jì)算機(jī)；第二是海量注釋數(shù)據(jù)集的出現(xiàn)，使神經(jīng)網(wǎng)絡(luò)得以更好地學(xué)習(xí)。

這些成果使計(jì)算機(jī)科學(xué)家可以訓(xùn)練更龐大的劃分為多層級(jí)的神經(jīng)網(wǎng)絡(luò)。這些所謂的深度神經(jīng)網(wǎng)絡(luò)功能已非常強(qiáng)大，并已在日常的模式識(shí)別工作上較人類更為勝任，比如人臉識(shí)別以及手寫識(shí)別。

所以，深度神經(jīng)網(wǎng)絡(luò)能夠在國(guó)際象棋中進(jìn)行模式發(fā)掘并不奇怪，這也正是萊所采用的方法。他的網(wǎng)絡(luò)系統(tǒng)包括四個(gè)層次，以三種方法共同判斷棋盤上的每一個(gè)狀態(tài)：

系統(tǒng)首先會(huì)觀察比賽全局，比如雙方的棋子數(shù)量與類型，哪方移動(dòng)，王車易位權(quán)等等；進(jìn)一步，系統(tǒng)檢查棋子相關(guān)信息，如各方每個(gè)棋子的位置；最后繪制出每個(gè)棋子的攻防格局。

萊用于其神經(jīng)網(wǎng)絡(luò)系統(tǒng)的訓(xùn)練數(shù)據(jù)素材謹(jǐn)慎選自真實(shí)象棋比賽。此數(shù)據(jù)集必須具有正確的象棋布局?！氨热缯f(shuō)，訓(xùn)練系統(tǒng)掌握每方有三個(gè)皇后的棋局就沒(méi)有意義，因?yàn)檫@種布局根本不會(huì)出現(xiàn)在實(shí)戰(zhàn)當(dāng)中”，他講到。

除了在高水平國(guó)際象棋比賽上經(jīng)常見(jiàn)到的局面之外，它還必須包含大量多樣的非均勢(shì)棋局。因?yàn)楸M管在真實(shí)象棋比賽中很少出現(xiàn)實(shí)力懸殊的狀況，但在計(jì)算機(jī)內(nèi)部執(zhí)行的搜索中，它們依然會(huì)頻繁出現(xiàn)。

機(jī)器自學(xué)72小時(shí)堪比國(guó)際大師，深度學(xué)習(xí)到底有多厲害？

此數(shù)據(jù)集需要具有相當(dāng)?shù)囊?guī)模。在訓(xùn)練過(guò)程中對(duì)神經(jīng)網(wǎng)絡(luò)中海量連結(jié)的微調(diào)只能建立在龐大數(shù)據(jù)集的基礎(chǔ)上完成。如果采用較小的數(shù)據(jù)集，則會(huì)導(dǎo)致神經(jīng)網(wǎng)絡(luò)無(wú)法識(shí)別真實(shí)世界中千變?nèi)f化的模式。

萊從計(jì)算機(jī)國(guó)際象棋比賽的數(shù)據(jù)庫(kù)中隨機(jī)選取了500萬(wàn)種盤面狀態(tài)以生成他的數(shù)據(jù)集。然后他給每個(gè)狀態(tài)隨機(jī)添加一步合理走法以創(chuàng)建更多的變化，最后應(yīng)用于訓(xùn)練。通過(guò)這種方式，他總共生成了1.75億種盤面狀態(tài)。

訓(xùn)練機(jī)器的通常做法是人工評(píng)估每個(gè)盤面局勢(shì)并將此信息輸入計(jì)算機(jī)使其可以識(shí)別棋局的強(qiáng)弱。

對(duì)于1.75億種盤面來(lái)說(shuō)這是巨大的工作量。雖然這可以通過(guò)另一個(gè)象棋程序來(lái)完成，但萊有更大的期望，他希望機(jī)器能夠自主學(xué)習(xí)。

所以，他采用了一種自舉法技術(shù)使長(zhǎng)頸鹿通過(guò)與自己對(duì)戰(zhàn)來(lái)提高其對(duì)未來(lái)棋局評(píng)估的預(yù)測(cè)能力。這個(gè)方法切實(shí)可行，因?yàn)槊恳环N走法都有其對(duì)應(yīng)的參考分?jǐn)?shù)來(lái)最終決定其價(jià)值——無(wú)論比賽最后是勝，是負(fù)，還是平局。

通過(guò)這種方式，計(jì)算機(jī)可以掌握哪些局勢(shì)是有利的，哪些是弱勢(shì)的。

對(duì)長(zhǎng)頸鹿訓(xùn)練后，最后一步要進(jìn)行測(cè)試，而結(jié)果非常有趣。萊采用一個(gè)名為戰(zhàn)略測(cè)試套件的標(biāo)準(zhǔn)數(shù)據(jù)庫(kù)對(duì)他的機(jī)器進(jìn)行測(cè)試，它包含了1500種預(yù)置棋局以檢測(cè)象棋程序識(shí)別各種戰(zhàn)略構(gòu)想的能力。“比如，有一個(gè)設(shè)定可以測(cè)試對(duì)開(kāi)放線控制的理解，另一個(gè)可以檢驗(yàn)對(duì)象和馬的價(jià)值在不同情況下如何變化以及對(duì)各自影響的理解，還有一種設(shè)定能夠檢驗(yàn)對(duì)中心控制的理解”，他說(shuō)。

測(cè)試結(jié)果以15000分為滿分。

萊使用這種辦法對(duì)機(jī)器的不同學(xué)習(xí)階段進(jìn)行了測(cè)試。在自舉過(guò)程開(kāi)始時(shí)，長(zhǎng)頸鹿很快達(dá)到了6000分的成績(jī)并經(jīng)過(guò)72小時(shí)最終攀升至9700分。萊表示這已可以匹敵世界上最強(qiáng)的國(guó)際象棋程序。

機(jī)器自學(xué)72小時(shí)堪比國(guó)際大師，深度學(xué)習(xí)到底有多厲害？

“（這成績(jī)）很了不起，因?yàn)槟切┰u(píng)測(cè)功能都是由人們精心設(shè)計(jì)并包含數(shù)百個(gè)參數(shù)的巨物，在過(guò)去多年中還經(jīng)過(guò)了人為和自動(dòng)的調(diào)試，其中很多都出自象棋大師之手。”他補(bǔ)充道。

萊繼續(xù)使用同樣的機(jī)器學(xué)習(xí)方法來(lái)確定一步既定走法是否值得實(shí)施的機(jī)率。這一點(diǎn)非常重要，因?yàn)檫@將避免不必要的對(duì)無(wú)用枝干的深度搜索，從而大幅提高計(jì)算效率。

萊稱這種概率方法有46%的機(jī)率預(yù)測(cè)出最佳走法，并有70%的機(jī)率將最佳走法列在前三種選擇里。所以計(jì)算機(jī)無(wú)需檢測(cè)其他走法。

這項(xiàng)有趣的工作標(biāo)志著國(guó)際象棋程序運(yùn)算方式的巨大變革。當(dāng)然，它尚不完美。長(zhǎng)頸鹿的一個(gè)缺點(diǎn)就是神經(jīng)網(wǎng)絡(luò)相比其他類型的數(shù)據(jù)處理速度要慢很多。萊談到要搜索同樣數(shù)量的棋局，長(zhǎng)頸鹿所花費(fèi)的時(shí)間比傳統(tǒng)象棋程序要多出10倍。

不過(guò)即便有所不足，它仍然很有競(jìng)爭(zhēng)力?！伴L(zhǎng)頸鹿在現(xiàn)代主流PC機(jī)上運(yùn)行可以達(dá)到FIDE國(guó)際象棋大師水平”，萊介紹到。相比之下，頂級(jí)的象棋程序可以達(dá)到超級(jí)大師水平。

這已經(jīng)非常棒了。

“與當(dāng)今眾多象棋程序不同，長(zhǎng)頸鹿的下棋本領(lǐng)并非來(lái)自對(duì)前方可能性的探查，而是源于對(duì)當(dāng)前錯(cuò)綜局勢(shì)的精確評(píng)估，以及對(duì)復(fù)雜棋局概念的理解。這些概念對(duì)人來(lái)說(shuō)非常直觀，但長(zhǎng)久以來(lái)對(duì)象棋程序卻難于理解。”萊講到，“這一點(diǎn)在開(kāi)局和殘局階段非常重要，而它在此表現(xiàn)得尤為出色?！?/strong>

這僅僅是個(gè)開(kāi)始。萊表示這種方法應(yīng)該直接應(yīng)用于其他游戲當(dāng)中，很明顯的例子就是傳統(tǒng)中國(guó)圍棋，目前人類相比于他們的硅制對(duì)手仍掌握著絕對(duì)優(yōu)勢(shì)。也許萊在未來(lái)能夠有所突破。

【作者介紹】知社學(xué)術(shù)圈，海歸學(xué)者發(fā)起的公益學(xué)術(shù)交流平臺(tái)，旨在分享學(xué)術(shù)信息，整合學(xué)術(shù)資源，加強(qiáng)學(xué)術(shù)交流，促進(jìn)學(xué)術(shù)進(jìn)步。

2、智慧之巔，30年來(lái)AI宗師們的那點(diǎn)事

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。

1人收藏

分享：

相關(guān)文章

超級(jí)計(jì)算機(jī)深藍(lán) 深度學(xué)習(xí) 加里·卡斯帕羅夫 MIT 帝國(guó)理工學(xué)院

致 IBM Watson：六年過(guò)去，昔日的人工智能老大哥你還 ...

擁抱人工智能時(shí)代既要熱情也要理性

傅盛：深度學(xué)習(xí)是一種新的思維方式

Google人工智能攻破了圍棋，然后呢？

小芹菜

編輯

雷鋒網(wǎng)編輯，AI慕課學(xué)院負(fù)責(zé)人。關(guān)注智能駕駛與金融科技，歡迎來(lái)撩：www.mooc.ai。

發(fā)私信

當(dāng)月熱門文章

最新文章

“因其偉大，故而艱難”，資深科普作家陳宗周解碼AI七十年

跨境電商如果還在靠堆人力，很快就要被淘汰 | 鯨犀百人談No.34

錯(cuò)過(guò)中國(guó)直播帶貨，別再失守美國(guó)私域黃金期 | 鯨犀百人談No.33

驗(yàn)證碼的發(fā)展史與未來(lái)預(yù)測(cè) | 科普

機(jī)器學(xué)習(xí)算法中分類知識(shí)總結(jié)！

神經(jīng)網(wǎng)絡(luò)淺講：從神經(jīng)元到深度學(xué)習(xí)

熱門搜索

360 物聯(lián)網(wǎng) 聯(lián)想英偉達(dá) 日?qǐng)?bào) 智能電視地平線量子計(jì)算共享單車 Galaxy S5 Fitbit

機(jī)器自學(xué)72小時(shí)堪比國(guó)際大師，深度學(xué)習(xí)到底有多厲害？

機(jī)器自學(xué)72小時(shí)堪比國(guó)際大師，深度學(xué)習(xí)到底有多厲害？