0
本文作者: 老王 | 2017-03-23 17:43 |
3月19日,在第10屆UEC杯世界計(jì)算機(jī)圍棋賽上,決賽中由騰訊 AI Lab(騰訊人工智能實(shí)驗(yàn)室)研發(fā)的圍棋人工智能程序“絕藝”(Fine Art)擊敗日本開發(fā)的“DeepZenGo”(天頂),以11戰(zhàn)全勝的戰(zhàn)績(jī)奪冠。
今年共有30支軟件參加此次大賽。繼18日的循環(huán)積分賽中,“絕藝“以七局全勝戰(zhàn)績(jī)進(jìn)入16強(qiáng)后,又以四連勝戰(zhàn)績(jī)奪得本屆UEC杯冠軍,日本“DeepZenGo”獲亞軍。
為此,雷鋒網(wǎng)特地采訪了騰訊AI Lab高級(jí)總監(jiān)、絕藝團(tuán)隊(duì)負(fù)責(zé)人劉永升,內(nèi)容關(guān)于絕藝團(tuán)隊(duì)的組成、未來(lái)在其他領(lǐng)域的應(yīng)用、背后的云計(jì)算、魯棒性優(yōu)化,AI面對(duì)圍棋打劫等問題。
雷鋒網(wǎng):騰訊圍棋AI“絕藝”打敗日本的DeepZenGo,贏得了UEC電腦圍棋大賽?!敖^藝”獲勝展示了一個(gè)什么樣的AI技術(shù)水平?
很高興‘絕藝’能夠在UEC杯奪冠,這次比賽中有許多優(yōu)秀的圍棋AI團(tuán)隊(duì),比如deepzengo,我們尊敬這些對(duì)手和同行。這次比賽是非常難得的寶貴經(jīng)驗(yàn)。絕藝”參加UEC比賽包括和一力遼下棋,實(shí)際上更多的是為了學(xué)術(shù)交流,也讓“絕藝”在和高手的對(duì)決中更好地成長(zhǎng)。
絕藝涵蓋了人工智能最熱門的研究領(lǐng)域——深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí),經(jīng)過人類棋譜和機(jī)器自對(duì)弈的學(xué)習(xí)過程,算法基于策略網(wǎng)絡(luò)與價(jià)值網(wǎng)絡(luò)兩大核心,并創(chuàng)新性大幅提升了后者精度。
當(dāng)然,絕藝的研究對(duì)騰訊AI Lab的價(jià)值也不止于圍棋AI本身,它幫助我們?cè)谏疃葘W(xué)習(xí)、強(qiáng)化學(xué)習(xí)方面進(jìn)行了非常有價(jià)值的探索和創(chuàng)新,這些都將為將來(lái)的研究奠定很好的基礎(chǔ)。
雷鋒網(wǎng):“絕藝”的團(tuán)隊(duì)組成是什么樣的,有哪些技術(shù)人才?
AI Lab隸屬于騰訊技術(shù)工程事業(yè)群TEG旗下,TEG一直以來(lái)是騰訊技術(shù)的基礎(chǔ)設(shè)施大本營(yíng),為其他BG提供技術(shù)支撐。AI Lab于2016年成立,專注與AI領(lǐng)域的基礎(chǔ)科學(xué)研究和應(yīng)用探索,目前有50余位世界知名學(xué)院的AI科學(xué)家(90%為博士)、及200多位經(jīng)驗(yàn)豐富的工程師。
團(tuán)隊(duì)是由13位年輕人組成的。一半人做算法研究,一半人做算法實(shí)現(xiàn)。所有成員全部隸屬騰訊AI Lab?!敖^藝”項(xiàng)目除了有騰訊圍棋上的圍棋高手指導(dǎo),在公司內(nèi)部中還有一些行家,比如AI Lab負(fù)責(zé)人姚星是業(yè)余2-3段、TEG總裁盧山總是業(yè)余五段,我們后期還請(qǐng)到羅冼河九段來(lái)做“絕藝”的陪練。
雷鋒網(wǎng):談?wù)劇敖^藝”的訓(xùn)練過程和“絕藝”幾個(gè)關(guān)鍵性的迭代和野狐平臺(tái)訓(xùn)練的作用?就是不斷發(fā)現(xiàn)問題,修復(fù)問題的過程。圍棋AI不比其他,必須要像羅洗河老師這樣不僅棋力水平超過,并且懂計(jì)算機(jī)的天才,才能很好的發(fā)現(xiàn)AI對(duì)弈過程中存在的問題。
迭代方面,絕藝最初的id是“虎虎有生氣”,主要和業(yè)余強(qiáng)手下,對(duì)野狐9段的勝率大概是70%左右;9月份開始,開始使用“野狐掃地僧”,主要和弱職業(yè)(指棋手段位)、強(qiáng)9下,勝率大概是80%左右;10月份使用“天下無(wú)狗“的ID,還是和弱職業(yè)、強(qiáng)9下,勝率可以到90%。絕藝在11月份輸給 煉心(時(shí)越)之后閉關(guān),主要是大幅度提升了價(jià)值網(wǎng)絡(luò)的精度,隨后是以刑天的id亮相,短暫使用過“刑天”和“酈龍”兩個(gè)名字?!敖^藝”這個(gè)id登錄是從去年11月1日開始登錄,截至昨日在野狐圍棋上對(duì)戰(zhàn)388勝,120負(fù),勝率76%。
“絕藝”與其他圍棋AI最大的不同之處,是在成長(zhǎng)上得到了世界超一流棋手的指導(dǎo)。在高手云集的騰訊圍棋(野狐圍棋)平臺(tái)上,它與人類棋手不斷交流,在對(duì)戰(zhàn)中學(xué)習(xí),騰訊圍棋(野狐圍棋)上強(qiáng)手如云的競(jìng)技氛圍給予很大幫助。這也是AI Lab對(duì)于絕藝的期待——希望它能與人類棋手積極互動(dòng),從而激發(fā)更多關(guān)注并傳承圍棋這一中國(guó)傳統(tǒng)文化。這是我們的一種科技責(zé)任感。
雷鋒網(wǎng):細(xì)化到棋譜層面,你們用哪些棋譜來(lái)訓(xùn)練絕藝的?相比而言是錯(cuò)綜復(fù)雜且多樣化的普通棋譜重要,還是高手與高手之間的頂級(jí)棋譜更重要?你們?cè)谟?xùn)練期間如何分配兩類棋譜的比例?
都很重要,AI自對(duì)弈棋局的量會(huì)比人類棋局多非常多。
雷鋒網(wǎng):“絕藝”這次參加的是電腦圍棋比賽,這與人機(jī)對(duì)戰(zhàn)有什么不一樣?
人比較狡猾,但人容易犯錯(cuò);機(jī)器比較老實(shí),但幾乎不犯錯(cuò)。
UEC杯是世界權(quán)威的計(jì)算機(jī)圍棋大賽,由日本電氣通信大學(xué)于2007年創(chuàng)辦,承載了計(jì)算機(jī)攻克圍棋項(xiàng)目的使命。一直以來(lái),UEC杯都是人工智能領(lǐng)域的一項(xiàng)盛事,既是各國(guó)人工智能研發(fā)的實(shí)戰(zhàn)演練機(jī)會(huì),也是世界各團(tuán)隊(duì)間技術(shù)交流的平臺(tái)。大賽活躍的團(tuán)隊(duì)DeepZenGo、瘋石、石子旋風(fēng)等都是水平很高的明星程序。
比賽對(duì)于活化圍棋領(lǐng)域、促進(jìn)AI科技發(fā)展有重大作用,并不是單純?yōu)榱藳Q出最強(qiáng)AI,我們參與UEC比賽也是抱著與同行交流切磋的心態(tài)。
雷鋒網(wǎng):“絕藝”背后的硬件配置什么樣的?在絕藝這個(gè)項(xiàng)目上,騰訊云對(duì)內(nèi)提供了哪些能力?這些能力是如何轉(zhuǎn)化為產(chǎn)品和服務(wù)?對(duì)其他參賽團(tuán)隊(duì)來(lái)說,此事背后的騰訊云有哪些技術(shù)優(yōu)勢(shì)?
“絕藝”的學(xué)習(xí)主要包括人類棋譜數(shù)據(jù)庫(kù)和機(jī)器自對(duì)弈,它的算法基于策略網(wǎng)絡(luò)與價(jià)值網(wǎng)絡(luò)兩大核心,并創(chuàng)新性地大幅提升了價(jià)值網(wǎng)絡(luò)的精度,使其大局觀表現(xiàn)更好。通俗的說,“策略”指每一步博弈時(shí),各種選擇的取舍,選好棋棄差棋,這是偏微觀評(píng)估;而“價(jià)值”則指能看懂棋局,判斷給定棋局是不是能贏,這是偏宏觀的評(píng)估。
“絕藝”背后,是深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)這兩個(gè)機(jī)器學(xué)習(xí)十分熱門的研究領(lǐng)域,它的總體框架遵循AlphaGo去年1月在《Nature》上發(fā)表的文章,是一個(gè)純機(jī)器學(xué)習(xí)系統(tǒng),但在實(shí)踐中做了超出論文的創(chuàng)新。
舉例來(lái)說,現(xiàn)代強(qiáng)化學(xué)習(xí)的核心,是用先進(jìn)的機(jī)器學(xué)習(xí)算法作模擬器,生成高質(zhì)量、實(shí)際有效的數(shù)據(jù)(experience replay) - 這個(gè)過程在圍棋AI中被稱為自對(duì)弈。通過這個(gè)方法,可以讓得學(xué)習(xí)到的模型不斷通過強(qiáng)化生成的數(shù)據(jù)來(lái)自我提高。
在訓(xùn)練“絕藝”的機(jī)器學(xué)習(xí)模型過程中,我們探索了一些全新、而且非常有效的強(qiáng)化學(xué)習(xí)方法,能創(chuàng)造出更優(yōu)質(zhì)的自我模擬數(shù)據(jù),從而導(dǎo)致了更強(qiáng)的模型。比如,和很多其他圍棋AI相比,絕藝的對(duì)殺能力會(huì)更強(qiáng)。AI Lab構(gòu)造“絕藝”的經(jīng)驗(yàn),積累了一系列有效的方法,可以通過自我學(xué)習(xí)產(chǎn)生高質(zhì)量的強(qiáng)化學(xué)習(xí)數(shù)據(jù)。這些方法可以應(yīng)用在很多別的場(chǎng)景之中。
至于大家很關(guān)心的硬件系統(tǒng),“絕藝”的線上系統(tǒng)有單機(jī)版和多機(jī)版:?jiǎn)螜C(jī)版差距和多機(jī)版沒有大家想的那樣大。而多機(jī)版所用的機(jī)器資源比DeepMind公開數(shù)據(jù)所透露的要少,所以絕藝不用靠資源取勝。
此外,在訓(xùn)練中絕藝?yán)昧蓑v訊的云計(jì)算資源生成高質(zhì)量數(shù)據(jù),提升了提算法創(chuàng)新速度。這些計(jì)算資源在行業(yè)內(nèi)都可以通過騰訊云對(duì)外服務(wù)直接獲取。
雷鋒網(wǎng):絕藝在2月10日時(shí)在野狐圍棋被幾位棋手連殺幾局,隨后被下線調(diào)整。當(dāng)時(shí)到底遇到了哪些問題,你們?yōu)榇俗隽四男┱{(diào)整?
我們?cè)跍y(cè)試 布局、中盤、官子三個(gè)階段的平衡,加強(qiáng)中盤之后,對(duì)殺問題就不存在了。
雷鋒網(wǎng):AlphaGo與李世石的第四場(chǎng)對(duì)戰(zhàn)期間,第78手后連續(xù)出現(xiàn)了嚴(yán)重的錯(cuò)誤,這里就涉及到機(jī)器魯棒性的問題。那么絕藝是如何優(yōu)化魯棒性的?
不管是人還是AI,關(guān)鍵時(shí)刻犯錯(cuò),那都是致命的。提升魯棒性,關(guān)鍵還是要提高策略網(wǎng)絡(luò)、估值網(wǎng)絡(luò)的精度,這是一個(gè)緩慢提升的過程。
雷鋒網(wǎng):周志華教授之前提到圍棋中的“打劫”手段會(huì)讓價(jià)值網(wǎng)絡(luò)崩潰,微軟的鄭宇也說到?jīng)]有了價(jià)值網(wǎng)絡(luò)的AlphaGo其實(shí)水平也就職業(yè)3段左右,很多人也發(fā)現(xiàn)AlphaGo確實(shí)會(huì)有意避開打劫。那么絕藝在解決“打劫”問題方面有哪些研究?
絕藝在大量的實(shí)戰(zhàn)中從來(lái)不會(huì)規(guī)避打劫,從來(lái)沒有碰到打劫奔潰的現(xiàn)象。和超一流高手交手中,絕藝的打劫表現(xiàn)出非常高的水平。我們并沒有針對(duì)打劫做優(yōu)化,AI不會(huì)打劫更待商榷。
雷鋒網(wǎng):你們打算將“絕藝”系統(tǒng)的相關(guān)技術(shù)應(yīng)用于哪些領(lǐng)域?李開復(fù)曾說 “AlphaGo其實(shí)做了相當(dāng)多的圍棋領(lǐng)域的優(yōu)化,除了系統(tǒng)調(diào)整整合之外,里面甚至還有人工設(shè)定和調(diào)節(jié)的一些參數(shù),因此還不能算是一個(gè)通用技術(shù)平臺(tái),不是一個(gè)工程師經(jīng)過調(diào)動(dòng)API就可以使用的,而且還距離比較遠(yuǎn)。”絕藝除了圍棋外,要應(yīng)用在其他領(lǐng)域需要解決哪些問題?
從應(yīng)用價(jià)值上,短期看,騰訊圍棋是本身國(guó)內(nèi)最大、最活躍的的圍棋平臺(tái)之一,做得好,可能馬上就會(huì)有很多人能用上;中期看,AI Lab關(guān)注四大應(yīng)用方向:內(nèi)容AI、游戲AI、社交AI和平臺(tái)工具型AI,圍棋AI就和其中的游戲AI密不可分,是比較獨(dú)有且創(chuàng)新的應(yīng)用場(chǎng)景;長(zhǎng)期來(lái)看,‘絕藝’背后‘精準(zhǔn)決策’的AI能力,也能在無(wú)人駕駛、量化金融、輔助醫(yī)療等地方應(yīng)用。如果從圍棋AI的完美對(duì)稱博弈系統(tǒng),進(jìn)化到不完美對(duì)稱博弈系統(tǒng),也就是能處理現(xiàn)實(shí)中更常見的不確定性問題時(shí),這里的想象空間非常巨大,當(dāng)然也是比較長(zhǎng)遠(yuǎn)的應(yīng)用了。
通過打造“全面AI能力”,騰訊的愿景是讓真正的人工智能未來(lái)無(wú)處不在(Make AIEverywhere),深入到生活中,用AI提升人類的生活品質(zhì)。AI的未來(lái),不僅僅是提供更安全、高效、便捷的智能工具,更要成為每個(gè)人心中的超級(jí)英雄“大白”,讓小朋友更“被理解”,不會(huì)因父母不在身邊而缺少陪伴;讓成年人更“被保護(hù)”,不會(huì)因工作的危險(xiǎn)讓自身安全沒保障;讓老年人更“被照顧”,不會(huì)因身處偏遠(yuǎn)山區(qū)而得不到及時(shí)治療。
雷鋒網(wǎng):對(duì)非AI公司以及普通大眾來(lái)說,絕藝取得大賽冠軍這件事有哪些意義,應(yīng)該怎么看待這個(gè)事情?
比賽并不是單純?yōu)榱藳Q出最強(qiáng)AI,而是對(duì)于活化圍棋領(lǐng)域、促進(jìn)AI科技發(fā)展有重大作用。AI Lab對(duì)于絕藝的期待也是如此,希望它能與人類棋手的積極互動(dòng),能激發(fā)更多關(guān)注并傳承圍棋這一中國(guó)傳統(tǒng)文化。這是我們的一種科技責(zé)任感。
在未來(lái)我們也會(huì)將絕藝的技術(shù)開放出來(lái),助力圍棋AI的技術(shù)研究,從而更好地傳承圍棋文化。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。