9
Google日前宣布其程序AlphaGo擊敗了歐洲圍棋職業(yè)選手,這意味著人工智能技術(shù)又或得了極大的突破。
計算機目前已經(jīng)在許多智力游戲比賽上戰(zhàn)勝了人類頂級選手,包括國際象棋、五子棋、黑白棋、拼字游戲等等。而對于有著2500年歷史的東方游戲圍棋——比國際象棋要復雜得多——人類始終能夠保持在和計算機對決中的勝利。不過,Google人工智能專家表示, 這個壁壘或許很快將要被打破。隨著AlphaGo在沒有任何讓子的情況下以5:0完勝法國圍棋職業(yè)二段棋手樊麾,AlphaGo將在三月份對戰(zhàn)韓國九段棋手李世乭。
今天早上,《自然》雜志發(fā)表了一篇Google DeepMind團隊——程序AlphaGo的創(chuàng)造者撰寫的關(guān)于深度學習系統(tǒng)的論文。根據(jù)論文描述,在AlphaGo中,DeepMind研究員在程序中錄入了大量職業(yè)棋手的棋譜——加起來多達3000萬步——他們用增強學習的方法訓練AI,讓它自己下棋,研習棋譜。不過這只是第一步。理論上,這樣的訓練只能讓這個人工智能系統(tǒng)無法突破人類的計算。為了獲得更好的成績,研究員隨后讓系統(tǒng)進行自我博弈,計算出比基礎(chǔ)棋譜更多新的打點。也就是說,戰(zhàn)勝人類就要靠這些新的東西。
“這其中最重要的是,AlphaGo不僅記錄著大量的棋譜,還有一系列規(guī)則來指導‘思考’,”DeepMind CEO Demis Hassabis說道,“事實上,該程序能夠通過機器學習的方式掌握比賽技巧?!?/p>
DeepMind的技術(shù)核心結(jié)合了“強化學習”及其他人工智能手段,這種技術(shù)能夠用于解決現(xiàn)實機器人執(zhí)行物理任務和對環(huán)境作出回應的技術(shù)問題。就是說,要讓機器人變得更“自然”。
2014年初, Coulom的圍棋程序“瘋石(Crazystone)”在一次比賽中戰(zhàn)勝九段棋手依田紀基。但是當時是在人類棋手讓出4子的情況下贏得比賽,而這次AlphaGo并沒有被讓子,可以說比賽很公平。
人工智能戰(zhàn)勝人類圍棋到底有多難?即使是最強大的計算機系統(tǒng)也無法在合理的時間內(nèi)分析出下一步最優(yōu)的走法。1997年IBM超級計算機“深藍”則利用了蒙特卡洛搜索樹的方式做到了這一點?!吧钏{”能夠預測出對手下一步會怎么走,而且計算力遠高于人類。但是,圍棋要復雜得多。國際象棋每一步平均只有35種可能性的走法,但是圍棋呢——在19*19的棋盤內(nèi),共有361個點,就機器學習的角度而言,圍棋的計算最大有3^361次方種局面,大致的體量是10^170,而已經(jīng)觀測到的宇宙中,原子的數(shù)量才10^80。國際象棋最多只有2^155種局面
使用蒙特卡洛樹搜索技術(shù),Crazystone等系統(tǒng)能夠進行更長遠的計算。而結(jié)合其他技術(shù)的話,它們能夠?qū)赡苄宰叻ㄟM行刷選,然后選擇出最優(yōu)的策略。在大多數(shù)情況下,它們能夠戰(zhàn)勝人類選手,但不是最厲害的那一個。頂級大師中,走法很多時候依靠直覺——做棋除了需要計算,還有棋感——棋手能夠根據(jù)棋形分析攻防線路?!昂玫钠逍慰雌饋眄樖侄嗔?,”Hassabis本身也是一名圍棋手,“這其中不只有計算角力,還有審美。這也是圍棋幾千年來都讓人著迷的原因?!?/p>
因此,從2014年至2015年間,包括Facebook、愛丁堡大學、DeepMind等人工智能研究團隊都將圍棋人工智能系統(tǒng)的突破方向瞄準為——使得程序能夠模仿人類的直覺式思維。
深度學習要依靠神經(jīng)網(wǎng)絡(luò)技術(shù),它是可以模擬人腦中神經(jīng)元網(wǎng)絡(luò)的軟硬件網(wǎng)絡(luò)。神經(jīng)網(wǎng)絡(luò)不會依靠蠻力或預先輸入的規(guī)則,而是會分析大量數(shù)據(jù),“學習”特定的任務。給神經(jīng)網(wǎng)絡(luò)提供足夠的喵星人照片,它就能學習識別喵星人;提供足夠的語音,它也會學習理解人類的語言;提供足夠的圍棋走法,它也會學會圍棋。
在DeepMind,愛丁堡和Facebook,研究人員希望神經(jīng)網(wǎng)絡(luò)能像人類選手一樣,通過觀看棋盤學習圍棋。Facebook在最新的研究中表明,這種方法確實可行。結(jié)合深度學習與蒙特卡洛樹搜索方法,F(xiàn)acebook打敗了一些人類選手,雖然并非是Crazystone和其他頂尖選手。
但DeepMind走得更遠。在經(jīng)過3000萬步人類走法的訓練后,它的神經(jīng)網(wǎng)絡(luò)能以57%的準確度(此前記錄是44%)預測人類的下一步。然后Hassabis和團隊通過強化學習技術(shù),讓這一神經(jīng)網(wǎng)絡(luò)與它自己的另一個稍有區(qū)別的版本對戰(zhàn)。兩者互搏中,系統(tǒng)會評估哪一步效果最好,即占領(lǐng)更多棋盤區(qū)域。最終,神經(jīng)網(wǎng)絡(luò)在判斷哪一步更好時會越來越優(yōu)秀。
DeepMind的研究者David Silver表示,“在與其它神經(jīng)網(wǎng)絡(luò)和它自己對戰(zhàn)數(shù)百萬局后,AlphaGo學會了自己發(fā)現(xiàn)新策略,并逐漸提高了水平?!?/p>
正是這種方法幫AlphaGo超越了其它圍棋AI系統(tǒng),包括Crazystone。但事情還沒完,研究人員隨后將結(jié)果再反饋給第二個神經(jīng)網(wǎng)絡(luò)。了解前任的走法了,第二個神經(jīng)網(wǎng)絡(luò)會使用許多相同的技術(shù)來判斷每一步的后果。這一過程與深藍等舊系統(tǒng)在國際象棋上的做法類似,只是它會在下棋過程中學習,分析更多數(shù)據(jù),而非暴力破解所有可能的步驟。這樣,AlphaGo不僅能戰(zhàn)勝AI,還能戰(zhàn)勝頂尖人類選手了。
李世乭
與其它神經(jīng)網(wǎng)絡(luò)一樣,DeepMind的系統(tǒng)運行在配備了GPU的機器上。GPU最初用于渲染游戲圖像,但后來有人發(fā)現(xiàn),它們很適合深度學習。Hassabis表示,DeepMind系統(tǒng)在裝備了一定數(shù)量GPU芯片的單一電腦上也可以用,但與樊麾對戰(zhàn)中,他們用上了更大的計算機網(wǎng)絡(luò),其包括170個GPU和1200個標準CPU。大的計算機網(wǎng)絡(luò)訓練了同樣的系統(tǒng)并進行了實際對戰(zhàn),還借鑒了訓練的結(jié)果。
盡管Hassabiss會不斷改善系統(tǒng),但待AlphaGo與韓國選手李世乭對戰(zhàn)時,他們會使用相同的配置。比賽中系統(tǒng)也需要網(wǎng)絡(luò)連接,而且他們會“自己鋪設(shè)光纖”。
挑戰(zhàn)世界冠軍比挑戰(zhàn)樊麾難得多,但Coulom還是認為DeepMind會贏。他過去數(shù)十年一直在開發(fā)能打敗最好選手的系統(tǒng),現(xiàn)在他認為這一目標已經(jīng)實現(xiàn)了,他買GPU會贏。
接下來……
AlphaGo的重要性不言而喻。同樣的技術(shù)還能用于機器人和科學研究,以及類似于Siri的數(shù)字助理和金融系統(tǒng)。深度學習創(chuàng)業(yè)Skymind的創(chuàng)始人Chris Nicholson就認為,技術(shù)“能用于任何對抗性問題,任何類似于游戲且需要策略的事情,包括戰(zhàn)爭、商業(yè)和交易”。
對有些人來說,這是一件值得憂慮的事,特別是DeepMind的系統(tǒng)還能自己學會下圍棋。它不僅能從人類提供的數(shù)學中學習,還能生成自己的數(shù)據(jù),在與自己下棋中學習。特斯拉創(chuàng)始人埃隆·馬斯克等大佬多次聲明,這類AI系統(tǒng)會最終超越人類智能,脫離掌控。
幸而DeepMind的系統(tǒng)還在Hassabis等人的控制之下。雖然他們用系統(tǒng)破解了復雜的游戲,但這仍只是個游戲。AlphaGo離人類智能還很遠,更不論超級智能了。下棋是一種高度結(jié)構(gòu)化的情景,系統(tǒng)也沒有人類級別的理解力。但它代表了一種方向,即如果AI能理解圍棋,它也會理解更多事。如果宇宙就是一局超大型的圍棋呢?
via Wired
作者:張馳 曉樺
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。