Google人工智能攻破了圍棋，然后呢？

本文作者：溫曉樺

2016-01-28 12:17

導語：它代表了一種方向：即如果AI能理解圍棋，它也會理解更多事。如果宇宙就是一局超大型的圍棋呢？

Google日前宣布其程序AlphaGo擊敗了歐洲圍棋職業(yè)選手，這意味著人工智能技術又或得了極大的突破。

計算機目前已經(jīng)在許多智力游戲比賽上戰(zhàn)勝了人類頂級選手，包括國際象棋、五子棋、黑白棋、拼字游戲等等。而對于有著2500年歷史的東方游戲圍棋——比國際象棋要復雜得多——人類始終能夠保持在和計算機對決中的勝利。不過，Google人工智能專家表示，這個壁壘或許很快將要被打破。隨著AlphaGo在沒有任何讓子的情況下以5：0完勝法國圍棋職業(yè)二段棋手樊麾，AlphaGo將在三月份對戰(zhàn)韓國九段棋手李世乭。

今天早上，《自然》雜志發(fā)表了一篇Google DeepMind團隊——程序AlphaGo的創(chuàng)造者撰寫的關于深度學習系統(tǒng)的論文。根據(jù)論文描述，在AlphaGo中，DeepMind研究員在程序中錄入了大量職業(yè)棋手的棋譜——加起來多達3000萬步——他們用增強學習的方法訓練AI，讓它自己下棋，研習棋譜。不過這只是第一步。理論上，這樣的訓練只能讓這個人工智能系統(tǒng)無法突破人類的計算。為了獲得更好的成績，研究員隨后讓系統(tǒng)進行自我博弈，計算出比基礎棋譜更多新的打點。也就是說，戰(zhàn)勝人類就要靠這些新的東西。

“這其中最重要的是，AlphaGo不僅記錄著大量的棋譜，還有一系列規(guī)則來指導‘思考’，”DeepMind CEO Demis Hassabis說道，“事實上，該程序能夠通過機器學習的方式掌握比賽技巧?！?/p>

DeepMind的技術核心結(jié)合了“強化學習”及其他人工智能手段，這種技術能夠用于解決現(xiàn)實機器人執(zhí)行物理任務和對環(huán)境作出回應的技術問題。就是說，要讓機器人變得更“自然”。

視覺判斷

2014年初， Coulom的圍棋程序“瘋石（Crazystone）”在一次比賽中戰(zhàn)勝九段棋手依田紀基。但是當時是在人類棋手讓出4子的情況下贏得比賽，而這次AlphaGo并沒有被讓子，可以說比賽很公平。

人工智能戰(zhàn)勝人類圍棋到底有多難？即使是最強大的計算機系統(tǒng)也無法在合理的時間內(nèi)分析出下一步最優(yōu)的走法。1997年IBM超級計算機“深藍”則利用了蒙特卡洛搜索樹的方式做到了這一點。“深藍”能夠預測出對手下一步會怎么走，而且計算力遠高于人類。但是，圍棋要復雜得多。國際象棋每一步平均只有35種可能性的走法，但是圍棋呢——在19*19的棋盤內(nèi)，共有361個點，就機器學習的角度而言，圍棋的計算最大有3^361次方種局面，大致的體量是10^170，而已經(jīng)觀測到的宇宙中，原子的數(shù)量才10^80。國際象棋最多只有2^155種局面

使用蒙特卡洛樹搜索技術，Crazystone等系統(tǒng)能夠進行更長遠的計算。而結(jié)合其他技術的話，它們能夠?qū)赡苄宰叻ㄟM行刷選，然后選擇出最優(yōu)的策略。在大多數(shù)情況下，它們能夠戰(zhàn)勝人類選手，但不是最厲害的那一個。頂級大師中，走法很多時候依靠直覺——做棋除了需要計算，還有棋感——棋手能夠根據(jù)棋形分析攻防線路?！昂玫钠逍慰雌饋眄樖侄嗔耍盚assabis本身也是一名圍棋手，“這其中不只有計算角力，還有審美。這也是圍棋幾千年來都讓人著迷的原因?！?/p>

因此，從2014年至2015年間，包括Facebook、愛丁堡大學、DeepMind等人工智能研究團隊都將圍棋人工智能系統(tǒng)的突破方向瞄準為——使得程序能夠模仿人類的直覺式思維。

自我強化

深度學習要依靠神經(jīng)網(wǎng)絡技術，它是可以模擬人腦中神經(jīng)元網(wǎng)絡的軟硬件網(wǎng)絡。神經(jīng)網(wǎng)絡不會依靠蠻力或預先輸入的規(guī)則，而是會分析大量數(shù)據(jù)，“學習”特定的任務。給神經(jīng)網(wǎng)絡提供足夠的喵星人照片，它就能學習識別喵星人；提供足夠的語音，它也會學習理解人類的語言；提供足夠的圍棋走法，它也會學會圍棋。

在DeepMind，愛丁堡和Facebook，研究人員希望神經(jīng)網(wǎng)絡能像人類選手一樣，通過觀看棋盤學習圍棋。Facebook在最新的研究中表明，這種方法確實可行。結(jié)合深度學習與蒙特卡洛樹搜索方法，F(xiàn)acebook打敗了一些人類選手，雖然并非是Crazystone和其他頂尖選手。

但DeepMind走得更遠。在經(jīng)過3000萬步人類走法的訓練后，它的神經(jīng)網(wǎng)絡能以57%的準確度（此前記錄是44%）預測人類的下一步。然后Hassabis和團隊通過強化學習技術，讓這一神經(jīng)網(wǎng)絡與它自己的另一個稍有區(qū)別的版本對戰(zhàn)。兩者互搏中，系統(tǒng)會評估哪一步效果最好，即占領更多棋盤區(qū)域。最終，神經(jīng)網(wǎng)絡在判斷哪一步更好時會越來越優(yōu)秀。

DeepMind的研究者David Silver表示，“在與其它神經(jīng)網(wǎng)絡和它自己對戰(zhàn)數(shù)百萬局后，AlphaGo學會了自己發(fā)現(xiàn)新策略，并逐漸提高了水平。”

正是這種方法幫AlphaGo超越了其它圍棋AI系統(tǒng)，包括Crazystone。但事情還沒完，研究人員隨后將結(jié)果再反饋給第二個神經(jīng)網(wǎng)絡。了解前任的走法了，第二個神經(jīng)網(wǎng)絡會使用許多相同的技術來判斷每一步的后果。這一過程與深藍等舊系統(tǒng)在國際象棋上的做法類似，只是它會在下棋過程中學習，分析更多數(shù)據(jù)，而非暴力破解所有可能的步驟。這樣，AlphaGo不僅能戰(zhàn)勝AI，還能戰(zhàn)勝頂尖人類選手了。

計算機網(wǎng)絡

Google人工智能攻破了圍棋，然后呢？

李世乭

與其它神經(jīng)網(wǎng)絡一樣，DeepMind的系統(tǒng)運行在配備了GPU的機器上。GPU最初用于渲染游戲圖像，但后來有人發(fā)現(xiàn)，它們很適合深度學習。Hassabis表示，DeepMind系統(tǒng)在裝備了一定數(shù)量GPU芯片的單一電腦上也可以用，但與樊麾對戰(zhàn)中，他們用上了更大的計算機網(wǎng)絡，其包括170個GPU和1200個標準CPU。大的計算機網(wǎng)絡訓練了同樣的系統(tǒng)并進行了實際對戰(zhàn)，還借鑒了訓練的結(jié)果。

盡管Hassabiss會不斷改善系統(tǒng)，但待AlphaGo與韓國選手李世乭對戰(zhàn)時，他們會使用相同的配置。比賽中系統(tǒng)也需要網(wǎng)絡連接，而且他們會“自己鋪設光纖”。

挑戰(zhàn)世界冠軍比挑戰(zhàn)樊麾難得多，但Coulom還是認為DeepMind會贏。他過去數(shù)十年一直在開發(fā)能打敗最好選手的系統(tǒng)，現(xiàn)在他認為這一目標已經(jīng)實現(xiàn)了，他買GPU會贏。

接下來……

AlphaGo的重要性不言而喻。同樣的技術還能用于機器人和科學研究，以及類似于Siri的數(shù)字助理和金融系統(tǒng)。深度學習創(chuàng)業(yè)Skymind的創(chuàng)始人Chris Nicholson就認為，技術“能用于任何對抗性問題，任何類似于游戲且需要策略的事情，包括戰(zhàn)爭、商業(yè)和交易”。

對有些人來說，這是一件值得憂慮的事，特別是DeepMind的系統(tǒng)還能自己學會下圍棋。它不僅能從人類提供的數(shù)學中學習，還能生成自己的數(shù)據(jù)，在與自己下棋中學習。特斯拉創(chuàng)始人埃隆·馬斯克等大佬多次聲明，這類AI系統(tǒng)會最終超越人類智能，脫離掌控。

幸而DeepMind的系統(tǒng)還在Hassabis等人的控制之下。雖然他們用系統(tǒng)破解了復雜的游戲，但這仍只是個游戲。AlphaGo離人類智能還很遠，更不論超級智能了。下棋是一種高度結(jié)構(gòu)化的情景，系統(tǒng)也沒有人類級別的理解力。但它代表了一種方向，即如果AI能理解圍棋，它也會理解更多事。如果宇宙就是一局超大型的圍棋呢？

via Wired

作者：張馳曉樺

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

1人收藏