Deepmind AMA：關(guān)于最強(qiáng)ALphaGo如何煉成的真心話，都在這里了！

本文作者：岑大師

2017-10-20 04:19

導(dǎo)語：剛剛，Deepmind在Reddit的Machine Learning板塊舉辦了在線答疑活動(dòng)AMA。

雷鋒網(wǎng)消息：剛剛，Deepmind在Reddit的Machine Learning板塊舉辦了在線答疑活動(dòng)AMA，Deepmind強(qiáng)化學(xué)習(xí)組負(fù)責(zé)人David Silver和其同事熱情地回答了網(wǎng)友們提出的各種問題。由于在AMA前一天Deepmind剛剛發(fā)表了《Mastering the game of Go without human knowledge》（不使用人類知識(shí)掌握圍棋）的論文，相關(guān)的提問和討論也異常熱烈。

什么是AMA？

AMA（Ask Me Anything）是由Reddit的特色欄目，你也可以將其理解為在線的“真心話大冒險(xiǎn)”。AMA一般會(huì)約定一個(gè)時(shí)間，并提前若干天在Reddit上收集問題，回答者統(tǒng)一解答。

本次Deepmind AMA的回答人是：

Deepmind AMA：關(guān)于最強(qiáng)ALphaGo如何煉成的真心話，都在這里了！

David Silver：Deepmind強(qiáng)化學(xué)習(xí)組負(fù)責(zé)人，AlphaGo首席研究員。David Silver1997年畢業(yè)于劍橋大學(xué)，獲得艾迪生威斯利獎(jiǎng)。David于2004年在阿爾伯塔大學(xué)獲得計(jì)算機(jī)博士學(xué)位，2013年加盟DeepMind，是AlphaGo項(xiàng)目的主要技術(shù)負(fù)責(zé)人。

Julian Schrittwieser：Deepmind高級(jí)軟件工程師。

此前有多位機(jī)器學(xué)習(xí)界的大牛/公司在Reddit Machine Learning版塊開設(shè)AMA，包括：Google Brain Team、OpenAI Research Team 、Andrew Ng and Adam Coates、Jürgen Schmidhuber、Geoffrey Hinton、Michael Jordan 、Yann LeCun、Yoshua Bengio等。

雷鋒網(wǎng)從今天Deepmind的AMA中選取了一些代表性的問題，整理如下：

關(guān)于論文與技術(shù)細(xì)節(jié)

Q: Deepmind Zero的訓(xùn)練為什么如此穩(wěn)定？深層次的增強(qiáng)學(xué)習(xí)是不穩(wěn)定和容易遺忘的，自我對(duì)局也是不穩(wěn)定和容易遺忘的，如果沒有一個(gè)好的基于模仿的初始化狀態(tài)和歷史檢查點(diǎn)，二者結(jié)合在一起應(yīng)該是一個(gè)災(zāi)難...但Zero從零開始，我沒有看到論文中有這部分的內(nèi)容，你們是怎么做到的呢？

David Silver：在深層增強(qiáng)學(xué)習(xí)上，AlphaGo Zero與典型的無模式算法（如策略梯度或者Q學(xué)習(xí)）采用的是完全不同的算法。通過使用AlphaGo搜索，我們可以極大改進(jìn)策略和自我對(duì)局的結(jié)果，然后我們會(huì)用簡(jiǎn)單的、基于梯度的更新來訓(xùn)練下一個(gè)策略及價(jià)值網(wǎng)絡(luò)。比起基于簡(jiǎn)便的基于梯度的策略改進(jìn)，這樣的做法會(huì)更加穩(wěn)定。

Q：我注意到ELO等級(jí)分增長(zhǎng)的數(shù)據(jù)只與到第40天，是否是因?yàn)檎撐慕馗宓脑颍炕蛘哒f之后AlphaGo的數(shù)據(jù)不再顯著改善？

David Silver：AlphaGo已經(jīng)退役了！這意味著我們將人員和硬件資源轉(zhuǎn)移到其他AI問題中，我們還有很長(zhǎng)的路要走吶。

Q:關(guān)于論文的兩個(gè)問題：

Q1：您能解釋為什么AlphaGo的殘差塊輸入尺寸為19x19x17嗎？我不知道為什么每個(gè)對(duì)局者需要用8個(gè)堆疊的二進(jìn)制特征層來描述？我覺得1、2個(gè)層就夠了啊。雖然我不是100%理解圍棋的規(guī)則，但8個(gè)層看起來也多了點(diǎn)吧？

Q2：由于整個(gè)通道使用自我對(duì)局與最近的/最好的模型進(jìn)行比較，你們覺得這對(duì)于采用參數(shù)空間的特定SGD驅(qū)動(dòng)軌跡對(duì)否會(huì)有過擬合的風(fēng)險(xiǎn)？

David Silver：說起來使用表征可能比現(xiàn)在用的8層堆疊的做法更好！但我們使用堆疊的方式觀察歷史數(shù)據(jù)有三個(gè)原因：1）它與其他領(lǐng)域的常見輸入一致；2）我們需要一些歷史狀態(tài)來表示被KO；3）如果有一些歷史數(shù)據(jù)，我們可以更好地猜測(cè)對(duì)手最近下的位置，這可以作為一種關(guān)注機(jī)制（雷鋒網(wǎng)注：在圍棋中，這叫“敵之要點(diǎn)即我之要點(diǎn)”），而第17層用于標(biāo)注我們現(xiàn)在究竟是執(zhí)黑子還是白子，因?yàn)橐紤]貼目的關(guān)系。

Q：有了強(qiáng)大的棋類引擎，我們可以給玩家一個(gè)評(píng)級(jí)——例如Elo圍棋等級(jí)分就是通過棋手對(duì)局的分析逐步得出的，那么AlphaGo是否可以對(duì)過去有等級(jí)分前的棋手的實(shí)力進(jìn)行分析？這可能為研究人類的認(rèn)知提供一個(gè)平臺(tái)。

Julian Schrittwieser：感謝分享，這個(gè)主意很棒！

我認(rèn)為在圍棋中這完全可以做到，或許可以用最佳應(yīng)對(duì)和實(shí)際應(yīng)對(duì)的價(jià)值差異或者政策網(wǎng)絡(luò)給每一手位置評(píng)估得到的概率來進(jìn)行？我有空的時(shí)候試一下。

Q: 既然AlphaGo已經(jīng)退役了，是否有將其開源的計(jì)劃？這將對(duì)圍棋社區(qū)和機(jī)器學(xué)習(xí)研究產(chǎn)生巨大的影響。還有，Hassabis在烏鎮(zhèn)宣稱的圍棋工具將會(huì)什么時(shí)候發(fā)布？

David Silver：現(xiàn)在這個(gè)工具正在準(zhǔn)備中。不久后你就能看到新的消息。

Q：AlphaGo開發(fā)過程中，在系統(tǒng)架構(gòu)上遇到的最大障礙是什么？

David Silver：我們遇到的一個(gè)重大挑戰(zhàn)是在和李世石比賽的時(shí)候，當(dāng)時(shí)我們意識(shí)到AlphaGo偶爾會(huì)受到我們所謂的“妄想”的影響，也就是說，程序可能會(huì)錯(cuò)誤理解當(dāng)前盤面局勢(shì)，并在錯(cuò)誤的方向上持續(xù)許多步。我們嘗試了許多方案，包括引入更多的圍棋知識(shí)或人類元知識(shí)來解決這個(gè)問題。但最終我們?nèi)〉昧顺晒?，從AlphaGo本身解決了這個(gè)問題，更多地依靠強(qiáng)化學(xué)習(xí)的力量來獲得更高質(zhì)量的解決方案。

圍棋愛好者的問題

Q：1846年，在十四世本因坊跡目秀策與十一世井上幻庵因碩的一盤對(duì)局中，秀策下的第127手讓幻庵因碩一時(shí)驚急兩耳發(fā)赤，該手成為扭轉(zhuǎn)敗局的“耳赤一手”。如果是AlphaGo，是否也會(huì)下出相同的一首棋？

Julian Schrittwieser：我問了樊麾，他的回答是這樣的：

當(dāng)時(shí)的圍棋不貼目，而AlphaGo的對(duì)局中，黑棋需貼7.5目。貼目情況不同造成了古今棋局的差異，如果讓AlphaGo穿越到當(dāng)年下那一手，很有可能下的是不同的另一個(gè)地方。

Q：從已發(fā)布的AlphaGo相互對(duì)局看，執(zhí)白子的時(shí)間更為充裕，因而不少人猜測(cè)，7.5目的貼目太高了（雷鋒網(wǎng)注：現(xiàn)代圍棋的貼目數(shù)也在不斷變化，如在30年前，當(dāng)時(shí)通行的是黑子貼白子5.5目）。

如果分析更大的數(shù)據(jù)集，是否可以對(duì)圍棋的規(guī)則得出一些有趣的結(jié)論？（例如，執(zhí)黑或者執(zhí)白誰更有優(yōu)勢(shì)，貼目應(yīng)該更高還是更低）

Julian Schrittwieser：從我的經(jīng)驗(yàn)和運(yùn)行的結(jié)果看，7.5目的貼目對(duì)雙方來說是均勢(shì)的，黑子的勝率略高一些（55%左右）。

Q：你能給我們講一下第一手的選擇嗎？ALphaGo是否會(huì)下出我們前所未見的開局方式？比如說，第一手下在天元或者目外，甚至更奇怪的地方？如果不是，這是否是一種“習(xí)慣”，或者說AlphaGo有強(qiáng)烈的“信念”認(rèn)為星位、小目、三三是更好的選擇？

David Silver：在訓(xùn)練中我們看到ALphaGo嘗試過不同方式的開局——甚至剛開始訓(xùn)練的時(shí)候有過第一手下在一一！

即便在訓(xùn)練后期，我們?nèi)匀荒芸吹剿?、六位超高目的開局，但很快就恢復(fù)到小目等正常的開局了。

Q：作為AlphaGo的超級(jí)粉絲，有一個(gè)問題一直在我心中：AlphaGo可以讓職業(yè)棋手多少子？從論文中我們知道AlphaGo可以下讓子棋，我也知道AlphaGo恐怕讓不了柯潔兩子，但我想你們一定很好奇，你們是否有做內(nèi)部測(cè)試？

David Silver：我們沒有和人類棋手下讓子棋。當(dāng)然，我們?cè)跍y(cè)試不同版本的時(shí)候下過讓子棋，在AlphaGo Master>AlphaGo Lee>ALphaGo Fan這三個(gè)版本中，后一個(gè)版本均可讓三子擊敗前一個(gè)版本。但是，因?yàn)锳lphaGo是自我訓(xùn)練的，所以尤其擅長(zhǎng)打敗自己的較弱的前一版本，因此我們不認(rèn)為這些訓(xùn)練方式可以推廣到和人類選手的讓子棋中。

Q：你們有沒有想過使用生成對(duì)抗網(wǎng)絡(luò)（GAN）？

David Sliver：從某種意義來講，自我對(duì)弈就是對(duì)抗的過程。每一次結(jié)果的迭代都是在試圖找到之前版本的“反向策略”。

傳言終結(jié)者

Q：我聽說AlphaGo在開發(fā)初期被引導(dǎo)在某一個(gè)具體的方向訓(xùn)練以解決對(duì)弈中展現(xiàn)出的弱點(diǎn)?，F(xiàn)在它的能力已經(jīng)超過了人類，是否需要另外的機(jī)制來進(jìn)一步突破?你們有做了什么樣的工作？

David Silver：實(shí)際上，我們從未引導(dǎo)過AlphaGo來解決具體的弱點(diǎn)。我們始終專注于基礎(chǔ)的機(jī)器學(xué)習(xí)算法，讓AlphaGo可以學(xué)習(xí)修復(fù)自己的弱點(diǎn)。

當(dāng)然你不可能達(dá)到100%的完美，所以缺點(diǎn)總會(huì)存在。在實(shí)踐中，我們需要通過正確的方法來確保訓(xùn)練不會(huì)落入局部最優(yōu)的陷阱，但是我們從未使用過人為的推動(dòng)。

關(guān)于DeepMind公司

Q：我這里有幾個(gè)問題：在DeepMind工作是什么感受？AlphaGo團(tuán)隊(duì)成員都有誰？你能介紹一下AlphaGo團(tuán)隊(duì)工作分配的情況嗎？下一個(gè)重大挑戰(zhàn)是什么？

David Silver：在DeepMind工作感覺好極了:)——這不是一個(gè)招聘廣告，但我感覺每天可以在這里做我喜歡的事實(shí)在是太幸運(yùn)了。有很多（多到忙不過來！:)）很酷的項(xiàng)目去參與。

我們很幸運(yùn)有許多大牛在AlphaGo工作。您可以通過查看相應(yīng)的作者列表來獲取更詳細(xì)的信息。

Q: 你覺得本科生是否可以在人工智能領(lǐng)域取得成功？

Julian Schrittwiese：當(dāng)然。我本人就只有計(jì)算機(jī)科學(xué)學(xué)士學(xué)位，這一領(lǐng)域變化迅速，我認(rèn)為您可以從閱讀最新的論文和試驗(yàn)中來進(jìn)行自學(xué)。另外，去那些做過機(jī)器學(xué)習(xí)項(xiàng)目的公司實(shí)習(xí)也是很有幫助的。

關(guān)于算法的擴(kuò)展和其他項(xiàng)目

Q：Hassabis今年三月份在劍橋的一個(gè)演講中表示，AlphaGo項(xiàng)目未來目標(biāo)之一是對(duì)神經(jīng)網(wǎng)絡(luò)進(jìn)行解釋。我的問題是：ALphaGo在神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)上取得了什么樣的進(jìn)展，或者說，對(duì)AlphaGo，神經(jīng)網(wǎng)絡(luò)仍然是神秘的黑盒子？

David Silver：不僅僅是ALphaGo，可解釋性是我們所有項(xiàng)目的一個(gè)非常有意思的課題。Deepmind內(nèi)部有多個(gè)團(tuán)隊(duì)從不同方式來探索我們的系統(tǒng)，最近有團(tuán)隊(duì)發(fā)表了基于認(rèn)知心理學(xué)技術(shù)去嘗試破譯匹配網(wǎng)絡(luò)內(nèi)部發(fā)生了什么，效果非常不錯(cuò)！

Q: 很高興看到AlphaGo Zero的好成績(jī)。我們的一篇NIPS論文中也提到了對(duì)于深度學(xué)習(xí)和搜索樹之間效率的相似問題，因此我對(duì)于在更長(zhǎng)的訓(xùn)練過程中的行為尤其感興趣。

AlphaGo的訓(xùn)練過程中，創(chuàng)建學(xué)習(xí)目標(biāo)的蒙特卡洛樹搜索的貪心算法、策略網(wǎng)絡(luò)的貪心算法、以及在訓(xùn)練過程中價(jià)值功能變化的貪心算法之間的相對(duì)表現(xiàn)如何？這種自我對(duì)局學(xué)習(xí)的方法是否可以應(yīng)用在最近的星際爭(zhēng)霸 II API中？

David Silver：感謝介紹您的論文！真不敢相信這篇論文在我們4月7日投稿的時(shí)候已經(jīng)發(fā)布了。事實(shí)上，它與我們的學(xué)習(xí)算法的策略組件非常相似（盡管我們也有一個(gè)值組件），您可以參考我們的方法和強(qiáng)化學(xué)習(xí)中的討論，也很高興看到在其他游戲中使用類似方法。

Q：為什么早期版本的AlphaGo沒有嘗試自我對(duì)弈？或者說，AlphaGo之前也嘗試過自我對(duì)弈但效果不好？

我對(duì)這個(gè)領(lǐng)域的發(fā)展和進(jìn)步程度感到好奇。相比起今天，在兩年前在設(shè)計(jì)一個(gè)自主訓(xùn)練的AlphaGo的瓶頸在哪里？今天我們見到的“機(jī)器學(xué)習(xí)直覺”又是經(jīng)歷了什么樣的系統(tǒng)迭代過程？

David Silver：創(chuàng)建一個(gè)可以完全從自我學(xué)習(xí)的系統(tǒng)一直是加強(qiáng)學(xué)習(xí)的一個(gè)開放性問題。我們最初的嘗試包括你能查到的許多類似的算法，是相當(dāng)不穩(wěn)定的。我們做了很多嘗試，最終AlphaGo Zero算法是最有效的，而且似乎已經(jīng)破解了這個(gè)特定的問題。

Q：你認(rèn)為機(jī)器人什么時(shí)候能夠有效解決現(xiàn)實(shí)世界關(guān)于高度、尺寸方面的問題（例如，自己學(xué)習(xí)如何抓取任何形狀、尺寸、位置垃圾的設(shè)備）？策略梯度方法是否是實(shí)現(xiàn)這一目標(biāo)的關(guān)鍵點(diǎn)？

Julian Schrittwieser：這主要是由于價(jià)值/政策網(wǎng)絡(luò)上的雙重改進(jìn)，包括更好的訓(xùn)練和更好的架構(gòu)。具體參見論文圖4對(duì)不同網(wǎng)絡(luò)架構(gòu)的比較。

Q：據(jù)說擊敗柯潔的ALphaGo Master的功耗只是擊敗李世石的AlphaGo Lee的1/10。你們做了什么樣的優(yōu)化呢？

Julian Schrittwieser：這主要是由于價(jià)值/政策網(wǎng)絡(luò)上的雙重改進(jìn)，包括更好的訓(xùn)練和更好的架構(gòu)。具體參見論文圖4對(duì)不同網(wǎng)絡(luò)架構(gòu)的比較。（雷鋒網(wǎng)按：你確認(rèn)不是copy上一個(gè)問題的答案嗎）

Q：看起來在增強(qiáng)學(xué)習(xí)中使用或模擬Agent的長(zhǎng)期記憶是一個(gè)很大的障礙。展望未來，您覺得我們是否能以一種新的思維方式解決這一點(diǎn)？還是說需要等待我們技術(shù)可以實(shí)現(xiàn)一個(gè)超級(jí)網(wǎng)絡(luò)？

Julian Schrittwieser：是的，長(zhǎng)期記憶可能是一個(gè)重要的因子，例如在“星際爭(zhēng)霸”游戲中，你可能已經(jīng)做出了上千個(gè)動(dòng)作，但你還要記住你派出的偵察兵。

我認(rèn)為現(xiàn)在已經(jīng)有了令人振奮的組件（神經(jīng)圖靈機(jī)！），但是我認(rèn)為我們?cè)谶@方面仍有很大的改進(jìn)空間。

Q：David，我看過你的演講視頻，你提到增強(qiáng)學(xué)習(xí)可以用于金融交易，你有沒有真實(shí)世界的例子？你會(huì)如何處理黑天鵝事件（過去沒有遇到過的情況）？

David Silver：已經(jīng)發(fā)表增強(qiáng)學(xué)習(xí)用于現(xiàn)實(shí)世界的財(cái)務(wù)算法的論文非常少見，但有一些經(jīng)典論文值得一看，例如Nevmyvaka、Kearns在2006寫的那篇和Moody、Safell在2001年寫的那篇。

Q：你們和Facebook幾乎同時(shí)研究圍棋問題，你們能更快獲得大師級(jí)表現(xiàn)的優(yōu)勢(shì)是什么？

對(duì)于那些無法獲得像AlphaGo如此多的訓(xùn)練數(shù)據(jù)的領(lǐng)域如何開展機(jī)器學(xué)習(xí)或者增強(qiáng)學(xué)習(xí)？

David_Silver：Facebook更側(cè)重于監(jiān)督學(xué)習(xí)，我們選擇更多地關(guān)注強(qiáng)化學(xué)習(xí)，因?yàn)槲覀冋J(rèn)為AlphaGo最終將超越人類的知識(shí)。我們最近的結(jié)果實(shí)際上表明，監(jiān)督學(xué)習(xí)方法可以讓人大吃一驚，但強(qiáng)化學(xué)習(xí)絕對(duì)是遠(yuǎn)遠(yuǎn)超出人類水平的關(guān)鍵之處。

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。