丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
人工智能 正文
發(fā)私信給岑大師
發(fā)送

0

Deepmind AMA:關(guān)于最強(qiáng)ALphaGo如何煉成的真心話,都在這里了!

本文作者: 岑大師 2017-10-20 04:19
導(dǎo)語:剛剛,Deepmind在Reddit的Machine Learning板塊舉辦了在線答疑活動AMA。

雷鋒網(wǎng)消息:剛剛,Deepmind在Reddit的Machine Learning板塊舉辦了在線答疑活動AMA,Deepmind強(qiáng)化學(xué)習(xí)組負(fù)責(zé)人David Silver和其同事熱情地回答了網(wǎng)友們提出的各種問題。由于在AMA前一天Deepmind剛剛發(fā)表了《Mastering the game of Go without human knowledge》(不使用人類知識掌握圍棋)的論文,相關(guān)的提問和討論也異常熱烈。

什么是AMA?

AMA(Ask Me Anything)是由Reddit的特色欄目,你也可以將其理解為在線的“真心話大冒險”。AMA一般會約定一個時間,并提前若干天在Reddit上收集問題,回答者統(tǒng)一解答。

本次Deepmind AMA的回答人是:

Deepmind AMA:關(guān)于最強(qiáng)ALphaGo如何煉成的真心話,都在這里了!

David Silver:Deepmind強(qiáng)化學(xué)習(xí)組負(fù)責(zé)人,AlphaGo首席研究員。David Silver1997年畢業(yè)于劍橋大學(xué),獲得艾迪生威斯利獎。David于2004年在阿爾伯塔大學(xué)獲得計算機(jī)博士學(xué)位,2013年加盟DeepMind,是AlphaGo項目的主要技術(shù)負(fù)責(zé)人。

Julian Schrittwieser:Deepmind高級軟件工程師。

此前有多位機(jī)器學(xué)習(xí)界的大牛/公司在Reddit Machine Learning版塊開設(shè)AMA,包括:Google Brain Team、OpenAI Research Team 、Andrew Ng and Adam Coates、Jürgen Schmidhuber、Geoffrey Hinton、Michael Jordan 、Yann LeCun、Yoshua Bengio等。

雷鋒網(wǎng)從今天Deepmind的AMA中選取了一些代表性的問題,整理如下:

關(guān)于論文與技術(shù)細(xì)節(jié)

Q: Deepmind Zero的訓(xùn)練為什么如此穩(wěn)定?深層次的增強(qiáng)學(xué)習(xí)是不穩(wěn)定和容易遺忘的,自我對局也是不穩(wěn)定和容易遺忘的,如果沒有一個好的基于模仿的初始化狀態(tài)和歷史檢查點,二者結(jié)合在一起應(yīng)該是一個災(zāi)難...但Zero從零開始,我沒有看到論文中有這部分的內(nèi)容,你們是怎么做到的呢?

David Silver:在深層增強(qiáng)學(xué)習(xí)上,AlphaGo Zero與典型的無模式算法(如策略梯度或者Q學(xué)習(xí))采用的是完全不同的算法。通過使用AlphaGo搜索,我們可以極大改進(jìn)策略和自我對局的結(jié)果,然后我們會用簡單的、基于梯度的更新來訓(xùn)練下一個策略及價值網(wǎng)絡(luò)。比起基于簡便的基于梯度的策略改進(jìn),這樣的做法會更加穩(wěn)定。


Q:我注意到ELO等級分增長的數(shù)據(jù)只與到第40天,是否是因為論文截稿的原因?或者說之后AlphaGo的數(shù)據(jù)不再顯著改善?

David Silver:AlphaGo已經(jīng)退役了!這意味著我們將人員和硬件資源轉(zhuǎn)移到其他AI問題中,我們還有很長的路要走吶。


Q:關(guān)于論文的兩個問題:

Q1:您能解釋為什么AlphaGo的殘差塊輸入尺寸為19x19x17嗎?我不知道為什么每個對局者需要用8個堆疊的二進(jìn)制特征層來描述?我覺得1、2個層就夠了啊。雖然我不是100%理解圍棋的規(guī)則,但8個層看起來也多了點吧?

Q2:由于整個通道使用自我對局與最近的/最好的模型進(jìn)行比較,你們覺得這對于采用參數(shù)空間的特定SGD驅(qū)動軌跡對否會有過擬合的風(fēng)險?

David Silver:說起來使用表征可能比現(xiàn)在用的8層堆疊的做法更好!但我們使用堆疊的方式觀察歷史數(shù)據(jù)有三個原因:1)它與其他領(lǐng)域的常見輸入一致;2)我們需要一些歷史狀態(tài)來表示被KO;3)如果有一些歷史數(shù)據(jù),我們可以更好地猜測對手最近下的位置,這可以作為一種關(guān)注機(jī)制(雷鋒網(wǎng)注:在圍棋中,這叫“敵之要點即我之要點”),而第17層用于標(biāo)注我們現(xiàn)在究竟是執(zhí)黑子還是白子,因為要考慮貼目的關(guān)系。


Q:有了強(qiáng)大的棋類引擎,我們可以給玩家一個評級——例如Elo圍棋等級分就是通過棋手對局的分析逐步得出的,那么AlphaGo是否可以對過去有等級分前的棋手的實力進(jìn)行分析?這可能為研究人類的認(rèn)知提供一個平臺。

Julian Schrittwieser:感謝分享,這個主意很棒!

我認(rèn)為在圍棋中這完全可以做到,或許可以用最佳應(yīng)對和實際應(yīng)對的價值差異或者政策網(wǎng)絡(luò)給每一手位置評估得到的概率來進(jìn)行?我有空的時候試一下。


Q: 既然AlphaGo已經(jīng)退役了,是否有將其開源的計劃?這將對圍棋社區(qū)和機(jī)器學(xué)習(xí)研究產(chǎn)生巨大的影響。還有,Hassabis在烏鎮(zhèn)宣稱的圍棋工具將會什么時候發(fā)布?

David Silver:現(xiàn)在這個工具正在準(zhǔn)備中。不久后你就能看到新的消息。


Q:AlphaGo開發(fā)過程中,在系統(tǒng)架構(gòu)上遇到的最大障礙是什么?

David Silver:我們遇到的一個重大挑戰(zhàn)是在和李世石比賽的時候,當(dāng)時我們意識到AlphaGo偶爾會受到我們所謂的“妄想”的影響,也就是說,程序可能會錯誤理解當(dāng)前盤面局勢,并在錯誤的方向上持續(xù)許多步。我們嘗試了許多方案,包括引入更多的圍棋知識或人類元知識來解決這個問題。但最終我們?nèi)〉昧顺晒Γ瑥腁lphaGo本身解決了這個問題,更多地依靠強(qiáng)化學(xué)習(xí)的力量來獲得更高質(zhì)量的解決方案。


圍棋愛好者的問題

Q:1846年,在十四世本因坊跡目秀策與十一世井上幻庵因碩的一盤對局中,秀策下的第127手讓幻庵因碩一時驚急兩耳發(fā)赤,該手成為扭轉(zhuǎn)敗局的“耳赤一手”。如果是AlphaGo,是否也會下出相同的一首棋?

Julian Schrittwieser:我問了樊麾,他的回答是這樣的:

當(dāng)時的圍棋不貼目,而AlphaGo的對局中,黑棋需貼7.5目。貼目情況不同造成了古今棋局的差異,如果讓AlphaGo穿越到當(dāng)年下那一手,很有可能下的是不同的另一個地方。


Q:從已發(fā)布的AlphaGo相互對局看,執(zhí)白子的時間更為充裕,因而不少人猜測,7.5目的貼目太高了(雷鋒網(wǎng)注:現(xiàn)代圍棋的貼目數(shù)也在不斷變化,如在30年前,當(dāng)時通行的是黑子貼白子5.5目)。

如果分析更大的數(shù)據(jù)集,是否可以對圍棋的規(guī)則得出一些有趣的結(jié)論?(例如,執(zhí)黑或者執(zhí)白誰更有優(yōu)勢,貼目應(yīng)該更高還是更低)

Julian Schrittwieser:從我的經(jīng)驗和運行的結(jié)果看,7.5目的貼目對雙方來說是均勢的,黑子的勝率略高一些(55%左右)。


Q:你能給我們講一下第一手的選擇嗎?ALphaGo是否會下出我們前所未見的開局方式?比如說,第一手下在天元或者目外,甚至更奇怪的地方?如果不是,這是否是一種“習(xí)慣”,或者說AlphaGo有強(qiáng)烈的“信念”認(rèn)為星位、小目、三三是更好的選擇?

David Silver:在訓(xùn)練中我們看到ALphaGo嘗試過不同方式的開局——甚至剛開始訓(xùn)練的時候有過第一手下在一一!

即便在訓(xùn)練后期,我們?nèi)匀荒芸吹剿?、六位超高目的開局,但很快就恢復(fù)到小目等正常的開局了。


Q:作為AlphaGo的超級粉絲,有一個問題一直在我心中:AlphaGo可以讓職業(yè)棋手多少子?從論文中我們知道AlphaGo可以下讓子棋,我也知道AlphaGo恐怕讓不了柯潔兩子,但我想你們一定很好奇,你們是否有做內(nèi)部測試?

David Silver:我們沒有和人類棋手下讓子棋。當(dāng)然,我們在測試不同版本的時候下過讓子棋,在AlphaGo Master>AlphaGo Lee>ALphaGo Fan這三個版本中,后一個版本均可讓三子擊敗前一個版本。但是,因為AlphaGo是自我訓(xùn)練的,所以尤其擅長打敗自己的較弱的前一版本,因此我們不認(rèn)為這些訓(xùn)練方式可以推廣到和人類選手的讓子棋中。


Q:你們有沒有想過使用生成對抗網(wǎng)絡(luò)(GAN)?

David Sliver:從某種意義來講,自我對弈就是對抗的過程。每一次結(jié)果的迭代都是在試圖找到之前版本的“反向策略”。


傳言終結(jié)者

Q:我聽說AlphaGo在開發(fā)初期被引導(dǎo)在某一個具體的方向訓(xùn)練以解決對弈中展現(xiàn)出的弱點?,F(xiàn)在它的能力已經(jīng)超過了人類,是否需要另外的機(jī)制來進(jìn)一步突破?你們有做了什么樣的工作?

David Silver:實際上,我們從未引導(dǎo)過AlphaGo來解決具體的弱點。我們始終專注于基礎(chǔ)的機(jī)器學(xué)習(xí)算法,讓AlphaGo可以學(xué)習(xí)修復(fù)自己的弱點。

當(dāng)然你不可能達(dá)到100%的完美,所以缺點總會存在。 在實踐中,我們需要通過正確的方法來確保訓(xùn)練不會落入局部最優(yōu)的陷阱,但是我們從未使用過人為的推動。


關(guān)于DeepMind公司

Q:我這里有幾個問題:在DeepMind工作是什么感受?AlphaGo團(tuán)隊成員都有誰?你能介紹一下AlphaGo團(tuán)隊工作分配的情況嗎?下一個重大挑戰(zhàn)是什么?

David Silver:在DeepMind工作感覺好極了:)——這不是一個招聘廣告,但我感覺每天可以在這里做我喜歡的事實在是太幸運了。有很多(多到忙不過來!:))很酷的項目去參與。

我們很幸運有許多大牛在AlphaGo工作。您可以通過查看相應(yīng)的作者列表來獲取更詳細(xì)的信息。


Q: 你覺得本科生是否可以在人工智能領(lǐng)域取得成功?

Julian Schrittwiese:當(dāng)然。我本人就只有計算機(jī)科學(xué)學(xué)士學(xué)位,這一領(lǐng)域變化迅速,我認(rèn)為您可以從閱讀最新的論文和試驗中來進(jìn)行自學(xué)。另外,去那些做過機(jī)器學(xué)習(xí)項目的公司實習(xí)也是很有幫助的。


關(guān)于算法的擴(kuò)展和其他項目

Q:Hassabis今年三月份在劍橋的一個演講中表示,AlphaGo項目未來目標(biāo)之一是對神經(jīng)網(wǎng)絡(luò)進(jìn)行解釋。我的問題是:ALphaGo在神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)上取得了什么樣的進(jìn)展,或者說,對AlphaGo,神經(jīng)網(wǎng)絡(luò)仍然是神秘的黑盒子?

David Silver:不僅僅是ALphaGo,可解釋性是我們所有項目的一個非常有意思的課題。Deepmind內(nèi)部有多個團(tuán)隊從不同方式來探索我們的系統(tǒng),最近有團(tuán)隊發(fā)表了基于認(rèn)知心理學(xué)技術(shù)去嘗試破譯匹配網(wǎng)絡(luò)內(nèi)部發(fā)生了什么,效果非常不錯!


Q: 很高興看到AlphaGo Zero的好成績。我們的一篇NIPS論文中也提到了對于深度學(xué)習(xí)和搜索樹之間效率的相似問題,因此我對于在更長的訓(xùn)練過程中的行為尤其感興趣。

AlphaGo的訓(xùn)練過程中,創(chuàng)建學(xué)習(xí)目標(biāo)的蒙特卡洛樹搜索的貪心算法、策略網(wǎng)絡(luò)的貪心算法、以及在訓(xùn)練過程中價值功能變化的貪心算法之間的相對表現(xiàn)如何?這種自我對局學(xué)習(xí)的方法是否可以應(yīng)用在最近的星際爭霸 II API中?

David Silver:感謝介紹您的論文!真不敢相信這篇論文在我們4月7日投稿的時候已經(jīng)發(fā)布了。事實上,它與我們的學(xué)習(xí)算法的策略組件非常相似(盡管我們也有一個值組件),您可以參考我們的方法和強(qiáng)化學(xué)習(xí)中的討論,也很高興看到在其他游戲中使用類似方法。


Q:為什么早期版本的AlphaGo沒有嘗試自我對弈?或者說,AlphaGo之前也嘗試過自我對弈但效果不好?

我對這個領(lǐng)域的發(fā)展和進(jìn)步程度感到好奇。相比起今天,在兩年前在設(shè)計一個自主訓(xùn)練的AlphaGo的瓶頸在哪里?今天我們見到的“機(jī)器學(xué)習(xí)直覺”又是經(jīng)歷了什么樣的系統(tǒng)迭代過程?

David Silver:創(chuàng)建一個可以完全從自我學(xué)習(xí)的系統(tǒng)一直是加強(qiáng)學(xué)習(xí)的一個開放性問題。 我們最初的嘗試包括你能查到的許多類似的算法,是相當(dāng)不穩(wěn)定的。 我們做了很多嘗試,最終AlphaGo Zero算法是最有效的,而且似乎已經(jīng)破解了這個特定的問題。


Q:你認(rèn)為機(jī)器人什么時候能夠有效解決現(xiàn)實世界關(guān)于高度、尺寸方面的問題(例如,自己學(xué)習(xí)如何抓取任何形狀、尺寸、位置垃圾的設(shè)備)?策略梯度方法是否是實現(xiàn)這一目標(biāo)的關(guān)鍵點?

Julian Schrittwieser:這主要是由于價值/政策網(wǎng)絡(luò)上的雙重改進(jìn),包括更好的訓(xùn)練和更好的架構(gòu)。具體參見論文圖4對不同網(wǎng)絡(luò)架構(gòu)的比較。


Q:據(jù)說擊敗柯潔的ALphaGo Master的功耗只是擊敗李世石的AlphaGo Lee的1/10。你們做了什么樣的優(yōu)化呢?

Julian Schrittwieser:這主要是由于價值/政策網(wǎng)絡(luò)上的雙重改進(jìn),包括更好的訓(xùn)練和更好的架構(gòu)。具體參見論文圖4對不同網(wǎng)絡(luò)架構(gòu)的比較。(雷鋒網(wǎng)按:你確認(rèn)不是copy上一個問題的答案嗎)


Q:看起來在增強(qiáng)學(xué)習(xí)中使用或模擬Agent的長期記憶是一個很大的障礙。 展望未來,您覺得我們是否能以一種新的思維方式解決這一點? 還是說需要等待我們技術(shù)可以實現(xiàn)一個超級網(wǎng)絡(luò)?

Julian Schrittwieser:是的,長期記憶可能是一個重要的因子,例如在“星際爭霸”游戲中,你可能已經(jīng)做出了上千個動作,但你還要記住你派出的偵察兵。

我認(rèn)為現(xiàn)在已經(jīng)有了令人振奮的組件(神經(jīng)圖靈機(jī)?。?,但是我認(rèn)為我們在這方面仍有很大的改進(jìn)空間。


Q:David,我看過你的演講視頻,你提到增強(qiáng)學(xué)習(xí)可以用于金融交易, 你有沒有真實世界的例子? 你會如何處理黑天鵝事件(過去沒有遇到過的情況)?

David Silver:已經(jīng)發(fā)表增強(qiáng)學(xué)習(xí)用于現(xiàn)實世界的財務(wù)算法的論文非常少見,但有一些經(jīng)典論文值得一看,例如Nevmyvaka、Kearns在2006寫的那篇和Moody、Safell在2001年寫的那篇。


Q:你們和Facebook幾乎同時研究圍棋問題,你們能更快獲得大師級表現(xiàn)的優(yōu)勢是什么?

對于那些無法獲得像AlphaGo如此多的訓(xùn)練數(shù)據(jù)的領(lǐng)域如何開展機(jī)器學(xué)習(xí)或者增強(qiáng)學(xué)習(xí)?

David_Silver:Facebook更側(cè)重于監(jiān)督學(xué)習(xí),我們選擇更多地關(guān)注強(qiáng)化學(xué)習(xí),因為我們認(rèn)為AlphaGo最終將超越人類的知識。 我們最近的結(jié)果實際上表明,監(jiān)督學(xué)習(xí)方法可以讓人大吃一驚,但強(qiáng)化學(xué)習(xí)絕對是遠(yuǎn)遠(yuǎn)超出人類水平的關(guān)鍵之處。

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

Deepmind AMA:關(guān)于最強(qiáng)ALphaGo如何煉成的真心話,都在這里了!

分享:
相關(guān)文章
當(dāng)月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說