丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
人工智能 正文
發(fā)私信給汪思穎
發(fā)送

0

AlphaGo Zero為何如此備受矚目?這是8位教授和同學(xué)們的獨家見解

本文作者: 汪思穎 編輯:郭奕欣 2017-10-19 21:56
導(dǎo)語:雷鋒網(wǎng) AI科技評論第一時間聯(lián)系到相關(guān)研究領(lǐng)域的教授和同學(xué),與他們聊了聊看到AlphaGo Zero之后的一些思考和啟發(fā)。

雷鋒網(wǎng) AI科技評論消息,北京時間10月19日凌晨,DeepMind在Nature上發(fā)表了名為Mastering the game of Go without human knowledge(不使用人類知識掌握圍棋)的論文,在論文中,Deepmind展示了他們強大的新版本圍棋程序“AlphaGo Zero”—— 僅經(jīng)過三天訓(xùn)練,就能以100:0擊敗此前擊敗李世石的AlphaGo Lee,經(jīng)過21天訓(xùn)練,就能達到擊敗柯潔的AlphaGo Master的水平。具體信息可參見100:0!Deepmind Nature論文揭示最強AlphaGo Zero,無需人類知識。

AlphaGo Zero的橫空出世又一次引起大眾爭相討論和轉(zhuǎn)發(fā),雷鋒網(wǎng) AI科技評論也第一時間聯(lián)系到相關(guān)研究領(lǐng)域的教授和同學(xué),與他們聊了聊看到AlphaGo Zero之后的一些思考和啟發(fā)。

加拿大西蒙弗雷澤大學(xué)計算機學(xué)院教授、Canada Research Chair裴健第一時間對AI科技評論表達了他的觀點,“最近的一系列成就把機器學(xué)習(xí)這把梯子又加長了很多,現(xiàn)在我們能爬很高的墻了,但這把梯子還是不能把我們帶到月球?!?/p>

得到裴健教授如此評價的AlphaGo Zero究竟是什么呢?接下來,AI科技評論將會為大家?guī)硭南嚓P(guān)介紹、關(guān)鍵技術(shù)、進行這項研究的意義以及一些更深層次的思考。

AlphaGo Zero是什么

AlphaGo Zero與原始的AlphaGo版本究竟有什么不同呢?上海交大CS系博士生李澤凡為我們帶來了全面解答:

  • 首先是網(wǎng)絡(luò)輸入的不同。在原始的AlphaGo版本中,首先用大量的人類對戰(zhàn)棋譜進行輸入訓(xùn)練,而AlphaGo Zero單純地用黑子白子進行輸入。

  • 其次是網(wǎng)絡(luò)設(shè)計的不同。AlphaGo的算法將policy網(wǎng)絡(luò)和value網(wǎng)絡(luò),即策略網(wǎng)絡(luò)和價值網(wǎng)絡(luò)分開訓(xùn)練。但Alphago Zero將這兩個網(wǎng)絡(luò)聯(lián)合訓(xùn)練,使得最后表達能力更好。并使用了殘差網(wǎng)絡(luò)模塊,使得網(wǎng)絡(luò)的深度能夠得到大幅提升,表達能力更強。

  • 另外,Alphago Zero不使用走子演算的方法對落子位置進行評價,而使用神經(jīng)網(wǎng)絡(luò)直接進行評價。

  • 最后,在訓(xùn)練方法上,Alphago Zero在每一步進行自我博弈訓(xùn)練的時候,其對手(陪練)往往設(shè)置成跟Alphago Zero在一個水平上的。這樣的漸進學(xué)習(xí)方式也是提升訓(xùn)練效果和效率的因素。

從與李澤凡的討論中可以看到,相較于原始版本,AlphaGo Zero進行了諸多改進。那么,最終決定AlphaGo Zero表現(xiàn)和效率決定性因素具體是哪些呢?

“從論文上看,應(yīng)該取決于三方面的因素。一是采用了一些改進的強化學(xué)習(xí)方法,使得學(xué)習(xí)過程收斂更穩(wěn)定。二是從零開始學(xué)習(xí),使得模型擺脫人類知識的束縛,有可能去探索更優(yōu)的局部解。三是采用了最新的模型設(shè)計,如更深的殘差卷積網(wǎng)絡(luò),使得優(yōu)化、計算量和表達能力三方面都有增強?!奔~約大學(xué)博士生張翔很好地解決了AI科技評論的疑問。

除了張翔,南京大學(xué)副教授俞揚博士在看到論文之后也對AI科技評論表示,

AlphaGo Zero的主要改進是在神經(jīng)網(wǎng)絡(luò)上使用了ResNet,以及在強化學(xué)習(xí)中使用了MCTS尋找學(xué)習(xí)樣本標記。由于技術(shù)的改進,使得總體的MCTS可以極大簡化,測試速度也因此得到了大幅提升。

另外,大部分同學(xué)認為,從0到1訓(xùn)練模型,拋棄人類經(jīng)驗,是一個相當重要的因素,也是一個值得借鑒的創(chuàng)新點。

“圍棋經(jīng)過上千年的傳承,雖然不斷會有新的突破,但整體上‘贏’的思維或套路可能已經(jīng)趨于統(tǒng)一。因此,從優(yōu)化的角度來看,利用人類知識進行學(xué)習(xí)的機制可能還是會讓網(wǎng)絡(luò)陷入跟人類思維一致的局部最優(yōu)。但AlphaGo Zero這種從0開始的self-motivated強化學(xué)習(xí)機制,會使網(wǎng)絡(luò)嘗試各種可能性,打破基于人類知識的固化思維,從而獲得更優(yōu)解?!盪IUC(伊利諾伊大學(xué)香檳分校) 博士后魏云超如是說道。

清華大學(xué)交叉信息研究院博士后王書浩也對AI科技評論表示,這種拋棄人類經(jīng)驗的方法與之前的工作相比,去除了領(lǐng)域知識相關(guān)的特征圖像提取過程,更加接近于End-to-End的模型訓(xùn)練,能夠達到更優(yōu)的訓(xùn)練效果。

而在今年的ICCV上,UIUC聯(lián)合培養(yǎng)博士沈志強發(fā)表了一篇類似觀點的文章:使用預(yù)訓(xùn)練(人類知識或者其他大規(guī)模數(shù)據(jù)集)的模型可能會存在bias或者陷入局部極值點,往往得不到最佳的性能,而from scratch的訓(xùn)練(權(quán)重隨機初始化)因為沒有任何先驗或者偏見,模型反而可以朝著正確的方向收斂,最后得到更優(yōu)的性能。

實現(xiàn)AlphaGo Zero難嗎?

可以看到,實現(xiàn)AlphaGo Zero算法的關(guān)鍵在之前也有過一些相關(guān)研究。這些關(guān)鍵性技術(shù)是否超乎了我們的想象范疇?

在與AI科技評論的交流中,張翔表示,這種技術(shù)對于學(xué)界來說并不新鮮?!皩τ趪暹@樣規(guī)則和目標可以精確定義的問題,自我比賽過程中通過輸贏產(chǎn)生了足夠的反饋信號,使得從零開始學(xué)習(xí)變得可能?!?/p>

王書浩則表示,當看到AlphaGo Zero,他非常驚訝。他繼續(xù)說道,

不是因為這個工作復(fù)雜的可怕,而是簡單的可怕。整個工作沒有使用非常復(fù)雜的新算法,而僅僅用了深度強化學(xué)習(xí)和MCTS搜索,但是就是這樣一個簡單直接的嘗試,得到了超越之前所有AlphaGo版本的“零度阿爾法狗”(AlphaGo Zero)。

雖然這些想法并沒有什么非常大的創(chuàng)新點,但要說到具體實現(xiàn),難度如何呢?

目前來說,能實現(xiàn)如此技術(shù)的,也非DeepMind莫屬。

  • “雖然對于學(xué)界來說,實現(xiàn)方法并不會使人感到非常驚訝,但目前只有DeepMind有這樣的團隊,以及領(lǐng)先一整個工程迭代的技術(shù),才能夠做這樣的研究?!睆埾鑼I科技評論說道。

  • 沈志強也對AI科技評論表達了類似于張翔的觀點:DeepMind團隊擁有非常強的工程能力,這點毋庸置疑,他們能夠把算法實現(xiàn)過程中的每個細節(jié)包括參數(shù)設(shè)置等都把握的很好。

AlphaGo Zero給我們帶來了什么

可以看到,AlphaGo Zero在算法上做的創(chuàng)新并不多,但實現(xiàn)起來卻極具技術(shù)難度。那么,DeepMind進行這項極具難度的技術(shù)研究到底會帶給我們什么實際意義呢?在這一點上,大家暢所欲言。

  • 解放人力成本:

“AlphaGo Zero代表著AI的實現(xiàn)不需要模仿或追尋人類智能的模式。大規(guī)模高速計算能力是機器智能的本質(zhì)特征。機器也要揚長避短。封閉規(guī)則下的問題相對比較容易突破。在封閉規(guī)則下,搜索是重體力勞動。這次的成功為人類提供了新的工具。人類可以集中精力在更有創(chuàng)造性的智能任務(wù)上,把很多的搜索子任務(wù)交給機器完成?!迸峤〗淌谌绱苏f道。

  • 促進強化學(xué)習(xí)的發(fā)展:

而南京大學(xué)副教授俞揚博士對AI科技評論表示,他們在最近的一項免模型直接動作求解的研究工作中發(fā)現(xiàn),求解出樣本標記能夠大幅提高強化學(xué)習(xí)效率,而以往方法樣本利用率很低,依賴大量采樣才能學(xué)好。

這次的論文中,AlphaGo Zero采用了規(guī)劃的方法求解學(xué)習(xí)樣本的標記,使得強化學(xué)習(xí)學(xué)得更好,這一思路也許在未來強化學(xué)習(xí)的發(fā)展上有重要作用。

  • 有助于我們擺脫思維定勢:

“AlphaGo Zero的這種學(xué)習(xí)方法以及創(chuàng)新突破告訴我們,應(yīng)該如何考慮擺脫人類固有的思維和認知來解決一些實際問題,或者說可以考慮讓計算機自己來學(xué)習(xí)解決這些問題的策略。通過算法的自我學(xué)習(xí)和探索,可能會得到人類意想不到的答案。”沈志強對AI科技評論說道。

同時,王書浩也表達了相同的觀點,他表示,AlphaGo Zero教我們一定要打破思維定式,敢于從0到1。

更深層的討論

當然,除了AlphaGo Zero給我們帶來的實際意義,也要考慮到當前技術(shù)發(fā)展的局限性,以及如何帶來更有應(yīng)用價值的成果。

俞揚博士從應(yīng)用價值的角度提出了相關(guān)思考:

DeepMind在AlphaGo Zero里沒有使用人類數(shù)據(jù)和人工特征,主要是為了滿足關(guān)于通用性的追求,同時也在挑戰(zhàn)算法的能力。但是在解決應(yīng)用問題時,如果能夠低成本的獲得人類數(shù)據(jù),依然能夠幫助強化學(xué)習(xí)系統(tǒng)快速取得較好的結(jié)果,這將會極具應(yīng)用價值。

這次AlphaGo Zero的大熱,也讓加州大學(xué)伯克利分校博士生許華哲展開了對未來的思考,他對AI科技評論表示,“如何讓智能算法去推理(reason)然后完成自我學(xué)習(xí)應(yīng)該還有很長的路要走。那天會來,但應(yīng)該還很遠很遠。”

總結(jié):可以看到,AlphaGo Zero并沒有用到很多創(chuàng)新的想法,但給我們帶來了很多新的思考,對于學(xué)術(shù)研究也有其實際意義。不過,目前來講,這種強化學(xué)習(xí)的方法想要走向?qū)嶋H應(yīng)用,還有很長的路要走。正如裴健博士所言,雖然研究的梯子加長了,但是要想登上月球,還是遠遠不夠。

論文地址:https://deepmind.com/documents/119/agz_unformatted_nature.pdf

雷鋒網(wǎng) AI科技評論。

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

AlphaGo Zero為何如此備受矚目?這是8位教授和同學(xué)們的獨家見解

分享:
相關(guān)文章

編輯

關(guān)注AI學(xué)術(shù),例如論文
當月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說