丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能 正文
發(fā)私信給宗仁
發(fā)送

0

專訪阿里多智體協(xié)作網(wǎng)絡(luò)BiCNet作者UCL汪軍教授:多智體研究會(huì)不會(huì)締造下一個(gè)AlphaGo奇跡?

本文作者: 宗仁 2017-04-16 17:30
導(dǎo)語(yǔ):阿里巴巴認(rèn)知計(jì)算實(shí)驗(yàn)室與倫敦大學(xué)學(xué)院(UCL)計(jì)算機(jī)系合作,推出了多智能體雙向協(xié)調(diào)網(wǎng)絡(luò)(BicNet),雷鋒網(wǎng)采訪了論文通訊作者汪軍教授。

雷鋒網(wǎng)[AI科技評(píng)論按]:前不久,阿里巴巴認(rèn)知計(jì)算實(shí)驗(yàn)室與倫敦大學(xué)學(xué)院(UCL)計(jì)算機(jī)系合作,推出了多智能體雙向協(xié)調(diào)網(wǎng)絡(luò)(BiCNet),將其應(yīng)用于著名游戲“星際爭(zhēng)霸1”中進(jìn)行測(cè)試,研究了多個(gè)智能體之間協(xié)作行為的學(xué)習(xí)。在相關(guān)論文中,研究人員進(jìn)行的實(shí)驗(yàn)測(cè)試了BiCNet良好的性能表現(xiàn)。雷鋒網(wǎng)[AI科技評(píng)論按]近日采訪了這篇論文的通訊作者UCL汪軍教授,他為我們?cè)敿?xì)解答了這篇論文的靈感來(lái)源、特點(diǎn)和團(tuán)隊(duì)之后的研究方向。

專訪阿里多智體協(xié)作網(wǎng)絡(luò)BiCNet作者UCL汪軍教授:多智體研究會(huì)不會(huì)締造下一個(gè)AlphaGo奇跡?

汪軍, 倫敦大學(xué)學(xué)院(UCL)計(jì)算機(jī)系副教授、互聯(lián)網(wǎng)科學(xué)與大數(shù)據(jù)分析專業(yè)主任。主要研究智能信息系統(tǒng),主要包括數(shù)據(jù)挖掘,計(jì)算廣告學(xué),推薦系統(tǒng),機(jī)器學(xué)習(xí),強(qiáng)化學(xué)習(xí),生成模型等等。他發(fā)表了100多篇學(xué)術(shù)論文,多次獲得最佳論文獎(jiǎng)。是國(guó)際公認(rèn)的計(jì)算廣告學(xué)和智能推薦系統(tǒng)專家。

  • 倫敦大學(xué)學(xué)院和智能體研究

倫敦大學(xué)學(xué)院 (University College London),簡(jiǎn)稱UCL,建校于1826年,位于英國(guó)倫敦,是一所譽(yù)滿全球的世界頂尖名校。它是倫敦大學(xué)聯(lián)盟(University of London,簡(jiǎn)稱UOL)的創(chuàng)校學(xué)院,與劍橋大學(xué)、牛津大學(xué)、帝國(guó)理工學(xué)院、倫敦政治經(jīng)濟(jì)學(xué)院并稱"G5超級(jí)精英大學(xué)"。 時(shí)至今日,曾就讀、曾任職或現(xiàn)任職于UCL的校友中,共有32位諾貝爾獎(jiǎng)獲得者和3位菲爾茲獎(jiǎng)獲得者,此外還不乏政治、科學(xué)、文化以及娛樂(lè)等多個(gè)領(lǐng)域的名人。其中包括人工智能AlphaGo 的創(chuàng)建者戴密斯·哈薩比斯。

據(jù)汪軍教授介紹,此次多智能體的論文發(fā)現(xiàn)是基于倫敦大學(xué)學(xué)院(UCL)在機(jī)器學(xué)習(xí)領(lǐng)域深厚的積累,同阿里巴巴集團(tuán)緊密合作的共同結(jié)果。汪軍教授強(qiáng)調(diào)說(shuō),現(xiàn)在的計(jì)算機(jī)領(lǐng)域,特別是深度學(xué)習(xí)方面,研究的迭代速度非常快, 只有通過(guò)和工業(yè)界緊密合作,工程和科研實(shí)力結(jié)合,學(xué)術(shù)團(tuán)隊(duì)才有能力去探索更具有開(kāi)拓性的,更有野心的領(lǐng)域和大問(wèn)題。比如說(shuō),最近他和阿里巴巴的另一個(gè)實(shí)驗(yàn)室,包括上海交大,天津大學(xué)的關(guān)于信息檢索研究的合作論文( IRGAN: A Minimax Game for Unifying Generative and Discriminative Information Retrieval Models)以三個(gè)滿分的最高得分被SIGIR信息檢索會(huì)議錄用。

“UCL人工智能和機(jī)器學(xué)習(xí)的底子很強(qiáng)。UCL計(jì)算機(jī)系現(xiàn)任主任 John Shawe-Taylor教授就是機(jī)器學(xué)習(xí)專家。其支持向量機(jī)(SVM)的書(shū)被稱為廣泛采用為教科書(shū)。他領(lǐng)導(dǎo)的研究中心名為CSML(Centre for Computational Statistics and Machine Learning),研究的范圍廣泛,涉及到統(tǒng)計(jì)學(xué)、計(jì)算機(jī)和機(jī)器學(xué)習(xí),研究的范圍非常大。Deepmind的創(chuàng)始人兼CEO Demis Hassabis 就是UCL畢業(yè)的博士,而AlphaGo那篇論文的第一作者David Silver曾是 UCL 的計(jì)算機(jī)系助理教授。”

專訪阿里多智體協(xié)作網(wǎng)絡(luò)BiCNet作者UCL汪軍教授:多智體研究會(huì)不會(huì)締造下一個(gè)AlphaGo奇跡?

Demis Hassabis(左)和David Silver(右)均出身于UCL

據(jù)公開(kāi)資料,UCL計(jì)算機(jī)系在人工智能和機(jī)器學(xué)習(xí)領(lǐng)域的研發(fā)能力,處于全球領(lǐng)先位置。就在2017年1月,戴密斯·哈薩比斯還專門(mén)撰文宣布,Deepmind將與UCL計(jì)算機(jī)系一道啟動(dòng)頂級(jí)培訓(xùn)計(jì)劃「Advanced Topics in Machine Learning」,應(yīng)邀參與授課的學(xué)者都是機(jī)器學(xué)習(xí)領(lǐng)域各方向的頂尖級(jí)人物,涵蓋深度學(xué)習(xí)、強(qiáng)化學(xué)習(xí)、自然語(yǔ)言識(shí)別等方面。

  • 為什么要跟阿里巴巴認(rèn)知計(jì)算實(shí)驗(yàn)室合作?

據(jù)汪軍教授介紹,他自己主攻的智能信息系統(tǒng)領(lǐng)域(信息檢索,個(gè)性化,數(shù)據(jù)挖掘,網(wǎng)絡(luò)廣告,強(qiáng)化學(xué)習(xí),深度學(xué)習(xí))跟阿里認(rèn)知實(shí)驗(yàn)室所作的事情(推薦系統(tǒng),搜索引擎,網(wǎng)絡(luò)廣告)比較契合。

“阿里的認(rèn)知實(shí)驗(yàn)室負(fù)責(zé)人袁泉跟我是老朋友,多年的合作,我自己做推薦系統(tǒng),包括搜索引擎,跟他們這些部門(mén)的方向比較契合。這次阿里基于這個(gè)計(jì)劃,希望做些比較前沿科學(xué)的事情,我們UCL很高興跟他們合作。


下一步,我們感覺(jué)在電子商務(wù),金融領(lǐng)域,包括其它的一些行業(yè),以后會(huì)有越來(lái)越多的多重人工智體在其中代替現(xiàn)行智能算法。比如推薦,搜索,廣告,這三個(gè)東西在電商的場(chǎng)景下怎樣協(xié)作,怎樣互補(bǔ)?目前我們還不知道,現(xiàn)在的解決方案是每個(gè)做為獨(dú)立的一體,單獨(dú)優(yōu)化;下一步星際爭(zhēng)霸里的人工智能怎么用到推薦,搜索,廣告業(yè)務(wù)里去協(xié)同?推薦系統(tǒng)怎么樣去幫助廣告系統(tǒng)?廣告系統(tǒng)怎么樣去幫助搜索?這些是需要在實(shí)踐中去尋找答案的。”

  • 關(guān)于這篇論文本身

1. 這篇論文的另一大特點(diǎn),是其研究學(xué)習(xí)對(duì)象是一個(gè)多智體(Multi-agent),為什么會(huì)選擇這么一個(gè)“小眾”的學(xué)習(xí)對(duì)象?

“Multi-agent系統(tǒng)是個(gè)大的研究領(lǐng)域,并不小眾,只是深度學(xué)習(xí)的方法還沒(méi)有廣泛的應(yīng)用。我們經(jīng)過(guò)一些分析后發(fā)現(xiàn),現(xiàn)在大家都是單智體深度學(xué)習(xí)的研究,那么人工智能未來(lái)的方向,我覺(jué)得應(yīng)該是系統(tǒng)層面上的,一個(gè)合作的關(guān)系,也包括競(jìng)爭(zhēng)的關(guān)系。這一點(diǎn),目前強(qiáng)化學(xué)習(xí)還沒(méi)有做好,所以我覺(jué)得我們應(yīng)該有這么一些嘗試?!?/p>

2. AlphaGo打敗人類選手前,做了大量的樣本學(xué)習(xí)。星際爭(zhēng)霸1里的多智體做了什么類似的工作?

“AlphaGo剛開(kāi)始效果好,是因?yàn)榇罅康挠^察專業(yè)棋手下棋,但最后優(yōu)化的時(shí)候是自我博弈為主。我們?cè)谧鐾陿颖緦W(xué)習(xí)后,是在多智體的前提下,用了兩個(gè)網(wǎng)絡(luò),訓(xùn)練的時(shí)候,用的bi-direction( 雙向通訊網(wǎng)絡(luò)),這個(gè)網(wǎng)絡(luò)的好處就是,效率比較高,可以比較好的平衡計(jì)算量和效率;當(dāng)然這個(gè)雙向RNN網(wǎng)絡(luò)并不是我們首創(chuàng)的,之前的工作就已經(jīng)存在了,有各種各樣的場(chǎng)景應(yīng)用案例, 但是用它來(lái)作為通信手段,用在星際爭(zhēng)霸里面,這算是所謂的一點(diǎn)點(diǎn)的創(chuàng)新吧。


另外這還只是一個(gè)開(kāi)始,還有很多比較有意思的東西等待我們的發(fā)現(xiàn)。例如,我們發(fā)現(xiàn)給AI Agent不同的reward獎(jiǎng)勵(lì),對(duì)學(xué)習(xí)的效果影響很大,我們可能會(huì)從這個(gè)方面聚焦?!?/p>

附論文標(biāo)題:“進(jìn)行星際爭(zhēng)霸戰(zhàn)斗游戲?qū)W習(xí)的多智體雙向協(xié)調(diào)網(wǎng)絡(luò)  ”(Multiagent Bidirectionally-Coordinated Nets for Learning to Play StarCraft Combat Games  )

專訪阿里多智體協(xié)作網(wǎng)絡(luò)BiCNet作者UCL汪軍教授:多智體研究會(huì)不會(huì)締造下一個(gè)AlphaGo奇跡?

3. 多智體雙向協(xié)調(diào)網(wǎng)絡(luò)的優(yōu)點(diǎn)是可以較好的平衡計(jì)算量和效率,缺點(diǎn)是什么?

“目前BiCNet還不是一個(gè)全局優(yōu)化的方法,畢竟它是兩層的通信。我們目前的效果是不錯(cuò)的,但是我們只是解決了how問(wèn)題,對(duì)why的問(wèn)題,我們需要重新去思考和實(shí)驗(yàn)。比如,智能體在游戲中到底通信了什么信息;在不同的游戲狀態(tài)下,他們的交流是什么,傳輸?shù)男畔?duì)合作有什么影響等等。這些我們現(xiàn)在還不清楚。”

4. 論文里多智體對(duì)戰(zhàn)的星際爭(zhēng)霸是單機(jī)游戲還是人類玩家?要擊敗對(duì)手的主要難點(diǎn)在哪里?論文7個(gè)作者里的分配是怎樣的?

是單機(jī)游戲。


我先講一下,我們做這個(gè)實(shí)驗(yàn)的初衷是先用人工智能的東西跟游戲內(nèi)部的人工智能進(jìn)行比較,因?yàn)橛糜螒騼?nèi)部的人工智能作為對(duì)手,我們可以根據(jù)對(duì)手的數(shù)量,強(qiáng)度來(lái)對(duì)游戲的整個(gè)強(qiáng)弱進(jìn)行一些設(shè)置,即在不同的場(chǎng)景下,訓(xùn)練我們?nèi)斯ぶ悄軄?lái)應(yīng)付它的能力。還有一點(diǎn)是因?yàn)橹暗腇acebook也采用這樣的測(cè)試環(huán)境模式,這樣可以用比較有效地,用我們的方法和它們進(jìn)行benchmark,  后面我們會(huì)考慮是否雇傭人類玩家來(lái)測(cè)試它的效果。


要擊敗對(duì)手的主要難點(diǎn)這塊,在于怎么讓人工智能的Agent較快,以end-to-end的方式,有效地在戰(zhàn)爭(zhēng)中學(xué)會(huì)合作打敗對(duì)方,而不是需要大量的人類提示(最好能比賽中自動(dòng)學(xué)習(xí)經(jīng)驗(yàn))。這個(gè)難點(diǎn)是因?yàn)槊總€(gè)智體做各種各樣的動(dòng)作,action space很大,如果用窮舉法來(lái)做的話,是不太可能的,特別是在有多個(gè)Agent協(xié)作的情況下,action space就更大了。怎么有效地去在學(xué)習(xí)中探索是要解決的問(wèn)題。


最后,在AI研究中,團(tuán)隊(duì)合作越來(lái)越重要,我們團(tuán)隊(duì)中編程能力強(qiáng)的負(fù)責(zé)開(kāi)發(fā)和工程方面的問(wèn)題;理論基礎(chǔ)和數(shù)學(xué)比較強(qiáng)的負(fù)責(zé)數(shù)學(xué)模型的建立和推導(dǎo);寫(xiě)作強(qiáng)的負(fù)責(zé)論文寫(xiě)作這塊的情況。另外值得一提的是,我們的迭代速度很快(利用8個(gè)小時(shí)時(shí)間差),主要是UCL這邊工作12個(gè)小時(shí),利用時(shí)間差,發(fā)給阿里的同事,中國(guó)的同事再反饋給UCL這邊。

5 論文中指出,此次研究中引入的的雙向協(xié)調(diào)網(wǎng)絡(luò)(BiCNet), 由策略網(wǎng)絡(luò)(actor)和Q值網(wǎng)絡(luò)(critic)組成,兩者均基于雙向RNN。為什么要基于RNN網(wǎng)絡(luò)?

因?yàn)槊總€(gè)游戲Agent之間必須要有個(gè)通訊,整個(gè)多智能體的通訊在網(wǎng)絡(luò)隱含層層面,RNN的目的就是通過(guò)隱含層把信息傳遞出來(lái),如果你要全連通的話,計(jì)算量會(huì)非常大。

6. 你們最新的多智體協(xié)作效果,相比Facebook和DeepMind團(tuán)隊(duì)的工作如何?

“經(jīng)過(guò)一些測(cè)試,我們的效果是比Facebook要好的。Deepmind的相關(guān)研究還沒(méi)有發(fā)布,但我們知道他們目前正在做這個(gè)事情,至于他們做的效果如何,我們也不太清楚。這個(gè)領(lǐng)域還剛開(kāi)始,大家都是帶著問(wèn)題往前走,至于要說(shuō),到底誰(shuí)比誰(shuí)好,我覺(jué)得這是一個(gè)次要的問(wèn)題,而且這也通常是一個(gè)工程問(wèn)題。從科學(xué)的角度來(lái)講,多智體系統(tǒng)在星際爭(zhēng)霸上做的一些事情,可以解決一些科學(xué)的問(wèn)題,這是比較有意思的部分?!?/p>

7. 預(yù)測(cè)一下星際爭(zhēng)霸里多智體協(xié)作系統(tǒng)最先應(yīng)用落地的5個(gè)領(lǐng)域,為什么?

  • 電商,我們現(xiàn)在已經(jīng)和阿里的推薦系統(tǒng),搜索系統(tǒng)具體團(tuán)隊(duì)對(duì)接,討論怎么把多智體協(xié)作系統(tǒng)應(yīng)用到電商場(chǎng)景里面,比如電商里能否把多重推薦系統(tǒng)協(xié)調(diào)起來(lái),預(yù)測(cè)這個(gè)現(xiàn)在的研究方法可能有大的作用。

  • 金融,金融的市場(chǎng)存在一個(gè)多重買(mǎi)家,多重賣家,怎么根據(jù)市場(chǎng)供給和需求來(lái)優(yōu)化我們的購(gòu)買(mǎi)和效率,多智體協(xié)作系統(tǒng)可能能找到比較好的策略,來(lái)輔助人的購(gòu)買(mǎi)策略(注意不會(huì)一下子上升到全自動(dòng)。

  • 醫(yī)療,主要涉及其中的問(wèn)答系統(tǒng)方面以及交互式的診斷,通過(guò)用戶的反饋信息-多智體協(xié)作系統(tǒng)怎樣在診斷中可以更加精確地幫助把疾病的診斷做得更好,準(zhǔn)確,風(fēng)險(xiǎn)降低,起到了一定作用。

  • 智能駕駛,智能駕駛要保障零故障,必須要所有的自動(dòng)駕駛汽車不光能自動(dòng)駕駛,它同時(shí)要相互通訊,來(lái)有效地避免出危險(xiǎn)的可能性,比如自動(dòng)駕駛中的一個(gè)Agent,在前面危險(xiǎn)的情況要?jiǎng)x車,這個(gè)信息可以提前通知到后面一個(gè)車,在它剎車的時(shí)候,后面的車可以采取必要的措施;或者協(xié)商過(guò)以后,才做剎車動(dòng)作,所以車與車之間的協(xié)作以后有智能體較大的發(fā)揮空間。

做多智體研究會(huì)不會(huì)締造下一個(gè)AlphaGo奇跡?

大家都知道DeepMind這個(gè)團(tuán)隊(duì)是于2010年在英國(guó)倫敦大學(xué)學(xué)院成立(UCL)的,其背后的某些團(tuán)隊(duì)成員自然也跟UCL有著不解之緣。

汪軍的學(xué)生,上海交大的助理教授張偉楠解釋道,其CEO Demis Hassabis曾于2005年前往倫敦大學(xué)學(xué)院開(kāi)始攻讀神經(jīng)科學(xué)博士學(xué)位。

團(tuán)隊(duì)另一個(gè)成員David Silver,AlphaGo論文的第一作者,在劍橋大學(xué)獲得計(jì)算機(jī)科學(xué)學(xué)士和碩士學(xué)位,在阿爾伯塔大學(xué)獲得哲學(xué)博士學(xué)位,在MIT讀完機(jī)器學(xué)習(xí)的博士后之后,也回到了倫敦大學(xué)學(xué)院當(dāng)老師。

多年老友在倫敦大學(xué)學(xué)院重逢后,Silver被Demis老友叫過(guò)去去優(yōu)化這個(gè)游戲,Demis自己作為一個(gè)棋類游戲重度玩家,深知圍棋在被象棋攻克之后一直還未被攻克,所以順勢(shì)成立了AlphaGo部門(mén),加上臺(tái)灣專門(mén)做圍棋軟的黃士杰博士等12位大牛成員助攻,做了兩年無(wú)KPI創(chuàng)業(yè)后,再有了后面的AlphaGo出世。 

當(dāng)問(wèn)到汪軍教授他們正在進(jìn)行的多智體研究會(huì)不會(huì)締造下一個(gè)AlphaGo奇跡? 他委婉地表示:

DeepMind的的這些技術(shù)都挺強(qiáng)的,但所有的努力都是臥薪嘗膽挺久后出來(lái)的結(jié)果,沒(méi)有那么快,所以星際爭(zhēng)霸這個(gè)多智能體才剛剛開(kāi)始。


更多雷鋒網(wǎng)文章:

阿里推出多智能體雙向協(xié)調(diào)網(wǎng)絡(luò)BicNet,玩《星際爭(zhēng)霸》堪比人類

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。

專訪阿里多智體協(xié)作網(wǎng)絡(luò)BiCNet作者UCL汪軍教授:多智體研究會(huì)不會(huì)締造下一個(gè)AlphaGo奇跡?

分享:
相關(guān)文章

專注AIR(人工智能+機(jī)器人)

專注人工智能+機(jī)器人報(bào)道,經(jīng)驗(yàn)分享請(qǐng)加微信keatslee8(請(qǐng)注明原因)。 科學(xué)的本質(zhì)是:?jiǎn)栆粋€(gè)不恰當(dāng)?shù)膯?wèn)題,于是走上了通往恰當(dāng)答案的路。
當(dāng)月熱門(mén)文章
最新文章
請(qǐng)?zhí)顚?xiě)申請(qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說(shuō)