0
本文作者: 楊文 | 2017-06-07 10:49 |
雷鋒網(wǎng)AI科技評(píng)論按:6.5號(hào),微軟研究官網(wǎng)放出最近的Malmo項(xiàng)目挑戰(zhàn)賽的比賽結(jié)果,其中來自中國大陸的HelloJason團(tuán)隊(duì)獲得微軟Azure研究津貼獎(jiǎng)的第二名。協(xié)同AI可以說是AI未來發(fā)展的一個(gè)重要趨勢(shì),此次大賽致力于推動(dòng)協(xié)同AI的發(fā)展,同時(shí)微軟還為協(xié)同AI研究者提供了豐富的計(jì)算資源支持。以下內(nèi)容為雷鋒網(wǎng)編輯整理編譯。
當(dāng)從局限性AI過渡到通用性AI,給機(jī)器嵌入可以和代理以及人類協(xié)同工作的能力就會(huì)變得非常重要。Malmo 工程,是基于目前流行的多人游戲Minecraft開發(fā)的項(xiàng)目,也是如何訓(xùn)練智能代理間協(xié)同合作的AI研究工具。這個(gè)項(xiàng)目要求團(tuán)隊(duì)運(yùn)用代理間的合作來完成游戲,目的是將協(xié)同AI 做到極致。
Katja Hofmann,是Malmo項(xiàng)目的負(fù)責(zé)人,他總結(jié)了這次挑戰(zhàn)的意義。在Minecraft游戲中,游戲的玩法創(chuàng)新是無窮盡的。在Minecraft的框架下,Malmo項(xiàng)目嘗試不同的策略和方法來教代理工作。給團(tuán)隊(duì)帶來的挑戰(zhàn)是證明代理有預(yù)測(cè)和學(xué)習(xí)是否協(xié)同以及如何成功地協(xié)同合作的能力。從這次挑戰(zhàn)中,我們了解了很多關(guān)于開發(fā)AI協(xié)同性的策略,例如基于計(jì)劃方法,基于深度神經(jīng)網(wǎng)絡(luò)方法,以及共同進(jìn)化方法。
結(jié)果很令人滿意,有來自26個(gè)國家,由研究生組成的80多個(gè)團(tuán)隊(duì)參與了此次挑戰(zhàn)賽。挑戰(zhàn)要求團(tuán)隊(duì)訓(xùn)練代理玩一個(gè)協(xié)同小游戲——catch the pig,游戲中要求玩家合作實(shí)現(xiàn)共同目標(biāo)。之所以選這個(gè)挑戰(zhàn)是因?yàn)樗从沉擞螒蛟?。它是一個(gè)在單干和合作之間權(quán)衡的經(jīng)典案例。項(xiàng)目會(huì)關(guān)注參與者如何解決這個(gè)問題,用什么算法和策略表現(xiàn)的更好,并選出有潛力的未來研究方向。
每個(gè)團(tuán)隊(duì)會(huì)將代碼提交到GitHub,寫出他們的方法自評(píng),并制作一個(gè)視頻呈現(xiàn)他們的代理活動(dòng)。獲勝者將會(huì)被邀請(qǐng)參加微軟研究AI夏令營,或微軟2萬美金的研究津貼。獲勝者的評(píng)選基于以下幾個(gè)標(biāo)準(zhǔn):代理獲得游戲高分的能力,團(tuán)隊(duì)方法的創(chuàng)造性和新穎性。
以下是兩個(gè)不同獎(jiǎng)項(xiàng)的獲獎(jiǎng)團(tuán)隊(duì)
獲獎(jiǎng)?wù)邔⑻峁┪④浹芯緼I夏令營中的職位,博士生可以和微軟研究科學(xué)家一起在劍橋工作,可以學(xué)習(xí)通用研究技術(shù),了解MSR劍橋?qū)嶒?yàn)室,享受和AI研究引領(lǐng)者交流的樂趣。
第一名 Bacon Gulch(英國)
第二名 Village People(羅馬尼亞)
第三名 The Danish Puppeteers(羅馬尼亞)
優(yōu)秀獎(jiǎng) AASMA (葡萄牙)
微軟Azure研究津貼獎(jiǎng)得主
該獎(jiǎng)項(xiàng)額外為學(xué)生團(tuán)隊(duì)未來研究提供計(jì)算資源支持,微軟Azure為全球上百位研究者提供他們所需的基于云存儲(chǔ),大數(shù)據(jù)平臺(tái),互聯(lián)網(wǎng)解決方案,或一定規(guī)模的開源機(jī)器學(xué)習(xí)。
第一名: HogRider (新加坡)
第二名 (并列): HelloJason (中國大陸)
Bacon Gulch (英國)
第三名 (并列): The Danish Puppeteers (丹麥)
Village People (羅馬尼亞)
Bo An,南洋理工大學(xué)的助理教授,HogRider 團(tuán)隊(duì)的導(dǎo)師,他說道,Malmo測(cè)試臺(tái)反映了AI協(xié)作的所有重要的規(guī)格參數(shù):不完全信息,局部/噪聲觀測(cè),合作與競爭共存,序貫決策,等等。為了應(yīng)對(duì)這些挑戰(zhàn),團(tuán)隊(duì)需要將不同領(lǐng)域的技術(shù)集成在一起。最后感謝所有的參賽團(tuán)隊(duì),為獲獎(jiǎng)?wù)咚〉玫某煽儽硎咀YR。
設(shè)計(jì)Malmo項(xiàng)目的意義在于推動(dòng)AI協(xié)同理解力的進(jìn)步。以下是實(shí)驗(yàn)收獲
針對(duì)這個(gè)問題沒有哪一個(gè)單一解決方法是明顯優(yōu)于其他參賽者的。如果單單看游戲得分,很多不同的方法都得出的是一個(gè)相似的結(jié)果。
不要貶低以前的工作。很多團(tuán)隊(duì)取得成功都是通過結(jié)合經(jīng)典的AI方法和新的啟發(fā)和模型。
有時(shí)候最大的學(xué)習(xí)就是問接下來干什么,在AI協(xié)同中,其中一個(gè)最大的問題就是代理的能力,在一個(gè)動(dòng)態(tài)的環(huán)境中調(diào)整信息的能力。通過引進(jìn)未知特性和目標(biāo)的代理,代理必須與其合作從而解決團(tuán)隊(duì)實(shí)時(shí)更新環(huán)境這一問題。因此,此次挑戰(zhàn)為AI代理適應(yīng)未知環(huán)境提供了有潛力的研究方向。
任何事情都是重要的。一些團(tuán)隊(duì)把時(shí)間花費(fèi)在問題分析上,另一些則花費(fèi)在編碼效率上,還有一些花費(fèi)在調(diào)整他們的模型上。所有的這三個(gè)領(lǐng)域的努力都為今后的研究工作提供了幫助。
via Microsoft Research Blog, 雷鋒網(wǎng)編譯
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。