0
本文作者: AI研習(xí)社-譯站 | 2018-06-04 10:06 |
雷鋒網(wǎng)按:這里是,雷鋒字幕組編譯的Two minutes paper專(zhuān)欄,每周帶大家用碎片時(shí)間閱覽前沿技術(shù),了解AI領(lǐng)域的最新研究成果。
原標(biāo)題 This Evolving AI Finds Bugs in Games - Two Minute Papers #250
翻譯 | 孫啟超 整理 | 凡江
強(qiáng)化學(xué)習(xí)會(huì)通過(guò)在系統(tǒng)中選擇一系列的行為,把分?jǐn)?shù)提到最高水平。我們可以將這類(lèi)技術(shù)運(yùn)用于訓(xùn)練一種可以打爆各種各樣游戲的人工智能,例如在 Q bert 游戲中,人工智能每走一步,都要計(jì)算出合適的操作來(lái)控制這個(gè)橙色的光標(biāo),并在不碰到紫色敵人的情況下,點(diǎn)亮所有的立方體。
針對(duì)部分具有挑戰(zhàn)性的深度強(qiáng)化學(xué)習(xí)問(wèn)題,比如雅達(dá)利游戲,已經(jīng)有研究表明,進(jìn)化策略(Evolution Strategies)是強(qiáng)化學(xué)習(xí)的可行替代方案。本期論文所提出的進(jìn)化策略,目標(biāo)不僅是訓(xùn)練一個(gè)代理 而是并行訓(xùn)練所有代理,這種方法效率很高,就像大自然的進(jìn)化那樣,優(yōu)勝劣汰,表現(xiàn)最好的代理產(chǎn)生新的后代。
Open AI 最近的研究結(jié)果表明,比起深度強(qiáng)化學(xué)習(xí)的各種通用手段,自然進(jìn)化策略也不失為一種好的替代手段。本期論文使用的進(jìn)化策略證明了,即便是年代久遠(yuǎn)的進(jìn)化策略,最后的成績(jī)也非常喜人。
更酷的是,在經(jīng)過(guò) 5 個(gè)小時(shí)的訓(xùn)練后,我們發(fā)現(xiàn)該算法不僅能掌控游戲,還能通過(guò)很多有創(chuàng)造性的方式完勝 Q bert 中的機(jī)器人玩家。
當(dāng)它下落犧牲自己來(lái)引誘紫點(diǎn)時(shí),出了個(gè)小故障,令我們驚喜的是,當(dāng)從這個(gè)位置下落的時(shí)候,它應(yīng)該是丟一條命,但因?yàn)檫@是個(gè) BUG,所以沒(méi)有死掉。
厲害~ AI 給自己續(xù)命
還有一個(gè)非常酷的技術(shù)就是為了等待對(duì)手它會(huì)在那個(gè)位置來(lái)回跳,然后突然跳到另外一條路徑上。
它發(fā)現(xiàn)并利用了另一個(gè)很?chē)?yán)重的 BUG,據(jù)我所知這個(gè) BUG 以前從來(lái)沒(méi)有發(fā)生過(guò),在完成第一階段后。它開(kāi)始以一種看似隨機(jī)的方式在周?chē)S。過(guò)了一會(huì) 我們看到游戲并沒(méi)有進(jìn)入下個(gè)階段,那些方格開(kāi)始閃爍,人工智能可以想要多少分就拿多少分。
分?jǐn)?shù)蹭蹭往上漲
通過(guò)進(jìn)化策略,AI 可以輕輕松松搞定諸如像雅達(dá)利這樣的游戲,甚至還能發(fā)現(xiàn) Bug,簡(jiǎn)直是開(kāi)了掛一般的存在。
視頻原址:https://www.youtube.com/watch?v=wm8tK91k37U&t=105s
論文原址:https://arxiv.org/pdf/1802.08842.pdf
雷鋒網(wǎng)雷鋒網(wǎng)
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。