0
本文作者: AI研習社-譯站 | 2018-06-04 10:06 |
雷鋒網(wǎng)按:這里是,雷鋒字幕組編譯的Two minutes paper專欄,每周帶大家用碎片時間閱覽前沿技術,了解AI領域的最新研究成果。
原標題 This Evolving AI Finds Bugs in Games - Two Minute Papers #250
翻譯 | 孫啟超 整理 | 凡江
強化學習會通過在系統(tǒng)中選擇一系列的行為,把分數(shù)提到最高水平。我們可以將這類技術運用于訓練一種可以打爆各種各樣游戲的人工智能,例如在 Q bert 游戲中,人工智能每走一步,都要計算出合適的操作來控制這個橙色的光標,并在不碰到紫色敵人的情況下,點亮所有的立方體。
針對部分具有挑戰(zhàn)性的深度強化學習問題,比如雅達利游戲,已經(jīng)有研究表明,進化策略(Evolution Strategies)是強化學習的可行替代方案。本期論文所提出的進化策略,目標不僅是訓練一個代理 而是并行訓練所有代理,這種方法效率很高,就像大自然的進化那樣,優(yōu)勝劣汰,表現(xiàn)最好的代理產(chǎn)生新的后代。
Open AI 最近的研究結(jié)果表明,比起深度強化學習的各種通用手段,自然進化策略也不失為一種好的替代手段。本期論文使用的進化策略證明了,即便是年代久遠的進化策略,最后的成績也非常喜人。
更酷的是,在經(jīng)過 5 個小時的訓練后,我們發(fā)現(xiàn)該算法不僅能掌控游戲,還能通過很多有創(chuàng)造性的方式完勝 Q bert 中的機器人玩家。
當它下落犧牲自己來引誘紫點時,出了個小故障,令我們驚喜的是,當從這個位置下落的時候,它應該是丟一條命,但因為這是個 BUG,所以沒有死掉。
厲害~ AI 給自己續(xù)命
還有一個非??岬募夹g就是為了等待對手它會在那個位置來回跳,然后突然跳到另外一條路徑上。
它發(fā)現(xiàn)并利用了另一個很嚴重的 BUG,據(jù)我所知這個 BUG 以前從來沒有發(fā)生過,在完成第一階段后。它開始以一種看似隨機的方式在周圍跳躍。過了一會 我們看到游戲并沒有進入下個階段,那些方格開始閃爍,人工智能可以想要多少分就拿多少分。
分數(shù)蹭蹭往上漲
通過進化策略,AI 可以輕輕松松搞定諸如像雅達利這樣的游戲,甚至還能發(fā)現(xiàn) Bug,簡直是開了掛一般的存在。
視頻原址:https://www.youtube.com/watch?v=wm8tK91k37U&t=105s
論文原址:https://arxiv.org/pdf/1802.08842.pdf
雷鋒網(wǎng)雷鋒網(wǎng)
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。