丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預覽,將在時失效
人工智能 正文
發(fā)私信給AI研習社-譯站
發(fā)送

0

進化策略讓 AI 開掛,玩游戲不斷給自己續(xù)命

本文作者: AI研習社-譯站 2018-06-04 10:06
導語:針對部分具有挑戰(zhàn)性的深度強化學習問題,比如雅達利游戲,已經(jīng)有研究表明,進化策略(Evolution Strategies)是強化學習的可行替代方案

雷鋒網(wǎng)按:這里是,雷鋒字幕組編譯的Two minutes paper專欄,每周帶大家用碎片時間閱覽前沿技術,了解AI領域的最新研究成果。

原標題 This Evolving AI Finds Bugs in Games - Two Minute Papers #250

翻譯 | 孫啟超    整理 | 凡江

強化學習會通過在系統(tǒng)中選擇一系列的行為,把分數(shù)提到最高水平。我們可以將這類技術運用于訓練一種可以打爆各種各樣游戲的人工智能,例如在 Q bert 游戲中,人工智能每走一步,都要計算出合適的操作來控制這個橙色的光標,并在不碰到紫色敵人的情況下,點亮所有的立方體。

針對部分具有挑戰(zhàn)性的深度強化學習問題,比如雅達利游戲,已經(jīng)有研究表明,進化策略(Evolution Strategies)是強化學習的可行替代方案。本期論文所提出的進化策略,目標不僅是訓練一個代理 而是并行訓練所有代理,這種方法效率很高,就像大自然的進化那樣,優(yōu)勝劣汰,表現(xiàn)最好的代理產(chǎn)生新的后代。

Open AI 最近的研究結(jié)果表明,比起深度強化學習的各種通用手段,自然進化策略也不失為一種好的替代手段。本期論文使用的進化策略證明了,即便是年代久遠的進化策略,最后的成績也非常喜人。

進化策略讓 AI 開掛,玩游戲不斷給自己續(xù)命

更酷的是,在經(jīng)過 5 個小時的訓練后,我們發(fā)現(xiàn)該算法不僅能掌控游戲,還能通過很多有創(chuàng)造性的方式完勝 Q bert 中的機器人玩家。

當它下落犧牲自己來引誘紫點時,出了個小故障,令我們驚喜的是,當從這個位置下落的時候,它應該是丟一條命,但因為這是個 BUG,所以沒有死掉。

進化策略讓 AI 開掛,玩游戲不斷給自己續(xù)命

厲害~ AI 給自己續(xù)命

還有一個非??岬募夹g就是為了等待對手它會在那個位置來回跳,然后突然跳到另外一條路徑上。

它發(fā)現(xiàn)并利用了另一個很嚴重的 BUG,據(jù)我所知這個 BUG 以前從來沒有發(fā)生過,在完成第一階段后。它開始以一種看似隨機的方式在周圍跳躍。過了一會 我們看到游戲并沒有進入下個階段,那些方格開始閃爍,人工智能可以想要多少分就拿多少分。

進化策略讓 AI 開掛,玩游戲不斷給自己續(xù)命

分數(shù)蹭蹭往上漲

通過進化策略,AI 可以輕輕松松搞定諸如像雅達利這樣的游戲,甚至還能發(fā)現(xiàn) Bug,簡直是開了掛一般的存在。

視頻原址:https://www.youtube.com/watch?v=wm8tK91k37U&t=105s

論文原址:https://arxiv.org/pdf/1802.08842.pdf

進化策略讓 AI 開掛,玩游戲不斷給自己續(xù)命


雷鋒網(wǎng)雷鋒網(wǎng)

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

進化策略讓 AI 開掛,玩游戲不斷給自己續(xù)命

分享:
相關文章

知情人士

AI研習社(yanxishe.com)譯站頻道,傳播前沿人工智能知識,讓語言不再成為學習知識的門檻。(原雷鋒字幕組)
當月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設置密碼以方便用郵箱登錄
立即設置 以后再說