進化策略讓 AI 開掛，玩游戲不斷給自己續(xù)命

本文作者： AI研習社-譯站

2018-06-04 10:06

導語：針對部分具有挑戰(zhàn)性的深度強化學習問題，比如雅達利游戲，已經(jīng)有研究表明，進化策略（Evolution Strategies）是強化學習的可行替代方案

雷鋒網(wǎng)按：這里是，雷鋒字幕組編譯的Two minutes paper專欄，每周帶大家用碎片時間閱覽前沿技術，了解AI領域的最新研究成果。

原標題 This Evolving AI Finds Bugs in Games - Two Minute Papers #250

翻譯 | 孫啟超整理 | 凡江

強化學習會通過在系統(tǒng)中選擇一系列的行為，把分數(shù)提到最高水平。我們可以將這類技術運用于訓練一種可以打爆各種各樣游戲的人工智能，例如在 Q bert 游戲中，人工智能每走一步，都要計算出合適的操作來控制這個橙色的光標，并在不碰到紫色敵人的情況下，點亮所有的立方體。

針對部分具有挑戰(zhàn)性的深度強化學習問題，比如雅達利游戲，已經(jīng)有研究表明，進化策略（Evolution Strategies）是強化學習的可行替代方案。本期論文所提出的進化策略，目標不僅是訓練一個代理而是并行訓練所有代理，這種方法效率很高，就像大自然的進化那樣，優(yōu)勝劣汰，表現(xiàn)最好的代理產(chǎn)生新的后代。

Open AI 最近的研究結(jié)果表明，比起深度強化學習的各種通用手段，自然進化策略也不失為一種好的替代手段。本期論文使用的進化策略證明了，即便是年代久遠的進化策略，最后的成績也非常喜人。

進化策略讓 AI 開掛，玩游戲不斷給自己續(xù)命