1
本文作者: AI研習(xí)社-譯站 | 2018-04-25 10:33 |
雷鋒網(wǎng)按:這里是,雷鋒字幕組編譯的Two minutes paper專欄,每周帶大家用碎片時(shí)間閱覽前沿技術(shù),了解AI領(lǐng)域的最新研究成果。
原標(biāo)題 DeepMind's AI Learns Complex Behaviors From Scratch | Two Minute Papers #239
翻譯 | 徐速 廖穎 字幕 | 凡江 整理 | 李逸帆 吳璇
本期論文:Learning by Playing - Solving Sparse Reward Tasks from Scratch
前些日子,DeepMind為AI機(jī)器人創(chuàng)建了一種全新的強(qiáng)化學(xué)習(xí)模式,名為SAC-X(預(yù)定輔助控制),能夠?yàn)闄C(jī)器人提供一個(gè)簡(jiǎn)單目標(biāo),并在完成時(shí)提供獎(jiǎng)勵(lì)。
?每周一篇2分鐘論文視頻解讀
論文解讀視頻中,我們可以看到有機(jī)器人在協(xié)助生產(chǎn),但機(jī)器人沒有預(yù)裝任何特定程序,沒有任何老師指導(dǎo)學(xué)習(xí)算法,也沒有對(duì)環(huán)境的先驗(yàn)知識(shí),只是在摸索如何達(dá)到人們的要求,并且獲得相應(yīng)的獎(jiǎng)勵(lì)。
SAC-X 通過給予機(jī)器人獎(jiǎng)勵(lì)反饋,讓機(jī)器人從零開始學(xué)會(huì)復(fù)雜操作。這個(gè)配置有系列通用輔助任務(wù)的機(jī)器人,試圖通過off-policy強(qiáng)化學(xué)習(xí)慢慢完成任務(wù)。過程中,研究人員不會(huì)手把手教機(jī)器人完成任務(wù),只會(huì)開啟機(jī)器配備的感測(cè)器,剩下的留給機(jī)器自己探索,直到任務(wù)完成為止。
這個(gè)方法背后的創(chuàng)新點(diǎn)在于,“預(yù)定的動(dòng)作”和“輔助策略操作”能讓機(jī)器人有效摸索周邊環(huán)境,機(jī)器人在獎(jiǎng)勵(lì)非常稀疏的情況下,也能表現(xiàn)得非常好。在有挑戰(zhàn)性的機(jī)器人操作設(shè)定演示實(shí)驗(yàn)中,這樣的方法也能奏效。
論文原址 https://arxiv.org/abs/1802.10567 雷鋒網(wǎng)雷鋒網(wǎng)
雷鋒字幕組正在招募中
掃描下方二維碼
備注“雷鋒字幕組+姓名”加入我們吧
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。