丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
人工智能 正文
發(fā)私信給周蕾
發(fā)送

0

無懼雨雪風霜?斯坦福找到一種更適應(yīng)動態(tài)環(huán)境的強化學習方法

本文作者: 周蕾 2020-07-02 10:07
導語:它與SAC、SLAC有何不同?

無懼雨雪風霜?斯坦福找到一種更適應(yīng)動態(tài)環(huán)境的強化學習方法

斯坦福人工智能實驗室(SAIL)的研究人員最近設(shè)計了一種方法,能處理那些會隨時間變化的數(shù)據(jù)和環(huán)境,性能優(yōu)于一些領(lǐng)先的強化學習方法,它被命名為LILAC(Lifelong Latent Actor-Critic)。

這一方法使用了潛在變量模型和最大熵策略,以此利用過去的經(jīng)驗,在動態(tài)環(huán)境中獲得更好的采樣效率和性能。

他們在一篇關(guān)于LILAC的論文中寫道:

“我們觀察到,在具有顯著非平穩(wěn)性的各種連續(xù)控制任務(wù)中,與最先進的強化學習方法相比,我們的方法帶來了實質(zhì)性的改進?!崩?,它能夠更好地適應(yīng)環(huán)境,機器人或自主車輛可以在天氣條件變化較多(比如遇到雨雪環(huán)境)引入時運行這一方法。

作者在該動態(tài)強化學習環(huán)境中進行了四個測試,包括來自metaworld基準測試的Sawyer機器人、OpenAI Gym的Half-Cheetah和2D導航任務(wù)。

研究人員發(fā)現(xiàn),與伯克利AI研究院(BAIR)于2018年推出的SAC(Soft Actor Critical)和加州大學伯克利分校(UC Berkeley)研究人員今年早些時候推出的SLAC(Rastic Potential Actor Critic)等頂級強化學習方法相比,LILAC在所有領(lǐng)域都能獲得更高、更穩(wěn)定的回報。

斯坦福大學的研究人員Annie Xie、James Harrison和Chelsea Finn兩周前在arXiv上發(fā)表了一篇關(guān)于LILAC的論文。主要作者Xie也與加州大學伯克利分校教授Sergey Levine合作研究SAC和SLAC。

“與這些方法不同,盡管在每一集中都會經(jīng)歷環(huán)境的持續(xù)變化,但LILAC卻能推斷出未來環(huán)境的變化,并在訓練過程中穩(wěn)步保持高回報。”

作者說,LILAC與終身學習和在線學習算法有相似之處。元學習和元強化學習算法也試圖快速適應(yīng)新的設(shè)置。

在最近的其他強化學習新聞中,來自Google Brain、卡內(nèi)基梅隆大學、匹茲堡大學和加州大學伯克利分校的AI研究人員最近又引入了一種新的域適應(yīng)方法,即在強化學習環(huán)境中改變代理的獎勵函數(shù)。與其他強化學習環(huán)境一樣,該方法試圖使模擬器中的源域更像真實世界中的目標域。

一篇上周發(fā)布的域適配論文指出,“行為主體會因為轉(zhuǎn)換而受到懲罰,轉(zhuǎn)換可以表明行為主體是在與源域還是目標域交互?!薄霸谝幌盗锌刂迫蝿?wù)上的實驗表明,我們的方法可以利用源域來學習在目標域中運行良好的策略,盡管只觀察到目標域的少數(shù)轉(zhuǎn)換。”

研究人員修改了獎勵函數(shù),使用分類器來區(qū)分源域和目標域的轉(zhuǎn)換。他們在OpenAI Gym用三個任務(wù)來測試他們的方法。

雷鋒網(wǎng)編譯,via Stanford AI researchers introduce LILAC, reinforcement learning for dynamic environments | VentureBeat  

雷鋒網(wǎng)雷鋒網(wǎng)

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

無懼雨雪風霜?斯坦福找到一種更適應(yīng)動態(tài)環(huán)境的強化學習方法

分享:
相關(guān)文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說