丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能學(xué)術(shù) 正文
發(fā)私信給楊曉凡
發(fā)送

0

如何得到穩(wěn)定可靠的強(qiáng)化學(xué)習(xí)算法?微軟兩篇頂會(huì)論文帶來(lái)安全的平滑演進(jìn)

本文作者: 楊曉凡 2019-06-16 19:29
導(dǎo)語(yǔ):取長(zhǎng)補(bǔ)短,相得益彰

如何得到穩(wěn)定可靠的強(qiáng)化學(xué)習(xí)算法?微軟兩篇頂會(huì)論文帶來(lái)安全的平滑演進(jìn)

雷鋒網(wǎng) AI 科技評(píng)論按:強(qiáng)化學(xué)習(xí)最常見(jiàn)的應(yīng)用是學(xué)習(xí)如何做出一系列決策,比如,如何一步步攀登上三千英尺高的巖壁。有機(jī)會(huì)用到強(qiáng)化學(xué)習(xí)并做出高水準(zhǔn)結(jié)果的領(lǐng)域包括機(jī)器人(以及無(wú)人機(jī))控制、對(duì)話系統(tǒng)(個(gè)人助理、自動(dòng)化呼叫中心)、游戲產(chǎn)業(yè)(智能 NPC、游戲 AI)、藥物研發(fā)(分子構(gòu)型測(cè)試、剪裁管理)、復(fù)雜系統(tǒng)控制(資源分配、過(guò)程優(yōu)化)等等。

強(qiáng)化學(xué)習(xí)的學(xué)術(shù)研究目前已經(jīng)取得了不少令人欣喜的研究成果,比如斯坦福大學(xué)的強(qiáng)化學(xué)習(xí)研究團(tuán)隊(duì)就搞定了用強(qiáng)化學(xué)習(xí)控制一個(gè)簡(jiǎn)化過(guò)的直升機(jī)模型(https://link.springer.com/chapter/10.1007/11552246_35),甚至還學(xué)會(huì)了新的雜耍動(dòng)作;Orange Labs 部署了世界首個(gè)用強(qiáng)化學(xué)習(xí)優(yōu)化的商業(yè)化對(duì)話系統(tǒng)(https://aclweb.org/anthology/papers/W/W10/W10-4332/);DeepMind 開(kāi)發(fā)出了深度強(qiáng)化學(xué)習(xí)算法 DQN(https://www.nature.com/articles/nature14236/),正是憑借著這個(gè)算法,他們訓(xùn)練出了只依靠視覺(jué)輸入就可以在 Atari 游戲中達(dá)到人類(lèi)水平的智能體,以及創(chuàng)造了只靠自我對(duì)弈就可以在圍棋中達(dá)到超過(guò)人類(lèi)頂尖水平的人工智能。

雖然強(qiáng)化學(xué)習(xí)領(lǐng)域已經(jīng)有了這么多成果,但是用強(qiáng)化學(xué)習(xí)解決真實(shí)世界中的問(wèn)題仍然是困難重重的。原因有許多種,包括:深度強(qiáng)化學(xué)習(xí)的樣本效率很糟糕,訓(xùn)練算法需要用到上億級(jí)的樣本,但這種數(shù)量的樣本是難以在真實(shí)世界獲得的;算法的決策有可能是有危害的,所以只能在不會(huì)傷害生命、不會(huì)破壞設(shè)施的環(huán)境中訓(xùn)練,也無(wú)法在有較高安全性要求的環(huán)境中使用;強(qiáng)化學(xué)習(xí)算法的公平性無(wú)法保證;而且,算法的可靠性、可重復(fù)性也不理想。

這篇博客討論的就是強(qiáng)化學(xué)習(xí)中的可靠性問(wèn)題。上面列出的強(qiáng)化學(xué)習(xí)的成果只能代表它在「穩(wěn)定、可靠」的時(shí)候的表現(xiàn),然而深度強(qiáng)化學(xué)習(xí)解決真實(shí)世界問(wèn)題時(shí)經(jīng)?!覆环€(wěn)定、不可靠」。甚至于,在訓(xùn)練算法時(shí)使用兩個(gè)不同的隨機(jī)種子都會(huì)因?yàn)橛?xùn)練過(guò)程中的隨機(jī)性而得到兩種截然不同的結(jié)果。微軟的研究人員們探究了兩種緩解這個(gè)問(wèn)題的方法。雷鋒網(wǎng) AI 科技評(píng)論根據(jù)博客介紹如下。

算法選擇法

第一種方法是微軟蒙特利爾研究院在 ICLR 2018 論文《Reinforcement Learning Algorithm Selection》中提出的。它的思路很簡(jiǎn)單,如果某個(gè)算法不可靠,就訓(xùn)練多個(gè)算法,選取其中表現(xiàn)最好的那個(gè)。算法選擇過(guò)程如下圖所示。在每輪訓(xùn)練的開(kāi)頭,算法選擇器會(huì)從算法庫(kù)中選擇一個(gè)算法,這個(gè)算法輸出的策略會(huì)在這輪訓(xùn)練的后續(xù)部分中用到。下面來(lái)到綠色部分,用標(biāo)準(zhǔn)的強(qiáng)化學(xué)習(xí)循環(huán)一直執(zhí)行到這輪訓(xùn)練結(jié)束。訓(xùn)練過(guò)程中生成的運(yùn)動(dòng)軌跡會(huì)被記錄下來(lái),然后重新喂給算法們,在之后更多的訓(xùn)練中用到。不同算法的表現(xiàn)會(huì)提交給算法選擇器,它會(huì)在之后的更多訓(xùn)練中選擇最適合的算法。

如何得到穩(wěn)定可靠的強(qiáng)化學(xué)習(xí)算法?微軟兩篇頂會(huì)論文帶來(lái)安全的平滑演進(jìn)

算法選擇法示意圖

微軟的研究人員們?cè)谡勁袑?duì)話博弈場(chǎng)景中進(jìn)行了實(shí)驗(yàn)。測(cè)試使用的算法選擇系統(tǒng) ESBAS 中含有兩個(gè)算法,每個(gè)算法單獨(dú)的表現(xiàn)如下圖,一個(gè)很穩(wěn)定(藍(lán)線),另一個(gè)最初很差,會(huì)逐漸學(xué)習(xí)并改善(紅線)。ESBAS 的表現(xiàn)是綠色的線,它在每一時(shí)刻的表現(xiàn)都更接近更好的那個(gè)算法。

如何得到穩(wěn)定可靠的強(qiáng)化學(xué)習(xí)算法?微軟兩篇頂會(huì)論文帶來(lái)安全的平滑演進(jìn)

算法選擇法初步實(shí)驗(yàn)結(jié)果

另一個(gè)以 Atari 游戲?yàn)榄h(huán)境的測(cè)試中,算法選擇系統(tǒng)也結(jié)合了多個(gè)不同的 DQN 網(wǎng)絡(luò)的能力,最終表現(xiàn)比每個(gè)單獨(dú)的算法都要好。

最初微軟的研究人員們只是提出算法選擇系統(tǒng)可以提升強(qiáng)化學(xué)習(xí)算法的可靠性,但其實(shí)它的價(jià)值不止如此。首先,這個(gè)系統(tǒng)中存在交錯(cuò)學(xué)習(xí),在每一時(shí)間步上都更傾向于選擇能產(chǎn)生最好的策略的算法;其次,一些難以直接表達(dá)為反饋的目標(biāo)函數(shù)也可以在這個(gè)系統(tǒng)中實(shí)現(xiàn)(比如它可以強(qiáng)制保證達(dá)到某些安全限制);而且,研究人員們觀察到不同算法策略的綜合體在環(huán)境中獲得了更加豐富多樣的經(jīng)驗(yàn)(也就意味著獲得了更多的信息);最后,正如上面那個(gè)例子展示的,算法選擇系統(tǒng)可以在基準(zhǔn)策略和需要時(shí)間學(xué)習(xí)的策略之間平滑地轉(zhuǎn)換。

可靠策略改進(jìn)

微軟的研究人員們還進(jìn)行了另一個(gè)嘗試,這篇論文《Safe Policy Improvement with Baseline Bootstrapping》發(fā)表在了 ICML 2019 上。他們研究的是一個(gè)真實(shí)世界應(yīng)用中時(shí)常會(huì)遇到的具體場(chǎng)景:批量強(qiáng)化學(xué)習(xí)。相比于典型強(qiáng)化學(xué)習(xí)的在環(huán)境中一邊互動(dòng)一邊學(xué)習(xí),批量強(qiáng)化學(xué)習(xí)中智能體并不與環(huán)境直接互動(dòng),只有一個(gè)固定的基準(zhǔn)線智能體采集數(shù)據(jù),然后用采集到的數(shù)據(jù)訓(xùn)練算法產(chǎn)生新的策略。這種批量學(xué)習(xí)的情境是真實(shí)世界場(chǎng)景中時(shí)長(zhǎng)遇到的,對(duì)話系統(tǒng)、電子游戲之類(lèi)的部署在個(gè)人設(shè)備上的系統(tǒng)很難頻繁更新,更沒(méi)法實(shí)時(shí)更新,所以需要先大規(guī)模采集數(shù)據(jù)再訓(xùn)練新的算法;藥物分子測(cè)試中也有類(lèi)似的狀況,如果像傳統(tǒng)強(qiáng)化學(xué)習(xí)那樣并行運(yùn)行許多個(gè)軌跡需要花很多年,所以更適合用批量強(qiáng)化學(xué)習(xí)的方法。

如何得到穩(wěn)定可靠的強(qiáng)化學(xué)習(xí)算法?微軟兩篇頂會(huì)論文帶來(lái)安全的平滑演進(jìn)

批量強(qiáng)化學(xué)習(xí)流程

傳統(tǒng)強(qiáng)化學(xué)習(xí)在基準(zhǔn)算法基礎(chǔ)上的提升不是穩(wěn)定可靠的。那么在批量強(qiáng)化學(xué)習(xí)中,能夠可靠地改進(jìn)策略就非常關(guān)鍵,因?yàn)槿绻贸隽艘粋€(gè)不好的策略,它的負(fù)面影響會(huì)遺留在許多軌跡中。微軟的研究人員們的目標(biāo)是,相比于基準(zhǔn)算法的表現(xiàn),可靠策略改進(jìn)應(yīng)當(dāng)總是能夠保證有一定提升。

要保證總有提升,就要從表現(xiàn)最糟糕的狀況入手。研究人員們考慮了條件風(fēng)險(xiǎn)價(jià)值(1%-CVaR),這其實(shí)是一個(gè)簡(jiǎn)單的概念,是指最糟糕的運(yùn)行結(jié)果的平均值;每次運(yùn)行的過(guò)程如上圖所示,包含數(shù)據(jù)收集和策略訓(xùn)練。1%-CVaR 就是指所有運(yùn)行結(jié)果中最糟糕的那 1% 的平均值。

這里值得先回顧一下為什么經(jīng)典的強(qiáng)化學(xué)習(xí)無(wú)法達(dá)到好的表現(xiàn)。由于它唯一的信息來(lái)源就是這個(gè)數(shù)據(jù)集,經(jīng)典強(qiáng)化學(xué)習(xí)在使用數(shù)據(jù)集的過(guò)程中就會(huì)隱式或者顯式地把數(shù)據(jù)集作為真實(shí)環(huán)境的體現(xiàn)。但是,畢竟真實(shí)環(huán)境具有一定的隨機(jī)性,或者模型的逼近能力也有限,當(dāng)模型獲得的數(shù)據(jù)受限于數(shù)據(jù)集的時(shí)候,對(duì)真實(shí)環(huán)境的重現(xiàn)程度也是不確定的。那么,只能接觸到數(shù)據(jù)集的學(xué)習(xí)算法也就會(huì)產(chǎn)生盲點(diǎn),以及對(duì)數(shù)據(jù)集過(guò)于依賴(lài)。所以,經(jīng)典強(qiáng)化學(xué)習(xí)在這種情況下經(jīng)常會(huì)訓(xùn)練出在真實(shí)環(huán)境中表現(xiàn)非常糟糕的智能體。

實(shí)際上這還不是最糟糕的情況,強(qiáng)化學(xué)習(xí)會(huì)搜索并嘗試找到能優(yōu)化目標(biāo)函數(shù)的行為方式,在以往的研究中已經(jīng)多次觀察到強(qiáng)化學(xué)習(xí)會(huì)利用環(huán)境中的小問(wèn)題走捷徑,這就不是我們希望看到的了。在批量強(qiáng)化學(xué)習(xí)中這個(gè)問(wèn)題會(huì)更糟糕一些,因?yàn)橛行附輳健乖谡鎸?shí)環(huán)境中可能不存在,僅僅是因?yàn)槭占臄?shù)據(jù)集中存在盲點(diǎn),所以顯得仿佛存在捷徑。這個(gè)任務(wù)越復(fù)雜,各種盲點(diǎn)就會(huì)越多。所以,確保模型能夠謹(jǐn)慎地處理盲點(diǎn)也很重要。

微軟為這個(gè)難題提出的解決方案是 Safe Policy Improvement with Baseline Bootstrapping,SPIBB,帶有基準(zhǔn) bootstrap 的安全策略改進(jìn)。SPIBB 想辦法把這條常識(shí)性的規(guī)則作用在了策略更新過(guò)程中:如果你不知道你在做什么,那么就不要這么做。具體來(lái)說(shuō),只有在有足夠數(shù)據(jù)可以作證一個(gè)策略更新是有好處的時(shí)候,才會(huì)執(zhí)行這項(xiàng)更新;否則就只是重復(fù)基準(zhǔn)策略在數(shù)據(jù)收集過(guò)程中所做的。SPIBB 的思路也已經(jīng)用在了因子化的 MDP 中(比如 AAAI 2019 論文 http://www.st.ewi.tudelft.nl/mtjspaan/pub/Simao19aaai.pdf )  。

如何得到穩(wěn)定可靠的強(qiáng)化學(xué)習(xí)算法?微軟兩篇頂會(huì)論文帶來(lái)安全的平滑演進(jìn)

算法平均表現(xiàn)

微軟的研究人員們?cè)谝粋€(gè)隨機(jī)生成的網(wǎng)格世界環(huán)境中進(jìn)行了測(cè)試,這個(gè)環(huán)境中僅包含 25 個(gè)狀態(tài)和 4 種動(dòng)作。根據(jù)數(shù)據(jù)集大小不同,研究人員們把 SPIBB 和以往文獻(xiàn)中的數(shù)種算法進(jìn)行了對(duì)比,平均表現(xiàn)如上圖??偟膩?lái)說(shuō),所有算法都得到了比基準(zhǔn)線算法更好的表現(xiàn),SPIBB 算法的兩個(gè)變體則獲得了最好的表現(xiàn);相比之下,經(jīng)典強(qiáng)化學(xué)習(xí)的表現(xiàn)甚至沒(méi)有隨著數(shù)據(jù)增加而一直變得更好。唯一一個(gè)表現(xiàn)和 SPIBB 近似的算法是 RaMDP(http://papers.nips.cc/paper/6294-safe-policy-improvement-by-minimizing-robust-baseline-regret),但它的問(wèn)題在于需要非常仔細(xì)地調(diào)節(jié)一個(gè)超參數(shù),而且它不如 SPIBB 可靠。

如何得到穩(wěn)定可靠的強(qiáng)化學(xué)習(xí)算法?微軟兩篇頂會(huì)論文帶來(lái)安全的平滑演進(jìn)

最糟糕的 1% 情況中的表現(xiàn)

這張圖是算法可靠性的測(cè)試結(jié)果,即 1%-CVaR 最糟糕的 1% 情況中的表現(xiàn)??梢钥吹剑?jīng)典強(qiáng)化學(xué)習(xí)是不可靠的,表現(xiàn)顯著低于基準(zhǔn)算法;SPIBB 的可靠性遙遙領(lǐng)先;RaMDP 在數(shù)據(jù)較少時(shí)穩(wěn)定性表現(xiàn)不佳。研究人員們?cè)谄渌碾S機(jī)環(huán)境、隨機(jī)基準(zhǔn)算法條件下的實(shí)驗(yàn)也得到了類(lèi)似的結(jié)果。在論文中,作者們也對(duì) SPIBB 在有限 MDP 中的可靠性進(jìn)行了嚴(yán)格的證明。

兩篇論文地址:

《Reinforcement Learning Algorithm Selection》,ICLR 2018,https://arxiv.org/abs/1701.08810

《Safe Policy Improvement with Baseline Bootstrapping》,ICML 2019,https://arxiv.org/abs/1712.06924

via microsoft.com/en-us/research/blog/,雷鋒網(wǎng) AI 科技評(píng)論編譯

雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。

如何得到穩(wěn)定可靠的強(qiáng)化學(xué)習(xí)算法?微軟兩篇頂會(huì)論文帶來(lái)安全的平滑演進(jìn)

分享:
相關(guān)文章

讀論文為生

日常笑點(diǎn)滴,學(xué)術(shù)死腦筋
當(dāng)月熱門(mén)文章
最新文章
請(qǐng)?zhí)顚?xiě)申請(qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶(hù)安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說(shuō)