丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
人工智能 正文
發(fā)私信給skura
發(fā)送

0

強(qiáng)化學(xué)習(xí)中,如何從稀疏和不明確的反饋中學(xué)習(xí)泛化

本文作者: skura 2019-03-02 10:11
導(dǎo)語:谷歌 AI 新發(fā)布的博文

雷鋒網(wǎng) AI 科技評論按,強(qiáng)化學(xué)習(xí)(RL)為優(yōu)化面向目標(biāo)的行為提供了一個統(tǒng)一而靈活的框架,在解決諸如玩電子游戲、連續(xù)控制和機(jī)器人學(xué)習(xí)等具有挑戰(zhàn)性的任務(wù)方面取得了顯著的成功。在這些應(yīng)用領(lǐng)域中,RL 算法的成功通常取決于高質(zhì)量和高密度反饋的可用性。然而,將 RL 算法的適用范圍擴(kuò)大到稀疏和反饋不明確的環(huán)境是一個持續(xù)的挑戰(zhàn)。

近日,谷歌 AI 發(fā)布以一篇博文討論了這個問題,雷鋒網(wǎng) AI 科技評論編譯整理如下。

研究此類問題中 RL 算法性能的一種常用方法是通過語言理解任務(wù),在該任務(wù)中,代理接收自然語言輸入,并且生成復(fù)雜的響應(yīng)以實現(xiàn)輸入中指定的目標(biāo),同時它只接收二進(jìn)制形式的成功或者失敗反饋。

例如一個「盲」代理,通過遵循一系列自然語言命令(例如,「right,up,up,right」)來獲得迷宮中目標(biāo)的位置。給定輸入文本,代理(綠圈)需要解釋命令,并根據(jù)這些解釋采取措施來生成操作序列(a)。如果達(dá)到目標(biāo)(紅星),代理將獲得 1 次獎勵,否則沒有獎勵。由于代理無法訪問任何可視信息,因此代理完成此任務(wù)并歸納出新指令的唯一方法是正確理解指令。

強(qiáng)化學(xué)習(xí)中,如何從稀疏和不明確的反饋中學(xué)習(xí)泛化

可以看到,按照軌跡 a1、a2 和 a3 可以達(dá)到目標(biāo)。

在這些任務(wù)中,RL 代理需要從稀疏(只有一些軌跡會產(chǎn)生反饋)和未指定(沒有區(qū)分有意義的成功和偶然的成功)反饋中學(xué)習(xí)泛化。重要的是,由于未指定反饋,代理可能會收到虛假的正反饋。這可能導(dǎo)致獎勵黑客行為,使得部署實際系統(tǒng)時出現(xiàn)意外和有害行為。

在「從稀疏和不確定的反饋中學(xué)習(xí)泛化」時,我們通過開發(fā)元獎勵學(xué)習(xí)(MeRL)來解決反饋不確定的問題,該方法通過優(yōu)化輔助獎勵函數(shù)向代理提供更精細(xì)的反饋。MERL 使用一種新的探索策略與成功軌跡的記憶緩沖區(qū)相結(jié)合,并從稀疏反饋中學(xué)習(xí)。我們方法的有效性在語義分析上得到了證明,語義分析的目標(biāo)是學(xué)習(xí)從自然語言到邏輯形式的映射(例如,將問題映射到 SQL 程序)。本文研究了弱監(jiān)督問題的設(shè)置,其目的是在沒有任何形式的程序監(jiān)督的情況下,自動從問答對中發(fā)現(xiàn)邏輯程序。例如,給定問題「哪個國家獲得的銀牌最多?」以及與之相關(guān)的維基百科表格,代理需要生成一個類似 SQL 的程序,從而得到正確的答案(例如,「尼日利亞」)。

強(qiáng)化學(xué)習(xí)中,如何從稀疏和不明確的反饋中學(xué)習(xí)泛化

該方法在 WikiTableQuestions 和 WikiSQL 達(dá)到了最先進(jìn)成果的基準(zhǔn),相比于之前的方法,其效果分別提高了 1.2% 和 2.4%。不同于以前的學(xué)習(xí)方法,MeRL 自動學(xué)習(xí)輔助獎勵函數(shù)而不需要任何專家演示,這使其應(yīng)用更加廣泛。下圖是我們方法的概述:

強(qiáng)化學(xué)習(xí)中,如何從稀疏和不明確的反饋中學(xué)習(xí)泛化

本文方法概述。我們采用(1)涵蓋探索的模式,在內(nèi)存緩沖區(qū)中收集一組不同的成功軌跡;(2)采用元學(xué)習(xí)或貝葉斯優(yōu)化,以學(xué)習(xí)輔助獎勵,為策略優(yōu)化提供更精確的反饋。

元獎勵學(xué)習(xí)(MeRL)

MeRL 在處理不明確反饋方面的關(guān)鍵是,意外成功的虛假軌跡和程序?qū)Υ淼姆夯阅苡泻?。例如,代理可能只能處理上面迷宮問題的特定實例。然而,如果它在訓(xùn)練中學(xué)習(xí)了虛假的實例,那么當(dāng)它遇到?jīng)]有見過的指令時,很可能會失敗。為了改善這個問題,MeRL 優(yōu)化了一個更精細(xì)的輔助獎勵函數(shù),它可以根據(jù)軌跡的特征區(qū)分是否為意外成功。

強(qiáng)化學(xué)習(xí)中,如何從稀疏和不明確的反饋中學(xué)習(xí)泛化

MeRL 示意圖:通過從輔助獎勵模型中獲得的獎勵信號對 RL 代理進(jìn)行訓(xùn)練,而輔助獎勵則通過代理的泛化誤差進(jìn)行訓(xùn)練。

從稀疏反饋中學(xué)習(xí)

要從稀疏反饋中學(xué)習(xí),有效的探索對于找到一系列成功的軌跡至關(guān)重要。本文利用 Kullback–Leibler (KL) 散度的兩個方向來解決這一挑戰(zhàn)。在下面的例子中,我們使用 kl 散度來最小化固定雙峰(紫色陰影)和學(xué)習(xí)高斯(綠色陰影)分布之間的差異,這可以分別表示代理的最優(yōu)策略和我們的學(xué)習(xí)策略的分布。KL 目標(biāo)的一個方向?qū)W習(xí)一個分布,該分布試圖涵蓋兩種模式,而其他目標(biāo)學(xué)習(xí)的分布尋求一種特定模式(即,它更喜歡一種模式而不是另一種模式)。我們的方法利用了 KL 集中于多個峰值模式的傾向來收集不同的成功軌跡集,并通過模式尋找 KL 在軌跡之間的隱含偏好來學(xué)習(xí)一個穩(wěn)健的策略。

強(qiáng)化學(xué)習(xí)中,如何從稀疏和不明確的反饋中學(xué)習(xí)泛化

左:覆蓋模式 KL,右:尋優(yōu)模式 KL

結(jié)論

設(shè)計區(qū)分最優(yōu)和次優(yōu)行為的獎勵函數(shù)對于將 RL 應(yīng)用到實際中至關(guān)重要。這項研究在沒有任何人類監(jiān)督的情況下,朝著創(chuàng)建獎勵函數(shù)的方向邁出了一小步。在今后的工作中,我們希望從自動學(xué)習(xí)密集獎勵函數(shù)的角度來解決 RL 中的信用分配問題。雷鋒網(wǎng)

via:https://ai.googleblog.com/2019/02/learning-to-generalize-from-sparse-and.html

雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

強(qiáng)化學(xué)習(xí)中,如何從稀疏和不明確的反饋中學(xué)習(xí)泛化

分享:
相關(guān)文章
當(dāng)月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說