丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

<label id="qtdnu"></label>

<li id="qtdnu"><legend id="qtdnu"></legend></li>

<span id="qtdnu"></span>

<label id="fjzf3"><mark id="fjzf3"></mark></label>

<label id="fjzf3"><legend id="fjzf3"></legend></label>

您正在使用IE低版瀏覽器，為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn)，強(qiáng)烈建議使用更快更安全的瀏覽器

此為臨時(shí)鏈接，僅用于文章預(yù)覽，將在時(shí)失效

人工智能正文

發(fā)私信給skura

發(fā)送

0

強(qiáng)化學(xué)習(xí)中，如何從稀疏和不明確的反饋中學(xué)習(xí)泛化

本文作者： skura

2019-03-02 10:11

導(dǎo)語(yǔ)：谷歌 AI 新發(fā)布的博文

雷鋒網(wǎng) AI 科技評(píng)論按，強(qiáng)化學(xué)習(xí)（RL）為優(yōu)化面向目標(biāo)的行為提供了一個(gè)統(tǒng)一而靈活的框架，在解決諸如玩電子游戲、連續(xù)控制和機(jī)器人學(xué)習(xí)等具有挑戰(zhàn)性的任務(wù)方面取得了顯著的成功。在這些應(yīng)用領(lǐng)域中，RL 算法的成功通常取決于高質(zhì)量和高密度反饋的可用性。然而，將 RL 算法的適用范圍擴(kuò)大到稀疏和反饋不明確的環(huán)境是一個(gè)持續(xù)的挑戰(zhàn)。

近日，谷歌 AI 發(fā)布以一篇博文討論了這個(gè)問(wèn)題，雷鋒網(wǎng) AI 科技評(píng)論編譯整理如下。

研究此類問(wèn)題中 RL 算法性能的一種常用方法是通過(guò)語(yǔ)言理解任務(wù)，在該任務(wù)中，代理接收自然語(yǔ)言輸入，并且生成復(fù)雜的響應(yīng)以實(shí)現(xiàn)輸入中指定的目標(biāo)，同時(shí)它只接收二進(jìn)制形式的成功或者失敗反饋。

例如一個(gè)「盲」代理，通過(guò)遵循一系列自然語(yǔ)言命令（例如，「right，up，up，right」）來(lái)獲得迷宮中目標(biāo)的位置。給定輸入文本，代理（綠圈）需要解釋命令，并根據(jù)這些解釋采取措施來(lái)生成操作序列（a）。如果達(dá)到目標(biāo)（紅星），代理將獲得 1 次獎(jiǎng)勵(lì)，否則沒(méi)有獎(jiǎng)勵(lì)。由于代理無(wú)法訪問(wèn)任何可視信息，因此代理完成此任務(wù)并歸納出新指令的唯一方法是正確理解指令。

強(qiáng)化學(xué)習(xí)中，如何從稀疏和不明確的反饋中學(xué)習(xí)泛化

可以看到，按照軌跡 a1、a2 和 a3 可以達(dá)到目標(biāo)。

在這些任務(wù)中，RL 代理需要從稀疏（只有一些軌跡會(huì)產(chǎn)生反饋）和未指定（沒(méi)有區(qū)分有意義的成功和偶然的成功）反饋中學(xué)習(xí)泛化。重要的是，由于未指定反饋，代理可能會(huì)收到虛假的正反饋。這可能導(dǎo)致獎(jiǎng)勵(lì)黑客行為，使得部署實(shí)際系統(tǒng)時(shí)出現(xiàn)意外和有害行為。

在「從稀疏和不確定的反饋中學(xué)習(xí)泛化」時(shí)，我們通過(guò)開(kāi)發(fā)元獎(jiǎng)勵(lì)學(xué)習(xí)（MeRL）來(lái)解決反饋不確定的問(wèn)題，該方法通過(guò)優(yōu)化輔助獎(jiǎng)勵(lì)函數(shù)向代理提供更精細(xì)的反饋。MERL 使用一種新的探索策略與成功軌跡的記憶緩沖區(qū)相結(jié)合，并從稀疏反饋中學(xué)習(xí)。我們方法的有效性在語(yǔ)義分析上得到了證明，語(yǔ)義分析的目標(biāo)是學(xué)習(xí)從自然語(yǔ)言到邏輯形式的映射（例如，將問(wèn)題映射到 SQL 程序）。本文研究了弱監(jiān)督問(wèn)題的設(shè)置，其目的是在沒(méi)有任何形式的程序監(jiān)督的情況下，自動(dòng)從問(wèn)答對(duì)中發(fā)現(xiàn)邏輯程序。例如，給定問(wèn)題「哪個(gè)國(guó)家獲得的銀牌最多？」以及與之相關(guān)的維基百科表格，代理需要生成一個(gè)類似 SQL 的程序，從而得到正確的答案（例如，「尼日利亞」）。

強(qiáng)化學(xué)習(xí)中，如何從稀疏和不明確的反饋中學(xué)習(xí)泛化

該方法在 WikiTableQuestions 和 WikiSQL 達(dá)到了最先進(jìn)成果的基準(zhǔn)，相比于之前的方法，其效果分別提高了 1.2% 和 2.4%。不同于以前的學(xué)習(xí)方法，MeRL 自動(dòng)學(xué)習(xí)輔助獎(jiǎng)勵(lì)函數(shù)而不需要任何專家演示，這使其應(yīng)用更加廣泛。下圖是我們方法的概述：

強(qiáng)化學(xué)習(xí)中，如何從稀疏和不明確的反饋中學(xué)習(xí)泛化

本文方法概述。我們采用（1）涵蓋探索的模式，在內(nèi)存緩沖區(qū)中收集一組不同的成功軌跡；（2）采用元學(xué)習(xí)或貝葉斯優(yōu)化，以學(xué)習(xí)輔助獎(jiǎng)勵(lì)，為策略優(yōu)化提供更精確的反饋。

元獎(jiǎng)勵(lì)學(xué)習(xí)（MeRL）

MeRL 在處理不明確反饋方面的關(guān)鍵是，意外成功的虛假軌跡和程序?qū)Υ淼姆夯阅苡泻?。例如，代理可能只能處理上面迷宮問(wèn)題的特定實(shí)例。然而，如果它在訓(xùn)練中學(xué)習(xí)了虛假的實(shí)例，那么當(dāng)它遇到?jīng)]有見(jiàn)過(guò)的指令時(shí)，很可能會(huì)失敗。為了改善這個(gè)問(wèn)題，MeRL 優(yōu)化了一個(gè)更精細(xì)的輔助獎(jiǎng)勵(lì)函數(shù)，它可以根據(jù)軌跡的特征區(qū)分是否為意外成功。

強(qiáng)化學(xué)習(xí)中，如何從稀疏和不明確的反饋中學(xué)習(xí)泛化

MeRL 示意圖：通過(guò)從輔助獎(jiǎng)勵(lì)模型中獲得的獎(jiǎng)勵(lì)信號(hào)對(duì) RL 代理進(jìn)行訓(xùn)練，而輔助獎(jiǎng)勵(lì)則通過(guò)代理的泛化誤差進(jìn)行訓(xùn)練。

從稀疏反饋中學(xué)習(xí)

要從稀疏反饋中學(xué)習(xí)，有效的探索對(duì)于找到一系列成功的軌跡至關(guān)重要。本文利用 Kullback–Leibler (KL) 散度的兩個(gè)方向來(lái)解決這一挑戰(zhàn)。在下面的例子中，我們使用 kl 散度來(lái)最小化固定雙峰（紫色陰影）和學(xué)習(xí)高斯（綠色陰影）分布之間的差異，這可以分別表示代理的最優(yōu)策略和我們的學(xué)習(xí)策略的分布。KL 目標(biāo)的一個(gè)方向?qū)W習(xí)一個(gè)分布，該分布試圖涵蓋兩種模式，而其他目標(biāo)學(xué)習(xí)的分布尋求一種特定模式（即，它更喜歡一種模式而不是另一種模式）。我們的方法利用了 KL 集中于多個(gè)峰值模式的傾向來(lái)收集不同的成功軌跡集，并通過(guò)模式尋找 KL 在軌跡之間的隱含偏好來(lái)學(xué)習(xí)一個(gè)穩(wěn)健的策略。

強(qiáng)化學(xué)習(xí)中，如何從稀疏和不明確的反饋中學(xué)習(xí)泛化

左：覆蓋模式 KL，右：尋優(yōu)模式 KL

結(jié)論

設(shè)計(jì)區(qū)分最優(yōu)和次優(yōu)行為的獎(jiǎng)勵(lì)函數(shù)對(duì)于將 RL 應(yīng)用到實(shí)際中至關(guān)重要。這項(xiàng)研究在沒(méi)有任何人類監(jiān)督的情況下，朝著創(chuàng)建獎(jiǎng)勵(lì)函數(shù)的方向邁出了一小步。在今后的工作中，我們希望從自動(dòng)學(xué)習(xí)密集獎(jiǎng)勵(lì)函數(shù)的角度來(lái)解決 RL 中的信用分配問(wèn)題。雷鋒網(wǎng)

via：https://ai.googleblog.com/2019/02/learning-to-generalize-from-sparse-and.html

雷峰網(wǎng)版權(quán)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。

8人收藏

分享：

相關(guān)文章

skura

編輯

發(fā)私信

當(dāng)月熱門文章

最新文章

熱門搜索

百度安全喬布斯自然語(yǔ)言處理硬創(chuàng)邦夏普黃仁勛數(shù)據(jù)中心風(fēng)控軟硬結(jié)合藍(lán)牙

為了您的賬戶安全，請(qǐng)驗(yàn)證郵箱

您的郵箱還未驗(yàn)證,完成可獲20積分喲！

重發(fā)郵箱修改郵箱

請(qǐng)驗(yàn)證您的郵箱

立即驗(yàn)證

完善賬號(hào)信息

您的賬號(hào)已經(jīng)綁定，現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄

立即設(shè)置 以后再說(shuō)

<label id="58tth"></label><i id="58tth"><meter id="58tth"></meter></i>