0
本文作者: skura | 2019-03-02 10:11 |
雷鋒網(wǎng) AI 科技評論按,強(qiáng)化學(xué)習(xí)(RL)為優(yōu)化面向目標(biāo)的行為提供了一個統(tǒng)一而靈活的框架,在解決諸如玩電子游戲、連續(xù)控制和機(jī)器人學(xué)習(xí)等具有挑戰(zhàn)性的任務(wù)方面取得了顯著的成功。在這些應(yīng)用領(lǐng)域中,RL 算法的成功通常取決于高質(zhì)量和高密度反饋的可用性。然而,將 RL 算法的適用范圍擴(kuò)大到稀疏和反饋不明確的環(huán)境是一個持續(xù)的挑戰(zhàn)。
近日,谷歌 AI 發(fā)布以一篇博文討論了這個問題,雷鋒網(wǎng) AI 科技評論編譯整理如下。
研究此類問題中 RL 算法性能的一種常用方法是通過語言理解任務(wù),在該任務(wù)中,代理接收自然語言輸入,并且生成復(fù)雜的響應(yīng)以實現(xiàn)輸入中指定的目標(biāo),同時它只接收二進(jìn)制形式的成功或者失敗反饋。
例如一個「盲」代理,通過遵循一系列自然語言命令(例如,「right,up,up,right」)來獲得迷宮中目標(biāo)的位置。給定輸入文本,代理(綠圈)需要解釋命令,并根據(jù)這些解釋采取措施來生成操作序列(a)。如果達(dá)到目標(biāo)(紅星),代理將獲得 1 次獎勵,否則沒有獎勵。由于代理無法訪問任何可視信息,因此代理完成此任務(wù)并歸納出新指令的唯一方法是正確理解指令。
可以看到,按照軌跡 a1、a2 和 a3 可以達(dá)到目標(biāo)。
在這些任務(wù)中,RL 代理需要從稀疏(只有一些軌跡會產(chǎn)生反饋)和未指定(沒有區(qū)分有意義的成功和偶然的成功)反饋中學(xué)習(xí)泛化。重要的是,由于未指定反饋,代理可能會收到虛假的正反饋。這可能導(dǎo)致獎勵黑客行為,使得部署實際系統(tǒng)時出現(xiàn)意外和有害行為。
在「從稀疏和不確定的反饋中學(xué)習(xí)泛化」時,我們通過開發(fā)元獎勵學(xué)習(xí)(MeRL)來解決反饋不確定的問題,該方法通過優(yōu)化輔助獎勵函數(shù)向代理提供更精細(xì)的反饋。MERL 使用一種新的探索策略與成功軌跡的記憶緩沖區(qū)相結(jié)合,并從稀疏反饋中學(xué)習(xí)。我們方法的有效性在語義分析上得到了證明,語義分析的目標(biāo)是學(xué)習(xí)從自然語言到邏輯形式的映射(例如,將問題映射到 SQL 程序)。本文研究了弱監(jiān)督問題的設(shè)置,其目的是在沒有任何形式的程序監(jiān)督的情況下,自動從問答對中發(fā)現(xiàn)邏輯程序。例如,給定問題「哪個國家獲得的銀牌最多?」以及與之相關(guān)的維基百科表格,代理需要生成一個類似 SQL 的程序,從而得到正確的答案(例如,「尼日利亞」)。
該方法在 WikiTableQuestions 和 WikiSQL 達(dá)到了最先進(jìn)成果的基準(zhǔn),相比于之前的方法,其效果分別提高了 1.2% 和 2.4%。不同于以前的學(xué)習(xí)方法,MeRL 自動學(xué)習(xí)輔助獎勵函數(shù)而不需要任何專家演示,這使其應(yīng)用更加廣泛。下圖是我們方法的概述:
本文方法概述。我們采用(1)涵蓋探索的模式,在內(nèi)存緩沖區(qū)中收集一組不同的成功軌跡;(2)采用元學(xué)習(xí)或貝葉斯優(yōu)化,以學(xué)習(xí)輔助獎勵,為策略優(yōu)化提供更精確的反饋。
元獎勵學(xué)習(xí)(MeRL)
MeRL 在處理不明確反饋方面的關(guān)鍵是,意外成功的虛假軌跡和程序?qū)Υ淼姆夯阅苡泻?。例如,代理可能只能處理上面迷宮問題的特定實例。然而,如果它在訓(xùn)練中學(xué)習(xí)了虛假的實例,那么當(dāng)它遇到?jīng)]有見過的指令時,很可能會失敗。為了改善這個問題,MeRL 優(yōu)化了一個更精細(xì)的輔助獎勵函數(shù),它可以根據(jù)軌跡的特征區(qū)分是否為意外成功。
MeRL 示意圖:通過從輔助獎勵模型中獲得的獎勵信號對 RL 代理進(jìn)行訓(xùn)練,而輔助獎勵則通過代理的泛化誤差進(jìn)行訓(xùn)練。
從稀疏反饋中學(xué)習(xí)
要從稀疏反饋中學(xué)習(xí),有效的探索對于找到一系列成功的軌跡至關(guān)重要。本文利用 Kullback–Leibler (KL) 散度的兩個方向來解決這一挑戰(zhàn)。在下面的例子中,我們使用 kl 散度來最小化固定雙峰(紫色陰影)和學(xué)習(xí)高斯(綠色陰影)分布之間的差異,這可以分別表示代理的最優(yōu)策略和我們的學(xué)習(xí)策略的分布。KL 目標(biāo)的一個方向?qū)W習(xí)一個分布,該分布試圖涵蓋兩種模式,而其他目標(biāo)學(xué)習(xí)的分布尋求一種特定模式(即,它更喜歡一種模式而不是另一種模式)。我們的方法利用了 KL 集中于多個峰值模式的傾向來收集不同的成功軌跡集,并通過模式尋找 KL 在軌跡之間的隱含偏好來學(xué)習(xí)一個穩(wěn)健的策略。
左:覆蓋模式 KL,右:尋優(yōu)模式 KL
結(jié)論
設(shè)計區(qū)分最優(yōu)和次優(yōu)行為的獎勵函數(shù)對于將 RL 應(yīng)用到實際中至關(guān)重要。這項研究在沒有任何人類監(jiān)督的情況下,朝著創(chuàng)建獎勵函數(shù)的方向邁出了一小步。在今后的工作中,我們希望從自動學(xué)習(xí)密集獎勵函數(shù)的角度來解決 RL 中的信用分配問題。雷鋒網(wǎng)
via:https://ai.googleblog.com/2019/02/learning-to-generalize-from-sparse-and.html
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。