丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能學(xué)術(shù) 正文
發(fā)私信給MrBear
發(fā)送

0

人,才是強(qiáng)化學(xué)習(xí)在真實(shí)世界中面臨的真正挑戰(zhàn)

本文作者: MrBear 編輯:幸麗娟 2019-09-11 23:00
導(dǎo)語:我們距離真實(shí)世界中的強(qiáng)化學(xué)習(xí)應(yīng)用落地可能還有很長的一段路要走。

雷鋒網(wǎng) AI 科技評論按:隨著 DeepMind、OpenAI 等一系列科技巨頭對強(qiáng)化學(xué)習(xí)技術(shù)的應(yīng)用,越來越多的科研工作者投入到該領(lǐng)域的研發(fā)中。然而,目前大多數(shù)的研究工作還停留在通過游戲進(jìn)行仿真的階段。在我們對研究者們在 Atari、星際爭霸等游戲中戰(zhàn)勝人類職業(yè)玩家而沾沾自喜的同時(shí),我們更應(yīng)該意識到,目前的強(qiáng)化學(xué)習(xí)技術(shù)還遠(yuǎn)未達(dá)到滿足真實(shí)世界中通用任務(wù)需求的水準(zhǔn)。其中,人類對強(qiáng)化學(xué)習(xí)的獎勵函數(shù)設(shè)計(jì)、訓(xùn)練過程自我調(diào)節(jié)等機(jī)制的影響是目前研究者們急需突破的重要瓶頸。

如果想要激發(fā)強(qiáng)化學(xué)習(xí)的全部潛力,就需要將強(qiáng)化學(xué)習(xí)智能體嵌入到真實(shí)世界的經(jīng)驗(yàn)流中,讓這些智能體在我們的世界中,而不僅僅是在它們自己的世界中采取行動、探索和學(xué)習(xí)?!稄?qiáng)化學(xué)習(xí)簡介》第二版,Sutton&Barto,2018。

最近,一些被高度認(rèn)可的研究表明,人工智能體可以在玩 Atari 游戲(https://www.nature.com/articles/nature14236)或下圍棋(https://www.nature.com/articles/nature16961)時(shí),在沒有人類監(jiān)督、而是使用強(qiáng)化學(xué)習(xí)技術(shù)進(jìn)行多輪自我試錯的情況下(https://www.nature.com/articles/nature24270),取得與人類相當(dāng)甚至超過人類的表現(xiàn)。這是人工智能研究領(lǐng)域的一項(xiàng)巨大成果,它為那些使用監(jiān)督學(xué)習(xí)成本太高的應(yīng)用開啟了另一扇解決方案的大門,也對游戲之外的許多應(yīng)用領(lǐng)域產(chǎn)生了影響。那么問題來了,如何將強(qiáng)化學(xué)習(xí)智能體在像游戲這種理想環(huán)境(其中獎勵信號被明確定義,且十分豐富)中超越人類的性能表現(xiàn)遷移到具有一系列缺點(diǎn)的真實(shí)世界環(huán)境中。而在這些缺點(diǎn)中,首要的就是人類「教師」的缺點(diǎn)(如下面的漫畫所示,他們顯然無法通過圖靈測試)。

人,才是強(qiáng)化學(xué)習(xí)在真實(shí)世界中面臨的真正挑戰(zhàn)

在自然語言處理領(lǐng)域,真實(shí)世界強(qiáng)化學(xué)習(xí)中的人類因素

讓我們看看人類的學(xué)習(xí)場景,例如,對于自然語言翻譯來說:一個(gè)學(xué)習(xí)翻譯和口譯的人類學(xué)生必須學(xué)會:根據(jù)不同類型的反饋得出正確的翻譯結(jié)果。在某些情況下,人類教師會以翻譯的黃金標(biāo)準(zhǔn)形式提供監(jiān)督信號。然而,在大多數(shù)情況下,學(xué)生必須根據(jù)較弱的教師反饋進(jìn)行學(xué)習(xí),這些反饋會指出學(xué)生完成任務(wù)的效果如何,但并不知道如果學(xué)生翻譯的結(jié)果不同,將會導(dǎo)致發(fā)生什么情況,也不知道正確的翻譯應(yīng)該是什么樣子。與此同時(shí),最優(yōu)秀的學(xué)生會變得像老師一樣,因?yàn)樗麄兞?xí)得了一套自行控制學(xué)習(xí)過程的策略(https://journals.sagepub.com/doi/full/10.3102/003465430298487)。

現(xiàn)在,如果我們的目的是構(gòu)建一個(gè)像人類學(xué)生一樣學(xué)習(xí)翻譯的人工智能體,在它與作為其老師的專業(yè)的人類翻譯者進(jìn)行互動的過程中,我們會看到相同的對「成本-效益」進(jìn)行權(quán)衡的模式:人類翻譯者不會希望提供一個(gè)以正確譯文的形式存在的監(jiān)督信號(即使這種信號是最有用的),作為對智能體生成的每一個(gè)翻譯結(jié)果的反饋。相反,在某些情況下,關(guān)于系統(tǒng)輸出(或部分輸出)的質(zhì)量較弱的反饋信號是一種更高效「學(xué)生-老師」互動方式。另一種情況是在線翻譯系統(tǒng)的用戶:他們將扮演「消費(fèi)者」的角色——有時(shí),他們可能會給出反饋信號,但很少會給出完整的正確譯文。

在訓(xùn)練人類和智能體的時(shí)候,我們也看到了類似的教師反饋信號的模式:人類翻譯學(xué)生的人類教師,以及作為人工智能體的老師的專業(yè)翻譯者都是人類。他們給出的反饋信號是模糊的、有誤導(dǎo)性的、稀疏的(可參考上面的漫畫)。這與強(qiáng)化學(xué)習(xí)(在游戲環(huán)境下)大獲成功的情況截然不同。在理想的環(huán)境下,獎勵信號是明確、準(zhǔn)確且豐富的。有人可能會說,在游戲中與人類對抗的強(qiáng)化學(xué)習(xí)智能體具有不公平的優(yōu)勢,因?yàn)樗鼈兯幍娜嗽飙h(huán)境很適合它們發(fā)揮自己的能力。

然而,為了在根據(jù)人類的反饋進(jìn)行學(xué)習(xí)的情況下,也同樣成功地進(jìn)行強(qiáng)化學(xué)習(xí),我們則不應(yīng)該輕視這些成功的例子,而應(yīng)該從中學(xué)習(xí):目標(biāo)應(yīng)該是給根據(jù)人類反饋進(jìn)行學(xué)習(xí)的強(qiáng)化學(xué)習(xí)智能體任何可能的有利條件,從而在這種困難的學(xué)習(xí)場景下取得成功。為此,我們必須更好地理解根據(jù)人類反饋進(jìn)行學(xué)習(xí)所面臨的真正挑戰(zhàn)有哪些。

免責(zé)聲明

與之前的根據(jù)人類強(qiáng)化信號進(jìn)行學(xué)習(xí)的工作(例如,Knox、Stone等人的論文「Interactively Shaping Agents via Human Reinforcement」,https://dl.acm.org/citation.cfm?id=1597738 ;Chiristiano 等人于 2017 年發(fā)表的論文「Deep reinforcement learning from human preferences」,https://arxiv.org/abs/1706.03741;以及 Leike 于 2018 年發(fā)表的論文「Scalable agent alignment via reward modeling: a research direction」,https://arxiv.org/abs/1811.07871)不同,我們面臨的場景并不是使用人類知識來降低樣本復(fù)雜度,從而加速系統(tǒng)的學(xué)習(xí)過程,而是一種只存在人類反饋的交互式學(xué)習(xí)場景。該場景適用于許多個(gè)性化的情況,在這些場景下,以有監(jiān)督的方式預(yù)訓(xùn)練的系統(tǒng)會根據(jù)人類用戶的反饋在交互式學(xué)習(xí)過程中被調(diào)整和改進(jìn)。例如,在線廣告、機(jī)器翻譯(我們接下來將集中討論)。

最近,Dulac-Arnold 等人在 2019 年發(fā)表的工作「Challenges of Real-World Reinforcement Learning」(https://arxiv.org/abs/1904.12901v1)已經(jīng)認(rèn)識到,現(xiàn)實(shí)世界中的系統(tǒng)定義不清的現(xiàn)實(shí)情況正在阻礙現(xiàn)實(shí)世界強(qiáng)化學(xué)習(xí)的發(fā)展。他們解決了諸如離線學(xué)習(xí)、樣本有限情況下的探索、高維動作空間、或非確定性獎勵函數(shù)等問題。這些挑戰(zhàn)對于控制落地在物理世界中的系統(tǒng)或機(jī)器人的強(qiáng)化學(xué)習(xí)模型是非常重要的。然而,他們嚴(yán)重低估了交互式學(xué)習(xí)中的人類因素。我們將基于他們的論文,提出解決一些現(xiàn)實(shí)世界強(qiáng)化學(xué)習(xí)領(lǐng)域公認(rèn)的挑戰(zhàn)的方案。

確定性日志條件下的反事實(shí)學(xué)習(xí)

在「Challenges of Real-World Reinforcement Learning」一文中,Dulac-Arnold 等人需要處理的問題之一是:需要在系統(tǒng)無法在線更新的應(yīng)用程序中用到離線或策略無關(guān)強(qiáng)化學(xué)習(xí)。在商業(yè)環(huán)境中,由于對低延遲的需求,以及希望在部署之前對系統(tǒng)更新進(jìn)行離線測試,采用在線學(xué)習(xí)是不現(xiàn)實(shí)的。一個(gè)自然的解決方案就是利用反事實(shí)學(xué)習(xí),復(fù)用日志交互數(shù)據(jù),其中預(yù)測結(jié)果是由一個(gè)與目標(biāo)系統(tǒng)不同的歷史系統(tǒng)得出的。

人,才是強(qiáng)化學(xué)習(xí)在真實(shí)世界中面臨的真正挑戰(zhàn)

然而,在線學(xué)習(xí)和使用日志數(shù)據(jù)進(jìn)行的離線學(xué)習(xí)都會受到一個(gè)問題的困擾:在商業(yè)系統(tǒng)中,「探索」行為是不可行的,因?yàn)檫@意味著向用戶提供低質(zhì)量的輸出。這會導(dǎo)致我們得到的是缺乏顯式探索的確定性日志記錄策略,讓使用標(biāo)準(zhǔn)的策略無關(guān)方法的應(yīng)用程序變得不可靠。例如,逆傾向評分、雙重魯棒估計(jì)或加權(quán)重要性采樣(詳見 Precup 等人于 2000 年發(fā)表的論文「Eligibility Traces for Off-Policy Policy Evaluation」,https://www.semanticscholar.org/paper/Eligibility-Traces-for-Off-Policy-Policy-Evaluation-Precup-Sutton/44fe9e7f22f8986d48e3753543792d28b0494db0;Jiang 和 Li 于 2016 年發(fā)表的論文「Doubly Robust Off-policy Value Evaluation for Reinforcement Learning」,https://arxiv.org/abs/1511.03722,以及 Thomas 和 Brunskill 于 2016 年發(fā)表的「Data-Efficient Off-Policy Policy Evaluation for Reinforcement Learning」,https://arxiv.org/abs/1604.00923)等技術(shù)都依賴于日志系統(tǒng)對輸出空間的充分探索,作為反事實(shí)學(xué)習(xí)的先決條件。

事實(shí)上,Langford 等人于 20008 年發(fā)表的「Exploration scavenging」(https://arxiv.org/abs/1604.00923)以及 Strehl 等人于 2010 年發(fā)表的「Learning from Logged Implicit Exploration Data」(https://arxiv.org/abs/1003.0120)甚至給出了「與探索無關(guān)的反事實(shí)學(xué)習(xí)是不可能實(shí)現(xiàn)的」這樣的結(jié)論。

顯然,當(dāng)我們可以與商業(yè)系統(tǒng)安全地進(jìn)行交互(即商業(yè)系統(tǒng)確定性地與人類用戶進(jìn)行交互)時(shí),標(biāo)準(zhǔn)的策略無關(guān)學(xué)習(xí)并不適用。

那么,我們應(yīng)該怎么辦呢?研究者們提出的一種解決方案是:寄希望于通過輸入和上下文的變化,隱式地進(jìn)行探索。Chapelle 和 Li 于 2012 年發(fā)表的關(guān)于在線廣告的論文「An Empirical Evaluation of Thompson Sampling」(https://papers.nips.cc/paper/4321-an-empirical-evaluation-of-thompson-sampling)已經(jīng)觀察到了這一點(diǎn),Bastani 等人于 2017 年發(fā)表的論文「Mostly Exploration-Free Algorithms for Contextual Bandits」(https://arxiv.org/abs/1704.09011v5)從理論上進(jìn)行了研究。然而, 自然的探索是數(shù)據(jù)中固有的東西,而不是機(jī)器學(xué)習(xí)可以優(yōu)化的。

另一種解決方案是,根據(jù)確定性的日志數(shù)據(jù),考慮估計(jì)時(shí)的退化行為的具體情況,并找到可以消除「不可能性定理」的解決方案。其中,一種退化行為是:通過將所有日志數(shù)據(jù)的概率設(shè)置為 1,可以最大化數(shù)據(jù)日志的經(jīng)驗(yàn)獎勵。然而,提高低獎勵示例的概率顯然是不可取的(詳見 Swaninathan 和 Joachims 于 2015 年發(fā)表的論文「The Self-Normalized Estimator for Counterfactual Learning」,https://papers.nips.cc/paper/5748-the-self-normalized-estimator-for-counterfactual-learning;Lawrence 等人于 2017 年發(fā)表的「Counterfactual Learning for Machine Translation: Degeneracies and Solutions」,https://arxiv.org/abs/1711.08621;Lawrence 等人于 2017 年發(fā)表的「Counterfactual Learning from Bandit Feedback under Deterministic Logging: A Case Study in Statistical Machine Translation」,https://arxiv.org/abs/1707.09118)。

針對該問題,有一種叫做確定性傾向匹配的解決方案,它由 Lawrence 和 Riezler 于 2018 年在「Counterfactual Learning from Human Proofreading Feedback for Semantic Parsing」(https://arxiv.org/abs/1811.12239)和「Improving a Neural Semantic Parser by Counterfactual Learning from Human Bandit Feedback」(https://arxiv.org/abs/1805.01252)這兩篇論文中提出,并且在語義解析場景下用真實(shí)的人類反饋進(jìn)行了測試。這種方法的核心思想如下:給定日志數(shù)據(jù)人,才是強(qiáng)化學(xué)習(xí)在真實(shí)世界中面臨的真正挑戰(zhàn),其中人,才是強(qiáng)化學(xué)習(xí)在真實(shí)世界中面臨的真正挑戰(zhàn)是從日志系統(tǒng)人,才是強(qiáng)化學(xué)習(xí)在真實(shí)世界中面臨的真正挑戰(zhàn)中抽樣得來,同時(shí)獎勵人,才是強(qiáng)化學(xué)習(xí)在真實(shí)世界中面臨的真正挑戰(zhàn)是由人類用戶給出的。在確定性日志場景下,離線學(xué)習(xí)的一種可能的目標(biāo)函數(shù)是最大化日志數(shù)據(jù)的期望獎勵:

人,才是強(qiáng)化學(xué)習(xí)在真實(shí)世界中面臨的真正挑戰(zhàn)

該函數(shù)使用了一個(gè)乘法控制變量進(jìn)行重新加權(quán),根據(jù)一些之前的迭代數(shù)據(jù)在 θ處使用 OSL(one-step-ate)算法進(jìn)行估計(jì)(為了高效的梯度計(jì)算),其中

人,才是強(qiáng)化學(xué)習(xí)在真實(shí)世界中面臨的真正挑戰(zhàn) 

這種自歸一化操作的作用是,防止低獎勵數(shù)據(jù)的概率在學(xué)習(xí)中由于去掉了較高獎勵輸出的概率質(zhì)量而得以提高。這種操作向估計(jì)器引入了一個(gè)偏置(隨著 B 的增大而減?。欢?,這使得在確定性日志系統(tǒng)中進(jìn)行學(xué)習(xí)成為了可能,從而使強(qiáng)化學(xué)習(xí)智能體具有了「在此前被認(rèn)為,理論上不可能在環(huán)境中學(xué)習(xí)」的優(yōu)勢。對于語義解析場景的分析可參閱 Carolin 的博文:https://www.cl.uni-heidelberg.de/statnlpgroup/blog/parsing_when_gold_answers_unattainable/

根據(jù)人類的「老虎機(jī)反饋」學(xué)習(xí)獎勵估計(jì)器

Dulac-Arnold 等人在 2019 年發(fā)表的「Challenges of Real-World Reinforcement Learning」重點(diǎn)解決的另一類問題是利用有限的樣本、在高維動作空間中、使用非確定性的獎勵函數(shù)進(jìn)行學(xué)習(xí)。這篇論文簡要描述了交互式機(jī)器翻譯場景下的學(xué)習(xí):首先,除了收到人類用戶使用一個(gè)商用機(jī)器翻譯系統(tǒng)的「老虎機(jī)反饋」(bandit feedback)之外,期望任何東西都是不現(xiàn)實(shí)的。也就是說,一個(gè)機(jī)器翻譯系統(tǒng)的用戶只會給一個(gè)確定產(chǎn)生的最佳系統(tǒng)輸出提供一個(gè)獎勵信號,而不能期望他們對同一個(gè)輸入的多種翻譯結(jié)果打分。商用機(jī)器翻譯系統(tǒng)的提供者意識到了這一點(diǎn),并且提供了非侵入式的用戶反饋接口,允許對翻譯結(jié)果進(jìn)行后處理(負(fù)信號),或者在不作任何更改的情況下復(fù)制或共享翻譯結(jié)果(正信號)。

此外,人們對完整翻譯結(jié)果質(zhì)量的判斷需要涉及到一個(gè)指數(shù)級的輸出空間,而翻譯質(zhì)量的概念并不是一個(gè)定義明確的函數(shù):一般來說,每個(gè)輸入的句子都有多種正確的譯文,而人類可能根據(jù)不同的上下文和個(gè)人因素對這些譯文做出不同的判斷。

令人驚訝的是,如何使強(qiáng)化學(xué)習(xí)智能體能夠更好地根據(jù)現(xiàn)實(shí)世界的人類反饋進(jìn)行學(xué)習(xí),卻很少被人研究。Dulac-Arnold 等人于 2019 年發(fā)表的「Challenges of Real-World Reinforcement Learning」可能看起來很直截了當(dāng)——他們使用了熱啟動智能體來降低樣本復(fù)雜度,或者使用逆強(qiáng)化學(xué)習(xí)根據(jù)示范數(shù)據(jù)(demonstrations)恢復(fù)出獎勵函數(shù),但是它們需要額外的獎勵信號(這恰恰是強(qiáng)化學(xué)習(xí)應(yīng)該緩解的問題)。此外,當(dāng)涉及到哪種類型的人類反饋?zhàn)钣欣谟?xùn)練強(qiáng)化學(xué)習(xí)智能體時(shí),人們發(fā)現(xiàn)很多籠統(tǒng)的描述都指出成對比較在生成量表方面是具有優(yōu)勢的(相關(guān)論文:https://psycnet.apa.org/record/1928-00527-001),但是這些說法都缺乏實(shí)驗(yàn)證據(jù)。

Kreutzer 等人于 2018 年發(fā)表的「Reliability and Learnability of Human Bandit Feedback for Sequence-to-Sequence Reinforcement Learning」(https://arxiv.org/abs/1805.10627)是一個(gè)例外。他們首次研究了這種人類反饋(成對的判斷或 5 分制反饋)機(jī)制,可以讓人類「老師」給出最可靠的反饋結(jié)果。他們還研究了這種類型的反饋可以學(xué)習(xí)出最好地近似人類獎勵、能被最好地融入端到端的強(qiáng)化學(xué)習(xí)任務(wù)中的獎勵估計(jì)器。5 分制反饋和成對判斷的示例界面如下所示:

人,才是強(qiáng)化學(xué)習(xí)在真實(shí)世界中面臨的真正挑戰(zhàn)

不同于普遍接受的看法,在 Kreutzer 等人 2018 年的工作中,他們發(fā)現(xiàn) 5 分制評分的評分者信度(Krippendorff’s α=0.51)要高于成對判斷(α=0.39)。他們通過對每個(gè)評分者的基本判斷進(jìn)行標(biāo)準(zhǔn)化,消除個(gè)人偏見的可能性,從而解釋這一點(diǎn),并且過濾掉了評分者信度較低的評分者。成對判斷主要的問題是差不多好或者差不多差的翻譯結(jié)果之間的區(qū)別(較?。?,我們可以將這樣的翻譯結(jié)果過濾掉,從而提高評分者信度,最終得到上文所述的評分者信度。

此外,當(dāng)我們使用從 800 份譯文中收集到的判斷訓(xùn)練獎勵估計(jì)器時(shí),他們通過估計(jì)出的獎勵和對翻譯結(jié)果的后處理(相較于人類參考譯文)率之間的相關(guān)性來衡量可學(xué)習(xí)性。他們發(fā)現(xiàn),使用 5 分制反饋訓(xùn)練的回歸模型的可學(xué)習(xí)性要優(yōu)于使用成對排序反饋訓(xùn)練的「Bradley-Terry」模型(最近 Christiano 等人于 2017 年發(fā)表的「Deep Reinforcement Learning from Human Preferences」中使用了這種技術(shù),https://arxiv.org/abs/1706.03741)。

最后,最重要的一點(diǎn)是,當(dāng)他們將獎勵估計(jì)器融合到一個(gè)端到端的強(qiáng)化學(xué)習(xí)任務(wù)中時(shí),他們發(fā)現(xiàn),我們可以通過使用 800 個(gè)主要用戶判斷訓(xùn)練的獎勵估計(jì)器,將神經(jīng)機(jī)器翻譯系統(tǒng)的性能提升 1 個(gè) BLEU 點(diǎn)以上。

這不僅僅是一個(gè)讓人充滿希望的實(shí)驗(yàn)結(jié)果,指明了未來的真實(shí)世界強(qiáng)化學(xué)習(xí)研究可能的發(fā)展方向,而且也在一種方法中同時(shí)解決了 Dulac-Arnold 等人于 2019 年提出的三個(gè)挑戰(zhàn)(有限的樣本,高維動作空間,非確定性獎勵函數(shù)):獎勵估計(jì)器可以在非常小的數(shù)據(jù)集上進(jìn)行訓(xùn)練,然后集成為高維動作空間上的獎勵函數(shù)。這個(gè)思路是為了解決一個(gè)簡單的問題:首先根據(jù)人類反饋學(xué)習(xí)到一個(gè)獎勵估計(jì)器,然后提供無限的反饋,從而泛化到策略無關(guān)強(qiáng)化學(xué)習(xí)中之前未見過的輸出上。

未來的研究方向:自我調(diào)節(jié)的互動式學(xué)習(xí)

如前文所述,人類學(xué)生必須能夠在信息量最大的學(xué)習(xí)信號最稀疏的情況下進(jìn)行學(xué)習(xí)。這是因?yàn)榻處煹姆答伿怯谐杀镜?,因此必須「較為節(jié)約」地請求罕見的以黃金標(biāo)準(zhǔn)輸出的反饋。此外,學(xué)生必須學(xué)會如何自動調(diào)節(jié)他們的學(xué)習(xí)過程,學(xué)會在何時(shí)尋求幫助,以及尋求何種幫助。這雖然不同于經(jīng)典的、反饋成本可以忽略不計(jì)的強(qiáng)化學(xué)習(xí)游戲(我們可以永遠(yuǎn)就模擬游戲),但在現(xiàn)實(shí)世界中也是行不通的,特別是在探索行為成本非常高(非常危險(xiǎn))的情況下。

讓強(qiáng)化學(xué)習(xí)算法學(xué)會自我調(diào)節(jié)是一個(gè)新的研究方向,它試圖賦予人工智能體一種傳統(tǒng)上對于人類非常困難的決策能力——權(quán)衡使用不同類型的反饋進(jìn)行學(xué)習(xí)的成本和效果。這些反饋包括教師演示或糾錯提供的全面監(jiān)督、對學(xué)生預(yù)測的正面或負(fù)面獎勵形式的弱監(jiān)督,或者學(xué)生產(chǎn)生的自監(jiān)督信號。

人,才是強(qiáng)化學(xué)習(xí)在真實(shí)世界中面臨的真正挑戰(zhàn)

Kreutzer 和 Riezler 等人于 2019 年發(fā)表的「Self-Regulated Interactive Sequence-to-Sequence Learning」(https://arxiv.org/abs/1907.05190),展示了如何將一個(gè)自我調(diào)節(jié)(self-regulation)的學(xué)習(xí)任務(wù)轉(zhuǎn)化為一個(gè)學(xué)著去學(xué)習(xí)的問題,他們通過使智能體意識到「成本-獎勵」的權(quán)衡問題并對其進(jìn)行管理,從而解決上述問題。

在交互式神經(jīng)機(jī)器翻譯任務(wù)的仿真實(shí)驗(yàn)中,他們發(fā)現(xiàn)自我調(diào)節(jié)算法是基于不確定性的主動學(xué)習(xí)算法的一個(gè)強(qiáng)大的替代方案(詳見 Settles 和 Crave 等人于 2008 年發(fā)表的「An Analysis of Active Learning Strategies for Sequence Labeling Tasks」,https://www.google.com/url?sa=t&rct=j&q=&esrc=s&source=web&cd=1&ved=2ahUKEwi3546ZrtDjAhWRr6QKHTJ7AgMQFjAAegQIBRAC&url=https%3A%2F%2Fwww.biostat.wisc.edu%2F~craven%2Fpapers%2Fsettles.emnlp08.pdf&usg=AOvVaw2hhRs69DCAsD2fv79JuL6b),并且發(fā)現(xiàn)了一種用于通過混合不同類型的反饋(包括教師糾錯、錯誤標(biāo)記和自監(jiān)督)實(shí)現(xiàn)最優(yōu)質(zhì)效平衡的 ?-貪婪策略。當(dāng)然,他們的仿真場景抽象出了在真實(shí)世界的交互式機(jī)器學(xué)習(xí)中所期望的某些混雜變量。然而,所有這些都是對帶有人類教師的真實(shí)世界強(qiáng)化學(xué)習(xí)進(jìn)行研究的有趣的方向。

從人類反饋看強(qiáng)化學(xué)習(xí)的吸引力

我們試圖表明,在現(xiàn)實(shí)世界強(qiáng)化學(xué)習(xí)任務(wù)中存在的一些挑戰(zhàn)源于人類老師。在之前的工作中,人們往往只考慮將人類老師作為一種幫助:在只能使用人類用戶的反饋?zhàn)屓斯ぶ悄荏w更加個(gè)性化、更加適應(yīng)環(huán)境的情況下,標(biāo)準(zhǔn)的在監(jiān)督學(xué)習(xí)中記住大量標(biāo)簽的技巧,或者是在無限次迭代的過程中使用低成本的、準(zhǔn)確的獎勵自動訓(xùn)練強(qiáng)化學(xué)習(xí)系統(tǒng),都不會起作用。

如果我們想要讓強(qiáng)化學(xué)習(xí)可以使用「具有成本意識」、深奧的人類教師來反饋訓(xùn)練人工智能體,我們需要確保智能體不依賴大規(guī)模的探索,我們也必須學(xué)習(xí)那些優(yōu)秀的人類反饋模型??纯慈斯ぶ悄荏w在相同的信息匱乏的情況下「如何學(xué)習(xí)、會學(xué)到什么」是非常有趣的,而人類學(xué)生不得不面對這些狀況。希望這樣的工作能夠催生可以通過成果適應(yīng)人類的需求,從而幫助人類的人工智能體誕生!

 via https://www.cl.uni-heidelberg.de/statnlpgroup/blog/hrl/   雷鋒網(wǎng)雷鋒網(wǎng)

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

人,才是強(qiáng)化學(xué)習(xí)在真實(shí)世界中面臨的真正挑戰(zhàn)

分享:
相關(guān)文章

知情人士

當(dāng)月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個(gè)人簡介
為了您的賬戶安全,請驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說