丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能 正文
發(fā)私信給AI研習(xí)社-譯站
發(fā)送

0

克服稀疏獎(jiǎng)勵(lì)的束縛,讓智能體在學(xué)習(xí)中成長(zhǎng)

本文作者: AI研習(xí)社-譯站 2018-07-20 11:04
導(dǎo)語(yǔ):強(qiáng)化學(xué)習(xí)其實(shí)并不難

雷鋒網(wǎng):喜歡機(jī)器學(xué)習(xí)和人工智能,卻發(fā)現(xiàn)埋頭苦練枯燥乏味還殺時(shí)間?油管頻道 Arxiv Insights 每周精選,從技術(shù)視角出發(fā),帶你輕松深度學(xué)習(xí)。

翻譯/趙若伽    整理/MY

克服稀疏獎(jiǎng)勵(lì)的束縛,讓智能體在學(xué)習(xí)中成長(zhǎng)


在強(qiáng)化學(xué)習(xí)的設(shè)置中,為了執(zhí)行一個(gè)我們想學(xué)習(xí)的任務(wù),智能體會(huì)應(yīng)用一些特征提取方案來(lái)從原始數(shù)據(jù)中提取有用信息,然后會(huì)有一個(gè)策略網(wǎng)絡(luò)用于提取特征。

我們常常覺得強(qiáng)化學(xué)習(xí)很難,而讓它變難的原因是我們使用了稀疏獎(jiǎng)勵(lì)。智能體需要從反饋中去學(xué)習(xí),然后分辨什么樣的動(dòng)作序列會(huì)導(dǎo)致最終的獎(jiǎng)勵(lì),但事實(shí)上我們的反饋信號(hào)很稀疏,以至于智能體無(wú)法從原始數(shù)據(jù)中提取有用特征。

當(dāng)前強(qiáng)化學(xué)習(xí)中有一個(gè)主流的趨勢(shì),即放大從游戲環(huán)境中得到的稀疏的外部獎(jiǎng)勵(lì)信號(hào),并通過(guò)額外的反饋信號(hào)幫助智能體學(xué)習(xí)。我們希望建立一個(gè)可監(jiān)督設(shè)置并設(shè)計(jì)非常密集的額外的反饋信號(hào),一旦智能體在任務(wù)中成功,它可能將會(huì)得到知識(shí)。

本文希望通過(guò)對(duì)一些文章的闡述和分析來(lái)為大家提供一些現(xiàn)有研究通用的、方向性的觀點(diǎn)。


一. 設(shè)置輔助任務(wù)

第一個(gè)觀點(diǎn)是輔助任務(wù)會(huì)幫忙訓(xùn)練你的智能體,這些簡(jiǎn)單目標(biāo)的疊加可以顯著提高我們智能體的學(xué)習(xí)效率。我們來(lái)一起看一篇來(lái)自google deepmind的文章,叫做強(qiáng)化學(xué)習(xí)結(jié)合無(wú)監(jiān)督學(xué)習(xí)輔助任務(wù)。

克服稀疏獎(jiǎng)勵(lì)的束縛,讓智能體在學(xué)習(xí)中成長(zhǎng)

這篇文章建立了一個(gè)3D迷宮,智能體在迷宮里行走,它需要找到具體的對(duì)象,一旦它遇到這些對(duì)象之一就會(huì)得到獎(jiǎng)勵(lì)。作者們替換掉了這些很稀疏的獎(jiǎng)勵(lì),并用三個(gè)額外獎(jiǎng)勵(lì)信號(hào)來(lái)放大整個(gè)訓(xùn)練過(guò)程。

克服稀疏獎(jiǎng)勵(lì)的束縛,讓智能體在學(xué)習(xí)中成長(zhǎng)

第一個(gè)任務(wù)是像素控制。智能體需要學(xué)習(xí)一個(gè)獨(dú)立策略去最大化改變輸入圖片的某些地方的像素值,在他們建議的實(shí)現(xiàn)方法中輸入的幀被分成少量的柵格,每個(gè)柵格計(jì)算一個(gè)視覺變化分?jǐn)?shù),然后策略被訓(xùn)練成最大化所有柵格的總視覺變化。像素控制任務(wù)的加入在三維環(huán)境中是很有效的。

第二個(gè)輔助任務(wù)是獎(jiǎng)勵(lì)預(yù)測(cè)。智能體被給與在片段序列(episode sequence)中三個(gè)最近的幀,他的任務(wù)是預(yù)測(cè)下一步會(huì)給出的獎(jiǎng)勵(lì)。

第三個(gè)任務(wù)是估值函數(shù)回放。通過(guò)預(yù)測(cè),智能體將會(huì)得到在這一時(shí)刻往前的未來(lái)獎(jiǎng)勵(lì)的總和。


二. 好奇驅(qū)使探索

第二個(gè)觀點(diǎn)是好奇驅(qū)使探索,通俗的觀點(diǎn)是你希望以某種方式獎(jiǎng)勵(lì)你的智能體,在它學(xué)習(xí)了一件探索環(huán)境后發(fā)現(xiàn)的新事情之后。

在大多數(shù)默認(rèn)的強(qiáng)化學(xué)習(xí)的算法里,人們會(huì)用ε-貪婪探索的方法,也就是說(shuō)在大部分的情況下你的智能體會(huì)根據(jù)他現(xiàn)有的策略選擇最好最有可能的方向,在小概率 ε 的情況下智能體將會(huì)執(zhí)行一個(gè)隨機(jī)動(dòng)作,并且隨著訓(xùn)練的進(jìn)展,這個(gè)隨機(jī)動(dòng)作會(huì)逐漸減少直到完全遵循你的決策。也正是因此,你的智能體可能不會(huì)為了尋找更好的策略而完全探索整個(gè)環(huán)境。

在強(qiáng)化學(xué)習(xí)中我們會(huì)召回一個(gè)前向模型,這意味著你的智能體將會(huì)看到具體的輸入幀,它將會(huì)使用某種特征提取器并把輸入數(shù)據(jù)編碼為某種隱藏的表示法,然后你就有了一個(gè)前向模型。如果是一個(gè)全新的位置,智能體的向前模型可能不會(huì)那么精確,你可以將這些預(yù)測(cè)誤差作為一個(gè)除了稀疏獎(jiǎng)勵(lì)之外的額外反饋信號(hào),來(lái)鼓勵(lì)你的智能體去探索狀態(tài)空間未知的區(qū)域。

克服稀疏獎(jiǎng)勵(lì)的束縛,讓智能體在學(xué)習(xí)中成長(zhǎng)

下面我想介紹的一篇文章,作者使用了一個(gè)很好的例子來(lái)展示intrinsic curiosity module(ICM)。

我們都知道給微風(fēng)建立模型是很難的,更不用說(shuō)預(yù)測(cè)每一片葉子的像素變化。樹葉的運(yùn)動(dòng)不能被智能體的動(dòng)作控制,對(duì)于特征編碼器來(lái)說(shuō)沒有激勵(lì)去引導(dǎo)它為那些樹葉建模,這意味著對(duì)像素空間的預(yù)測(cè)誤差將會(huì)一直很高,智能體將會(huì)對(duì)葉子一直保持著好奇,這就是論文里 ICM 模型的架構(gòu)。

克服稀疏獎(jiǎng)勵(lì)的束縛,讓智能體在學(xué)習(xí)中成長(zhǎng)

原始的環(huán)境狀態(tài) s 和 s+1 首先被編碼進(jìn)特征空間,接下來(lái)是兩個(gè)模型:一個(gè)是前向模型,這個(gè)模型為了下一個(gè)狀態(tài)去預(yù)測(cè)特征通過(guò)被策略選擇的動(dòng)作,接下來(lái)有一個(gè)反轉(zhuǎn)模型來(lái)預(yù)測(cè)應(yīng)該選擇什么動(dòng)作才能從狀態(tài)s到下一個(gè)特征狀態(tài) s+1。最后 s+1 的特征編碼和通過(guò)前向模型給予的 s+1 的預(yù)測(cè)特征編碼進(jìn)行比較,比較出來(lái)的結(jié)果我們可以稱它為智能體對(duì)發(fā)生的事情的驚訝程度,被加到獎(jiǎng)勵(lì)信號(hào)里為了訓(xùn)練智能體。

這是一個(gè)很好的觀點(diǎn),我們的智能體應(yīng)該去探索未知區(qū)域并對(duì)世界保持好奇心。


三. 標(biāo)準(zhǔn)獎(jiǎng)勵(lì)設(shè)置

第三個(gè)觀點(diǎn)的標(biāo)準(zhǔn)獎(jiǎng)勵(lì)設(shè)置,讓智能體從不成功的片段中學(xué)習(xí)。我們可以看 open AI最近發(fā)的一篇文章,叫作后經(jīng)驗(yàn)回放,或者縮寫 HER。

克服稀疏獎(jiǎng)勵(lì)的束縛,讓智能體在學(xué)習(xí)中成長(zhǎng)

想象你要訓(xùn)練一個(gè)機(jī)械手來(lái)推動(dòng)桌子上的一個(gè)物體到達(dá)位置 A,但是由于策略沒有訓(xùn)練的很好,物體結(jié)束在 B,按目標(biāo)來(lái)看是不成功的嘗試,而HER模型做的不是僅僅說(shuō)“嘿!你做錯(cuò)了,你得到了一個(gè)值為 0 的獎(jiǎng)勵(lì)”,而是告訴智能體“真棒!做的好,這是你如何移動(dòng)物體到位置 B ”,基本上你已在一個(gè)稀疏獎(jiǎng)勵(lì)的問(wèn)題中建立了非常密集的獎(jiǎng)勵(lì)設(shè)置來(lái)讓智能體學(xué)習(xí)。

我們以一個(gè)普通的離線學(xué)習(xí)算法和為了采樣目標(biāo)位置的策略為開始,但是接下來(lái)我們也采樣了一系列被改變的額外的目標(biāo)。這個(gè)算法最好的一點(diǎn)是在訓(xùn)練之后你已經(jīng)有了一個(gè)策略網(wǎng)絡(luò),所以如果你希望移動(dòng)物體到一個(gè)新的位置,你不需要重新訓(xùn)練所有策略,只需要改變目標(biāo)向量,你的策略會(huì)做出正確的事情。這篇論文的觀點(diǎn)很簡(jiǎn)單,但是解決了我們學(xué)習(xí)中一個(gè)非?;A(chǔ)的問(wèn)題,就是我們希望最大化地使用我們有的每一個(gè)經(jīng)驗(yàn)。

克服稀疏獎(jiǎng)勵(lì)的束縛,讓智能體在學(xué)習(xí)中成長(zhǎng)

我們剛剛分享了一些非常不同的方式去增加稀疏獎(jiǎng)勵(lì)信號(hào),通過(guò)密集的反饋我認(rèn)為在第一步趨向于真正的無(wú)監(jiān)督學(xué)習(xí)。但是在強(qiáng)化學(xué)習(xí)中還是有很多挑戰(zhàn)性的問(wèn)題,例如像泛化遷移學(xué)習(xí)、物理學(xué)中的因果關(guān)系等,這些問(wèn)題依舊作為挑戰(zhàn)而存在。與此同時(shí),我們也需要更好的平衡人工智能的發(fā)展與社會(huì)發(fā)展之間的關(guān)系,創(chuàng)造一個(gè)每個(gè)人都能從人工智能的發(fā)展中獲益的事業(yè)。


視頻鏈接:https://www.youtube.com/watch?v=0Ey02HT_1Ho&t=364s


克服稀疏獎(jiǎng)勵(lì)的束縛,讓智能體在學(xué)習(xí)中成長(zhǎng)

雷鋒網(wǎng)雷鋒網(wǎng)

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

克服稀疏獎(jiǎng)勵(lì)的束縛,讓智能體在學(xué)習(xí)中成長(zhǎng)

分享:
相關(guān)文章

知情人士

AI研習(xí)社(yanxishe.com)譯站頻道,傳播前沿人工智能知識(shí),讓語(yǔ)言不再成為學(xué)習(xí)知識(shí)的門檻。(原雷鋒字幕組)
當(dāng)月熱門文章
最新文章
請(qǐng)?zhí)顚懮暾?qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說(shuō)