0
本文作者: AI研習(xí)社-譯站 | 2018-07-20 11:04 |
雷鋒網(wǎng):喜歡機(jī)器學(xué)習(xí)和人工智能,卻發(fā)現(xiàn)埋頭苦練枯燥乏味還殺時(shí)間?油管頻道 Arxiv Insights 每周精選,從技術(shù)視角出發(fā),帶你輕松深度學(xué)習(xí)。
翻譯/趙若伽 整理/MY
在強(qiáng)化學(xué)習(xí)的設(shè)置中,為了執(zhí)行一個(gè)我們想學(xué)習(xí)的任務(wù),智能體會(huì)應(yīng)用一些特征提取方案來(lái)從原始數(shù)據(jù)中提取有用信息,然后會(huì)有一個(gè)策略網(wǎng)絡(luò)用于提取特征。
我們常常覺得強(qiáng)化學(xué)習(xí)很難,而讓它變難的原因是我們使用了稀疏獎(jiǎng)勵(lì)。智能體需要從反饋中去學(xué)習(xí),然后分辨什么樣的動(dòng)作序列會(huì)導(dǎo)致最終的獎(jiǎng)勵(lì),但事實(shí)上我們的反饋信號(hào)很稀疏,以至于智能體無(wú)法從原始數(shù)據(jù)中提取有用特征。
當(dāng)前強(qiáng)化學(xué)習(xí)中有一個(gè)主流的趨勢(shì),即放大從游戲環(huán)境中得到的稀疏的外部獎(jiǎng)勵(lì)信號(hào),并通過(guò)額外的反饋信號(hào)幫助智能體學(xué)習(xí)。我們希望建立一個(gè)可監(jiān)督設(shè)置并設(shè)計(jì)非常密集的額外的反饋信號(hào),一旦智能體在任務(wù)中成功,它可能將會(huì)得到知識(shí)。
本文希望通過(guò)對(duì)一些文章的闡述和分析來(lái)為大家提供一些現(xiàn)有研究通用的、方向性的觀點(diǎn)。
一. 設(shè)置輔助任務(wù)
第一個(gè)觀點(diǎn)是輔助任務(wù)會(huì)幫忙訓(xùn)練你的智能體,這些簡(jiǎn)單目標(biāo)的疊加可以顯著提高我們智能體的學(xué)習(xí)效率。我們來(lái)一起看一篇來(lái)自google deepmind的文章,叫做強(qiáng)化學(xué)習(xí)結(jié)合無(wú)監(jiān)督學(xué)習(xí)輔助任務(wù)。
這篇文章建立了一個(gè)3D迷宮,智能體在迷宮里行走,它需要找到具體的對(duì)象,一旦它遇到這些對(duì)象之一就會(huì)得到獎(jiǎng)勵(lì)。作者們替換掉了這些很稀疏的獎(jiǎng)勵(lì),并用三個(gè)額外獎(jiǎng)勵(lì)信號(hào)來(lái)放大整個(gè)訓(xùn)練過(guò)程。
第一個(gè)任務(wù)是像素控制。智能體需要學(xué)習(xí)一個(gè)獨(dú)立策略去最大化改變輸入圖片的某些地方的像素值,在他們建議的實(shí)現(xiàn)方法中輸入的幀被分成少量的柵格,每個(gè)柵格計(jì)算一個(gè)視覺變化分?jǐn)?shù),然后策略被訓(xùn)練成最大化所有柵格的總視覺變化。像素控制任務(wù)的加入在三維環(huán)境中是很有效的。
第二個(gè)輔助任務(wù)是獎(jiǎng)勵(lì)預(yù)測(cè)。智能體被給與在片段序列(episode sequence)中三個(gè)最近的幀,他的任務(wù)是預(yù)測(cè)下一步會(huì)給出的獎(jiǎng)勵(lì)。
第三個(gè)任務(wù)是估值函數(shù)回放。通過(guò)預(yù)測(cè),智能體將會(huì)得到在這一時(shí)刻往前的未來(lái)獎(jiǎng)勵(lì)的總和。
二. 好奇驅(qū)使探索
第二個(gè)觀點(diǎn)是好奇驅(qū)使探索,通俗的觀點(diǎn)是你希望以某種方式獎(jiǎng)勵(lì)你的智能體,在它學(xué)習(xí)了一件探索環(huán)境后發(fā)現(xiàn)的新事情之后。
在大多數(shù)默認(rèn)的強(qiáng)化學(xué)習(xí)的算法里,人們會(huì)用ε-貪婪探索的方法,也就是說(shuō)在大部分的情況下你的智能體會(huì)根據(jù)他現(xiàn)有的策略選擇最好最有可能的方向,在小概率 ε 的情況下智能體將會(huì)執(zhí)行一個(gè)隨機(jī)動(dòng)作,并且隨著訓(xùn)練的進(jìn)展,這個(gè)隨機(jī)動(dòng)作會(huì)逐漸減少直到完全遵循你的決策。也正是因此,你的智能體可能不會(huì)為了尋找更好的策略而完全探索整個(gè)環(huán)境。
在強(qiáng)化學(xué)習(xí)中我們會(huì)召回一個(gè)前向模型,這意味著你的智能體將會(huì)看到具體的輸入幀,它將會(huì)使用某種特征提取器并把輸入數(shù)據(jù)編碼為某種隱藏的表示法,然后你就有了一個(gè)前向模型。如果是一個(gè)全新的位置,智能體的向前模型可能不會(huì)那么精確,你可以將這些預(yù)測(cè)誤差作為一個(gè)除了稀疏獎(jiǎng)勵(lì)之外的額外反饋信號(hào),來(lái)鼓勵(lì)你的智能體去探索狀態(tài)空間未知的區(qū)域。
下面我想介紹的一篇文章,作者使用了一個(gè)很好的例子來(lái)展示intrinsic curiosity module(ICM)。
我們都知道給微風(fēng)建立模型是很難的,更不用說(shuō)預(yù)測(cè)每一片葉子的像素變化。樹葉的運(yùn)動(dòng)不能被智能體的動(dòng)作控制,對(duì)于特征編碼器來(lái)說(shuō)沒有激勵(lì)去引導(dǎo)它為那些樹葉建模,這意味著對(duì)像素空間的預(yù)測(cè)誤差將會(huì)一直很高,智能體將會(huì)對(duì)葉子一直保持著好奇,這就是論文里 ICM 模型的架構(gòu)。
原始的環(huán)境狀態(tài) s 和 s+1 首先被編碼進(jìn)特征空間,接下來(lái)是兩個(gè)模型:一個(gè)是前向模型,這個(gè)模型為了下一個(gè)狀態(tài)去預(yù)測(cè)特征通過(guò)被策略選擇的動(dòng)作,接下來(lái)有一個(gè)反轉(zhuǎn)模型來(lái)預(yù)測(cè)應(yīng)該選擇什么動(dòng)作才能從狀態(tài)s到下一個(gè)特征狀態(tài) s+1。最后 s+1 的特征編碼和通過(guò)前向模型給予的 s+1 的預(yù)測(cè)特征編碼進(jìn)行比較,比較出來(lái)的結(jié)果我們可以稱它為智能體對(duì)發(fā)生的事情的驚訝程度,被加到獎(jiǎng)勵(lì)信號(hào)里為了訓(xùn)練智能體。
這是一個(gè)很好的觀點(diǎn),我們的智能體應(yīng)該去探索未知區(qū)域并對(duì)世界保持好奇心。
三. 標(biāo)準(zhǔn)獎(jiǎng)勵(lì)設(shè)置
第三個(gè)觀點(diǎn)的標(biāo)準(zhǔn)獎(jiǎng)勵(lì)設(shè)置,讓智能體從不成功的片段中學(xué)習(xí)。我們可以看 open AI最近發(fā)的一篇文章,叫作后經(jīng)驗(yàn)回放,或者縮寫 HER。
想象你要訓(xùn)練一個(gè)機(jī)械手來(lái)推動(dòng)桌子上的一個(gè)物體到達(dá)位置 A,但是由于策略沒有訓(xùn)練的很好,物體結(jié)束在 B,按目標(biāo)來(lái)看是不成功的嘗試,而HER模型做的不是僅僅說(shuō)“嘿!你做錯(cuò)了,你得到了一個(gè)值為 0 的獎(jiǎng)勵(lì)”,而是告訴智能體“真棒!做的好,這是你如何移動(dòng)物體到位置 B ”,基本上你已在一個(gè)稀疏獎(jiǎng)勵(lì)的問(wèn)題中建立了非常密集的獎(jiǎng)勵(lì)設(shè)置來(lái)讓智能體學(xué)習(xí)。
我們以一個(gè)普通的離線學(xué)習(xí)算法和為了采樣目標(biāo)位置的策略為開始,但是接下來(lái)我們也采樣了一系列被改變的額外的目標(biāo)。這個(gè)算法最好的一點(diǎn)是在訓(xùn)練之后你已經(jīng)有了一個(gè)策略網(wǎng)絡(luò),所以如果你希望移動(dòng)物體到一個(gè)新的位置,你不需要重新訓(xùn)練所有策略,只需要改變目標(biāo)向量,你的策略會(huì)做出正確的事情。這篇論文的觀點(diǎn)很簡(jiǎn)單,但是解決了我們學(xué)習(xí)中一個(gè)非?;A(chǔ)的問(wèn)題,就是我們希望最大化地使用我們有的每一個(gè)經(jīng)驗(yàn)。
我們剛剛分享了一些非常不同的方式去增加稀疏獎(jiǎng)勵(lì)信號(hào),通過(guò)密集的反饋我認(rèn)為在第一步趨向于真正的無(wú)監(jiān)督學(xué)習(xí)。但是在強(qiáng)化學(xué)習(xí)中還是有很多挑戰(zhàn)性的問(wèn)題,例如像泛化遷移學(xué)習(xí)、物理學(xué)中的因果關(guān)系等,這些問(wèn)題依舊作為挑戰(zhàn)而存在。與此同時(shí),我們也需要更好的平衡人工智能的發(fā)展與社會(huì)發(fā)展之間的關(guān)系,創(chuàng)造一個(gè)每個(gè)人都能從人工智能的發(fā)展中獲益的事業(yè)。
視頻鏈接:https://www.youtube.com/watch?v=0Ey02HT_1Ho&t=364s
雷鋒網(wǎng)雷鋒網(wǎng)
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。