0
雷鋒網(wǎng):喜歡機器學習和人工智能,卻發(fā)現(xiàn)埋頭苦練枯燥乏味還殺時間?油管頻道 Arxiv Insights 每周精選,從技術視角出發(fā),帶你輕松深度學習。
翻譯/趙若伽 整理/MY
在強化學習的設置中,為了執(zhí)行一個我們想學習的任務,智能體會應用一些特征提取方案來從原始數(shù)據(jù)中提取有用信息,然后會有一個策略網(wǎng)絡用于提取特征。
我們常常覺得強化學習很難,而讓它變難的原因是我們使用了稀疏獎勵。智能體需要從反饋中去學習,然后分辨什么樣的動作序列會導致最終的獎勵,但事實上我們的反饋信號很稀疏,以至于智能體無法從原始數(shù)據(jù)中提取有用特征。
當前強化學習中有一個主流的趨勢,即放大從游戲環(huán)境中得到的稀疏的外部獎勵信號,并通過額外的反饋信號幫助智能體學習。我們希望建立一個可監(jiān)督設置并設計非常密集的額外的反饋信號,一旦智能體在任務中成功,它可能將會得到知識。
本文希望通過對一些文章的闡述和分析來為大家提供一些現(xiàn)有研究通用的、方向性的觀點。
一. 設置輔助任務
第一個觀點是輔助任務會幫忙訓練你的智能體,這些簡單目標的疊加可以顯著提高我們智能體的學習效率。我們來一起看一篇來自google deepmind的文章,叫做強化學習結合無監(jiān)督學習輔助任務。
這篇文章建立了一個3D迷宮,智能體在迷宮里行走,它需要找到具體的對象,一旦它遇到這些對象之一就會得到獎勵。作者們替換掉了這些很稀疏的獎勵,并用三個額外獎勵信號來放大整個訓練過程。
第一個任務是像素控制。智能體需要學習一個獨立策略去最大化改變輸入圖片的某些地方的像素值,在他們建議的實現(xiàn)方法中輸入的幀被分成少量的柵格,每個柵格計算一個視覺變化分數(shù),然后策略被訓練成最大化所有柵格的總視覺變化。像素控制任務的加入在三維環(huán)境中是很有效的。
第二個輔助任務是獎勵預測。智能體被給與在片段序列(episode sequence)中三個最近的幀,他的任務是預測下一步會給出的獎勵。
第三個任務是估值函數(shù)回放。通過預測,智能體將會得到在這一時刻往前的未來獎勵的總和。
二. 好奇驅使探索
第二個觀點是好奇驅使探索,通俗的觀點是你希望以某種方式獎勵你的智能體,在它學習了一件探索環(huán)境后發(fā)現(xiàn)的新事情之后。
在大多數(shù)默認的強化學習的算法里,人們會用ε-貪婪探索的方法,也就是說在大部分的情況下你的智能體會根據(jù)他現(xiàn)有的策略選擇最好最有可能的方向,在小概率 ε 的情況下智能體將會執(zhí)行一個隨機動作,并且隨著訓練的進展,這個隨機動作會逐漸減少直到完全遵循你的決策。也正是因此,你的智能體可能不會為了尋找更好的策略而完全探索整個環(huán)境。
在強化學習中我們會召回一個前向模型,這意味著你的智能體將會看到具體的輸入幀,它將會使用某種特征提取器并把輸入數(shù)據(jù)編碼為某種隱藏的表示法,然后你就有了一個前向模型。如果是一個全新的位置,智能體的向前模型可能不會那么精確,你可以將這些預測誤差作為一個除了稀疏獎勵之外的額外反饋信號,來鼓勵你的智能體去探索狀態(tài)空間未知的區(qū)域。
下面我想介紹的一篇文章,作者使用了一個很好的例子來展示intrinsic curiosity module(ICM)。
我們都知道給微風建立模型是很難的,更不用說預測每一片葉子的像素變化。樹葉的運動不能被智能體的動作控制,對于特征編碼器來說沒有激勵去引導它為那些樹葉建模,這意味著對像素空間的預測誤差將會一直很高,智能體將會對葉子一直保持著好奇,這就是論文里 ICM 模型的架構。
原始的環(huán)境狀態(tài) s 和 s+1 首先被編碼進特征空間,接下來是兩個模型:一個是前向模型,這個模型為了下一個狀態(tài)去預測特征通過被策略選擇的動作,接下來有一個反轉模型來預測應該選擇什么動作才能從狀態(tài)s到下一個特征狀態(tài) s+1。最后 s+1 的特征編碼和通過前向模型給予的 s+1 的預測特征編碼進行比較,比較出來的結果我們可以稱它為智能體對發(fā)生的事情的驚訝程度,被加到獎勵信號里為了訓練智能體。
這是一個很好的觀點,我們的智能體應該去探索未知區(qū)域并對世界保持好奇心。
三. 標準獎勵設置
第三個觀點的標準獎勵設置,讓智能體從不成功的片段中學習。我們可以看 open AI最近發(fā)的一篇文章,叫作后經(jīng)驗回放,或者縮寫 HER。
想象你要訓練一個機械手來推動桌子上的一個物體到達位置 A,但是由于策略沒有訓練的很好,物體結束在 B,按目標來看是不成功的嘗試,而HER模型做的不是僅僅說“嘿!你做錯了,你得到了一個值為 0 的獎勵”,而是告訴智能體“真棒!做的好,這是你如何移動物體到位置 B ”,基本上你已在一個稀疏獎勵的問題中建立了非常密集的獎勵設置來讓智能體學習。
我們以一個普通的離線學習算法和為了采樣目標位置的策略為開始,但是接下來我們也采樣了一系列被改變的額外的目標。這個算法最好的一點是在訓練之后你已經(jīng)有了一個策略網(wǎng)絡,所以如果你希望移動物體到一個新的位置,你不需要重新訓練所有策略,只需要改變目標向量,你的策略會做出正確的事情。這篇論文的觀點很簡單,但是解決了我們學習中一個非?;A的問題,就是我們希望最大化地使用我們有的每一個經(jīng)驗。
我們剛剛分享了一些非常不同的方式去增加稀疏獎勵信號,通過密集的反饋我認為在第一步趨向于真正的無監(jiān)督學習。但是在強化學習中還是有很多挑戰(zhàn)性的問題,例如像泛化遷移學習、物理學中的因果關系等,這些問題依舊作為挑戰(zhàn)而存在。與此同時,我們也需要更好的平衡人工智能的發(fā)展與社會發(fā)展之間的關系,創(chuàng)造一個每個人都能從人工智能的發(fā)展中獲益的事業(yè)。
視頻鏈接:https://www.youtube.com/watch?v=0Ey02HT_1Ho&t=364s
雷鋒網(wǎng)雷鋒網(wǎng)
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權禁止轉載。詳情見轉載須知。