0
本文作者: 楊曉凡 | 2019-09-11 17:23 |
雷鋒網(wǎng) AI 科技評論按:終生學(xué)習(xí),簡單說是讓模型有能力持續(xù)地學(xué)習(xí)新的信息,但更重要的是讓模型學(xué)習(xí)新信息的同時(shí)還不要完全忘記以往學(xué)習(xí)過的內(nèi)容(避免「災(zāi)難性遺忘」),是深度學(xué)習(xí)的長期發(fā)展和大規(guī)模應(yīng)用中必不可少的一項(xiàng)模型能力。
近期,「NLP 網(wǎng)紅」Sebastian Ruder 小哥把終生學(xué)習(xí)能力融入了語言模型中,方法是加入一個(gè)片段式記憶存儲模塊。實(shí)際上類似的做法也并不是第一次得到應(yīng)用了,雷鋒網(wǎng) AI 科技評論一并介紹幾篇相關(guān)論文。
終生語言學(xué)習(xí)中片段式記憶的作用
論文地址:https://arxiv.org/abs/1906.01076
內(nèi)容簡介:首先我們把「終生語言學(xué)習(xí)」(lifelong language learning)任務(wù)定義為:模型需要從連續(xù)的文本樣本流中學(xué)習(xí),其中不會指明數(shù)據(jù)集的邊界。作者們提出了一個(gè)用片段式記憶存儲結(jié)構(gòu)增強(qiáng)語言模型的方式,模型中的存儲可以進(jìn)行稀疏經(jīng)驗(yàn)重放,也可以進(jìn)行局部適應(yīng),以減緩這種任務(wù)中的災(zāi)難性遺忘現(xiàn)象。另外,作者們也表明,這個(gè)記憶存儲結(jié)構(gòu)的空間復(fù)雜度可以進(jìn)行大幅簡化(可以降低 50% 到 90%),只需要隨機(jī)選擇把哪些樣本存儲在記憶中,這種做法對性能的影響非常小。作者們認(rèn)為片段式記憶存儲部件是通用語言智能模型中不可或缺的重要組件。
通過記憶能力增強(qiáng)模型表現(xiàn)其實(shí)并不是新鮮事,「經(jīng)驗(yàn)重放(experience replay)」的思路最早可以追溯到 1990 年代的強(qiáng)化學(xué)習(xí)機(jī)器人控制論文 《Programming Robots Using Reinforcement Learning and Teaching》(https://www.aaai.org/Papers/AAAI/1991/AAAI91-122.pdf )以及《Self-Improving Reactive Agents Based On Reinforcement Learning, Planning and Teaching》 (http://www.incompleteideas.net/lin-92.pdf ),論文中用教學(xué)的方式讓機(jī)器人學(xué)會新的技能,那么記憶能力就與教學(xué)過程相配合,記錄已經(jīng)學(xué)會的技能。
下面我們再介紹幾個(gè)新一些的成果
通過深度強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)人類級別的控制
論文地址:https://storage.googleapis.com/deepmind-media/dqn/DQNNaturePaper.pdf
論文亮點(diǎn):DeepMind 發(fā)表在《Nature》的鼎鼎大名的 DQN 論文中也使用了經(jīng)驗(yàn)重放。在強(qiáng)化學(xué)習(xí)的設(shè)定中,智能體通過與環(huán)境交互獲得數(shù)據(jù)(相當(dāng)于監(jiān)督學(xué)習(xí)中的標(biāo)注數(shù)據(jù)集),經(jīng)驗(yàn)重放可以讓智能體重放、排練曾經(jīng)執(zhí)行過的動作,更高效地使用已經(jīng)采集到的數(shù)據(jù)。當(dāng)然了,DQN 的另一大貢獻(xiàn)是學(xué)習(xí)到原始輸入的高維表征,不再需要人工的特征工程。
記憶增強(qiáng)的蒙特卡洛樹搜索
論文地址:https://webdocs.cs.ualberta.ca/~mmueller/ps/2018/Chenjun-Xiao-M-MCTS-aaai18-final.pdf
AAAI 2018 杰出論文
論文簡介:這篇論文把一個(gè)記憶結(jié)構(gòu)和蒙特卡洛樹搜索結(jié)合起來,為在線實(shí)時(shí)搜索提出了一種新的利用泛化性的方式。記憶結(jié)構(gòu)中的每個(gè)存儲位置都可以包含某個(gè)特定狀態(tài)的信息。通過綜合類似的狀態(tài)的估計(jì)結(jié)果,這些記憶可以生成逼近的估計(jì)值。作者們展示了,在隨機(jī)情況下,基于記憶的逼近值有更高可能性比原始的蒙特卡洛樹搜索表現(xiàn)更好。
經(jīng)驗(yàn)重放還有一些高級改進(jìn)
優(yōu)先經(jīng)驗(yàn)重放
論文地址:https://arxiv.org/abs/1511.05952
論文亮點(diǎn):這篇論文的作者們提出,在之前的研究中,智能體學(xué)習(xí)到的經(jīng)驗(yàn)是均勻地從重放記憶中采樣的。而既然記憶的存儲來自于智能體實(shí)際的探索活動,這就意味著智能體進(jìn)行活動、獲得記憶的分布和從記憶中采樣、利用記憶的分布是一樣的。作者們認(rèn)為,智能體獲得的記憶中肯定有一些是重要的、有一些是不那么重要的,我們應(yīng)當(dāng)更多地利用比較重要的記憶,這樣可以用同樣多的記憶提高智能體的表現(xiàn)。這篇論文中作者們就設(shè)計(jì)了一個(gè)為記憶的優(yōu)先程度排序的框架,更多地重放重要的記憶,以便更快地學(xué)習(xí)。作者們在 DQN 上做了這個(gè)實(shí)驗(yàn),改進(jìn)后的 DQN 比原來的(均一記憶)的 DQN 在絕大多數(shù)游戲中都取得了更好的表現(xiàn)。
后見經(jīng)驗(yàn)重放
論文地址:https://arxiv.org/abs/1707.01495
論文亮點(diǎn):假想要讓機(jī)械臂執(zhí)行一個(gè)用末端在桌面上推方塊到指定地點(diǎn)的任務(wù)。對于強(qiáng)化學(xué)習(xí)模型來說,初次嘗試基本是注定失敗的;如果不是特別的幸運(yùn),接下來的幾次嘗試也同樣會失敗。典型的強(qiáng)化學(xué)習(xí)算法是無法從這些失敗經(jīng)驗(yàn)中學(xué)習(xí)的,因?yàn)樗鼈円恢苯邮盏焦潭ǖ氖。?1)反饋,也就不含有任何可以指導(dǎo)學(xué)習(xí)的信號。
人類在執(zhí)行任務(wù)的時(shí)候其實(shí)有一個(gè)直覺的感受是:即便我沒有達(dá)成原來那個(gè)給定的目標(biāo),我起碼還是完成了另外一個(gè)目標(biāo)的。HER 的核心思想就是把這一人類直覺公式化。在這里,HER 會把實(shí)際達(dá)到的目標(biāo)暫且看成要達(dá)到的目標(biāo);進(jìn)行這個(gè)替換以后,算法認(rèn)為自己畢竟達(dá)到了某個(gè)目標(biāo),從而可以得到一個(gè)學(xué)習(xí)信號進(jìn)行學(xué)習(xí),即便達(dá)到的目標(biāo)并不是最開始任務(wù)要求的那個(gè)目標(biāo)。如果持續(xù)進(jìn)行這個(gè)過程,最終算法可以學(xué)會達(dá)成任意一個(gè)目標(biāo),其中也自然就包括了我們最開始要求的目標(biāo)。
依靠這樣的辦法,即便最開始的時(shí)候機(jī)械臂根本就碰不到圓盤、以及反饋是稀疏的,最終它也學(xué)會了如何把圓盤撥到桌子上的指定位置。這個(gè)算法之所以稱為 Hindsight Experience Replay 后見經(jīng)驗(yàn)重放,就是因?yàn)樗窃谕瓿闪艘淮蝿幼髦笤龠x定目標(biāo)、重放經(jīng)驗(yàn)進(jìn)行學(xué)習(xí)。也所以,HER 可以和任何策略無關(guān)的強(qiáng)化學(xué)習(xí)算法結(jié)合起來使用,比如 DDPG+HER。
這 7 篇論文打包下載:https://www.yanxishe.com/resourceDetail/1005
雷鋒網(wǎng) AI 科技評論整理
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。