0
雷鋒網(wǎng) AI 科技評論按:這篇來自谷歌大腦 David Ha 等人的博客介紹了自我注意力+演化算法得到的最新強(qiáng)化學(xué)習(xí)智能體研究成果,只需要傳統(tǒng)方法千分之一的參數(shù)數(shù)量就可以得到同等的表現(xiàn)以及更好的泛化能力。雷鋒網(wǎng) AI 科技評論編譯如下,有刪節(jié)。
簡介
深度學(xué)習(xí)社區(qū)中對于大型神經(jīng)網(wǎng)絡(luò)的泛化性能已經(jīng)有過很多討論。盡管大型神經(jīng)網(wǎng)絡(luò)比更小的網(wǎng)絡(luò)泛化得更好,但是原因并不是因?yàn)榍罢呔哂懈嗟臋?quán)重參數(shù),而是正如最近的一項(xiàng)研究工作所顯示的,是因而更大的網(wǎng)絡(luò)可以讓優(yōu)化算法在允許的一小部分解空間內(nèi)找到好的解或者“彩票”。
這些解可以被剪枝來形成具有良好歸納偏置的子網(wǎng)絡(luò),它們具有理想的泛化性能。
最近,神經(jīng)科學(xué)界對深度學(xué)習(xí)提出了評論,指出動物天生具有高度結(jié)構(gòu)化的大腦連接,而這些連接過于復(fù)雜,無法在基因組中顯示指定,而是必須通過“基因組瓶頸”壓縮成信息編碼到指定了一套大腦連接規(guī)則的基因組中。
先天的處理過程和行為由進(jìn)化編碼到基因組中,正如動物大腦中許多神經(jīng)回路都是預(yù)先連接好并且從出生起就準(zhǔn)備好了需要的操作一樣。這些先天能力讓動物能夠較輕易地?fù)碛蟹夯芰Γ约翱焖龠m應(yīng)不同環(huán)境。
實(shí)際上,在神經(jīng)進(jìn)化領(lǐng)域中,有一個關(guān)于進(jìn)化遺傳瓶頸的相關(guān)研究領(lǐng)域,叫做間接編碼。類似于彩票解的剪枝,間接編碼方法不僅可以表達(dá)大型神經(jīng)架構(gòu),同時還能最小化無模型參數(shù)的數(shù)量。
研究者認(rèn)為,這項(xiàng)間接編碼的工作所奠定的基礎(chǔ),有助于更好地理解神經(jīng)網(wǎng)絡(luò)的歸納偏置,并為解決領(lǐng)域外的泛化問題提供新的視角。
目前大多數(shù)訓(xùn)練神經(jīng)網(wǎng)絡(luò)的方法,無論是采用梯度下降策略還是進(jìn)化策略,都是為給定神經(jīng)網(wǎng)絡(luò)的每個單獨(dú)權(quán)重參數(shù)求值,這些方法就稱作直接編碼。
而另一方面,間接編碼則他提供了一種完全不同的方法,它們針對指定如何生成(更大得多的)神經(jīng)網(wǎng)絡(luò)的一小組規(guī)則或操作(稱作基因型)進(jìn)行優(yōu)化。一般而言,表型包括神經(jīng)架構(gòu)及其權(quán)重,然而現(xiàn)在的間接編碼方法通常僅生成使用一小組基因型參數(shù)的預(yù)定義架構(gòu)的權(quán)重。
在深度強(qiáng)化學(xué)習(xí)流行之前,神經(jīng)進(jìn)化文獻(xiàn)中的間接編碼方法對于最終會用到深度強(qiáng)化學(xué)習(xí)解決方案的問題類型而言,是一種有前景的方法。早期的研究表明,對于基于視覺的強(qiáng)化問題,大型神經(jīng)網(wǎng)絡(luò)可以被編碼成更小得多的基因型解決方案,它們能夠玩像素級的Atari游戲(2012年仍被認(rèn)為具有挑戰(zhàn)性)或直接基于像素輸入玩賽車游戲,這都表明了間接編碼的潛在能力。
甚至在深度學(xué)習(xí)和卷積網(wǎng)絡(luò)在2012年開始受到重視之前,間接編碼就已經(jīng)能夠讓神經(jīng)網(wǎng)絡(luò)控制器玩具有結(jié)構(gòu)性規(guī)則的棋盤游戲,如跳棋和圍棋。
通過對具有少量參數(shù)的大型模型的權(quán)值進(jìn)行編碼,可以大大減少解的搜索空間,但隨之付出的代價是將的解限制在由直接編碼方法提供的所有可能解的一個小的子空間內(nèi)。
這一限制自然而然地將一個決定智能體擅長什么以及取決于直接編碼方法選擇的歸納偏置合并到智能體中。例如,HyperNEAT 在機(jī)器人步態(tài)控制方面取得了成功,這表明CPPNs4 能夠有效地表征適于移動的模塊化和對稱性。但是,是否有更適合基于視覺的強(qiáng)化學(xué)習(xí)任務(wù)的間接編碼方法呢?
在這項(xiàng)工作中,研究者發(fā)現(xiàn)自注意力可以被視為一種間接編碼的形式,這使得他們能夠構(gòu)建高參數(shù)效率的智能體。他們研究了這些智能體在基于視覺的強(qiáng)化學(xué)習(xí)任務(wù)中的性能和泛化特性。
Transformer 模型成功地應(yīng)用于自然語言處理和視覺等領(lǐng)域,讓自注意力流行起來。自注意力提供了一個簡單而強(qiáng)大的方法:僅使用 O(d) 個參數(shù)值就能參數(shù)化一個大小為 O(n2)的大型權(quán)重矩陣,其中n表示可視輸入的大小,d表示某些轉(zhuǎn)換空間的維數(shù),并且 n>> d。
此外,這種參數(shù)化強(qiáng)制使用歸納偏倚,從而讓智能體只關(guān)注其可視輸入的一小部分,因此,自然會使智能體更具解釋性。
作者們會在下文中逐漸展示出,神經(jīng)進(jìn)化是訓(xùn)練自我注意力智能體的理想方法,因?yàn)檫@樣做不僅可以減少基于梯度的方法帶來的高復(fù)雜性,而且還可以在模型中集成一些能提高自我注意力的效果但卻不可微的模塊。最終得到的模型只需要傳統(tǒng)方法的千分之一的參數(shù)數(shù)量就可以在有挑戰(zhàn)性的視覺任務(wù)中得到更好的表現(xiàn),而且在經(jīng)過修改的環(huán)境中也有明顯更好的泛化性。
這項(xiàng)研究的總目標(biāo)是向大家介紹自我注意力,讓大家知道神經(jīng)進(jìn)化的整個工具箱里還有這么一件非常強(qiáng)力的工具。作者們希望他們的結(jié)果可以鼓勵更多研究人員參與到神經(jīng)進(jìn)化、自我注意力的研究中來,以及讓大家重新意識到非直接編碼的妙處。
非直接編碼是這樣一種方法,它用一組“基因型參數(shù)”來表示神經(jīng)網(wǎng)絡(luò)的權(quán)重(“表現(xiàn)型”)?;蛐蛥?shù)可以通過它的編碼算法控制更大的解空間。比如HyperNEAT就可以通過一種基于坐標(biāo)的CPPN-NEAT網(wǎng)絡(luò)對很大的神經(jīng)網(wǎng)絡(luò)進(jìn)行編碼,而Compressed Network Search可以使用離散余弦變換把一個很大的權(quán)值矩陣中的權(quán)重壓縮到一組很小的DCT等效系數(shù)中,就像JPEG格式的圖片壓縮一樣。
不過,畢竟有壓縮,非直接編碼方法能產(chǎn)生的權(quán)重組合只是整個權(quán)重空間中的很小的一部分。這種解空間的限制帶來的結(jié)果就是,非直接編碼不可避免地讓表現(xiàn)型帶有了一定的歸納偏倚。這種偏倚天然地決定了產(chǎn)生的網(wǎng)絡(luò)能適合執(zhí)行哪些任務(wù),也就是理論上來說它適合執(zhí)行的任務(wù)只會是不帶有偏倚的網(wǎng)絡(luò)的一部分。
更近期的一些研究中提出了新的方法增加非直接編碼適合的任務(wù)范圍。ES-HyperNEAT 提出,可以讓非直接編碼算法本身的一部分向任務(wù)環(huán)境適應(yīng);Hypernetworks 提出可以讓表現(xiàn)型直接由輸入決定。沿著這條“讓輸入信息成為權(quán)重生成過程的一部分”的路線,許多研究都表明,只要權(quán)重可以向當(dāng)前面對的任務(wù)適應(yīng),它的表現(xiàn)型就可以有很強(qiáng)的表達(dá)能力;而這是老式的靜態(tài)非直接編碼方式無法做到的。
類似地,自我注意力也在注意力權(quán)重矩陣上增加了額外的結(jié)構(gòu),讓它能夠隨著輸入變化而變化。實(shí)驗(yàn)表明,這種額外增加的、和輸入相關(guān)的結(jié)構(gòu)可以幫助智能體學(xué)習(xí)不直接相關(guān)的項(xiàng)目之間的關(guān)系,從而提高它在相關(guān)的任務(wù)中的表現(xiàn)。
作者們通過實(shí)驗(yàn)發(fā)現(xiàn),通過這種注意力矩陣得到的特征對于執(zhí)行下游任務(wù)的決策器+控制器尤其有幫助,即便限制控制器的大小,讓它只含有2500個參數(shù),只要借助自我注意力產(chǎn)生的信息,它仍然可以應(yīng)對有挑戰(zhàn)性的基于視覺的任務(wù)。
作者們從“非注意盲視”(inattentive blindness)的概念里獲得啟發(fā),設(shè)計了基于自我注意力的新型智能體。這個概念來自于人類,當(dāng)人類大腦花費(fèi)精力處理任務(wù)的時候,它會把大部分注意力都花在只和當(dāng)前任務(wù)相關(guān)的元素上,暫時對其他的信號視而不見。這個智能體也是一樣,作者們設(shè)計它,讓它只注意輸入圖像中對任務(wù)非常關(guān)鍵的區(qū)域,然后忽略所有別的區(qū)域。
這個自我注意力智能體的結(jié)構(gòu)示意圖如下
它的信息處理過程分四步:
輸入轉(zhuǎn)換。給定一張觀察到的圖像,智能體首先把圖像大小縮放為LxL,然后把圖像分割為N個小塊,每一個小塊都有機(jī)會在后續(xù)的流程里被注意到
通過自我注意力進(jìn)行重要性投票。為了確定哪些小塊是合適的,智能體會把所有小塊都輸入到一個自我注意力模塊,從每個小塊上都獲得一個表示了它的重要性的向量,然后從中選出K個重要性最高的小塊
小塊選擇以及特征提取。用一個帶有任務(wù)知識的f(k)處理這K個小塊,從每個小塊中分別提取相關(guān)的特征;f(k)可以是學(xué)習(xí)到的模塊或者預(yù)定義的函數(shù)
控制器。智能體把這些特征輸入到控制器中,控制器會輸出動作,在環(huán)境中執(zhí)行
由于這個信息處理過程中非常重要的排序和圖像小塊剪切步驟都是不含有梯度的,所以想要訓(xùn)練這個模型的話沒辦法直接使用基于梯度的反向傳播方法。進(jìn)一步地,如果限制只在模型中使用基于梯度的模型,也會讓模型里沒辦法繼續(xù)使用剛才提到的帶有任務(wù)知識的 f(k) 特征提取器,因?yàn)?f(k) 中可以含有離散的操作,或者需要處理離散的特征。
所以作者們轉(zhuǎn)而使用演化算法來訓(xùn)練智能體。實(shí)際上作者之一的 David Ha 自己本來就喜歡且擅長使用進(jìn)化算法,我們也曾編譯他的關(guān)于演化算法的博客(進(jìn)化策略入門:最優(yōu)化問題的另一種視角,多圖見證模擬機(jī)器人的逆天成長:論進(jìn)化策略在強(qiáng)化學(xué)習(xí)中的應(yīng)用)。最終作者們具體選定的算法是 CMA-ES,用它訓(xùn)練出的模型有較為穩(wěn)定的表現(xiàn)。
作為一種改進(jìn)的演化算法,CMA-ES 可以根據(jù)當(dāng)前世代的模型與環(huán)境的適應(yīng)程度自動地調(diào)節(jié)下一個世代的搜索空間大小。詳細(xì)來說,CMA-ES 不僅會控制世代內(nèi)的均值 μ 和標(biāo)準(zhǔn)差σ,而且還會計算參數(shù)空間的整個協(xié)方差矩陣。這個協(xié)方差矩陣的主要作用是,可以借助它增大搜索空間的變化,加強(qiáng)探索過程,或者當(dāng)計算出的適應(yīng)程度表明已經(jīng)接近最優(yōu)解的時候,減小變化,向最優(yōu)解精細(xì)調(diào)節(jié)。不過這整個協(xié)方差矩陣的計算并不簡單,所以高維空間的任務(wù)很少會選用CMA-ES,但這次的任務(wù)偏偏是基于視覺這種高維輸入的。好在作者們設(shè)計的智能體中含有的參數(shù)比傳統(tǒng)方法要少很多,他們才能夠使用現(xiàn)成的CMA-ES實(shí)現(xiàn)來訓(xùn)練智能體。
在CarRacing和DoomTakeCover環(huán)境中的對比測試表明,這個自監(jiān)督智能體的表現(xiàn)已經(jīng)超過了所有現(xiàn)有方法(雖然相比World Model的優(yōu)勢不明顯),獲得了新的最好成績;而同時,它的參數(shù)要比以往的方法少兩三個數(shù)量級。
除此之外,它使用的基于圖像小塊的視覺處理方法也讓人類可以更容易地理解它的決策方式。在以下的實(shí)驗(yàn)畫面中,智能體的自我注意力模塊認(rèn)為前 k 個最重要的圖像小塊會加亮顯示(越白就越重要)。
通過對智能體注意力關(guān)注部分的可視化,可以看到它注意的部分也和人類的直覺有相符之處。比如在CarRacing賽車游戲中,智能體的注意力關(guān)注的是賽道的邊緣,而當(dāng)遇到彎道的時候,它在開始轉(zhuǎn)彎之前就會開始注意彎道的部分。另外可以看到,由于跑道是環(huán)形封閉、小車是按逆時針方向行駛的,所以它的注意力多數(shù)都分給了賽道的左側(cè)。
而在DoomTakeCover環(huán)境中,智能體能注意到飛來的火球,而且當(dāng)它的位置靠近墻角的時候,它也能注意到墻壁并調(diào)整自己的躲避策略。而且可以看到,智能體還會用一部分注意力關(guān)注屏幕底部的狀態(tài)欄,尤其會關(guān)注中間的頭像。作者們猜測這是因?yàn)橹悄荏w會把這里作為定位點(diǎn),用來估計它自己和火球之間的距離。
作者們還注意到,所有測試的方法在這個環(huán)境中的得分都有大幅波動。作者們認(rèn)為這可能和游戲本身的設(shè)計有關(guān),有一些火球沒有出現(xiàn)在智能體的視野里,但確實(shí)在逼近,然后會擊中智能體。
通過這一組基礎(chǔ)的測試,作者們已經(jīng)能夠回答一組基本問題:這個智能體能解決有挑戰(zhàn)性的基于視覺的強(qiáng)化學(xué)習(xí)問題嗎?它相比于其他的方法有什么優(yōu)點(diǎn)?答案是它不僅能很好地解決,而且它還有更好的可解釋性,需要的參數(shù)也少很多。
這些智能體能在沒見過的環(huán)境中泛化嗎?
為了測試這些智能體的魯棒性以及泛化到全新狀態(tài)的能力,作者們修改了CarRacing和DoomTakeCover這兩個環(huán)境,然后讓不經(jīng)過重新訓(xùn)練、不經(jīng)過精細(xì)調(diào)節(jié)的預(yù)訓(xùn)練模型直接在其中運(yùn)行。
作者們在下面的實(shí)驗(yàn)中做了許多種不同的修改,不過作者們使用的修改方式都遵守一條規(guī)則:這些修改不改變?nèi)蝿?wù)中的關(guān)鍵任務(wù)、關(guān)鍵信息損失。他們嘗試的修改有下面幾種:
色彩干擾:作者們隨機(jī)地把CarRacing環(huán)境中跑道和草地的顏色做一些偏移,但在每場比賽中顏色保持固定。原始環(huán)境中自我注意力智能體得分為914±15,增加變化后為898±56;同樣在增加變化后的環(huán)境中,作為基準(zhǔn)模型對比的World Model得分為851±130、GA得分為160±304、PPO得分為730±338。
幀遮擋:作者們在屏幕的的兩側(cè)增加了兩個黑色長條,遮擋了一部分畫面。原始的窗口大小為800x1000像素,兩個遮擋的黑色長條寬度為75像素。原始環(huán)境中自我注意力智能體得分為914±15,增加變化后為900±35;同樣在增加變化后的環(huán)境中,作為基準(zhǔn)模型對比的World Model得分為166±137、GA得分為675±254、PPO得分為615±217。
額外色塊:作者們讓一個紅色的色塊顯示在小車的固定方位。為了避免色塊遮擋跑道,作者們讓色塊在右邊顯示。原始環(huán)境中自我注意力智能體得分為914±15,增加變化后為898±53;同樣在增加變化后的環(huán)境中,作為基準(zhǔn)模型對比的World Model得分為446±299、GA得分為833±135、PPO得分為855±172。
增加墻的高度:在DoomTakeCover環(huán)境中,作者們把圍墻加高,其他的設(shè)置都保持不變。原始環(huán)境中自我注意力智能體得分為1125±589,增加變化后為934±560;作為基準(zhǔn)模型對比的World Model得分為243±104。
改變地面的紋理:把地板從灰色紋理變成棕色紋理,其它設(shè)置保持不變。原始環(huán)境中自我注意力智能體得分為1125±589,增加變化后為1120±613;作為基準(zhǔn)模型對比的World Model得分為218±69。
懸浮文字:在屏幕上方顯示一個有文字的藍(lán)色氣泡。把文字放在氣泡里是為了避免文字影響對任務(wù)重要的信息。原始環(huán)境中自我注意力智能體得分為1125±589,增加變化后為1035±627;作為基準(zhǔn)模型對比的World Model得分為240±63。
經(jīng)過這些測試,已經(jīng)能可以看出自我注意力智能體的泛化能力如何了,給環(huán)境增加變化以后,智能體的表現(xiàn)只有很小的變化。對比的幾個基準(zhǔn)模型明顯受到視覺干擾的影響,而這個智能體只關(guān)注對任務(wù)起到關(guān)鍵作用的位置,而且只通過自我注意力獲取視覺輸入中的一些小片段,所以就可以在有變化的環(huán)境中依然保持不錯的表現(xiàn)。自我注意力的設(shè)計相當(dāng)于讓它忽略掉它認(rèn)為不重要的視覺輸入,所以,即便環(huán)境、環(huán)境中不重要的部件發(fā)生了變化,它的表現(xiàn)也可以不受影響。
相比之下,World Model的控制器使用的抽象表征,本來主要是為了重建輸入圖像的,而且也不帶有多少正則化,所以它學(xué)習(xí)到的表征中除了對任務(wù)關(guān)鍵的信息以外還含有別的額外信息,當(dāng)環(huán)境變化、這些信息跟著變化以后,就會對控制器形成誤導(dǎo)。GA和PPO的泛化能力就要比World Model好一些,它們有端到端學(xué)習(xí)、無監(jiān)督表征學(xué)習(xí)、隨機(jī)策略的數(shù)據(jù)收集,所以可以學(xué)到更好的針對任務(wù)的表征;而且GA和PPO都還可以精細(xì)調(diào)節(jié)全連接層,給重要區(qū)域增大權(quán)重。
雖然在剛才的實(shí)驗(yàn)中展示了這個模型可以應(yīng)對一些突如其來的環(huán)境修改,但這個方法仍然有不少局限性,未來還需要做更多工作來進(jìn)一步提高智能體的泛化性。下面說明一些這個方法的局限性。
這個方法新獲得的泛化性主要來自于能關(guān)注到正確的東西,而不是來自于邏輯推理。比如如果在賽車環(huán)境中再增加一條并排的跑道,智能體就會跑到另一條跑道上去,甚至?xí)捶较蜷_。
另外,當(dāng)背景畫面有很大變化的時候模型也會失效,比如把綠色的草地背景換成YouTube上找到的視頻(貓貓和街頭霸王游戲畫面)之后就只有很糟糕的表現(xiàn)了。
甚至于,如果把草地背景換成純粹的噪聲的話,可以看到,模型的注意力模塊就完全失效了,注意到的全都是噪聲中的小塊。
作者們嘗試了在這樣的噪聲環(huán)境里從零開始訓(xùn)練智能體,這樣一來智能體確實(shí)能學(xué)會如何在這樣的環(huán)境里正常駕駛賽車了。不過很有趣的是,自我注意力模塊仍然只關(guān)注噪聲中的小塊,控制器似乎學(xué)會了一種新的策略,就是要避開這些關(guān)注到的地方;與之印證的是,當(dāng)作者們增加注意力模塊注意的小塊數(shù)量的時候,隨著數(shù)量增加,模型躲開這些地方的效果也更好了。
這些結(jié)果表明,雖然當(dāng)前的方法就能適應(yīng)環(huán)境中的不大的變化,但想要適應(yīng)大的變化、達(dá)到人類水平的泛化能力還需要做很多后續(xù)的工作。而且,這項(xiàng)研究中的設(shè)計是只使用圖像中關(guān)注的小塊的位置、不使用這些小塊的內(nèi)容,這種設(shè)計可能也并不怎么適合更復(fù)雜的任務(wù)。在后續(xù)研究中,如何學(xué)習(xí)更有意義的特征、甚至如何從視覺輸入中提取出抽象的符號信息,都是有意義的研究方向。
這篇論文展示了,把自我注意力作為強(qiáng)化學(xué)習(xí)智能體中的一個模塊可以發(fā)揮出很好的效果,可以讓智能體解決具有挑戰(zhàn)性的基于視覺的任務(wù)。作者們設(shè)計的智能體可以在CarRacing和DoomTakeCover環(huán)境中得到不錯的表現(xiàn),而且它的參數(shù)要比傳統(tǒng)方法少很多,在像素空間也具有很好的解釋性。用神經(jīng)進(jìn)化的方法訓(xùn)練之后,智能體學(xué)會了把它的大多數(shù)注意力都用來判斷任務(wù)中很關(guān)鍵的視覺線索,從而它也能夠泛化到修改過不重要的視覺元素的環(huán)境中;傳統(tǒng)方法在這種修改過的環(huán)境中表現(xiàn)會下降很多。
不過必須說明的是,這個智能體的泛化能力相比人類而言還是很有限的。實(shí)驗(yàn)中展示的對環(huán)境的修改是針對基于注意力的方法設(shè)計的,具體來說,作者們沒有修改模型主要關(guān)注的物體的屬性,如果修改的話這個模型的表現(xiàn)也會很差,甚至可能和不使用像素空間注意力的方法一樣差甚至更差。作者們認(rèn)為這項(xiàng)研究是對其他一些研究強(qiáng)化學(xué)習(xí)泛化性問題的論文的補(bǔ)充,他們在未來的后續(xù)研究中也會繼續(xù)研究如何提高模型的泛化性。
在訓(xùn)練智慧智能體時,神經(jīng)進(jìn)化是一類效果非常好的方法,但它在強(qiáng)化學(xué)習(xí)中的使用很有限,這是因?yàn)橹钡浇谌藗儾排逅鼘Υ笠?guī)模深度模型的作用如何。在這項(xiàng)研究中,作者們發(fā)現(xiàn)用神經(jīng)進(jìn)化方法訓(xùn)練帶有自我注意力的智能體非常理想,相比于基于梯度的方法,神經(jīng)進(jìn)化方法可以去掉很多不需要的復(fù)雜度,從而得到小得多的模型。除此之外,神經(jīng)進(jìn)化訓(xùn)練出的模型中還可以含有帶有離散計算、不可微分計算的模塊,這些模塊也可以對模型的表現(xiàn)有幫助。正因?yàn)樯窠?jīng)進(jìn)化可以訓(xùn)練出又小又優(yōu)秀的模型,作者們也很期待看到這類模型能否改變目前的文獻(xiàn)中基于視覺的任務(wù)基本被深度強(qiáng)化學(xué)習(xí)模型稱霸的狀況。
在這項(xiàng)研究中,作者們也找到了非直接編碼和自我注意力之間的聯(lián)系。具體來說,作者們展示了自我注意力可以看作一種非直接編碼。那么自然地,未來研究的另一個有趣方向就是繼續(xù)探索其他形式的非直接編碼瓶頸,看它們搭配神經(jīng)進(jìn)化使用以后能否帶來參數(shù)高效的、具備一些固有行為的強(qiáng)化學(xué)習(xí)智能體。
Neuroevolution of Self-Interpretable Agents
地址:https://arxiv.org/abs/2003.08165
摘要:非注意盲視(Inattentional Blindness)是一種讓人忽略掉眼前的一些東西的心理現(xiàn)象。這是知覺中的選擇性注意力造成的,它讓人能夠保持專注于世界中的某個重要的部分,而不受到其他無關(guān)細(xì)節(jié)的干擾。
谷歌研究者們受選擇性注意力的啟發(fā),研究了人工智能體通過自注意力瓶頸視角來感知世界的屬性。他們通過限制智能體僅能看到視覺輸入的一小部分,發(fā)現(xiàn)智能體的策略可以直接到像素空間中得到解釋。他們還發(fā)現(xiàn),神經(jīng)進(jìn)化方法是訓(xùn)練基于視覺的強(qiáng)化學(xué)習(xí)任務(wù)的自注意力架構(gòu)的理想方法,允許合并包括對于智能體有用的離散、不可微的操作在內(nèi)的模塊。
研究者們認(rèn)為,自注意力與間接編碼具有相似的屬性,即大的隱式權(quán)重矩陣由少量關(guān)鍵查詢參數(shù)生成,從而讓智能體能夠使用比現(xiàn)存的其他方法至少少1000倍的參數(shù)來解決具有挑戰(zhàn)性的基于視覺的任務(wù)。由于智能體只專注于關(guān)鍵任務(wù)的視覺提示,它們能夠泛化到在傳統(tǒng)方法失敗后對與任務(wù)無關(guān)的因素進(jìn)行了修改的環(huán)境中。
博客地址:
https://attentionagent.github.io/
雷鋒網(wǎng) AI 科技評論編譯
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。