0
本文作者: camel | 2020-02-12 15:15 |
雷鋒網(wǎng)AI科技評(píng)論按:DeepMind最近提出一種新的長(zhǎng)程記憶模型——Compressive Transformer(壓縮Transformer),這種模型基于Transformer模型做了調(diào)整,通過增添壓縮記憶模塊,有效增加了模型的記憶長(zhǎng)度。
而另一方面,為了提升對(duì)基于長(zhǎng)程記憶的推理問題的研究,DeepMind的研究人員也開發(fā)了一個(gè)書籍級(jí)別的語言數(shù)據(jù)集PG-19。這個(gè)新的基準(zhǔn)是目前已有的長(zhǎng)時(shí)記憶基準(zhǔn)的兩倍還多,包含的上下文文本是長(zhǎng)程語言模型基準(zhǔn)測(cè)試WikiText-103的10倍以上。
論文鏈接:https://arxiv.org/pdf/1911.05507.pdf
PG-19開源鏈接:https://github.com/deepmind/pg19
在過去二十年的時(shí)間里,人工神經(jīng)網(wǎng)絡(luò)在記憶這一方面有了長(zhǎng)足的進(jìn)展。
被稱為長(zhǎng)短時(shí)記憶(Long Short-Term-Memory,LSTM)的遞歸神經(jīng)網(wǎng)絡(luò)(RNN)是目前最早、應(yīng)用最為廣泛的記憶結(jié)構(gòu)之一。LSTM以數(shù)字向量的形式維護(hù)一個(gè)緊湊的內(nèi)存,通過門控讀、寫和遺忘操作來訪問和修改這個(gè)內(nèi)存。它最初是在一套綜合任務(wù)上開發(fā)的,包括學(xué)習(xí)一串bit的邏輯操作。不過現(xiàn)在它已經(jīng)被廣泛應(yīng)用在所有的序列數(shù)據(jù)模型當(dāng)中了。
LSTM,以及許多現(xiàn)在所使用的RNNs,存在一個(gè)巨大的缺點(diǎn),就是容量問題。最初設(shè)計(jì)這些結(jié)構(gòu)的目的是為了,使每個(gè)單元的內(nèi)存都可以影響其他單元,并且具有科學(xué)系的權(quán)重。但這導(dǎo)致系統(tǒng)的計(jì)算效率非常低下,模型中可學(xué)習(xí)參數(shù)的數(shù)量會(huì)隨內(nèi)存大小的增加呈平方地增加,例如內(nèi)存64KB的LSTM,會(huì)產(chǎn)生8GB的參數(shù)。
如何繞過這一記憶容量瓶頸,成為一個(gè)嚴(yán)峻的問題。
DeepMind的研究人員曾提出過一種新的架構(gòu),可微分神經(jīng)計(jì)算機(jī)(DNC),它用更大的內(nèi)存矩陣來擴(kuò)充LSTM,以此來解決這些缺陷。
在我們看東西時(shí),我們的眼睛會(huì)聚焦于視覺場(chǎng)景中的相關(guān)物體。例如,你可能會(huì)花更多的時(shí)間注意朋友的面部表情,而不是注意他們的鞋子。
DNC采用了類似的方法,使用一個(gè)「注意力操作」從這個(gè)內(nèi)存矩陣中讀取數(shù)據(jù)。
在DNC中,內(nèi)存模型可以處理過去的特定事件/數(shù)據(jù)。這種注意力操作需要固定數(shù)量的參數(shù),而與內(nèi)存大小無關(guān),因此可以顯著提高模型的內(nèi)存容量。
隨著 DNC的開發(fā),帶有附加注意力機(jī)制的遞歸神經(jīng)網(wǎng)絡(luò)在翻譯和問題回答領(lǐng)域顯示出了巨大的潛力。這些模型能夠使用兩種內(nèi)存結(jié)構(gòu)進(jìn)行推理,一種是小型且緊湊的LSTM內(nèi)存,一種是大型的外部?jī)?nèi)存。
不過,最近谷歌Google Brain 的研究人員提出了一種Transformer模型,它可以去除掉 LSTM,只利用注意力來傳輸信息。
Transformer 最初是應(yīng)用在機(jī)器翻譯任務(wù)上,性能明顯優(yōu)于遞歸神經(jīng)網(wǎng)絡(luò)。
隨后Transformer被廣泛應(yīng)用到NLP的的其他任務(wù)當(dāng)中,例如問答、文本摘要、情感分析等。過去一年,因?yàn)門ransformer,這些方面取得了巨大的進(jìn)步。
但這些模型仍然存在一個(gè)缺點(diǎn),即它們會(huì)把所有的信息都存儲(chǔ)起來,這樣在每一個(gè)時(shí)間步上所消耗的計(jì)算成本和存儲(chǔ)成本都非常大。
我們的大腦顯然不是這樣做的,我們不會(huì)像攝像機(jī)那樣,把我們一生當(dāng)中接收到的所有信息存儲(chǔ)起來。而是會(huì)根據(jù)相關(guān)性、驚喜度、危險(xiǎn)性、重復(fù)次數(shù)等因素來選擇、過濾、整合所有的輸入刺激。換句話說,我們會(huì)把一生的經(jīng)歷壓縮成一組亮點(diǎn)記憶,幫助我們來理解過去,以及更好地預(yù)測(cè)未來。
這就是如何壓縮的問題。
之前有一些工作通過稀疏訪問機(jī)制來嘗試壓縮注意力中的計(jì)算消耗。但稀疏注意力方法并不能解決存儲(chǔ)問題,而且通常需要定制的稀疏核才能有效地實(shí)現(xiàn)。
據(jù)雷鋒網(wǎng)AI科技評(píng)論了解,DeepMind為此提出了 Compressive Transformer模型(壓縮 Transformer)。
簡(jiǎn)單來說,這是Transformer的一個(gè)簡(jiǎn)單變種,將過去隱藏激活(past hidden activations ,記憶)映射到一個(gè)更小的壓縮表示集(壓縮記憶)中。在記憶和壓縮記憶上,壓縮Transformer會(huì)使用相同的注意力機(jī)制,來學(xué)習(xí)查詢它的短期顆粒記憶和長(zhǎng)期粗記憶。
壓縮Transformer保持對(duì)過去激活的細(xì)粒度記憶,然后將其壓縮為更粗的壓縮記憶。上面的模型有三層,一個(gè)序列長(zhǎng)度ns = 3,記憶大小nm = 6,壓縮記憶大小ncm = 6。高亮顯示的記憶被壓縮,每層使用壓縮函數(shù)fc將其壓縮到單個(gè)壓縮記憶中,而不是在下一個(gè)序列中丟棄。在本例中,壓縮率c = 3。
據(jù)作者 Jack Rae介紹,這個(gè)模型的靈感來源是,睡眠能夠鞏固我們的情景記憶。眾所周知,睡眠有助于記憶,原因是人們?cè)谒X過程中能夠?qū)⑿褧r(shí)的記憶進(jìn)行壓縮和鞏固,從而提高記憶力。
我們知道谷歌提出的TransformerXL模型,為了進(jìn)行長(zhǎng)時(shí)推理,會(huì)對(duì)過去激活記憶進(jìn)行保持。但是當(dāng)過去激活足夠“老”(由內(nèi)存大小決定)時(shí),TranformerXL就會(huì)將這些記憶給丟棄掉。
與之不同的是壓縮Transformer并不將它們丟棄,而是通過一個(gè)壓縮函數(shù)進(jìn)行壓縮,并存儲(chǔ)在一個(gè)額外的壓縮記憶(壓縮內(nèi)存)中。這個(gè)壓縮函數(shù)能夠?qū)W習(xí)并過濾掉不相關(guān)的記憶,使一些較為重要的信息保留更長(zhǎng)一段時(shí)間。這種方式,相比于TransformerXL模型,顯然能夠保留更長(zhǎng)時(shí)間的記憶,對(duì)長(zhǎng)時(shí)推理任務(wù)將大有裨益。
據(jù)作者介紹,這個(gè)模型具有較大的普適性,不僅可以用于語言序列,還能夠用于建模高頻語音波形,也可以充當(dāng)增強(qiáng)學(xué)習(xí)agent、IMPALA等的記憶組件(顯然可以壓縮和利用過去的觀察加過)。
為了進(jìn)一步驗(yàn)證壓縮Transformer在長(zhǎng)時(shí)推理方面的強(qiáng)大功能,作者基于從古騰堡計(jì)劃的文本,提出了一個(gè)新的書籍級(jí)語言建?;鶞?zhǔn)PG-19,來進(jìn)一步促進(jìn)長(zhǎng)上下文序列建模(long-context sequence modelling)的研究。值得一提的是,這個(gè)新的基準(zhǔn)是目前已有的長(zhǎng)時(shí)記憶基準(zhǔn)的兩倍還多,包含的上下文文本是長(zhǎng)程語言模型基準(zhǔn)測(cè)試WikiText-103的10倍以上。
書籍為長(zhǎng)期記憶模型的發(fā)展提供了豐富的背景。作者從大約28,000本古騰堡計(jì)劃中1919年以前(也即100年前,避免版權(quán)問題)出版的書中選擇了一個(gè)子集。與以前的語言建模數(shù)據(jù)集不同,作者很少對(duì)文本應(yīng)用預(yù)處理。舉例來說,他們不會(huì)限制數(shù)據(jù)的詞匯量或?qū)彶閿?shù)字,以避免過濾有用的信息。
數(shù)據(jù)集包含了28752本書,共約 11GB。
其中,28602本用作訓(xùn)練集,50本作為有效集,100本作為測(cè)試集:
DeepMind隨后將壓縮Transformer與TransformerXL在最新的PG-19書籍?dāng)?shù)據(jù)集上進(jìn)行了基準(zhǔn)測(cè)試,具體設(shè)置可以參看論文原文。結(jié)果如下圖所示:
可以看到,壓縮Transformer的測(cè)試?yán)Щ蠖葹?3.6,TransformerXL的為36.3。盡管數(shù)據(jù)集很大,但顯然這仍然是一個(gè)具有挑戰(zhàn)性的領(lǐng)域,而這個(gè)測(cè)試結(jié)果可以作為這個(gè)長(zhǎng)程語言建?;鶞?zhǔn)的第一個(gè)基線。
如果想要?jiǎng)?chuàng)建一個(gè)操作時(shí)間超過幾天、幾周甚至幾年的agent,在每個(gè)步驟中對(duì)所有原始輸入數(shù)據(jù)都進(jìn)行計(jì)算顯然是不切實(shí)際的。
即使在當(dāng)前計(jì)算能力持續(xù)增長(zhǎng)的情況下,我們?nèi)匀恍枰_發(fā)壓縮和稀疏的記憶架構(gòu)來構(gòu)建操作的表示和推理。
可以期待的是,能夠捕捉到以日、月、年為單位的相關(guān)性的模型,即將問世。而這需要我們有相應(yīng)的任務(wù)和數(shù)據(jù)集來評(píng)判長(zhǎng)時(shí)任務(wù)。PG-19顯然是朝向這個(gè)方向邁進(jìn)的一步,因?yàn)椤敢徽緯挂呀?jīng)是人類通常使用的最長(zhǎng)文本形式。
而選擇性注意力,和其他更有效的壓縮機(jī)制,顯然也將極大地促進(jìn)更加強(qiáng)大的推理研究。
雷鋒網(wǎng)報(bào)道。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。