0
本文作者: 我在思考中 | 2022-04-27 10:29 |
編譯 | OGAI
自監(jiān)督學(xué)習(xí)旨在消除表示學(xué)習(xí)對(duì)人工標(biāo)注的需求,我們希望自監(jiān)督學(xué)習(xí)利用自然場(chǎng)景下的數(shù)據(jù)學(xué)習(xí)表征,即不需要有限的和靜態(tài)的數(shù)據(jù)集。真正的自監(jiān)督算法應(yīng)該能夠利用互聯(lián)網(wǎng)上產(chǎn)生的連續(xù)數(shù)據(jù)流,或者利用智能體在探索其環(huán)境時(shí)產(chǎn)生的數(shù)據(jù)流。
但是傳統(tǒng)的自監(jiān)督學(xué)習(xí)方法在這種情況下有效嗎?在本文中,我們通過(guò)實(shí)驗(yàn)對(duì)「連續(xù)自監(jiān)督學(xué)習(xí)」問(wèn)題展開(kāi)了研究。在自然場(chǎng)景下學(xué)習(xí)時(shí),我們希望使用連續(xù)(無(wú)限)的非獨(dú)立同分布數(shù)據(jù)流,它遵循視覺(jué)概念的非平穩(wěn)分布。我們的目標(biāo)是在不遺忘過(guò)去看到的概念的條件下,學(xué)習(xí)一種魯棒、自適應(yīng)的表征。
本文指出,直接將現(xiàn)有的方法應(yīng)用于這種連續(xù)學(xué)習(xí)的設(shè)定存在以下問(wèn)題:(1)計(jì)算效率低下、數(shù)據(jù)利用率低(2)在一些流數(shù)據(jù)源中,時(shí)間相關(guān)性(數(shù)據(jù)非獨(dú)立同分布)導(dǎo)致表征較差(3)在具有非平穩(wěn)數(shù)據(jù)分布的數(shù)據(jù)源上進(jìn)行訓(xùn)練時(shí),展現(xiàn)出災(zāi)難性遺忘的跡象。我們作者提出使用回放緩沖區(qū)(replay buffer)來(lái)緩解低效和時(shí)間相關(guān)性問(wèn)題。我們進(jìn)一步提出了一種新的方法,通過(guò)保留最少的冗余樣本來(lái)增強(qiáng)回放緩沖區(qū)。最小冗余(MinRed)緩沖區(qū)讓我們即使是在由單個(gè)具身智能體獲得的序列化視覺(jué)數(shù)據(jù)組成的最具挑戰(zhàn)性的流場(chǎng)景中,也可以學(xué)習(xí)到有效的表征,并緩解利用非平穩(wěn)語(yǔ)義分布的數(shù)據(jù)學(xué)習(xí)時(shí)的災(zāi)難性遺忘問(wèn)題。
計(jì)算機(jī)視覺(jué)領(lǐng)域正經(jīng)歷著從「監(jiān)督學(xué)習(xí)」到「自監(jiān)督學(xué)習(xí)」的范式轉(zhuǎn)換。在自監(jiān)督學(xué)習(xí)場(chǎng)景下,由于我們不再受制于手動(dòng)數(shù)據(jù)標(biāo)注的成本,可以釋放數(shù)據(jù)的真正潛能。近年來(lái),一些工作開(kāi)始將現(xiàn)有的方法拓展到包含超過(guò) 10 億張圖片的超大規(guī)模數(shù)據(jù)集上,從而希望學(xué)習(xí)到更好的表征。那么,我們是否準(zhǔn)備好在自然場(chǎng)景下部署自監(jiān)督學(xué)習(xí),從而利用無(wú)限的數(shù)據(jù)的全部潛力呢?
圖注:傳統(tǒng)自監(jiān)督學(xué)習(xí)與持續(xù)自監(jiān)督學(xué)習(xí)對(duì)比。傳統(tǒng)自監(jiān)督學(xué)習(xí)設(shè)定下,數(shù)據(jù)集是固定的。而自然場(chǎng)景下持續(xù)收集到的數(shù)據(jù)是無(wú)限、非獨(dú)立同分布、具有非平穩(wěn)語(yǔ)義的。因此,傳統(tǒng)設(shè)定很難作為自然場(chǎng)景下部署的自監(jiān)督學(xué)習(xí)的對(duì)比基準(zhǔn)。
盡管自監(jiān)督學(xué)習(xí)有望利用互聯(lián)網(wǎng)或機(jī)器人智能體生成的無(wú)限數(shù)據(jù)流,但當(dāng)下的自監(jiān)督學(xué)習(xí)方法仍然依賴于傳統(tǒng)的數(shù)據(jù)集設(shè)置。我們采用積累的圖像和視頻創(chuàng)建訓(xùn)練語(yǔ)料庫(kù),然后利用數(shù)百個(gè)經(jīng)過(guò)打亂的數(shù)據(jù)遍歷優(yōu)化模型。使用數(shù)據(jù)集的主要是為了復(fù)現(xiàn)基準(zhǔn)測(cè)試。然而,這種傳統(tǒng)的靜態(tài)學(xué)習(xí)設(shè)置適用于作為自監(jiān)督學(xué)習(xí)的基準(zhǔn)測(cè)試嗎?這種設(shè)置是否準(zhǔn)確地反映了在自然場(chǎng)景下部署的自監(jiān)督系統(tǒng)所面臨的挑戰(zhàn)?
答案是否定的。例如,考慮一個(gè)這樣的自監(jiān)督的系統(tǒng),它試圖學(xué)習(xí)網(wǎng)絡(luò)多年積累下來(lái)的汽車的表征。目前的實(shí)驗(yàn)設(shè)定只評(píng)估靜態(tài)學(xué)習(xí),而不評(píng)估模型在不忘記舊車型的情況下適應(yīng)新車型的表征的能力。此外,部署的機(jī)器人自監(jiān)督學(xué)習(xí)智能體主動(dòng)地從輸入的視頻中獲取幀數(shù)據(jù)。由于時(shí)間是連貫的,這些數(shù)據(jù)具有很強(qiáng)的結(jié)構(gòu)性和相關(guān)性。然而,由于現(xiàn)有的自監(jiān)督基準(zhǔn)測(cè)試依賴于通過(guò)隨機(jī)抽樣產(chǎn)生獨(dú)立同分布樣本的數(shù)據(jù)集,它們并沒(méi)有反映這一挑戰(zhàn)。
在本文中,我們超脫于數(shù)據(jù)驅(qū)動(dòng)的自監(jiān)督學(xué)習(xí),進(jìn)而研究現(xiàn)有的持續(xù)自監(jiān)督學(xué)習(xí)方法的性能。具體而言,我們探討了兩種部署的方法面臨的挑戰(zhàn):(1)基于互聯(lián)網(wǎng)的自監(jiān)督模型,依賴于持續(xù)獲得的圖像/視頻數(shù)據(jù);(2)基于智能體的自監(jiān)督系統(tǒng),直接根據(jù)智能體傳感器數(shù)據(jù)學(xué)習(xí)。以上兩種方式都依賴于持續(xù)生成新數(shù)據(jù)的流數(shù)據(jù)源,為自監(jiān)督學(xué)習(xí)基準(zhǔn)測(cè)試帶來(lái)了以下三個(gè)獨(dú)特的挑戰(zhàn):
(1)存儲(chǔ)無(wú)限數(shù)量的數(shù)據(jù)是不可行的。由于帶寬或傳感器速度的限制,在自然場(chǎng)景下獲取數(shù)據(jù)通常要耗費(fèi)一定時(shí)間。因此,我們不可能進(jìn)行逐 Epoch 的訓(xùn)練。傳統(tǒng)的自監(jiān)督學(xué)習(xí)方式每次使用一個(gè)樣本,學(xué)習(xí)器的效率較低,經(jīng)常需要等待可用的數(shù)據(jù),未充分利用處理的數(shù)據(jù)。一些研究人員依靠回放緩沖區(qū)從訓(xùn)練過(guò)程中解耦出數(shù)據(jù)采集工作。那么,在采集數(shù)據(jù)同時(shí)使表征持續(xù)提升的情況下,回放機(jī)制有多大的效果?
(2)不能「打亂」流數(shù)據(jù)源從而創(chuàng)建獨(dú)立同分布樣本的 mini-batch。相反,樣本的順序是由數(shù)據(jù)源本身決定的。訓(xùn)練數(shù)據(jù)不一定滿足獨(dú)立同分布要求,這對(duì)傳統(tǒng)的表示學(xué)習(xí)方法帶來(lái)了挑戰(zhàn)。那么,如何讓現(xiàn)有的自監(jiān)督方法,從而在各種非獨(dú)立同分布條件下學(xué)習(xí)到魯棒的表征?
(3)真實(shí)世界的數(shù)據(jù)是非平穩(wěn)的。例如,在世界杯期間,人們會(huì)看到更多與足球相關(guān)的圖片。此外,探索室內(nèi)環(huán)境的機(jī)器人會(huì)觀察到根據(jù)時(shí)間聚類的語(yǔ)義分布。智能的終身學(xué)習(xí)系統(tǒng)應(yīng)該能夠不斷地學(xué)習(xí)新概念,同時(shí)不忘記來(lái)自非平穩(wěn)數(shù)據(jù)分布的舊概念。然而,經(jīng)驗(yàn)表明,傳統(tǒng)的對(duì)比學(xué)習(xí)方法可以使表征對(duì)當(dāng)前的布過(guò)擬合,產(chǎn)生遺忘現(xiàn)象。那么,我們應(yīng)該如何設(shè)計(jì)可以在非平穩(wěn)條件下學(xué)習(xí)的自監(jiān)督學(xué)習(xí)方法?
本文的主要貢獻(xiàn)包括:確定了在持續(xù)自監(jiān)督學(xué)習(xí)設(shè)定下出現(xiàn)的三個(gè)關(guān)鍵挑戰(zhàn)——即訓(xùn)練效率、對(duì)非獨(dú)立同分布數(shù)據(jù)流的魯棒性和非平穩(wěn)語(yǔ)義分布下的學(xué)習(xí)。我們都構(gòu)建了針對(duì)性的數(shù)據(jù)流來(lái)模擬每項(xiàng)挑戰(zhàn),定量地展示了現(xiàn)有自監(jiān)督學(xué)習(xí)方法的缺點(diǎn),提出了這些問(wèn)題的初步解決方案。我們探索了緩沖自監(jiān)督學(xué)習(xí)(Buffered SSL)的思想,它用回放緩沖區(qū)來(lái)增強(qiáng)現(xiàn)有的方法,以提高訓(xùn)練效率。其次,我們通過(guò)去除存儲(chǔ)樣本的相關(guān)性,提出了一種新方法來(lái)處理非獨(dú)立同分布數(shù)據(jù)流。我們說(shuō)明了,在非平穩(wěn)數(shù)據(jù)分布下,去相關(guān)緩沖可以防止遺忘,并改善持續(xù)學(xué)習(xí)。
首先,無(wú)線數(shù)據(jù)流中的樣本無(wú)法重復(fù),我們使用回放緩沖區(qū)增強(qiáng)現(xiàn)有的自監(jiān)督學(xué)習(xí)方法,顯著緩解了該問(wèn)題。其次,持續(xù)從自然場(chǎng)景下收集的數(shù)據(jù)往往在時(shí)間上是相關(guān)的,不滿足優(yōu)化算法的獨(dú)立同分布假設(shè)。我們通過(guò)增強(qiáng)回放緩沖區(qū)來(lái)保留最低限度的冗余樣本(MinRed),從而生成相關(guān)性較低的數(shù)據(jù)。最后,在自然場(chǎng)景下收集到數(shù)據(jù)的于一分部是非平穩(wěn)的,模型可能會(huì)「遺忘」在過(guò)去的分布中看到的概念。MinRed 緩沖區(qū)可以通過(guò)從各種語(yǔ)義類中收集獨(dú)特的樣本緩解「遺忘」問(wèn)題。
現(xiàn)有的自監(jiān)督學(xué)習(xí)方法依賴于固定大小的數(shù)據(jù)集。這些數(shù)據(jù)集是有限、不可變、現(xiàn)成可用的。因此,我們可以對(duì)樣本進(jìn)行編號(hào)、打亂其順序,在訓(xùn)練的所有節(jié)點(diǎn)上都可以獲取樣本。傳統(tǒng)的自監(jiān)督學(xué)習(xí)通過(guò)在數(shù)據(jù)集上進(jìn)行多個(gè) Epoch 的訓(xùn)練來(lái)利用這些特性的優(yōu)勢(shì)。
相較之下,持續(xù)自監(jiān)督學(xué)習(xí)依賴于流數(shù)據(jù)源 S,即無(wú)標(biāo)簽傳感器數(shù)據(jù)的時(shí)間序列,該序列的長(zhǎng)度可能是無(wú)限的。在給定的任意時(shí)間點(diǎn) t 上,從流數(shù)據(jù)源 S 中抓取數(shù)據(jù)會(huì)產(chǎn)生當(dāng)前的樣本,此時(shí)無(wú)法獲取未來(lái)的樣本。只有在過(guò)去抓取時(shí)保存下來(lái)的樣本才能被再次訪問(wèn)。
在持續(xù)自監(jiān)督學(xué)習(xí)設(shè)定下,數(shù)據(jù)加載時(shí)間和執(zhí)行每個(gè)優(yōu)化步所需的時(shí)間之比是很重要的參數(shù)。在大多數(shù)情況下,由于數(shù)據(jù)架子速度較慢、傳感器幀率較低,即使使用并行化技術(shù),優(yōu)化算法仍然需要等待數(shù)據(jù)加載。因此,持續(xù)自監(jiān)督學(xué)習(xí)方法需要在使用流數(shù)據(jù)源中獲得的樣本進(jìn)行訓(xùn)練的情況下,高效、持續(xù)地構(gòu)建更好的表征。
持續(xù)自監(jiān)督學(xué)習(xí)有何優(yōu)勢(shì)?
擴(kuò)增獨(dú)特圖像的數(shù)量是否有助于表示學(xué)習(xí)?
為了理解增長(zhǎng)訓(xùn)練數(shù)據(jù)的規(guī)模的作用,我們?yōu)樗性?2008 年至 2021 年間上傳至圖片分享網(wǎng)站 Flickr.com 的帶有知識(shí)共享標(biāo)簽的圖像賦予編號(hào)。接著,我們使用該編號(hào)創(chuàng)建了各種規(guī)模的數(shù)據(jù)集,通過(guò)多倫傳統(tǒng)自監(jiān)督學(xué)習(xí)方法訓(xùn)練視覺(jué)表征。我們采用了代表性的對(duì)比學(xué)習(xí)方法 SimSiam,它通過(guò)優(yōu)化增強(qiáng)不變性損失來(lái)學(xué)習(xí)表征:
其中,和是對(duì)于圖像的兩種隨機(jī)變化,為模型輸出的表征,sg 為停止梯度,g 為預(yù)測(cè)頭。
圖注:使用 ResNet-18 主干網(wǎng)絡(luò)在不同規(guī)模的數(shù)據(jù)集上訓(xùn)練的 SimSiam 模型在 ImageNet 分類下游任務(wù)中的準(zhǔn)確率。
如上圖所示,使用更多元化的數(shù)據(jù)訓(xùn)練可以得到更好的表征,說(shuō)明擴(kuò)展獨(dú)特圖像的規(guī)模是有利的,而持續(xù)自監(jiān)督學(xué)習(xí)可以將這一特性發(fā)揮到極致。
在持續(xù)自監(jiān)督學(xué)習(xí)設(shè)定下學(xué)習(xí)表征帶來(lái)了一些傳統(tǒng)自監(jiān)督學(xué)習(xí)方法不存在挑戰(zhàn):
(1)多輪訓(xùn)練 vs 單趟訓(xùn)練。在使用流數(shù)據(jù)源時(shí),我們無(wú)法重新訪問(wèn)沒(méi)有儲(chǔ)存的過(guò)去獲得的樣本。流數(shù)據(jù)的長(zhǎng)度可能是無(wú)限的,將完整的流數(shù)據(jù)存儲(chǔ)下來(lái)并不可行,連續(xù)自監(jiān)督方法需要通過(guò)在樣本上「單趟」訓(xùn)練的方式學(xué)習(xí)表征。
(2)采樣效率。由于傳感器幀頻或帶寬的限制,在現(xiàn)實(shí)世界中從流數(shù)據(jù)源中采樣可能十分低效。由于優(yōu)化算法可能在等待數(shù)據(jù)時(shí)處于空閑狀態(tài),學(xué)習(xí)表征所需的時(shí)間會(huì)顯著增加。
(3)相關(guān)樣本。許多自然場(chǎng)景下的流數(shù)據(jù)源存在時(shí)間相關(guān)性。例如,來(lái)自在線視頻或機(jī)器人探索環(huán)境的連續(xù)幀會(huì)展現(xiàn)出微小的變化。這種相關(guān)性打破了傳統(tǒng)優(yōu)化算法所依賴的獨(dú)立同分布假設(shè)。
(4)終身學(xué)習(xí)。使用無(wú)限的數(shù)據(jù)流讓我們可能不斷改進(jìn)視覺(jué)表征。然而,自然場(chǎng)景下非平穩(wěn)的數(shù)據(jù)流會(huì)導(dǎo)致自監(jiān)督學(xué)習(xí)方法很快遺忘不再與當(dāng)前分布相關(guān)的特征。隨著我們不斷獲取新數(shù)據(jù),持續(xù)自監(jiān)督學(xué)習(xí)方法如何在不遺忘之前學(xué)到的概念的情況下將新概念集成到表征中?
上述挑戰(zhàn)同時(shí)存在于自然場(chǎng)景下,直接評(píng)估當(dāng)前的自監(jiān)督學(xué)習(xí)方法會(huì)使我們無(wú)法全面、單獨(dú)地分析每一項(xiàng)挑戰(zhàn)。因此,我們通過(guò)設(shè)計(jì)一組分別突出各項(xiàng)挑戰(zhàn)的數(shù)據(jù)流,評(píng)估其對(duì)現(xiàn)有自監(jiān)督學(xué)習(xí)方法的影響。
計(jì)算效率和數(shù)據(jù)效率是目前阻礙自監(jiān)督學(xué)習(xí)在自然場(chǎng)景下的連續(xù)數(shù)據(jù)流上部署的兩大挑戰(zhàn)。對(duì)于大多數(shù)實(shí)際應(yīng)用來(lái)說(shuō),可能很高,因此自監(jiān)督學(xué)習(xí)方法應(yīng)該更好地利用空閑時(shí)間來(lái)改進(jìn)模型。其次,獲取新樣本的成本仍然很高。簡(jiǎn)單地將現(xiàn)有的自監(jiān)督學(xué)習(xí)方法部署到流數(shù)據(jù)設(shè)定下會(huì)在使用一次后就丟棄每批數(shù)據(jù)。然而,目前的深度學(xué)習(xí)優(yōu)化實(shí)踐表明,在多個(gè) epoch 中迭代地訓(xùn)練相同的樣本有助于學(xué)習(xí)到更好的表征。
緩沖自監(jiān)督學(xué)習(xí)
圖注:緩沖自監(jiān)督學(xué)習(xí)引入了回放緩沖區(qū),使模型即使在有限的帶寬設(shè)定下仍然能持續(xù)訓(xùn)練。
為了在流數(shù)據(jù)設(shè)定下提升數(shù)據(jù)效率,我們維護(hù)了一個(gè)固定大小的回放緩沖區(qū),存儲(chǔ)少量最近的樣本。這個(gè)想法的靈感來(lái)自常被用于強(qiáng)化學(xué)習(xí)和監(jiān)督持續(xù)學(xué)習(xí)的經(jīng)驗(yàn)回放技術(shù)。如上圖(a)所示,回放緩沖區(qū)將流數(shù)據(jù)源與訓(xùn)練過(guò)程解耦。當(dāng)流數(shù)據(jù)可用時(shí),可以將其添加到回放緩沖區(qū),替換加入緩沖區(qū)時(shí)間最早的樣本(即先進(jìn)先出的隊(duì)列更新規(guī)則)。同時(shí),通過(guò)對(duì)緩沖區(qū)隨機(jī)采樣,可以隨時(shí)生成訓(xùn)練數(shù)據(jù)的 batch。如上圖(b)所示,回放緩沖區(qū)讓我們可以在空閑等待期間繼續(xù)訓(xùn)練。回放緩沖區(qū)讓我們可以通過(guò)多次采樣來(lái)重用樣本,從而減少總的數(shù)據(jù)成本。
單趟(One Pass)訓(xùn)練
我們研究了回放緩沖區(qū)在使用單趟訓(xùn)練數(shù)據(jù)時(shí)的作用。我們使用 Flickr 數(shù)據(jù)集中序號(hào)為前 2 千萬(wàn)的圖像,分別訓(xùn)練了使用/不使用回放緩沖區(qū)的 ResNet-18 SimSiam 模型。
圖注:具有帶寬限制的流自監(jiān)督學(xué)習(xí)。緩沖自監(jiān)督學(xué)習(xí)可以利用空閑時(shí)間有效地改進(jìn)學(xué)習(xí)到的表征
如上圖所示,通過(guò)維護(hù)一個(gè)小的回放緩沖區(qū)(只包含最近的 64,000 張圖像),緩沖自監(jiān)督學(xué)習(xí)能夠充分利用空閑時(shí)間。與傳統(tǒng)自監(jiān)督學(xué)習(xí)方法相比,顯著改進(jìn)了表征?;胤啪彌_區(qū)還可以提高持續(xù)自監(jiān)督學(xué)習(xí)設(shè)定下的數(shù)據(jù)效率,每個(gè)樣本都可以被多次重用。數(shù)據(jù)利用率與超采樣率 K 成正比,K 是為訓(xùn)練生成的 mini-batch 數(shù)與從流數(shù)據(jù)源獲取的 mini-batch 數(shù)之比。
為了理解超采樣的限制,我們訓(xùn)練將一個(gè)帶有回放緩沖區(qū)的 ResNet-18 SimSiam 模型訓(xùn)練了固定的更新次數(shù)。
圖注:數(shù)據(jù)效率。通過(guò)回放緩沖區(qū)增強(qiáng)自監(jiān)督學(xué)習(xí)方法可以提升數(shù)據(jù)效率,使我們可以單次訓(xùn)練數(shù)據(jù)流。
如上圖所示,基于 Epoch 的自監(jiān)督學(xué)習(xí)和緩沖自監(jiān)督學(xué)習(xí)在優(yōu)化更新次數(shù)相同的情況下,緩沖自監(jiān)督學(xué)習(xí)的性能更佳。盡管需要利用單趟數(shù)據(jù)進(jìn)行訓(xùn)練,超采樣率為 K=10 的緩沖自監(jiān)督學(xué)習(xí)可以獲得與基于 epoch 的訓(xùn)練相當(dāng)?shù)男阅埽词咕彌_區(qū)的大小僅為 64,000 張圖像)。隨著超采樣率提升,回放緩沖區(qū)變得越來(lái)越重要。例如,當(dāng) K=200 時(shí),無(wú)論緩沖區(qū)大小如何,在數(shù)量相同的數(shù)據(jù)上,緩沖自監(jiān)督學(xué)習(xí)仍然相較于傳統(tǒng)自監(jiān)督學(xué)習(xí)有顯著的提升。然而,隨著緩沖區(qū)大小提升,學(xué)習(xí)到的表征也會(huì)更好。因此,在高度超采樣時(shí),緩沖區(qū)被來(lái)自流數(shù)據(jù)源的新圖像緩慢更新,增大緩沖區(qū)的大小可以防止模型快速過(guò)擬合緩沖區(qū)中的樣本。
自然場(chǎng)景下得到的視覺(jué)數(shù)據(jù)往往是相關(guān)、非獨(dú)立同分布的。這與傳統(tǒng)自監(jiān)督學(xué)習(xí)方法使用的數(shù)據(jù)形成了鮮明的對(duì)比。例如,ImageNet 數(shù)據(jù)集使我們可以從 1,000 個(gè)均勻分布的對(duì)象類別中對(duì)圖像采樣。即使是在更大的數(shù)據(jù)集上訓(xùn)練的方法,也不太可能在 mini-batch 中遇到高度相關(guān)的樣本。但是,即使是在靜態(tài)圖像設(shè)定下,持續(xù)自監(jiān)督學(xué)習(xí)設(shè)定下的持續(xù)數(shù)據(jù)流也往往不滿足上述假設(shè)。
令為一個(gè)樣本序列,其中從大數(shù)據(jù)集中隨機(jī)采樣生成,這種采樣近似于獨(dú)立同分布。因此,樣本和樣本之間高度相關(guān)的概率較低。樣本相關(guān)說(shuō)明圖像在視覺(jué)上十分相似,或即使視覺(jué)上不相似但描述了相似的語(yǔ)義內(nèi)容。然而,在持續(xù)自監(jiān)督學(xué)習(xí)設(shè)定下,獨(dú)立同分布假設(shè)往往不被滿足,即。假設(shè)持續(xù)的數(shù)據(jù)流中的連續(xù)樣本具有相同的相關(guān)性概率,長(zhǎng)度為 b 的 batch 中隨機(jī)數(shù)據(jù)對(duì)相關(guān)似然很大:
在引入尺寸為的回放緩沖區(qū)時(shí),相關(guān)似然越低,則表征學(xué)習(xí)更有效。
最小冗余回放緩沖區(qū)
盡管回放緩沖區(qū)可以減小相關(guān)性似然,但需要非常大的回放緩沖區(qū),才能在樣本高度相關(guān)的設(shè)定下得到較低的。為了緩解這一問(wèn)題,我們提出了一種修正后的回放緩沖區(qū)——最小冗余回放緩沖區(qū)(MinRed),它只保留去相關(guān)的樣本,因此可以主動(dòng)地降低。
為此,我們基于學(xué)習(xí)到的嵌入空間確定冗余樣本。假設(shè)一個(gè)回放緩沖區(qū)的最大容量為 B,它已經(jīng)包含了 B 個(gè)具有表征的樣本。為了向該緩沖區(qū)中加入新的樣本 x,我們根據(jù)所有樣本對(duì)之間的余弦距離丟棄大多數(shù)冗余的樣本:
換而言之,我們丟棄那些與其最近鄰具有最小余弦距離的樣本。
非獨(dú)立同分布數(shù)據(jù)流上的實(shí)驗(yàn)
我們?cè)u(píng)估了自監(jiān)方法在兩種具有高度時(shí)間相關(guān)性的數(shù)據(jù)流上的性能。第一個(gè)數(shù)據(jù)流是通過(guò)連接 Kinetics 數(shù)據(jù)集中的視頻樣本創(chuàng)建的。我們從每個(gè)視頻中隨機(jī)采樣幀,并將它們依次添加到數(shù)據(jù)流中。第二個(gè)訓(xùn)練流是 KrishnaCAM 數(shù)據(jù)集中的連續(xù)幀,記錄了一名計(jì)算機(jī)視覺(jué)研究生九個(gè)月的以自我為中心的視頻。我們分別在每個(gè)流數(shù)據(jù)上訓(xùn)練傳統(tǒng)的 SimSiam、聽(tīng)過(guò)回放緩沖區(qū)增強(qiáng)的緩沖 SimSiam,通過(guò) MinRed 緩沖區(qū)增強(qiáng)的 SimSiam。
圖注:視覺(jué)上相關(guān)的自監(jiān)督學(xué)習(xí)。在具有高度時(shí)間相關(guān)性的數(shù)據(jù)源上訓(xùn)練的緩沖和非緩沖 SimSiam 表征的線性分類效果。MinRed 通過(guò)對(duì)數(shù)據(jù)進(jìn)行解相關(guān)學(xué)到更好的表征。
如上圖所示,數(shù)據(jù)的相關(guān)性嚴(yán)重?cái)_亂了傳統(tǒng)模型的訓(xùn)練,而常規(guī)的回放緩沖區(qū)技術(shù)在一定程度上緩解了這個(gè)問(wèn)題,但學(xué)習(xí)到的表征在高度相關(guān)的數(shù)據(jù)流(例如,的 Kinetics 數(shù)據(jù)集和 KrishaCAM 數(shù)據(jù)集)上仍然會(huì)收到影響。相較之下,本文提出的 MinRed 緩沖在上述設(shè)定下表現(xiàn)出了顯著的性能提升。使用 MinRed 緩沖區(qū)訓(xùn)練的模型性能往往十分接近使用完全解相關(guān)的數(shù)據(jù)流訓(xùn)練。
訓(xùn)練樣本的相關(guān)性:生成具有較低相關(guān)似然的訓(xùn)練樣本是緩沖自監(jiān)督學(xué)習(xí)的優(yōu)勢(shì)之一,因此這些樣本更加接近獨(dú)立同分布。
圖注:使用/不使用回放緩沖訓(xùn)練時(shí)的 batch 內(nèi)的數(shù)據(jù)相關(guān)性。
如上圖所示,MinRed 回放緩沖區(qū)中的內(nèi)容比 FIFO 緩沖區(qū)中內(nèi)容的相關(guān)性明顯較低。在使用 KrishnaCAM 數(shù)據(jù)集時(shí),MinRed 緩沖區(qū)能夠維護(hù)過(guò)去更長(zhǎng)的時(shí)間內(nèi)的獨(dú)特幀。在使用 Kinetics 數(shù)據(jù)集時(shí),MinRed 緩沖區(qū)用可以產(chǎn)生包含更多獨(dú)特視頻中的幀構(gòu)成的訓(xùn)練用 mini-batch。
在探索世界時(shí),我們會(huì)遇到各種目標(biāo)類的分布,會(huì)經(jīng)常遇到一些未曾見(jiàn)過(guò)的類別,語(yǔ)義類的分布通常會(huì)實(shí)時(shí)偶然變化。然而,傳統(tǒng)的自監(jiān)督學(xué)習(xí)方法針對(duì)有限的概念學(xué)習(xí),這些概念被重復(fù)使用了數(shù)千次。這種簡(jiǎn)化的學(xué)習(xí)設(shè)定不能反映概念在自然場(chǎng)景下的非平穩(wěn)特性。
用于自監(jiān)督學(xué)習(xí)對(duì)比基準(zhǔn)的非平穩(wěn)數(shù)據(jù)流
受監(jiān)督式持續(xù)學(xué)習(xí)的啟發(fā),我們引入了具有平滑偏移語(yǔ)義分布的設(shè)置。首先,我們基于 Wordnet 的類別層次結(jié)構(gòu)將 ImageNet-21K 數(shù)據(jù)集劃分為 4 份,每一份包含語(yǔ)義相似的類別的圖像。對(duì)于每一類,我們拿出 25 張圖像用于評(píng)估。我們通過(guò)從打亂的上述 4 個(gè)數(shù)據(jù)集
中依次隨機(jī)采樣圖像并匯總,從而得到訓(xùn)練數(shù)據(jù)流。其中,是的排列。這樣一來(lái),我們就模擬了語(yǔ)義分布的平滑變化。我們旨在學(xué)習(xí)到可以在不發(fā)生過(guò)擬合、不遺忘先前看到的概念的情況下,能夠判別所有數(shù)據(jù)集中概念的表征。
非平穩(wěn)分布上的實(shí)驗(yàn)
我們分別在單趟數(shù)據(jù)流上使用傳統(tǒng)的 SimSiam、帶有回放緩沖區(qū)的 SimSiam、帶有最小冗余緩沖區(qū)的 SimSiam 進(jìn)行訓(xùn)練。在評(píng)估階段,我們利用學(xué)到的表征訓(xùn)練了一個(gè)線性分類器,用來(lái)識(shí)別 ImageNet-21K 數(shù)據(jù)集中的所有類別,并在每個(gè)的留出集上評(píng)估了模型準(zhǔn)確率,實(shí)驗(yàn)結(jié)果取三次排列的平均值。
圖注:完整 ImageNet 數(shù)據(jù)集上的持續(xù)無(wú)監(jiān)督表征學(xué)習(xí)實(shí)驗(yàn)結(jié)果。(a)在每個(gè)任務(wù)的數(shù)據(jù)上訓(xùn)練,測(cè)量在其它每個(gè)任務(wù)上的準(zhǔn)確率下降情況。最小冗余緩沖區(qū)可以保留先前任務(wù)的實(shí)例,因此緩解了傳統(tǒng)自監(jiān)督學(xué)習(xí)中的災(zāi)難性遺忘問(wèn)題,能夠有規(guī)律地回放緩沖區(qū)中的內(nèi)容。(b)15,790 個(gè)類別上的整體準(zhǔn)確率。通過(guò)確保來(lái)自過(guò)去類別分布的圖像沒(méi)有被遺忘,最小冗余緩沖區(qū)可以學(xué)習(xí)更好的總體表征。
如上圖所示,所有的方法性能都會(huì)受到「遺忘」現(xiàn)象的損害。然而,MinRed 緩沖區(qū)維護(hù)了語(yǔ)義范圍更廣的訓(xùn)練數(shù)據(jù),使用了 MinRed 緩沖區(qū)的 SimSiam 的性能下降較小,始終具有較好的泛化能力。
在本文中,作者指出了構(gòu)建魯棒、可部署的自監(jiān)督學(xué)習(xí)器所面臨的三大挑戰(zhàn)。通過(guò)利用回放緩沖區(qū)重新訪問(wèn)較早訪問(wèn)過(guò)的樣本,作者提升持續(xù)自監(jiān)督學(xué)習(xí)模型的效率。未來(lái),研發(fā)通過(guò)預(yù)先評(píng)估樣本價(jià)值實(shí)現(xiàn)快速拒絕樣本的方法可能會(huì)提高數(shù)據(jù)效率。作者還提出了新的最小冗余緩沖區(qū)技術(shù),該技術(shù)可以丟棄相關(guān)性較強(qiáng)的樣本,使我們能夠模擬獨(dú)立同分布訓(xùn)練數(shù)據(jù)的生成。此外,未來(lái)的研究可以更加關(guān)注利用數(shù)據(jù)流的相關(guān)性,從細(xì)粒度的差異中學(xué)習(xí)表征。
在具有非平穩(wěn)語(yǔ)義分布的數(shù)據(jù)流中,作者發(fā)現(xiàn) MinRed 緩沖區(qū)緩解了災(zāi)難性遺忘的問(wèn)題,它們能夠維護(hù)來(lái)自過(guò)去分布的獨(dú)特樣本。然而,當(dāng)引入新概念時(shí),作者觀察到「飽和泛化」的現(xiàn)象,這可能是由于:(1)余弦衰減學(xué)習(xí)率(2)模型的容量是固定的,無(wú)法學(xué)習(xí)大的新概念序列。作者發(fā)現(xiàn),使用恒定的學(xué)習(xí)率進(jìn)行訓(xùn)練并不能顯著提高模型性能。作者還發(fā)現(xiàn),定期擴(kuò)展模型架構(gòu)并不會(huì)帶來(lái)明顯的性能提升。我們需要以自監(jiān)督的方式不斷學(xué)習(xí)新的概念。
雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng))
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。