0
雷鋒網(wǎng) AI 科技評論按:當(dāng)前的基于 CNN 的圖像識別模型確實能在許多任務(wù)中得到很高的識別準(zhǔn)確率、也得到了許多實際應(yīng)用,但 CNN 模型的泛化性和魯棒性仍然遠(yuǎn)遜于人類視覺 —— 面對經(jīng)過細(xì)微修改的、或者帶有噪聲的圖像,人類的視覺識別幾乎不受影響,而 CNN 的識別準(zhǔn)確率則可能大幅波動;場景和視角也能顯著影響 CNN 的表現(xiàn),更別提從很少的樣本學(xué)習(xí)物體識別了。
如果說「視覺智慧」的至高水準(zhǔn)是具有不變性的神經(jīng)表征,以及圖像經(jīng)過復(fù)雜變換以后仍然能夠識別處理的泛化能力的話,人類的/生物的視覺系統(tǒng)顯然具有視覺智慧,而現(xiàn)代的 CNN 并不具備;研究生物視覺系統(tǒng)中視覺智慧的來源、并嘗試在人工設(shè)計的視覺系統(tǒng)中重現(xiàn)它,近些年來都是神經(jīng)科學(xué)領(lǐng)域以及機(jī)器學(xué)習(xí)領(lǐng)域的熱門研究課題。
最近,NeurIPS 2019 論文《Learning From Brains How to Regularize Machines》(從大腦學(xué)習(xí)如何做機(jī)器的正則化)就在這個問題上做出了有趣的嘗試。此前我們介紹過日本研究人員的成果,他們從人腦的 fMRI 成像解碼重現(xiàn)出眼睛看到的畫面。但根據(jù)大腦的神經(jīng)活動直接影響人工神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)表征的過程,從而影響模型在分類任務(wù)中的表現(xiàn),這個方法就相當(dāng)新穎有趣。雷鋒網(wǎng) AI 科技評論把論文主要內(nèi)容介紹如下。
在這篇論文中,作者們重點比較了視覺智慧其中的一個方面:面對對抗性攻擊和噪聲干擾的魯棒性。對抗性攻擊可以對給定圖像做微小的修改就讓 CNN 模型以很高的置信度把物體識別為另外一個類別,噪聲則普遍地影響 CNN 的識別準(zhǔn)確率。面對相同的干擾,生物視覺系統(tǒng)的表現(xiàn)幾乎不受影響。這很可能表明,不僅 CNN 缺乏生物視覺系統(tǒng)中那種高級的場景理解能力,CNN 識別物體時使用的視覺特征也可能和生物視覺系統(tǒng)完全不同。
遺憾的是,生物神經(jīng)網(wǎng)絡(luò)和人造神經(jīng)網(wǎng)絡(luò)的工作機(jī)理有很大區(qū)別,即便我們能從生物視覺系統(tǒng)中解碼出不同級別的視覺特征,我們也很難把它直接拷貝到人造神經(jīng)網(wǎng)絡(luò)中去。有一些研究者對生物視覺系統(tǒng)做過直接的研究,比如紐約大學(xué)教授 Eero Simoncelli 從紋理和層次化感知的角度做過研究和實驗(他在 ICLR 2017 的特邀演講上做了介紹),但他的理論也沒辦法直接拿來改進(jìn) CNN。
不過,想要模仿生物神經(jīng)網(wǎng)絡(luò)中的特征,我們也許不是完全束手無策:我們在訓(xùn)練神經(jīng)網(wǎng)絡(luò)時會引入各種隱式的歸納偏倚,以及使用不同的正則化方法,它們能對網(wǎng)絡(luò)的參數(shù)空間增加限制,以及引導(dǎo)改變模型學(xué)習(xí)和使用特征的方式,最終對模型的魯棒性和泛化性產(chǎn)生影響。雖然現(xiàn)階段的神經(jīng)網(wǎng)絡(luò)訓(xùn)練中我們很難事先就明確各種選用的偏倚的影響,而且模型學(xué)習(xí)到的模式也時常無法泛化到訓(xùn)練數(shù)據(jù)范圍之外,但這起碼是一個有希望的突破口。
一個從側(cè)面起到幫助的事情是,近期有許多研究表明,經(jīng)過任務(wù)中訓(xùn)練的 CNN 網(wǎng)絡(luò)的感知表征和靈長類動物大腦中測量到的表征信號有相似之處。作者們就大膽假設(shè),如果能讓人工神經(jīng)網(wǎng)絡(luò)的表征和生物視覺系統(tǒng)的受激神經(jīng)活動體現(xiàn)出的表征更為相似,就有可能對 CNN 的表現(xiàn)產(chǎn)生正面的影響 —— 比如和生物視覺系統(tǒng)一樣面對有噪聲、有變化的圖像也有較穩(wěn)定的表現(xiàn)。
這篇論文的作者們就是引入額外的偏倚,對模型進(jìn)行正則化(引導(dǎo)),讓模型學(xué)習(xí)到的模式與生物視覺系統(tǒng)的模式更為相近。具體來說,作者們直接測量了小鼠看到各種不同的復(fù)雜自然場景時,大腦中視覺皮質(zhì)的神經(jīng)響應(yīng)。然后,作者們在訓(xùn)練 CNN 時也不再采用傳統(tǒng)的僅以識別率為核心的訓(xùn)練目標(biāo),而是鼓勵卷積特征的激活模式于生物神經(jīng)信號的模式更為相近,也就是讓 CNN 學(xué)習(xí)更接近生物視覺系統(tǒng)的特征表征。
測量小鼠
作者們在幾天的時間內(nèi)、在多只小鼠身上重復(fù)進(jìn)行了許多輪主要視覺皮層的掃描。在實驗中,小鼠的頭部被固定,身體可以在履帶上跑步。研究者們從 ImageNet 數(shù)據(jù)集中抽取了 5100 張不同的圖像并轉(zhuǎn)換為灰度色彩,分辨率降低到 64x36,然后展示給小鼠看(小鼠的視覺能力不如人類強(qiáng),而且對彩色不敏感);其中的 5000 張只展示一次(測量一次),100 張展示 10 次(測量 10 次),這樣每只小鼠的每輪實驗一共有 6000 組測量數(shù)據(jù)。
選擇小鼠作為實驗動物的主要原因是,針對小鼠的基因改造方法比較多比較成熟,能讓作者們同時測量 8000 個不同神經(jīng)單元的信號。固然,足夠復(fù)雜、足夠接近人類的其它靈長目動物的視覺系統(tǒng)是理想的研究對象,但畢竟難度較大,而且視覺系統(tǒng)對小鼠來說仍然是重要的感知輸入途徑,仍然有測量意義。
作者們根據(jù)測量到的信號計算信噪比,對重復(fù)實驗中采集到的信號進(jìn)行平均處理,以及根據(jù)圖像-測量信號對設(shè)計了一個降噪模型,最終對原始測量數(shù)據(jù)進(jìn)行了有效的降噪,得到可靠的神經(jīng)信號特征以便后續(xù)實驗使用。然后,作者們在降噪后的數(shù)據(jù)上建立了 5000x5000 的相似性矩陣,并把它作為正則化 CNN 網(wǎng)絡(luò)的目標(biāo)。
CNN 訓(xùn)練
作者們選用了一個 18 層的 ResNet 模型作為要模仿小鼠的 CNN 模型主干,要讓它在學(xué)習(xí)圖像分類任務(wù)的同時,模仿小鼠視覺系統(tǒng)的激活模式。
典型的 CNN 分類任務(wù)訓(xùn)練中,要優(yōu)化的損失只有一項任務(wù)損失,比如交叉熵?fù)p失。為了讓 CNN 模仿小鼠,作者們增加了一項相似性損失。具體的工作模式是:
網(wǎng)絡(luò)可以接收一張或者兩張圖像作為輸入
如果輸入是單張圖像,模型會通過額外的一層全連接層輸出類別分類結(jié)果 —— 計算交叉熵?fù)p失
如果輸入是兩張(一組)圖像,模型會分別計算兩張圖像激活的卷積特征,然后計算第 1、5、9、13、17 層中的激活特征的相似性。作者們通過一個正則化帶權(quán)重加合器計算一個最終的相似性結(jié)果,然后和小鼠上測量的信號相似性比較,計算相似性損失,從而引導(dǎo)網(wǎng)絡(luò)學(xué)習(xí)小鼠的神經(jīng)信號模式。
這樣,作者們就通過正則化的方式,讓原始的 CNN 模型學(xué)習(xí)到和生物視覺系統(tǒng)更為相近的視覺表征。
在結(jié)果對比部分,作者們首先把帶有相似性損失訓(xùn)練的「生物視覺 CNN」(基于 ResNet18)和正常訓(xùn)練的幾個模型做對比,而且是在轉(zhuǎn)換為灰度的 CIFAR 圖像上進(jìn)行測試。完全沒有額外正則化的 ResNet18 對于沒有添加噪聲的圖像取得了最高的識別準(zhǔn)確率,但隨著添加噪聲,準(zhǔn)確率迅速下降;在測試中的最高噪聲下,「生物視覺 CNN」的準(zhǔn)確率仍然有 50%,遠(yuǎn)高于其他的模型;也就是說模型魯棒性得到了顯著提升。
作為對照試驗,作者們也測試了不同程度的「模仿生物視覺」,比如用隨機(jī)的相似性矩陣做正則化,以及用 VGG19 的 conv3-1 層的相似性矩陣做正則化,表現(xiàn)仍然不如「生物視覺 CNN」,但利用了 VGG19 的層的是最相似的。
另外還有一組對照實驗是,作者們用未經(jīng)過降噪的小鼠神經(jīng)信號測量數(shù)據(jù)直接做正則化,發(fā)現(xiàn)模型魯棒性的提升很?。蛔髡邆冋J(rèn)為原因是原始神經(jīng)信號有高度變化/隨機(jī)性,這說明了降噪步驟的重要性。
在包含了多種對抗性攻擊方法的對抗性圖像識別測試中,「生物視覺 CNN」的表現(xiàn)也遠(yuǎn)好于其他的模型。
我們常說神經(jīng)科學(xué)可以為機(jī)器學(xué)習(xí)帶來啟發(fā),但是我們一直缺少能讓神經(jīng)生理學(xué)的研究成果直接轉(zhuǎn)化成人工神經(jīng)網(wǎng)絡(luò)的方法。在這篇論文中,作者們展示了一種利用神經(jīng)信號測量數(shù)據(jù)的正則化方法,它能給神經(jīng)網(wǎng)絡(luò)模型增加偏倚,讓模型學(xué)習(xí)到的表征和小鼠大腦(生物視覺系統(tǒng))的視覺表征更為相近,提高網(wǎng)絡(luò)在推理任務(wù)中的魯棒性。作者們認(rèn)為,未來如果能讓人工神經(jīng)網(wǎng)絡(luò)的視覺表征和生物視覺系統(tǒng)中 V1 以上的視覺皮層之間的相似性進(jìn)一步提高的話,模型的魯棒性、泛化性表現(xiàn)也能跟著繼續(xù)提高。這些從生物大腦實際模仿學(xué)習(xí)到的表征有可能能夠幫助機(jī)器學(xué)習(xí)算法的表現(xiàn)更接近人類視覺系統(tǒng)的表現(xiàn)。
針對方法,作者們使用的表征相似性方法是一種較為通用的方法,他們的原始信號降噪方法也幫助改進(jìn)了生物視覺表征的評估(把視覺相關(guān)的信號進(jìn)行解耦,以及把單獨出現(xiàn)的神經(jīng)信號轉(zhuǎn)換為可靠的、降噪后的神經(jīng)信號)。還有一種讓 CNN 模型模仿生物神經(jīng)表征的方法是,在訓(xùn)練執(zhí)行任務(wù)的 CNN 模型時,從網(wǎng)絡(luò)的中間層上聯(lián)合訓(xùn)練一個線性讀出器,讓它直接從圖像特征預(yù)測生物神經(jīng)響應(yīng)。不過,作者們認(rèn)為他們選用的方法有更高的限制以及引導(dǎo)力度,因為 CNN 中有大量的仿形變換都可以被線性讀出器補(bǔ)償,在提高預(yù)測神經(jīng)響應(yīng)的準(zhǔn)確率的同時,對 CNN 學(xué)習(xí)到的表征的影響卻很小。
在這篇論文中作者們主要測量了「生物視覺 CNN」的魯棒性,但顯然,這個方向的研究的長遠(yuǎn)目標(biāo)是利用模仿生物視覺的視覺表征,在領(lǐng)域遷移、小樣本學(xué)習(xí)等等更多方面都帶來改進(jìn)。作者們未來也會在視覺系統(tǒng)的其它表現(xiàn)、以及更多的相似性限制方面做更多的探索。
另外,雖然方法設(shè)計以及實驗結(jié)果表明模仿生物視覺特征能帶來改進(jìn),但具體學(xué)習(xí)到了生物視覺表征的哪個方面還是一個有待探究的問題,這也是這項研究背后最值得做深入探究的問題。如果能夠弄清具體的影響原理,可以不再借助大規(guī)模神經(jīng)信號采集實驗,而直接根據(jù)這些原理設(shè)計以及訓(xùn)練機(jī)器學(xué)習(xí)模型 —— 這也就是這條研究路線的至高目標(biāo)。
閱讀論文原文:https://arxiv.org/abs/1911.05072
雷鋒網(wǎng) AI 科技評論報道
相關(guān)文章:
離「腦機(jī)接口」再近一步,日本研究員根據(jù)大腦 fMRI 重建看到的圖像
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。