0
本文作者: 楊曉凡 | 2019-12-02 15:51 |
雷鋒網(wǎng) AI 科技評論按:機器學(xué)習(xí)頂會 NeurIPS 2019 快要在 12 月開幕了。在 NeurIPS 2019 收到的 6743 篇投稿中,有 1428 篇被接收為會議論文,其中有 36 篇為 Oral (口頭報告)論文,比例僅為 2.5%,足見 Oral 論文的含金量。
在這 36 篇 Oral 論文中,來自 MIT McGovern大腦研究院、大腦與認知科學(xué)研究部 James DiCarlo 教授團隊的論文《Brain-Like Object Recognition with High-Performing Shallow Recurrent ANNs》(用高表現(xiàn)的淺層循環(huán)結(jié)構(gòu)人工神經(jīng)網(wǎng)絡(luò)實現(xiàn)類似大腦的物體識別)吸引了我們的注意。他們以人類大腦的工作方式為樣本,重新設(shè)計人工神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu),以淺層神經(jīng)網(wǎng)絡(luò)+循環(huán)結(jié)構(gòu)在物體識別任務(wù)中取得了優(yōu)秀的、類似生物視覺系統(tǒng)的表現(xiàn)。
這項成果的意義遠不在于物體識別和深度學(xué)習(xí)本身。實際上,James DiCarlo 教授團隊本來做的就是大腦與認知科學(xué)研究,探索、設(shè)計工作方式相仿的人工神經(jīng)網(wǎng)絡(luò)可以幫助他們更好地理解生物大腦的原理。今年 4 月,James DiCarlo 教授團隊就曾在頂級期刊《Nature Neuroscience》(自然:神經(jīng)科學(xué))上發(fā)表論文《Evidence that recurrent circuits are critical to the ventral stream's execution of core object recognition behavior》(證據(jù)表明循環(huán)結(jié)構(gòu)對核心物體識別行為中處理腹側(cè)神經(jīng)流的過程有關(guān)鍵影響),展現(xiàn)了人工神經(jīng)網(wǎng)絡(luò)對神經(jīng)科學(xué)研究的幫助效果。
本文對這兩篇論文的內(nèi)容一并進行介紹。
Brain-Like Object Recognition with High-Performing Shallow Recurrent ANNs - NeurIPS 2019
用高表現(xiàn)的淺層循環(huán)結(jié)構(gòu)人工神經(jīng)網(wǎng)絡(luò)實現(xiàn)類似大腦的物體識別
論文摘要:
深度卷積人工神經(jīng)網(wǎng)絡(luò)是模仿靈長目生物大腦腹側(cè)神經(jīng)流的視覺信號處理機制的一類首選模型。雖然這些網(wǎng)絡(luò)模型最早是由大腦的解剖學(xué)結(jié)構(gòu)啟發(fā)得到的,但在過去的幾年中,這些網(wǎng)絡(luò)早已從簡單的 8 層 AlexNet 發(fā)展成為非常深非常寬的網(wǎng)絡(luò),在圖像識別任務(wù)中的表現(xiàn)也越來越好;不過,它們和生物大腦還有多類似就成了新的問題。
具體來說,機器學(xué)習(xí)界提出的典型的深度模型通常都很難和人腦的解剖結(jié)構(gòu)之間找到對應(yīng)關(guān)系,因為它們有很多層,而且缺少循環(huán)信號通路之類的在生物結(jié)構(gòu)中非常重要的連接。在這篇論文中,作者們通過實驗展示了完全可以設(shè)計一個和生物結(jié)構(gòu)更為相符的模型,而且讓它在機器學(xué)習(xí)用的評價指標和神經(jīng)科學(xué)用的指標方面都取得好成績。
作者們設(shè)計了一個淺層人工神經(jīng)網(wǎng)絡(luò) CORnet-S,它的結(jié)構(gòu)可以直接對應(yīng)到生物大腦視覺系統(tǒng)的四個腦區(qū),并且?guī)в醒h(huán)信號連接。作者們也設(shè)計了一個新的評價指標 Brain-Score,用來評價人工模型還原生物視覺系統(tǒng)的功能保真度,其中有大量的神經(jīng)和行為測試。雖然 CORnet-S 比當代的絕大多數(shù)神經(jīng)網(wǎng)絡(luò)都要淺得多,但是 CORnet-S 的 Brain-Score 分數(shù)是所有模型中最高的,而且它在 ImageNet 中的表現(xiàn)也要比類似規(guī)模的模型更好。除此之外,作者們對 CORnet-S 的循環(huán)連接做了大量實驗分析,發(fā)現(xiàn)循環(huán)連接對于生物視覺系統(tǒng)功能保真度和ImageNet表現(xiàn)都有重要作用。
最后作者們還表示,CORnet-S 模型中“IT”模塊的神經(jīng)響應(yīng)的時間變化和真正的猴子的 IT 腦區(qū)的神經(jīng)響應(yīng)變化非常類似。所有這些結(jié)果都表明,CORnet-S,這個緊湊的、帶有循環(huán)結(jié)構(gòu)的人工神經(jīng)網(wǎng)絡(luò),是目前模仿靈長目生物大腦腹側(cè)神經(jīng)流的視覺信號處理機制的最佳模型。
Evidence that recurrent circuits are critical to the ventral stream's execution of core object recognition behavior - Nature Neuroscience
證據(jù)表明循環(huán)結(jié)構(gòu)對核心物體識別行為中處理腹側(cè)神經(jīng)流的過程有關(guān)鍵影響
論文地址:https://www.nature.com/articles/s41593-019-0392-5 (閉源)
論文摘要:
對動物的研究表明,靈長類動物的視覺系統(tǒng)中有密集的循環(huán)式腹側(cè)神經(jīng)流,并最終在顳下皮層(IT Cortex)匯集,這構(gòu)成了它們的核心物體識別行為。目前對這種行為建模效果最好的模型是深度卷積神經(jīng)網(wǎng)絡(luò)(CNN),但 CNN 卻是不帶有循環(huán)結(jié)構(gòu)的。這就給研究人員們帶來了一個疑問:如果動物神經(jīng)系統(tǒng)追蹤的循環(huán)結(jié)構(gòu)對它們的行為如此重要,那么靈長類的識別系統(tǒng)就應(yīng)當在同時需要前饋顳下皮層響應(yīng)以及額外的循環(huán)信號處理的圖像識別任務(wù)中得到高于只有前饋的深度 CNN 網(wǎng)絡(luò)的表現(xiàn)。
在這項研究中,作者們首先使用行為學(xué)方法找到了數(shù)百張這樣的「有挑戰(zhàn)」的圖像(能體現(xiàn)出循環(huán)結(jié)構(gòu)的優(yōu)勢)。其次,借助大規(guī)模電生理學(xué)方法,作者們把其它動物中的有足夠識別能力的物體識別方案和靈長類進行了行為學(xué)角度對比,發(fā)現(xiàn)識別有挑戰(zhàn)性的圖像時,前者的信號在顳下皮層匯集的時間要比靈長類遲大約 30ms。然而深度 CNN 的行為卻很難預(yù)測這種行為學(xué)角度有顯著區(qū)別的滯后顳下皮層響應(yīng)。值得一提的是,非常深的 CNN 和淺一些的循環(huán)結(jié)構(gòu) CNN 對這些滯后響應(yīng)的預(yù)測就要好一些,這表明額外的非線性變換與循環(huán)結(jié)構(gòu)之間存在一定的功能等效性。
作者們由此提出,循環(huán)結(jié)構(gòu)的信號通路對于快速物體識別起到了關(guān)鍵作用,這也得到了實驗證實;除此之外,實驗結(jié)果還為未來的循環(huán)結(jié)構(gòu)模型開發(fā)提供了強有力的限定條件。
這里我們暫時不對論文做大篇幅的解讀,因為 James DiCarlo 教授曾在 CVPR 2017 的特邀全體演講中完整介紹過自己團隊的研究,整個故事非常生動有趣,不僅是上述的 NeurIPS 2019 論文以及 《Nature Neuroscience》論文內(nèi)容的完整、詳盡的背景鋪墊,更涵蓋了研究的主要過程。
下面我們一起重溫 AI 科技評論全文整理的演講內(nèi)容。
CVPR 2017 現(xiàn)場, 7 月 25日,James DiCarlo 教授進行了題為「The Science of Natural intelligence (NI): Reverse Engineering Primate Visual Perception」(自然智慧的科學(xué):靈長類視覺理解的反向工程)的全體演講。
James DiCarlo 是 MIT 的神經(jīng)科學(xué)教授,MIT 大腦和認知科學(xué)學(xué)院院長。他是 Alfred Sloan Fellow,是生物醫(yī)學(xué)科學(xué)的皮尤學(xué)者(Pew Scholar),以及神經(jīng)科學(xué)界的麥克白學(xué)者。他的研究目標是用計算性的方法理解靈長類視覺智能在大腦內(nèi)的形成機制。
DiCarlo 教授首先感謝主辦方邀請他來演講。他來自神經(jīng)科學(xué)界,這次來到CV界的會議,也是想借此機會做兩個研究領(lǐng)域之間溝通的橋梁。
總體研究內(nèi)容與方法
教授的研究內(nèi)容是人類的大腦,研究它是如何工作的、如何用計算的方式模擬它;而CV界的研究目標則是嘗試構(gòu)建出達到人類大腦表現(xiàn)的系統(tǒng)。所以在教授看來,希望CV界的人也能夠從神經(jīng)科學(xué)的研究中受益。
最理想的狀態(tài)是上面的 PPT 中黃色的這種,CV界的人把自己的研究看作是嘗試構(gòu)建系統(tǒng)的前向工程,不過要符合一些大腦本身和認知科學(xué)的限制。神經(jīng)科學(xué)界的人就是反過來,把大腦看作已經(jīng)構(gòu)建好的系統(tǒng),研究大腦的限制和原理、嘗試模仿大腦結(jié)構(gòu)的反向工程,在過程中逐步對所用的機理和例子做驗證。這樣,神經(jīng)科學(xué)和神經(jīng)網(wǎng)絡(luò)的研究可以看作是互為表里,這樣的研究成果也會給腦機互動帶來更多的可能性。
人類大腦根據(jù)視覺輸入可以理解物體的類別、位置、姿態(tài)等等信息。人類的物體認知能力很強,毫不費力,很久以前就有不少關(guān)于人類的認知能力的研究成果,比如人類對物體的感知聚集在視野中心視角10度左右的范圍內(nèi),然后人眼通過移動捕捉多幅畫面的方式來觀察完整的畫面,再鏈接到記憶。他們把人類視覺系統(tǒng)這種特點稱作“中心物體感知”(Core object perception)。教授研究的落腳點就是視覺對象認知任務(wù)(Object perception),重點在于類別識別。
教授把對中心物體感知的反向工程分為三步:
首先要對研究對象在領(lǐng)域內(nèi)的表現(xiàn)做定義和可操作化處理,尤其要關(guān)注的是現(xiàn)在制造出的系統(tǒng)相比生物大腦有哪些不足;
然后測量系統(tǒng)中會對表現(xiàn)產(chǎn)生重大影響的組件,比如他就需要測量一些生物特性,測量時候要謹慎地選擇測量哪幾個具體指標;
最后在以上的限制之下進行前向工程,構(gòu)建模型,用模型把數(shù)據(jù)組織起來。對于模型而言,它不僅需要能夠解釋、獲取數(shù)據(jù),它還要能夠預(yù)測新的數(shù)據(jù)。這樣一來,建模也就是最關(guān)鍵的一步。
通過這三個步驟之間的互動構(gòu)建好模型以后,就可以嘗試拓展模型的應(yīng)用領(lǐng)域了。
教授今天要講的就是依托這三個步驟,總結(jié)他在建立端到端的靈長類中心物體感知系統(tǒng)模型中的進展。
視覺行為測試與數(shù)據(jù)特征
教授在研究中進行測試時使用的是生成的圖像,在不相關(guān)的背景下放置不同觀察角度的物體。之所以這樣選擇的原因是,當他開始研究時,同時代的CV系統(tǒng)很容易被不相關(guān)的背景擾亂識別結(jié)果,但是人類就不會受到什么影響;另一方面,CV系統(tǒng)對于更多姿態(tài)和變化時的識別有更大困難,但是人類表現(xiàn)得也很好,體現(xiàn)出了視角無關(guān)性,所以他認為這樣的圖像可以更好地展現(xiàn)出人類視覺系統(tǒng)的特點。
教授的測試中用到了人和猴子
訓(xùn)練猴子做識別測試很容易。教授根據(jù)人類和猴子的測試畫過出了這樣的識別模式矩陣,其中根據(jù)不同的復(fù)雜程度排列了各種物體。每個格子的含義是把這個類別的物體和另一個類別的物體正確區(qū)分的比例,顏色越偏紅,識別準確率就越低;越偏藍,識別準確率就越高。
根據(jù)誤識別模式矩陣,人類表現(xiàn)和非人的靈長類動物表現(xiàn)基本相同,不僅體現(xiàn)在總體準確率上,也體現(xiàn)在會把哪些東西之間認混上。這樣就可以在動物身上做神經(jīng)級別的測試和操控,獲得數(shù)據(jù)的類別和數(shù)量都可以大幅度提高。在此基礎(chǔ)之上就可以對信息處理的機制進行系統(tǒng)性的研究。
人類/靈長類的大腦視覺皮層已經(jīng)有了很多研究成果,人們已經(jīng)知道可以分成 V1、V2、V4、IT四個區(qū)域。整個視覺系統(tǒng)的工作流程圖畫出來的話就是圖中這樣,把視網(wǎng)膜上的細胞看作像素的話,外界的視覺刺激首先組成視網(wǎng)膜色譜圖,然后經(jīng)過視網(wǎng)膜級別的 LGN 以后依次來到大腦皮層的 V1、V2、V4、IT 區(qū)域,每個區(qū)域都有百萬級別的細胞;然后每個區(qū)域與視網(wǎng)膜形成不同的區(qū)域?qū)?yīng)特性,對輸入信號的表征空間也逐步發(fā)生變化,人們也就是由此進行的劃分,從而把視覺系統(tǒng)看作是一個深度分層網(wǎng)絡(luò)。由于 IT 區(qū)域在最后,有最高的抽象級別,所以 IT 區(qū)域與視網(wǎng)膜的區(qū)域?qū)?yīng)性也是最弱的,而在物體識別任務(wù)中對不同類別物體的響應(yīng)模式也是最明確的。
另一方面,現(xiàn)有研究已經(jīng)表明從 V1 開始的區(qū)域都是同時具有前饋和反饋的,教授稍后還會談到這些。
今天要談的主要就是 IT 區(qū)域的信號特征。經(jīng)過研究人們發(fā)現(xiàn) IT 區(qū)域其實有三層特征網(wǎng)絡(luò),不過今天教授先按照一層的情況進行演講。
根據(jù)教授的測試,從把圖像呈現(xiàn)給眼睛,到 IT 產(chǎn)生響應(yīng),其中的延遲大約100毫秒。他們測量響應(yīng)的方法是在猴子大腦的不同區(qū)域植入多通道電極,測量到了神經(jīng)脈沖的電極就顯示為了圖中測試結(jié)果中的一個亮點,很多個亮點就組成了雪花一樣的測量結(jié)果。通過四張圖像、IT 中三個不同區(qū)域的測量結(jié)果,可以明顯看出 IT的這個約100毫秒的響應(yīng)延遲。它同時也體現(xiàn)出,IT 中的不同區(qū)域的對同一個類別圖像的響應(yīng)是不一樣的。
經(jīng)過大量圖像的測試,教授發(fā)現(xiàn) IT 對不同類別圖像的總體響應(yīng)強度高低有所不同(其它神經(jīng)科學(xué)家有也有研究具體某個位置的神經(jīng)響應(yīng)是如何變化的)。對于響應(yīng)模式來說,每個IT細胞都有所不同,每次的響應(yīng)也不完全相同;上一張PPT里把神經(jīng)響應(yīng)畫成了雪花的話,那么從來就不會出現(xiàn)一模一樣的雪花。
在過程中也有人嘗試研究不同區(qū)域的神經(jīng)是否對不同類別的物體響應(yīng)強度有所區(qū)別,那么也確實發(fā)現(xiàn)了“面部感知神經(jīng)細胞”,總體來說對人臉的響應(yīng)更高,但是它們對不同的臉部圖像的響應(yīng)不同、對其它的類別也不是沒有響應(yīng)。所以這些細胞并不是嚴格地按照識別物體類別進行區(qū)分的細胞,它們的復(fù)雜特性也在研究中得到了一些揭示。
IT 特征的研究
在有這些研究結(jié)果以后,教授的研究小組就開始被這一系列問題困擾:如何根據(jù)神經(jīng)細胞的響應(yīng)特點解釋測試中出現(xiàn)的誤識別行為?生物表現(xiàn)出的外在行為肯定是受到 IT 的神經(jīng)響應(yīng)模式影響的,那么如何找到這種關(guān)系?IT 區(qū)域的輸出神經(jīng)有一千萬個,又如何從這一千萬個神經(jīng)細胞中讀取信號?
下面用到的方法對 CV 界的人來說就要熟悉一些了。首先把 IT 中細胞的響應(yīng)向量化,測量 n 個細胞的響應(yīng)信號,對每個輸入的照片可以測量到 n 個細胞的響應(yīng)模式,得到 n 維特征空間中的向量表示;這個 n 維空間的基的數(shù)目就是找到的特征數(shù)目。接下來,對不同的含有臉部圖片的圖像/沒有臉部的圖像測量響應(yīng)模式,就可以嘗試能否為特征空間中的點找到一個線性分類器。
在這里,教授再一次提到了在動物大腦內(nèi)手術(shù)植入電極。通過不同區(qū)域多個電極、每個電極可以采集96個通道(96針)的信號、做大量實驗的方法,對IT等部位構(gòu)建了維數(shù)非常高的數(shù)據(jù)空間。獲得的數(shù)據(jù)量相比以前單電極的時代也有著爆炸性的提高。
借助這樣的方法, 關(guān)于 IT 中區(qū)域?qū)D像的響應(yīng)就可以構(gòu)建非常高維的響應(yīng)向量,如圖中所示,大概在100到1000個神經(jīng)細胞特征上測量得到的8個向量已經(jīng)繪制成了圖像的樣子(長條),綠色表示響應(yīng)高,黑色表示響應(yīng)低。他們測量了2000個種類圖像的向量,沒有測試更多種類的原因是用類似的特征做了50次左右的反復(fù)測量以獲得非常高的信噪比。
這樣下來,獲得的高質(zhì)量的神經(jīng)細胞響應(yīng)模式就可以成為IT能夠影響動物形成行為決定的有力證據(jù)。用線性解碼器的方法,根據(jù) IT 神經(jīng)細胞的響應(yīng)向量對誤識別行為做預(yù)測,跟直接測量行為得到的結(jié)果相符程度非常高。同樣的方法對視網(wǎng)膜級別的響應(yīng)是無法達到這樣的預(yù)測結(jié)果的(這也說明了 IT 細胞響應(yīng)的類別相關(guān)性)。
教授有一個有意思的發(fā)現(xiàn):不需要測量太多的 IT 神經(jīng)細胞特征就可以達到人類的表現(xiàn),大約500個左右就夠。同時代的計算機視覺模型中每個特征對模型表現(xiàn)的貢獻就要小很多,很多的特征才能達到近似人類的表現(xiàn)。這說明了動物的視覺理解能力可能就是由一個維數(shù)不算高的特征集支撐的,計算模型就可以用這樣的思路進行模仿。IT 大概含有一千萬個輸出神經(jīng)細胞,但是傳遞的特征維數(shù)也就不到1000個。
另一方面,既然 IT 神經(jīng)細胞的響應(yīng)是在一個 n 維空間中的,能否算出來這個 n 維空間的基的數(shù)目是多少,也就是 IT 中表征類別所用的特征集的大小是多少呢?他們就利用線性回歸的方法研究神經(jīng)響應(yīng)模式,得到特征集,用特征集表示神經(jīng)響應(yīng)向量,最后用這樣的表示模式嘗試對識別行為做預(yù)測,結(jié)果是特征集的大小達到500的時候就能夠準確預(yù)測了。這個發(fā)現(xiàn)很驚人,通過不同的方法得到了同樣的數(shù)字。這也同樣支持了IT是支持各種物體識別任務(wù)的基礎(chǔ)。圖中幾個人就是教授的研究小組中跟他一起研究了幾年的幾位學(xué)生。
那么總結(jié)來說,IT 的特征空間就是生物識別能力的潛在基礎(chǔ),借助簡單的線性分類應(yīng)對多數(shù)甚至全部物體識別中的挑戰(zhàn)。IT神經(jīng)群就是一個相對固定的基礎(chǔ)特征集,幾乎不需要反向訓(xùn)練就可以用于完成許多物體相關(guān)的任務(wù)。
在了解了 IT 細胞的特性以后,更實際和更深入的問也就來了:只有500個就夠的 IT 神經(jīng)細胞特征是如何形成的?它們是如何從視網(wǎng)膜信號的基礎(chǔ)上逐步抽象的?在人類成長的過程中這些計算方法又來自哪里?如果能夠研究清楚這些問題,也就對教授團隊的目標有很大幫助。他們的目標就是想辦法構(gòu)建一個編碼器模型,可以對任何一張圖片、任何一個中間皮脂層都準確預(yù)測對應(yīng)神經(jīng)群的響應(yīng)模式,剛剛的問題就是系統(tǒng)構(gòu)成的關(guān)鍵問題。
如何構(gòu)建能夠解釋 IT 特征的計算性網(wǎng)絡(luò)
在當時的所有研究成果中,V1 階層左右的神經(jīng)細胞功能已經(jīng)有了很好的解釋和模型,雖然都是只考慮了前饋的模型,但用來解釋 V1的響應(yīng)的時候已經(jīng)可以有超過50%的符合程度;但是各種計算模型對 IT 中響應(yīng)的近似都不好,最多只有20%。所以那時候的模型表現(xiàn)都很差。
教授接下來介紹了一些研究過程中出現(xiàn)過的模仿靈長類視覺系統(tǒng)的模型,通過種種方法從輸入圖片形成一個特征向量,然后在最后都有一個線性分類器(可以得到物體類別)。根據(jù)腦科學(xué)研究已有的成果,大家對大腦的工程和限制已經(jīng)有一些了解了,所以這些模型像大腦一樣有空間局部濾波器、卷積、臨界非線性、非線性池化、正則化等等,就通過這些方法來處理模型的輸出。最早的神經(jīng)網(wǎng)絡(luò)是Fukushima在1980年提出的,然后經(jīng)過Tomaso Poggio、David Cox、Nicolas Pinto等人的繼續(xù)研究完善,來到了教授和他的學(xué)生們一起完成的HMO模型。
它是一個深度神經(jīng)網(wǎng)絡(luò)模型,模仿了人類視覺系統(tǒng)的4個級別,其中有許多計算機視覺的人非常熟悉的卷積、特征過濾器等等。別的神經(jīng)科學(xué)家經(jīng)常做完全的神經(jīng)細胞還原仿真,而他們做的只是在已知的限制之下找到架構(gòu)更高效的人造模型。HMO在這樣模仿人類的IT基礎(chǔ)上,得到了跟人類類似的正確率表現(xiàn)。
然后他們把模型里對應(yīng) IT 的部分的特征表示和真實神經(jīng)的IT響應(yīng)拿來做對比。首先在識別正確率上已經(jīng)和人類表現(xiàn)相近。
然后,對于某個區(qū)域的 IT 神經(jīng)細胞的具體脈沖的擬合,相比以往模型只能解釋20%的變化,HMO的擬合程度得到了很大提高,大概有50%。這就說明模型中的隱含層的解釋程度同樣很高。
作為神經(jīng)科學(xué)家設(shè)計的模型,它不再是黑箱子,它的內(nèi)部機能是和人類大腦的機能對應(yīng)的。不僅是IT,V4視覺皮層的預(yù)測也達到了新高。圖中的數(shù)據(jù)也不是來自網(wǎng)絡(luò)已經(jīng)見過的類別,而展示的是模型泛化后的結(jié)果,“預(yù)測”。
教授展示了這樣一張圖,在卷積神經(jīng)網(wǎng)絡(luò)研究的過程中,網(wǎng)絡(luò)本身的物體識別能力是重要的性能指標,而實際上識別能力越強的模型也對 IT 響應(yīng)的解釋能力越好;HMO這樣的模型在性能表現(xiàn)進化的同時,對IT表現(xiàn)的解釋能力也達到了新高峰(2012年時)。
這時候的發(fā)展就比較有意思,雖然大腦和認知科學(xué)與計算機視覺的研究目標不同,但是他們做的事情開始有所匯合,都是想辦法建立具有盡量高的性能的模型。
到了2013年的時候,當時風(fēng)靡的深度神經(jīng)網(wǎng)絡(luò)AlexNet的識別表現(xiàn)和對 IT 神經(jīng)細胞響應(yīng)的解釋能力都已經(jīng)超過了他們的 HMO。教授這時也發(fā)自內(nèi)心進行了感謝,深度神經(jīng)網(wǎng)絡(luò)方面的技術(shù)發(fā)展、建立的優(yōu)秀的模型幫助神經(jīng)科學(xué)家更好地了解人類大腦中的原理。
來自神經(jīng)網(wǎng)絡(luò)的新分歧
不過神經(jīng)科學(xué)家能否坐等性能越來越好的神經(jīng)網(wǎng)絡(luò)模型,期待著靠它們就能對人類的識別模式有越來越好的理解呢?其實不行,教授自己的實驗室的模型是橘色點,隨著模型的進步,識別性能和解釋性能都得到提高;但是機器學(xué)習(xí)方面的近期模型僅僅關(guān)注圖像分類表現(xiàn)的提升,所以隨著分類表現(xiàn)的提高,對 IT 細胞響應(yīng)的解釋能力下降了。
不過總的來說,兩個領(lǐng)域共同達成了對神經(jīng)處理的每一階段都效果不錯的預(yù)測模型。重新再來看行為模式圖的話,深度CNN其實跟人類的也很像,但是總體和角落處的準確率更高;除了圖中的這個Inception v3的結(jié)果外,其他CNN的表現(xiàn)也很像。
為了繼續(xù)深入研究、解析其中的原理,他們用AMT眾包和猴子收集了更多數(shù)據(jù), 這樣就可以觀察非常細粒度的數(shù)據(jù),針對每一副正確識別或者沒能正確識別的圖像,從行為的角度進行分析。
在非常細的粒度下,猴子和人類的表現(xiàn)仍然非常接近。但是圖像間表現(xiàn)的穩(wěn)定性/特征集方面,CNN就與人類和猴子的差別很大了。
教授相信是模型中缺失了某些結(jié)構(gòu)??赡苁且驗槟P椭兄唤A饲梆伓鴽]有建模反饋,導(dǎo)致了靈長類會出現(xiàn)一些CNN模型中觀察不到的行為。
在最新的研究中,測試中也用到了 計算機視覺界圖像數(shù)據(jù)集 MS Coco 的幫忙,他們把圖像根據(jù)測試結(jié)果分為了兩類,一類是計算機視覺系統(tǒng)達到了靈長類水平的(CV-solved),另一類是表現(xiàn)沒有達到的,然后測量大腦中IT的響應(yīng)向量嘗試尋找其中的原因。
然后他們發(fā)現(xiàn),對于那些計算機視覺表現(xiàn)未達到人類水平的圖像(紅點),IT中的響應(yīng)時間多了一個明顯的、平均大約30ms的延遲(相比達到人類水平的圖像,藍點)。他們認為這30ms內(nèi)就是那些人腦有、但是CNN網(wǎng)絡(luò)沒有的結(jié)構(gòu)在工作,比如多次反饋。
這里還有一個有趣的發(fā)現(xiàn)是,前饋CNN網(wǎng)絡(luò)對IT神經(jīng)細胞群的解釋能力,在 IT 產(chǎn)生響應(yīng)花費時間越短的圖像中就越強,在 IT 產(chǎn)生響應(yīng)花費時間越長的圖像中就越弱;如圖中的曲線。這就從模型結(jié)構(gòu)需要具有反饋、循環(huán)結(jié)構(gòu)的角度對兩個研究領(lǐng)域都提出了新的挑戰(zhàn)。
不過教授說這個的目的并不是要求CV界的人一定要把反饋也加上這么簡單,而是這樣的發(fā)現(xiàn)為未來的研究揭示了多個亟待研究的問題。
教授對演講內(nèi)容做了大致總結(jié):CV界和神經(jīng)科學(xué)界都在理解中心物體感知的機制方面做出了很大的貢獻。對于未來的研究走向何方,教授也提出了新的結(jié)構(gòu)、新的研究工具、研究視覺系統(tǒng)的構(gòu)建歷程等等問題。
在演講結(jié)尾,教授感謝以往的研究者們、他的學(xué)生和同事們、贊助商,以及實驗中貢獻了他們的腦子的猴子們。尤其感謝在場的各位,不僅是因為邀請他過來,也因為CV界的成果也對他們的研究有很大的啟發(fā)。
提問:機器學(xué)習(xí)領(lǐng)域有遷移學(xué)習(xí)的方法,可以對一個已經(jīng)訓(xùn)練過的網(wǎng)絡(luò),再訓(xùn)練網(wǎng)絡(luò)的最后幾層識別以前從未見過的物體。人類視覺系統(tǒng)學(xué)習(xí)識別從未見到的物體是如何訓(xùn)練的?會在 IT 中增加新的特征嗎?
答:現(xiàn)在還不能確定IT的特征集有多少部分是天生的、多少是訓(xùn)練出的。但是對于成年動物的測試,學(xué)習(xí)新的類別需要一天左右。經(jīng)過學(xué)習(xí)20到30個新的類別以后再測試,IT的特征空間是一樣的,我們認為是在更早的傳遞過程中有所變化,把新的類別放置在原有特征空間中的新位置上。
提問:您對現(xiàn)在有的超過100層的神經(jīng)網(wǎng)絡(luò)怎么看,它們和人類神經(jīng)網(wǎng)絡(luò)之間有可比性嗎?
答:就像我剛才提到的,更深的網(wǎng)絡(luò)在測試任務(wù)中的表現(xiàn)越來越好,但是對IT細胞的響應(yīng)的解釋符合度越來越低。如果不對模型結(jié)構(gòu)作限制,只是對任務(wù)不斷優(yōu)化的話,確實會形成這種分化的趨勢。不過其實靈長類視覺四個區(qū)域也可能每個都是由很多層組成的,我們也在嘗試把其中的每一層和CNN中的每一層做對應(yīng)。我在這方面跟你有共同的猜測,但是現(xiàn)在我們也正在研究中,還不是完全的明了。
提問:CV難以識別的圖像中會不會有什么特殊的特征才導(dǎo)致了它們難以識別?
答:我們也對那些圖片中的變量作了回歸檢查, 目前還沒能發(fā)現(xiàn)什么特定的原因,沒有發(fā)現(xiàn)這些圖像的特別之處。
提問:對不同的層的采樣時間有多久?靈長類視覺層與層之間傳遞信號的延時有多久?
答:一開始演示的IT特征空間的時候是100ms,后面演示IT的信號延遲的時候是10ms,為了展示出曲線的變化。然后,層與層之間是沒有固定的延遲的,神經(jīng)科學(xué)家其實完全可以認為任意一個神經(jīng)細胞的任意一個脈沖都是有意義的,在我們這個研究中測量的只是IT的行為,從給出圖像到IT產(chǎn)生行為的延時也是從幾十到200ms都有。至于V1到V2到V4間的時間可能在完全不同的數(shù)量級上,不過因為我們沒有專門研究這個,所以就只能說這么多了。
提問:您猜想IT反饋的信息都會有哪些?純粹猜想
答:對我來說這個問題就像問我前饋流里有哪些信息一樣,用人類的語言很難描述。我覺得它們的作用有可能是通過循環(huán)的方式把更深層的網(wǎng)絡(luò)封裝在更小的空間內(nèi),根據(jù)我所見的,我是這樣猜測的。不過我不確定所有的循環(huán)和反饋都是用來計算、用來推理的,它們也可能是用來學(xué)習(xí)、用來維持學(xué)習(xí)的回路的,這個就可能需要比30ms更長的時間。如果要明確地知道的話,我們就需要更新的工具把細胞間做類型區(qū)分,才能精確測量出它們間信號的區(qū)別。這也是我們正在研究的前沿部分。所以我猜測其中有學(xué)習(xí)的循環(huán)和在小空間內(nèi)封裝更深的網(wǎng)絡(luò)的作用。完全是猜測的,感謝你給我這個猜測的機會
提問:細粒度分類任務(wù)是否有所研究?比如不是分類狗和貓,而是分類更細的某種狗、某種貓,這些方面人類的表現(xiàn)也不錯
答:在我們測量的IT的短時間反饋內(nèi)看不到細粒度分類間的區(qū)別。應(yīng)該是細粒度任務(wù)中人類還需要繼續(xù)收集更細節(jié)的信息才能夠區(qū)分,后續(xù)的信息目前從神經(jīng)細胞的層面還分辨不了。
提問:神經(jīng)細胞是如何完成“卷積”的工作的?
答:其實我經(jīng)常說,“卷積神經(jīng)網(wǎng)絡(luò)”是寫不出來的,因為大腦不是這樣工作的。但是你翻開教科書就能看到這種視覺區(qū)域內(nèi)不同部分都有類似的Gabor函數(shù)的假設(shè)。有人會說這不就是一種卷積操作嗎,但其實應(yīng)該問的是,為什么Gabor函數(shù)會起到卷積的作用。我們建立的卷積神經(jīng)網(wǎng)絡(luò)網(wǎng)絡(luò)有單獨的卷積層和卷積算子,跟大腦不同,大腦可以說是同步嘗試學(xué)習(xí)如何卷積。所以我覺得是大腦需要學(xué)習(xí)這樣的功能,學(xué)習(xí)后的統(tǒng)計特征也和卷積網(wǎng)絡(luò)的特征是類似的,所以才能用兩種不同的方式學(xué)習(xí),最終得到類似的濾波器。所以在我看來不是大腦有專門的卷積層,而是最終達到了卷積的效果。希望你能理解我的意思。
(完)
近期還有許多頂級學(xué)術(shù)會議,還會有許多精彩的學(xué)術(shù)研究演講。請感興趣的讀者繼續(xù)關(guān)注雷鋒網(wǎng) AI 科技評論。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。