殊途同歸還是漸行漸遠(yuǎn)？MIT神經(jīng)科學(xué)教授James DiCarlo談如何通過人類神經(jīng)理解神經(jīng)網(wǎng)絡(luò)

本文作者：楊曉凡

2017-08-01 11:50

導(dǎo)語：雷鋒網(wǎng) AI 科技評(píng)論按：國(guó)際計(jì)算機(jī)視覺與模式識(shí)別頂級(jí)會(huì)議CVPR 2017于 7 月 21 日至7 月 26 日在美國(guó)夏威夷召開。我們的記者團(tuán)也特赴夏威夷為大

雷鋒網(wǎng) AI 科技評(píng)論按：國(guó)際計(jì)算機(jī)視覺與模式識(shí)別頂級(jí)會(huì)議CVPR 2017于 7 月 21 日至7 月 26 日在美國(guó)夏威夷召開。我們的記者團(tuán)也特赴夏威夷為大家?guī)硪皇謭?bào)道。

全體大演講：靈長(zhǎng)類視覺理解的反向工程

殊途同歸還是漸行漸遠(yuǎn)？MIT神經(jīng)科學(xué)教授James DiCarlo談如何通過人類神經(jīng)理解神經(jīng)網(wǎng)絡(luò)

當(dāng)?shù)貢r(shí)間 7 月 25日，James DiCarlo 教授進(jìn)行了題為「The Science of Natural intelligence (NI): Reverse Engineering Primate Visual Perception」（自然智慧的科學(xué)：靈長(zhǎng)類視覺理解的反向工程）的全體演講。雷鋒網(wǎng) AI 科技評(píng)論對(duì)現(xiàn)場(chǎng)演講精華的摘錄如下文：

殊途同歸還是漸行漸遠(yuǎn)？MIT神經(jīng)科學(xué)教授James DiCarlo談如何通過人類神經(jīng)理解神經(jīng)網(wǎng)絡(luò)

James DiCarlo 是 MIT 的神經(jīng)科學(xué)教授，MIT 大腦和認(rèn)知科學(xué)學(xué)院院長(zhǎng)。他是 Alfred Sloan Fellow，是生物醫(yī)學(xué)科學(xué)的皮尤學(xué)者（Pew Scholar），以及神經(jīng)科學(xué)界的麥克白學(xué)者。他的研究目標(biāo)是用計(jì)算性的方法理解靈長(zhǎng)類視覺智能在大腦內(nèi)的形成機(jī)制。

演講正文

殊途同歸還是漸行漸遠(yuǎn)？MIT神經(jīng)科學(xué)教授James DiCarlo談如何通過人類神經(jīng)理解神經(jīng)網(wǎng)絡(luò)

DiCarlo 教授首先感謝主辦方邀請(qǐng)他來演講。他來自神經(jīng)科學(xué)界，這次來到CV界的會(huì)議，也是想借此機(jī)會(huì)做兩個(gè)研究領(lǐng)域之間溝通的橋梁。

總體研究?jī)?nèi)容與方法

教授的研究?jī)?nèi)容是人類的大腦，研究它是如何工作的、如何用計(jì)算的方式模擬它；而CV界的研究目標(biāo)則是嘗試構(gòu)建出達(dá)到人類大腦表現(xiàn)的系統(tǒng)。所以在教授看來，希望CV界的人也能夠從神經(jīng)科學(xué)的研究中受益。

最理想的狀態(tài)是PPT中黃色的這種，CV界的人把自己的研究看作是嘗試構(gòu)建系統(tǒng)的前向工程，不過要符合一些大腦本身和認(rèn)知科學(xué)的限制。神經(jīng)科學(xué)界的人就是反過來，把大腦看作已經(jīng)構(gòu)建好的系統(tǒng)，研究大腦的限制和原理、嘗試模仿大腦結(jié)構(gòu)的反向工程，在過程中逐步對(duì)所用的機(jī)理和例子做驗(yàn)證。這樣，神經(jīng)科學(xué)和神經(jīng)網(wǎng)絡(luò)的研究可以看作是互為表里，這樣的研究成果也會(huì)給腦機(jī)互動(dòng)帶來更多的可能性。

殊途同歸還是漸行漸遠(yuǎn)？MIT神經(jīng)科學(xué)教授James DiCarlo談如何通過人類神經(jīng)理解神經(jīng)網(wǎng)絡(luò)

人類大腦根據(jù)視覺輸入可以理解物體的類別、位置、姿態(tài)等等信息。人類的物體認(rèn)知能力很強(qiáng)，毫不費(fèi)力，很久以前就有不少關(guān)于人類的認(rèn)知能力的研究成果，比如人類對(duì)物體的感知聚集在視野中心視角10度左右的范圍內(nèi)，然后人眼通過移動(dòng)捕捉多幅畫面的方式來觀察完整的畫面，再鏈接到記憶。他們把人類視覺系統(tǒng)這種特點(diǎn)稱作“中心物體感知”（Core object perception）。教授研究的落腳點(diǎn)就是視覺對(duì)象認(rèn)知任務(wù)（Object perception），重點(diǎn)在于類別識(shí)別。

殊途同歸還是漸行漸遠(yuǎn)？MIT神經(jīng)科學(xué)教授James DiCarlo談如何通過人類神經(jīng)理解神經(jīng)網(wǎng)絡(luò)

教授把對(duì)中心物體感知的反向工程分為三步：

首先要對(duì)研究對(duì)象在領(lǐng)域內(nèi)的表現(xiàn)做定義和可操作化處理，尤其要關(guān)注的是現(xiàn)在制造出的系統(tǒng)相比生物大腦有哪些不足；
然后測(cè)量系統(tǒng)中會(huì)對(duì)表現(xiàn)產(chǎn)生重大影響的組件，比如他就需要測(cè)量一些生物特性，測(cè)量時(shí)候要謹(jǐn)慎地選擇測(cè)量哪幾個(gè)具體指標(biāo)；
最后在以上的限制之下進(jìn)行前向工程，構(gòu)建模型，用模型把數(shù)據(jù)組織起來。對(duì)于模型而言，它不僅需要能夠解釋、獲取數(shù)據(jù)，它還要能夠預(yù)測(cè)新的數(shù)據(jù)。這樣一來，建模也就是最關(guān)鍵的一步。

通過這三個(gè)步驟之間的互動(dòng)構(gòu)建好模型以后，就可以嘗試拓展模型的應(yīng)用領(lǐng)域了。

教授今天要講的就是依托這三個(gè)步驟，總結(jié)他在建立端到端的靈長(zhǎng)類中心物體感知系統(tǒng)模型中的進(jìn)展。

視覺行為測(cè)試與數(shù)據(jù)特征

殊途同歸還是漸行漸遠(yuǎn)？MIT神經(jīng)科學(xué)教授James DiCarlo談如何通過人類神經(jīng)理解神經(jīng)網(wǎng)絡(luò)

教授在研究中進(jìn)行測(cè)試時(shí)使用的是生成的圖像，在不相關(guān)的背景下放置不同觀察角度的物體。之所以這樣選擇的原因是，當(dāng)他開始研究時(shí)，同時(shí)代的CV系統(tǒng)很容易被不相關(guān)的背景擾亂識(shí)別結(jié)果，但是人類就不會(huì)受到什么影響；另一方面，CV系統(tǒng)對(duì)于更多姿態(tài)和變化時(shí)的識(shí)別有更大困難，但是人類表現(xiàn)得也很好，體現(xiàn)出了視角無關(guān)性，所以他認(rèn)為這樣的圖像可以更好地展現(xiàn)出人類視覺系統(tǒng)的特點(diǎn)。

殊途同歸還是漸行漸遠(yuǎn)？MIT神經(jīng)科學(xué)教授James DiCarlo談如何通過人類神經(jīng)理解神經(jīng)網(wǎng)絡(luò)

教授的測(cè)試中用到了人和猴子

殊途同歸還是漸行漸遠(yuǎn)？MIT神經(jīng)科學(xué)教授James DiCarlo談如何通過人類神經(jīng)理解神經(jīng)網(wǎng)絡(luò)

訓(xùn)練猴子做識(shí)別測(cè)試很容易。教授根據(jù)人類和猴子的測(cè)試畫過出了這樣的識(shí)別模式矩陣，其中根據(jù)不同的復(fù)雜程度排列了各種物體。每個(gè)格子的含義是把這個(gè)類別的物體和另一個(gè)類別的物體正確區(qū)分的比例，顏色越偏紅，識(shí)別準(zhǔn)確率就越低；越偏藍(lán)，識(shí)別準(zhǔn)確率就越高。

根據(jù)誤識(shí)別模式矩陣，人類表現(xiàn)和非人的靈長(zhǎng)類動(dòng)物表現(xiàn)基本相同，不僅體現(xiàn)在總體準(zhǔn)確率上，也體現(xiàn)在會(huì)把哪些東西之間認(rèn)混上。這樣就可以在動(dòng)物身上做神經(jīng)級(jí)別的測(cè)試和操控，獲得數(shù)據(jù)的類別和數(shù)量都可以大幅度提高。在此基礎(chǔ)之上就可以對(duì)信息處理的機(jī)制進(jìn)行系統(tǒng)性的研究。

殊途同歸還是漸行漸遠(yuǎn)？MIT神經(jīng)科學(xué)教授James DiCarlo談如何通過人類神經(jīng)理解神經(jīng)網(wǎng)絡(luò)

人類/靈長(zhǎng)類的大腦視覺皮層已經(jīng)有了很多研究成果，人們已經(jīng)知道可以分成 V1、V2、V4、IT四個(gè)區(qū)域。整個(gè)視覺系統(tǒng)的工作流程圖畫出來的話就是圖中這樣，把視網(wǎng)膜上的細(xì)胞看作像素的話，外界的視覺刺激首先組成視網(wǎng)膜色譜圖，然后經(jīng)過視網(wǎng)膜級(jí)別的 LGN 以后依次來到大腦皮層的 V1、V2、V4、IT 區(qū)域，每個(gè)區(qū)域都有百萬級(jí)別的細(xì)胞；然后每個(gè)區(qū)域與視網(wǎng)膜形成不同的區(qū)域?qū)?yīng)特性，對(duì)輸入信號(hào)的表征空間也逐步發(fā)生變化，人們也就是由此進(jìn)行的劃分，從而把視覺系統(tǒng)看作是一個(gè)深度分層網(wǎng)絡(luò)。由于 IT 區(qū)域在最后，有最高的抽象級(jí)別，所以 IT 區(qū)域與視網(wǎng)膜的區(qū)域?qū)?yīng)性也是最弱的，而在物體識(shí)別任務(wù)中對(duì)不同類別物體的響應(yīng)模式也是最明確的。

另一方面，現(xiàn)有研究已經(jīng)表明從 V1 開始的區(qū)域都是同時(shí)具有前饋和反饋的，教授稍后還會(huì)談到這些。

今天要談的主要就是 IT 區(qū)域的信號(hào)特征。經(jīng)過研究人們發(fā)現(xiàn) IT 區(qū)域其實(shí)有三層特征網(wǎng)絡(luò)，不過今天教授先按照一層進(jìn)行演講。殊途同歸還是漸行漸遠(yuǎn)？MIT神經(jīng)科學(xué)教授James DiCarlo談如何通過人類神經(jīng)理解神經(jīng)網(wǎng)絡(luò)

根據(jù)教授的測(cè)試，從把圖像呈現(xiàn)給眼睛，到 IT 產(chǎn)生響應(yīng)，其中的延遲大約100毫秒。他們測(cè)量響應(yīng)的方法是在猴子大腦的不同區(qū)域植入多通道電極，測(cè)量到了神經(jīng)脈沖的電極就顯示為了圖中測(cè)試結(jié)果中的一個(gè)亮點(diǎn)，很多個(gè)亮點(diǎn)就組成了雪花一樣的測(cè)量結(jié)果。通過四張圖像、IT 中三個(gè)不同區(qū)域的測(cè)量結(jié)果，可以明顯看出 IT的這個(gè)約100毫秒的響應(yīng)延遲。它同時(shí)也體現(xiàn)出，IT 中的不同區(qū)域的對(duì)同一個(gè)類別圖像的響應(yīng)是不一樣的。

殊途同歸還是漸行漸遠(yuǎn)？MIT神經(jīng)科學(xué)教授James DiCarlo談如何通過人類神經(jīng)理解神經(jīng)網(wǎng)絡(luò)

經(jīng)過大量圖像的測(cè)試，教授發(fā)現(xiàn) IT 對(duì)不同類別圖像的總體響應(yīng)強(qiáng)度高低有所不同（其它神經(jīng)科學(xué)家有也有研究具體某個(gè)位置的神經(jīng)響應(yīng)是如何變化的）。對(duì)于響應(yīng)模式來說，每個(gè)IT細(xì)胞都有所不同，每次的響應(yīng)也不完全相同；上一張PPT里把神經(jīng)響應(yīng)畫成了雪花的話，那么從來就不會(huì)出現(xiàn)一模一樣的雪花。

在過程中也有人嘗試研究不同區(qū)域的神經(jīng)是否對(duì)不同類別的物體響應(yīng)強(qiáng)度有所區(qū)別，那么也確實(shí)發(fā)現(xiàn)了“面部感知神經(jīng)細(xì)胞”，總體來說對(duì)人臉的響應(yīng)更高，但是它們對(duì)不同的臉部圖像的響應(yīng)不同、對(duì)其它的類別也不是沒有響應(yīng)。所以這些細(xì)胞并不是嚴(yán)格地按照識(shí)別物體類別進(jìn)行區(qū)分的細(xì)胞，它們的復(fù)雜特性也在研究中得到了一些揭示。

IT 特征的研究

殊途同歸還是漸行漸遠(yuǎn)？MIT神經(jīng)科學(xué)教授James DiCarlo談如何通過人類神經(jīng)理解神經(jīng)網(wǎng)絡(luò)

在有這些研究結(jié)果以后，教授的研究小組就開始被這一系列問題困擾：如何根據(jù)神經(jīng)細(xì)胞的響應(yīng)特點(diǎn)解釋測(cè)試中出現(xiàn)的誤識(shí)別行為？生物表現(xiàn)出的外在行為肯定是受到 IT 的神經(jīng)響應(yīng)模式影響的，那么如何找到這種關(guān)系？IT 區(qū)域的輸出神經(jīng)有一千萬個(gè)，又如何從這一千萬個(gè)神經(jīng)細(xì)胞中讀取信號(hào)？

殊途同歸還是漸行漸遠(yuǎn)？MIT神經(jīng)科學(xué)教授James DiCarlo談如何通過人類神經(jīng)理解神經(jīng)網(wǎng)絡(luò)

下面用到的方法對(duì) CV 界的人來說就要熟悉一些了。首先把 IT 中細(xì)胞的響應(yīng)向量化，測(cè)量 n 個(gè)細(xì)胞的響應(yīng)信號(hào)，對(duì)每個(gè)輸入的照片可以測(cè)量到 n 個(gè)細(xì)胞的響應(yīng)模式，得到 n 維特征空間中的向量表示；這個(gè) n 維空間的基的數(shù)目就是找到的特征數(shù)目。接下來，對(duì)不同的含有臉部圖片的圖像／沒有臉部的圖像測(cè)量響應(yīng)模式，就可以嘗試能否為特征空間中的點(diǎn)找到一個(gè)線性分類器。

殊途同歸還是漸行漸遠(yuǎn)？MIT神經(jīng)科學(xué)教授James DiCarlo談如何通過人類神經(jīng)理解神經(jīng)網(wǎng)絡(luò)

在這里，教授再一次提到了在動(dòng)物大腦內(nèi)手術(shù)植入電極。通過不同區(qū)域多個(gè)電極、每個(gè)電極可以采集96個(gè)通道（96針）的信號(hào)、做大量實(shí)驗(yàn)的方法，對(duì)IT等部位構(gòu)建了維數(shù)非常高的數(shù)據(jù)空間。獲得的數(shù)據(jù)量相比以前單電極的時(shí)代也有著爆炸性的提高。

殊途同歸還是漸行漸遠(yuǎn)？MIT神經(jīng)科學(xué)教授James DiCarlo談如何通過人類神經(jīng)理解神經(jīng)網(wǎng)絡(luò)

借助這樣的方法，關(guān)于 IT 中區(qū)域?qū)D像的響應(yīng)就可以構(gòu)建非常高維的響應(yīng)向量，如圖中所示，大概在100到1000個(gè)神經(jīng)細(xì)胞特征上測(cè)量得到的8個(gè)向量已經(jīng)繪制成了圖像的樣子（長(zhǎng)條），綠色表示響應(yīng)高，黑色表示響應(yīng)低。他們測(cè)量了2000個(gè)種類圖像的向量，沒有測(cè)試更多種類的原因是用類似的特征做了50次左右的反復(fù)測(cè)量以獲得非常高的信噪比。

殊途同歸還是漸行漸遠(yuǎn)？MIT神經(jīng)科學(xué)教授James DiCarlo談如何通過人類神經(jīng)理解神經(jīng)網(wǎng)絡(luò)

這樣下來，獲得的高質(zhì)量的神經(jīng)細(xì)胞響應(yīng)模式就可以成為IT能夠影響動(dòng)物形成行為決定的有力證據(jù)。用線性解碼器的方法，根據(jù) IT 神經(jīng)細(xì)胞的響應(yīng)向量對(duì)誤識(shí)別行為做預(yù)測(cè)，跟直接測(cè)量行為得到的結(jié)果相符程度非常高。同樣的方法對(duì)視網(wǎng)膜級(jí)別的響應(yīng)是無法達(dá)到這樣的預(yù)測(cè)結(jié)果的（這也說明了 IT 細(xì)胞響應(yīng)的類別相關(guān)性）。

殊途同歸還是漸行漸遠(yuǎn)？MIT神經(jīng)科學(xué)教授James DiCarlo談如何通過人類神經(jīng)理解神經(jīng)網(wǎng)絡(luò)

教授有一個(gè)有意思的發(fā)現(xiàn)：不需要測(cè)量太多的 IT 神經(jīng)細(xì)胞特征就可以達(dá)到人類的表現(xiàn)，大約500個(gè)左右就夠。同時(shí)代的計(jì)算機(jī)視覺模型中每個(gè)特征對(duì)模型表現(xiàn)的貢獻(xiàn)就要小很多，很多的特征才能達(dá)到近似人類的表現(xiàn)。這說明了動(dòng)物的視覺理解能力可能就是由一個(gè)維數(shù)不算高的特征集支撐的，計(jì)算模型就可以用這樣的思路進(jìn)行模仿。IT 大概含有一千萬個(gè)輸出神經(jīng)細(xì)胞，但是傳遞的特征維數(shù)也就不到1000個(gè)。

殊途同歸還是漸行漸遠(yuǎn)？MIT神經(jīng)科學(xué)教授James DiCarlo談如何通過人類神經(jīng)理解神經(jīng)網(wǎng)絡(luò)

另一方面，既然 IT 神經(jīng)細(xì)胞的響應(yīng)是在一個(gè) n 維空間中的，能否算出來這個(gè) n 維空間的基的數(shù)目是多少，也就是 IT 中表征類別所用的特征集的大小是多少呢？他們就利用線性回歸的方法研究神經(jīng)響應(yīng)模式，得到特征集，用特征集表示神經(jīng)響應(yīng)向量，最后用這樣的表示模式嘗試對(duì)識(shí)別行為做預(yù)測(cè)，結(jié)果是特征集的大小達(dá)到500的時(shí)候就能夠準(zhǔn)確預(yù)測(cè)了。這個(gè)發(fā)現(xiàn)很驚人，通過不同的方法得到了同樣的數(shù)字。這也同樣支持了IT是支持各種物體識(shí)別任務(wù)的基礎(chǔ)。圖中幾個(gè)人就是教授的研究小組中跟他一起研究了幾年的幾位學(xué)生。

殊途同歸還是漸行漸遠(yuǎn)？MIT神經(jīng)科學(xué)教授James DiCarlo談如何通過人類神經(jīng)理解神經(jīng)網(wǎng)絡(luò)

那么總結(jié)來說，IT 的特征空間就是生物識(shí)別能力的潛在基礎(chǔ)，借助簡(jiǎn)單的線性分類應(yīng)對(duì)多數(shù)甚至全部物體識(shí)別中的挑戰(zhàn)。IT神經(jīng)群就是一個(gè)相對(duì)固定的基礎(chǔ)特征集，幾乎不需要反向訓(xùn)練就可以用于完成許多物體相關(guān)的任務(wù)。

殊途同歸還是漸行漸遠(yuǎn)？MIT神經(jīng)科學(xué)教授James DiCarlo談如何通過人類神經(jīng)理解神經(jīng)網(wǎng)絡(luò)

在了解了 IT 細(xì)胞的特性以后，更實(shí)際和更深入的問也就來了：只有500個(gè)就夠的 IT 神經(jīng)細(xì)胞特征是如何形成的？它們是如何從視網(wǎng)膜信號(hào)的基礎(chǔ)上逐步抽象的？在人類成長(zhǎng)的過程中這些計(jì)算方法又來自哪里？如果能夠研究清楚這些問題，也就對(duì)教授團(tuán)隊(duì)的目標(biāo)有很大幫助。他們的目標(biāo)就是想辦法構(gòu)建一個(gè)編碼器模型，可以對(duì)任何一張圖片、任何一個(gè)中間皮脂層都準(zhǔn)確預(yù)測(cè)對(duì)應(yīng)神經(jīng)群的響應(yīng)模式，剛剛的問題就是系統(tǒng)構(gòu)成的關(guān)鍵問題。

如何構(gòu)建能夠解釋 IT 特征的計(jì)算性網(wǎng)絡(luò)

在當(dāng)時(shí)的所有研究成果中，V1 階層左右的神經(jīng)細(xì)胞功能已經(jīng)有了很好的解釋和模型，雖然都是只考慮了前饋的模型，但用來解釋 V1的響應(yīng)的時(shí)候已經(jīng)可以有超過50%的符合程度；但是各種計(jì)算模型對(duì) IT 中響應(yīng)的近似都不好，最多只有20%。所以那時(shí)候的模型表現(xiàn)都很差。

殊途同歸還是漸行漸遠(yuǎn)？MIT神經(jīng)科學(xué)教授James DiCarlo談如何通過人類神經(jīng)理解神經(jīng)網(wǎng)絡(luò)

教授接下來介紹了一些研究過程中出現(xiàn)過的模仿靈長(zhǎng)類視覺系統(tǒng)的模型，通過種種方法從輸入圖片形成一個(gè)特征向量，然后在最后都有一個(gè)線性分類器（可以得到物體類別）。根據(jù)腦科學(xué)研究已有的成果，大家對(duì)大腦的工程和限制已經(jīng)有一些了解了，所以這些模型像大腦一樣有空間局部濾波器、卷積、臨界非線性、非線性池化、正則化等等，就通過這些方法來處理模型的輸出。最早的神經(jīng)網(wǎng)絡(luò)是Fukushima在1980年提出的，然后經(jīng)過Tomaso Poggio、David Cox、Nicolas Pinto等人的繼續(xù)研究完善，來到了教授和他的學(xué)生們一起完成的HMO模型。

殊途同歸還是漸行漸遠(yuǎn)？MIT神經(jīng)科學(xué)教授James DiCarlo談如何通過人類神經(jīng)理解神經(jīng)網(wǎng)絡(luò)

它是一個(gè)深度神經(jīng)網(wǎng)絡(luò)模型，模仿了人類視覺系統(tǒng)的4個(gè)級(jí)別，其中有許多計(jì)算機(jī)視覺的人非常熟悉的卷積、特征過濾器等等。別的神經(jīng)科學(xué)家經(jīng)常做完全的神經(jīng)細(xì)胞還原仿真，而他們做的只是在已知的限制之下找到架構(gòu)更高效的人造模型。HMO在這樣模仿人類的IT基礎(chǔ)上，得到了跟人類類似的正確率表現(xiàn)。

殊途同歸還是漸行漸遠(yuǎn)？MIT神經(jīng)科學(xué)教授James DiCarlo談如何通過人類神經(jīng)理解神經(jīng)網(wǎng)絡(luò)

然后他們把模型里對(duì)應(yīng) IT 的部分的特征表示和真實(shí)神經(jīng)的IT響應(yīng)拿來做對(duì)比。首先在識(shí)別正確率上已經(jīng)和人類表現(xiàn)相近。

殊途同歸還是漸行漸遠(yuǎn)？MIT神經(jīng)科學(xué)教授James DiCarlo談如何通過人類神經(jīng)理解神經(jīng)網(wǎng)絡(luò)

然后，對(duì)于某個(gè)區(qū)域的 IT 神經(jīng)細(xì)胞的具體脈沖的擬合，相比以往模型只能解釋20%的變化，HMO的擬合程度得到了很大提高，大概有50%。這就說明模型中的隱含層的解釋程度同樣很高。

殊途同歸還是漸行漸遠(yuǎn)？MIT神經(jīng)科學(xué)教授James DiCarlo談如何通過人類神經(jīng)理解神經(jīng)網(wǎng)絡(luò)

作為神經(jīng)科學(xué)家設(shè)計(jì)的模型，它不再是黑箱子，它的內(nèi)部機(jī)能是和人類大腦的機(jī)能對(duì)應(yīng)的。不僅是IT，V4視覺皮層的預(yù)測(cè)也達(dá)到了新高。圖中的數(shù)據(jù)也不是來自網(wǎng)絡(luò)已經(jīng)見過的類別，而展示的是模型泛化后的結(jié)果，“預(yù)測(cè)”。

殊途同歸還是漸行漸遠(yuǎn)？MIT神經(jīng)科學(xué)教授James DiCarlo談如何通過人類神經(jīng)理解神經(jīng)網(wǎng)絡(luò)

教授展示了這樣一張圖，在卷積神經(jīng)網(wǎng)絡(luò)研究的過程中，網(wǎng)絡(luò)本身的物體識(shí)別能力是重要的性能指標(biāo)，而實(shí)際上識(shí)別能力越強(qiáng)的模型也對(duì) IT 響應(yīng)的解釋能力越好；HMO這樣的模型在性能表現(xiàn)進(jìn)化的同時(shí)，對(duì)IT表現(xiàn)的解釋能力也達(dá)到了新高峰（2012年時(shí)）。

殊途同歸還是漸行漸遠(yuǎn)？MIT神經(jīng)科學(xué)教授James DiCarlo談如何通過人類神經(jīng)理解神經(jīng)網(wǎng)絡(luò)

這時(shí)候的發(fā)展就比較有意思，雖然大腦和認(rèn)知科學(xué)與計(jì)算機(jī)視覺的研究目標(biāo)不同，但是他們做的事情開始有所匯合，都是想辦法建立具有盡量高的性能的模型。

殊途同歸還是漸行漸遠(yuǎn)？MIT神經(jīng)科學(xué)教授James DiCarlo談如何通過人類神經(jīng)理解神經(jīng)網(wǎng)絡(luò)

到了2013年的時(shí)候，當(dāng)時(shí)風(fēng)靡的深度神經(jīng)網(wǎng)絡(luò)AlexNet的識(shí)別表現(xiàn)和對(duì) IT 神經(jīng)細(xì)胞響應(yīng)的解釋能力都已經(jīng)超過了他們的 HMO。教授這時(shí)也發(fā)自內(nèi)心進(jìn)行了感謝，深度神經(jīng)網(wǎng)絡(luò)方面的技術(shù)發(fā)展、建立的優(yōu)秀的模型幫助神經(jīng)科學(xué)家更好地了解人類大腦中的原理。

來自神經(jīng)網(wǎng)絡(luò)的新分歧

殊途同歸還是漸行漸遠(yuǎn)？MIT神經(jīng)科學(xué)教授James DiCarlo談如何通過人類神經(jīng)理解神經(jīng)網(wǎng)絡(luò)

不過神經(jīng)科學(xué)家能否坐等性能越來越好的神經(jīng)網(wǎng)絡(luò)模型，期待著靠它們就能對(duì)人類的識(shí)別模式有越來越好的理解呢？其實(shí)不行，教授自己的實(shí)驗(yàn)室的模型是橘色點(diǎn)，隨著模型的進(jìn)步，識(shí)別性能和解釋性能都得到提高；但是機(jī)器學(xué)習(xí)方面的近期模型僅僅關(guān)注圖像分類表現(xiàn)的提升，所以隨著分類表現(xiàn)的提高，對(duì) IT 細(xì)胞響應(yīng)的解釋能力下降了。

殊途同歸還是漸行漸遠(yuǎn)？MIT神經(jīng)科學(xué)教授James DiCarlo談如何通過人類神經(jīng)理解神經(jīng)網(wǎng)絡(luò)

不過總的來說，兩個(gè)領(lǐng)域共同達(dá)成了對(duì)神經(jīng)處理的每一階段都效果不錯(cuò)的預(yù)測(cè)模型。重新再來看行為模式圖的話，深度CNN其實(shí)跟人類的也很像，但是總體和角落處的準(zhǔn)確率更高；除了圖中的這個(gè)Inception v3的結(jié)果外，其他CNN的表現(xiàn)也很像。

殊途同歸還是漸行漸遠(yuǎn)？MIT神經(jīng)科學(xué)教授James DiCarlo談如何通過人類神經(jīng)理解神經(jīng)網(wǎng)絡(luò)

為了繼續(xù)深入研究、解析其中的原理，他們用AMT眾包和猴子收集了更多數(shù)據(jù)，這樣就可以觀察非常細(xì)粒度的數(shù)據(jù)，針對(duì)每一副正確識(shí)別或者沒能正確識(shí)別的圖像，從行為的角度進(jìn)行分析。

殊途同歸還是漸行漸遠(yuǎn)？MIT神經(jīng)科學(xué)教授James DiCarlo談如何通過人類神經(jīng)理解神經(jīng)網(wǎng)絡(luò)

在非常細(xì)的粒度下，猴子和人類的表現(xiàn)仍然非常接近。但是圖像間表現(xiàn)的穩(wěn)定性／特征集方面，CNN就與人類和猴子的差別很大了。

殊途同歸還是漸行漸遠(yuǎn)？MIT神經(jīng)科學(xué)教授James DiCarlo談如何通過人類神經(jīng)理解神經(jīng)網(wǎng)絡(luò)

教授相信是模型中缺失了某些結(jié)構(gòu)。可能是因?yàn)槟Ｐ椭兄唤Ａ饲梆伓鴽]有建模反饋，導(dǎo)致了靈長(zhǎng)類會(huì)出現(xiàn)一些CNN模型中觀察不到的行為。

殊途同歸還是漸行漸遠(yuǎn)？MIT神經(jīng)科學(xué)教授James DiCarlo談如何通過人類神經(jīng)理解神經(jīng)網(wǎng)絡(luò)

在最新的研究中，測(cè)試中也用到了計(jì)算機(jī)視覺界圖像數(shù)據(jù)集 MS Coco 的幫忙，他們把圖像根據(jù)測(cè)試結(jié)果分為了兩類，一類是計(jì)算機(jī)視覺系統(tǒng)達(dá)到了靈長(zhǎng)類水平的（CV-solved），另一類是表現(xiàn)沒有達(dá)到的，然后測(cè)量大腦中IT的響應(yīng)向量嘗試尋找其中的原因。

殊途同歸還是漸行漸遠(yuǎn)？MIT神經(jīng)科學(xué)教授James DiCarlo談如何通過人類神經(jīng)理解神經(jīng)網(wǎng)絡(luò)

然后他們發(fā)現(xiàn)，對(duì)于那些計(jì)算機(jī)視覺表現(xiàn)未達(dá)到人類水平的圖像（紅點(diǎn)），IT中的響應(yīng)時(shí)間多了一個(gè)明顯的、平均大約30ms的延遲（相比達(dá)到人類水平的圖像，藍(lán)點(diǎn)）。他們認(rèn)為這30ms內(nèi)就是那些人腦有、但是CNN網(wǎng)絡(luò)沒有的結(jié)構(gòu)在工作，比如多次反饋。

殊途同歸還是漸行漸遠(yuǎn)？MIT神經(jīng)科學(xué)教授James DiCarlo談如何通過人類神經(jīng)理解神經(jīng)網(wǎng)絡(luò)

這里還有一個(gè)有趣的發(fā)現(xiàn)是，前饋CNN網(wǎng)絡(luò)對(duì)IT神經(jīng)細(xì)胞群的解釋能力，在 IT 產(chǎn)生響應(yīng)花費(fèi)時(shí)間越短的圖像中就越強(qiáng)，在 IT 產(chǎn)生響應(yīng)花費(fèi)時(shí)間越長(zhǎng)的圖像中就越弱；如圖中的曲線。這就從模型結(jié)構(gòu)需要具有反饋、循環(huán)結(jié)構(gòu)的角度對(duì)兩個(gè)研究領(lǐng)域都提出了新的挑戰(zhàn)。

不過教授說這個(gè)的目的并不是要求CV界的人一定要把反饋也加上這么簡(jiǎn)單，而是這樣的發(fā)現(xiàn)為未來的研究揭示了多個(gè)亟待研究的問題。

殊途同歸還是漸行漸遠(yuǎn)？MIT神經(jīng)科學(xué)教授James DiCarlo談如何通過人類神經(jīng)理解神經(jīng)網(wǎng)絡(luò)

教授對(duì)演講內(nèi)容做了大致總結(jié)：CV界和神經(jīng)科學(xué)界都在理解中心物體感知的機(jī)制方面做出了很大的貢獻(xiàn)。對(duì)于未來的研究走向何方，教授也提出了新的結(jié)構(gòu)、新的研究工具、研究視覺系統(tǒng)的構(gòu)建歷程等等問題。

殊途同歸還是漸行漸遠(yuǎn)？MIT神經(jīng)科學(xué)教授James DiCarlo談如何通過人類神經(jīng)理解神經(jīng)網(wǎng)絡(luò)

在演講結(jié)尾，教授感謝以往的研究者們、他的學(xué)生和同事們、贊助商，以及實(shí)驗(yàn)中貢獻(xiàn)了他們的腦子的猴子們。尤其感謝在場(chǎng)的各位，不僅是因?yàn)檠?qǐng)他過來，也因?yàn)镃V界的成果也對(duì)他們的研究有很大的啟發(fā)。

提問環(huán)節(jié)

提問：機(jī)器學(xué)習(xí)領(lǐng)域有遷移學(xué)習(xí)的方法，可以對(duì)一個(gè)已經(jīng)訓(xùn)練過的網(wǎng)絡(luò)，再訓(xùn)練網(wǎng)絡(luò)的最后幾層識(shí)別以前從未見過的物體。人類視覺系統(tǒng)學(xué)習(xí)識(shí)別從未見到的物體是如何訓(xùn)練的？會(huì)在 IT 中增加新的特征嗎？

答：現(xiàn)在還不能確定IT的特征集有多少部分是天生的、多少是訓(xùn)練出的。但是對(duì)于成年動(dòng)物的測(cè)試，學(xué)習(xí)新的類別需要一天左右。經(jīng)過學(xué)習(xí)20到30個(gè)新的類別以后再測(cè)試，IT的特征空間是一樣的，我們認(rèn)為是在更早的傳遞過程中有所變化，把新的類別放置在原有特征空間中的新位置上。

提問：您對(duì)現(xiàn)在有的超過100層的神經(jīng)網(wǎng)絡(luò)怎么看，它們和人類神經(jīng)網(wǎng)絡(luò)之間有可比性嗎？

答：就像我剛才提到的，更深的網(wǎng)絡(luò)在測(cè)試任務(wù)中的表現(xiàn)越來越好，但是對(duì)IT細(xì)胞的響應(yīng)的解釋符合度越來越低。如果不對(duì)模型結(jié)構(gòu)作限制，只是對(duì)任務(wù)不斷優(yōu)化的話，確實(shí)會(huì)形成這種分化的趨勢(shì)。不過其實(shí)靈長(zhǎng)類視覺四個(gè)區(qū)域也可能每個(gè)都是由很多層組成的，我們也在嘗試把其中的每一層和CNN中的每一層做對(duì)應(yīng)。我在這方面跟你有共同的猜測(cè)，但是現(xiàn)在我們也正在研究中，還不是完全的明了。

提問：CV難以識(shí)別的圖像中會(huì)不會(huì)有什么特殊的特征才導(dǎo)致了它們難以識(shí)別？

答：我們也對(duì)那些圖片中的變量作了回歸檢查，目前還沒能發(fā)現(xiàn)什么特定的原因，沒有發(fā)現(xiàn)這些圖像的特別之處。

提問：對(duì)不同的層的采樣時(shí)間有多久？靈長(zhǎng)類視覺層與層之間傳遞信號(hào)的延時(shí)有多久？

答：一開始演示的IT特征空間的時(shí)候是100ms，后面演示IT的信號(hào)延遲的時(shí)候是10ms，為了展示出曲線的變化。然后，層與層之間是沒有固定的延遲的，神經(jīng)科學(xué)家其實(shí)完全可以認(rèn)為任意一個(gè)神經(jīng)細(xì)胞的任意一個(gè)脈沖都是有意義的，在我們這個(gè)研究中測(cè)量的只是IT的行為，從給出圖像到IT產(chǎn)生行為的延時(shí)也是從幾十到200ms都有。至于V1到V2到V4間的時(shí)間可能在完全不同的數(shù)量級(jí)上，不過因?yàn)槲覀儧]有專門研究這個(gè)，所以就只能說這么多了。

提問：您猜想IT反饋的信息都會(huì)有哪些？純粹猜想

答：對(duì)我來說這個(gè)問題就像問我前饋流里有哪些信息一樣，用人類的語言很難描述。我覺得它們的作用有可能是通過循環(huán)的方式把更深層的網(wǎng)絡(luò)封裝在更小的空間內(nèi)，根據(jù)我所見的，我是這樣猜測(cè)的。不過我不確定所有的循環(huán)和反饋都是用來計(jì)算、用來推理的，它們也可能是用來學(xué)習(xí)、用來維持學(xué)習(xí)的回路的，這個(gè)就可能需要比30ms更長(zhǎng)的時(shí)間。如果要明確地知道的話，我們就需要更新的工具把細(xì)胞間做類型區(qū)分，才能精確測(cè)量出它們間信號(hào)的區(qū)別。這也是我們正在研究的前沿部分。所以我猜測(cè)其中有學(xué)習(xí)的循環(huán)和在小空間內(nèi)封裝更深的網(wǎng)絡(luò)的作用。完全是猜測(cè)的，感謝你給我這個(gè)猜測(cè)的機(jī)會(huì)

提問：細(xì)粒度分類任務(wù)是否有所研究？比如不是分類狗和貓，而是分類更細(xì)的某種狗、某種貓，這些方面人類的表現(xiàn)也不錯(cuò)

答：在我們測(cè)量的IT的短時(shí)間反饋內(nèi)看不到細(xì)粒度分類間的區(qū)別。應(yīng)該是細(xì)粒度任務(wù)中人類還需要繼續(xù)收集更細(xì)節(jié)的信息才能夠區(qū)分，后續(xù)的信息目前從神經(jīng)細(xì)胞的層面還分辨不了。

提問：神經(jīng)細(xì)胞是如何完成“卷積”的工作的？

答：其實(shí)我經(jīng)常說，“卷積神經(jīng)網(wǎng)絡(luò)”是寫不出來的，因?yàn)榇竽X不是這樣工作的。但是你翻開教科書就能看到這種視覺區(qū)域內(nèi)不同部分都有類似的Gabor函數(shù)的假設(shè)。有人會(huì)說這不就是一種卷積操作嗎，但其實(shí)應(yīng)該問的是，為什么Gabor函數(shù)會(huì)起到卷積的作用。我們建立的卷積神經(jīng)網(wǎng)絡(luò)網(wǎng)絡(luò)有單獨(dú)的卷積層和卷積算子，跟大腦不同，大腦可以說是同步嘗試學(xué)習(xí)如何卷積。所以我覺得是大腦需要學(xué)習(xí)這樣的功能，學(xué)習(xí)后的統(tǒng)計(jì)特征也和卷積網(wǎng)絡(luò)的特征是類似的，所以才能用兩種不同的方式學(xué)習(xí)，最終得到類似的濾波器。所以在我看來不是大腦有專門的卷積層，而是最終達(dá)到了卷積的效果。希望你能理解我的意思。

（完）

近期還有許多頂級(jí)學(xué)術(shù)會(huì)議，還會(huì)有許多精彩的學(xué)術(shù)研究演講。請(qǐng)感興趣的讀者繼續(xù)關(guān)注雷鋒網(wǎng) AI 科技評(píng)論。

CVPR現(xiàn)場(chǎng)直擊：一文盡覽最頂級(jí)的CV+學(xué)術(shù)盛會(huì)！| CVPR 2017

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。