0
本文作者: 楊曉凡 | 編輯:郭奕欣 | 2017-04-28 16:05 | 專題:ICLR 2017 |
雷鋒網(wǎng)AI科技評(píng)論按:在剛剛閉幕的ICLR2017上,紐約大學(xué)神經(jīng)學(xué)、數(shù)學(xué)、心理學(xué)教授Eero Simoncelli作為特邀嘉賓分享了他在機(jī)器表征、人類感知方面的研究成果。以下為現(xiàn)場視頻及雷鋒網(wǎng)全文聽譯。
附原視頻:
(Eero走上臺(tái)準(zhǔn)備開始演講)
首先謝謝,謝謝剛才對(duì)我的介紹,感謝大會(huì)主席Yann和Yoshua,以及評(píng)委會(huì)主席Hugo、Tara、Oriol邀請(qǐng)我參加,很榮幸可以參加這次會(huì)議。
我們小組的工作主要是在理解視覺和其它各種感官表征上,研究這些表征是如何建立起來的、如何組織信息、維持和展現(xiàn)關(guān)于環(huán)境的信息。我不僅好奇神經(jīng)細(xì)胞是如何做到的、是如何把神經(jīng)學(xué)表征與視覺環(huán)境對(duì)應(yīng)起來的,我還好奇這些表征會(huì)如何形成或者限制我們的理解。最后,當(dāng)我們了解了這些表征的規(guī)律以后,如何利用這些規(guī)律設(shè)計(jì)優(yōu)秀的系統(tǒng),給其它圖像處理和計(jì)算機(jī)視覺之類的應(yīng)用帶來方便。我下面要做的是,帶大家回顧一下(視覺表征)這方面研究的發(fā)展歷程。其實(shí),深度卷積網(wǎng)絡(luò)也同時(shí)在快速發(fā)展,取得了不少成果,過程中我也會(huì)給大家講一下過程中兩者間有哪些同步的和不同的地方。
OK。我幻燈片第一頁是一張牛的照片,這張照片是我很多年前在瑞士拍的??匆妶D的過程是這樣的:
光線進(jìn)入你的眼睛,照到你的視網(wǎng)膜上,視網(wǎng)膜上有細(xì)胞,它們可以觀察到圖片上的很小的區(qū)域;
對(duì)這些區(qū)域進(jìn)行處理的時(shí)候會(huì)用到一個(gè)視網(wǎng)膜內(nèi)的網(wǎng)絡(luò)回路,從大概5百萬個(gè)視錐細(xì)胞開始,它們能把光照轉(zhuǎn)換成電信號(hào);
這些信號(hào)接下來會(huì)經(jīng)過回路轉(zhuǎn)換成為大約一百萬個(gè)中樞神經(jīng)細(xì)胞的輸出;
這些神經(jīng)細(xì)胞的軸突形成了視覺細(xì)胞的線纜,然后從你眼睛的后側(cè)走出來。當(dāng)然了,每只眼睛后面都會(huì)有一根這樣的線纜。所以,可以這樣講,有大概5百萬個(gè)感官單元可以形成像素,像素化的測量會(huì)轉(zhuǎn)換到一百萬條纖維組成的線纜中,然后到達(dá)你的大腦。
經(jīng)過這個(gè)過程,信息會(huì)被被轉(zhuǎn)換、總結(jié),會(huì)與其它感官輸入的信息進(jìn)行綜合,與你的內(nèi)在狀態(tài)的信息進(jìn)行綜合,“內(nèi)在狀態(tài)”是指像記憶、意象、動(dòng)作以及其它類似這種大腦產(chǎn)生的東西。通過這一切就形成了“你看到了”的感覺,以這個(gè)例子來講就是你看到了這頭牛。
那么,信息其實(shí)會(huì)被傳到大腦的后側(cè)去,線路看起來挺奇怪的,線纜會(huì)大老遠(yuǎn)地把視覺信息傳到后面去。人的主要視覺皮層就在這里,哺乳動(dòng)物最大的皮層區(qū)域之一,當(dāng)然也是靈長目里最大的之一。這里的神經(jīng)細(xì)胞我們幾十年前就認(rèn)識(shí)了,感謝上世紀(jì)五六十年代Hugo和Wessel的開創(chuàng)性工作,這里的細(xì)胞有方向選擇性。這些神經(jīng)細(xì)胞,我們描述它們時(shí)候的常用詞叫“感受野”,這是一種對(duì)神經(jīng)細(xì)胞處理的內(nèi)容的線性近似,它是一個(gè)加權(quán)函數(shù),看起來差不多像圖示(雷鋒網(wǎng)注:上方圖中V1)的這樣,大家中如果有做視覺方面的可以看作是Gabor函數(shù)。這種加權(quán)函數(shù)就給細(xì)胞賦予了局部的方向選擇性。
所以方向性是這些細(xì)胞的決定性特性,這是所有人對(duì)這些V1初級(jí)皮層細(xì)胞的看法。實(shí)際上用簡單的動(dòng)畫來表達(dá)V1細(xì)胞做的事情的話,就是測量環(huán)境中局部的微小方向,小條、小塊,它要測出其中占支配地位的方向是什么。它會(huì)把這個(gè)結(jié)果告訴大腦的其它部分。
然后會(huì)發(fā)生什么呢?V1會(huì)有很多輸出到V2,V2也是很大的一塊區(qū)域,人和猴子的V2區(qū)域可能還要比V1大一點(diǎn)。就像圖里這樣,它差不多在V1的邊上,包著V1。然而事實(shí)是這樣的,即便人們幾十年前知道V2神經(jīng)細(xì)胞的存在了,Hugo和Wessel就記錄過V2細(xì)胞,人們還是花了很長時(shí)間才弄明白V2到底是做什么的。既然V2細(xì)胞接收V1細(xì)胞的輸出,所以很自然地可以想象V2會(huì)對(duì)V1細(xì)胞的局部方向做一些合并。
這就讓我們回想起以前Hugo和Wessel那個(gè)時(shí)代所想的理論,你會(huì)覺得這些計(jì)算機(jī)視覺范式的關(guān)鍵點(diǎn)都是找到圖像中一組一組的邊緣,然后把這些邊緣補(bǔ)全連接起來,就找到了界線和輪廓,接著就用它們分離對(duì)象,確定哪些是前景哪些是背景,最后就可以做對(duì)象識(shí)別。
想到這種范式是非常自然的,你可能會(huì)覺得這些V2細(xì)胞就在執(zhí)行這個(gè)流程的第一步,沿著界線(雷鋒網(wǎng)注找:圖中紅色虛線)找到一段一段的邊緣并且把他們拼接起來。
但是讓人們嘗試記錄V2細(xì)胞的輸出,嘗試測量V2細(xì)胞對(duì)角度、曲線、或者各種局部方向的組合的選擇性的時(shí)候,比如這張圖是Newston測試中用到的刺激圖案,這種實(shí)驗(yàn)只取得了非常有限的成果。在這個(gè)例子里, V2細(xì)胞中只有很少的一部分似乎對(duì)這種刺激做出了明顯的反應(yīng),而對(duì)很多的V2細(xì)胞而言,這些不同的局部方向組合都不能引起任何反應(yīng),即便有反應(yīng)的細(xì)胞也只是微弱的反應(yīng)。
所以大概到了2012年,我們還缺少對(duì)V2功能性中的任何協(xié)同作用的發(fā)現(xiàn),尤其是其中運(yùn)用V1的輸出來讓V2的輸出產(chǎn)生區(qū)別的那些功能。我覺得這事挺神奇的,有數(shù)不清的神經(jīng)組織參與著視覺的形成,顯然這是很重要的一件事情,可是花了這么多資源以后,如果V2只是在模仿V1所做的事情,進(jìn)化成這樣也挺奇怪的。剛才忘了說大多數(shù)的V2細(xì)胞確實(shí)是對(duì)方向有選擇性的,部分地、松散地具有方向選擇性。
那么這個(gè)問題變得很神秘了,這些細(xì)胞、這些組織到底是用來做什么的?我覺得,我得到自己的答案是通過重新審視這個(gè)假設(shè),計(jì)算機(jī)視覺、實(shí)際上所有的視覺研究在一開始都是這樣想的,那就是認(rèn)為世界是由有邊界的物體組成的,我們會(huì)認(rèn)為沿著這些邊界來把不同的東西分開是最基本的一步。
可是當(dāng)你自己看這個(gè)場景的時(shí)候,畫面中的大部分內(nèi)容其實(shí)是并不是邊界,而是許多成塊的、近似的、幾乎均勻分布的組織。(雷鋒網(wǎng)注:演講花絮,見動(dòng)圖)為什么大家在笑?我升到上面去了,然后現(xiàn)在大家都在看我的后腦勺?
回到正題,當(dāng)你看著這張圖片的時(shí)候,有種東西占據(jù)了圖片里的大部分面積,我們把它叫做“紋理”,視覺紋理。圖里能看到這些草形成的斑塊,每一處的斑塊看起來很像,但是每一處又不會(huì)完全一樣,其中的不同的葉子有不同的長度、角度等等。其中有很多的方向,可能屏幕不是很清晰所以看得不是很明顯,但是如果你能仔細(xì)觀察的話,你的V1細(xì)胞可以對(duì)其中每棵草的方向做出不錯(cuò)的響應(yīng)。但是每一塊斑塊都是完全不同的草葉混在一起組成的。
如果你往上看一點(diǎn),可以看到這塊巖石的正面,它看起不太一樣,方向特性有一些不一樣,但是你也可以測量它的局部方向,那里顯示著的就是某種特定的組合。牛身上的毛也一樣,等等。所以實(shí)際上,我們的視覺世界里充滿了紋理,可以說是被紋理統(tǒng)治的。我覺得有可能很多V2細(xì)胞就是用來處理紋理的。這只是個(gè)猜測,等一下我會(huì)給大家講解我做過的研究,看看能否證實(shí)這個(gè)猜測。
接下來我就不說更多生理學(xué)的東西了,我來說一說感知。前面這些都是一些介紹性的思考過程。因?yàn)槲抑溃谖覀兊膶W(xué)術(shù)社區(qū)中,很多對(duì)分層級(jí)聯(lián),或者說卷積算子的發(fā)展起到了推動(dòng)作用的因素,其實(shí)是因?yàn)槿藗兇致缘赜X得視覺系統(tǒng)就是這樣工作的。
所以,紋理無處不在,這里是更多的例子,隨處都能看到。為了能夠描述紋理,我們需要給紋理設(shè)計(jì)一個(gè)計(jì)算理論,這樣我們才能夠從感知和生理的角度去測試它,而且也才能夠建立用在機(jī)器學(xué)習(xí)系統(tǒng)中的算法和表征。
那么什么是“紋理”呢,不嚴(yán)謹(jǐn)?shù)卣f,紋理就一種同類的、具有重復(fù)性的圖像,各個(gè)部分都會(huì)出現(xiàn)同一類的東西、同樣的結(jié)構(gòu)。Lettvin說過的這段話我覺得很好,把這個(gè)概念描述得很貼切、很直觀,是1976年的,
“我們可以這樣講,如果可見的物體不一樣,而且它們之間離得很遠(yuǎn),這就是形態(tài);如果它們相似而且是聚在一起的,這就是紋理。一個(gè)人是一種形態(tài),而人群具有‘人’這樣的紋理;”這種說法真時(shí)髦,“一片葉子是一種形態(tài),而樹冠具有葉子的紋理,等等?!?/p>
這個(gè)意思就是說,你把很多東西放在一起就成了紋理;如果你只有單獨(dú)一個(gè)東西,那就不是紋理。等一下我再給你們展示幾個(gè)例子來把這個(gè)問題講通。
所以,從算法角度建模和描述紋理的想法從上世紀(jì)60年代就有了,這些東西都是那個(gè)時(shí)候發(fā)生的,真是一個(gè)不錯(cuò)的年代呢,對(duì)音樂來說也是。在這段時(shí)間,Julesz基本上自己提出了一個(gè)猜想,他覺得從人類感知和計(jì)算建模的角度,正確的思路應(yīng)當(dāng)是紋理可以用一組有限的統(tǒng)計(jì)特征來表達(dá)。
他對(duì)此的解釋是,如果人的大腦會(huì)通過某種方式來測量和計(jì)算這些有限的特征,那么正確的聯(lián)系和理解這個(gè)猜想的方式就是做預(yù)測,表達(dá)出來是這樣:“兩種具有同樣統(tǒng)計(jì)特征的紋理”,他當(dāng)時(shí)想的是n階的像素特征,“如果特征一樣,看起來就會(huì)一樣”。就是說,如果能夠發(fā)現(xiàn)人類大腦采用的表征是什么,那如果有任意兩張圖片的這些表征是相同的,在人類大腦看來就會(huì)是一樣的。他指出的這種測試的方法論、這種紋理模型里面蘊(yùn)含了非常有力的東西,稍等馬上會(huì)講到。
Julesz列出了一個(gè)明確的目標(biāo),要用一種統(tǒng)計(jì)學(xué)模型來捕捉感知。另外還有一組非常重要的對(duì)測量過程的描述是:
首先不管表征如何,測量方法都應(yīng)當(dāng)是靜態(tài)的,具有平移不變性——統(tǒng)計(jì)特征就是從這里來的,他要指的是整個(gè)圖像中內(nèi)容的均值;
它還應(yīng)當(dāng)是通用的,同一組統(tǒng)計(jì)特征對(duì)所有的紋理都可以起作用,每一種不同的紋理都會(huì)有不同的統(tǒng)計(jì)特征,但如果你發(fā)現(xiàn)兩張圖片有相同的統(tǒng)計(jì)特征,那它們應(yīng)該要看起來一樣;
最后一點(diǎn)也既重要,又有一點(diǎn)巧妙,這個(gè)假設(shè)只在這個(gè)情況下才有意義,就是你需要盡量少的維度。
要在能夠達(dá)到目標(biāo)的維度數(shù)目里選擇最少的那一個(gè),尤其是如果你研究的圖像尺寸不大,那就非常好理解。如果你的矩陣中有太多的統(tǒng)計(jì)特征的話,最終你會(huì)給本來滿足統(tǒng)計(jì)特征的圖像加上越來越多的限制,最后在這個(gè)組里就不會(huì)剩下什么了。這種情況下如果你從一張初始的圖像開始,然后你找到了另外一張統(tǒng)計(jì)特征一樣的圖像,但這張圖像只是原來那張圖像平移后的一個(gè)副本,這種假設(shè)就不是很讓人喜歡了。所以表征,或者統(tǒng)計(jì)特征的維度盡可能少,就是很重要的一件事情。這是一種會(huì)讓紋理圖像的信息被減少、壓縮的,但仍能代表紋理特征的總結(jié)性測量。
還有一件事情值得指出的是,盡管人們已經(jīng)認(rèn)為生成性模型是解決視覺中和其它許多領(lǐng)域問題的非常重要的方法,但Julesz的表述只是一種分析性的表述,只有當(dāng)你去測量這些統(tǒng)計(jì)特征的時(shí)候才能發(fā)揮作用,這些屬性才能夠體現(xiàn)。這就給我們?nèi)绾螌?shí)際做測量留下了一些難題。
所以實(shí)際上Julesz在1962年那時(shí),想了一些辦法來做這個(gè)測試,他當(dāng)時(shí)用的是二進(jìn)制顏色的圖像,只有黑色和白色,用到的圖像也是他手工繪制的。跟大家一樣,他對(duì)這些圖像做分析,試試看他的理論是不是對(duì)的。不過你不能只憑實(shí)驗(yàn)就說一個(gè)理論是對(duì)的,從科學(xué)的角度來講這是不能夠證明理論的正確性的,具體到這里,你沒辦法把所有的圖片都拿過來進(jìn)行嘗試。所以你要反過來,找反例,找理論失敗的情況。
那么他就開始找,他假設(shè)統(tǒng)計(jì)特征的維度是2階,看看能否找到一組2階統(tǒng)計(jì)特征相同、但是人類看起來不同的圖像,這樣就能說明模型是不成功的,然后就排除這個(gè)可能,繼續(xù)嘗試3階的。當(dāng)他達(dá)到3階的時(shí)候,屏幕靠左下方顯示的這兩張就是他手工建立的圖片,它們具有相同的3階統(tǒng)計(jì)特征。算法是,兩個(gè)兩個(gè)地取其中的像素,算出圖像中所有成對(duì)像素的積的平均數(shù);然后三個(gè)三個(gè)地取像素,算出圖像中所有三個(gè)三個(gè)像素的積的平均數(shù)。這兩張圖片在這兩件事情上都是相等的,但是你能看出來兩張圖還是有一些不同的,就像是用不同的材料畫的。實(shí)際上人類確實(shí)也很擅長發(fā)現(xiàn)這些材質(zhì)上的區(qū)別,所以他就認(rèn)為自己的理論是不成立的,就放棄了。
許多年以后,一個(gè)非常有天賦的博士生Javier Portilla加入了我的實(shí)驗(yàn)室,我們開始討論有沒有更好的表征紋理的方法。我們重新翻看了Julesz的想法,然后用簡化的現(xiàn)代方法、當(dāng)然也是借鑒生理學(xué)的方法去執(zhí)行。其中的關(guān)鍵點(diǎn)是,我們并沒有計(jì)算像素的統(tǒng)計(jì)特征,而是思考大腦是如何進(jìn)行測量的,其實(shí)Julesz當(dāng)時(shí)也可以這么做,我其實(shí)剛才就說Hugo和Wessel在五六十年代就發(fā)現(xiàn)了V1細(xì)胞能代表內(nèi)容的局部方向性,不過如果他真的做的話,他就需要一個(gè)復(fù)雜得多的算法,也就沒辦法做出這些例子了。
當(dāng)時(shí)間到了90年代末的時(shí)候,我們已經(jīng)有條件做這件事了,所以我和Javier對(duì)V1建立了一個(gè)非常簡單的模型,我只簡單講一下吧,對(duì)V1來說有兩種基本類型的細(xì)胞,簡單型和復(fù)雜型。簡單型細(xì)胞看起來像是線性濾波器后面跟了一個(gè)整流器,大家聽起來是不是覺得很耳熟;復(fù)雜型細(xì)胞長這樣,看起來像是簡單型細(xì)胞的混合,可以是平方或者半平方然后再混合正負(fù)號(hào)組合到一起。不過最終都要把這些結(jié)果池化,這里也聽起來很熟悉,如果你們中也有人想對(duì)圖像使用深度網(wǎng)絡(luò)和卷積網(wǎng)絡(luò)的話。
我們用這兩種單元,但是跟典型的深度網(wǎng)絡(luò)結(jié)構(gòu)不一樣,我們要做的是測量這些單元的輸出的局部統(tǒng)計(jì)特征,當(dāng)然了,先用這些單元對(duì)圖像進(jìn)行卷積。我們用的濾波器也不是屏幕上顯示的這樣,我們會(huì)用到各種方向、各種大小的濾波器,實(shí)際上我們用的是一種叫做“可控金字塔”的多級(jí)表征,它基本上可以把所有不同的大小和方向整理成一個(gè)完整的集合。所以我們做了所有這些卷積,我們有所有相應(yīng)的輸出圖像,也可以稱作激活圖像。我們對(duì)它們做平方和半平方,我們對(duì)平方過的進(jìn)行池化,然后我們對(duì)這些東西計(jì)算統(tǒng)計(jì)特征。這里我說到的統(tǒng)計(jì)特征,我們基本上只用了相關(guān)性,要么就是相關(guān)性,要么是從相關(guān)性算出的。
我們對(duì)空間位置間、方向間、路徑間、大小間的相關(guān)性做了計(jì)算。我們把它們做成一個(gè)集合,最后得到的測量值數(shù)目有大概700個(gè),精確數(shù)目應(yīng)該是710,當(dāng)我們把所有的測量都算到里面的時(shí)候。這樣我們就有了一個(gè)可以處理任意圖片、最好是紋理圖片的模型,這個(gè)模型就會(huì)把圖片轉(zhuǎn)換成這個(gè)710個(gè)測量值。這些是統(tǒng)計(jì)特征的測量,如果我們還要驗(yàn)證Julesz的想法的話,就要想辦法生成具有相同統(tǒng)計(jì)特征的圖片。
要做的事情和Julesz當(dāng)時(shí)做的一樣,只不過我們現(xiàn)在可以用電腦來生成這些圖片。大概流程是,我們從一張初始照片開始,通過模型計(jì)算輸出,然后我們會(huì)用隨機(jī)的種子生成一張新圖片,讓生成的圖片擁有一樣的統(tǒng)計(jì)特征。最后我們會(huì)把兩張圖片拿給人類看,看看是否會(huì)認(rèn)為是相同的,或者相似的,或者在某些觀看條件下是相同的,實(shí)際上這也是比較經(jīng)常發(fā)生的情況。那么這就是一種巡回式的測試,而且只有當(dāng)照片生成器能夠產(chǎn)生的變化足夠多的時(shí)候,這才能稱得上是一個(gè)好的測試,你需要對(duì)值的空間進(jìn)行完善的探索,本質(zhì)上需要探索模型的零空間,要探索模型舍棄了哪些東西,換個(gè)說法就是探索在模型看來相同的那些東西。
具體到做的方法上,你需要在這些模型施加的統(tǒng)計(jì)特征限制下,做出一張具有最高凝聚力密度的圖像。另一件值得一提的事情是,能通過測試不代表就真的是一個(gè)好模型,原因剛才我也說過,我們需要找到一個(gè)能夠盡量多地拋棄信息的模型,參數(shù)的數(shù)量就可以作為信息多少的粗略參考。我們現(xiàn)在的模型只有710個(gè)輸出,而我們處理的圖像有從幾百到幾百萬像素都有,那這就是一個(gè)顯著的減少,我們丟棄了很多的信息。所以在我們看來,這個(gè)測試就挺好的了。
好的,下一步,我們是這么做的,就像剛剛說的,我們從這樣一張圖片開始,計(jì)算出模型的輸出;然后下面這里用白噪聲作為種子(雷鋒網(wǎng)注:左側(cè)下方圖像為原始白噪聲),計(jì)算模型輸出,它們不一樣,那就算出它們的差值,然后做反向傳播。要反向傳播的是響應(yīng)的差值,在圖像空間做梯度下降,直到輸出變得一致。具體做法基本就是這樣。
所以在這些做完以后,你得到了一張跟原來的紋理還挺像的圖片,某些情況下幾乎沒法跟本來的紋理分辨。(雷鋒網(wǎng)注:左側(cè)下方圖像為最終生成的圖像)具體在這個(gè)例子里,還是能看出來不完全一樣,不過如果你只是很快地看了一眼,不是用中央凹看,不是直視,而是目光盯著畫面右邊的地方的話,肯定是沒辦法區(qū)分的。嗯,中央凹的事情待會(huì)兒我們還會(huì)說到。
做個(gè)摘要的話,事情是這樣的,
我們從一張圖片開始,它是所有圖像組成的空間中的一個(gè)點(diǎn)
我們把它映射到模型輸出空間里,這個(gè)由我們的模型表征的空間要小一些
圖像空間里會(huì)有一些多樣性,因?yàn)檫@個(gè)模型不是線性的,所以在有多樣性的圖像空間里,有很多圖像都會(huì)有一樣的模型響應(yīng)。這種多樣性基本就是由于兩個(gè)空間的維數(shù)不同造成的,從一百萬維的空間到710維的空間,有,呃,九十九萬九千三百維的信息都丟失了
然后我們拿來這個(gè)噪音的種子,我們做的事情本質(zhì)上是對(duì)它做投射,非線性投射,做一種梯度下降,直到我們來到了多樣性的界線上
這樣我們就得到了生成的圖片
這樣就用簡圖的方式說明了在高維空間到底發(fā)生了什么,我們又要如何理解。
這是另一組例子。效果很不錯(cuò),我直到今天都覺得很驚訝,這么簡單的模型就能生成這樣有趣的視覺結(jié)構(gòu),這還僅僅是一個(gè)2階的模型而已,只有簡單的、差不多生物性的非線性,也沒有對(duì)特點(diǎn)、部分、物體等等做清晰具體的表征。即便這樣,我們也能夠表征出來這些有意思的內(nèi)容。起碼當(dāng)這些結(jié)果在99年和2000年的時(shí)候做出來的,我是很震驚的;今天可能就不怎么震驚了,因?yàn)槲覀冇蒙疃染矸e網(wǎng)絡(luò)一直做的就是這樣的事情。也在發(fā)展壯大吧,差不多每天都有人能發(fā)現(xiàn)一種有趣的生成圖像或者變換圖像的方法。
它們也能夠給Julesz的擔(dān)心給一個(gè)正面的答復(fù),就是說當(dāng)你把Julesz的反例圖像作為輸入給到里面的時(shí)候,它們也會(huì)輸出基本無法分辨的圖像。所以這樣也就通過了Julesz設(shè)計(jì)的測試。
不過我們也發(fā)現(xiàn)這個(gè),有點(diǎn)讓人撓頭,如果你用深度卷積網(wǎng)絡(luò)做類似的生成,你會(huì)得到這樣的“騙人圖像”,它們是Clune和他的團(tuán)隊(duì)在這篇2015年發(fā)表的論文里描述的。他做的事情跟我一樣,從白噪音開始,用梯度下降的方法把它轉(zhuǎn)換到一個(gè)圖像識(shí)別器的分類里面去。輸出的是這樣的圖像,它們看起來像噪音,跟它們本來應(yīng)該屬于的那個(gè)分類看起來一點(diǎn)都不像。
另一個(gè)相關(guān)的結(jié)果,像這樣,通過調(diào)整一副圖像來達(dá)到一個(gè)目標(biāo)分類。從原圖開始,比如這個(gè)校車,你想把它轉(zhuǎn)換到火雞的分類里面,然后你得到的結(jié)果看起來還是像校車。就好像沒有對(duì)圖像做任何修改,起碼不是我們?nèi)祟惸芸闯鰜淼男薷摹?/p>
但是如果你用我們的模型做的話,你會(huì)得到這樣的結(jié)果。比如這幾個(gè)例子,你從一張人臉的照片開始,你想把它轉(zhuǎn)換到一個(gè)目標(biāo)中,不過我們的目標(biāo)不是語言或者類別的名字,而是一些紋理樣本。我們從這個(gè)紋理上提取統(tǒng)計(jì)特征,把原圖作為一個(gè)起點(diǎn),然后把它推到能夠滿足統(tǒng)計(jì)特征的多樣性邊界上去,就會(huì)得到這樣的看起來像橄欖的圖,但是原來的主要圖像結(jié)構(gòu)還是得到了保留,這是因?yàn)檫@個(gè)模型具有同質(zhì)性、平移不變性,它不關(guān)心總體結(jié)構(gòu),也不會(huì)對(duì)總體結(jié)構(gòu)做任何限制,所以一部分結(jié)構(gòu)就在投射過程后殘留了下來。
時(shí)間好像不太夠了,但我又不太想把最后一點(diǎn)東西跳過去。那我就講得快一點(diǎn)吧。不說那么細(xì)了,我們團(tuán)隊(duì)的另一個(gè)非常優(yōu)秀的博士后Josh McDermott和我基本上想辦法做了一個(gè)類似的模型,它可以生成聲音的材質(zhì)。
總體上可以這樣講,基本可以分成三個(gè)環(huán)節(jié),就像圖里這樣,第一環(huán)節(jié)是濾波,模仿的是耳蝸,其中有30個(gè)頻率點(diǎn);然后經(jīng)過一個(gè)非線性環(huán)節(jié),再經(jīng)過另一組濾波器,其中有20個(gè)是調(diào)制濾波器;最后我們還是測量統(tǒng)計(jì)特征。
之前好像沒有說,不過這些統(tǒng)計(jì)特征同樣也是可以用卷積架構(gòu)計(jì)算的,用卷積和乘方,因?yàn)樗鼈兪嵌蔚?,具有相關(guān)性,做卷積和平方是本質(zhì)上等效的,它們測量的是變化而不是相關(guān)性。如果測量了足夠多的卷積和平方,就和測量相關(guān)性是等效的了。所以可以把這個(gè)模型看作是一個(gè)三階模型,耳蝸部分第一階,調(diào)制部分第二階,第三階計(jì)算統(tǒng)計(jì)特征也就是和卷積、平方再平均差不多的東西。
跟剛才的流程一樣,用類似的方法,給一段樣本計(jì)算統(tǒng)計(jì)特征然后生成符合特征的另一段樣本,結(jié)果挺不錯(cuò)的。我這兒有幾個(gè)例子,看看你們能不能聽得到,如果不行那就很快跳過去。
能聽到了嗎?(一段水聲)ok,屏幕上的是頻譜圖,橫軸時(shí)間縱軸頻率,這是一段冒泡的水的實(shí)際錄音,會(huì)不會(huì)太大了,有人聽這個(gè)會(huì)害怕嗎?(另一段水聲)現(xiàn)在是生成的聲音,聽起來應(yīng)該是沒辦法分辨的。頻譜圖看起來也很像,不過并不是完全一樣,畢竟不是直接復(fù)制的。其中的參數(shù)數(shù)目不多,不過我忘了具體數(shù)目有多少了,反正挺少的。跟前面類似,輸入的信息量很大,我們也是扔掉了很多,把樣本擠壓到了一組總結(jié)特征中,然后從總結(jié)特征里生成新的。
(此起彼伏的蟲子聲音)這是另一段完全不同的聲音了,是池塘里昆蟲的聲音。(另一段此起彼伏的蟲子聲音)同一個(gè)模型,同一組統(tǒng)計(jì)特征,當(dāng)然了,特征具體的值是完全不一樣的,所以生成的聲音才會(huì)不一樣。聽起來挺不錯(cuò)的,而且這個(gè)也幾乎沒辦法分辨。
(紙的聲音)另一段不同的聲音,翻動(dòng)的紙,看頻譜圖以及聽起來都跟另外兩組聲音完全不同。(另一段紙的聲音)這個(gè)效果也很好,其實(shí)聲音很尖銳,不連續(xù),能聽出來紙頁翻到最后擦到其它的紙然后突然停下來的聲音。
Josh和我很感興趣,我們做了很多感知方面的研究來驗(yàn)證這種方法的可行性,而這種方法對(duì)不同的材質(zhì)有廣泛的適用性。我們還想知道,當(dāng)我們?nèi)藶榈兀▽?duì)計(jì)算過程)進(jìn)行了選擇來讓它看起來更符合生物學(xué)的時(shí)候,這些人為因素會(huì)對(duì)最終的結(jié)果產(chǎn)生影響嗎,還是說我隨便用一組什么樣的濾波器和非線性都能得到一樣的結(jié)果。
所以我們回過頭來核對(duì)了一遍,發(fā)現(xiàn),比如當(dāng)你去掉耳蝸那里進(jìn)行壓縮的非線性環(huán)節(jié),把它變成一個(gè)整流器,然后你讓人們來對(duì)比聽聽看的時(shí)候,一種是通過整流器的版本生成的,另一種是通過更符合生物學(xué)的非線性壓縮版本生成的,人們辨別更真實(shí)聲音的能力還挺不錯(cuò),他們選出來的是模仿耳蝸壓縮的那一個(gè)。更換濾波器組合的情況也差不多,如果從對(duì)數(shù)空間頻點(diǎn)換到線性空間頻點(diǎn),還是能聽出來區(qū)別的,人類很擅長發(fā)現(xiàn)其中的區(qū)別,而且人們基本上都更喜歡對(duì)數(shù)空間的聲音,從生物學(xué)的角度這也更合理。
接下來要欺騙你的眼睛
我們對(duì)這種結(jié)果挺滿意的。我們還做了另外一組實(shí)驗(yàn),不過沒時(shí)間了我就跳過不講了。因?yàn)槲蚁胍赃@個(gè)做結(jié)尾。
回到圖像的部分。我們想知道,除了整體的相同紋理之外,我們還能做什么。顯然這個(gè)世界遠(yuǎn)不只是由整體的相同紋理組成的,紋理都是一小塊一小塊的,就像一開始那張牛的照片一樣。所以如果你拿一張這樣的照片,用我們的算法進(jìn)行處理,還是能拿到結(jié)果的,畢竟這個(gè)方法可以處理任何圖片,統(tǒng)計(jì)特征是對(duì)整張照片計(jì)算的,不過生成的圖片就會(huì)是這樣,費(fèi)曼就像剛從攪拌機(jī)里拿出來一樣。不過你還是能看出來小塊的紋理,這些皮膚的褶皺,看起來有點(diǎn)不自然。
所以我們想知道,從生理學(xué)、生物學(xué)的角度考慮,人類大腦里到底發(fā)生了什么,人的大腦是如何進(jìn)行表征的,是次要功能嗎,只有一部分的大腦對(duì)紋理進(jìn)行表征,其它大部分都表征的是輪廓、界線、邊緣、物體嗎?還是說又是另外的樣子?
所以我們接下來做的事情用到了這些事實(shí),從生理學(xué)角度講,感受野大小隨著偏心度的提高而變大。感受野不僅僅從V1到V2再到V4一直變大,而且還隨著到目光焦點(diǎn)中心的距離變大而變大,離中央凹越遠(yuǎn)越大。這種變大差不多是線性的,這張圖是研究猴子得到的,人類的也非常接近。
畫一張簡圖來說明的話,雖然因?yàn)轭伾年P(guān)系大家在臺(tái)下可能看不清,可以把V1細(xì)胞的感受野想象成這種輻射狀的圖案,越往外圈就越變大。V2細(xì)胞的差不多,不過不管在哪個(gè)位置,V2的感受野都比V1的更大。V4也一樣。等最后到了IT,感受野就很大了,可以覆蓋到眼睛視野的很大一個(gè)區(qū)域。說句題外話,這不是卷積,因?yàn)榫矸e需要始終使用一樣的算子;而在這里,算子越往外側(cè)越大了。所以當(dāng)我們知道了有這樣的架構(gòu)以后,我們能做一些什么,能不能給物體識(shí)別這樣的任務(wù)帶來幫助呢?
我們是這樣做的。我們用了剛才說到那樣的局部紋理表征架構(gòu),我們并沒有對(duì)整張圖片均勻地提取統(tǒng)計(jì)特征,而是分成許多小區(qū)域,具有平滑交疊的區(qū)域,然后做加權(quán)相加而不是直接全部相加再取平均。這樣它聽起來就跟生理學(xué)很接近,跟V2做的事情很接近。實(shí)際上當(dāng)你這么做的時(shí)候,你可以生成人類沒辦法區(qū)分開來的圖片,對(duì)任意圖片都可以。
我直接放一個(gè)演示吧,現(xiàn)在沒時(shí)間一項(xiàng)項(xiàng)講解我們的結(jié)果了。這張照片是在華盛頓廣場拍的。我要讓大家看一個(gè)幻象,為了能夠看到它,你在看的時(shí)候需要緊盯著畫面中央這個(gè)紅色的點(diǎn)不動(dòng)。我會(huì)在這張照片和一張生成的圖像之間來回切換,生成的圖像中計(jì)算局部統(tǒng)計(jì)特征所用的區(qū)域大小就跟人的V2細(xì)胞感受野差不多大。我們的想法是,如果人類的大腦就是這樣做表征的,那你就沒辦法分辨這些圖像。
現(xiàn)在開始了,來回翻動(dòng)。眼光盯著紅色的點(diǎn)不要移開。如果沒什么意外的話,那跟我們做實(shí)驗(yàn)時(shí)候的參與者一樣,你們應(yīng)該也沒辦法區(qū)分開這兩幅圖像。
但是實(shí)際上,如果你現(xiàn)在把注意力放在邊上那個(gè)紅色圈里的話,兩張圖像的區(qū)別其實(shí)挺大的,其中一張有很多的扭曲,就像前面費(fèi)曼那張一樣。但是如果你盯著紅色圈的話,你就看不到這些扭曲了。說實(shí)話這些扭曲還是挺明顯的,看起來很詭異,但是如果當(dāng)你不盯著它們看的時(shí)候你就發(fā)現(xiàn)不了它們。
那我們做這件事是為了干嘛?我們把一些東西丟進(jìn)了零空間里面,直觀線性地描述的話,就是我們把一些東西丟進(jìn)了你視覺系統(tǒng)的零空間里面,然后你發(fā)現(xiàn)不了。你的視覺系統(tǒng)把這些信息扔掉了,它發(fā)現(xiàn)不了這里有嚴(yán)重的扭曲。我覺得可以利用這一點(diǎn)來解決很多實(shí)際問題,不過現(xiàn)在沒時(shí)間給大家講了,我要給演講做結(jié)尾了。
后來的故事是,我們繼續(xù)把這些發(fā)現(xiàn)跟生理學(xué)做了定性定量的對(duì)比,我們做了一些實(shí)驗(yàn),實(shí)驗(yàn)中我們記錄了V2細(xì)胞的響應(yīng),給它們展示紋理,然后嘗試?yán)斫馑鼈儽碚鞯慕Y(jié)果是什么。
這對(duì)你生活中的所有事情都會(huì)產(chǎn)生影響,就像閱讀,比方說你看書的時(shí)候,人的目光不是均勻地從頁面上掃過去的,而是一跳一跳的。每次跳的距離,我們根據(jù)這個(gè)模型算了一下,差不多剛好就是能讓單詞看得清的那個(gè)距離。假如你目光盯著這里左邊這個(gè)紅點(diǎn),這是我們生成的舉例圖像,你能看清的單詞基本上也就是“myself”和它上下的幾個(gè)字母。當(dāng)你的目光跳轉(zhuǎn)到下一個(gè)位置以后,你就能讀出下一個(gè)單詞了。這兩個(gè)紅色點(diǎn)之間相對(duì)于周圍的文本的距離,就是差不多是你閱讀的時(shí)候目光跳轉(zhuǎn)的典型距離。
這就讓我們覺得可以給閱讀建模,限制閱讀速度的最重要因素之一就是目光跳轉(zhuǎn)距離。所以我們可以想辦法增加這個(gè)跳轉(zhuǎn)距離,比如通過設(shè)計(jì)新的閱讀形式,用不同的字體、不同的空檔、不同的字符等等,這樣就不會(huì)起到這么大的混雜或者扭曲效果了。換句話說就是我們想避免把文本信息丟到零空間里面去,我們想讓它們留在實(shí)際的表征空間里。建立這樣的模型就給了我們嘗試這樣做并進(jìn)行研究的機(jī)會(huì)。
OK,我講差不多了。
這種時(shí)候我們可以問自己這樣一個(gè)問題,我們可以就這樣研究下去嗎,把線性濾波、整流器、一些局部統(tǒng)計(jì)特征以及池化堆在一起,越堆越多就可以解釋人類視覺了嗎?我以前覺得大概不行吧,不過現(xiàn)在隨著深度卷積網(wǎng)絡(luò)的研究越來越成功,我猜答案也許是肯定的。Lettvin在1976年的時(shí)候說了一段的令人印象深刻的話:“經(jīng)過部分重新定義的紋理,也許是就構(gòu)建出形態(tài)的原始素材”。他的觀點(diǎn)里大概覺得你可以在紋理表征的基礎(chǔ)上進(jìn)行形態(tài)的表征,而不是把形態(tài)作為一個(gè)單獨(dú)的實(shí)體。
那么,總結(jié)一下。
我前面嘗試從生物學(xué)角度給大家解釋了這種階梯式模型的建立,我試著讓大家相信帶有生物學(xué)屬性的淺層階梯式模型的力量比我們預(yù)想的,起碼比我預(yù)想的強(qiáng)大多了。
生成式方法是表征研究非常有力的測試方法,可以用來驗(yàn)證不變性,或者探究零空間如果你感興趣的話;它還可以用來驗(yàn)證度量屬性,比如距離和曲率——這是去年ICLR2016的時(shí)候展示的內(nèi)容,Olivia Hanoff和我一起做了一張精美的海報(bào),展示了我們可以生成測地線,兩張圖像中的路線和圖像空間在響應(yīng)空間中沿最短路徑的距離(pads and image space between 2 images that followed the shortest path in the response space)。
我們現(xiàn)在也在繼續(xù)充實(shí)這些模型,來讓它們能夠測量感知質(zhì)量。為了達(dá)到這個(gè)目的,你還需要在其中加入新的非線性部分來關(guān)注局部增益控制,局部增益控制是指你通過生物學(xué)感知系統(tǒng)看到的東西,我們覺得這對(duì)研究大腦的運(yùn)行有非常非常重要的作用。這件事是大多數(shù)深度網(wǎng)絡(luò)研究中沒有做的,我們覺得它的重要性也會(huì)得到體現(xiàn)。我們用了很多種不同的方法來研究它,其中一種大家會(huì)在下一場演講中聽我講到,會(huì)講到用帶有局部增益控制的表征進(jìn)行壓縮。
最后一點(diǎn),就是我們非常想要理解如何用非監(jiān)督學(xué)習(xí)的方法學(xué)會(huì)這些表征,下一場演講我也會(huì)在生物學(xué)表征的語境下開始對(duì)這個(gè)方面做一些強(qiáng)調(diào)。
最后我想感謝一下我實(shí)驗(yàn)室里參與項(xiàng)目的成員,都非常的優(yōu)秀,Javier Portilla建立了最早的紋理模型,Jeremy Freeman建立了基于局部紋理塊的大型全局紋理模型,Corez Ziemba積極參與了很多心理物理學(xué)和生理學(xué)方面的研究,Josh McDermott建立了聲學(xué)模型。
謝謝!
AI科技評(píng)論招業(yè)界記者啦!
在這里,你可以密切關(guān)注海外會(huì)議的大牛演講;可以采訪國內(nèi)巨頭實(shí)驗(yàn)室的技術(shù)專家;對(duì)人工智能的動(dòng)態(tài)了如指掌;更能深入剖析AI前沿的技術(shù)與未來!
如果你:
*對(duì)人工智能有一定的興趣或了解
* 求知欲強(qiáng),具備強(qiáng)大的學(xué)習(xí)能力
* 有AI業(yè)界報(bào)道或者媒體經(jīng)驗(yàn)優(yōu)先
簡歷投遞:
lizongren@leiphone.com
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。
本專題其他文章