丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
人工智能 正文
發(fā)私信給楊曉凡
發(fā)送

0

紐約大學(xué)神經(jīng)學(xué)教授Eero Simoncelli萬字解析:機器生成的圖像為何能騙過你的眼睛?| ICLR 2017

本文作者: 楊曉凡 編輯:郭奕欣 2017-04-28 16:05 專題:ICLR 2017
導(dǎo)語:在剛剛閉幕的ICLR2017上,紐約大學(xué)神經(jīng)學(xué)、數(shù)學(xué)、心理學(xué)教授Eero Simoncelli作為特邀嘉賓分享了他在機器表征、人類感知方面的研究成果。

雷鋒網(wǎng)AI科技評論按:在剛剛閉幕的ICLR2017上,紐約大學(xué)神經(jīng)學(xué)、數(shù)學(xué)、心理學(xué)教授Eero Simoncelli作為特邀嘉賓分享了他在機器表征、人類感知方面的研究成果。以下為現(xiàn)場視頻及雷鋒網(wǎng)全文聽譯。

紐約大學(xué)神經(jīng)學(xué)教授Eero Simoncelli萬字解析:機器生成的圖像為何能騙過你的眼睛?| ICLR 2017

紐約大學(xué)神經(jīng)學(xué)教授Eero Simoncelli萬字解析:機器生成的圖像為何能騙過你的眼睛?| ICLR 2017

附原視頻:

(Eero走上臺準備開始演講)

首先謝謝,謝謝剛才對我的介紹,感謝大會主席Yann和Yoshua,以及評委會主席Hugo、Tara、Oriol邀請我參加,很榮幸可以參加這次會議。

紐約大學(xué)神經(jīng)學(xué)教授Eero Simoncelli萬字解析:機器生成的圖像為何能騙過你的眼睛?| ICLR 2017

我們小組的工作主要是在理解視覺和其它各種感官表征上,研究這些表征是如何建立起來的、如何組織信息、維持和展現(xiàn)關(guān)于環(huán)境的信息。我不僅好奇神經(jīng)細胞是如何做到的、是如何把神經(jīng)學(xué)表征與視覺環(huán)境對應(yīng)起來的,我還好奇這些表征會如何形成或者限制我們的理解。最后,當(dāng)我們了解了這些表征的規(guī)律以后,如何利用這些規(guī)律設(shè)計優(yōu)秀的系統(tǒng),給其它圖像處理和計算機視覺之類的應(yīng)用帶來方便。我下面要做的是,帶大家回顧一下(視覺表征)這方面研究的發(fā)展歷程。其實,深度卷積網(wǎng)絡(luò)也同時在快速發(fā)展,取得了不少成果,過程中我也會給大家講一下過程中兩者間有哪些同步的和不同的地方。

人是如何“看到”的

紐約大學(xué)神經(jīng)學(xué)教授Eero Simoncelli萬字解析:機器生成的圖像為何能騙過你的眼睛?| ICLR 2017

OK。我幻燈片第一頁是一張牛的照片,這張照片是我很多年前在瑞士拍的。看見圖的過程是這樣的:

  • 光線進入你的眼睛,照到你的視網(wǎng)膜上,視網(wǎng)膜上有細胞,它們可以觀察到圖片上的很小的區(qū)域;

  • 對這些區(qū)域進行處理的時候會用到一個視網(wǎng)膜內(nèi)的網(wǎng)絡(luò)回路,從大概5百萬個視錐細胞開始,它們能把光照轉(zhuǎn)換成電信號;

  • 這些信號接下來會經(jīng)過回路轉(zhuǎn)換成為大約一百萬個中樞神經(jīng)細胞的輸出;

  • 這些神經(jīng)細胞的軸突形成了視覺細胞的線纜,然后從你眼睛的后側(cè)走出來。當(dāng)然了,每只眼睛后面都會有一根這樣的線纜。所以,可以這樣講,有大概5百萬個感官單元可以形成像素,像素化的測量會轉(zhuǎn)換到一百萬條纖維組成的線纜中,然后到達你的大腦。

經(jīng)過這個過程,信息會被被轉(zhuǎn)換、總結(jié),會與其它感官輸入的信息進行綜合,與你的內(nèi)在狀態(tài)的信息進行綜合,“內(nèi)在狀態(tài)”是指像記憶、意象、動作以及其它類似這種大腦產(chǎn)生的東西。通過這一切就形成了“你看到了”的感覺,以這個例子來講就是你看到了這頭牛。

紐約大學(xué)神經(jīng)學(xué)教授Eero Simoncelli萬字解析:機器生成的圖像為何能騙過你的眼睛?| ICLR 2017

那么,信息其實會被傳到大腦的后側(cè)去,線路看起來挺奇怪的,線纜會大老遠地把視覺信息傳到后面去。人的主要視覺皮層就在這里,哺乳動物最大的皮層區(qū)域之一,當(dāng)然也是靈長目里最大的之一。這里的神經(jīng)細胞我們幾十年前就認識了,感謝上世紀五六十年代Hugo和Wessel的開創(chuàng)性工作,這里的細胞有方向選擇性。這些神經(jīng)細胞,我們描述它們時候的常用詞叫“感受野”,這是一種對神經(jīng)細胞處理的內(nèi)容的線性近似,它是一個加權(quán)函數(shù),看起來差不多像圖示(雷鋒網(wǎng)注:上方圖中V1)的這樣,大家中如果有做視覺方面的可以看作是Gabor函數(shù)。這種加權(quán)函數(shù)就給細胞賦予了局部的方向選擇性。

所以方向性是這些細胞的決定性特性,這是所有人對這些V1初級皮層細胞的看法。實際上用簡單的動畫來表達V1細胞做的事情的話,就是測量環(huán)境中局部的微小方向,小條、小塊,它要測出其中占支配地位的方向是什么。它會把這個結(jié)果告訴大腦的其它部分。

紐約大學(xué)神經(jīng)學(xué)教授Eero Simoncelli萬字解析:機器生成的圖像為何能騙過你的眼睛?| ICLR 2017

然后會發(fā)生什么呢?V1會有很多輸出到V2,V2也是很大的一塊區(qū)域,人和猴子的V2區(qū)域可能還要比V1大一點。就像圖里這樣,它差不多在V1的邊上,包著V1。然而事實是這樣的,即便人們幾十年前知道V2神經(jīng)細胞的存在了,Hugo和Wessel就記錄過V2細胞,人們還是花了很長時間才弄明白V2到底是做什么的。既然V2細胞接收V1細胞的輸出,所以很自然地可以想象V2會對V1細胞的局部方向做一些合并。

對V2細胞功能的猜想

紐約大學(xué)神經(jīng)學(xué)教授Eero Simoncelli萬字解析:機器生成的圖像為何能騙過你的眼睛?| ICLR 2017

這就讓我們回想起以前Hugo和Wessel那個時代所想的理論,你會覺得這些計算機視覺范式的關(guān)鍵點都是找到圖像中一組一組的邊緣,然后把這些邊緣補全連接起來,就找到了界線和輪廓,接著就用它們分離對象,確定哪些是前景哪些是背景,最后就可以做對象識別。

紐約大學(xué)神經(jīng)學(xué)教授Eero Simoncelli萬字解析:機器生成的圖像為何能騙過你的眼睛?| ICLR 2017

想到這種范式是非常自然的,你可能會覺得這些V2細胞就在執(zhí)行這個流程的第一步,沿著界線(雷鋒網(wǎng)注找:圖中紅色虛線)找到一段一段的邊緣并且把他們拼接起來。

紐約大學(xué)神經(jīng)學(xué)教授Eero Simoncelli萬字解析:機器生成的圖像為何能騙過你的眼睛?| ICLR 2017

但是讓人們嘗試記錄V2細胞的輸出,嘗試測量V2細胞對角度、曲線、或者各種局部方向的組合的選擇性的時候,比如這張圖是Newston測試中用到的刺激圖案,這種實驗只取得了非常有限的成果。在這個例子里, V2細胞中只有很少的一部分似乎對這種刺激做出了明顯的反應(yīng),而對很多的V2細胞而言,這些不同的局部方向組合都不能引起任何反應(yīng),即便有反應(yīng)的細胞也只是微弱的反應(yīng)。

所以大概到了2012年,我們還缺少對V2功能性中的任何協(xié)同作用的發(fā)現(xiàn),尤其是其中運用V1的輸出來讓V2的輸出產(chǎn)生區(qū)別的那些功能。我覺得這事挺神奇的,有數(shù)不清的神經(jīng)組織參與著視覺的形成,顯然這是很重要的一件事情,可是花了這么多資源以后,如果V2只是在模仿V1所做的事情,進化成這樣也挺奇怪的。剛才忘了說大多數(shù)的V2細胞確實是對方向有選擇性的,部分地、松散地具有方向選擇性。

那么這個問題變得很神秘了,這些細胞、這些組織到底是用來做什么的?我覺得,我得到自己的答案是通過重新審視這個假設(shè),計算機視覺、實際上所有的視覺研究在一開始都是這樣想的,那就是認為世界是由有邊界的物體組成的,我們會認為沿著這些邊界來把不同的東西分開是最基本的一步。

這是一個紋理的世界

紐約大學(xué)神經(jīng)學(xué)教授Eero Simoncelli萬字解析:機器生成的圖像為何能騙過你的眼睛?| ICLR 2017

可是當(dāng)你自己看這個場景的時候,畫面中的大部分內(nèi)容其實是并不是邊界,而是許多成塊的、近似的、幾乎均勻分布的組織。(雷鋒網(wǎng)注:演講花絮,見動圖)為什么大家在笑?我升到上面去了,然后現(xiàn)在大家都在看我的后腦勺?

紐約大學(xué)神經(jīng)學(xué)教授Eero Simoncelli萬字解析:機器生成的圖像為何能騙過你的眼睛?| ICLR 2017

回到正題,當(dāng)你看著這張圖片的時候,有種東西占據(jù)了圖片里的大部分面積,我們把它叫做“紋理”,視覺紋理。圖里能看到這些草形成的斑塊,每一處的斑塊看起來很像,但是每一處又不會完全一樣,其中的不同的葉子有不同的長度、角度等等。其中有很多的方向,可能屏幕不是很清晰所以看得不是很明顯,但是如果你能仔細觀察的話,你的V1細胞可以對其中每棵草的方向做出不錯的響應(yīng)。但是每一塊斑塊都是完全不同的草葉混在一起組成的。

如果你往上看一點,可以看到這塊巖石的正面,它看起不太一樣,方向特性有一些不一樣,但是你也可以測量它的局部方向,那里顯示著的就是某種特定的組合。牛身上的毛也一樣,等等。所以實際上,我們的視覺世界里充滿了紋理,可以說是被紋理統(tǒng)治的。我覺得有可能很多V2細胞就是用來處理紋理的。這只是個猜測,等一下我會給大家講解我做過的研究,看看能否證實這個猜測。

接下來我就不說更多生理學(xué)的東西了,我來說一說感知。前面這些都是一些介紹性的思考過程。因為我知道,在我們的學(xué)術(shù)社區(qū)中,很多對分層級聯(lián),或者說卷積算子的發(fā)展起到了推動作用的因素,其實是因為人們粗略地覺得視覺系統(tǒng)就是這樣工作的。

紐約大學(xué)神經(jīng)學(xué)教授Eero Simoncelli萬字解析:機器生成的圖像為何能騙過你的眼睛?| ICLR 2017

所以,紋理無處不在,這里是更多的例子,隨處都能看到。為了能夠描述紋理,我們需要給紋理設(shè)計一個計算理論,這樣我們才能夠從感知和生理的角度去測試它,而且也才能夠建立用在機器學(xué)習(xí)系統(tǒng)中的算法和表征。

紐約大學(xué)神經(jīng)學(xué)教授Eero Simoncelli萬字解析:機器生成的圖像為何能騙過你的眼睛?| ICLR 2017

那么什么是“紋理”呢,不嚴謹?shù)卣f,紋理就一種同類的、具有重復(fù)性的圖像,各個部分都會出現(xiàn)同一類的東西、同樣的結(jié)構(gòu)。Lettvin說過的這段話我覺得很好,把這個概念描述得很貼切、很直觀,是1976年的,

我們可以這樣講,如果可見的物體不一樣,而且它們之間離得很遠,這就是形態(tài);如果它們相似而且是聚在一起的,這就是紋理。一個人是一種形態(tài),而人群具有‘人’這樣的紋理;”這種說法真時髦,“一片葉子是一種形態(tài),而樹冠具有葉子的紋理,等等?!?/p>

這個意思就是說,你把很多東西放在一起就成了紋理;如果你只有單獨一個東西,那就不是紋理。等一下我再給你們展示幾個例子來把這個問題講通。

所以,從算法角度建模和描述紋理的想法從上世紀60年代就有了,這些東西都是那個時候發(fā)生的,真是一個不錯的年代呢,對音樂來說也是。在這段時間,Julesz基本上自己提出了一個猜想,他覺得從人類感知和計算建模的角度,正確的思路應(yīng)當(dāng)是紋理可以用一組有限的統(tǒng)計特征來表達。

他對此的解釋是,如果人的大腦會通過某種方式來測量和計算這些有限的特征,那么正確的聯(lián)系和理解這個猜想的方式就是做預(yù)測,表達出來是這樣:“兩種具有同樣統(tǒng)計特征的紋理”,他當(dāng)時想的是n階的像素特征,“如果特征一樣,看起來就會一樣”。就是說,如果能夠發(fā)現(xiàn)人類大腦采用的表征是什么,那如果有任意兩張圖片的這些表征是相同的,在人類大腦看來就會是一樣的他指出的這種測試的方法論、這種紋理模型里面蘊含了非常有力的東西,稍等馬上會講到。

紐約大學(xué)神經(jīng)學(xué)教授Eero Simoncelli萬字解析:機器生成的圖像為何能騙過你的眼睛?| ICLR 2017

Julesz列出了一個明確的目標,要用一種統(tǒng)計學(xué)模型來捕捉感知。另外還有一組非常重要的對測量過程的描述是:

  • 首先不管表征如何,測量方法都應(yīng)當(dāng)是靜態(tài)的,具有平移不變性——統(tǒng)計特征就是從這里來的,他要指的是整個圖像中內(nèi)容的均值;

  • 它還應(yīng)當(dāng)是通用的,同一組統(tǒng)計特征對所有的紋理都可以起作用,每一種不同的紋理都會有不同的統(tǒng)計特征,但如果你發(fā)現(xiàn)兩張圖片有相同的統(tǒng)計特征,那它們應(yīng)該要看起來一樣;

  • 最后一點也既重要,又有一點巧妙,這個假設(shè)只在這個情況下才有意義,就是你需要盡量少的維度。

要在能夠達到目標的維度數(shù)目里選擇最少的那一個,尤其是如果你研究的圖像尺寸不大,那就非常好理解。如果你的矩陣中有太多的統(tǒng)計特征的話,最終你會給本來滿足統(tǒng)計特征的圖像加上越來越多的限制,最后在這個組里就不會剩下什么了。這種情況下如果你從一張初始的圖像開始,然后你找到了另外一張統(tǒng)計特征一樣的圖像,但這張圖像只是原來那張圖像平移后的一個副本,這種假設(shè)就不是很讓人喜歡了。所以表征,或者統(tǒng)計特征的維度盡可能少,就是很重要的一件事情。這是一種會讓紋理圖像的信息被減少、壓縮的,但仍能代表紋理特征的總結(jié)性測量。

還有一件事情值得指出的是,盡管人們已經(jīng)認為生成性模型是解決視覺中和其它許多領(lǐng)域問題的非常重要的方法,但Julesz的表述只是一種分析性的表述,只有當(dāng)你去測量這些統(tǒng)計特征的時候才能發(fā)揮作用,這些屬性才能夠體現(xiàn)。這就給我們?nèi)绾螌嶋H做測量留下了一些難題。

紐約大學(xué)神經(jīng)學(xué)教授Eero Simoncelli萬字解析:機器生成的圖像為何能騙過你的眼睛?| ICLR 2017

所以實際上Julesz在1962年那時,想了一些辦法來做這個測試,他當(dāng)時用的是二進制顏色的圖像,只有黑色和白色,用到的圖像也是他手工繪制的。跟大家一樣,他對這些圖像做分析,試試看他的理論是不是對的。不過你不能只憑實驗就說一個理論是對的,從科學(xué)的角度來講這是不能夠證明理論的正確性的,具體到這里,你沒辦法把所有的圖片都拿過來進行嘗試。所以你要反過來,找反例,找理論失敗的情況。

那么他就開始找,他假設(shè)統(tǒng)計特征的維度是2階,看看能否找到一組2階統(tǒng)計特征相同、但是人類看起來不同的圖像,這樣就能說明模型是不成功的,然后就排除這個可能,繼續(xù)嘗試3階的。當(dāng)他達到3階的時候,屏幕靠左下方顯示的這兩張就是他手工建立的圖片,它們具有相同的3階統(tǒng)計特征。算法是,兩個兩個地取其中的像素,算出圖像中所有成對像素的積的平均數(shù);然后三個三個地取像素,算出圖像中所有三個三個像素的積的平均數(shù)。這兩張圖片在這兩件事情上都是相等的,但是你能看出來兩張圖還是有一些不同的,就像是用不同的材料畫的。實際上人類確實也很擅長發(fā)現(xiàn)這些材質(zhì)上的區(qū)別,所以他就認為自己的理論是不成立的,就放棄了。

用現(xiàn)代方法做特征表征

紐約大學(xué)神經(jīng)學(xué)教授Eero Simoncelli萬字解析:機器生成的圖像為何能騙過你的眼睛?| ICLR 2017

許多年以后,一個非常有天賦的博士生Javier Portilla加入了我的實驗室,我們開始討論有沒有更好的表征紋理的方法。我們重新翻看了Julesz的想法,然后用簡化的現(xiàn)代方法、當(dāng)然也是借鑒生理學(xué)的方法去執(zhí)行。其中的關(guān)鍵點是,我們并沒有計算像素的統(tǒng)計特征,而是思考大腦是如何進行測量的,其實Julesz當(dāng)時也可以這么做,我其實剛才就說Hugo和Wessel在五六十年代就發(fā)現(xiàn)了V1細胞能代表內(nèi)容的局部方向性,不過如果他真的做的話,他就需要一個復(fù)雜得多的算法,也就沒辦法做出這些例子了。

當(dāng)時間到了90年代末的時候,我們已經(jīng)有條件做這件事了,所以我和Javier對V1建立了一個非常簡單的模型,我只簡單講一下吧,對V1來說有兩種基本類型的細胞,簡單型和復(fù)雜型。簡單型細胞看起來像是線性濾波器后面跟了一個整流器,大家聽起來是不是覺得很耳熟;復(fù)雜型細胞長這樣,看起來像是簡單型細胞的混合,可以是平方或者半平方然后再混合正負號組合到一起。不過最終都要把這些結(jié)果池化,這里也聽起來很熟悉,如果你們中也有人想對圖像使用深度網(wǎng)絡(luò)和卷積網(wǎng)絡(luò)的話。

我們用這兩種單元,但是跟典型的深度網(wǎng)絡(luò)結(jié)構(gòu)不一樣,我們要做的是測量這些單元的輸出的局部統(tǒng)計特征,當(dāng)然了,先用這些單元對圖像進行卷積。我們用的濾波器也不是屏幕上顯示的這樣,我們會用到各種方向、各種大小的濾波器,實際上我們用的是一種叫做“可控金字塔”的多級表征,它基本上可以把所有不同的大小和方向整理成一個完整的集合。所以我們做了所有這些卷積,我們有所有相應(yīng)的輸出圖像,也可以稱作激活圖像。我們對它們做平方和半平方,我們對平方過的進行池化,然后我們對這些東西計算統(tǒng)計特征。這里我說到的統(tǒng)計特征,我們基本上只用了相關(guān)性,要么就是相關(guān)性,要么是從相關(guān)性算出的。

紐約大學(xué)神經(jīng)學(xué)教授Eero Simoncelli萬字解析:機器生成的圖像為何能騙過你的眼睛?| ICLR 2017

我們對空間位置間、方向間、路徑間、大小間的相關(guān)性做了計算。我們把它們做成一個集合,最后得到的測量值數(shù)目有大概700個,精確數(shù)目應(yīng)該是710,當(dāng)我們把所有的測量都算到里面的時候。這樣我們就有了一個可以處理任意圖片、最好是紋理圖片的模型,這個模型就會把圖片轉(zhuǎn)換成這個710個測量值。這些是統(tǒng)計特征的測量,如果我們還要驗證Julesz的想法的話,就要想辦法生成具有相同統(tǒng)計特征的圖片。

紐約大學(xué)神經(jīng)學(xué)教授Eero Simoncelli萬字解析:機器生成的圖像為何能騙過你的眼睛?| ICLR 2017

要做的事情和Julesz當(dāng)時做的一樣,只不過我們現(xiàn)在可以用電腦來生成這些圖片。大概流程是,我們從一張初始照片開始,通過模型計算輸出,然后我們會用隨機的種子生成一張新圖片,讓生成的圖片擁有一樣的統(tǒng)計特征。最后我們會把兩張圖片拿給人類看,看看是否會認為是相同的,或者相似的,或者在某些觀看條件下是相同的,實際上這也是比較經(jīng)常發(fā)生的情況。那么這就是一種巡回式的測試,而且只有當(dāng)照片生成器能夠產(chǎn)生的變化足夠多的時候,這才能稱得上是一個好的測試,你需要對值的空間進行完善的探索,本質(zhì)上需要探索模型的零空間,要探索模型舍棄了哪些東西,換個說法就是探索在模型看來相同的那些東西。

具體到做的方法上,你需要在這些模型施加的統(tǒng)計特征限制下,做出一張具有最高凝聚力密度的圖像。另一件值得一提的事情是,能通過測試不代表就真的是一個好模型,原因剛才我也說過,我們需要找到一個能夠盡量多地拋棄信息的模型,參數(shù)的數(shù)量就可以作為信息多少的粗略參考。我們現(xiàn)在的模型只有710個輸出,而我們處理的圖像有從幾百到幾百萬像素都有,那這就是一個顯著的減少,我們丟棄了很多的信息。所以在我們看來,這個測試就挺好的了。

紐約大學(xué)神經(jīng)學(xué)教授Eero Simoncelli萬字解析:機器生成的圖像為何能騙過你的眼睛?| ICLR 2017

好的,下一步,我們是這么做的,就像剛剛說的,我們從這樣一張圖片開始,計算出模型的輸出;然后下面這里用白噪聲作為種子(雷鋒網(wǎng)注:左側(cè)下方圖像為原始白噪聲),計算模型輸出,它們不一樣,那就算出它們的差值,然后做反向傳播。要反向傳播的是響應(yīng)的差值,在圖像空間做梯度下降,直到輸出變得一致。具體做法基本就是這樣。

紐約大學(xué)神經(jīng)學(xué)教授Eero Simoncelli萬字解析:機器生成的圖像為何能騙過你的眼睛?| ICLR 2017

所以在這些做完以后,你得到了一張跟原來的紋理還挺像的圖片,某些情況下幾乎沒法跟本來的紋理分辨。(雷鋒網(wǎng)注:左側(cè)下方圖像為最終生成的圖像)具體在這個例子里,還是能看出來不完全一樣,不過如果你只是很快地看了一眼,不是用中央凹看,不是直視,而是目光盯著畫面右邊的地方的話,肯定是沒辦法區(qū)分的。嗯,中央凹的事情待會兒我們還會說到。

紐約大學(xué)神經(jīng)學(xué)教授Eero Simoncelli萬字解析:機器生成的圖像為何能騙過你的眼睛?| ICLR 2017

做個摘要的話,事情是這樣的,

  • 我們從一張圖片開始,它是所有圖像組成的空間中的一個點

  • 我們把它映射到模型輸出空間里,這個由我們的模型表征的空間要小一些

  • 圖像空間里會有一些多樣性,因為這個模型不是線性的,所以在有多樣性的圖像空間里,有很多圖像都會有一樣的模型響應(yīng)。這種多樣性基本就是由于兩個空間的維數(shù)不同造成的,從一百萬維的空間到710維的空間,有,呃,九十九萬九千三百維的信息都丟失了

  • 然后我們拿來這個噪音的種子,我們做的事情本質(zhì)上是對它做投射,非線性投射,做一種梯度下降,直到我們來到了多樣性的界線上

  • 這樣我們就得到了生成的圖片

這樣就用簡圖的方式說明了在高維空間到底發(fā)生了什么,我們又要如何理解。

計算機也可以生成非常逼真的紋理了

紐約大學(xué)神經(jīng)學(xué)教授Eero Simoncelli萬字解析:機器生成的圖像為何能騙過你的眼睛?| ICLR 2017

這是另一組例子。效果很不錯,我直到今天都覺得很驚訝,這么簡單的模型就能生成這樣有趣的視覺結(jié)構(gòu),這還僅僅是一個2階的模型而已,只有簡單的、差不多生物性的非線性,也沒有對特點、部分、物體等等做清晰具體的表征。即便這樣,我們也能夠表征出來這些有意思的內(nèi)容。起碼當(dāng)這些結(jié)果在99年和2000年的時候做出來的,我是很震驚的;今天可能就不怎么震驚了,因為我們用深度卷積網(wǎng)絡(luò)一直做的就是這樣的事情。也在發(fā)展壯大吧,差不多每天都有人能發(fā)現(xiàn)一種有趣的生成圖像或者變換圖像的方法。

紐約大學(xué)神經(jīng)學(xué)教授Eero Simoncelli萬字解析:機器生成的圖像為何能騙過你的眼睛?| ICLR 2017

它們也能夠給Julesz的擔(dān)心給一個正面的答復(fù),就是說當(dāng)你把Julesz的反例圖像作為輸入給到里面的時候,它們也會輸出基本無法分辨的圖像。所以這樣也就通過了Julesz設(shè)計的測試。

紐約大學(xué)神經(jīng)學(xué)教授Eero Simoncelli萬字解析:機器生成的圖像為何能騙過你的眼睛?| ICLR 2017

不過我們也發(fā)現(xiàn)這個,有點讓人撓頭,如果你用深度卷積網(wǎng)絡(luò)做類似的生成,你會得到這樣的“騙人圖像”,它們是Clune和他的團隊在這篇2015年發(fā)表的論文里描述的。他做的事情跟我一樣,從白噪音開始,用梯度下降的方法把它轉(zhuǎn)換到一個圖像識別器的分類里面去。輸出的是這樣的圖像,它們看起來像噪音,跟它們本來應(yīng)該屬于的那個分類看起來一點都不像。

紐約大學(xué)神經(jīng)學(xué)教授Eero Simoncelli萬字解析:機器生成的圖像為何能騙過你的眼睛?| ICLR 2017

另一個相關(guān)的結(jié)果,像這樣,通過調(diào)整一副圖像來達到一個目標分類。從原圖開始,比如這個校車,你想把它轉(zhuǎn)換到火雞的分類里面,然后你得到的結(jié)果看起來還是像校車。就好像沒有對圖像做任何修改,起碼不是我們?nèi)祟惸芸闯鰜淼男薷摹?/p>

紐約大學(xué)神經(jīng)學(xué)教授Eero Simoncelli萬字解析:機器生成的圖像為何能騙過你的眼睛?| ICLR 2017

但是如果你用我們的模型做的話,你會得到這樣的結(jié)果。比如這幾個例子,你從一張人臉的照片開始,你想把它轉(zhuǎn)換到一個目標中,不過我們的目標不是語言或者類別的名字,而是一些紋理樣本。我們從這個紋理上提取統(tǒng)計特征,把原圖作為一個起點,然后把它推到能夠滿足統(tǒng)計特征的多樣性邊界上去,就會得到這樣的看起來像橄欖的圖,但是原來的主要圖像結(jié)構(gòu)還是得到了保留,這是因為這個模型具有同質(zhì)性、平移不變性,它不關(guān)心總體結(jié)構(gòu),也不會對總體結(jié)構(gòu)做任何限制,所以一部分結(jié)構(gòu)就在投射過程后殘留了下來。

聲音也有紋理嗎?

紐約大學(xué)神經(jīng)學(xué)教授Eero Simoncelli萬字解析:機器生成的圖像為何能騙過你的眼睛?| ICLR 2017

時間好像不太夠了,但我又不太想把最后一點東西跳過去。那我就講得快一點吧。不說那么細了,我們團隊的另一個非常優(yōu)秀的博士后Josh McDermott和我基本上想辦法做了一個類似的模型,它可以生成聲音的材質(zhì)。

總體上可以這樣講,基本可以分成三個環(huán)節(jié),就像圖里這樣,第一環(huán)節(jié)是濾波,模仿的是耳蝸,其中有30個頻率點;然后經(jīng)過一個非線性環(huán)節(jié),再經(jīng)過另一組濾波器,其中有20個是調(diào)制濾波器;最后我們還是測量統(tǒng)計特征。

之前好像沒有說,不過這些統(tǒng)計特征同樣也是可以用卷積架構(gòu)計算的,用卷積和乘方,因為它們是二次的,具有相關(guān)性,做卷積和平方是本質(zhì)上等效的,它們測量的是變化而不是相關(guān)性。如果測量了足夠多的卷積和平方,就和測量相關(guān)性是等效的了。所以可以把這個模型看作是一個三階模型,耳蝸部分第一階,調(diào)制部分第二階,第三階計算統(tǒng)計特征也就是和卷積、平方再平均差不多的東西。

紐約大學(xué)神經(jīng)學(xué)教授Eero Simoncelli萬字解析:機器生成的圖像為何能騙過你的眼睛?| ICLR 2017

跟剛才的流程一樣,用類似的方法,給一段樣本計算統(tǒng)計特征然后生成符合特征的另一段樣本,結(jié)果挺不錯的。我這兒有幾個例子,看看你們能不能聽得到,如果不行那就很快跳過去。

能聽到了嗎?(一段水聲)ok,屏幕上的是頻譜圖,橫軸時間縱軸頻率,這是一段冒泡的水的實際錄音,會不會太大了,有人聽這個會害怕嗎?(另一段水聲)現(xiàn)在是生成的聲音,聽起來應(yīng)該是沒辦法分辨的。頻譜圖看起來也很像,不過并不是完全一樣,畢竟不是直接復(fù)制的。其中的參數(shù)數(shù)目不多,不過我忘了具體數(shù)目有多少了,反正挺少的。跟前面類似,輸入的信息量很大,我們也是扔掉了很多,把樣本擠壓到了一組總結(jié)特征中,然后從總結(jié)特征里生成新的。

紐約大學(xué)神經(jīng)學(xué)教授Eero Simoncelli萬字解析:機器生成的圖像為何能騙過你的眼睛?| ICLR 2017

(此起彼伏的蟲子聲音)這是另一段完全不同的聲音了,是池塘里昆蟲的聲音。(另一段此起彼伏的蟲子聲音)同一個模型,同一組統(tǒng)計特征,當(dāng)然了,特征具體的值是完全不一樣的,所以生成的聲音才會不一樣。聽起來挺不錯的,而且這個也幾乎沒辦法分辨。

(紙的聲音)另一段不同的聲音,翻動的紙,看頻譜圖以及聽起來都跟另外兩組聲音完全不同。(另一段紙的聲音)這個效果也很好,其實聲音很尖銳,不連續(xù),能聽出來紙頁翻到最后擦到其它的紙然后突然停下來的聲音。

紐約大學(xué)神經(jīng)學(xué)教授Eero Simoncelli萬字解析:機器生成的圖像為何能騙過你的眼睛?| ICLR 2017

Josh和我很感興趣,我們做了很多感知方面的研究來驗證這種方法的可行性,而這種方法對不同的材質(zhì)有廣泛的適用性。我們還想知道,當(dāng)我們?nèi)藶榈兀▽τ嬎氵^程)進行了選擇來讓它看起來更符合生物學(xué)的時候,這些人為因素會對最終的結(jié)果產(chǎn)生影響嗎,還是說我隨便用一組什么樣的濾波器和非線性都能得到一樣的結(jié)果。

所以我們回過頭來核對了一遍,發(fā)現(xiàn),比如當(dāng)你去掉耳蝸那里進行壓縮的非線性環(huán)節(jié),把它變成一個整流器,然后你讓人們來對比聽聽看的時候,一種是通過整流器的版本生成的,另一種是通過更符合生物學(xué)的非線性壓縮版本生成的,人們辨別更真實聲音的能力還挺不錯,他們選出來的是模仿耳蝸壓縮的那一個。更換濾波器組合的情況也差不多,如果從對數(shù)空間頻點換到線性空間頻點,還是能聽出來區(qū)別的,人類很擅長發(fā)現(xiàn)其中的區(qū)別,而且人們基本上都更喜歡對數(shù)空間的聲音,從生物學(xué)的角度這也更合理。

接下來要欺騙你的眼睛

我們對這種結(jié)果挺滿意的。我們還做了另外一組實驗,不過沒時間了我就跳過不講了。因為我想以這個做結(jié)尾。

紐約大學(xué)神經(jīng)學(xué)教授Eero Simoncelli萬字解析:機器生成的圖像為何能騙過你的眼睛?| ICLR 2017

回到圖像的部分。我們想知道,除了整體的相同紋理之外,我們還能做什么。顯然這個世界遠不只是由整體的相同紋理組成的,紋理都是一小塊一小塊的,就像一開始那張牛的照片一樣。所以如果你拿一張這樣的照片,用我們的算法進行處理,還是能拿到結(jié)果的,畢竟這個方法可以處理任何圖片,統(tǒng)計特征是對整張照片計算的,不過生成的圖片就會是這樣,費曼就像剛從攪拌機里拿出來一樣。不過你還是能看出來小塊的紋理,這些皮膚的褶皺,看起來有點不自然。

所以我們想知道,從生理學(xué)、生物學(xué)的角度考慮,人類大腦里到底發(fā)生了什么,人的大腦是如何進行表征的,是次要功能嗎,只有一部分的大腦對紋理進行表征,其它大部分都表征的是輪廓、界線、邊緣、物體嗎?還是說又是另外的樣子?

紐約大學(xué)神經(jīng)學(xué)教授Eero Simoncelli萬字解析:機器生成的圖像為何能騙過你的眼睛?| ICLR 2017

所以我們接下來做的事情用到了這些事實,從生理學(xué)角度講,感受野大小隨著偏心度的提高而變大。感受野不僅僅從V1到V2再到V4一直變大,而且還隨著到目光焦點中心的距離變大而變大,離中央凹越遠越大。這種變大差不多是線性的,這張圖是研究猴子得到的,人類的也非常接近。

紐約大學(xué)神經(jīng)學(xué)教授Eero Simoncelli萬字解析:機器生成的圖像為何能騙過你的眼睛?| ICLR 2017

畫一張簡圖來說明的話,雖然因為顏色的關(guān)系大家在臺下可能看不清,可以把V1細胞的感受野想象成這種輻射狀的圖案,越往外圈就越變大。V2細胞的差不多,不過不管在哪個位置,V2的感受野都比V1的更大。V4也一樣。等最后到了IT,感受野就很大了,可以覆蓋到眼睛視野的很大一個區(qū)域。說句題外話,這不是卷積,因為卷積需要始終使用一樣的算子;而在這里,算子越往外側(cè)越大了。所以當(dāng)我們知道了有這樣的架構(gòu)以后,我們能做一些什么,能不能給物體識別這樣的任務(wù)帶來幫助呢?

紐約大學(xué)神經(jīng)學(xué)教授Eero Simoncelli萬字解析:機器生成的圖像為何能騙過你的眼睛?| ICLR 2017

我們是這樣做的。我們用了剛才說到那樣的局部紋理表征架構(gòu),我們并沒有對整張圖片均勻地提取統(tǒng)計特征,而是分成許多小區(qū)域,具有平滑交疊的區(qū)域,然后做加權(quán)相加而不是直接全部相加再取平均。這樣它聽起來就跟生理學(xué)很接近,跟V2做的事情很接近。實際上當(dāng)你這么做的時候,你可以生成人類沒辦法區(qū)分開來的圖片,對任意圖片都可以。

紐約大學(xué)神經(jīng)學(xué)教授Eero Simoncelli萬字解析:機器生成的圖像為何能騙過你的眼睛?| ICLR 2017

我直接放一個演示吧,現(xiàn)在沒時間一項項講解我們的結(jié)果了。這張照片是在華盛頓廣場拍的。我要讓大家看一個幻象,為了能夠看到它,你在看的時候需要緊盯著畫面中央這個紅色的點不動。我會在這張照片和一張生成的圖像之間來回切換,生成的圖像中計算局部統(tǒng)計特征所用的區(qū)域大小就跟人的V2細胞感受野差不多大。我們的想法是,如果人類的大腦就是這樣做表征的,那你就沒辦法分辨這些圖像。

紐約大學(xué)神經(jīng)學(xué)教授Eero Simoncelli萬字解析:機器生成的圖像為何能騙過你的眼睛?| ICLR 2017

現(xiàn)在開始了,來回翻動。眼光盯著紅色的點不要移開。如果沒什么意外的話,那跟我們做實驗時候的參與者一樣,你們應(yīng)該也沒辦法區(qū)分開這兩幅圖像。

紐約大學(xué)神經(jīng)學(xué)教授Eero Simoncelli萬字解析:機器生成的圖像為何能騙過你的眼睛?| ICLR 2017

但是實際上,如果你現(xiàn)在把注意力放在邊上那個紅色圈里的話,兩張圖像的區(qū)別其實挺大的,其中一張有很多的扭曲,就像前面費曼那張一樣。但是如果你盯著紅色圈的話,你就看不到這些扭曲了。說實話這些扭曲還是挺明顯的,看起來很詭異,但是如果當(dāng)你不盯著它們看的時候你就發(fā)現(xiàn)不了它們。

那我們做這件事是為了干嘛?我們把一些東西丟進了零空間里面,直觀線性地描述的話,就是我們把一些東西丟進了你視覺系統(tǒng)的零空間里面,然后你發(fā)現(xiàn)不了。你的視覺系統(tǒng)把這些信息扔掉了,它發(fā)現(xiàn)不了這里有嚴重的扭曲。我覺得可以利用這一點來解決很多實際問題,不過現(xiàn)在沒時間給大家講了,我要給演講做結(jié)尾了。

紐約大學(xué)神經(jīng)學(xué)教授Eero Simoncelli萬字解析:機器生成的圖像為何能騙過你的眼睛?| ICLR 2017

后來的故事是,我們繼續(xù)把這些發(fā)現(xiàn)跟生理學(xué)做了定性定量的對比,我們做了一些實驗,實驗中我們記錄了V2細胞的響應(yīng),給它們展示紋理,然后嘗試理解它們表征的結(jié)果是什么。

紐約大學(xué)神經(jīng)學(xué)教授Eero Simoncelli萬字解析:機器生成的圖像為何能騙過你的眼睛?| ICLR 2017

這對你生活中的所有事情都會產(chǎn)生影響,就像閱讀,比方說你看書的時候,人的目光不是均勻地從頁面上掃過去的,而是一跳一跳的。每次跳的距離,我們根據(jù)這個模型算了一下,差不多剛好就是能讓單詞看得清的那個距離。假如你目光盯著這里左邊這個紅點,這是我們生成的舉例圖像,你能看清的單詞基本上也就是“myself”和它上下的幾個字母。當(dāng)你的目光跳轉(zhuǎn)到下一個位置以后,你就能讀出下一個單詞了。這兩個紅色點之間相對于周圍的文本的距離,就是差不多是你閱讀的時候目光跳轉(zhuǎn)的典型距離。

這就讓我們覺得可以給閱讀建模,限制閱讀速度的最重要因素之一就是目光跳轉(zhuǎn)距離。所以我們可以想辦法增加這個跳轉(zhuǎn)距離,比如通過設(shè)計新的閱讀形式,用不同的字體、不同的空檔、不同的字符等等,這樣就不會起到這么大的混雜或者扭曲效果了。換句話說就是我們想避免把文本信息丟到零空間里面去,我們想讓它們留在實際的表征空間里。建立這樣的模型就給了我們嘗試這樣做并進行研究的機會。

紐約大學(xué)神經(jīng)學(xué)教授Eero Simoncelli萬字解析:機器生成的圖像為何能騙過你的眼睛?| ICLR 2017

OK,我講差不多了。

這種時候我們可以問自己這樣一個問題,我們可以就這樣研究下去嗎,把線性濾波、整流器、一些局部統(tǒng)計特征以及池化堆在一起,越堆越多就可以解釋人類視覺了嗎?我以前覺得大概不行吧,不過現(xiàn)在隨著深度卷積網(wǎng)絡(luò)的研究越來越成功,我猜答案也許是肯定的。Lettvin在1976年的時候說了一段的令人印象深刻的話:“經(jīng)過部分重新定義的紋理,也許是就構(gòu)建出形態(tài)的原始素材”。他的觀點里大概覺得你可以在紋理表征的基礎(chǔ)上進行形態(tài)的表征,而不是把形態(tài)作為一個單獨的實體。

紐約大學(xué)神經(jīng)學(xué)教授Eero Simoncelli萬字解析:機器生成的圖像為何能騙過你的眼睛?| ICLR 2017

總結(jié)

那么,總結(jié)一下。

  • 我前面嘗試從生物學(xué)角度給大家解釋了這種階梯式模型的建立,我試著讓大家相信帶有生物學(xué)屬性的淺層階梯式模型的力量比我們預(yù)想的,起碼比我預(yù)想的強大多了。

  • 生成式方法是表征研究非常有力的測試方法,可以用來驗證不變性,或者探究零空間如果你感興趣的話;它還可以用來驗證度量屬性,比如距離和曲率——這是去年ICLR2016的時候展示的內(nèi)容,Olivia Hanoff和我一起做了一張精美的海報,展示了我們可以生成測地線,兩張圖像中的路線和圖像空間在響應(yīng)空間中沿最短路徑的距離(pads and image space between 2 images that followed the shortest path in the response space)。

  • 我們現(xiàn)在也在繼續(xù)充實這些模型,來讓它們能夠測量感知質(zhì)量。為了達到這個目的,你還需要在其中加入新的非線性部分來關(guān)注局部增益控制,局部增益控制是指你通過生物學(xué)感知系統(tǒng)看到的東西,我們覺得這對研究大腦的運行有非常非常重要的作用。這件事是大多數(shù)深度網(wǎng)絡(luò)研究中沒有做的,我們覺得它的重要性也會得到體現(xiàn)。我們用了很多種不同的方法來研究它,其中一種大家會在下一場演講中聽我講到,會講到用帶有局部增益控制的表征進行壓縮。

  • 最后一點,就是我們非常想要理解如何用非監(jiān)督學(xué)習(xí)的方法學(xué)會這些表征,下一場演講我也會在生物學(xué)表征的語境下開始對這個方面做一些強調(diào)。

紐約大學(xué)神經(jīng)學(xué)教授Eero Simoncelli萬字解析:機器生成的圖像為何能騙過你的眼睛?| ICLR 2017

最后我想感謝一下我實驗室里參與項目的成員,都非常的優(yōu)秀,Javier Portilla建立了最早的紋理模型,Jeremy Freeman建立了基于局部紋理塊的大型全局紋理模型,Corez Ziemba積極參與了很多心理物理學(xué)和生理學(xué)方面的研究,Josh McDermott建立了聲學(xué)模型。

謝謝!

AI科技評論招業(yè)界記者啦!

在這里,你可以密切關(guān)注海外會議的大牛演講;可以采訪國內(nèi)巨頭實驗室的技術(shù)專家;對人工智能的動態(tài)了如指掌;更能深入剖析AI前沿的技術(shù)與未來!

如果你:

*對人工智能有一定的興趣或了解

 * 求知欲強,具備強大的學(xué)習(xí)能力

 * 有AI業(yè)界報道或者媒體經(jīng)驗優(yōu)先

簡歷投遞:

lizongren@leiphone.com

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

紐約大學(xué)神經(jīng)學(xué)教授Eero Simoncelli萬字解析:機器生成的圖像為何能騙過你的眼睛?| ICLR 2017

分享:
相關(guān)文章

讀論文為生

日常笑點滴,學(xué)術(shù)死腦筋
當(dāng)月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說