0
雷鋒網(wǎng)AI科技評論了解到,近期清華信息科學與技術聯(lián)合實驗室,智能技術與系統(tǒng)國家重點實驗室,生物啟發(fā)計算研究中心和清華大學計算機科學技術學院聯(lián)合發(fā)表的論文《使用對抗性例子提高深度神經(jīng)網(wǎng)絡性能》,探索了深度神經(jīng)網(wǎng)絡的內(nèi)部架構,并提出了一種方法使人類可以監(jiān)督網(wǎng)絡的生成和網(wǎng)絡發(fā)生錯誤的位置。
作者包括 Dong Yingpeng, Hang Su,Jun Zhu和Fan Bao。
原文鏈接:https://arxiv.org/pdf/1708.05493.pdf,雷鋒網(wǎng)AI科技評論編譯。
深度神經(jīng)網(wǎng)絡(DNNs)在很多領域中都有前所未有的表現(xiàn),包括語音識別,圖像分類,物體檢測等,但是DNNs的內(nèi)部結構和學習產(chǎn)生的參數(shù)對學者來說一直都是黑匣子,剛開始的幾個網(wǎng)絡還能看的懂,然而越深度越不可解釋。在很多情況下,由于人類對其認知的局限性,包括DNNs如何進行判斷和如何行動,深度神經(jīng)網(wǎng)絡的使用范圍則受到限制,特別是在一些安全性要求非常高的使用場合,比如:醫(yī)院領域和自動駕駛等。研究人員需要理解訓練產(chǎn)生的網(wǎng)絡在判斷時的理論基礎,從而進一步的對網(wǎng)絡進行理解、驗證、修改和信任一個學習模型,并修正其已產(chǎn)生的和潛在的問題。因此,開發(fā)一種算法,來對產(chǎn)生的神經(jīng)網(wǎng)絡進行深入的剖析則變得非常重要了。在這個方向,很多的研究已經(jīng)在進行了。學者們通過各種方法對機器產(chǎn)生的深度神經(jīng)網(wǎng)絡進行窺探,包括語義的,圖像的。比如,學者們發(fā)現(xiàn),在最大化或多梯度為基礎的算法中,卷積層中的一個神經(jīng)元可以看做是物體/局部的鑒別器。然而,這些嘗試大多建立在一個特定的數(shù)據(jù)庫之上(比如:ImageNET,Place),并且大部分的工作量都用作神經(jīng)網(wǎng)絡的基本理論解釋,很少有人會將注意力放在DNNs產(chǎn)生錯誤的原因上。
提高神經(jīng)網(wǎng)絡性能的方法有很多,這篇論文重點分析面對不規(guī)則的例子(如:對抗性的例子)時DNNs的行為并通過跟蹤輸出的特征解釋了神經(jīng)網(wǎng)絡的預測原理。特別的是,通過使用對抗性的例子,作者對比之前的研究結論,發(fā)現(xiàn)使用這種方法可以獲得更好的神經(jīng)網(wǎng)絡的解釋性能。通過使用“惡意”的對抗圖片,DNNs可以生成如設計的“錯誤”的預測結果。將這種刻意“誤導”的結果和真實的圖片結果進行對比,從不同的結果上可以探尋DNNs的工作原理,既可以分析出DNNs如何進行正確的判斷,又可以知道DNNs產(chǎn)生錯誤的原因,最終在一定程度上了解DNNs的機制。采用對抗性的圖像而不是使用真實圖像進行“錯誤”的預測的原因是使用真實圖像產(chǎn)生的誤差是可以容忍的,例如:Tabby Cat和Tiger Cat的錯誤分類結果跟對Tabby Cat和School Bus的錯誤分類結果相比,前者在視覺上和語義上都更能讓人容忍。因此,使用完全“不同”的對抗性圖片,可以更好更直觀的區(qū)分和理解DNNs的錯誤判斷來源。
雷鋒網(wǎng)AI科技評論整理后,了解到這篇論文有如下幾個重點問題:
為了更好的研究DNNs,作者建了一套對抗性的數(shù)據(jù)集。使用ILSVRC 2012 驗證數(shù)據(jù)庫對10張圖片分別進行不同的標注,最終形成了一個500K的對抗性的驗證數(shù)據(jù)庫。使用集成優(yōu)化攻擊算法生成更多的通用對抗圖片,這些圖片具有很強的移植性,可以在其他模型中使用,如圖1(a)。
作者對多個基本架構進行了,包括AlexNet、VGG、ResNet,并使用了真實的圖片和生成的對抗性圖片。人工監(jiān)控了在輸入不同的圖片時DNNs中神經(jīng)元的反應。同時對大量的視覺概念進行比對和評估。結果是很有趣的:(1)真實圖像中具有高語義的神經(jīng)元的表現(xiàn)在輸入對抗性圖像時表現(xiàn)不同;通過這個結果得出結論:DNNs中的神經(jīng)元并沒有真正的去檢測語義對象,只把語義對象當做是復發(fā)性判別小圖塊進行響應。這一點與以前的研究恰恰相反。(2)深度視覺上的表現(xiàn)不是視覺概念的魯棒性分布式編碼,因為盡管視覺上看起來很相近,對抗性的圖片與真實的圖片在很大程度上不一致。如圖1(a)。
對抗性的訓練在之前的研究中已經(jīng)被證實可對提高深度神經(jīng)網(wǎng)絡的魯棒性帶來顯著的效果。在這篇論文中,作者通過引入對抗性的圖片提高了DNNs的性能。除去對抗噪聲,從結果上可以看出對抗圖片的結果與真實圖片的結果很相似。這個過程鼓勵神經(jīng)元學習抵抗對抗性擾動的干擾,因此,當優(yōu)選對象/部件出現(xiàn)時,神經(jīng)元總是會被激活,而當它們消失時,神經(jīng)元則無效,見圖1(b)。通過這個過程,人類學者可以對該神經(jīng)元進行追蹤,從而推測模型的理論預測原理。同時,這一過程中,人類學者還可以知道模型產(chǎn)生錯誤的時間和原因,如圖1(c)。
作者通過對ImageNet數(shù)據(jù)庫中的圖片進行實驗,實驗首先需要建立一組對抗性圖片,然后將圖片運用到生成的模型中,進而觀模型的輸出變化進行比對。DNNs對對抗性擾動的抵抗力非常脆弱,因此基于這個特性,有些方法已經(jīng)被設計出來用作這個方面的研究,包括: L-BFGS,F(xiàn)ast Gradient Sign,Deep-Fool等。但是這些方法通常都是為某一個特性的模型設計的。本文的作者引入了一種新的方法,集成優(yōu)化攻擊算法,這種方法具有更強的通用性。如下:
對AlexNet,VGG-16和RESNET-18模型進行攻擊,通過解決上方公式中的優(yōu)化問題,采用Adam優(yōu)化器,5步長,并進行10-20次的迭代。由此,得到10張圖片分別進行不同的標注,最終形成了一個500K的對抗性的驗證數(shù)據(jù)庫。使用集成優(yōu)化攻擊算法生成更多的通用對抗圖片,這些圖片具有很強的移植性,可以在其他模型中使用。
如圖2,作者展現(xiàn)了部分圖片結果。在第一行中,真實的圖片中神經(jīng)元擁有明確的語義解釋或者人類可以理解的視覺概念,第二行對抗性圖片表現(xiàn)出的語義解釋則不能讓人理解。一般情況系,神經(jīng)元對對抗性圖片中的不同部分更為敏感。在分析神經(jīng)元的表現(xiàn)之后,在真實圖片中具有高語義的神經(jīng)元在處理對抗性圖片時(紅色框)被充分的激活了。然而,視覺表現(xiàn)上則能看出真實圖片和對抗性圖片的明顯不同。另一方面,對抗圖片中相似的部分,則表現(xiàn)出不活躍性,意味著在對抗性圖片中,神經(jīng)元無法檢測出對應的物體/部分。如neuron 147 檢測出了真實圖片中的Bird head(鳥頭),但是使用對抗攻擊的算法后,在對抗性圖片中,則框出很多其他的物體,這些物體(紅色框)都是被錯誤的分類為Bird。另外,在對抗性圖片中,網(wǎng)絡也無法正確的識別出真實的Bird(鳥),這就意味著DNNs并沒有對語義的物體/部分進行識別,只是將這些部分當做復發(fā)性判別小圖塊進行響應。
通過量化的理論分析,可以得知,在對抗性圖片的結果與真實圖片的結果無法對應。這意味著,DNNs的表現(xiàn)受對抗性擾動的影響嚴重,并且不是視覺概念的魯棒性分布式編碼方式。這樣的話,DNNs的表現(xiàn)會造成在進行物體檢測、視覺問答、視頻處理時的不準確的判斷。那么什么時候DNNs會犯錯呢?
在上圖實驗中發(fā)生圖片判斷不一致的地方則提供了區(qū)分網(wǎng)絡判斷錯誤時間的機會。使用有條件的高斯分布模型(Gaussian distribution):p(φ(x) | y = i) =N (μ i , Σ i ),通過ILSVRC 2012訓練數(shù)據(jù)庫對DNNs發(fā)生錯誤的時間進行推測,如下圖:
通過使用對抗性訓練,作者實現(xiàn)了對DNNs性能的提高。對抗訓練具有訓練可讀的DNNs的可能性,因為它使模型在輸入空間上學習到更多的Robost概念,產(chǎn)生的對抗圖像的表現(xiàn)類似于通過抑制擾動的原始圖像。要做到這一點,需要引入一個一致的(做匹配用)的誤差。使用這個誤差可以使得當神經(jīng)元從表現(xiàn)中的對抗性噪聲恢復,優(yōu)選的物體/部件出現(xiàn)時,神經(jīng)元一直保持處在激活的狀態(tài)。通過最小化一個對抗性的物體來進行DNNs的訓練:
然后使用Fast Gradient Sign(FGS)方法生成對抗性圖片:
通過這些步驟,最終可以發(fā)現(xiàn)DNNs的可解釋性得到了顯著的提高,同時又保持了原有的性能(1%~4%的精度下降)。結果見圖7。
通過使用對抗訓練,神經(jīng)元可以檢測圖片中的視覺概念,而不是僅僅是對小圖塊進行反應了。這種方式的優(yōu)勢在這提供了一種深度神經(jīng)網(wǎng)絡如何進行預測的方式。根據(jù)這種流程,人類研究者可以一步步的探索DNNs的工作原理,并梳理出一套在決策過程中起決定性作用的神經(jīng)元。
在這篇論文中,作者運用集成優(yōu)化算法(ensemble-optimization algorithm)并使用對抗圖片重新審視生成的深度神經(jīng)網(wǎng)絡。通過實驗發(fā)現(xiàn):(1)深度神經(jīng)網(wǎng)絡中的神經(jīng)元并沒有真正的去檢測語義對象,只把語義對象當做是復發(fā)性判別補丁進行響應;(2)深度視覺上的表現(xiàn)不是視覺概念的魯棒性分布式編碼,因為盡管視覺上看起來很相近,對抗性的圖片與真實的圖片在很大程度上不一致,;這兩點都與以往的發(fā)現(xiàn)有所不同。為了更好了讓研發(fā)人員看懂DNNs的構成,作者提出了一種對抗訓練方法,引入固定的誤差,從而賦予神經(jīng)元人類解釋的概念。通過這種方法,人們可以對最終產(chǎn)生的結果進行回溯,從而得知深度神經(jīng)網(wǎng)絡生成的過程,獲取發(fā)生錯誤的時間和原因。
雷峰網(wǎng)版權文章,未經(jīng)授權禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。