丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能開(kāi)發(fā)者 正文
發(fā)私信給黃善清
發(fā)送

0

清華大學(xué)王宇龍:如何通過(guò)關(guān)鍵數(shù)據(jù)通路去理解網(wǎng)絡(luò)行為? | AI研習(xí)社62期大講堂

本文作者: 黃善清 編輯:楊曉凡 2018-08-17 11:18
導(dǎo)語(yǔ):理解神經(jīng)網(wǎng)絡(luò)的新思路——關(guān)鍵數(shù)據(jù)通路

雷鋒網(wǎng)AI研習(xí)社按:神經(jīng)網(wǎng)絡(luò)長(zhǎng)久以來(lái)的“黑盒”屬性,導(dǎo)致人們一直無(wú)法理解網(wǎng)絡(luò)的內(nèi)部是如何運(yùn)作的,針對(duì)這個(gè)困擾已久的問(wèn)題,學(xué)界主要存在三種研究方向:數(shù)據(jù)歸因模式、特征解碼模式以及模型理解模式。

在近日的 AI 研習(xí)社大講堂上,清華大學(xué)的王宇龍就從模型理解的角度入手,為我們?cè)敿?xì)介紹了如何通過(guò)發(fā)現(xiàn)網(wǎng)絡(luò)中的關(guān)鍵數(shù)據(jù)通路(critical data routing paths, CDRPs),更好地理解網(wǎng)絡(luò)。

公開(kāi)課回放地址:

http://www.mooc.ai/open/course/520

分享主題:利用關(guān)鍵數(shù)據(jù)通路理解神經(jīng)網(wǎng)絡(luò)

分享提綱:

  • 方法介紹——distillation guided routing(DGR)算法

  • 結(jié)果分析——路由的通路包含一定語(yǔ)義含義,幫助我們更好地理解網(wǎng)絡(luò)行為

  • 應(yīng)用領(lǐng)域——安全對(duì)抗樣本檢測(cè)

雷鋒網(wǎng) AI 研習(xí)社將其分享內(nèi)容整理如下:

這張圖大概總結(jié)了一下當(dāng)前這種網(wǎng)絡(luò)可解釋性的含義,我們常常把這種網(wǎng)絡(luò)、深度神經(jīng)網(wǎng)絡(luò)看作一個(gè)black box model,也就是一個(gè)黑盒模型,就像圖片中所描述的一樣。


清華大學(xué)王宇龍:如何通過(guò)關(guān)鍵數(shù)據(jù)通路去理解網(wǎng)絡(luò)行為? | AI研習(xí)社62期大講堂

我們想知道網(wǎng)絡(luò)里面運(yùn)行的時(shí)候到底在做什么,學(xué)習(xí)完之后究竟學(xué)習(xí)到什么樣的知識(shí),能夠?qū)ξ覀內(nèi)祟?lèi)有什么樣的啟發(fā),所以對(duì)于網(wǎng)絡(luò)可理解性來(lái)說(shuō),目前有這樣三個(gè)主要的研究方向:

  • 左邊綠色箭頭指向的,是說(shuō)我將網(wǎng)絡(luò)所做的決策,或者說(shuō)預(yù)測(cè)結(jié)果,直接歸因到數(shù)據(jù)層面,去分析樣本中哪些數(shù)據(jù)、或者說(shuō)數(shù)據(jù)當(dāng)中哪一塊區(qū)域,它的特征更加重要,我就直接拿來(lái)作為網(wǎng)絡(luò)行為的一種解釋。

  • 右邊藍(lán)色箭頭指向的則是第二種方向也就是將網(wǎng)絡(luò)所學(xué)到的這種行為或者特征和人類(lèi)已有的這種像知識(shí)圖譜的一些概念去進(jìn)行聯(lián)系,使網(wǎng)絡(luò)在進(jìn)行決策的時(shí)候,我們?nèi)祟?lèi)能夠理解它究竟在做些什么。

  • 下面又是另外一種方向,我畫(huà)了一個(gè)顯微鏡的圖案來(lái)表示,我們要直接去探求網(wǎng)絡(luò)內(nèi)部究竟在做什么,這個(gè)相對(duì)來(lái)說(shuō)會(huì)比較難,因?yàn)樗且环N更加直接的理解網(wǎng)絡(luò)的方法——們的工作就屬于這個(gè)方向。

 我再細(xì)說(shuō)一下這三個(gè)方向。 

清華大學(xué)王宇龍:如何通過(guò)關(guān)鍵數(shù)據(jù)通路去理解網(wǎng)絡(luò)行為? | AI研習(xí)社62期大講堂

第一類(lèi)方法是歸因到數(shù)據(jù)層面的方法,我們叫做attribution methods,中文為“溯因方法”,它的一個(gè)大致的流程是說(shuō),給一張圖片,或者給一個(gè)數(shù)據(jù),網(wǎng)絡(luò)幫我們做出了這個(gè)決策,那么現(xiàn)在我要了解,究竟是數(shù)據(jù)的哪一面最終導(dǎo)致這個(gè)預(yù)測(cè)結(jié)果,然后我們就可以通過(guò)attribution methods去追溯和歸因到數(shù)據(jù)層面上去。像右上方第一張圖顯示的,就是幾種不同attribution methods的一個(gè)展示結(jié)果,主要通過(guò)一種叫做saliency maps(中文稱(chēng)作“顯著圖”)的方式來(lái)進(jìn)行展示,圖片上面可以看到像某種熱力圖一樣,顏色越深的,代表這一部分區(qū)域所做的貢獻(xiàn)越大,對(duì)最終預(yù)測(cè)結(jié)果起著最關(guān)鍵的影響。

第二類(lèi)方法是歸因到知識(shí)上去,這種被稱(chēng)作feature decoding的方式(中文“特征解碼”),它將網(wǎng)絡(luò)中間的中間層的特征給解碼出來(lái),然后轉(zhuǎn)換到一個(gè)可理解的概念上去。換句話(huà)說(shuō),我在預(yù)測(cè)結(jié)果的同時(shí),同時(shí)產(chǎn)生一段文本去解釋這個(gè)預(yù)測(cè)結(jié)果產(chǎn)生的原因。比如說(shuō)右面的第二張圖,它在預(yù)測(cè)每一種鳥(niǎo)類(lèi)的同時(shí),也給出了這些鳥(niǎo)類(lèi)局部的一些特征,比如說(shuō)這個(gè)鳥(niǎo)之所以是某種鳥(niǎo)類(lèi),是因?yàn)樗牟弊踊蛘哳^部或者嘴巴具備什么樣的特征,是一個(gè)比較接近人類(lèi)的這樣一種解釋方式。不過(guò),這種解釋方法回避了模型本身的解釋?zhuān)簿褪钦f(shuō)產(chǎn)生這種文本的解釋是用另外一種網(wǎng)絡(luò)來(lái)去訓(xùn)練的,那么產(chǎn)生解釋的網(wǎng)絡(luò)又該如何去理解呢?

第三類(lèi)方法是直接去理解模型本身的行為。這一類(lèi)方法目前沒(méi)有一個(gè)統(tǒng)一的范式,主要靠大家從多種不同的角度來(lái)做解釋。比如說(shuō)我本來(lái)有一個(gè)很深的網(wǎng)絡(luò),或者說(shuō)一個(gè)很復(fù)雜的模型,那么我通過(guò)像知識(shí)蒸餾或者說(shuō)模仿這種行為,去訓(xùn)練一個(gè)更容易理解的模型,通過(guò)這個(gè)更容易理解的模型,針對(duì)某個(gè)局部面再去模仿原來(lái)模型的行為,是一種基于局部的一種解釋?;蛘哒f(shuō)從一開(kāi)始設(shè)計(jì)這種網(wǎng)絡(luò)的時(shí)候,就是要設(shè)計(jì)成一個(gè)可解釋的模型,比如說(shuō)每一步都分別對(duì)應(yīng)一種語(yǔ)義含義行為的設(shè)計(jì)方法。

關(guān)鍵數(shù)據(jù)通路

我們的工作主要是通過(guò)發(fā)現(xiàn)網(wǎng)絡(luò)中的關(guān)鍵數(shù)據(jù)通路(critical data routing paths,CDRPs),更好地去理解網(wǎng)絡(luò)。我們從之前類(lèi)似網(wǎng)絡(luò)壓縮的一些工作中發(fā)現(xiàn),網(wǎng)絡(luò)中其實(shí)存在很多冗余,并不是所有的節(jié)點(diǎn)或者說(shuō)神經(jīng)元都被利用到,這些神經(jīng)元即便刪去,也不會(huì)影響最終的預(yù)測(cè)結(jié)果。因此我們認(rèn)為,每個(gè)樣本進(jìn)來(lái)的時(shí)候,網(wǎng)絡(luò)都只是利用了其中一部分的節(jié)點(diǎn)或者說(shuō)通路來(lái)完成最終預(yù)測(cè)的。

清華大學(xué)王宇龍:如何通過(guò)關(guān)鍵數(shù)據(jù)通路去理解網(wǎng)絡(luò)行為? | AI研習(xí)社62期大講堂

我們的工作希望能夠發(fā)掘出這些通路的特征或者說(shuō)規(guī)律。在定義關(guān)鍵數(shù)據(jù)通路以前,我們首先要定義的是關(guān)鍵節(jié)點(diǎn),因?yàn)?span style="color: #C0504D;">關(guān)鍵數(shù)據(jù)通路實(shí)際上是由這些通路上的關(guān)鍵節(jié)點(diǎn)所組成的。比如像右面這張圖顯示的,共有三個(gè)卷積層,每一層紅色代表的都是不重要的可以進(jìn)行刪除的節(jié)點(diǎn),而綠色則代表的關(guān)鍵節(jié)點(diǎn)。通過(guò)連接每一層的關(guān)鍵節(jié)點(diǎn),我們也就組成了所謂的關(guān)鍵數(shù)據(jù)通路。

所謂的關(guān)鍵節(jié)點(diǎn),我們可以理解成輸出的關(guān)鍵channel,比如像一個(gè)卷積層,它的輸出是個(gè)三維的增量,在長(zhǎng)寬兩維上我們認(rèn)為是一種空間上的信息保留,而channel維就是一個(gè)第三維的信息保留,我們認(rèn)為它是包含了這種語(yǔ)義含義的,或者說(shuō)是代表這種節(jié)點(diǎn)的概念。如果一個(gè)通道全部被置為零,對(duì)最終預(yù)測(cè)結(jié)果產(chǎn)生了很大影響的話(huà),這個(gè)節(jié)點(diǎn)就是關(guān)鍵節(jié)點(diǎn)。

從方法上來(lái)說(shuō),我們首先引入了control gates(中文為控制門(mén))的概念,這個(gè)想法受到過(guò)去的模型壓縮、模型減枝方法的一些啟發(fā),channel-wise control gates說(shuō)的是通道維上的每一維或者每一個(gè)通道都去關(guān)聯(lián)一個(gè) lambda(這個(gè)lambda是一個(gè)標(biāo)量值,我們認(rèn)為這個(gè)lambda就是一個(gè)control gates),一旦這個(gè) lambda 為 0,最后的優(yōu)化問(wèn)題也同樣顯示為 0 的話(huà),就默認(rèn)它是一個(gè)不重要的節(jié)點(diǎn),完全可以刪除掉。如果它是一個(gè)帶 0 的值,之后的值我們是不做限制的,因?yàn)橹档拇笮〈砹怂谶@一次預(yù)測(cè)中的重要性。 

清華大學(xué)王宇龍:如何通過(guò)關(guān)鍵數(shù)據(jù)通路去理解網(wǎng)絡(luò)行為? | AI研習(xí)社62期大講堂

我們應(yīng)該如何求解 lambda 的優(yōu)化目標(biāo)是什么呢?其實(shí)我們是借鑒了這個(gè)所謂“知識(shí)蒸餾”的概念(Hinton在2015年所提出),也就是說(shuō)網(wǎng)絡(luò)在進(jìn)行預(yù)測(cè)的時(shí)候,它所輸出的概率分布不只是包含預(yù)測(cè)結(jié)果,還包括了隱藏知識(shí)——網(wǎng)絡(luò)里被認(rèn)為包含其他類(lèi)的概念有多少。我們的目標(biāo)是要在刪掉這些不重要的節(jié)點(diǎn)以后,網(wǎng)絡(luò)的數(shù)據(jù)概率值能夠盡量接近原始的網(wǎng)絡(luò)數(shù)據(jù)概率值。

同一時(shí)間,我們要加上一定的正則項(xiàng)去約束control gate:一方面約束它大于0,非負(fù)數(shù);另一方面則要約束它具備“稀疏”的特性。右邊的優(yōu)化目標(biāo)表示的是第一部分花體 L 的 loss function,度量的是兩次網(wǎng)絡(luò)輸出的概率分布距離。

第一項(xiàng)這個(gè)f_\theta(x),是原始網(wǎng)絡(luò)在獲得樣本后的一個(gè)輸出概率分布,是針對(duì)單樣本來(lái)說(shuō)的(每次只考慮一個(gè)樣本)。第二項(xiàng)加了一個(gè)帶有 lambda 的式子,代表的是引入了control gate后,“減枝”網(wǎng)絡(luò)的輸出概率分布和原始網(wǎng)絡(luò)的輸出概率分布的接近程度——L。L 實(shí)際上就是一個(gè) cross entropy,衡量?jī)蓚€(gè)概率分布的距離。

接下來(lái)說(shuō)一下lambda的約束限制。 

清華大學(xué)王宇龍:如何通過(guò)關(guān)鍵數(shù)據(jù)通路去理解網(wǎng)絡(luò)行為? | AI研習(xí)社62期大講堂

第一項(xiàng)是要求它“非負(fù)”。lambda可以為 0,代表的是被完全抑制掉、刪除掉(假設(shè)該值大于0,小于1,說(shuō)明比原來(lái)的響應(yīng)相對(duì)要小一點(diǎn),要是大于 0 且大于 1,說(shuō)明它比原來(lái)的響應(yīng)要更高一點(diǎn),有一點(diǎn)放大的作用),但是我們不能讓它變?yōu)樨?fù)數(shù),因?yàn)樨?fù)數(shù)相當(dāng)于把整個(gè) channel 的 activations 的全部正負(fù)號(hào)都交換了,相當(dāng)于所有的值都取了一個(gè)相反數(shù),我們認(rèn)為這樣對(duì)原始網(wǎng)絡(luò)輸出值的分布范圍會(huì)有較大影響,且會(huì)對(duì)最終行為存在較大干擾。所以我們做網(wǎng)絡(luò)可解釋性的首要條件,是在保證盡量少改動(dòng)的情況下去解釋當(dāng)前網(wǎng)絡(luò),一旦引入過(guò)多額外的干擾,你就很難保證說(shuō)現(xiàn)在的解釋對(duì)于原來(lái)的網(wǎng)絡(luò)還是成立的。

第二項(xiàng)是要求它具有一定的稀疏性,這個(gè)和已有的一些“稀疏學(xué)習(xí)”的部分主張是吻合的,可以理解為越稀疏的模型,它將這種不同的屬性都進(jìn)行解耦并取了關(guān)鍵屬性,就越發(fā)具備可理解性。

路徑的表示

我們以上所說(shuō)的是 distillation guided routing(DGR)的一個(gè)大致方法。接下來(lái)我再說(shuō)一下,如何對(duì)最終尋找到的路徑進(jìn)行表示。 

清華大學(xué)王宇龍:如何通過(guò)關(guān)鍵數(shù)據(jù)通路去理解網(wǎng)絡(luò)行為? | AI研習(xí)社62期大講堂

每次優(yōu)化完以后,每層它都有一個(gè)contol gate value,由粗體的lambda表示(大K表示的是網(wǎng)絡(luò)擁有K層這樣一個(gè)概念),只要將所有的control gate value拼接成一個(gè)最終長(zhǎng)的向量,就是我們對(duì)相關(guān)路徑的一個(gè)表示。因?yàn)槲覀兛梢灾苯訉?duì)長(zhǎng)的向量使用tresholding這一種取閾值的方法,來(lái)獲得最終的critical nodes。比如說(shuō)我認(rèn)為大于0.5的才是真正的critical nodes,小于0.5的則不是,那我們可以通過(guò)取義值,得到一個(gè)最終的二值mask,那么它就代表了哪些可以被刪除,哪些可以被保留。

我們?cè)诤髞?lái)的實(shí)驗(yàn)中發(fā)現(xiàn),這一種表示包含了非常豐富的信息——如果不取義值,只將它原始優(yōu)化出來(lái)的浮點(diǎn)值保留下來(lái)的話(huà),網(wǎng)絡(luò)在進(jìn)行預(yù)測(cè)的時(shí)候,我們將發(fā)現(xiàn)更加豐富的功能性過(guò)程(可以把它視為一種新的activations,網(wǎng)絡(luò)響應(yīng)都是一層一層傳到最高層,最高層的feature就可以看成一個(gè)響應(yīng),我們相當(dāng)于側(cè)面在channel維上去引入了新的特征表示)。

接下來(lái)我詳細(xì)說(shuō)一下這一頁(yè)(PPT第4頁(yè))的優(yōu)化問(wèn)題,我們應(yīng)該如何進(jìn)行求解。

清華大學(xué)王宇龍:如何通過(guò)關(guān)鍵數(shù)據(jù)通路去理解網(wǎng)絡(luò)行為? | AI研習(xí)社62期大講堂

求解的方法其實(shí)很簡(jiǎn)單,就是通過(guò)梯度下降算法,每一次根據(jù)優(yōu)化目標(biāo)對(duì)control gate value進(jìn)行求導(dǎo)(原始網(wǎng)絡(luò)的權(quán)重值都是固定不變的)。所以我們解釋一些已有模型(比如像VGG,Alexnet, ResNet),都是通過(guò)引入并求解control gate value,接下來(lái)當(dāng)我們?cè)偃ソ忉尰蛘邇?yōu)化時(shí)就會(huì)非常簡(jiǎn)單,因?yàn)樗枰碌膮?shù)非常少,比如我們?cè)趯?shí)驗(yàn)中只需設(shè)置30個(gè)iteration,就能得到一個(gè)很好的解釋結(jié)果。

在優(yōu)化的過(guò)程當(dāng)中,這些引入control gate value的網(wǎng)絡(luò)預(yù)測(cè),比如說(shuō)top-1 prediction,也就是那個(gè)最大類(lèi)別的響應(yīng),要和原始網(wǎng)絡(luò)的預(yù)測(cè)保持一致。比如說(shuō)原始網(wǎng)絡(luò)它看圖片預(yù)測(cè)出來(lái)是狗,那么新的網(wǎng)絡(luò)也要保障它的預(yù)測(cè)結(jié)果是狗。至于其他類(lèi)別的響應(yīng),我們則不做要求,因?yàn)榧热皇莇istillation,肯定就會(huì)存在一定程度的不同??偟膩?lái)說(shuō),你在解釋的網(wǎng)絡(luò)的時(shí)候,不該改變網(wǎng)絡(luò)的原始行為。

接下來(lái)說(shuō)一下對(duì)抗樣本檢測(cè),我們之所以會(huì)將該方法用到這個(gè)任務(wù)上去,是因?yàn)槲覀儼l(fā)現(xiàn),我們所找到的這個(gè)feature對(duì)于對(duì)抗樣本檢測(cè)有很大的幫助。

清華大學(xué)王宇龍:如何通過(guò)關(guān)鍵數(shù)據(jù)通路去理解網(wǎng)絡(luò)行為? | AI研習(xí)社62期大講堂

首先什么叫對(duì)抗樣本?非常簡(jiǎn)單,看下面這張圖,第一個(gè)是大熊貓,它被輸入進(jìn)一個(gè)標(biāo)準(zhǔn)的網(wǎng)絡(luò)里面,被顯示為55.7%的一個(gè)預(yù)測(cè)信度,但是我在中間加了這個(gè)噪聲圖,最后得到一張新的圖片,再把這張新的圖片輸入到網(wǎng)絡(luò)里時(shí),結(jié)果預(yù)測(cè)為“長(zhǎng)臂猿”,同時(shí)擁有很高的信度,達(dá)到99.3%。從人的視角來(lái)看,新生成的圖片跟原始圖片并沒(méi)有太大差別,這種現(xiàn)象我們就叫做對(duì)抗樣本,也就是說(shuō)新的圖片對(duì)網(wǎng)絡(luò)而言是具有“對(duì)抗性”或者說(shuō)“攻擊性”的。

對(duì)抗樣本現(xiàn)象引發(fā)了人們對(duì)網(wǎng)絡(luò)可理解性的關(guān)注,因?yàn)榫W(wǎng)絡(luò)的“黑盒”特性使我們無(wú)從得知它為什么會(huì)預(yù)測(cè)正確或者預(yù)測(cè)錯(cuò)誤,而且這種錯(cuò)誤的特性還特別不符合人類(lèi)的直覺(jué),人類(lèi)無(wú)法理解說(shuō)這樣一個(gè)噪聲為何能夠引起這么大的一個(gè)改變。因此現(xiàn)在有大量的工作就是在做對(duì)抗的樣本攻擊以及對(duì)抗的樣本防御。我們的組在這方面之前也是做了很多工作,在去年的NIPS 2017年有一個(gè)對(duì)抗攻防比賽,我們的組在攻擊和對(duì)抗方面都做到了第一。

我們接下來(lái)會(huì)利用關(guān)鍵數(shù)據(jù)通路去進(jìn)行對(duì)抗樣本檢測(cè)。我們的思考是這樣的,兩種樣本在輸入端從人類(lèi)的感覺(jué)上看來(lái)差別并不大,這也意味著前幾層所走的網(wǎng)絡(luò)關(guān)鍵路徑按理來(lái)說(shuō)差別不大。只是對(duì)抗樣本的噪聲越往高層走,它被干擾的程度不知因何被放大了,才導(dǎo)致路徑開(kāi)始偏離,最終走到另一個(gè)類(lèi)別上去,導(dǎo)致預(yù)測(cè)結(jié)果完全不一樣。

那么我們其實(shí)可以訓(xùn)練出某種分類(lèi)器,專(zhuān)門(mén)用來(lái)檢測(cè)真實(shí)樣本與對(duì)抗樣本的關(guān)鍵數(shù)據(jù)通路。如果查出來(lái)差別,就有一定的概率檢測(cè)出它究竟是真實(shí)樣本還是對(duì)抗樣本。

接下來(lái)說(shuō)一下實(shí)驗(yàn)的部分。

清華大學(xué)王宇龍:如何通過(guò)關(guān)鍵數(shù)據(jù)通路去理解網(wǎng)絡(luò)行為? | AI研習(xí)社62期大講堂

我們首先做了一個(gè)定量實(shí)驗(yàn)來(lái)檢驗(yàn)方法的有效性,這個(gè)實(shí)驗(yàn)叫做post-hoc interpretation(中文是“事后解釋”),就是針對(duì)網(wǎng)絡(luò)最終的預(yù)測(cè)結(jié)果再做一次解釋?zhuān)ㄒ粡垐D片只解釋一個(gè))。在實(shí)驗(yàn)中,數(shù)據(jù)集采用來(lái)自 ImagNet 的五萬(wàn)張 validation images,訓(xùn)練網(wǎng)絡(luò)則用的AlexNet、VGG-16、ResNet-50等。

需要說(shuō)明的是,實(shí)驗(yàn)只聚焦在卷積層,因?yàn)轭?lèi)似 VGG-16、ResNet 的 fully-connected layers,我們認(rèn)為是一個(gè)最終的分類(lèi)器,所以不考慮這一層面的關(guān)鍵數(shù)據(jù)通路。再者,ResNet 的網(wǎng)絡(luò)層較深,我們也不可能將所有的卷積層都考慮進(jìn)來(lái),太冗余且沒(méi)有必要。所以對(duì)于 ResNet,我們的處理方法就是只關(guān)注 ResBlocks 的輸出,而這個(gè) Block 的量相對(duì)較少,我們?cè)俑鶕?jù)這些 Block 的輸出去觀察它所利用到的關(guān)鍵節(jié)點(diǎn)。

給大家介紹這個(gè)實(shí)驗(yàn),當(dāng)我們找到關(guān)鍵節(jié)點(diǎn)以后,我們將有序地抑制掉一部分的關(guān)鍵節(jié)點(diǎn),然后再觀察它對(duì)網(wǎng)絡(luò)最終造成多大程度的影響。

清華大學(xué)王宇龍:如何通過(guò)關(guān)鍵數(shù)據(jù)通路去理解網(wǎng)絡(luò)行為? | AI研習(xí)社62期大講堂

在操作上有兩種方式,一種是先刪除control gate value最大的,我們稱(chēng)作Top Mode,或者反過(guò)來(lái),我們先刪除control gate value最小的,這兩種刪除方式最后引起網(wǎng)絡(luò)性能下降的一個(gè)曲線(xiàn),在下面這兩張圖上展示。(注:control gate value越大,那么說(shuō)明它的影響/重要性越大)

可以看下上邊這張圖,橫坐標(biāo)顯示的是被抑制的關(guān)鍵節(jié)點(diǎn)比例,我們可以看到,只有1%的關(guān)鍵節(jié)點(diǎn)被抑制(通道置為0),原模型的top-1 acc還有top-5 acc就會(huì)面臨非常劇烈的下降,分別是top-1 acc下降百分之三十多,top-5 acc下降百分之二十多。

也就是說(shuō),只要1%的關(guān)鍵節(jié)點(diǎn),還不是所有節(jié)點(diǎn)(關(guān)鍵節(jié)點(diǎn)其實(shí)只占網(wǎng)絡(luò)節(jié)點(diǎn)的百分之十左右)被刪除的話(huà),網(wǎng)絡(luò)性能就會(huì)面臨劇烈的下降。在某種程度上來(lái)說(shuō),這個(gè)結(jié)果證明了我們所尋找到的關(guān)鍵節(jié)點(diǎn)的有效性。

節(jié)點(diǎn)的語(yǔ)義含義

其實(shí)我們更重要的工作成果在這一部分,那就是我們所尋找的節(jié)點(diǎn)其實(shí)包含了一定的語(yǔ)義含義,這是網(wǎng)絡(luò)可解釋性領(lǐng)域一直在關(guān)注的。首先我們會(huì)關(guān)注層內(nèi)的路由節(jié)點(diǎn)的語(yǔ)義含義,比如說(shuō)一個(gè)樣本進(jìn)來(lái),它經(jīng)過(guò)每一層,我們會(huì)先看每層有哪些節(jié)點(diǎn),然后再看它擁有什么樣的語(yǔ)義含義。 

清華大學(xué)王宇龍:如何通過(guò)關(guān)鍵數(shù)據(jù)通路去理解網(wǎng)絡(luò)行為? | AI研習(xí)社62期大講堂

我們?cè)谏戏秸故玖?張圖,每張圖上有五萬(wàn)個(gè)點(diǎn),對(duì)應(yīng)的是五萬(wàn)張圖片。不過(guò)我們都知道,網(wǎng)絡(luò)里的channel維都是像512、256這樣一個(gè)向量,我們?cè)趺礃涌梢园堰@五萬(wàn)個(gè)向量之間的相似性更直觀的展示出來(lái)呢?我們最終采用的是t-SNE方法,類(lèi)似于說(shuō)將一些向量投影到二維平面上去。投影的結(jié)果就像下面5張圖展示的,顏色代表類(lèi)別,同樣類(lèi)別的圖片所對(duì)應(yīng)的點(diǎn),顏色都是相同的。我們會(huì)看到,隨著層數(shù)加深,它的點(diǎn)也隨著變得更加稀疏起來(lái),然而實(shí)際上點(diǎn)的數(shù)量是沒(méi)有改變的,依然還是五萬(wàn)張,五萬(wàn)個(gè)點(diǎn)。

為什么會(huì)呈現(xiàn)這樣一個(gè)稀疏或者分離的現(xiàn)象呢?因?yàn)橥瑐€(gè)類(lèi)別的點(diǎn)都聚集在同一處,距離也就變得更加靠近,所以看起來(lái)中間有很多空白的部分。這也說(shuō)明,在越高層的地方,同個(gè)類(lèi)別所走過(guò)的節(jié)點(diǎn)或路徑會(huì)越加相似,簡(jiǎn)單來(lái)說(shuō)就是貓走貓的路徑,狗走狗的節(jié)點(diǎn)。

這張圖全面地展示了VGG-16里13個(gè)卷積層每一層關(guān)鍵節(jié)點(diǎn)的二維圖,我們會(huì)看到,在底層里各個(gè)類(lèi)別都混雜在一起,沒(méi)有特別明顯的區(qū)分,然而隨著層數(shù)變高,顏色會(huì)開(kāi)始有規(guī)律地聚集到同一個(gè)區(qū)域,說(shuō)明這些類(lèi)別開(kāi)始各走各自的路徑。越到高層越稀疏

清華大學(xué)王宇龍:如何通過(guò)關(guān)鍵數(shù)據(jù)通路去理解網(wǎng)絡(luò)行為? | AI研習(xí)社62期大講堂

在知曉每層節(jié)點(diǎn)的語(yǔ)義情況下,我們想進(jìn)一步了解由這些節(jié)點(diǎn)連接構(gòu)成的關(guān)鍵數(shù)據(jù)路徑,究竟具備什么樣的語(yǔ)義特征。于是我們做了一個(gè)實(shí)驗(yàn),針對(duì)類(lèi)內(nèi)樣本(樣本都是屬于同一類(lèi)的),我們將它們所有的CDRPs的特征表示拿去做一個(gè)層次化聚集聚類(lèi),看看它們的CDRPs表征究竟有什么相似性。 

清華大學(xué)王宇龍:如何通過(guò)關(guān)鍵數(shù)據(jù)通路去理解網(wǎng)絡(luò)行為? | AI研習(xí)社62期大講堂

上面的樹(shù)形圖,表示每個(gè)樣本之間的相似程度,越往底層,兩個(gè)樣本就越靠近,而越往高層,就越慢被聚到一起??v坐標(biāo)代表了兩個(gè)樣本的距離,里面的相似顏色代表的是他們被聚成一個(gè)子類(lèi)了。我們?cè)诳催@些圖片的聚類(lèi)情況會(huì)發(fā)現(xiàn),如果圖片特征很相似,那么他們的CDRPs聚類(lèi)結(jié)果也是很相似的。

另外還有一個(gè)很有趣的發(fā)現(xiàn),像左邊這50張圖,應(yīng)該是某種魚(yú),魚(yú)的圖片有這樣的一些分布規(guī)律:魚(yú)處在中間位置,采用的是橫拍模式,另外還有一類(lèi)圖片,則是垂釣愛(ài)好者手里捧著魚(yú)蹲在地上拍照。我們發(fā)現(xiàn),這兩類(lèi)圖片都被歸到魚(yú)這個(gè)類(lèi)別,然而實(shí)際上圖片的特征存在很大的不同。

目前看來(lái)網(wǎng)絡(luò) features 是檢驗(yàn)不出來(lái)這種差異的,因?yàn)樗鼈冏罱K都被預(yù)測(cè)為魚(yú)這一個(gè)類(lèi)別。然而我們的 CDRPs 表征就細(xì)致發(fā)現(xiàn)了其中的差異,就體現(xiàn)在兩者所走的關(guān)鍵路徑其實(shí)是不一樣的。

像左邊這張圖有紅框框起來(lái)的4張圖,其實(shí)是通過(guò) CDRPs 的所分析出來(lái)的類(lèi)似 outliner 的圖片。如果仔細(xì)看,會(huì)發(fā)現(xiàn)其中有一張圖片是一個(gè)人抱著魚(yú),但是方向卻被旋轉(zhuǎn)了90度,按理來(lái)說(shuō)這是一個(gè)類(lèi)似于噪聲一樣的存在,然而我們的CDRPs卻能把它歸類(lèi)到魚(yú)的類(lèi)別,只是所走的關(guān)鍵路徑和其他樣本有著不一樣的特征,因此把它給聚類(lèi)出來(lái),變成一個(gè)發(fā)現(xiàn)。

像右面則是一個(gè)白頭鷹,中間第二個(gè)的聚類(lèi)都是聚焦于鷹的頭部,而第三類(lèi)則聚焦于鷹站在樹(shù)上,而左邊這個(gè)是單獨(dú)的 outliner,都是一些非常不清晰的圖像。

這里展示的是更多的一些結(jié)果。 

清華大學(xué)王宇龍:如何通過(guò)關(guān)鍵數(shù)據(jù)通路去理解網(wǎng)絡(luò)行為? | AI研習(xí)社62期大講堂

對(duì)抗樣本檢測(cè)的應(yīng)用

最后呢,我們嘗試用來(lái)做對(duì)抗樣本檢,像我之前所說(shuō)的,正常樣本與對(duì)抗樣本,從輸入端來(lái)說(shuō)沒(méi)有太大差別,但是從最后的預(yù)測(cè)結(jié)果來(lái)說(shuō),是有很大區(qū)別的。在我們看來(lái),是兩張圖片在網(wǎng)絡(luò)里所走的關(guān)鍵路徑逐漸有了分歧,導(dǎo)致了最終的分開(kāi)。

清華大學(xué)王宇龍:如何通過(guò)關(guān)鍵數(shù)據(jù)通路去理解網(wǎng)絡(luò)行為? | AI研習(xí)社62期大講堂

我們先看上方左邊這張圖,這張圖首先是一個(gè)正常樣本,加了噪聲以后,預(yù)測(cè)結(jié)果由貓變成了車(chē)輪。我們?cè)撊绾误w現(xiàn)這兩種關(guān)鍵路徑的區(qū)別呢?我們主要算的是這兩個(gè)樣本在不同層上所走的關(guān)鍵節(jié)點(diǎn)的相關(guān)性,我們先找到每一層各自的關(guān)鍵節(jié)點(diǎn),然后有一個(gè)向量,然后根據(jù)這個(gè)向量去推算相關(guān)系數(shù)來(lái)表示兩個(gè)路徑的相似性。

上面這張圖里的橘紅線(xiàn)代表了這個(gè)相似程度,可以發(fā)現(xiàn)對(duì)抗樣本對(duì)于正常樣本的相似性是隨著層數(shù)增高的,而大致趨勢(shì)是逐漸下降的。簡(jiǎn)單來(lái)說(shuō),高層的相似性要比底層小得多

我們又算了下對(duì)抗樣本對(duì)于目標(biāo)類(lèi)別,它們這些樣本所走的這些關(guān)鍵路徑的相似性,接著計(jì)算車(chē)輪這一類(lèi)別樣本的路徑相似性。我們找來(lái)車(chē)輪這一類(lèi)別的50張圖片,將這50張樣本的每個(gè)路徑都算一遍相關(guān)系數(shù),上面這張圖叫做violinplot,展示的就是這50個(gè)系數(shù)的分布展示情況。

由于每個(gè)樣本之間存在差異,所有顯示結(jié)果有的高有的低。最后發(fā)現(xiàn),隨著層數(shù)加深,目標(biāo)類(lèi)別的相似系數(shù)會(huì)越來(lái)越高。比如在最高層的地方,violinplot的最低點(diǎn)都要比原始橘紅色的點(diǎn)要高。這也就是說(shuō),對(duì)抗樣本在高層所走的路徑和目標(biāo)類(lèi)別所走的路徑是很相似的,后面幾張圖也是在闡述這樣一個(gè)情況,具體的情況大家可以細(xì)致地去參考一下論文。

接著我們又去做對(duì)抗樣本檢測(cè),檢測(cè)方法是通過(guò)取一些正常的樣本,比如說(shuō)從 ImageNet 里挑出一千種類(lèi)別,每一種類(lèi)別取出1張圖片(有些實(shí)驗(yàn)取出5張圖片,有些取出10張圖片等等),然后每一張圖片我們都產(chǎn)生一個(gè)對(duì)抗樣本(用的 FGSM 算法),然后作為訓(xùn)練集,接著用我們的算法去算它的 CDRPs 表征,再取一個(gè)二分類(lèi)的分類(lèi)器來(lái)檢測(cè)和判斷這個(gè)路徑是屬于正常樣本還是對(duì)抗樣本。

訓(xùn)練結(jié)束以后,我們就用這個(gè)分類(lèi)器來(lái)做對(duì)抗樣本檢測(cè),換句話(huà)說(shuō),我們自己構(gòu)造了一個(gè)包含正常樣本與對(duì)抗樣本的數(shù)據(jù)集,然后用訓(xùn)練所得到的分類(lèi)器來(lái)預(yù)測(cè)哪一個(gè)是正常樣本,哪一個(gè)是對(duì)抗樣本。

下面的表格展示了我們不同實(shí)驗(yàn)室的實(shí)驗(yàn)結(jié)果,這個(gè)值如果越高,越近于1,就說(shuō)明這個(gè)分類(lèi)越完美。隨著訓(xùn)練樣本的增加,分類(lèi)結(jié)果變得越來(lái)越好之余,不同的二分類(lèi)器所能達(dá)到的水準(zhǔn)還是比較相似的(可能使用像 gradient boosting 或者 random forest 的方法會(huì)更好一些)。 

清華大學(xué)王宇龍:如何通過(guò)關(guān)鍵數(shù)據(jù)通路去理解網(wǎng)絡(luò)行為? | AI研習(xí)社62期大講堂

結(jié)論

最后總結(jié)一下我今天所分享的內(nèi)容,首先是我們提了一個(gè)全新的角度來(lái)進(jìn)行網(wǎng)絡(luò)可解釋性,也就是通過(guò)尋找關(guān)鍵數(shù)據(jù)路徑,我們會(huì)發(fā)現(xiàn)有一些語(yǔ)義含義包含在數(shù)據(jù)路徑里頭。包括像層內(nèi)節(jié)點(diǎn),它會(huì)有一定的區(qū)分能力,而且隨著層數(shù)的增高,區(qū)分能力會(huì)逐漸加深

同一時(shí)間,關(guān)鍵路徑又體現(xiàn)出類(lèi)內(nèi)樣本不同的輸入特征,有助于幫助我們發(fā)現(xiàn)一些數(shù)據(jù)集當(dāng)中的樣本問(wèn)題。

最后我們提了一個(gè)新的對(duì)抗樣本檢測(cè)算法,通過(guò)利用CDRPs的特征來(lái)檢測(cè)它究竟是真實(shí)樣本還是對(duì)抗樣本。CDRPs反映出對(duì)抗樣本在高層與正常樣本的距離較遠(yuǎn),在底層與正常樣本距離較近這樣一種特征模式,利用這種特征模式我們可以進(jìn)行檢測(cè),達(dá)到一個(gè)很好的防御效果。

以上就是本期嘉賓的全部分享內(nèi)容。更多公開(kāi)課視頻請(qǐng)到雷鋒網(wǎng)AI研習(xí)社社區(qū)(https://club.leiphone.com/)觀看。關(guān)注微信公眾號(hào):AI 研習(xí)社(okweiwu),可獲取最新公開(kāi)課直播時(shí)間預(yù)告。

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。

清華大學(xué)王宇龍:如何通過(guò)關(guān)鍵數(shù)據(jù)通路去理解網(wǎng)絡(luò)行為? | AI研習(xí)社62期大講堂

分享:
相關(guān)文章
當(dāng)月熱門(mén)文章
最新文章
請(qǐng)?zhí)顚?xiě)申請(qǐng)人資料
姓名
電話(huà)
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶(hù)安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說(shuō)